昨天(28 日)夜间,商汤科技正式发布并开源 " 日日新 SenseNova U1" 系列原生理解生成统一模型。它基于商汤今年 3 月自主研发的 NEO-unify 架构,首次在单一模型架构上实现多模态理解、推理与生成的统一,标志着从 " 模态集成 " 向 " 原生统一 " 的范式跨越。

在逻辑推理与空间智能方面,该模型能够深度理解物理世界的复杂布局与精细关系。未来,它还可为机器人提供 " 具身大脑 ",在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程。
本次开源发布的是 SenseNova U1 的轻量版系列—— SenseNova U1 Lite,包含两个不同规格的模型:SenseNova-U1-8B-MoT(基于稠密骨干网络)和 SenseNova-U1-A3B-MoT(基于混合专家 MoE 骨干网络)。相关代码与模型已上线 GitHub 和 Hugging Face 平台,商汤表示将于近期公布详细技术报告。
效率优势显著:小模型达到商用级水准
效率,是统一模型架构的核心技术优势。
传统多模态模型通过将视觉编码器与语言骨干用适配器拼接,类似于一个 " 多人协作、层层转述 " 的工作组,信息在不同模块间传递容易出现损耗和延迟。而 SenseNova U1 基于统一表征空间构建,如同一个 " 全能大脑 ",在同一套思考方式中直接处理图像、文字等不同信息,避免了中间转译带来的信息损失,从而以更紧凑、更高密度的方式组织多模态数据。

实验结果显示,在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中,SenseNova U1 Lite 均达到同量级开源模型的 SOTA(最先进水平)。仅凭 8B-MoT 的较小规格,就能达到甚至超越部分大型商业闭源模型。在通用图像生成测试中,其生成质量比肩 Qwen-Image 2.0 Pro 或 Seedream 4.5 等大型闭源模型,同时推理响应速度具有显著优势;在开源模型长期表现不佳的复杂信息图生成任务中,也展现出商业级水准,对排版和文字具备强控制力。


业内首创:连续性图文创作输出
凭借 NEO-Unify 架构,SenseNova U1 在业内首个实现连续性的图文创作输出,并且仅需单次单模型调用即可完成。传统方法往往需要多模型串联,勉强实现图文交替,且图像间风格一致性差。而 SenseNova U1 将图像和文本底层融合信号完整保留在上下文中,在统一表征空间进行高效连贯思考。
在演示案例中,模型可根据 " 五分熟牛排做法 " 任务,自主规划分步过程并为每一步生成对应的图像,各步骤图示表现出极高的一致性。在 " 绘制钢铁侠图案 " 任务中,模型能够从扫描草稿出发,逐步连续创作,最终输出完成度很高的图像,每一步创作都精准保持了前一步的结构与细节。

商汤科技向新民晚报记者表示,这一能力将为人机协作、创意设计、智能教育等领域打开新的应用空间,也为上海 AI 产业的原生多模态技术发展提供重要基础与关键引擎。
【开源部署】【调用 SenseNova U1 Skill】
来源:新民晚报 作者:郜阳