关于ZAKER Skills 合作
新民晚报 7小时前

国产 AI 新突破 ! 商汤开源“原生理解生成统一模型” , 告别“拼接式”多模态

昨天(28 日)夜间,商汤科技正式发布并开源 " 日日新 SenseNova U1" 系列原生理解生成统一模型。它基于商汤今年 3 月自主研发的 NEO-unify 架构,首次在单一模型架构上实现多模态理解、推理与生成的统一,标志着从 " 模态集成 " 向 " 原生统一 " 的范式跨越。

新民晚报记者了解到,NEO-unify 架构彻底摒弃了主流的拼接式设计,去除了视觉编码器(VE)和变分自编码器(VAE),重新构建了统一的表征空间,并将统一表征深入融入模型的每一层计算中。SenseNova U1 能够将语言与视觉信息作为一个复合体直接建模,实现二者高效协同,让理解与生成能力同步增强,在保留语义丰富度的同时维持像素级的视觉保真度。

在逻辑推理与空间智能方面,该模型能够深度理解物理世界的复杂布局与精细关系。未来,它还可为机器人提供 " 具身大脑 ",在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程。

本次开源发布的是 SenseNova U1 的轻量版系列—— SenseNova U1 Lite,包含两个不同规格的模型:SenseNova-U1-8B-MoT(基于稠密骨干网络)和 SenseNova-U1-A3B-MoT(基于混合专家 MoE 骨干网络)。相关代码与模型已上线 GitHub 和 Hugging Face 平台,商汤表示将于近期公布详细技术报告。

效率优势显著:小模型达到商用级水准

效率,是统一模型架构的核心技术优势。

传统多模态模型通过将视觉编码器与语言骨干用适配器拼接,类似于一个 " 多人协作、层层转述 " 的工作组,信息在不同模块间传递容易出现损耗和延迟。而 SenseNova U1 基于统一表征空间构建,如同一个 " 全能大脑 ",在同一套思考方式中直接处理图像、文字等不同信息,避免了中间转译带来的信息损失,从而以更紧凑、更高密度的方式组织多模态数据。

图像理解基准测试结果、图像生成基准测试结果、视觉推理基准测试结果

实验结果显示,在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中,SenseNova U1 Lite 均达到同量级开源模型的 SOTA(最先进水平)。仅凭 8B-MoT 的较小规格,就能达到甚至超越部分大型商业闭源模型。在通用图像生成测试中,其生成质量比肩 Qwen-Image 2.0 Pro 或 Seedream 4.5 等大型闭源模型,同时推理响应速度具有显著优势;在开源模型长期表现不佳的复杂信息图生成任务中,也展现出商业级水准,对排版和文字具备强控制力。

SenseNova U1 Lite 的商业级复杂信息图生成能力

商汤科技表示,正沿着当前技术路径继续 " 规模化 ",计划未来推出体量更大的模型。基于高效的原生架构,有望以远低于传统方案的计算成本达到国际顶尖模型水平。

业内首创:连续性图文创作输出

凭借 NEO-Unify 架构,SenseNova U1 在业内首个实现连续性的图文创作输出,并且仅需单次单模型调用即可完成。传统方法往往需要多模型串联,勉强实现图文交替,且图像间风格一致性差。而 SenseNova U1 将图像和文本底层融合信号完整保留在上下文中,在统一表征空间进行高效连贯思考。

在演示案例中,模型可根据 " 五分熟牛排做法 " 任务,自主规划分步过程并为每一步生成对应的图像,各步骤图示表现出极高的一致性。在 " 绘制钢铁侠图案 " 任务中,模型能够从扫描草稿出发,逐步连续创作,最终输出完成度很高的图像,每一步创作都精准保持了前一步的结构与细节。

(左)五分熟牛排做法:SenseNova U1 可以通过思考和规划产生分步的过程,并且给每一步输出对应的图像展示。各个步骤的图示表现出极高的一致性;(右)任务二:绘制一个钢铁侠图案:它可以从扫描草稿出发,逐步进行连续创作,最终做出一个完成度很高的图像。每一步创作的过程对于前一步的结构和细节都做了精准的保持——一个统一表征的共享上下文在其中发挥了关作用。

商汤科技向新民晚报记者表示,这一能力将为人机协作、创意设计、智能教育等领域打开新的应用空间,也为上海 AI 产业的原生多模态技术发展提供重要基础与关键引擎。

【开源部署】【调用 SenseNova U1 Skill】

来源:新民晚报 作者:郜阳

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容