APP下载

关于ZAKER

Skills 合作

新民晚报 7小时前

国产 AI 新突破 ! 商汤开源“原生理解生成统一模型” , 告别“拼接式”多模态

昨天（28 日）夜间，商汤科技正式发布并开源 " 日日新 SenseNova U1" 系列原生理解生成统一模型。它基于商汤今年 3 月自主研发的 NEO-unify 架构，首次在单一模型架构上实现多模态理解、推理与生成的统一，标志着从 " 模态集成 " 向 " 原生统一 " 的范式跨越。

新民晚报记者了解到，NEO-unify 架构彻底摒弃了主流的拼接式设计，去除了视觉编码器（VE）和变分自编码器（VAE），重新构建了统一的表征空间，并将统一表征深入融入模型的每一层计算中。SenseNova U1 能够将语言与视觉信息作为一个复合体直接建模，实现二者高效协同，让理解与生成能力同步增强，在保留语义丰富度的同时维持像素级的视觉保真度。

在逻辑推理与空间智能方面，该模型能够深度理解物理世界的复杂布局与精细关系。未来，它还可为机器人提供 " 具身大脑 "，在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程。

本次开源发布的是 SenseNova U1 的轻量版系列—— SenseNova U1 Lite，包含两个不同规格的模型：SenseNova-U1-8B-MoT（基于稠密骨干网络）和 SenseNova-U1-A3B-MoT（基于混合专家 MoE 骨干网络）。相关代码与模型已上线 GitHub 和 Hugging Face 平台，商汤表示将于近期公布详细技术报告。

效率优势显著：小模型达到商用级水准

效率，是统一模型架构的核心技术优势。

传统多模态模型通过将视觉编码器与语言骨干用适配器拼接，类似于一个 " 多人协作、层层转述 " 的工作组，信息在不同模块间传递容易出现损耗和延迟。而 SenseNova U1 基于统一表征空间构建，如同一个 " 全能大脑 "，在同一套思考方式中直接处理图像、文字等不同信息，避免了中间转译带来的信息损失，从而以更紧凑、更高密度的方式组织多模态数据。

图像理解基准测试结果、图像生成基准测试结果、视觉推理基准测试结果

实验结果显示，在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中，SenseNova U1 Lite 均达到同量级开源模型的 SOTA（最先进水平）。仅凭 8B-MoT 的较小规格，就能达到甚至超越部分大型商业闭源模型。在通用图像生成测试中，其生成质量比肩 Qwen-Image 2.0 Pro 或 Seedream 4.5 等大型闭源模型，同时推理响应速度具有显著优势；在开源模型长期表现不佳的复杂信息图生成任务中，也展现出商业级水准，对排版和文字具备强控制力。

SenseNova U1 Lite 的商业级复杂信息图生成能力

商汤科技表示，正沿着当前技术路径继续 " 规模化 "，计划未来推出体量更大的模型。基于高效的原生架构，有望以远低于传统方案的计算成本达到国际顶尖模型水平。

业内首创：连续性图文创作输出

凭借 NEO-Unify 架构，SenseNova U1 在业内首个实现连续性的图文创作输出，并且仅需单次单模型调用即可完成。传统方法往往需要多模型串联，勉强实现图文交替，且图像间风格一致性差。而 SenseNova U1 将图像和文本底层融合信号完整保留在上下文中，在统一表征空间进行高效连贯思考。

在演示案例中，模型可根据 " 五分熟牛排做法 " 任务，自主规划分步过程并为每一步生成对应的图像，各步骤图示表现出极高的一致性。在 " 绘制钢铁侠图案 " 任务中，模型能够从扫描草稿出发，逐步连续创作，最终输出完成度很高的图像，每一步创作都精准保持了前一步的结构与细节。

（左）五分熟牛排做法：SenseNova U1 可以通过思考和规划产生分步的过程，并且给每一步输出对应的图像展示。各个步骤的图示表现出极高的一致性；（右）任务二：绘制一个钢铁侠图案：它可以从扫描草稿出发，逐步进行连续创作，最终做出一个完成度很高的图像。每一步创作的过程对于前一步的结构和细节都做了精准的保持——一个统一表征的共享上下文在其中发挥了关作用。

商汤科技向新民晚报记者表示，这一能力将为人机协作、创意设计、智能教育等领域打开新的应用空间，也为上海 AI 产业的原生多模态技术发展提供重要基础与关键引擎。

【开源部署】【调用 SenseNova U1 Skill】

来源：新民晚报作者：郜阳

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

国产 AI 新突破 ! 商汤开源“原生理解生成统一模型” , 告别“拼接式”多模态

宙世代

一起剪

相关阅读

俞浩又连发三文喊话小红书CEO：momo盛行是鼓励作恶

雅迪、爱玛等8家电动自行车企业被约谈：严禁加装改装、限速25公里/小时

北京市场监管局约谈雅迪、爱玛等8家电动自行车企业

全长59.9公里！亚洲最长地铁环线一期即将通车

兴辉时代创始人高兴辉，90后小镇女孩离开教培大厂，三年创造2亿GMV的倔强人生

一斤纯银打造 中国独特半球形硬币问世 限量2000枚

闹大！漫步者辟谣涉嫌污损伟人形象图片：被人恶意篡改 已报案

V社仍在开发Steam Deck 2

626.01米全球最高！中国大桥正式获吉尼斯世界纪录认证

别扎堆！五一加油、打车高峰时间出炉

吴宣仪名下仅1家公司存续

南宁市委常委答21：布局“AI+微短剧”新赛道，推动组团出海

赖清德窜访遭拒，国台办回应

云南18岁女孩被表姐卖到山东，10年里从未想过逃跑，婆婆笑称赶都赶不走，女孩：我就是认命

最新评论

企业资讯

热门推荐

企业资讯

一斤纯银打造中国独特半球形硬币问世限量2000枚

闹大！漫步者辟谣涉嫌污损伟人形象图片：被人恶意篡改已报案