21 世纪经济报道记者雷晨
本月,国内 AI 大模型行业进入集中发布与开源周期,月之暗面、智谱 AI、腾讯、深度求索等多家企业密集推出新一代模型。
4 月 28 日晚间,商汤科技发布并开源日日新 SenseNova U1 系列原生理解生成统一模型,以自研 NEO unify 架构实现多模态理解、推理与生成的原生统一。
在多模态技术方向,传统方案多采用拼接式架构,通过适配器组合视觉编码、语言理解与生成模块,信息在不同组件间多次转换,存在损耗大、协同效率不足、推理成本偏高的问题。商汤 SenseNova U1 基于今年 3 月自主研发的 NEO unify 架构,摒弃主流拼接方式,去除独立视觉编码器与变分自编码器,构建统一表征空间,并将统一表征融入每一层计算,实现从模态集成到原生统一的范式跨越。
据了解,该架构可将语言与视觉信息作为统一复合体直接建模,提升理解与生成的协同效率,在保留语义丰富度的同时维持像素级视觉保真度,在逻辑推理、空间智能与复杂布局理解上表现更稳定,未来可支持机器人在单一模型内完成环境感知、逻辑推演到任务执行的全流程能力闭环。
本次商汤开源发布的是 SenseNova U1 Lite 轻量版,包含两个规格:基于稠密骨干的 SenseNova U1 8B MoT,以及基于混合专家架构的 SenseNova U1 A3B MoT。
官方测试显示,该系列在图像理解、图像生成与编辑、视觉推理等多项基准中达到同量级开源模型靠前水平,小参数版本在部分指标上可对标部分商业闭源模型,在复杂信息图生成、图文排版控制上具备商用级表现。

依托统一架构,SenseNova U1 实现业内首创的连续性图文创作输出,单次模型调用即可完成步骤化、高风格一致性的图文内容生成,可用于教学图解、流程说明、数据信息图、办公可视化等场景,简化工具链并降低内容生产与开发成本。
目前,模型已在 GitHub 与 HuggingFace 开放获取,配套技能库与提示词资源同步上线,商汤表示将在近期发布详细技术报告。
在行业人士看来,随着本轮开源大模型集中落地,国内多模态大模型正走向架构整合与实用普惠阶段。开源生态与工程化能力将成为下一阶段产业竞争的关键,多模态统一智能也将更深度地渗透到办公、教育、设计、智能制造等实体经济场景中。
更多内容请下载 21 财经 APP