腾讯混元图像 3.0 发布仅仅一周,就开启了全球 " 霸榜 " 模式。
10 月 5 日,国际大模型竞技场 LMArena 最新文生图榜单显示,混元图像 3.0 在全球 26 个大模型中,高居第一位。这一结果来自全球所有用户的 " 盲测 ",这也标志着混元在多模态生成方面达到全球领先水平。
9 月初,腾讯混元开源的图像 2.1 已是当时效果最佳的开源生图模型。此次混元图像 3.0 更上一层楼,首次夺得文生图榜单冠军,超越众多顶级闭源模型,展现出强大的技术实力。
LMArena 是美国加州大学伯克利分校推出的创新 AI 模型评估平台,评测核心方法是基于人类真实偏好的 " 盲测 " 机制,让用户对不同 AI 模型的回答进行匿名投票,衡量模型的表现。用户输入问题后,平台提供两个模型的回答,用户根据偏好选择更优答案,投票结果直接塑造公共排行榜。 由于该平台访问量巨大,并且评测机制贴近实际体验,是目前国际上最权威的竞技场榜单。
混元图像 3.0 是腾讯 9 月 28 日发布并开源的原生多模态生图模型。这是首个开源工业级原生多模态生图模型,也是目前效果最好的开源生图模型。混元图像 3.0 具备常识并能够利用知识进行推理;同时语义理解准确度高,并具备极致美学质感,能生成真实的高质感图片;支持中英文文字生成,长文本文字渲染。
混元图像 3.0 模型也同样受到开发者的欢迎,发布后不久即登上了 Hugging Face 开源社区模型热榜的第一名,持续一周稳居第一;如今又登上了 LMarena 榜单的榜首,反映了用户与社区对模型的关注与认可。
腾讯混元团队透露,混元图像 3.0 目前的版本已开放了文生图能力,图生图、图像编辑、多轮交互等版本将于后续发布。
理解世界知识,可基于简单提示词自主推理生成
多模态正在成为混元大模型的核心竞争力之一,混元 3D 与图像生成模型均处于行业顶尖水平。在 3D 生成领域,8 月上海人工智能实验室的全球 3D 生成模型评测榜单显示,混元 3D 模型在图生 3D 和文生 3D 任务中均位列第一;混元世界模型 Voyager 在斯坦福大学 WorldScore 基准测试中综合能力排名首位。
混元目前已形成语言、图像、视频、3D 模型的多尺寸、多模态开源矩阵,提供接近商业模型性能的开源基座。图像、视频衍生模型数量总数达到 3000 个,混元 3D 系列模型社区下载量超过 260 万,是全球最受欢迎的 3D 开源模型。