腾讯混元世界模型再放大招!刚刚发布并开源混元世界模型 1.1(WorldMirror)——真正统一的端到端 3D 重建基座大模型。
同时,混元世界模型 1.1 也是业界首个统一(any-to-any)的前馈式(feedforward)3D 重建大模型。
不仅支持额外的相机、深度等多模态先验输入,还能同时实现点云、深度、相机、表面法线和新视角合成等多任务统一输出,性能达成新的SOTA。
效果上,无论是 3D 点云重建还是端到端 3DGS 重建,混元世界模型 1.1 都展现出领先同行的几何精度和细节还原,可以实现更稳定、更真实的场景重建。
场景重建效果更佳
首先体验一下此次混元世界模型 1.1 的生成效果:
动画风格的虚拟场景,对它来说 so easy,嗖地一下就置身欧洲小镇街角,感觉下一秒就可以游戏跑图了(doge)
那么再和业界模型横向对比看看。
先让混元世界模型 1.1 和 Meta 的最新开源模型MapAnything同时处理 3D 点云重建任务。
而在端到端 3D 高斯重建任务中,混元世界模型 1.1 在与AnySplat 模型的对比中,同样也展现出领先优势。
端到端 3D 重建大模型
新模型是继今年 7 月发布的混元世界模型 1.0后,腾讯的又一次世界模型大升级。
混元世界模型 1.0 作为业界首个开源并兼容传统 CG 管线的可漫游世界生成模型,支持文本或单图输入生成 3D 场景,凭借 " 可在消费级显卡上部署 " 的特性,一经推出便引发社区热议。
而刚刚发布的混元世界模型 1.1 版本则是在此基础上,全新推出端到端 3D 重建大模型,并且同样是发布即开源。
1、灵活处理不同输入(any input)
传统 3D 重建方法只能处理原始图像,无法利用现实应用中常见的额外信息,混元世界模型 1.1 则突破性地提出多模态先验引导机制,支持灵活注入:
相机位姿:
提供全局视角约束,确保多视图一致性
相机内参:
解决尺度歧义,精确投影几何关系
深度图:
为纹理缺失区域(如反光面、无纹理区)提供像素级约束
系统采用分层编码策略,紧凑先验压缩为全局语义令牌,稠密先验则以空间对齐方式融合进视觉特征。
通过动态先验注入机制,模型能灵活适应任意先验组合,简单来说,就是如果有就能用,如果没有也能照常工作。
2、通用 3D 视觉预测(any output)
传统方法往往为单一任务定制,点云、深度、相机位姿,三者选择其一。而混元世界模型 1.1 实现了业界首次统一,并均取得了 SOTA 的表现:
点云:密集点云回归
多视角深度图:逐像素深度估计
相机参数:完整位姿和内参预测
表面法线:支持高质量网格重建
3D 高斯点:直接用于实时新视角渲染
具体实现是通过端到端多任务协同训练,各任务相互强化,例如,预测的法线图在 Poisson 表面重建中能产生更清晰的网格细节,而深度和相机约束则互相校准,提升整体几何一致性。
3、单卡部署、秒级推理
不同于需要迭代优化的传统方法(可能耗时数分钟甚至数小时),混元世界模型 1.1 采用纯前馈架构,在单次正向传播中直接输出所有 3D 属性,比如说处理典型的 8-32 视图输入,模型耗时仅需 1 秒钟。
多模态先验提示
每种先验采用专化编码策略,其中相机位姿和内参通过 MLP 投影为单个令牌;深度图通过卷积核生成空间对齐的密集令牌,与视觉特征直接相加。
这种异构融合策略既保留了全局约束的稳定性,又维持了局部几何信息的细节。
通用几何预测架构
基于完全Transformer骨干,使用 DPT 头进行密集预测(点云、深度、法线),再用 Transformer 层回归相机参数。
而对于 3DGS,系统直接预测高斯位置和属性,并通过可微光栅化器进行监督。
然后通过端到端的多任务协同训练,混元世界模型 1.1 在结构精度、渲染保真度及跨任务泛化能力上均显著超越现有方案,为通用三维世界建模奠定了新的技术基石。
整个训练分三个维度递进:
任务顺序:
先学基础几何,再学表面属性,最后学 3DGS。
数据调度:
先用多样化数据,再用高质量合成数据。
分辨率渐进:
从低到高。
所采用的这套策略可以将单一图像分布外的泛化能力最大化。
目前混元世界模型 1.1 项目已完全开源,开发者可克隆 GitHub 仓库,按照文档一键部署到本地使用。
普通用户也可以直接进入 huggingface space 在线体验,支持上传多视图图像或视频,实时预览 3DGS 渲染结果,相关入口点击文末链接即可获取。
它不仅在性能上刷新开源 SOTA,更重要的是打破了技术壁垒——让任何人都能在秒级内从视频或图片中创造出专业级 3D 场景。
混元团队表示,还将持续优化性能和资源效率,与社区共创生态,让强大的 AI 模型触手可及。
GitHub 地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
Hugging Face 地址:https://huggingface.co/tencent/HunyuanWorld-Mirror
demo 地址:https://huggingface.co/spaces/tencent/HunyuanWorld-Mirror
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见