关于ZAKER 合作
量子位 昨天

混元 3D 世界模型 1.0 lite 版本发布,消费级显卡就能跑

只需要一句话或一张图片,就能生成 360 度全景 3D 世界。

还支持沉浸式漫游。

以上,均是腾讯混元 3D 世界生成模型 HunyuanWorld 1.0 在消费级显卡上跑出来的——

发布即开源,还可兼容传统 CG 管线,低门槛操作但高质量生成。

与最近爆火的 Genie3 只能生成视频不同,该模型还可以导出能进行二次编辑的 3D mesh。

下面咱们边看效果边说技术。

HunyuanWorld 1.0 技术框架的核心是以全景图为桥梁,分层实现 3D 生成,通过借助 2D 生成技术的多样性做出丰富场景,再基于全景图实现 3D 生成的连贯性。

分层场景生成

场景生成的关键流程可以概括为三步:

首先根据文字或图片输入,生成无边界断裂、无几何变形的 360 ° 全景图。

接着将全景图拆分为天空、背景、前景物体等可独立操作的语义图层。

最后为各图层标注合理深度,再按图层特性分别转化为 3D 结构,同时支持导出标准 3D 模型。

在此基础上,框架还做了两项实用优化:一是通过点云缓存与视频扩散技术,实现长距离场景的无缝漫游;

二是针对 3D 模型的在线 / 离线双模式压缩存储和生成推理进行优化,确保技术能落地应用于 VR、游戏开发等实际场景。

突破显存瓶颈

然而,初始版本显存开销较大,即使开启 pipeline offloading 技术,仍需 26GB 以上显存,大多数消费级显卡无法运行。

为了让更多个人开发者能够便捷使用混元 3D 世界模型 1.0,混元团队推出了混元 3D 世界模型 1.0-Lite 版本。

通过动态 FP8 量化技术SageAttention 量化技术Cache 算法加速推理等技术优化,在消费级显卡上就能跑出如此精美的水墨画全景。

还有蓝天白云下的田园小镇。

下面来说说具体是怎么做到的。

动态 FP8 量化技术

通过引入动态 FP8 量化,混元团队将模型显存需求从原本的 26GB 优化至 17GB 以下,显存占用减少了 35%,成功适配消费级显卡。个人开发者无需昂贵的高端显卡,也能轻松运行复杂的世界模型。

动态量化技术会针对不同参数层数值分布动态调整量化范围,确保在降低精度的同时最大程度保留模型性能,降低显存开销。

浮点数据类型的结构所有显示的值都是最接近数值 0.3952 的表示形式

(在 FP16、BF16、FP8 E4M3 和 FP8 E5M 中)

SageAttention 量化技术

通过引入 FP8 量化注意力算子,将 Transformer 中的注意力计算使用 INT8,同时结合动态平滑与硬件优化,实现推理速度提升 2 倍以上,精度损失 <1% 。

结合 Attention 量化和线性层量化后显著降低模型运行所需显存。

SageAttention 示意图 ( per-block quantize Q,K; FP16 V )

下表展示了优化前后模型运行显存的对比。

模型更新前显存更新后显存
全景代理生成23.14GB13.80GB(4090 可运行)
世界分层25.51GB16.17GB
(4090 可运行)

Cache 算法加速推理

混元团队集成了 Cache 算法,通过自动化搜参工具识别出关键时间步和 block,优化冗余时间步,显著提升推理效率,让模型运行更加流畅。

Cache 示意图

对比着来看,量化前后视觉效果没有太大差别。

原始效果

(HYWorld 1.0)

量化后效果 ( HYWorld 1.0-Lite )
量化前后效果对比

可以说,个人开发者即使使用入门级显卡也可以体验到与工业级显卡同等质量的生成结果。

团队还将混元 3D 世界模型 1.0 与业界其他开源 3D 世界模型进行横向对比。

经比较,混元 World 1.0 在多个维度(画面清晰度、推理速度、3D 引擎兼容性、可编辑性)表现更优。

混元 3D 世界模型(量化版)分钟级推理开源模型 A 小时级推理开源模型 B 小时级推理

除此之外,混元 3D 世界模型 1.0 还进一步实现了对场景中的天空、地面、植被、物体等不同组件分层建模。

并且生成的世界可导出为 3D mesh 格式文件,无缝接入游戏、物理引擎,进行二创,如游戏开发、影视制作、物理仿真等。

对比总结一下就是:

相比谷歌 Genie3,它生成可编辑 3D mesh 而非视频,且开源并提供单卡可部署量化版本,可用性更高;

优于李飞飞团队的 worldlabs 等闭源模型,后者仅停留在 demo 阶段且无生成接口;

强于其他同类开源模型,生成质量更优,支持文生及图生,是当前领先的开源 3D 世界模型。

在技术方案上,其 3D mesh 方案兼容现有 CG 和 3D 工业生产管线,实用价值高,同时支持 3DGS 方案;

在可部署性上,相较 Matrix-3D 等开源模型,凭借开源及单卡可部署特性,落地更便利。

看完这么多高能效果,感兴趣的朋友可点击下方链接尝试~

官网地址:3d.hunyuan.tencent.com

技术报告:https://arxiv.org/abs/2507.21809

GitHub 地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

Hugging Face 地址:https://huggingface.co/tencent/HunyuanWorld-1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

希望了解 AI 产品最新趋势?

量子位智库「AI 100」2025 上半年

「旗舰产品榜」和「创新产品榜」

给出最新参考

点亮星标

科技前沿进展每日见

相关标签