关于ZAKER 合作
雷科技 18分钟前

腾讯混元 3D Lite 版来了!支持消费级显卡,3D 模型走向全民化?

8 月 15 日,腾讯混元团队推出了 3D 世界模型的 Lite 版本。相较于以往 26GB 的显存需求,此次通过引入动态 FP8(8 位浮点格式)量化技术,将显存需求直接降至 17GB 以下,消费级显卡也能流畅运行。

此前,腾讯混元 3D 世界模型的 FP32 版本虽能完整保留所有细节,但显存占用极高——其参数可能超过十亿个,通常需要配备大容量 VRAM 的 GPU 来提升推理速度,因此消费级显卡根本无法支持。

简单来说,FP32、FP16、FP8 代表不同的「精度等级」。过去采用高精度的 FP32 技术时,虽能实现极高的精度还原,却会占用大量显存,还可能保留不必要的细节(例如背景的天空贴图等其实并不需要如此精雕细琢)。

此次动态 FP8 量化技术的核心,在于能实时监测模型运行时的数据分布,并针对不同模块进行动态适配:大部分关键区域采用 FP16 精度,像上述背景贴图等非关键部分则动态调整为 FP8 精度。

这一技术大幅降低了显存占用,虽然在部分区域适当降低了精度,却让个人玩家也能轻松使用 3D 世界模型。

腾讯混元 3D 世界模型是行业内首个开源可编辑的世界生成模型,能根据用户提供的图片或文字信息,直接生成完整、可编辑且可交互的世界模型,可直接应用于游戏开发、特效制作、教育仿真等场景。

图源:腾讯混元 3D 官网

与腾讯混元模型此前的 3D 模型 AI 生成功能相比,此次推出的 3D 世界模型生成的内容更为丰富,涵盖环境风格、室内外场景、光线渲染等多个因素。传统 3D 场景开发耗时极长,仅一个主要建筑物场景就可能耗费数周甚至更久,而这种一键生成式场景所带来的效率提升,完全超出了用户的想象。

那么,面对如此复杂的场景开发,混元 3D 世界模型是如何快速生成 360 ° 沉浸式视觉空间的呢?

从混元世界模型 1.0 的模型架构来看,全景世界图像生成技术作为连接文字、图片与世界的统一代理系统,会先生成初始化世界的全景图,从而实现 360 ° 的全覆盖场景。

图源:腾讯混元 3D 官网 混元世界模型 1.0 的模型架构

随后,系统会将整个 3D 世界解构为不同的清晰层级,例如前景与背景、海洋与地面、地面与天空等,再基于这些层级进行 3D 世界重建,最终形成 3D 世界模型。

相较于传统 3D 场景开发中每个细节都需精雕细琢、耗费大量时间和人力资源的情况,这种一键生成式场景不仅能节省大量时间,还能输出标准化的可漫游 3D Mesh 资产,兼容 Unity、Unreal Engine 等工具。

而且,生成内容的精度已达到可直接使用的水平:前景内的注意力区域细节呈现到位,背景与前景分离度足够,未出现界限不清晰、光影模糊等问题。

但在官网体验混元 3D 世界模型后会发现,它无法完全还原文字中的所有要求,只能还原大致的场景需求、光影颜色以及前景区域的细节。

例如,下图对应的文本要求中提到了机械世界、机器人等元素,但这些都未在生成的场景中呈现。系统只是提炼了与构建大体世界场景相关的词汇,如赛博废土风格、天空中红色的落日等,然后分离出前景与背景 —— 将 " 废弃的游乐场 " 解构为前景内容,红色落日作为背景天空内容,再基于这些层级重建 3D 世界场景,也就是说,它仅还原了场景的大致需求。

能明显看出混元 3D 世界模型目前还无法满足用户的个性化需求,不过已经能做到初步构建出前景、背景以及简单的场景细节,可以在游戏开发等工作中节省不少时间。

此外,这种依照用户要求生成的 3D 世界模型对普通玩家而言也极具可玩性。直接输出 3D Mesh 资产带来了格式的统一和学习成本的降低,当 AI 能够完成场景解构和 3D 构建工作时,用户的主观能动性就成了决定生成场景的唯一变量。

腾讯此次将混元 3D 世界模型普及至消费级显卡,目的十分明确 —— 吸引广大开发者与创作者涌入 " 腾讯混元 3D" 生态。该模型支持从 3D 模型到 3D 世界场景的全流程内容生成,用户由此能够创造属于自己的虚拟世界。

当前市面上,支持 3D 模型生成的 AI 大模型不在少数,如 Tripo AI、Meshy AI、GENIE 等。但众多玩家扎堆争抢 3D 化赛道,导致产品功能高度同质化,也侧面反映出 " 将现实场景搬进虚拟世界 " 已成为各厂商的核心必争功能。

在这些 AI 工具中,硅谷初创企业 VAST 于 2024 年发布的 AI 3D 基础模型 Tripo AI,凭借独特的产品结构脱颖而出。

与面向更广泛用户的腾讯混元 3D 不同,Tripo AI 的定位更偏向专业创作者:进入页面后,用户可直接通过文字或图片生成 3D 模型,且可调参数相对丰富 —— 不仅支持当前主流 AI 3D 模型均具备的纹理生成功能,还能自动拆分模型部件,让每个拆解后的部件可单独编辑;甚至支持为模型部件绑定基础动画并演示,不过演示过程中偶尔会出现部件变形问题。总体而言,Tripo AI 是一款功能成熟、可适配多场景的 AI 3D 工具。

图源:Tripo AI

同样在 2024 年推出的 Meshy AI(由国内团队创建),虽然也支持通过文字、图像直接生成 3D 模型,但它的核心优势在于更完善的社区功能:用户可在社区内浏览其他创作者的 3D 模型作品,平台对模型的分类细化清晰,还标注了互动量、点赞数、是否支持 3D 打印等关键信息。这一设计让新手用户能直接下载现成的 3D 模型使用,同时也提升了社区的传播度与活跃度。

图源:Meshy AI

而由 Luma AI 推出的 GENIE 工具,除支持文本转 3D 模型、多格式(如 OBJ、FBX 等)导出以适配不同场景外,最大亮点是提供 API 接口 —— 用户可通过该接口直接将视频内容转化为 3D 模型,形成差异化竞争力。

不难看出,上述产品均凭借自身特色在同质化竞争中突围,腾讯混元 3D 也不例外。尽管其 3D 模型生成功能与其他工具未拉开明显差距,但 " 高免费额度 " 是其核心优势:在混元 AI 3D 官网,每位用户每天可免费生成 20 次模型,次数耗尽后还能通过分享好友重新获取。这种 " 以量换用户 " 的推广策略相当成功, 在 3D 世界模型 Lite 版发布前,其社区模型下载量已达 230 万次,成为全球最受欢迎的 3D 开源模型平台之一。

图源:腾讯混元 AI

此次腾讯推出适配消费级显卡的混元 3D 世界模型 Lite 版,无疑将吸引更多创作者加入其生态。用户规模的增长,又将进一步推动反馈迭代与应用场景拓展:以当下热门的 VR 眼镜为例,混元 3D 导出的 3D 世界模型文件可直接导入使用,用户只需拥有 VR 设备,就能随时随地沉浸在自己创建的虚拟场景中,实现生态与硬件的联动;同时,AI 3D 基础模型能让普通用户轻松制作高度自定义的 3D 模型,与 3D 打印机形成协同。

更重要的是,AI 3D 化近乎 " 零学习成本 " 的特性,正推动其快速渗透至各行业:在建筑规划、室内设计、电商展示等场景中,3D 可视化内容比文字或传统图纸更易理解,工作人员无需复杂学习即可输出场景内容,大幅减少重复建模的时间;这种 " 虚拟模型 + 实体行业 " 的联动,既能提升用户粘性,又能通过高度自定义内容让用户产生归属感 —— 种种趋势表明,3D 模型在 2025 年势必走向大众化。

小雷认为,未来的 AI 3D 模型将进一步整合专业场景模型与创作风格,通过细分领域和使用场景吸引更多垂直用户,不断拓展生态边界并渗透到各类生活化场景中。

而这,正是本次 3D 模型平民化浪潮的核心意义 —— 在现实与虚拟交融的当下,让每个人都拥有构建 3D 虚拟世界的能力。

不过,网上始终有一种论调,认为随着 3D 模型的普及,3D 建模师会面临失业风险。对此,小雷却并不认同。

不可否认,这类能快速生成 3D 模型的工具,必然会对行业产生冲击。AI 模型 " 快速高效 " 的优势,确实是人类难以企及的;但正如前文所说,当前的 AI 3D 模型尚无法实现真正的用户个性化 —— 其生成的产物,本质上仍是基于大模型学习数据所产出的 " 复刻式内容 "。

而这类缺乏个性的内容,终究成不了优秀的作品。无论是游戏建模还是建筑设计,真正能让人记住的,永远是那些独具匠心的设计:是 3D 建模师反复打磨的细节,是为适配用户需求精心考量的巧思。因此小雷认为,以当前 AI 3D 模型的能力,想要完全取代 3D 建模师基本不可能;相反,作为能高效执行重复性指令的工具,它更适合成为建模师提升效率的 " 辅助帮手 "。

其实转念一想,这种 "AI 辅助创作 " 的模式,早就在各个行业中渗透。但受限于内容同质化的问题,AI 往往只能停留在 " 重复的基础构建 " 环节。

这也正是雷科技在如今 AI 写作工具越来越便捷普及的今天,还在坚持原创的原因,小雷始终认为,真正有深度、有温度的好文章,绝不会因为 AI 的存在而黯然失色。

相关标签