关于ZAKER 合作
量子位 15小时前

腾讯 3D 生成模型上新!线稿可变“艺术级” 3D 模型,鹅厂内部设计师也在用

腾讯混元 3D 模型,又又又上新了!

这次带来的是艺术级 3D 生成模型 Hunyuan3D-PolyGen,支持生成面数上万的复杂几何模型。

而且这个模型可以把 3D 模型变成资产,鹅厂自己的游戏开发工作室用上之后,美术师建模效率提升了超 70%。

有网友表示,AI 已经学会了拓扑,自己已经很久没有对 AI 生成 3D 感到如此兴奋了。

目前,模型的拓扑功能已在混元 3D 工作台上线,与其他功能共享每天 20 次的免费使用额度。

实测 " 艺术级 "3D 生成模型

美术级的模型生成和一般的 3D 建模,区别主要有这几个方面:

面数:需要满足游戏实时加载与渲染的需求,美术 Mesh 相对于一般的 3D 生成 Mesh 面数更少;

布线质量:后续还需要进行 UV 展开、骨骼绑定等环节,需要高效、规整的布线;

组件式结构:美术师需要对模型进行后期编辑,需要将生成的模型拆分成组件以便后期操作。

那么,混元 3D 的表现如何呢?来看量子位的实测。

模型的入口是混元 3D 平台(链接见文末)的 "3D 智能拓扑 " 功能,支持文字生成以及单张或最多四张参考图。

目前,该功能支持以三角形或四边形两种形式对模型进行拓扑。

第一个测试样品,是一架波音 747 飞机,我们选择三角面拓扑。

先看大致轮廓,生成的结果是这样的:

像发动机等细节部位,也进行了工整、精细的划分。

第二道题,是一个毛绒玩具,这里直接拿线稿来试验。

拓扑操作后,不仅原有细节得到了保留,混元 3D 还对物体的表面进行了更为细致的拓扑化。

另外,智能拓扑也支持对现有的模型进行调整,转化成面数更低、布线更规整的 " 艺术级模型 "。

比如这辆奔驰小轿车,原来的模型转换成白模之后是这样的:

经过拓扑处理之后,不仅结构完整,线条分布整齐、疏密布局合理,车内的方向盘、座椅等内饰也都能完整呈现。

总的来说,混元 3D-PolyGen 在基本保留物体细节特征的情况下,确实能够实现生成面数适当、布线整洁的 " 艺术级 "3D 模型。

并且根据混元 3D 团队发布的报告,混元 3D-PolyGen 相比竞品的重拓扑 /AI 拓扑方法,可以利用更低的面数实现更好的细节。

那么,混元 3D-PolyGen 是如何实现的呢?

解决复杂物体建模和稳定性

目前混元 3D 团队还未发布混元 3D-PolyGen 的完整技术报告,但对其核心的原理和技术进行了简要介绍。

自回归生成框架

整体上,Hunyuan3D-PolyGen 采用了自回归网格生成框架,通过顶点与面片建模进行空间推理。

具体来说,这个框架包括了三个核心环节——先把网格变成 Tokens,然后交给自回归模型处理,最后再变回网格。

在正式的自回归建模开始之前,Hunyuan3D-PolyGen 会用点云编码器对网格进行序列化,也就是将网格的顶点和面片转化为 Token 序列,用以表示 Mesh 结构。

所谓 Mesh 结构就是用来表示三维物体表面的多边形网格,包含了顶点、边、面、法线等信息。

完成转换之后,Hunyuan3D-PolyGen 以点云作为输入 Prompt,利用自回归模型生成以 Token 序列形式表示的 Mesh 结构。

完成生成之后就是对这个 Tokens 序列进行解码,还原成 Mesh 结构,构建出 3D 网格。

压缩 mesh 结构,解决复杂物体建模

为了解决复杂物体的建模问题,混元 3D 技术团队自研了高压缩率 mesh 表征 BPT。

在现有的 mesh 自回归建模方式当中,mesh 表达的冗余程度较高,仅一个面就需要用 9 个 Token(3 个顶点 × 3 维坐标)。

而自回归模型的上下文窗口有限,对两千个面以下的简单模型还可以进行建模,但对于面数更多的模型就无法建模了。

混元 3D 团队的思路是对 mesh 结构进行压缩,于是设计了高压缩率 mesh 表征 BPT(Blocked and Patchified Tokenization ) ,减少表达相同 mesh 所需的 token 数量。

具体来说,这项技术包括 block 索引和 patch 压缩两个核心环节。

block 索引是指将网格空间分成多个 block,顶点的表征由 ( x,y,z ) 空间坐标转化为 ( block, offset ) 索引坐标,这样三维坐标就变成了二维,token 数量可以减少三分之一。

patch 压缩则是将相邻面片组成 patch(一个中心顶点和边缘顶点),减少相邻面片之间共用顶点的冗余,结合共享 block 等技巧,token 数量可进一步降低约 41%。

结合 block 索引和 patch 压缩,表征 mesh 结构的 token 数量可减少 74%,表征一个面需要的 token 数量从 9 个减少到了平均 2.3 个。

所以,在相同的上下文窗口下,模型的可建模面数大幅提升,可建模的模型更加复杂(可达 2w+ 面)、细节更多。

强化学习后训练,提高生成稳定性

由于表示 mesh 结构的 token 序列很长且容错率低,造成了建模的稳定性不足,也就是同一个模型的多次生成结果可能存在很大差异。

所以,混元 3D 团队研发了 mesh 自回归的强化学习后训练框架。

该框架在预训练模型的基础上进行后训练,将布线规整度、几何一致性、面片破损率等美术规范作为奖励指标,引导模型生成更好的结果。

结果,混元 3D-PolyGen 在生成的稳定性、细节、布线质量等方面均优于目前 SOTA 模型。

参考链接:

体验地址:

https://3d.hunyuan.tencent.com/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

相关标签