腾讯混元 3D 模型,又又又上新了!
这次带来的是艺术级 3D 生成模型 Hunyuan3D-PolyGen,支持生成面数上万的复杂几何模型。
有网友表示,AI 已经学会了拓扑,自己已经很久没有对 AI 生成 3D 感到如此兴奋了。
实测 " 艺术级 "3D 生成模型
美术级的模型生成和一般的 3D 建模,区别主要有这几个方面:
面数:需要满足游戏实时加载与渲染的需求,美术 Mesh 相对于一般的 3D 生成 Mesh 面数更少;
布线质量:后续还需要进行 UV 展开、骨骼绑定等环节,需要高效、规整的布线;
组件式结构:美术师需要对模型进行后期编辑,需要将生成的模型拆分成组件以便后期操作。
模型的入口是混元 3D 平台(链接见文末)的 "3D 智能拓扑 " 功能,支持文字生成以及单张或最多四张参考图。
比如这辆奔驰小轿车,原来的模型转换成白模之后是这样的:
并且根据混元 3D 团队发布的报告,混元 3D-PolyGen 相比竞品的重拓扑 /AI 拓扑方法,可以利用更低的面数实现更好的细节。
解决复杂物体建模和稳定性
目前混元 3D 团队还未发布混元 3D-PolyGen 的完整技术报告,但对其核心的原理和技术进行了简要介绍。
自回归生成框架
整体上,Hunyuan3D-PolyGen 采用了自回归网格生成框架,通过顶点与面片建模进行空间推理。
具体来说,这个框架包括了三个核心环节——先把网格变成 Tokens,然后交给自回归模型处理,最后再变回网格。
所谓 Mesh 结构就是用来表示三维物体表面的多边形网格,包含了顶点、边、面、法线等信息。
完成转换之后,Hunyuan3D-PolyGen 以点云作为输入 Prompt,利用自回归模型生成以 Token 序列形式表示的 Mesh 结构。
完成生成之后就是对这个 Tokens 序列进行解码,还原成 Mesh 结构,构建出 3D 网格。
压缩 mesh 结构,解决复杂物体建模
为了解决复杂物体的建模问题,混元 3D 技术团队自研了高压缩率 mesh 表征 BPT。
在现有的 mesh 自回归建模方式当中,mesh 表达的冗余程度较高,仅一个面就需要用 9 个 Token(3 个顶点 × 3 维坐标)。
而自回归模型的上下文窗口有限,对两千个面以下的简单模型还可以进行建模,但对于面数更多的模型就无法建模了。
混元 3D 团队的思路是对 mesh 结构进行压缩,于是设计了高压缩率 mesh 表征 BPT(Blocked and Patchified Tokenization ) ,减少表达相同 mesh 所需的 token 数量。
具体来说,这项技术包括 block 索引和 patch 压缩两个核心环节。
block 索引是指将网格空间分成多个 block,顶点的表征由 ( x,y,z ) 空间坐标转化为 ( block, offset ) 索引坐标,这样三维坐标就变成了二维,token 数量可以减少三分之一。
patch 压缩则是将相邻面片组成 patch(一个中心顶点和边缘顶点),减少相邻面片之间共用顶点的冗余,结合共享 block 等技巧,token 数量可进一步降低约 41%。
所以,在相同的上下文窗口下,模型的可建模面数大幅提升,可建模的模型更加复杂(可达 2w+ 面)、细节更多。
由于表示 mesh 结构的 token 序列很长且容错率低,造成了建模的稳定性不足,也就是同一个模型的多次生成结果可能存在很大差异。
该框架在预训练模型的基础上进行后训练,将布线规整度、几何一致性、面片破损率等美术规范作为奖励指标,引导模型生成更好的结果。
体验地址:
https://3d.hunyuan.tencent.com/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见