AI 生图再进化!图像分辨率直接卷到2K。
腾讯开源混元图像 2.1(HunyuanImage2.1),画质直接拉满的同时,还能读懂千字长文本,甚至中英文混搭渲染。
模型开源之后,在 Hugging Face 趋势榜上一路飙升,目前已拿下第一名的宝座。
首先康康真实场景下的表现,细腻的手部和脸部纹理,处理细节过关
所以咱们这不赶紧上手体验一波。
四大亮点
打开官网,操作界面是酱紫的~选择需要生成的图像尺寸和数量,填写 prompt(上限 2048),就能秒获取超高分辨率图像。
亮点 1:复杂语义生成能力强
得益于多样化的大规模图文对齐数据,混元图像 2.1 模型对复杂语义理解能力有了显著提升,一些长达 1k tokens 长度的超长复杂 prompt 也能轻松完成,还能实现多主体分别描述控制生成,且确保精确生成。
比如说,我这里想要同一页面中既有吉卜力风格,又有迪士尼感觉,得到的结果 be like:
亮点 2:支持中英文文字渲染、文字和画面融合
模型能够在图像中自然融合中英文文字,适用于产品封面、插画、海报设计等多样化设计场景,满足不同领域的需求。
想要为歪果 bro 设计一款汇聚中国标志景点的微缩模型,有长城、佛塔还有东方明珠广播电视塔,还得要个大写的 "China" 水印。
亮点 3:适用场景丰富,具备高美学质感
同时,模型可支持生成各种风格,如真实感人物、漫画与搪胶手办等,同时具备高美学品质和视觉表现力。
最近社媒都被 AI 生成手办刷屏了,那就试试混元图像 2.1 的效果叭!赛博悟空启动!
亮点 4:原生 2K 高质量图像生成
模型目前能够以其他模型 1k 生成的消耗,高效地生成超高清 2K 分辨率图像,大幅提升了出图分辨率和可用性,尤其适合对画质有专业要求的应用场景。
比如说下面生成一个小女孩的肖像照,分辨率拉满,这下谁能分清是 AI 还是真实摄影?(doge)
那问题来了,为啥混元图像 2.1 可以做到这么强?来看一手技术报告解读。
创新技术方案提升生图质量
根据官方介绍,混元图像 2.1(HunyuanImage-2.1)是一个能够生成 2K(2048 × 2048)分辨率图像的高效文本到图像模型。
技术创新首先是训练数据和标注上,通过结构化标注在短、中、长和超长级别提供分层语义信息,显著增强了模型对复杂语义的响应能力。
创新性地引入OCR 专家模型和IP RAG来解决通用 VLM 标注器在密集文本和世界知识描述方面的不足,而 OCR 信息额外使用双向验证策略确保了标注的准确性。
基础文本到图像模型:
使用了 32x 的高压缩率的VAE, 大幅减少了 DiT 模型的输入 token 数量 , 同样生成一张 2K 图,token 数量只有 16x VAE 的 1/4,大幅提升了训练和推理的效率。
将 VAE 的特征空间与 DINOv2 特征对齐,便于使用高压缩 VAE 的 dit 的训练,这显著提高了推理效率,使得 HunyuanImage 2.1 生成 2K 图像的时间与其他模型生成 1K 图像的时间相同。
多桶、多分辨率 REPA 损失将 DiT 特征与高维语义特征空间对齐,有效加速模型收敛。
另外采用视觉 - 语言多模态编码器来让模型更好地理解场景描述、人物动作和详细要求,提升模型的语义对齐能力。
以及引入多语言 ByT5 文本编码器,专门用于文本生成和多语言表达,提升模型文字渲染的能力。
同时该阶段具有 170 亿参数的单流和双流Diffusion Transformer。
为了优化美学和结构连贯性,还应用了人类反馈强化学习(RLHF),引入奖励分布对齐算法,创新性地将高质量图像作为选定样本,确保稳定和改进的强化学习结果。
精修模型:
第二阶段引入了一个精修模型,进一步提升了图像质量和清晰度。
此外,开发了首个系统性工业级改写模型PromptEnhancer 模块,其中 SFT 训练结构化地重写用户文本指令以丰富视觉表达,而 GRPO 训练采用细粒度语义AlignEvaluator 奖励模型来大幅提升从重写文本生成的图像语义。
此外,还提出了一种基于MeanFlow的新型蒸馏方法,解决了标准均值流训练固有的不稳定性和低效率的关键挑战。
这种方法能够仅用少量采样步骤生成高质量图像,这也是 MeanFlow 在工业级模型上的首次成功应用。
因此混元图像 2.1 展现了强大的语义对齐和跨场景泛化能力,提升了文本与图像之间的一致性,增强了对场景细节、人物姿态和表情的控制,并能够生成具有不同描述的多个物体。
开源生图模型 SOTA
为了评估模型的语义一致性,研究人员提出了一项基于多模态大语言模型(MLLM)的智能评测指标SSAE(Structured Semantic Alignment Evaluation)。
该指标将 300 道评测题目按 12 个类目提取要点,并借助 MLLM 自动比对图像内容与要点进行评分,最终可输出两个结果:平均图像准确率(图像层级的平均分数)和全局准确率(所有要点的平均得分)。
在 GSB 评测中,混元图像 2.1 也相较于闭源模型 Seedream3.0 胜率为-1.36%,对比开源模型 Qwen-Image 胜率为2.89%。
体验地址:https://hunyuan.tencent.com/image/zh?tabIndex=0
huggingface 链接 : https://huggingface.co/tencent/HunyuanImage-2.1
GitHub 链接 : https://github.com/Tencent-Hunyuan/HunyuanImage-2.1
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
科技前沿进展每日见