关于ZAKER 合作
量子位 26分钟前

腾讯开源混元图像 2.1!原生 2K 分辨率生图,千字长文本秒懂

AI 生图再进化!图像分辨率直接卷到2K

腾讯开源混元图像 2.1(HunyuanImage2.1),画质直接拉满的同时,还能读懂千字长文本,甚至中英文混搭渲染。

新一代模型在技术上全面升级,不仅显著提升图文语义一致性和跨场景泛化能力,还能够精细控制场景、角色姿态甚至多物体描述,达成开源生图模型中的 SOTA。

模型开源之后,在 Hugging Face 趋势榜上一路飙升,目前已拿下第一名的宝座。

话不多说,先来看几个网友试玩感受一下。

首先康康真实场景下的表现,细腻的手部和脸部纹理,处理细节过关

海报制作上,文本渲染也相当干净。

或者搞个美洲驼的概念图,也是轻轻松松~

还有每次必不可少的动漫风环节:魔女宅急便(圆润猪咪版)

可以说,混元图像 2.1 更懂语义、更擅图文、更多风格、更高清画质……

所以咱们这不赶紧上手体验一波。

四大亮点

打开官网,操作界面是酱紫的~选择需要生成的图像尺寸和数量,填写 prompt(上限 2048),就能秒获取超高分辨率图像。

我们体验了一下,总结下来这个模型有四大亮点。

亮点 1:复杂语义生成能力强

得益于多样化的大规模图文对齐数据,混元图像 2.1 模型对复杂语义理解能力有了显著提升,一些长达 1k tokens 长度的超长复杂 prompt 也能轻松完成,还能实现多主体分别描述控制生成,且确保精确生成。

比如说,我这里想要同一页面中既有吉卜力风格,又有迪士尼感觉,得到的结果 be like:

Prompt:一幅图像描绘了一个写实风格的男孩,他的左右肩膀上各坐着一只不同风格的动物。画面中央的男孩留着黑色的短发,他身穿白色 T 恤,服装面料具有明显的纹理和褶皱。在他的左肩上,坐着一只吉卜力卡通风格的橘色小猫,这只猫有着圆润的身体、大大的耳朵和简约的线条,色彩温暖。在他的右肩上,坐着一只迪士尼 3D 动画风格的金色小狗,这只狗的毛发呈现出渲染感十足的光泽和卷曲状,有着大鼻子和亮晶晶的眼睛。背景是白墙。整体画面是一幅数字绘画作品,融合了摄影级写实、手绘动画和 3D 渲染等多种风格。

亮点 2:支持中英文文字渲染、文字和画面融合

模型能够在图像中自然融合中英文文字,适用于产品封面、插画、海报设计等多样化设计场景,满足不同领域的需求。

想要为歪果 bro 设计一款汇聚中国标志景点的微缩模型,有长城、佛塔还有东方明珠广播电视塔,还得要个大写的 "China" 水印。

Prompt:A hyper-realistic photograph of a glass cube diorama on a lush, mossy forest floor, illuminated by dappled sunlight. Inside the transparent cube, an intricate landscape of miniature, highly detailed landmarks and cultural icons from China are meticulously arranged. This includes both traditional and modern architecture, such as the Great Wall winding across a terrain, a classic pagoda, and the sleek form of the Oriental Pearl Tower, all surrounded by miniature greenery. At the base of the diorama, the 3D word "China" is prominently displayed in large, bold, white block letters. The background forest is softly blurred, creating a bokeh effect that directs attention to the sharp details of the diorama. The overall look is crisp, elegant, and immersive, with a shallow depth of field.

亮点 3:适用场景丰富,具备高美学质感

同时,模型可支持生成各种风格,如真实感人物、漫画与搪胶手办等,同时具备高美学品质和视觉表现力。

最近社媒都被 AI 生成手办刷屏了,那就试试混元图像 2.1 的效果叭!赛博悟空启动!

Prompt:一幅超现实主义风格的悟空手办,人物漂浮在半空,身体部分化为液态银色金属,眼神锐利,手拿着金箍棒,背景是一条巨龙在云雾中盘旋,鳞片闪烁光芒,场景充满力量感,空中有闪电。

亮点 4:原生 2K 高质量图像生成

模型目前能够以其他模型 1k 生成的消耗,高效地生成超高清 2K 分辨率图像,大幅提升了出图分辨率和可用性,尤其适合对画质有专业要求的应用场景。

比如说下面生成一个小女孩的肖像照,分辨率拉满,这下谁能分清是 AI 还是真实摄影?(doge)

Prompt:A close-up shot focuses on a young girl with vibrant, curly hair and a gentle expression. Her face is characterized by a light dusting of sun-kissed freckles across her nose and cheeks. She wears a dress with a colorful floral pattern and holds a freshly-picked bouquet of wildflowers, including daisies and lavender, against a softly blurred background. The image presents a realistic photography style.

那问题来了,为啥混元图像 2.1 可以做到这么强?来看一手技术报告解读。

创新技术方案提升生图质量

根据官方介绍,混元图像 2.1(HunyuanImage-2.1)是一个能够生成 2K(2048 × 2048)分辨率图像的高效文本到图像模型。

技术创新首先是训练数据和标注上,通过结构化标注在短、中、长和超长级别提供分层语义信息,显著增强了模型对复杂语义的响应能力。

创新性地引入OCR 专家模型IP RAG来解决通用 VLM 标注器在密集文本和世界知识描述方面的不足,而 OCR 信息额外使用双向验证策略确保了标注的准确性。

整个架构可以包括两个阶段:

基础文本到图像模型:

使用了 32x 的高压缩率的VAE, 大幅减少了 DiT 模型的输入 token 数量 , 同样生成一张 2K 图,token 数量只有 16x VAE 的 1/4,大幅提升了训练和推理的效率。

将 VAE 的特征空间与 DINOv2 特征对齐,便于使用高压缩 VAE 的 dit 的训练,这显著提高了推理效率,使得 HunyuanImage 2.1 生成 2K 图像的时间与其他模型生成 1K 图像的时间相同。

多桶、多分辨率 REPA 损失将 DiT 特征与高维语义特征空间对齐,有效加速模型收敛。

另外采用视觉 - 语言多模态编码器来让模型更好地理解场景描述、人物动作和详细要求,提升模型的语义对齐能力。

以及引入多语言 ByT5 文本编码器,专门用于文本生成和多语言表达,提升模型文字渲染的能力。

同时该阶段具有 170 亿参数的单流和双流Diffusion Transformer

为了优化美学和结构连贯性,还应用了人类反馈强化学习(RLHF),引入奖励分布对齐算法,创新性地将高质量图像作为选定样本,确保稳定和改进的强化学习结果。

精修模型:

第二阶段引入了一个精修模型,进一步提升了图像质量和清晰度。

此外,开发了首个系统性工业级改写模型PromptEnhancer 模块,其中 SFT 训练结构化地重写用户文本指令以丰富视觉表达,而 GRPO 训练采用细粒度语义AlignEvaluator 奖励模型来大幅提升从重写文本生成的图像语义。

AlignEvaluator 涵盖 6 个主要类别和 24 个细粒度评估点,模块支持中英文重写,并在增强开源和专有文本到图像模型的语义方面展现了通用适用性。

此外,还提出了一种基于MeanFlow的新型蒸馏方法,解决了标准均值流训练固有的不稳定性和低效率的关键挑战。

这种方法能够仅用少量采样步骤生成高质量图像,这也是 MeanFlow 在工业级模型上的首次成功应用。

因此混元图像 2.1 展现了强大的语义对齐和跨场景泛化能力,提升了文本与图像之间的一致性,增强了对场景细节、人物姿态和表情的控制,并能够生成具有不同描述的多个物体。

开源生图模型 SOTA

为了评估模型的语义一致性,研究人员提出了一项基于多模态大语言模型(MLLM)的智能评测指标SSAE(Structured Semantic Alignment Evaluation)。

该指标将 300 道评测题目按 12 个类目提取要点,并借助 MLLM 自动比对图像内容与要点进行评分,最终可输出两个结果:平均图像准确率(图像层级的平均分数)和全局准确率(所有要点的平均得分)。

结果表明,混元图像 2.1 模型在语义对齐上的表现领先于开源模型,并逼近GPT-Image等闭源商业模型的效果。

在 GSB 评测中,混元图像 2.1 也相较于闭源模型 Seedream3.0 胜率为-1.36%,对比开源模型 Qwen-Image 胜率为2.89%

结果表明,混元图像 2.1 作为开源模型,其图像生成质量已达到闭源商业模型相当水平,并在同类开源模型中具备优势,体现了该模型在文本生成图像任务中的技术先进性与实用价值。

体验地址:https://hunyuan.tencent.com/image/zh?tabIndex=0

huggingface 链接 : https://huggingface.co/tencent/HunyuanImage-2.1

GitHub 链接 : https://github.com/Tencent-Hunyuan/HunyuanImage-2.1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见