5 月 16 日,腾讯推出了其新一代图像生成模型——混元图像 2.0(Hunyuan Image 2.0),号称将图像生成速度提升至 " 毫秒级 "。
何谓 " 毫秒级 "?答案可能令人大吃一惊:当用户在输入提示词的同时,即可看到图像的实时变化,所见即所得。
腾讯表示,得益于超高压缩倍率的图像编解码器以及全新扩散架构,该模型参数量提升了一个数量级,实现了毫秒级响应速度,改变了传统 " 抽卡—等待—抽卡 " 的方式,带来交互体验革新。
混元图像 2.0 不仅实现了 " 边说边画 " 的实时互动,还在模型架构和生成质量上实现了全面飞跃。在 GenEval 基准测试中,混元图像 2.0 模型的准确率超过 95%,远超其他同类模型,证明了其在复杂文本指令理解与生成方面的卓越能力。
交互革新:" 边打字边出图 " 的新范式
实际测试显示,混元图像 2.0 能够实现 " 一边打字一边出图 " 的完全实时反馈,用户输入提示词的过程中,画面会随着文字变化而实时调整。
例如输入 " 人像摄影,爱因斯坦,背景是东方明珠电视塔,自拍角度 ",系统能够实时生成符合描述的图像,并在每个新元素添加时立即更新画面。
超写实画质:真实感与细节的完美结合
除了速度,混元图像 2.0 在图像质量上也取得了显著提升。
通过强化学习等算法以及引入大量人类美学知识对齐,生成的图像有效避免了 AIGC 图像的 "AI 味 ",呈现出更真实的质感和更丰富的细节。
GenEval 评估基准测试显示,腾讯混元图像 2.0 模型准确率超过 95%,远超同类模型。 这种高保真度的图像生成能力,对需要高质量素材的行业(如广告、设计等)有着巨大的吸引力。
图像二次编辑:图生图的强大功能
混元图像 2.0 不仅支持文字生成图像,还提供了强大的 " 图生图 " 功能。可提取参考图的主体或轮廓特征,对现有图像进行二次编辑。
这种能力极大地拓展了该模型的使用场景, 从给宠物生成个性化照片到专业的设计创作,用户都能轻松驾驭。 比如上传一张猫咪照片,图像参考强度设定为 92,让猫咪眼睛变大,在草地上,戴上皇冠。
除了实时文生图,混元图像 2.0 还提供了实时绘画板功能。
基于模型的实时生图能力,用户在绘制线稿或调整参数时,预览区同步生成上色效果,突破了传统 " 绘制 - 等待 - 修改 " 的线性流程,可助力专业设计师的创作。
技术进步:五大关键突破
据科技媒体量子位分析,混元图像 2.0 的背后是五项关键技术突破:
更大的模型尺寸:相比前代产品,参数量提升了一个数量级,显著提高了性能上限。
超高压缩倍率的图像编解码器:腾讯混元团队自研编解码器大幅降低了图像编码序列长度,同时通过对信息瓶颈层的优化和强化对抗训练,保证了细节生成能力。
多模态大语言模型作为文本编码器:区别于 CLIP、T5 等传统架构的浅层语义解析,通过适配多模态大语言模型,显著提升了语义匹配能力,在 GenEval 等客观指标上超越同类产品。
全尺度多维度强化学习后训练:基于 " 慢思考 " 奖励模型,通过通用后训练与美学后训练,有效提升图片生成的真实感。
自研对抗蒸馏方案:基于隐空间一致性模型,将去噪轨迹上的任意点直接映射到轨迹生成样本,实现少步高质量生成。
网友灵魂画手上线体验
有不少网友创作者发来了体验:
社交平台 X 上的网友表示:
" 令人印象深刻的创新!通过实时 AI 图像生成重新定义创造力。"
" 虚幻绝对虚幻。很想探索这个 "