让 AI 生成的图像更符合人类精细偏好,在 32 块 H20 上训练 10 分钟就能收敛。
腾讯混元新方法让微调的 FLUX1.dev 模型人工评估的真实感和美学评分提高 3 倍以上。
为此,团队提出两个关键方法:
一个是 Direct-Align,通过预先注入噪声,能从任意时间步恢复原图,避免了只在后期步骤优化的局限,减少了 " 奖励作弊 "。
另一个是语义相对偏好优化(SRPO),它把奖励变成受文本控制的信号,通过添加正面和负面提示词,能在线调整奖励,不用额外数据就能灵活适配需求。
论文公开后,有开发者评价 SRPO 看起来就像下一代 RLHF。
研究团队首先指出了现有方法的两个核心痛点:第一,多步去噪过程中的梯度计算成本极高,导致优化只能局限在扩散过程的最后几步;第二,为了达到理想的美学效果,往往需要不断地离线调整奖励模型。
为了解决第一个问题,团队提出了 Direct-Align 方法。
首先预定义一个噪声先验,通过插值直接从任意时间步恢复原始图像。团队发现,扩散状态实际上就是噪声和目标图像之间的插值。
实验发现,仅在后 25% 时间步训练会导致严重的奖励黑客问题,模型会过度拟合奖励函数的偏好,比如 HPSv2 偏好红色调、PickScore 偏好紫色图像等。
SRPO 让奖励信号更聪明
第二个创新是语义相对偏好优化(SRPO)。传统方法通常需要多个奖励模型来平衡不同的偏好,但团队发现这只是调整了奖励的规模,并没有真正对齐优化方向。
SRPO 的核心思想是将奖励重新定义为文本条件信号。具体来说,对于同一张图像,模型会使用正面和负面提示词分别计算奖励,然后取其相对差值作为优化目标。
SRPO 能够通过简单的提示词控制实现多种风格调整,包括亮度调节、漫画风格转换等。有趣的是,控制效果的强弱与控制词在奖励模型训练集中的出现频率相关——高频词如 "painting" 效果最好,而低频词如 "Cyberpunk" 则需要与其他高频词组合使用。
实验结果
研究团队在 FLUX.1-dev 模型上进行了全面的实验验证。与 ReFL、DRaFT、DanceGRPO 等最新方法相比,SRPO 在多个评估指标上都取得了最佳成绩。
在 HPDv2 基准测试的 3200 个提示词上,SRPO 不仅在自动评估指标(Aesthetic Score v2.5、PickScore、ImageReward 等)上领先,更重要的是在人工评估中表现出色。团队组织了 10 名训练有素的标注员和 3 名领域专家,对 500 个提示词生成的图像进行了全面评估。
结果显示,在真实感维度上,原始 FLUX 模型的优秀率仅为 8.2%,而经过 SRPO 训练后飙升至 38.9%。在美学质量上,优秀率从 9.8% 提升到 40.5%,总体偏好度更是达到了 29.4% 的优秀率。
https://arxiv.org/abs/2509.06942
参考链接:
[ 1 ] https://x.com/_akhaliq/status/1966911634657390890
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见