当 SFT 遇上 RL：基于样本学习阶段的动态策略优化机制

过去一段时间里，在围绕大模型推理能力增强的研究中，SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快，能高效吸收高质量推理数据；后者更具探索性，有望推动模型实现复杂推理和分布外泛化。

但在实际训练中，这两种信号却难以有效融合，现有工作大多仅停留在 " 把两个 loss 混在一起 " 的层面。

为应对这一挑战，研究团队提出了DYPO（Dynamic Policy Optimization）动态策略优化方法。

核心思考在于：既然 SFT 和 RL 的学习信号统计性质天然不同，统一优化要如何做，才能既保留监督学习的稳定性，又不牺牲强化学习的探索能力？

△ 图 1：DYPO 的整体框架

如图 1，模型会先根据一组 rollout 的结果判断样本所处的学习阶段，再决定它应该走监督路径、强化学习路径，还是暂时跳过。

SFT 和 RL 为什么很难真正协同

如果把大模型后训练比作 " 教学生做题 "，SFT 和 RL 的特性差异便一目了然。

SFT更像老师直接讲标准答案。它的优点是学得快、过程稳、收敛也更容易控制，但问题在于，学生很容易学成 " 会按套路做题 "，一旦题目稍微变形，就可能缺乏泛化能力。

RL更像让学生自己反复尝试，再根据得分不断修正策略。它的优点是更有探索性，更可能逼着模型从 " 记住解法 " 走向 " 学会推理 "，但缺点同样明显：训练过程中波动更大，奖励一旦稀疏，模型就很容易学偏，甚至不稳定。

从理论层面看，这背后对应着典型的偏差—方差矛盾：

SFT：低方差，但高偏差。SFT 的梯度来自静态高质量数据，更新稳定、噪声小，却天然偏向拟合示范分布，压缩模型探索空间；

RL：低偏差，但高方差。RL 通过奖励驱动试错，更接近 " 有效策略优化 "，但受采样随机性和奖励稀疏性影响，梯度方差高、训练易波动。

问题也正出在这里。很多统一训练方法虽然同时用了 SFT 和 RL，但默认所有样本都值得用同一种方式去处理。

但实际情况中，不同样本的学习信号存在显著差异：有些问题模型已经会了，多次 rollout 都能答对，这类样本继续训练，收益往往很有限；有些问题模型当前完全不会，多次 rollout 全部失败，这时直接做 RL 通常也拿不到什么有效奖励；

真正最值得优化的，反而是那些 " 已经会一点，但还不稳定 " 的样本。它们既说明模型已经摸到了门槛，又保留了区分正确轨迹和错误轨迹的空间。

因此，这项工作想解决的，并不是 " 要不要把 SFT 和 RL 放在一起 "，而是更进一步：不同学习阶段的样本，到底应该怎样被优化，才能在稳定和探索之间找到更合理的平衡。

△ 图 2：SFT 与 RL 的偏差—方差矛盾

SFT 更稳，但偏差更大；RL 偏差更低，但训练波动明显更强。

DYPO 如何同时处理偏差和方差问题

基于上述思考，本文提出了Dynamic Policy Optimization ( DYPO ) 。它的核心思想并不是再堆一个更复杂的训练流程，而是先根据 rollout 结果判断样本所处的学习阶段，再去匹配最合适的优化路径。

具体而言，DYPO 会让当前策略为每个问题生成一组 rollout，然后根据这些 rollout 的成败情况，把样本划分成三类：

Easy 样本：一组 rollout 全部成功，说明模型已掌握这类问题，直接跳过以减少无效更新；

Hard 样本：一组 rollout 全部失败，说明模型缺乏足够知识基础，直接做 RL 难获稳定正向信号。对此采用多教师蒸馏（Multi-Teacher Distillation），引入多个 teacher 让 student 学习多种合理推理轨迹的共通部分，减少单一 teacher 的特定偏差，先建立可靠先验，再去谈后续探索；

Mid 样本：一组 rollout 有成功也有失败，是最有价值的 " 学习前沿 "。这类样本适合 RL 优化。但为解决标准 RL 的高方差问题，团队在 GRPO 的基础上引入了Group Alignment Loss，也就是GAL，来对齐损失。

GAL 的核心思路是利用同一组 rollout 中的成败轨迹差异，显式将模型拉向正确轨迹、推离错误轨迹。这让 RL 更新不再仅依赖高噪声奖励信号，而是额外获得了一层更稳定的相对对齐约束。

换句话说，GAL 的作用并不是简单 " 再加一个 loss"，而是在 RL 更新过程中充当一个动态的方差抑制项。

如果从理论上总结 DYPO 的设计逻辑，它其实是在分别处理 SFT 和 RL 的两个核心缺陷：

多教师蒸馏针对Hard 样本，缓解 SFT 的高偏差问题。多个 teacher 的组合可抵消个体偏差，使整体监督偏差随 teacher 数量增加而下降；

GAL 针对Mid 样本，解决 RL 的高方差问题。混合目标的梯度方差严格小于纯 GRPO，且随模型区分轨迹能力的提升，GAL 本身的方差还会进一步自然衰减。

由此可见，DYPO 并不是简单把 SFT 和 RL 拼起来，而是在结构上把 " 高偏差监督 " 和 " 高方差强化学习 " 分别放到最适合的样本上处理。也正因为如此，它更像是一种重新组织后训练过程的方式，而不仅仅是一个新的训练技巧。

△ 图 3：GAL 的直观机制

如图 3，它利用同一组 rollout 中已经出现的正负样本，把模型往正确轨迹方向拉近，同时把错误轨迹往外推开。

实验结果

研究团队在数学和逻辑推理场景开展实验，基础模型包括Qwen2.5-Math-7B 和 Qwen3-4B-Base，评测任务覆盖 AIME 2024/2025、AMC、MATH-500、Minerva，以及更偏分布外泛化的 ARC-c 和 GPQA-Diamond。

对这类工作来说，分数当然重要，但如果只看最终结果，很容易把 DYPO 理解成 " 又一个做得更高的训练技巧 "。真正值得看的，其实是它到底赢在什么地方。

在Qwen2.5-Math-7B上，和传统SFT → RL顺序 pipeline 相比，DYPO：

五个复杂推理 benchmark 上的平均分从47.7提升到52.5，对应4.8个点的提升

在 OOD 任务上，平均分从48.3提升到61.6，对应13.3个点的提升

这一提升并非依赖单一任务冲高，而是整体表现更稳定。尤其是在GPQA-Diamond这种更看重迁移推理能力的任务上，DYPO 取得了表中最好的结果，这说明它学到的并不只是更贴近训练分布的模板。

△ 图 4：Qwen2.5-Math-7B 上的整体结果对比

如图显示，DYPO 在复杂推理和分布外任务上都表现出较强的综合优势。

在Qwen3-4B-Base上，类似的趋势依然存在。DYPO：

在 ID 任务上的平均分达到66.9，明显高于SFT → RL的56.1；

在 OOD 任务上，平均分达到68.5，也高于后者的 52.6。

这说明它的收益并不只依赖某一个特定 backbone，而更像来自这套动态分流机制本身。

此外，消融实验进一步验证了方法有效性。

很多时候，一个方法看起来更强，未必是因为方法本身，也可能只是 teacher 更强、数据更好。

但在这项工作里，即便把第二个 teacher 换成比原教师 deepseek-R1 更弱的 Qwen3-8B 模型，DYPO 依然能把AIME 25从22.0提升到27.8，把GPQA-Diamond从30.8提升到39.4。

这意味着它的提升并不只是来自 " 多喂了一些更强 teacher 的数据 "，而是后面这套动态路由与低方差优化本身确实发挥了作用。

除了最终结果，研究还验证了 DYPO 的训练稳定性。

作者分析了训练过程中离线数据占比、reward 和策略熵的变化。

一个很有意思的现象是，DYPO 并不是一上来就把模型推向更强的探索，而是随着能力提升，逐步降低对监督信号的依赖，让训练自然从 " 更靠 teacher 扶着走 " 过渡到 " 更依赖策略自己探索 "。

这个过程有点像一种自适应课程学习：先把基础稳住，再把探索空间慢慢放出来。

△ 图 5：训练动态分析

如图，随着训练推进，DYPO 会逐步减少对离线监督的依赖，同时保持相对健康的策略多样性。

再看梯度范数。

标准 GRPO 的梯度曲线会有比较明显的剧烈震荡，而 DYPO 的曲线要平滑得多。这种差异看起来像是训练细节，但背后对应的其实是一个很实际的问题：如果梯度一直在大幅摆动，训练就更容易发散，也更难把学习率和优化策略设得积极。

DYPO 在这里表现出的稳定性，正好说明它对 RL 那部分高方差更新做了有效约束。

△ 图 6：梯度范数对比

如图 6，和标准 GRPO 相比，DYPO 的更新轨迹更平滑，也更容易保持可控。

总结

DYPO 不是在证明 SFT 和 RL 可以一起用，而是在回答它们到底应该怎样一起用。它提供的，是一种更像 " 训练组织方式 " 的思路。

过往研究已意识到，单纯依赖监督或者单纯依赖强化学习，都不足以把大模型推理能力往前再推一大步。但核心难点并非设计目标函数，而是不同阶段、不同样本暴露出来的学习信号本身就不一样。

DYPO 的核心贡献，是将优化逻辑前移：先判断样本学习阶段，再匹配优化路径。这样一来，SFT 负责把模型扶稳，RL 负责让模型继续往外探索，而非无差别地混合两种信号。

当然，这项工作也有其实验边界。

目前主要验证的是数学与逻辑推理场景，对开放式对话、创作类任务是否同样有效，还需要进一步观察；同时，为了稳定估计样本难度，训练时每个 prompt 需要生成 8 条 rollout，这也意味着额外算力开销。

对于大模型推理能力增强来说，这也许不是终点，但 DYPO 无疑提供了一个值得持续推进的新方向。

Arxiv Link: https://arxiv.org/pdf/2604.08926

Github Link: https://github.com/Tocci-Zhu/DYPO

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

当 SFT 遇上 RL：基于样本学习阶段的动态策略优化机制

宙世代

一起剪

相关阅读

我国成功研发气固电池！有望破解半个多世纪储氢难题

招股书失效火速“补递” 迈瑞医疗再赴港冲刺

真人短剧开机量骤减 大厂打响AI视频“竞速战”

9099元 佳能发布首款电动变焦全画幅镜头：塞入3个马达

OpenAI豪掷40亿美元成立新公司

13999元 佳能EOS R6 V发布：首次内置主动散热风扇

中科曙光FlashNexus 9000全闪存存储发布：性能提升至2亿IOPS

价格涨5倍 利润涨8倍 三大内存巨头就是不扩产：多5%装个面子

收购喜马拉雅，难“救”腾讯音乐？

爱马仕Agent位居全球调用量榜首！小米MiMo贡献最大

吴泳铭：阿里AI模型与应用ARR 6月季度将破100亿元 年底超300亿元

你刚想啥手机就推啥！人民日报提醒这些设置要当心

九州风神玄冰600系列散热器109元起：单塔六热管单风扇设计

红米 KPad 2 体验：卖到 3000 块，凭什么和 iPad mini 比？

马化腾回应腾讯AI是否落后：现在感觉站上船但还坐不下去，希望船速能快一点

最新评论

量子位

热门推荐

真人短剧开机量骤减大厂打响AI视频“竞速战”

9099元佳能发布首款电动变焦全画幅镜头：塞入3个马达

13999元佳能EOS R6 V发布：首次内置主动散热风扇

价格涨5倍利润涨8倍三大内存巨头就是不扩产：多5%装个面子

吴泳铭：阿里AI模型与应用ARR 6月季度将破100亿元年底超300亿元