近年来,AI 大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是 DeepSeek-R1 等先进模型的出现,可验证强化学习(RLVR)技术展现出强大的性能提升潜力。
然而,现有关于强化学习和模型的研究多聚焦于单一领域优化,缺乏对跨领域知识迁移和协同推理能力的系统性探索,让模型能够在多领域协同工作,发挥更好的推理能力。
上海 AI Lab 的 OpenDataLab 团队通过大规模实验,深入剖析了 RLVR 在多领域推理中的复杂机制,为构建更强大、更具鲁棒性的 AI 推理模型提供了多个维度的关键发现。
实验基于Qwen2.5-7B 系列模型,在将数学、代码和谜题三大领域数据进行联合训练后,模型的整体平均性能达到了 56.57,显著优于任何双领域组合。
Puzzle 与 Math 数据的相互支持:逻辑推理与数学能力相辅相成,显著提升模型的整体性能。
Code 推理的跨领域混合效应:指令遵循能力较强的 Instruct 模型可以较好的将代码能力泛化到其他领域,而 Base 模型则不然。
跨领域数据提升鲁棒性:多样化数据通常能提升模型能力或实现更均衡的表现,但需要更复杂的设计来解决 Math、Code 和 Puzzle 领域间的潜在冲突。
SFT 可以提升强化学习效果:在强化学习前加入 SFT 阶段可显著改善模型性能。
Template 一致性至关重要:训练与评估 Template 的不匹配会导致性能大幅下降,表明 RLVR 在特定领域训练时的泛化能力鲁棒性面临挑战。
Policy Refresh 的益处:在课程学习中定期更新参考模型和优化器状态可提升模型稳定性和性能。
奖励设计需适应任务难度:根据模型在训练数据上的表现调整奖励设置,可提高学习效率。
RLVR 对语言敏感:中文训练的模型性能低于英文训练的模型,存在一定的性能差距。
领域划分与数据构建:多域推理的 " 基石 "
上海 AI Lab 的 OpenDataLab 团队构建了一个涵盖数学(Math)、编程(Code)和逻辑谜题(Puzzle)三大类数据的多领域评估框架,并为不同训练数据设计了定制化的奖励策略。
实验基于Qwen2.5-7B 系列模型,探索了以下几方面:
模型在数据上的表现与泛化能力:重点关注单领域数据优化与跨领域泛化,以及跨领域数据间的相互影响。
训练方法与策略的有效性:评估 Template 在 RLVR 中的作用,以及课程学习策略的有效性。
模型优化要素:研究不同奖励机制的设计原则,以及训练语言对模型性能的影响。
单领域训练:各领域 " 内卷 " 大比拼
在单领域训练中,模型在特定任务上展现出显著的性能提升,但跨领域效应复杂,既有协同增效也有相互削弱。
数学领域:RLVR 提升数学性能,但跨域效应复杂
经过针对性训练,Base 模型在 CountDown 任务上准确率提升了约 75 个百分点。同时,数学训练还能有效提升模型解决逻辑谜题的能力,平均得分得到提高。然而,深度优化数学能力的同时,也可能对代码任务产生负面影响,提示了不同领域技能间存在一定的权衡关系。
代码训练提升了模型在编程任务上的表现,尤其是经过 SFT 的 Instruct 模型表现出更高的性能上限。同时,Base 模型在代码训练后往往在多数域外任务上出现性能下降,而 Instruct 模型则展现出更强的跨域泛化能力,能够在多数域外任务上保持甚至提升表现。
在 KK 数据集上,Instruct 模型准确率高达 99.14,在 Zebra 任务中,得分提升至 36.20。此外,KK 谜题的训练效果还能迁移到数学任务上,甚至在部分数学基准中,使得 Base 模型的表现接近或超过 Instruct 模型,进一步体现了跨领域迁移的潜力。
跨域互动:协同与冲突的探究
双领域组合:探索协同与权衡
存在显著协同效应的组合:Math+Puzzle 组合使 Math 任务表现提升至 49.72(优于单 Math 训练的 47.48),证明跨领域知识迁移的有效性;Code 任务在添加 Puzzle 或 Math 数据后均获得提升,显示组合训练的潜在优势。
需要谨慎处理的组合情况:Puzzle 任务在所有多领域训练中表现均不及单领域训练,凸显其高度专业化特性;值得注意的是 Math+Puzzle 组合会显著降低 Code 任务表现;而 Puzzle+Code 的组合实现了平均最大 19.39 的提升。
紧接着,将三个领域的数据全部组合在一起,结果如下所示,多领域联合训练展现出更优的整体表现与鲁棒性:
数据多样性与边际收益:增加训练数据的多样性(领域组合数量)确实能提升整体性能,但这种提升存在边际效应递减的趋势。
防止性能塌陷,实现均衡发展:与某些双领域组合(如 Math+Puzzle 可能导致 Code 任务性能骤降)不同,三领域联合训练有效地避免了特定任务的性能 " 崩溃 ",确保了模型在所有任务上均能保持竞争力。
Template 一致性:最佳表现
在 RL 训练中,一个常被忽略的问题是训练和测试的 Template 不匹配。这可能导致模型性能大幅下降。研究团队在不同 Template(R1、Qwen、Base)下进行测试,揭示了 Template 一致性的重要性。
不匹配 Template 会严重拖累性能:例如,Base 模型在使用不匹配模板时,CountDown 准确率从 19.36 暴跌至 0,MBPP 从 51.80 降至 3.00。Instruct 模型在 MATH500 上从 73.20 跌至 1.80。
一致性 Template 通常带来最佳表现:R1 模板下,Base 模型平均性能达 47.84,Instruct 模型达 54.56,远超不匹配情况。这强调了 Template 一致性的必要性—— RLVR 在特定领域训练时的泛化鲁棒性仍面临挑战。
课程学习在 SFT 中已证明有效,但在 RLVR 中的应用仍未全面探索。研究团队在 Puzzle 中的 KK 数据集上进行测试,基于子问题数量(3PPL 到 8PPL)设置难度梯度,并设计了 "Policy Refresh" 策略——在每个难度阶段后更新参考模型并重置优化器状态。
课程学习提升性能上限:标准课程学习最终准确率达 97.29,远超混合训练的 94.29。这种方法帮助模型逐步掌握复杂依赖关系,提升泛化能力。
Policy Refresh 加速收敛:采用刷新策略后,模型在 6PPL 阶段就达到 97.43 的准确率,最终结果近乎完美(99.71),甚至超过了指令模型的混合训练结果(99.14)。
奖励设计:个性化定制
奖励设计是强化学习的核心。研究团队在 KK 和 LPB 数据集上测试了四种策略: ( 1 ) 二元奖励要求答案全对才得分; ( 2 ) 部分奖励按正确比例计分; ( 3 ) 格式奖励用标签引导推理; ( 4 ) 重缩放奖励则将分数范围调整为 [ -1,1 ] 并对错误施加惩罚。不同设计为模型塑造了截然不同的学习信号。
论文地址:https://arxiv.org/abs/2507.17512
训练代码:https://github.com/Leey21/A-Data-Centric-Study
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见