关于ZAKER 合作
至顶科技 1小时前

阿里巴巴发现 AI 训练的秘密 :99% 的数据都是“无效功” , 真正起作用的只有这 1%

这项由阿里巴巴集团 Qwen Pilot 团队主导的研究发表于 2026 年的 ICLR(国际学习表征会议),论文编号为 arXiv:2603.22446v1。有兴趣深入了解的读者可以通过这个编号查询完整论文。

当我们训练一个 AI 模型让它变得更聪明时,就像教导一个学生学习数学一样。传统观念认为,每一次练习、每一道题目都同等重要,都在帮助学生进步。然而,阿里巴巴的研究团队却发现了一个惊人的事实:在强化学习训练大语言模型的过程中,绝大多数的 " 学习 " 其实都是无效的,真正让模型变聪明的改变,只发生在极少数关键时刻。

这就像发现一个优秀学生成绩突飞猛进的秘密,并不是因为他做了成千上万道题目,而是因为他在少数几道关键题目上的突破性理解。研究团队通过深入分析发现,在使用可验证奖励的强化学习方法训练大语言模型时,超过 98% 的词汇位置几乎没有发生任何变化,但就是剩下的不到 2% 的关键位置,却承载着模型性能提升的全部秘密。

** 一、破解 AI 学习的真相:稀疏但关键的变化模式 **

为了理解这个现象,我们可以把大语言模型想象成一个正在学习写作的学生。这个学生每次写文章时,都需要在每个位置选择一个合适的词汇。在接受强化学习训练之前,这个学生可能在某些地方用词不够准确,逻辑推理也有问题。

研究团队使用了一种叫做 Jensen-Shannon 散度的数学工具来测量训练前后模型在每个词汇位置上的变化程度。这就像用一把精密的尺子,测量学生在每个用词位置上的改进幅度。令人震惊的是,他们发现在 SimpleRL 训练方法下,超过 98% 的位置几乎没有任何改变,而在 DAPO 训练方法下,也有超过 83% 的位置保持不变。

这种极度稀疏的变化模式颠覆了我们对 AI 学习的传统认知。过去我们以为强化学习会像海浪一样,均匀地冲刷整个模型的每个角落,带来全面的改进。但实际情况更像是精确的外科手术,只在最需要的地方做出调整。

研究团队进一步发现,这些发生变化的关键位置并不是随机分布的,而是呈现出明显的位置偏好。在生成的文本序列中,变化主要集中在开头部分和结尾部分。开头的变化对应着高层次分支决策的修正,就像学生在构思文章时调整了整体思路;而结尾的变化则主要涉及答案格式和终止行为的优化,就像学生学会了更规范的结论写法。

更有趣的是,不同的训练方法展现出不同的变化模式。那些约束较少的训练方法,如使用较高截断参数的 DAPO,会产生更广泛的分布变化,但变化强度相对温和。而那些约束更严格的方法,如 SimpleRL 或较低截断参数设置,则将更新集中在更少的词汇分布上,但在这些位置上的变化更加显著。

** 二、揭秘变化与不确定性的神秘关系 **

当研究团队深入探究这些稀疏变化的本质时,他们发现了变化程度与模型不确定性之间的有趣关系。就像一个学生在面对不同难度题目时的表现差异,模型在面对高不确定性位置时更容易发生改变。

在那些模型原本就很确定该选择什么词汇的位置,强化学习几乎不会进行任何调整。这些低散度位置通常对应着低熵的预测,也就是说模型本来就知道应该选什么。相反,在那些模型原本就拿不准的高熵位置,强化学习更倾向于进行修正和优化。

但这个关系并不是绝对的。特别是 DAPO 这样的训练方法,它展现出了重新塑造甚至是低熵预测的能力,就像一个优秀的老师不仅能帮助学生解决疑难问题,还能纠正学生的错误认知,即使学生对那个错误答案原本很有信心。

相比之下,SimpleRL 表现得更加保守,它更多地将注意力集中在那些原本就存在高不确定性的区域。这种差异反映了不同训练策略的哲学差异:一种是大胆的全面纠错,另一种是谨慎的重点突破。

** 三、词汇类型的偏好:数字与符号的特殊地位 **

研究团队还发现了一个有趣的现象:并非所有类型的词汇都同等可能发生变化。通过分析高散度位置和低散度位置出现的词汇类型,他们发现了明显的偏好模式。

在高散度分布中,也就是发生较大变化的位置,更多出现的是常见功能词、推理相关术语以及某些方程片段。这就像发现学生主要在逻辑连接词和数学表达式上进行了改进。而在低散度分布中,占主导地位的是数字、运算符和数学表达式的结构化组件。

但仅仅根据词汇本身并不能完全预测是否会发生变化。同一个词汇在不同上下文中可能表现出完全不同的变化倾向。比如定冠词 "the" 虽然出现在高散度词汇的频繁列表中,但它在所有出现位置的散度分布却主要集中在较低区间。这说明决定变化的关键不是词汇本身的语义,而是它在特定推理轨迹中所扮演的角色以及在基础模型预测分布中的地位。

这种上下文依赖性揭示了强化学习优化的精细程度。它不是简单地对某些词汇类型进行批量调整,而是根据每个词汇在具体语境中的功能来做出有针对性的改进。

** 四、与监督学习的本质差异 **

为了更好地理解强化学习的独特性,研究团队将其与传统的监督微调方法进行了对比。结果显示,两种方法在分布变化模式上存在根本性差异。

监督微调就像一个要求严格的老师,试图让学生完全模仿标准答案的每一个细节。在这种训练下,模型在更多的词汇位置发生较大变化,分布变化更加密集和广泛。相比之下,强化学习更像一个智慧的导师,只在关键问题上给出指导,让学生保持自己的思维特色。

在位置分析上,监督微调在整个响应过程中都表现出较高的散度,虽然在序列开头仍有增强效应,但这种集中性远不如强化学习明显。在散度 - 熵关系分析中,监督微调的散度分布更强烈地集中在高基础模型熵区域,而强化学习显示出更大的灵活性。

这种差异反映了两种学习范式的本质区别:监督学习追求标准化和一致性,而强化学习更注重效果和效率。就像传统教育与个性化教育的区别,前者要求所有学生按统一模式学习,后者允许学生保持个性同时在关键技能上获得提升。

** 五、功能验证:交叉采样实验的惊人发现 **

理论分析固然重要,但更关键的问题是:这些稀疏的变化真的承担着性能提升的全部责任吗?为了回答这个问题,研究团队设计了一个巧妙的交叉采样实验。

这个实验就像进行精密的器官移植手术。他们设计了两种互补的操作:正向交叉采样和反向交叉采样。正向交叉采样是将强化学习模型在关键位置的词汇选择 " 移植 " 到基础模型的生成过程中,看看能否让基础模型获得强化学习级别的性能。反向交叉采样则是将基础模型的词汇选择 " 移植 " 到强化学习模型的生成中,观察性能是否会退化。

实验结果令人震惊。在正向交叉采样中,仅仅通过替换不到 4% 的词汇,就能将基础模型的 AIME 2024 准确率从约 8% 提升到超过 25%,完全达到了强化学习模型的水平。在 AIME 2025 上,这个效果更加显著:仅替换约 1.53% 的词汇,就将准确率从 5% 提升到超过 14%。

更令人惊讶的是,在某些情况下,这种混合策略的性能甚至超过了纯强化学习模型。这就像发现了一个神奇的配方:少量的关键调料就能让普通食材变成美味佳肴,有时甚至比完全按照高级食谱制作的菜品还要好吃。

反向交叉采样的结果同样引人深思。仅仅将约 5% 的强化学习词汇选择替换为基础模型选择,就能让强化学习模型的性能迅速退化到基础模型水平,甚至更低。这种脆弱性表明,强化学习的优势高度集中在这些稀疏的关键决策点上。

** 六、渐进式轨迹塑造:小改变的大影响 **

交叉采样实验还揭示了一个重要现象:性能变化是渐进式的,而不是突变式的。随着交叉采样干预次数的增加,准确率呈现平滑且近似单调的变化趋势。

在正向采样中,每增加一次强化学习词汇的注入,准确率就稳步上升。这表明强化学习的收益分布在多个散度点上,而不是需要大部分或全部强化学习引导的变化才能影响推理性能。在反向采样中,性能以类似平滑且近似单调的方式退化,证明强化学习级别的性能依赖于在整个生成过程中保持稀疏的词汇级别调整。

这种渐进性揭示了一个深刻的机制:即使是早期的少数几次干预,也能产生可测量的性能收益。这些效果的产生并非因为早期词汇本质上更重要,而是因为小的局部编辑能够将生成过程重定向到不同的推理轨迹上,然后由后续的解码在主策略下继续这些轨迹。

强化学习并没有引入全新的推理行为,而是细化了一组稀疏的局部词汇选择,这些选择能够可靠地引导生成过程走向更有效的推理轨迹。这些轨迹对基础模型来说是可以访问的,但需要通过这些有针对性的编辑才能解锁。

** 七、精细机制解析:重排序胜过替换 **

当研究团队深入到词汇分布的内部结构时,他们发现了强化学习改进机制的另一个重要特征:它主要通过重新排序现有候选词汇来工作,而不是引入全新的词汇。

通过分析高散度位置的 top-k 候选集合重叠度,研究团队发现即使在发生重大变化的位置,基础模型和强化学习模型的候选词汇仍然保持高度重叠。一旦 k 大于等于 2,重叠度就显著提高。SimpleRL 展现出超过 80% 的平均重叠度,而 DAPO 虽然略低但仍然相当可观。

这种现象的含义非常深刻。强化学习的改进机制主要是将原本排名较低但仍然合理的词汇提升到更高位置,而不是从词汇表的深处挖掘出全新的可能性。就像一个编辑在修改文章时,主要工作是重新安排已有的词汇和表达,而不是创造全新的词汇。

进一步的 rank 分析显示,约 30% 的强化学习 top-1 词汇在基础模型中已经排名第一,超过 80% 的 DAPO top-1 词汇和 90% 的 SimpleRL top-1 词汇都在基础模型的 top-3 范围内。这表明强化学习主要是在一个相对较小的高质量候选集合内进行精细调整。

** 八、低概率词汇的罕见提升 **

在分析强化学习是否会显著提升原本概率很低的词汇时,研究团队发现了一个有趣的现象:这种情况确实存在,但极其罕见。

在 DAPO 训练下,只有约 5% 的高散度位置的强化学习 top-1 词汇在基础模型中的概率低于 0.01,而在 SimpleRL 下这个比例几乎为零。即使是鼓励更广泛探索的 DAPO,也很少将基础模型中高度不可能的词汇提升到显著地位。

但这些罕见的低概率提升可能仍然具有重要意义。就像在烹饪中,虽然主要调料决定了菜品的基本味道,但少量的特殊香料往往能带来意想不到的提升。研究团队发现,不同训练方法在这方面表现出明显差异:clip-higher 机制大幅增加了原本概率很低的词汇被提升的比例,这与该机制鼓励更大探索性的设计理念一致。

** 九、训练过程中的演化模式 **

通过跟踪训练过程中分布变化的演化,研究团队发现了训练动态的有趣模式。使用 DAPO 在 Qwen2.5-Math-7B 上的中间检查点,他们观察到 JS 散度在整个训练过程中单调递增,但高百分位数的增长速度比低百分位数更快。

这种差异化增长模式意味着分布变化在训练过程中变得越来越集中在少数词汇上。大多数词汇保持相对稳定,而变化主要集中在一个逐渐缩小但影响力不断增强的子集中。

通过计算每个检查点的散度词汇集合与最终散度词汇集合的 Jaccard 重叠度,研究团队发现重叠度在训练后期急剧上升。这表明训练过程具有逐渐聚焦的特性:模型在探索阶段会尝试各种调整,但最终会收敛到一个稳定的关键位置集合上。

** 十、散度加权优势的探索性应用 **

基于对强化学习稀疏性和针对性特征的深入理解,研究团队探索了一个有趣的应用方向:散度加权优势函数。这个想法的核心是,既然只有少数词汇位置驱动改进,那么是否可以通过调节词汇级别的学习信号来更有效地指导训练?

他们设计了两种不同的加权策略:高 KL 提升和低 KL 提升。高 KL 提升将更新集中在已经发生较大变化的词汇分布上,就像加强已经在进步的学习点。低 KL 提升则关注那些变化较少的分布,鼓励在之前稳定的区域进行更新。

在 Qwen2.5-Math-7B 上的实验结果显示,这两种策略都能在多个数据集上带来性能提升。在 AIME 2024 上,低 KL 提升将准确率从 33.61% 提升到 35.90%,高 KL 提升提升到 36.74%。在 AIME 2025 上,两种方法都取得了类似的改进。

这些初步结果表明,基于散度的训练信号调制确实有潜力改善强化学习的效果。虽然最优策略的选择以及这种方法的普适性还需要进一步研究,但它为更精细化的强化学习训练策略开辟了新的可能性。

说到底,这项研究最大的价值在于彻底改变了我们对 AI 学习过程的认知。原来那些看似复杂、全面的训练过程,其实质是高度精确和有针对性的。就像发现了一个优秀学生的学习秘诀,关键不在于做更多的题目,而在于找到那些真正重要的关键问题,并在这些问题上实现突破。

这个发现对 AI 研发具有重要的指导意义。它提示我们,未来的训练方法可能不需要追求大而全的改进,而应该专注于识别和优化那些真正关键的决策点。这不仅能提高训练效率,还能让我们更好地理解和控制 AI 系统的行为。

对普通用户而言,这项研究意味着未来的 AI 系统可能会变得更加精准和高效。当我们知道了 AI 改进的关键机制,就能开发出更好的产品和服务。同时,这也提醒我们,AI 的 " 聪明 " 并不来自于铺天盖地的计算,而来自于在关键时刻的精准判断,这或许也给我们的学习和思考带来了启示。

Q&A

Q1:强化学习训练大语言模型时真的只有 1% 的改变起作用吗?

A:研究发现在使用可验证奖励的强化学习方法训练时,超过 98% 的词汇位置几乎没有变化,真正承担性能提升的是剩下不到 2% 的关键位置。通过交叉采样实验证实,仅替换约 1-8% 的关键词汇就能完全恢复或消除模型的性能提升,证明这些稀疏位置确实承载着改进的全部功能。

Q2:为什么强化学习只在少数位置发生改变,而不是全面优化?

A:研究发现强化学习更像精确的外科手术而非全面改造。它主要在模型原本不确定的高熵位置进行调整,并且主要通过重新排序现有的候选词汇而不是引入全新词汇来工作。这种机制让模型能够在保持原有能力的基础上,精准修正关键的推理决策点,实现高效的性能提升。

Q3:这种稀疏变化模式对 AI 开发有什么实际意义?

A:这个发现彻底改变了对 AI 训练的认知,提示未来训练方法可以专注于识别和优化关键决策点而不需要全面改进,能大大提高训练效率。研究团队基于此开发的散度加权优势方法已经在实验中显示出性能提升,为开发更精准高效的 AI 训练策略开辟了新方向,最终将带来更好的 AI 产品和服务。

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容