关于ZAKER 合作
量子位 14小时前

6666!NuerIPS 满分论文来了

四个审稿人全给 6 分,NuerIPS 唯一满分论文炸了!

之所以说它炸,主要是论文给出的结论实在太出人意料了——

真正决定推理上限的是基座模型本身而非强化学习,且蒸馏比强化学习更有望实现大模型自我进化。

好家伙,这无异于给正炙手可热的 RLVR(可验证奖励的强化学习)迎面泼下一盆冷水 ~

RLVR,自大模型推理范式开启后就成为一众主流模型(如 OpenAI-o1、DeepSeek-R1)的核心驱动力。

由于无需人工标注,通过自动验证奖励优化模型,它一度被视为实现模型自我进化、逼近更高推理能力的终极路径。

但来自清华上交的这篇论文,却让风向陡然生变——

如果进化的钥匙不在强化学习,那当前围绕 RLVR 的巨额投入与探索,意义何在?

真正能突破推理上限:蒸馏而非强化学习

这篇论文题目为《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 》," 获 NuerIPS 唯一满分 " 的结论由 PaperCopilot(非官方论文分析平台)统计得出。

同时它还荣获 ICML 2025 AI4Math Workshop 最佳论文奖,并入选 NeurIPS 2025 大会口头报告。

之所以提出这项研究,主要是近年来 RLVR 在大语言模型中被广泛应用于提升数学、编程、视觉推理等任务的表现。

随之而来的是,AI 圈普遍假设——

RLVR 不但能提升推理效率,还可能扩展模型的推理能力,即让模型学会底层基础模型本来不会的新推理路径。

但问题是,这一结论真的成立吗?

于是带着疑问,来自清华上交的研究团队核心想要弄清一个问题:

RLVR 是否真的让大语言模型超越其 " 底模 " 推理能力边界,还是只是优化已有能力?

而通过一系列实验,团队得出以下最新结论:

RLVR 主要是在 " 强化 " 底模已有的路径,而不是 " 发现 " 底模没有的路径。

RL 训练后的模型在低采样次数(如 pass@1)表现更好,但随着采样次数增加(pass@64、pass@256 …),底模反而能超过 RL 模型,这说明底模隐藏的推理能力被低估了。

多种 RL 算法(如 PPO、GRPO、Reinforce++ 等)在提升采样效率方面差异不大,且与 " 理论上底模最大能力 " 相比,仍有明显差距,这说明想靠 RL 突破底模上限还不够。

蒸馏方法更有可能 " 扩展 " 模型的推理能力范围,因为其接收来自教师模型的新推理模式,而 RLVR 更受限于底模。

换句话说,与普遍认知相反,RLVR 的实际作用很可能被严重高估了。

关键评估指标:pass@k

而为了得出上述结论,他们采用了pass@k这一关键评估指标。

所谓 pass@k,是指衡量一个模型在多次尝试中,至少成功一次的几率。

相比一些传统指标(如 greedy decoding 准确率)仅反映平均表现,它通过多轮采样揭示模型的推理边界,能更精准判断模型是否 " 有能力 " 解决问题,而非 " 大概率 " 解决问题。

具体来说,他们主要把底模、RL 模型放在同一批题目上反复测试,来看模型是 " 真的变聪明 " 还是只是 " 更会挑答案 "。

为避免实验结果的局限性,团队选取了大语言模型推理能力的三大典型应用领域,并搭配权威基准数据集,确保测试的全面性和代表性。

数学推理(GSM8K、MATH500 等 6 个基准)

代码生成(LiveCodeBench 等 3 个基准)

视觉推理(MathVista 等 2 个基准)

模型则以主流大语言模型家族为基础,包括 Qwen2.5 系列(70 亿、140 亿、320 亿参数)和 LLaMA-3.1-80 亿参数模型等,并构建 " 基础模型 vs RLVR 训练模型 " 的对照组合。

其中 RLVR 训练模型是指,分别用 PPO、GRPO、Reinforce++ 等 6 种主流 RLVR 算法训练后的版本,形成多组平行对照。这样既能对比 RLVR 与基础模型的差异,也能横向比较不同 RLVR 算法的效果。

然后就是对不同模型在各基准任务上的pass@k 指标进行多维度采集与分析。

针对每个测试样本,分别让基础模型和 RLVR 模型进行不同次数的采样(k 值从 1 逐步提升至 1024),记录每次采样中 " 至少出现一个正确结果 " 的概率。

随后团队重点分析两个关键规律:

一是同一 k 值下,RLVR 模型与基础模型的 pass@k 差异;二是随着 k 值增大,两类模型 pass@k 曲线的变化趋势。

同时,结合模型输出的推理路径困惑度分析(perplexity)、可解问题子集比对等辅助手段,最终形成对 RLVR 能力的全面判断。

论文作者介绍

值得一提的是,这项研究还是出自咱们国内研究人员之手。

一共 8 位,7 位来自清华大学 LeapLab,1 位来自上海交通大学。

项目负责人 Yang Yue ( 乐洋 ) ,清华大学自动化系四年级博士生。

研究方向为强化学习、世界模型、多模态大模型和具身智能,之前曾在颜水成创办的新加坡 Sea AI Lab 和字节跳动 Seed 团队实习过。

虽然还是学生,但发表或参与发表的多篇论文均入选顶会。这当中,他以核心作者身份发表的论文《How Far is Video Generation from World Model: A Physical Law Perspective》,因探索视频模型能否学会物理规律,还被国内外众多大佬 Yan Lecun,xie saining,Kevin Murphy 等转发。

另一位和他贡献相同的作者Zhiqi Chen,目前为清华大学自动化工程系大三学生。

研究方向为推理密集型大语言模型的强化学习,在校期间多次获得国家奖学金。

通讯作者 Gao Huang ( 黄高 ) ,清华大学自动化系副教授、博士生导师, LeapLab 负责人。

他最知名的工作之一就是发表了论文《Densely Connected Convolutional Networks》,其中提出了经典卷积架构模型 DenseNet。

该论文不仅荣获 CVPR2017 最佳论文,而且被编入多本深度学习著作,单篇引用量接近 6 万次。

其他作者中,来自清华的还有:

Rui Lu ( 卢睿 ) ,清华大学自动化系四年级博士生,本科毕业于姚班。

Andrew Zhao ( 赵启晨 ) ,清华大学自动化系博士生,本硕毕业于加拿大哥伦比亚大学和南加州大学。

Shiji Song,清华大学自动化系教授,与黄高一起负责指导本项研究。

Yang Yue ( 乐阳 ) ,和项目负责人名字同音,但由于相对低调网上暂无太多公开资料。

以及唯一来自交大的Zhaokai Wan ( 王肇凯 ) ,目前是上海交通大学四年级博士生。

本科毕业于北京航空航天大学,同一时期还拿到了北大经济学学士学位,当前也在上海人工智能实验室通用视觉团队(OpenGVLab)实习。

对于这项研究,团队作者特意在论文主页强调:这并不是说强化学习无用了。实际上,它在一些低采样场景仍旧非常实用。

以及有网友发现,有意思的是,DeepSeek 在一年前的一篇论文中也提到了相关现象。

……这些发现表明,强化学习通过使输出分布更加鲁棒来提升模型的整体表现,换言之,性能的提升似乎源于促进了正确答案出现在 TopK 结果中,而非源于基础能力的增强。

而这一次,结论被用论文完整论证了。

论文:

https://limit-of-rlvr.github.io/

参考链接:

[ 1 ] https://x.com/YangYue_THU/status/1987118454315622543

[ 2 ] https://x.com/iScienceLuvr/status/1914171319970848942

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」申报即将于 11 月 17 日截止点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,最后时刻一起冲刺

一键关注 点亮星标

科技前沿进展每日见