关于ZAKER 合作
量子位 12小时前

7B 小模型超越 DeepSeek-R1:模仿人类教师,弱模型也能教出强推理 LLM

Thinking 模式当道,教师模型也该学会 "启发式" 教学了——

由 Transformer 作者之一 Llion Jones 创立的明星 AI 公司Sakana AI,带着他们的新方法来了!

这个方法要求教师模型像优秀的人类教师一样,根据已知解决方案输出清晰的逐步解释,而不再是从头开始自己解决。

用 Sanaka AI 的新方法训练出的 7B 小模型,在传授推理技能方面,比 671B 的 DeepSeek-R1 还要有效。

训练比自己大 3 倍的学生模型也不在话下。

对此有网友评价:我们刚刚才意识到,最好的老师不是房间里最聪明的人。

像人类老师一样

许多高级推理模型,如 DeepSeek-R1,遵循两阶段的训练过程:首先训练教师模型,然后使用其输出训练学生模型,最终产品为学生模型。

传统上,这些教师模型通过昂贵的强化学习(RL)进行训练,模型必须从头学习解决复杂问题,只有在得到正确答案时才会获得奖励:

先让教师模型得到问题的答案,再把答案仔细过滤并重新用作学生模型的训练数据。

这种方法缓慢、昂贵且往往过于偏狭,过于依赖教师模型自身能力。因为教师模型拿到的仅仅只有问题,它们需要自己思考给出结果。

而 Sanaka AI 的新方法不再通过解决问题来教学,而是让新的强化学习教师(RLTs)" 学会教学 "

要求它们根据已知解决方案输出清晰的逐步解释,就像优秀的人类教师一样。

就像一位好教师不需要重新发现数学定理来解释它们一样,RLTs 在输入提示中既获得问题的内容,也获得每个问题的正确答案

它们的任务是提供有助于学生模型学习的、逐步的详细解释,从而连接这些知识点。如果学生模型能够根据教师对问题的解释轻松理解正确解决方案,那么这就是 RLTs 做得好的信号。

也就是说,对 RLTs 的奖励不再是能自己解决问题,而是能解释对学生模型有多有帮助。

Sanaka AI 的新方法解决了传统方法中的两个问题:

首先,新方法的训练循环使教师训练与其真正目的(为学生进行蒸馏 / 冷启动提供帮助)保持一致,从而大大提高了效率。

其次,将问题和正确答案同时输入 RLT,能帮助原本无法独立解决问题的小型模型学会教学。

这些特性使 Sanaka AI 的新方法能更快、更经济、更有效地训练出具有强大推理能力的学生模型。

小型教师模型的 " 不合理但有效 "

为了验证新方法的有效性,Sanaka AI 用新方法训练了一个 7B 的 RLT 小模型作为教学模型与此前最先进的方法进行比较。

竞争方法使用规模更大的模型,如 DeepSeek-R1 和 QwQ,并结合 GPT-4o-mini 等工具在用于训练学生模型之前清理其输出,以获得额外帮助。

结果发现:使用相同的 Qwen2.5 学生模型、相同的问题以及相同的评估设置,RLT 以远少的计算量取得了比 DeepSeek-R1 和 QwQ 更好的效果。

把学生模型的规模扩大,结果同样令人惊讶:7B 的 RLT 成功训练了一个 32B 的学生模型,其规模是自己四倍以上,并取得了优异的成果。

Sanaka AI 的新方法还可以和传统 RL 方法相辅相成:

上图展示了在 2024 年美国邀请数学考试(AIME)、竞赛数学和研究生级问答基准(GPQA)上的平均性能。

新方法和传统 RL 方法联合使用,使 RLT 获得了改进性能,并补充了传统 RL 方法在问题解决方面的应用。

用作起点时,RLT 帮助学生模型达到了更高的性能水平。

从成本角度来看,差异非常显著:使用 RLT 训练 32B 的学生模型仅需单个计算节点一天时间,而传统 RL 方法在相同硬件上需要数月。

一项定性分析揭示了 RLTs 提供的解释与 Deepseek-R1 的蒸馏轨迹之间存在一些差异:

Deepseek-R1 的输出常常依赖于外部工具,例如计算器、网络上的讨论以及玩梗,包括一些具有误导性的内容。

相比之下,RLT 提供的解释避免了令人困惑的语言,并增加了额外的逻辑步骤来帮助学生。

这些直观的改进能够转化为学生语言模型的改进学习,像人类专家一样简洁且清晰。

参考链接:

https://x.com/SakanaAILabs/status/1936965841188425776

博客:https://sakana.ai/rlt

论文:https://arxiv.org/abs/2506.08388

代码:github.com/SakanaAI/RLT

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

第一代 AI 眼镜市场反馈如何?打造一款爆款 AI 眼镜有哪些挑战?AI 眼镜的 Killer 应用会是什么?

6 月 25 日周三,欢迎参与线下沙龙,与影目科技李未可科技小米百度智能云一起开聊!

相关标签