APP下载

关于ZAKER

合作

量子位 12小时前

7B 小模型超越 DeepSeek-R1：模仿人类教师，弱模型也能教出强推理 LLM

Thinking 模式当道，教师模型也该学会 "启发式" 教学了——

由 Transformer 作者之一 Llion Jones 创立的明星 AI 公司Sakana AI，带着他们的新方法来了！

这个方法要求教师模型像优秀的人类教师一样，根据已知解决方案输出清晰的逐步解释，而不再是从头开始自己解决。

用 Sanaka AI 的新方法训练出的 7B 小模型，在传授推理技能方面，比 671B 的 DeepSeek-R1 还要有效。

训练比自己大 3 倍的学生模型也不在话下。

对此有网友评价：我们刚刚才意识到，最好的老师不是房间里最聪明的人。

像人类老师一样

许多高级推理模型，如 DeepSeek-R1，遵循两阶段的训练过程：首先训练教师模型，然后使用其输出训练学生模型，最终产品为学生模型。

传统上，这些教师模型通过昂贵的强化学习（RL）进行训练，模型必须从头学习解决复杂问题，只有在得到正确答案时才会获得奖励：

先让教师模型得到问题的答案，再把答案仔细过滤并重新用作学生模型的训练数据。

这种方法缓慢、昂贵且往往过于偏狭，过于依赖教师模型自身能力。因为教师模型拿到的仅仅只有问题，它们需要自己思考给出结果。

而 Sanaka AI 的新方法不再通过解决问题来教学，而是让新的强化学习教师（RLTs）" 学会教学 "：

要求它们根据已知解决方案输出清晰的逐步解释，就像优秀的人类教师一样。

就像一位好教师不需要重新发现数学定理来解释它们一样，RLTs 在输入提示中既获得问题的内容，也获得每个问题的正确答案。

它们的任务是提供有助于学生模型学习的、逐步的详细解释，从而连接这些知识点。如果学生模型能够根据教师对问题的解释轻松理解正确解决方案，那么这就是 RLTs 做得好的信号。

也就是说，对 RLTs 的奖励不再是能自己解决问题，而是能解释对学生模型有多有帮助。

Sanaka AI 的新方法解决了传统方法中的两个问题：

首先，新方法的训练循环使教师训练与其真正目的（为学生进行蒸馏 / 冷启动提供帮助）保持一致，从而大大提高了效率。

其次，将问题和正确答案同时输入 RLT，能帮助原本无法独立解决问题的小型模型学会教学。

这些特性使 Sanaka AI 的新方法能更快、更经济、更有效地训练出具有强大推理能力的学生模型。

小型教师模型的 " 不合理但有效 "

为了验证新方法的有效性，Sanaka AI 用新方法训练了一个 7B 的 RLT 小模型作为教学模型与此前最先进的方法进行比较。

竞争方法使用规模更大的模型，如 DeepSeek-R1 和 QwQ，并结合 GPT-4o-mini 等工具在用于训练学生模型之前清理其输出，以获得额外帮助。

结果发现：使用相同的 Qwen2.5 学生模型、相同的问题以及相同的评估设置，RLT 以远少的计算量取得了比 DeepSeek-R1 和 QwQ 更好的效果。

把学生模型的规模扩大，结果同样令人惊讶：7B 的 RLT 成功训练了一个 32B 的学生模型，其规模是自己四倍以上，并取得了优异的成果。

Sanaka AI 的新方法还可以和传统 RL 方法相辅相成：

上图展示了在 2024 年美国邀请数学考试（AIME）、竞赛数学和研究生级问答基准（GPQA）上的平均性能。

新方法和传统 RL 方法联合使用，使 RLT 获得了改进性能，并补充了传统 RL 方法在问题解决方面的应用。

用作起点时，RLT 帮助学生模型达到了更高的性能水平。

从成本角度来看，差异非常显著：使用 RLT 训练 32B 的学生模型仅需单个计算节点一天时间，而传统 RL 方法在相同硬件上需要数月。

一项定性分析揭示了 RLTs 提供的解释与 Deepseek-R1 的蒸馏轨迹之间存在一些差异：

Deepseek-R1 的输出常常依赖于外部工具，例如计算器、网络上的讨论以及玩梗，包括一些具有误导性的内容。

相比之下，RLT 提供的解释避免了令人困惑的语言，并增加了额外的逻辑步骤来帮助学生。

这些直观的改进能够转化为学生语言模型的改进学习，像人类专家一样简洁且清晰。

参考链接：

https://x.com/SakanaAILabs/status/1936965841188425776

博客：https://sakana.ai/rlt

论文：https://arxiv.org/abs/2506.08388

代码：github.com/SakanaAI/RLT

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

第一代 AI 眼镜市场反馈如何？打造一款爆款 AI 眼镜有哪些挑战？AI 眼镜的 Killer 应用会是什么？

6 月 25 日周三，欢迎参与线下沙龙，与影目科技、李未可科技、小米、百度智能云一起开聊！

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

中信证券：AI应用落地加速，关注电商、办公、医疗场景

36氪 57分钟前

微软裁员潮又来！ Xbox全体团队面临重整压力

快科技 36分钟前

电梯里也有“支付宝碰一下”了碰一下就能领红包

快科技 1小时前

香港理工大学倪一清：为高铁磁浮装上“感知神经”

21世纪经济报道 3小时前

科股早知道：该AI硬件市场正由初探期向高速发展期迈进

钛媒体 2小时前

苹果板王！曝下一代iPad Pro升级为超窄边框

快科技 9小时前

打工人的噩梦！苹果iOS 26新版闹钟容易让人睡过头

快科技 10小时前

杀入三星老巢！小米韩国首家小米之家6月28日开业

快科技 10小时前

RTX 5050显卡正式发布：七彩虹同步首发5款新品 2099元起

快科技 13小时前

旗舰功能下放！中国电信麦芒40真机开箱：普及卫星通信 1999元起

数码测评 13小时前

从Sam Altman的观点看AI创业机会在哪

虎嗅APP 3小时前

特斯拉：Robotaxi安全性信息属于机密不会公开

快科技昨天

胖东来将关闭多家门店？公司回应

36氪昨天

滴滴在全国近300城发放超6亿元高温补贴鼓励司机给乘客开空调

快科技昨天

自称主营解决“AI幻觉” 海致科技冲刺港股IPO

21世纪经济报道昨天

量子位

觉得文章不错，微信扫描分享好友

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅

7B 小模型超越 DeepSeek-R1：模仿人类教师，弱模型也能教出强推理 LLM

宙世代

一起剪

相关阅读

中信证券：AI应用落地加速，关注电商、办公、医疗场景

微软裁员潮又来！ Xbox全体团队面临重整压力

电梯里也有“支付宝碰一下”了 碰一下就能领红包

香港理工大学倪一清：为高铁磁浮装上“感知神经”

科股早知道：该AI硬件市场正由初探期向高速发展期迈进

苹果板王！曝下一代iPad Pro升级为超窄边框

打工人的噩梦！苹果iOS 26新版闹钟容易让人睡过头

杀入三星老巢！小米韩国首家小米之家6月28日开业

RTX 5050显卡正式发布：七彩虹同步首发5款新品 2099元起

旗舰功能下放！中国电信麦芒40真机开箱：普及卫星通信 1999元起

从Sam Altman的观点看AI创业机会在哪

特斯拉：Robotaxi安全性信息属于机密 不会公开

胖东来将关闭多家门店？公司回应

滴滴在全国近300城发放超6亿元高温补贴 鼓励司机给乘客开空调

自称主营解决“AI幻觉” 海致科技冲刺港股IPO

最新评论

量子位

热门推荐

热门订阅 换一批

董秘学苑

蓝鲨财经社

骑鲸出海

电梯里也有“支付宝碰一下”了碰一下就能领红包

特斯拉：Robotaxi安全性信息属于机密不会公开

滴滴在全国近300城发放超6亿元高温补贴鼓励司机给乘客开空调

热门订阅换一批