关于ZAKER 合作
量子位 17小时前

攻克强化学习「最慢一环」!交大字节联手,让大模型 RL 训练速度飙升 2.6 倍

强化学习的训练效率,实在是太低了!

随着 DeepSeek、GPT-4o、Gemini 等模型的激烈角逐,大模型 " 深度思考 " 能力的背后,强化学习(RL)无疑是那把最关键的密钥。

然而,这场竞赛的背后,一个巨大的瓶颈正悄然限制着所有玩家的速度——相较于预训练和推理,RL 训练更像一个效率低下的 " 手工作坊 ",投入巨大但产出缓慢。

其中,占据超过 80% 时间的 Rollout(响应生成)阶段,由于其内存带宽限制和自回归特性,成为了整个 AI 基础设施中公认的阿喀琉斯之踵。

如何攻克这块 AI 基建的最后高地?现在,上海交通大学与字节跳动研究团队给出了一个全新的答案。

该团队联手推出的RhymeRL,从一个被忽视的现象入手,巧妙地将历史数据变废为宝,在不牺牲精度的前提下,将 RL 训练吞吐量提升了 2.6 倍

模型生成的答案存在两大 " 历史相似性 "

该研究团队深入分析了大量 RL 训练过程,发现在相邻的两个训练周期中,尽管模型权重已经更新,但对于同一个问题(Prompt),模型生成的答案(Rollout)存在两大 " 历史相似性 ":

第一,序列相似性

新答案 " 继承 " 了旧答案的思路,高达 95% 的历史 Token 都可以直接复用。

第二,长度分布相似性

上一轮里,哪些问题让模型 " 思来想去 ",这一轮大概率依旧如此。响应长度的排序惊人地稳定。

该研究团队认为,这种相似性,主要源于 PPO/GRPO 等主流 RL 算法为了保证训练稳定而采用的梯度裁剪(Clipping)机制,它让模型的进化变得平滑而有迹可循。

这就好比一个学生,虽然每天都在进步,但他解决同一类型问题的思考路径和草稿篇幅,在短期内是高度相似的。

既然如此,历史的旧草稿能否成为新一轮学习的模版?

针对 Rollout 阶段的低效现状,提出新框架 RhymeRL

基于这一洞察,RhymeRL 框架应运而生。

针对 Rollout 阶段的低效现状,它包含两大核心利器:

HistoSpecHistoPipe

RhymeRL 的核心设计示意图 HistoSpec

传统的 Rollout,是一个 Token 一个 Token 往外蹦的自回归过程,速度慢且 GPU 利用率较低。

而 HistoSpec 独创性地将投机解码(Speculative Decoding)技术引入 RL,它不再需要一个额外的小模型来 " 猜 " 草稿,而是直接把上一轮的历史响应作为 " 最佳剧本 "

这就像开卷考试,你提前拿到了去年的标准答案作为参考。

起草(Draft):直接从历史响应中巧妙地总结出树状草稿。

验证(Verify):将整段草稿一次性扔给大模型,通过单次前向传播,并行验证所有 Token 的正确性,然后 " 接收 " 所有匹配的部分。

由于历史序列的超高相似性,草稿的接受率极高。

这使得计算过程从逐字生成变成了 " 批量验证 ",计算密度飙升,打破了内存带宽的枷锁,让单个响应的生成速度实现了质的飞跃。

HistoSpec 采用的基于树的历史响应管理,实现了草稿的高速、准确生成 HistoPipe

仅仅让单个响应变快还不够。

在批处理中,不同任务的响应长度不一,短任务总要等待长任务,导致大量 GPU 资源被闲置,产生了巨大的 " 空泡 "(Bubble)。

HistoPipe是一位具有前瞻性的调度大师,它的目标是:

榨干每一滴 GPU 算力,实现无空泡的完美流水线。

基于 " 长度分布相似性 " 的洞察,HistoPipe 不再强求单一步内实现负载均衡,而是玩起了 " 跨步互补 " ——在奇数步,让所有 GPU 由短到长处理任务;在偶数步,则反过来,由长到短处理。

这样一来,上一步因为处理长任务而拖慢的 GPU,在下一步会优先处理短任务,完美填补了时间差。

通过这种巧妙的削峰填谷,HistoPipe 将整个集群的资源浪费降至最低

HistoPipe 的流水线设计,通过跨步互补调度实现了无空泡调度 2.6 倍加速,精度无损

当模板 HistoSpec 遇上调度大师 HistoPipe,产生反应是惊人的——实验结果表明,在数学、代码等任务上,RhymeRL 相比于基础系统取得了大幅性能提升,端到端训练吞吐量提升高达 2.61 倍

这意味着,研究者和企业可以用更少的资源、在更短的时间内,完成更强大的模型训练,极大地加速了 AI 技术迭代的步伐。

RhymeRL 在不同模型大小和不同响应长度下都取得了显著加速效果

RhymeRL 的重要意义在于,它提出了一种新的强化学习范式——基于历史信息来端到端地加速强化学习效率。

强化学习不是简单的推理与训练的拼接,通过深入剖析其任务特性,RhymeRL 能够充分发挥系统统筹调度能力与底层硬件的算力资源,同时无损地适配各种已有的训练算法。

arXiv 链接:

https://www.arxiv.org/abs/2508.18588

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见

相关标签