关于ZAKER 合作
量子位 21小时前

开源编程模型王座易主了,谁能想到新 SOTA 是快手

开源编程模型王座,再度易主!

来自快手的 KAT-Dev-72B-Exp,在 SWE-Bench 认证榜单以 74.6% 的成绩夺得开源模型第一。

KAT-Dev-72B-Exp 是 KAT-Coder 模型的实验性强化学习版本。

而 KAT-Coder 同样表现不凡,在 SWE-Bench 认证榜单上击败了 GPT-5(非 Codex 模式)和 Claude 4 Sonnet。

KAT-Coder 可以在网页中复刻出一个《水果忍者》,计分和生命值系统都完整包含。

而且模型支持在 Claude Code 等编程工具中使用,充当 Claude 模型的开源平替。

用代码让物理规律可视化

在官方 X 账号当中,开发团队陆续展示了 KAT-Coder 的更多成果。

比如这个赛博朋克时钟,点击即可触发立方体爆炸特性,将罗马数字散布到 3D 空间中,且包含霓虹灯和粒子效果。

除了生成这种交互特效,KAT-Coder 还非常擅长通过代码实现物理规律的可视化。

比如太阳系运行模拟,网友通过 KAT-Coder 用 three.js 制作出了 3D 动画,并且支持视角的立体旋转。

还有这个建筑物爆破过程的动画,一座 60 层高的圆形塔楼在重力和冲击波的作用下倒塌,整个过程都遵循真实的物理规律。

那么,KAT-Coder 都运用了哪些关键技术呢?

强化学习后出现涌现行为

KAT-Coder 通过多个训练阶段进行优化,包括中期训练、监督微调(SFT)与强化微调(RFT),以及大规模的 Agentic 强化学习。

中期训练又可以分为两个阶段,第一阶段主要是增强模型与 Agentic 相关的综合能力,包括推理、指令遵循、工具使用、编码知识注入等。

第二阶段则是收集人类工程师标注的真实交付轨迹,并合成大量的轨迹数据,以增强端到端的需求交付能力,涵盖了八种任务类型和八种典型场景。

SFT 则使用高质量轨迹数据,让模型学习执行真实的下游任务,RFT 则是让模型开始自由探索,为后续的 RL 阶段打下基础。

在 RL 阶段,针对软件开发场景,研发团队重点专注于三个关键组件——问题描述及其对应的分支代码、可执行环境和可验证的测试用例。

团队从开源代码库和一些内部代码库收集 Pull Request 及其相关 Issue,并根据这些代码库的 Stars、PR 活动和 Issue 内容过滤掉低质量数据。

然后,研发团队系统地构建可执行环境镜像,并为每个收集到的实例生成单元测试用例。除了软件工程数据外,还融入了其他可验证领域,例如数学和推理任务,进一步丰富了强化学习信号的多样性。

除了开源数据之外,团队还进一步收集并利用源自真实工业系统的匿名企业级代码库进行强化学习训练。

在强化学习扩展后,研发团队发现了模型的涌现行为。

这主要体现在模型完成任务所需要的互动次数减少,与 SFT 阶段刚完成时相比减少了 32%。

另一方面则是 RL 阶段完成后,模型具备了同时调用多个工具的能力, 脱离了传统的顺序调用范式。

在这个强化学习过程的背后,还有快手团队自研的工业级强化学习框架 SeamlessFlow。

工业级强化学习框架

SeamlessFlow 通过创新的数据平面架构,对 RL 的训练逻辑和 Agent 做了彻底解耦,用以支持多智能体、在线强化学习训练等复杂场景。

具体来说,SeamlessFlow 引入了独立的数据平面层,彻底解耦了 RL 训练和智能体实现。

它不要求每个智能体去适配训练框架,而是在 LLM 服务和智能体之间插入了一个透明的代理层。

数据平面的核心是 Trajectory Manager(轨迹管理器),它像一个 " 隐形记录员 ",静默地捕获所有经过的 token 级别输入输出。

当智能体向 LLM 发送请求时,Trajectory Manager 会记录完整的输入;当 LLM 返回响应时,它同样会保存所有输出 token,然后再转发给智能体。

数据平面的另一个关键组件是 Rollout Manager(推理管理器),它负责协调整个系统的运行节奏。

在使用 32 张 H800 GPU 进行的对比测试显示,相比主流的 VERL 框架,SeamlessFlow 在单轮 RL 任务(8k token 上下文)中实现了 100% 的吞吐量提升,整体训练时间减少 62%。

在 Kwai-Coder 及 KAT-Dev-72B-Exp 当中,团队还引入了 Trie Packing 机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。

在大规模 agentic 训练场景中,Agent 在完成任务时所产生的 token 轨迹通常呈树形结构,业界过往都是将树形轨迹拆解为若干条独立的线性序列。

研发团队则重写了训练引擎以及 attention kernel,通过树形梯度修复权重,把共享前缀的前反向重复的计算合并,让模型能高效地在共享前缀的轨迹上进行训练,最终速度平均提升了 2.5 倍。

结合难度感知的策略优化,研发团队实现了探索与利用的平衡,并结合基于开源仓库构建的大规模端到端可验证软件工程任务,让 KAT-Dev-72B-Exp 在编程领域展现出强大的能力。

参考链接:

[ 1 ] https://mp.weixin.qq.com/s/BHfXI7mHqCq2tl41KbHYEQ

[ 2 ] https://mp.weixin.qq.com/s/Zi0X-rptBbEhwxTdd47i5w

[ 3 ] https://x.com/KwaiAICoder/status/1976588769785692240

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见

相关标签