APP下载

关于ZAKER

合作

量子位 21小时前

开源编程模型王座易主了，谁能想到新 SOTA 是快手

开源编程模型王座，再度易主！

来自快手的 KAT-Dev-72B-Exp，在 SWE-Bench 认证榜单以 74.6% 的成绩夺得开源模型第一。

KAT-Dev-72B-Exp 是 KAT-Coder 模型的实验性强化学习版本。

而 KAT-Coder 同样表现不凡，在 SWE-Bench 认证榜单上击败了 GPT-5（非 Codex 模式）和 Claude 4 Sonnet。

KAT-Coder 可以在网页中复刻出一个《水果忍者》，计分和生命值系统都完整包含。

而且模型支持在 Claude Code 等编程工具中使用，充当 Claude 模型的开源平替。

用代码让物理规律可视化

在官方 X 账号当中，开发团队陆续展示了 KAT-Coder 的更多成果。

比如这个赛博朋克时钟，点击即可触发立方体爆炸特性，将罗马数字散布到 3D 空间中，且包含霓虹灯和粒子效果。

除了生成这种交互特效，KAT-Coder 还非常擅长通过代码实现物理规律的可视化。

比如太阳系运行模拟，网友通过 KAT-Coder 用 three.js 制作出了 3D 动画，并且支持视角的立体旋转。

还有这个建筑物爆破过程的动画，一座 60 层高的圆形塔楼在重力和冲击波的作用下倒塌，整个过程都遵循真实的物理规律。

那么，KAT-Coder 都运用了哪些关键技术呢？

强化学习后出现涌现行为

KAT-Coder 通过多个训练阶段进行优化，包括中期训练、监督微调（SFT）与强化微调（RFT），以及大规模的 Agentic 强化学习。

中期训练又可以分为两个阶段，第一阶段主要是增强模型与 Agentic 相关的综合能力，包括推理、指令遵循、工具使用、编码知识注入等。

第二阶段则是收集人类工程师标注的真实交付轨迹，并合成大量的轨迹数据，以增强端到端的需求交付能力，涵盖了八种任务类型和八种典型场景。

SFT 则使用高质量轨迹数据，让模型学习执行真实的下游任务，RFT 则是让模型开始自由探索，为后续的 RL 阶段打下基础。

在 RL 阶段，针对软件开发场景，研发团队重点专注于三个关键组件——问题描述及其对应的分支代码、可执行环境和可验证的测试用例。

团队从开源代码库和一些内部代码库收集 Pull Request 及其相关 Issue，并根据这些代码库的 Stars、PR 活动和 Issue 内容过滤掉低质量数据。

然后，研发团队系统地构建可执行环境镜像，并为每个收集到的实例生成单元测试用例。除了软件工程数据外，还融入了其他可验证领域，例如数学和推理任务，进一步丰富了强化学习信号的多样性。

除了开源数据之外，团队还进一步收集并利用源自真实工业系统的匿名企业级代码库进行强化学习训练。

在强化学习扩展后，研发团队发现了模型的涌现行为。

这主要体现在模型完成任务所需要的互动次数减少，与 SFT 阶段刚完成时相比减少了 32%。

另一方面则是 RL 阶段完成后，模型具备了同时调用多个工具的能力，脱离了传统的顺序调用范式。

在这个强化学习过程的背后，还有快手团队自研的工业级强化学习框架 SeamlessFlow。

工业级强化学习框架

SeamlessFlow 通过创新的数据平面架构，对 RL 的训练逻辑和 Agent 做了彻底解耦，用以支持多智能体、在线强化学习训练等复杂场景。

具体来说，SeamlessFlow 引入了独立的数据平面层，彻底解耦了 RL 训练和智能体实现。

它不要求每个智能体去适配训练框架，而是在 LLM 服务和智能体之间插入了一个透明的代理层。

数据平面的核心是 Trajectory Manager（轨迹管理器），它像一个 " 隐形记录员 "，静默地捕获所有经过的 token 级别输入输出。

当智能体向 LLM 发送请求时，Trajectory Manager 会记录完整的输入；当 LLM 返回响应时，它同样会保存所有输出 token，然后再转发给智能体。

数据平面的另一个关键组件是 Rollout Manager（推理管理器），它负责协调整个系统的运行节奏。

在使用 32 张 H800 GPU 进行的对比测试显示，相比主流的 VERL 框架，SeamlessFlow 在单轮 RL 任务（8k token 上下文）中实现了 100% 的吞吐量提升，整体训练时间减少 62%。

在 Kwai-Coder 及 KAT-Dev-72B-Exp 当中，团队还引入了 Trie Packing 机制，并对训练引擎进行了重构优化，使模型能够高效地在共享前缀轨迹上开展训练。

在大规模 agentic 训练场景中，Agent 在完成任务时所产生的 token 轨迹通常呈树形结构，业界过往都是将树形轨迹拆解为若干条独立的线性序列。

研发团队则重写了训练引擎以及 attention kernel，通过树形梯度修复权重，把共享前缀的前反向重复的计算合并，让模型能高效地在共享前缀的轨迹上进行训练，最终速度平均提升了 2.5 倍。

结合难度感知的策略优化，研发团队实现了探索与利用的平衡，并结合基于开源仓库构建的大规模端到端可验证软件工程任务，让 KAT-Dev-72B-Exp 在编程领域展现出强大的能力。

参考链接：

[ 1 ] https://mp.weixin.qq.com/s/BHfXI7mHqCq2tl41KbHYEQ

[ 2 ] https://mp.weixin.qq.com/s/Zi0X-rptBbEhwxTdd47i5w

[ 3 ] https://x.com/KwaiAICoder/status/1976588769785692240

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦！我们正在寻找 AI+ 时代领航者点击了解详情

企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

小红书终于到了满地捡钱的阶段

钛媒体 1小时前

OPPO Find X9定档10月16日发布！首次全系7000mAh+电池 5年后仍有80%以上健康度

快科技 41分钟前

因侵犯5G、WiFi等无线通信专利三星在美被判赔近4.5亿美元

快科技 17分钟前

汽车供应商集体拒绝“无限期合同”

汽车商业评论 4小时前

苹果iPhone免费卫星功能在这些国家可用：反正没中国

数码测评 21小时前

网友新手机号登入去世歌手李玟账号网易云音乐客服回应：已解绑

快科技 20小时前

找到源头我重谢！保时捷女销冠被合成AI不雅视频已非首次：本人再回应

快科技 22小时前

告别伪AI：萤石的「全域自研」，正在定义智能锁的下一站

雷科技 20小时前

有AI的Air！联想moto X70 Air月底发布：厚度不到6mm

快科技 23小时前

现场原声直击！全球最大固体运载火箭“引力一号遥二” 一箭三星发射成功

快科技 23小时前

高德“起”榜30天

钛媒体昨天

和两位 CEO 聊 Sora：应用层爆发的里程碑事件，创业者的机会来了

极客公园昨天

马云现身NBA中国赛场观战！身旁大佬云集：吴泳铭成龙贝克汉姆等并排观赛

快科技昨天

贵大学生团队成功研发高性能地震勘探救援机器人

资讯贵阳昨天

光模块需求喷涌中国企业领跑“新光年”

21世纪经济报道昨天

量子位

觉得文章不错，微信扫描分享好友

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

开源编程模型王座易主了，谁能想到新 SOTA 是快手

宙世代

一起剪

相关阅读

小红书终于到了满地捡钱的阶段

OPPO Find X9定档10月16日发布！首次全系7000mAh+电池 5年后仍有80%以上健康度

因侵犯5G、WiFi等无线通信专利 三星在美被判赔近4.5亿美元

汽车供应商集体拒绝“无限期合同”

苹果iPhone免费卫星功能在这些国家可用：反正没中国

网友新手机号登入去世歌手李玟账号 网易云音乐客服回应：已解绑

找到源头我重谢！保时捷女销冠被合成AI不雅视频 已非首次：本人再回应

告别伪AI：萤石的「全域自研」，正在定义智能锁的下一站

有AI的Air！联想moto X70 Air月底发布：厚度不到6mm

现场原声直击！全球最大固体运载火箭“引力一号遥二” 一箭三星发射成功

高德“起”榜30天

和两位 CEO 聊 Sora： 应用层爆发的里程碑事件，创业者的机会来了

马云现身NBA中国赛场观战！身旁大佬云集：吴泳铭 成龙 贝克汉姆等并排观赛