月之暗面发布 K2.6，杨植麟真的需要一个郭达雅

文 | 字母 AI

月之暗面发布了 Kimi K2.6，这也是杨植麟的第一个 X.6 版本。

虽然版本号上只加了 0.1，但这不是一次普通的版本更新。

K2.6 能在单个工程任务中持续 12 小时、发起 4000 多次工具调用；在 Agent Swarm 场景中，官方称其可横向扩展到 300 个子 agent、4000 个协调步骤。

它开始真正 " 做事 " 了。

更有意思的是，就在 K2.6 发布前几天，月之暗面开始急招推理平台工程师，学历要求只有 " 本科 "。

3 月份招 Coding agent 工程师时，更是打出 " 不限学历 " 的旗号。

这个博士密度极高、论文产出如流水的头部 AI 公司，为什么突然降低学历门槛？

答案就藏在 K2.6 里。

01 K2.6 到底有多能干？

官方披露了两个工程案例。

月之暗面的工程师让 K2.6 在 Mac 上部署 Qwen3.5-0.8B 模型，并用一门非常小众的编程语言 Zig，来优化推理性能。

结果呢？K2.6 跑了 12 个小时，发起了 4000 多次工具调用，迭代了 14 个版本，最终把推理速度从 15 tokens/ 秒提升到 193 tokens/ 秒，比 LM Studio 还快 20%。

但这不是重点，重点在于，从来没有人教过 K2.6 怎么用 Zig。都是它自己学的。

另一个案例更夸张。

K2.6 接手了 exchange-core，一个有 8 年历史的开源金融撮合引擎。这个引擎已经被优化到接近性能极限，但 K2.6 还是找到了突破口。

13 个小时，1000 多次工具调用，4000 多行代码修改。K2.6 像一个经验丰富的系统架构师，分析 CPU 火焰图、定位内存瓶颈、重构线程拓扑。最后，它把中等吞吐量提升了 185%，性能吞吐量提升了 133%。

这不是在做题，这是在解决真实的工程问题。

K2.6 的能力可以归纳为四个方向，但每一个方向都不是简单的 " 更强 "。

第一是长周期编码。

以前的 AI 写代码，基本上是 " 一次性交付 "。你给它一个需求，它写完代码就结束了。但 K2.6 不一样，它能持续工作十几个小时，自己读文件、跑测试、看报错、改代码、再测试，一直循环到任务完成。

它能跨语言泛化，Rust、Go、Python 都没问题。它能处理不同领域的任务，前端、DevOps、性能优化都能搞定。

企业测试的反馈很直接。Blackbox.ai 说："K2.6 为开源模型树立了新标准，尤其是在长周期、agent 风格的编码工作流中。"Factory.ai 的内部测试显示，K2.6 比 K2.5 提升了 15%，指令遵循更好，推理更彻底，编码错误更少。

第二是代码驱动的设计。

你给 K2.6 一个简单的提示，比如 " 做一个科技公司的落地页 "，它不只是生成 HTML 和 CSS，它会给你一个完整的前端界面，包含结构化布局、精心设计的首屏、交互组件、滚动触发的动画效果。

更厉害的是，K2.6 已经不满足于做静态前端了。它开始做简单的全栈应用，从用户认证到数据库操作，轻量级的场景它都能搞定。

月之暗面建立了内部的 Kimi Design Bench，分为视觉输入任务、落地页构建、全栈应用开发、通用创意编程四个类别。K2.6 在这些类别中的表现，已经可以和 Google AI Studio 掰手腕了。

第三是 agent 群体协作。

这是 K2.6 最让人震撼的地方。

K2.5 的 Agent Swarm 已经很强了，能协调 100 个子 agent、执行 1500 个步骤。但 K2.6 直接把规模扩大到 300 个子 agent、4000 个协调步骤。

这不单纯是数量上的堆叠。

K2.6 能让不同的 agent 发挥各自的专长：有的负责广泛搜索，有的负责深度研究；有的分析大规模文档，有的负责长篇写作；有的生成文档，有的生成网站，有的生成幻灯片，有的生成电子表格。

这些 agent 在 K2.6 的协调下，形成了一个整体。

举个例子。

你给 K2.6 上传一篇高质量的天体物理学论文，它能把这篇论文转化为一个 " 技能 "。

提取论文的推理流程、可视化方法、写作风格。然后，它能基于这个技能，产出一篇 40 页、7000 字的新论文，外加一个包含 20000 多条记录的数据集，以及 14 张天文级图表。

第四是主动式 agent。

K2.6 不再是传统的那种，只有你发了指令它才会行动的工具，K2.6 开始主动工作了。

月之暗面的强化学习基础设施团队做了一个实验，让 K2.6 支持的 agent 自主运行 5 天，负责监控、事件响应、系统操作。

结果这个 agent 从告警到解决，全程自己搞定，不需要人工介入。

K2.6 在 OpenClaw 和 Hermes Agent 这样的持久化 agent 平台上表现出色。它能跨多个应用程序持续运行，7 × 24 小时执行任务，主动管理日程、执行代码、协调跨平台操作。

月之暗面建立了内部的 Claw Bench，覆盖编码任务、即时通讯生态系统集成、信息研究与分析、定时任务管理、内存利用五个领域。在所有指标上，K2.6 的任务完成率和工具调用准确性都显著优于 K2.5。

在基准测试中，K2.6 的评分就足以说明一切问题。

HLE-Full（带工具）得分 54.0，超过 GPT-5.4 的 52.1 和 Claude Opus 4.6 的 53.0。DeepSearchQA 的 F1 分数 92.5，准确率 83.0。SWE-Bench Pro 得分 58.6， SWE-Bench Verified 达到 80.2。

02 月之暗面也想要一个郭达雅

就在几天前，月之暗面开始急招 Kimi Code 平台推理工程师。这个岗位的学历要求是 " 本科 "，补充一点，图片中这个 "7 年 " 经验是招聘发起者自己打错了，实则为 "3 年 "。

在这个博士学历云集、论文产出如流水的头部 AI 公司里，竟然会急招一个本科学历的推理平台工程师。

更有意思的是，3 月份月之暗面招 Coding agent 工程师时，更是打出 " 不限学历 " 的旗号。

这不是 HR 写错了要求。AI 竞争的主战场，正在从实验室的算法创新，转移到代码智能和 agent 这样，生产环境的工程落地。

你说这不巧了吗，3 月份从 DeepSeek 离职，4 月份加入字节的郭达雅，他最擅长的正是 agent 和代码智能。

月之暗面也想要一个郭达雅吗？

可能不止于此。月之暗面想要的，是一个完整的 agent 生态。

当模型公司开始从论文、榜单、聊天框走向自动写代码、自动调用工具、自动完成任务时，瓶颈不再只是算法，也可能是工程师手里的网关、路由、限流、日志和成本表。

推理平台工程师到底是做什么的？

这个岗位的核心业务，是为 agent 搭建稳定、可观测、成本可控的模型调用基础设施。

具体来说，就是在模型和应用之间建一套调度系统，让几十上百次的模型调用能稳定跑起来，成本可控，出问题能查。

工作内容包括这么几块。

第一是模型网关。

agent 调用模型时不是直接访问模型 API，而是通过网关统一管理。网关负责请求分发、协议转换、认证鉴权，还要处理不同模型提供商的接口差异。月之暗面已有 K 系列模型，但 Kimi Code 这类平台仍需要多 provider 适配。

第二是多模型路由。

不是所有任务都需要最强的模型。简单的代码补全用轻量模型就够了，复杂的架构设计才需要重模型。

路由系统要根据任务类型、上下文长度、响应速度要求，自动选择合适的模型，避免出现高射炮打蚊子这样的情况。

这需要你得了解不同的模型，知道它们完成不同任务的成本分别是多少，也需要实时的性能监控和动态调整。

第三是成本控制。

推理模型的 token 消耗是普通模型的数倍。

比如 OpenAI 的 o1 系列，它的 reasoning_tokens 可能是 output_tokens 的 10 多倍。这些内部推理标记虽然不返回给用户，但算力也被消耗掉。

如果没有精细的限流降级、token 用量统计分析，成本会失控。你需要设计配额系统、优先级队列、降级策略，保证核心业务不受影响的同时控制成本。

第四是链路管理。

就跟快递一样，货物到哪了，你得能在 APP 上查到。

当一个 agent 任务涉及几十次模型调用、几十次工具调用时，就得追踪好调用链路上的每一环。

用户说 " 帮我修这个 bug", agent 可能读了十几个文件、调了五次模型、跑了三次测试，最后失败了。你需要知道是哪一步出了问题，是模型推理超时、工具调用失败、还是上下文窗口溢出。

传统的日志系统很难追踪这种复杂链路，需要专门为 agent 设计的分布式追踪、性能监控、异常告警系统。

第五是状态管理。

之前模型推理是没有状态这个概念的。传统的对话场景很简单，用户输入一句话，模型返回一段文字，一次请求就结束了。

但 agent 不同，它需要进行多轮推理链，一个任务可能触发几十甚至上百次模型调用。

所以进入了 agent 时代，AI 需要记住状态的不是模型本身，而是围绕模型搭建的 agent runtime。平台要记录任务进度、工具调用结果、中间产物和失败现场，并在下一次模型调用时把必要上下文重新组织进去。

早上 8 点我给模型安排了一个任务，下午我再看这个模型的时候，它就应该是执行过任务的模型。那么任务执行的结果、执行了多少次等信息，就是模型的状态。

那又是为什么这个技术岗位的学历门槛只有本科呢？

杨植麟心里明白，如今的月之暗面不缺能开发算法的博士，事实上 " 高学历 " 对于月之暗面来说不是什么稀缺玩意，相反，能把推理能力工程化、产品化的人才是。

招聘简介里强调 " 能在需求还不明确的时候自己判断该做什么 "、" 还在一线写代码 "，这种人才在传统互联网大厂的基础架构团队里有，在 AI 公司里却是稀缺的。

17 岁的高中生陈广宇曾以实习生身份加入 Kimi，并成为《Attention Residuals》的共同一作；4 月初，Kimi 又推出 " 穿越计划 "，尚未毕业的实习生只要通过 3 到 6 个月考察，就能提前拿到正式 Offer 和期权。

一个博士密度极高的模型公司，开始把高中生、在校生纳入核心人才池，本质上说明 AI 公司的用人逻辑变了。

学历仍是信号，但不再是门票。

真正值钱的是能不能在实际问题里证明自己的价值。

最具代表性的是月之暗面在今年 3 月份发布的那个 " 不限学历 " 的 Coding agent 工程师岗位。

那张招聘海报上写着：" 熟悉 Claude Code、Cursor、Codex、Cline 等代码辅助工具，越多越好；能源源不断地说出 Codex 比 Claude Code 垃圾在哪里；能源源不断地说出 Claude 比 GPT-5 垃圾在哪里。"

这些要求看起来有点玩笑的意味，但背后的逻辑很清晰。

月之暗面要的不是论文作者，他们要的是真正用过这些工具、知道坑在哪里、能快速迭代产品的工程师。

月之暗面急需这样的人，因为他们的模型能力已经到位。

然而要让这些能力真正支撑起大规模 agent 应用，基础设施是瓶颈。当 Anthropic 的 Claude Code 上线不到一年 ARR 就达到 25 亿美元时，杨植麟看到的是一个信号。

下一个阶段比的不只是谁的模型参数更多、benchmark 分数更高，比的是谁能让这些能力稳定、高效、低成本地服务于真实业务场景。

这是一个从 0 到 1 构建新基础设施的机会，也是推理计算时代的新职业方向。当 AI 公司开始为 " 本科学历 " 的工程师开出有竞争力的薪资和期权时，说明整个行业的重心正在转移。

从实验室到生产环境，从论文到产品，从算法创新到工程落地，这条路上需要的不只是能发顶会论文的博士，也需要能把系统跑起来、让用户用得爽的工程师。

03 月之暗面的深层逻辑

把这些线索串起来，月之暗面的战略路径很清晰。

第一层是模型能力，K 系列模型覆盖通用、推理、代码三个方向。

第二层是工程化，推理平台让模型能力可规模化调用。

第三层是生态，开放 API，让第三方基于 Kimi 构建产品。

这条路在国外是走不通的，企业级 AI 和开发者工具市场已经被 Anthropic、OpenAI、Google 等公司高度挤压，后来者很难再用同样路径打开局面。

可是在国内，情况刚好相反。C 端产品的竞争已经白热化，豆包、元宝、千问，每家都在烧钱拉用户。但 B 端市场，尤其是开发者工具市场，还有巨大空间。

于是月之暗面选择了两条腿走路。

一方面学 Claude Code，自己做编程工具 Kimi Code，这是直接面向开发者的产品。

另一方面又让自己的模型适配 Claude Code，通过 API 的方式让第三方工具调用 Kimi 的能力，这也是为啥 K2.6 这么强调 agent 和代码能力。

从技术演进的角度看，这是非常合理的。

AI 行业正在从 " 模型创新驱动 " 转向 " 工程化落地驱动 "。继续卷基座模型，比谁的性能更好，可普通用户已经感受不到差异了。

关键问题从 " 模型够不够聪明 " 变成了 " 能不能帮我把事儿做成 "。

这就需要 agent 能力，回归到代码智能的基本功上。

月之暗面的战略选择背后，还有一个更深层的逻辑：数据飞轮。

代码任务和普通聊天不同，普通聊天很难判断对错，但代码有天然的 verifier。

能不能编译、单测过不过、CI 是否失败、bug 是否复现、benchmark 是否提升、diff 是否合理，这些都是客观的评价标准。

用户每一次让 agent 改代码，都会产生高价值轨迹。

读了哪些文件、用了哪些工具、哪里报错、怎么修复、测试结果如何。这些轨迹可以反过来做 eval、SFT、RL、拒答策略、工具调用训练。

这就是为什么所有大厂都在抢代码智能这个赛道，擅长 agent 和代码智能的郭达雅也因此变得人都在疯抢。

不只是因为开发者市场有付费能力，更是因为代码任务能够形成训练闭环。

在合规授权、脱敏和企业协议允许的前提下，用户的每一次使用，都会让这些轨迹可以反过来成为 eval、SFT、RL 和工具调用训练的材料。

这种飞轮效应一旦启动，会形成强大的竞争壁垒。先发优势会越来越明显，后来者很难追赶。

月之暗面看到了这一点，所以他们在急招能 " 做过基础设施 "、" 还在一线写代码 " 的工程师。这不只是填补团队空缺，而是在抢占一个战略窗口期。

2026 年是推理模型从实验室走向大规模应用的转折年，谁能先把推理能力工程化、让开发者用得爽，谁就能占据生态位。

技术能力只是一方面，时间窗口更关键。

国内市场的竞争更加激烈。

智谱的 GLM-Code、阿里的通义灵码、字节的豆包代码助手，每家都在投入重兵。而就在这个节骨眼上，郭达雅从 DeepSeek 离职，加入字节跳动 Seed 团队，担任 agent 方向负责人之一。

这个消息在 AI 圈引发震动，不只是因为他的技术能力，更是因为他的技术标签太精准了，直接暴露了字节整个 2026 年的战略方向。

郭达雅是代码智能与大模型推理方向的顶尖人才。

从毕业到进入 DeepSeek，郭达雅做的是一套可以迁移、可以复用的技术体系。

代码能力可以迁移到数学推理，数学推理的训练方法可以迁移到通用推理和 agent，这种技术迁移能力正是字节，乃至所有国内 AI 大厂都需要的。

字节在多模态领域全球领先，Seed 2.0 的视频生成能力有目共睹。

但在数学推理、代码智能和 agent 能力上，字节落后于 ChatGPT 和 Claude 这样的竞品。

2026 年启动 agent 与 Coding 组织整合，梁汝波明确将 AI 模型能力列为战略重点。郭达雅的加入，补齐了字节在代码与推理方向上的关键拼图。

此前有报道称，郭达雅早在去年 10 月便已产生离职意向，其关注重点在 agent 方向，而当时该方向在 DeepSeek 内部优先级相对有限。

在后续去向选择中，阿里曾较早与其接触，提供的岗位是后训练负责人，管理范围更大，且在工作地点与现金待遇上具备一定吸引力。

不过最终促成其加入字节 Seed 团队的关键因素，仍然是在研究方向本身。

字节承诺郭达雅，将 agent 视为字节的核心方向之一，不仅在模型能力演进中强化 agent 能力，也在产品侧加速相关形态落地。

对于这个逻辑，月之暗面只会看得比我更透彻。

这种急迫不只是人才竞争的压力，更是战略窗口期的焦虑。2026 年到 2027 年，可能是 agent 基础设施格局确定的关键时期。

谁能在这个时间窗口建立起稳定的推理平台、吸引到足够多的开发者、形成数据飞轮，谁就能在接下来的竞争中占据主动。

我承认有些标题党，月之暗面可能并不需要 " 郭达雅 " 这个人，但是他的技术标签 " 代码智能和推理能力 "，绝对是月之暗面现在最渴望的。

在 AI 竞争的下半场，能把模型能力变成稳定服务的工程师，它的作用可能和能发顶会论文的博士一样重要。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

月之暗面发布 K2.6，杨植麟真的需要一个郭达雅

宙世代

一起剪

相关阅读

京东股权曝光：刘强东控制12.7%股权有73%投票权 获1亿美元股息

存储暴涨下友商纷纷涨价！余承东谈华为手机为何不涨价

2nm是笑话！黄仁勋： 中国电力碾压美国 7nm芯片就够用了

专访Eight Sleep CTO：被马斯克们买爆的AI床垫，进中国先砍一刀订阅费

Kimi K2.6 发布并开源代码及Agent

“厂工”智元

LG Innotek 获欧洲头部汽车零部件供应商订单，2027年起供应车规级Wi-Fi 7模组

库克，将卸任

全球首例！中国电信完成5G-A eRedCap端网互通商用验证

上海：围绕人形机器人、低空无人机等领域芯片小批量试产需求，推动企业建设电子元器件在线采购交易平台

字节跳动2025年海外营收占比创新高，AI投入致公司净利大降70%

灵光上线“灵光圈”！首个消费级Coding Agent来了

拿到大疆、美团投资后，智能派追赶拓竹，要打“老二”翻身仗

王者荣耀联合上海天文馆推出XR互动剧《星海奇航：梦境救援》

最新评论

钛媒体

热门推荐

企业资讯

京东股权曝光：刘强东控制12.7%股权有73%投票权获1亿美元股息

2nm是笑话！黄仁勋：中国电力碾压美国 7nm芯片就够用了