智东西 4 月 21 日报道,昨夜,Kimi 正式发布并开源旗舰模型 K2.6,带来其迄今最强的代码能力、长程任务执行和 Agent 集群能力。
根据官方公布的多项基准测试,Kimi K2.6 在博士级难度的 " 人类最后的考试 "(Humanity ’ s Last Exam)中,K2.6 以 54.0% 的得分位居第一;在评估 Agent 深度检索能力的 DeepSearchQA 中,更是以 92.5% 的高分大幅领先 GPT-5.4 和 Gemini 3.1 Pro,小幅超过 Claude Opus 4.6。此外,在考察真实软件工程能力的 SWE-Bench Pro 中,K2.6 以 58.6% 的成绩领先所有闭源模型。
同时,K2.6 在通用智能(General Agents)、编程能力(Coding)和视觉理解能力(Visual Agents)上均展现出了综合竞争力。
不过,从数据细节来看,K2.6 在部分维度仍有追赶空间。在 SWE-bench 多语言测试中,K2.6 略逊于 Claude Opus 4.6 和 Gemini 3.1 Pro;而在 Toolathlon 复杂工具调度任务中,K2.6 虽优于 Claude Opus 4.6 和 Gemini 3.1 Pro,但仍排在 GPT-5.4 之后。此外,在 MathVision 和 V 等视觉测试中,K2.6 的表现与 GPT-5.4 相比也仍存在一定差距。
综合来看,K2.6 在跨模态推理、工具调用及长程任务执行上表现稳健,多项能力上已达到或接近顶尖闭源模型水平。
近期,国内外大模型赛道近期动作频频。上周五,Anthropic 发布了新一代旗舰模型Claude Opus 4.7;昨日,阿里发布了其下一代旗舰模型的早期预览版Qwen3.6-Max-Preview;而行业最期待的 " 开源猛兽 "DeepSeek V4也有望在本周内降临。这一波国内外旗舰模型的集体 " 上桌 ",意味着大模型格局的洗牌时刻即将到来。
新一代 K2.6 可连续编码 13 小时、处理超过4000 行复杂代码,支持多语言前后端开发,并通过图像与视频生成工具深度融合,实现专业级 Web 应用复刻和视觉焦点设计。官方示例显示,K2.6 可将复杂图像和视频素材转化为可运行前端代码,复刻经典网页或动画交互场景。
(待插入官方案例的视频)
此外,Kimi K2.6 大幅增强了Agent 自主执行能力:由 K2.6 驱动的 Agent 集群架构可支持300 个子 Agent并行完成4000 个协作步骤,实现更大规模并行化,任务完成度和交付质量相比 K2.5 显著提升。在涵盖了多种复杂端到端任务的、Kimi 内部代码评测基准 Kimi Code Bench 中,K2.6 的成绩比 K2.5 提升了约 20%。
在 OpenClaw、Hermes Agent 等主动式 Agent 框架中,K2.6 可持续自主运行长达 5 天。内部 Claw Bench 测试显示,K2.6 综合性能较 K2.5 提升 10%,在单次运行中即可独立完成从文档到网页、PPT 及表格的多产物端到端交付。
在海外,开发者对 K2.6 的反馈也十分积极。有开发者称,使用 K2.6 进行网页和前端交互设计 "体验极佳,几乎是现阶段最佳",能够轻松处理代码、图像、视频和动画素材。
还有用户称,用该模型制作前端效果 " 令人惊叹 ",目前可能是同类工具中最强体验。
另一位开发者则关注到模型的 BF16 权重上传量为 595GB,认为在开源生态中极具竞争力。
在 API 方面,K2.6 维持分级计费模式,但相比 K2.5 价格有明显上涨。具体来看,K2.6 每百万 Token 的输入价格为6.5 元(缓存未命中),较 K2.5 的 4 元上涨了约 62.5%;缓存命中情况下的输入价格为1.1 元,较之前的 0.7 元也有所提升;而输出价格则从 21 元上调至27 元。在窗口容量上,K2.6 提供了 262,144 Token 的上下文窗口支持。
目前, Kimi Agent 模式已内置上百个官方推荐技能,支持创建和调用 Skill。Agent 集群可调度不同技能特长的 Agent 互补协作,将搜索、深度研究、文档分析和长文创作等能力组合完成复杂任务。
同时,Kimi 团队也在探索 "Claw 群组" 这一方向,已在小范围内测阶段。
Kimi K2.6 现已上线 kimi.com、最新版 Kimi 应用、Kimi API 和 Kimi Code 编程助手,所有用户可立即使用。智东西也进行了一番实测,我们在 K2.6 Thinking 模式下完成了两个多模态创意案例。
使用 Kimi API:
https://platform.kimi.com/docs/guide/kimi-k2-6-quickstart
Hugging Face: https://huggingface.co/moonshotai/Kimi-K2.6
一、手搓 3D 沙盒游戏、精绘体素鹈鹕,K2.6 一手实测
为了直观验证 K2.6 的多模态与代码生成能力,我们在 K2.6 的 Thinking 模式下进行了两个具挑战性的创意实测。
第一个体验案例是要求 K2.6 制作一个 3D 横版格斗游戏。
提示词:制作一个单文件 HTML 的 3D 横版格斗游戏,场景为被霸天虎入侵的破败城市地图,敌人为类人型赛博坦机器人,包含武器后坐力效果,采用低多边形风格并带有卡通美学。游戏开始时,玩家位于街道上,周围有建筑废墟;游戏中应包含可被击倒的细节物品,如汽车、树木、石块 / 瓦砾和自动售货机。玩家可以选择 5 种擎天柱阵营角色进行游戏,并与 5 种霸天虎变种敌人战斗,这些敌人会不断生成,游戏为无限时间的沙盒模式。
从实测结果来看,K2.6 在游戏逻辑与元素还原上表现出色,提示词中要求的汽车、废墟等环境元素都有着不错的呈现,5 种擎天柱阵营角色也如约而至。
不过,在空间坐标的理解上出现了疑似提示词污染的问题——由于是 "3D 横版 ",最终玩家控制的角色移动方式变为了上下移动,而非横版游戏中常见的左右移动。
第二个体验案例是创建一个 " 骑自行车的鹈鹕 " 的 3D 像素艺术作品。
提示词:创建一个骑自行车的鹈鹕的 3D 像素艺术作品。尽可能将场景刻画得非常细致,注意主体模型上的每一个小细节,同时也要考虑周围环境的细节。在一个 HTML 代码块中完成制作,将代码写得足够优秀,以展示你的水平超越其他作品。我赋予你完全的创作自由,尽情发挥。
(待插入体验视频)
K2.6 生成的画面相当精美,提供了日景与夜景两种环境选择,并支持手动调节骑行速度。鹈鹕的身体结构与骑行姿态自然合理,自行车的车架、链条、座椅等细节也非常完整。但是在运动状态下,鹈鹕脚部的踩踏动作与脚踏板的物理运动轨迹存在不同步,不符合物理常识。
总体而言,其多模态理解与前端代码输出的结合已经达到了较为出色的完成度。
二、连续编码 13 小时,长程编码能力有所突破
长程编码能力是此次 K2.6 最核心的突破之一。
面对真实的软件工程挑战,K2.6 展现出了硬核的泛化与推理能力,在多种编程语言(如 Rust、Go、Python)和复杂任务场景下均能稳定输出。
Kimi 官方也提供了两个端到端长程推理场景。
在场景一中,K2.6 成功在 Mac本地下载并部署了 Qwen3.5-0.8B 模型,并跨语言使用相对小众的 Zig 语言实现并优化了模型推理。在超过 12 小时的不间断运行中,K2.6 经历了14 轮迭代、调用工具逾 4000 次,将吞吐量从约 15 tokens/s 拉升至193 tokens/s,最终实现了比 LM Studio 快 20% 的推理速度。
在场景二中,K2.6 完成了对拥有 8 年历史的开源金融撮合引擎 exchange-core的重构。它不仅精准修改了 4000 多行代码,更深入分析了 CPU 及内存分配火焰图以定位隐蔽瓶颈,大胆将核心线程拓扑结构由 4ME+2RE优化为 2ME+1RE。历经 13 小时的连续作业,在引擎性能已近极限的前提下,仍将峰值吞吐量大幅提升了 133%。
除了后端优化,K2.6 还进化了由代码驱动的设计能力。
凭借对图像和视频生成工具的融合,K2.6 的 Agent 能够根据视觉素材生成风格高度统一的专业级 Web 应用,能够构建出视觉焦点突出的首屏区(Hero Section),并且实现各种交互元素和丰富的滚动触发等动效。
(待插入官方视频)
在专门的前端开发设计评测基准 Kimi Design Bench 中,Kimi K2.6 Agent 与 Google AI Studio 的 Gemini 3.1 Pro 进行了对比测试。结果显示,用户评审中有47.5%认为 Kimi K2.6 的生成效果更佳,31.4% 认为 Gemini 3.1 Pro 更好,21.1% 认为两者表现相当。
K2.6 Agent 也支持基础的后端数据库模块,例如在生成网页中嵌入表单信息收集的功能。
三、300 个 Agent 集群大协同,持久自主运行 5 天无干预
由 K2.6 驱动的 "Agent 集群" 架构此次也迎来了全面升级,目前最多可支持 300 个子 Agent 并行完成 4000 个协作步骤。这种集群架构能够调度不同技能特长的 Agent 互补协作,在单次运行中独立完成从文档到网页、PPT 及表格的多产物端到端交付。
例如,在面对全球 100 个半导体标的时,Agent 集群能够自主设计并执行 5 套量化策略,将麦肯锡风格的逻辑转化为可复用的技能,最终交付详尽的建模表格和整套汇报演示文档。
在学术领域,Agent 集群还能将一篇包含海量视觉数据的高质量天体物理论文,转化为长达 7000 字的研究报告、2 万多条结构化数据和 14 张天文级图表。
此外,K2.6 针对 OpenClaw、Hermes Agent 等主动式 Agent 框架的协同能力也得到了显著增强。这类工作流要求 AI 跳出传统的对话交互,以后台常驻的形式主动管理计划并协调跨平台操作。
Kimi RL 基础设施团队利用基于 K2.6 的 Agent,实现了连续 5 天的自主运行。由 Agent 负责监控、故障响应和系统运维,体现了其上下文维持能力、多线程任务处理能力,以及从接收告警到彻底解决的全流程执行能力。
四、Office 办公能力精进,Agent 模式内置上百个 Skill
在实用性落地方面,Kimi Agent 模式已内置上百个官方推荐技能。例如内部专家打造的投研技能包,能让用户一键生成专业排版的公司一页纸或深度研报。
为了降低创建门槛,K2.6 还推出了 "Office 文档转技能" 功能,用户只需上传高质量文档,Kimi 即可理解其结构与风格基因,自动生成专属的可复用文档创建技能。
值得注意的是,Kimi 团队此次还抛出了有关 "Claw 群组" 的预告。该模式目前正在小范围内测,这一方向旨在打破 " 人机单线交互 " 的边界,将人类与各类全天候 Agent 置于同一个办公群组中。
在 Claw 群组生态里,用户可以接入来自任何设备、任何供应商、运行任何模型的全天候 Agent,每个 Agent 自带专属工具包、技能和记忆上下文。
无论是部署在本地笔记本电脑、移动设备还是云端实例,这些各异的 Agent 都能进入同一个协同办公群组。
而 K2.6 将作为 " 群组协调者 ",根据 Agent 的技能画像和可用工具动态匹配任务,实现能力的最优配置。
当某个 Agent 遇到故障或停滞时,协调者会检测到中断,自动重新分配任务或生成子任务,并对 Agent 交付物的全生命周期(从启动、验证到完成)进行主动管理。
结语:开源再迎强者,K2.6 或将成为 "Agent 新标杆 "
K2.6 的发布与开源,既标志着 Kimi 在代码能力、长程任务执行和 Agent 协作上再度拉开差距,也为开发者社区提供了可直接落地的多模态工具。通过支持前端复刻、后端集成、长程编码及多 Agent 协作,K2.6 将复杂任务的实现门槛进一步降低,使专业级 Web 应用、学术分析和量化策略等场景能够快速实现。
在开源生态中,这种高性能、多模态、可复用的 Agent 能力或许标志着行业进入一个新的阶段。
可以预见,随着 K2.6 Agent 模式和 Claw 群组的进一步推广,开源社区将在多模态智能体落地、复杂任务自动化及跨平台协作上迎来更多创新机会,而 K2.6 也将成为下一阶段开源生态中的一大参考标杆。