杨植麟交卷 !Kimi K2.6 抢先开源 , 指挥 300 个 Agent 上岗 , 实测手搓 3D 格斗游戏

智东西 4 月 21 日报道，昨夜，Kimi 正式发布并开源旗舰模型 K2.6，带来其迄今最强的代码能力、长程任务执行和 Agent 集群能力。

根据官方公布的多项基准测试，Kimi K2.6 在博士级难度的 " 人类最后的考试 "（Humanity ’ s Last Exam）中，K2.6 以 54.0% 的得分位居第一；在评估 Agent 深度检索能力的 DeepSearchQA 中，更是以 92.5% 的高分大幅领先 GPT-5.4 和 Gemini 3.1 Pro，小幅超过 Claude Opus 4.6。此外，在考察真实软件工程能力的 SWE-Bench Pro 中，K2.6 以 58.6% 的成绩领先所有闭源模型。

同时，K2.6 在通用智能（General Agents）、编程能力（Coding）和视觉理解能力（Visual Agents）上均展现出了综合竞争力。

不过，从数据细节来看，K2.6 在部分维度仍有追赶空间。在 SWE-bench 多语言测试中，K2.6 略逊于 Claude Opus 4.6 和 Gemini 3.1 Pro；而在 Toolathlon 复杂工具调度任务中，K2.6 虽优于 Claude Opus 4.6 和 Gemini 3.1 Pro，但仍排在 GPT-5.4 之后。此外，在 MathVision 和 V 等视觉测试中，K2.6 的表现与 GPT-5.4 相比也仍存在一定差距。

综合来看，K2.6 在跨模态推理、工具调用及长程任务执行上表现稳健，多项能力上已达到或接近顶尖闭源模型水平。

近期，国内外大模型赛道近期动作频频。上周五，Anthropic 发布了新一代旗舰模型Claude Opus 4.7；昨日，阿里发布了其下一代旗舰模型的早期预览版Qwen3.6-Max-Preview；而行业最期待的 " 开源猛兽 "DeepSeek V4也有望在本周内降临。这一波国内外旗舰模型的集体 " 上桌 "，意味着大模型格局的洗牌时刻即将到来。

新一代 K2.6 可连续编码 13 小时、处理超过4000 行复杂代码，支持多语言前后端开发，并通过图像与视频生成工具深度融合，实现专业级 Web 应用复刻和视觉焦点设计。官方示例显示，K2.6 可将复杂图像和视频素材转化为可运行前端代码，复刻经典网页或动画交互场景。

（待插入官方案例的视频）

此外，Kimi K2.6 大幅增强了Agent 自主执行能力：由 K2.6 驱动的 Agent 集群架构可支持300 个子 Agent并行完成4000 个协作步骤，实现更大规模并行化，任务完成度和交付质量相比 K2.5 显著提升。在涵盖了多种复杂端到端任务的、Kimi 内部代码评测基准 Kimi Code Bench 中，K2.6 的成绩比 K2.5 提升了约 20%。

在 OpenClaw、Hermes Agent 等主动式 Agent 框架中，K2.6 可持续自主运行长达 5 天。内部 Claw Bench 测试显示，K2.6 综合性能较 K2.5 提升 10%，在单次运行中即可独立完成从文档到网页、PPT 及表格的多产物端到端交付。

在海外，开发者对 K2.6 的反馈也十分积极。有开发者称，使用 K2.6 进行网页和前端交互设计 "体验极佳，几乎是现阶段最佳"，能够轻松处理代码、图像、视频和动画素材。

还有用户称，用该模型制作前端效果 " 令人惊叹 "，目前可能是同类工具中最强体验。

另一位开发者则关注到模型的 BF16 权重上传量为 595GB，认为在开源生态中极具竞争力。

在 API 方面，K2.6 维持分级计费模式，但相比 K2.5 价格有明显上涨。具体来看，K2.6 每百万 Token 的输入价格为6.5 元（缓存未命中），较 K2.5 的 4 元上涨了约 62.5%；缓存命中情况下的输入价格为1.1 元，较之前的 0.7 元也有所提升；而输出价格则从 21 元上调至27 元。在窗口容量上，K2.6 提供了 262,144 Token 的上下文窗口支持。

目前， Kimi Agent 模式已内置上百个官方推荐技能，支持创建和调用 Skill。Agent 集群可调度不同技能特长的 Agent 互补协作，将搜索、深度研究、文档分析和长文创作等能力组合完成复杂任务。

同时，Kimi 团队也在探索 "Claw 群组" 这一方向，已在小范围内测阶段。

Kimi K2.6 现已上线 kimi.com、最新版 Kimi 应用、Kimi API 和 Kimi Code 编程助手，所有用户可立即使用。智东西也进行了一番实测，我们在 K2.6 Thinking 模式下完成了两个多模态创意案例。

使用 Kimi API：

https://platform.kimi.com/docs/guide/kimi-k2-6-quickstart

Hugging Face: https://huggingface.co/moonshotai/Kimi-K2.6

一、手搓 3D 沙盒游戏、精绘体素鹈鹕，K2.6 一手实测

为了直观验证 K2.6 的多模态与代码生成能力，我们在 K2.6 的 Thinking 模式下进行了两个具挑战性的创意实测。

第一个体验案例是要求 K2.6 制作一个 3D 横版格斗游戏。

提示词：制作一个单文件 HTML 的 3D 横版格斗游戏，场景为被霸天虎入侵的破败城市地图，敌人为类人型赛博坦机器人，包含武器后坐力效果，采用低多边形风格并带有卡通美学。游戏开始时，玩家位于街道上，周围有建筑废墟；游戏中应包含可被击倒的细节物品，如汽车、树木、石块 / 瓦砾和自动售货机。玩家可以选择 5 种擎天柱阵营角色进行游戏，并与 5 种霸天虎变种敌人战斗，这些敌人会不断生成，游戏为无限时间的沙盒模式。

从实测结果来看，K2.6 在游戏逻辑与元素还原上表现出色，提示词中要求的汽车、废墟等环境元素都有着不错的呈现，5 种擎天柱阵营角色也如约而至。

不过，在空间坐标的理解上出现了疑似提示词污染的问题——由于是 "3D 横版 "，最终玩家控制的角色移动方式变为了上下移动，而非横版游戏中常见的左右移动。

第二个体验案例是创建一个 " 骑自行车的鹈鹕 " 的 3D 像素艺术作品。

提示词：创建一个骑自行车的鹈鹕的 3D 像素艺术作品。尽可能将场景刻画得非常细致，注意主体模型上的每一个小细节，同时也要考虑周围环境的细节。在一个 HTML 代码块中完成制作，将代码写得足够优秀，以展示你的水平超越其他作品。我赋予你完全的创作自由，尽情发挥。

（待插入体验视频）

K2.6 生成的画面相当精美，提供了日景与夜景两种环境选择，并支持手动调节骑行速度。鹈鹕的身体结构与骑行姿态自然合理，自行车的车架、链条、座椅等细节也非常完整。但是在运动状态下，鹈鹕脚部的踩踏动作与脚踏板的物理运动轨迹存在不同步，不符合物理常识。

总体而言，其多模态理解与前端代码输出的结合已经达到了较为出色的完成度。

二、连续编码 13 小时，长程编码能力有所突破

长程编码能力是此次 K2.6 最核心的突破之一。

面对真实的软件工程挑战，K2.6 展现出了硬核的泛化与推理能力，在多种编程语言（如 Rust、Go、Python）和复杂任务场景下均能稳定输出。

Kimi 官方也提供了两个端到端长程推理场景。

在场景一中，K2.6 成功在 Mac本地下载并部署了 Qwen3.5-0.8B 模型，并跨语言使用相对小众的 Zig 语言实现并优化了模型推理。在超过 12 小时的不间断运行中，K2.6 经历了14 轮迭代、调用工具逾 4000 次，将吞吐量从约 15 tokens/s 拉升至193 tokens/s，最终实现了比 LM Studio 快 20% 的推理速度。

在场景二中，K2.6 完成了对拥有 8 年历史的开源金融撮合引擎 exchange-core的重构。它不仅精准修改了 4000 多行代码，更深入分析了 CPU 及内存分配火焰图以定位隐蔽瓶颈，大胆将核心线程拓扑结构由 4ME+2RE优化为 2ME+1RE。历经 13 小时的连续作业，在引擎性能已近极限的前提下，仍将峰值吞吐量大幅提升了 133%。

除了后端优化，K2.6 还进化了由代码驱动的设计能力。

凭借对图像和视频生成工具的融合，K2.6 的 Agent 能够根据视觉素材生成风格高度统一的专业级 Web 应用，能够构建出视觉焦点突出的首屏区（Hero Section），并且实现各种交互元素和丰富的滚动触发等动效。

（待插入官方视频）

在专门的前端开发设计评测基准 Kimi Design Bench 中，Kimi K2.6 Agent 与 Google AI Studio 的 Gemini 3.1 Pro 进行了对比测试。结果显示，用户评审中有47.5%认为 Kimi K2.6 的生成效果更佳，31.4% 认为 Gemini 3.1 Pro 更好，21.1% 认为两者表现相当。

K2.6 Agent 也支持基础的后端数据库模块，例如在生成网页中嵌入表单信息收集的功能。

三、300 个 Agent 集群大协同，持久自主运行 5 天无干预

由 K2.6 驱动的 "Agent 集群" 架构此次也迎来了全面升级，目前最多可支持 300 个子 Agent 并行完成 4000 个协作步骤。这种集群架构能够调度不同技能特长的 Agent 互补协作，在单次运行中独立完成从文档到网页、PPT 及表格的多产物端到端交付。

例如，在面对全球 100 个半导体标的时，Agent 集群能够自主设计并执行 5 套量化策略，将麦肯锡风格的逻辑转化为可复用的技能，最终交付详尽的建模表格和整套汇报演示文档。

在学术领域，Agent 集群还能将一篇包含海量视觉数据的高质量天体物理论文，转化为长达 7000 字的研究报告、2 万多条结构化数据和 14 张天文级图表。

此外，K2.6 针对 OpenClaw、Hermes Agent 等主动式 Agent 框架的协同能力也得到了显著增强。这类工作流要求 AI 跳出传统的对话交互，以后台常驻的形式主动管理计划并协调跨平台操作。

Kimi RL 基础设施团队利用基于 K2.6 的 Agent，实现了连续 5 天的自主运行。由 Agent 负责监控、故障响应和系统运维，体现了其上下文维持能力、多线程任务处理能力，以及从接收告警到彻底解决的全流程执行能力。

四、Office 办公能力精进，Agent 模式内置上百个 Skill

在实用性落地方面，Kimi Agent 模式已内置上百个官方推荐技能。例如内部专家打造的投研技能包，能让用户一键生成专业排版的公司一页纸或深度研报。

为了降低创建门槛，K2.6 还推出了 "Office 文档转技能" 功能，用户只需上传高质量文档，Kimi 即可理解其结构与风格基因，自动生成专属的可复用文档创建技能。

值得注意的是，Kimi 团队此次还抛出了有关 "Claw 群组" 的预告。该模式目前正在小范围内测，这一方向旨在打破 " 人机单线交互 " 的边界，将人类与各类全天候 Agent 置于同一个办公群组中。

在 Claw 群组生态里，用户可以接入来自任何设备、任何供应商、运行任何模型的全天候 Agent，每个 Agent 自带专属工具包、技能和记忆上下文。

无论是部署在本地笔记本电脑、移动设备还是云端实例，这些各异的 Agent 都能进入同一个协同办公群组。

而 K2.6 将作为 " 群组协调者 "，根据 Agent 的技能画像和可用工具动态匹配任务，实现能力的最优配置。

当某个 Agent 遇到故障或停滞时，协调者会检测到中断，自动重新分配任务或生成子任务，并对 Agent 交付物的全生命周期（从启动、验证到完成）进行主动管理。

结语：开源再迎强者，K2.6 或将成为 "Agent 新标杆 "

K2.6 的发布与开源，既标志着 Kimi 在代码能力、长程任务执行和 Agent 协作上再度拉开差距，也为开发者社区提供了可直接落地的多模态工具。通过支持前端复刻、后端集成、长程编码及多 Agent 协作，K2.6 将复杂任务的实现门槛进一步降低，使专业级 Web 应用、学术分析和量化策略等场景能够快速实现。

在开源生态中，这种高性能、多模态、可复用的 Agent 能力或许标志着行业进入一个新的阶段。

可以预见，随着 K2.6 Agent 模式和 Claw 群组的进一步推广，开源社区将在多模态智能体落地、复杂任务自动化及跨平台协作上迎来更多创新机会，而 K2.6 也将成为下一阶段开源生态中的一大参考标杆。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

杨植麟交卷 !Kimi K2.6 抢先开源 , 指挥 300 个 Agent 上岗 , 实测手搓 3D 格斗游戏

宙世代

一起剪

相关阅读

航旅纵横突然崩了！行程、购票功能瘫痪

“一到春天就痛哭流涕”，北京打工人太难了

无人机洒农药致路人死亡 飞手获刑并赔偿63万

5月1日起施行！四川禁止或限制公共场所吸烟

未来50年发生概率非常大 日本学者：超级地震或致国家崩塌

高速快车道内一路逆行！女子：开太久脑子不清楚了

不用再遥控 人形机器人自主跑完马拉松比赛21公里 北斗立功

特朗普：正在大赢特赢

甄嬛宫闱囚笼困，母子反目局中局，假死秘计终脱逃

《人民的名义》为什么像祁同伟这类人，很难在体制内混下去？

伊朗最高领袖最新表态

央视曝光演戏式直播鉴宝骗局：专盯老人下手 涉案超500万元

“美国的全球魅力正在化为乌有”

第二艘国产大邮轮来了！

从千人下基层到拍短剧 跨国药企县域市场“变阵”

最新评论

企业资讯

热门推荐

企业资讯

无人机洒农药致路人死亡飞手获刑并赔偿63万

未来50年发生概率非常大日本学者：超级地震或致国家崩塌

不用再遥控人形机器人自主跑完马拉松比赛21公里北斗立功

央视曝光演戏式直播鉴宝骗局：专盯老人下手涉案超500万元

从千人下基层到拍短剧跨国药企县域市场“变阵”