关于ZAKER 开放平台 合作
极客公园 34分钟前

Kimi K2.6 这次把 Agent 玩明白了吗?

Agent 进入新阶段。

作者|连冉

编辑|郑玄

当一个 AI 系统可以在无人工干预的情况下,独立完成一个复杂项目的完整交付,以及,当这些能力开始可以被复用、被沉淀为「技能」,AI 在职场中的角色,是否已经发生了本质变化?

OpenClaw 这波热潮带动了大模型竞争进入深水区,赛道的分水岭,从「谁更强」,转向了「谁能真正交付生产力」。自主 Agent 的落地能力、工程化适配水平以及长时稳定运行的可靠性,也正在成为新的核心评判标准。

但现实问题依然存在:即便头部模型持续迭代,大多数产品仍停留在「分步骤生成单一内容」的阶段。面对复杂的企业与职场任务,要么无法完成全流程闭环,需要人工反复拼接与修正;要么难以沉淀可复用经验,在规模化场景中始终无法落地,每一次执行都要从零开始。这种「碎片化、一次性」的能力形态,仍然难以支撑真实生产需求。

在这一背景下,月之暗面发布的开源基座模型 Kimi K2.6,给出了一种更具针对性的解法。

Kimi K2.6 是当前全球开源权重(Open Weights)大模型综合能力 SOTA|图片来源:X

作为 Kimi 迄今最强开源底座,K2.6 在代码能力与 Agent 运行可靠性上实现跃迁,更关键的是,在产品层将两项核心能力推向实用阶段:一是 Agent 集群单次运行即可完成多类型产物的端到端交付,二是将 Office 文档转化为可复用技能(document to skill),让经验得以沉淀与调用。

同时,在 K2.5 已引入的 Agent 集群基础上,K2.6 进一步强化了规模化执行能力。新引入的 Claw Group 这一新形态,推动 OpenClaw、Hermes Agent 框架的自主 Agent 从单体执行走向「团队协作」。

这意味着,AI 开始具备组织级的任务拆解与协同能力。某种程度上,这已经不再是一次常规的模型升级——当 AI 能够交付完整成果,并沉淀可复用能力,Agent 赛道的竞争逻辑,也随之被重新改写。

01

场景实测:

Kimi K2.6 的核心能力,到底强在哪?

抛开概念,回到企业办公与开发的真实场景,Kimi K2.6 的核心能力表现如何?

我们尝试聚焦两个关键问题展开验证:其一,AI 能否在无人工干预的情况下,完成复杂任务的全流程交付;其二,AI 能否将既有办公经验与模板规则转化为可复用能力,从而减少重复劳动。围绕这两个维度,我们设计了两组高频职场场景进行实测,以检验其实际落地价值。

场景一—— Agent 集群驱动的规模化多产物交付的测试指令为:围绕「2026 AI Agent 行业发展」,一次性生成深度分析报告、数据统计 Excel、商务汇报 PPT 以及可视化展示网站四类产物,要求全程无人工干预,且内容同源、结构规范。

视频来源:极客公园

这次实测运行了将近一小时,K2.6 在这次「无人工干预」测试中,表现出一种接近工程系统的成熟度,其中有三个环节尤为关键。

首先是 Agent 集群的「组织化」协同,这是最核心的亮点。在回溯录屏中,可以清晰看到系统如何将一个宏大的宏观课题(2026 AI Agent 行业发展),自主拆解为 12 个维度的子任务,并同时拉起 12 个子 Agent(从市场规模、竞争格局到安全隐私等)进行并行的深度研究。随后,又在撰写阶段拉起 6 个 Agent 认领不同章节。这种类似「主架构师分配任务 + 基层研究员并行干活」的 Map-Reduce 逻辑,真正打破了单体模型长度和注意力的物理限制。

其次是内置的「交叉验证与冲突解决」机制,在 Phase 4 和 Phase 5 阶段,系统并没有直接将 12 个子 Agent 的检索结果暴力拼接,而是执行了明确的 12 维度文件交叉验证(如校验市场规模预估、CAGR 数据是否冲突)。这种引入「校验层」的设计,是提升长文本和深度报告事实准确性(Factuality)的决定性一步,大幅降低了 AI 产出「幻觉」的概率。

最后是端到端的同源多产物交付,从一份底层 Markdown 研究资料,原生分发为 3.7MB 的深度 Word 报告、包含多种图表类型的 Excel、16 页以上的 PPT,甚至是带有 React 动效的可视化 Web 站点。确保了「四类产物,同源同质」,彻底免去了人类员工在不同软件之间复制粘贴、重新排版的割裂感。

当工具开始展现出独立承接完整工程项目的能力时,数字世界的生产关系确实在被重塑。

尽管系统演示了完美的闭环,但这次测试同样暴露出一个关键问题。

长时任务依然存在黑盒风险与「节点把控」缺失,运转一小时意味着极高的「试错成本」。如果 Agent 在前 15 分钟的「方向理解」或「大纲设定」上出现了偏差,用户只能在等待一小时后面对一堆南辕北辙的精美废料。无需人工干预固然轻松,但真的不预留人工干预的环节,可能也会有其他问题。

视频来源:极客公园

在这个网站生成案例中,可以看到,从找客户、做调研,到内容生成、设计开发,再到网站上线与结果汇总,全部由 AI 一次性完成。除了通过 Agent 集群实现类似「包工头 + 分工团队」的并行协作,大规模任务也能有序推进;同时还具备「千店千面」的定制能力,不同行业对应不同视觉风格,而非模板化复制;并且对复杂指令的执行精度也很高,能够严格遵守约束条件并完成一站式交付(包括网站与配套 Excel 方案)。

而且这套系统的审美,已经可以达到一个比较成熟的「中级网页设计师」水平。如果放在实际商业场景里——尤其是电商落地页或品牌展示页——整体表现是合格甚至偏上的,风格统一、表达清晰,也基本符合当前主流审美规范。

具体来看,它最突出的能力在于对「风格与场景匹配」的把握。不同类型的页面,会自动切换对应的视觉语言,而不是简单套用统一模板。

比如在偏街头、复古的场景中,它会使用深色背景、高对比配色,以及更具冲击力的字体和动态元素,整体呈现出较强的个性与氛围感;而在花店这类偏柔和的场景中,画面则明显转向留白、更克制的配色,以及更具装饰性的字体,整体气质变得轻盈、安静;再到婚纱或礼服类页面,则进一步收敛为更低饱和度的色调和更纤细的排版风格,强化「精致感」和「品质感」。这种针对行业语境的风格切换,说明它已经具备一定的「审美判断」。

为了进一步测试 k2.6 的审美,我用 k2.6 制作了一个平潭旅行网站。当 Kimi agent 任务执行完毕时,我看到它给我的这个「蓝眼泪」网站首页,有点被惊艳到。

视频来源:极客公园

可以看到,在这个版本里,K2.6 已经从「全栈工程师」,进化为一个具备判断力的「美术指导(Art Director)」。

无论是大地色系的质感控制、非对称网格下的留白处理,还是对动效「克制感」的把握,都体现出「设计直觉」。

在设计层,K2.6 对色彩的切换不仅是审美选择,也是一种情绪表达策略:米色为基底,配合深色对比,既降低了视觉侵略性,又维持了足够的信息张力,这种处理方式更接近成熟品牌设计中的「松弛感」构建。

排版上,对非对称布局的运用同样关键。通过打破标准网格关系,让图文产生局部重叠与错位,本质上是在用代码复现「人工排版」的空间控制能力。模型不仅理解了 CSS 的布局逻辑,也在一定程度上理解了「为什么要这样排」。

在内容层面,难点不在于生成图片,而在于让图片「属于这个页面」。K2.6 对美食图像的处理,已经体现出明显的上下文意识:低饱和、自然光、留白构图,这些特征服务于整体版面的统一表达,而不是随机生成。也就是说,它开始把素材生成纳入设计系统的一部分。

工程层面的进化同样值得关注。面对修改需求,它能够定位到具体组件并进行针对性调整,这背后其实是对项目结构和依赖关系的理解。更重要的是它做出的选择——主动简化动效,从复杂的 WebGL 表现转向更轻量的过渡方式。这种「做减法」的能力,往往比「能实现复杂效果」更接近真实的设计与开发决策。

能够把抽象的审美描述,直接转译为可运行的前端结构与交互体验,K2.6 在网站设计上又前进了一大步。

之前我也用过其他 Agent 产品来生成网站,但出来的效果并不如人意,整体比较呆板、模板化,缺少真正「被设计过」的感觉。但这次 K2.6 生成的这个网站,不管是整体视觉风格还是交互节奏,都明显更顺滑、更有完成度,甚至在细节表达上也更接近一个「真实产品团队打磨过的成品」。

此外,Kimi 还开始内测 Claw 群聊,它本质上是把每个人养好的、有专业技能的龙虾 Agent 组成一个有分工、有管理、有协作流程的小团队,由 Coordinator 负责拆任务、派活、验收,让复杂任务可以像真实团队一样推进。

视频来源:极客公园

02

K2.6 击穿了 Agent 的哪些原生痛点?

此前,行业内并非没有尝试多产物交付或文档技能化,但大多停留在能演示、落地难的阶段。问题不在于方向,而在于底层能力与架构无法支撑规模化应用。

K2.6 之所以能够实现突破,本质上是针对 Agent 领域的几个原生缺陷,给出了更系统性的解法。

首先是多产物交付。

多产物交付|图片来源:Kimi 官网

过去多产物交付难以成立,核心在于传统架构的「碎片化」。一方面,单 Agent 的承载能力有限,任务一旦变长或变复杂,就容易出现中断或执行失控,难以支撑多任务并行;另一方面,不同工具与不同内容形态之间缺乏统一调度机制,跨格式生成往往彼此割裂,既影响效率,也难以保证内容的一致性。

K2.6 的关键变化,在于基于 K2.5 引入的 Agent 集群能力,进一步实现了规模化与精细化调度。通过多 Agent 并行分工,模型可以同时推进信息检索、深度分析、文档处理与多格式内容生成等环节,再通过任务拆解与重组,将各类产物统一到同一逻辑框架下完成输出。这种从「逐步生成」到「同步执行」的转变,本质上解决了长时运行与跨任务协同的结构性问题。

相比之下,document to skill 的难点更为隐蔽。

办公文档本质上是非结构化数据,内容与格式高度耦合,模型既难以准确提取其中的有效规则,也难以还原模板中隐含的版式与逻辑,这使得企业经验长期停留在「存储」状态,而无法转化为「可调用能力」。

K2.6 的突破,来自两类能力的叠加:一方面,借助更强的代码能力,对文档结构进行抽象与拆解,提取其内在逻辑;另一方面,通过视觉理解能力识别版式与格式细节,从而实现对模板的完整还原。在此基础上,文档不再只是参考材料,而可以被转化为可复用的 Skill,参与后续任务执行。

但对于结构高度复杂或规则嵌套较深的定制化文档,解析准确率仍有波动,通用性与稳定性还有很多提升空间。

整体来看,K2.6 的关键突破,在于首次将「复杂任务执行」「结果交付」与「经验沉淀」整合为一套相对完整的系统能力。这一变化,补齐了 Agent 从「可用」走向「好用」的关键环节。当然,这并不意味着问题已经被彻底解决,但至少为 AI 进入真实生产场景,提供了一种更接近可行路径的解法。

03

AI 从工具走向生产系统的关键一步?

Kimi K2.6 的发布,释放出一个行业信号:大模型与 Agent 的发展,正在迈过一个关键门槛——从通用工具,走向具备生产能力的系统形态。

这一变化可以从三个层面来看。在模型层,K2.6 已不再局限于代码片段生成或简单推理,而是开始具备处理复杂工程任务的能力,代码理解与逻辑推演能力显著提升;在 Agent 层,能力边界从「单次对话、短时执行」扩展到「长时运行、持续任务处理」,稳定性与可靠性明显增强;而在产品层,最直观的变化则是从「生成内容」,走向「交付结果」,AI 开始具备完成完整工作闭环的能力。

图片来源:AI 生成

这些底层能力的叠加,最终在产品侧体现为两类更具决定性的变化:一是以 Agent 集群为代表的复杂任务交付能力,通过多智能体的协同调度,实现从任务拆解到执行再到结果输出的全流程覆盖;二是以 document to skill 为代表的经验复用能力,使原本分散在文档中的规则与经验,可以被结构化并持续调用。这两者叠加,使 AI 开始从「辅助工具」,转向能够独立完成任务的生产系统。

这些尝试还很早期。

不管是企业级数据安全、多系统对接能力,还是在极端复杂任务中的稳定性与容错率,以及更低成本的规模化部署能力,要想让成为 AI 真正意义上的产业级「操作系统」,这些都还有待进一步完善。

但趋势已经逐渐清晰:当 AI 从工具转向生产系统,数字世界的生产关系也会随之发生改变。人类在工作中的角色,将从具体执行逐步转向目标设定与结果把控;而 AI 行业的竞争,也将从模型层的能力比拼,转向系统能力与生态能力的综合博弈。

从这个角度看,K2.6 所呈现的「任务执行—结果交付—能力沉淀」的能力组合,更像是 AI 生产基础设施的一个早期雏形。它还未成熟,但已经提供了一种演进方向:AI 正在成为生产系统本身。

* 头图来源:Kimi 官网

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待 Kimi K2.6

相关标签
ai
极客公园

极客公园

这里汇聚着优秀的产品观察报道、高质量的线下活动

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容