蓝鲸新闻 7 月 12 日讯(记者 朱俊熹)时隔半年," 大模型六小龙 " 之一的月之暗面终于推出新一代基座模型 Kimi K2。据官方介绍,Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数达 1 万亿,激活参数为 320 亿。
7 月 11 日发布并同步开源的新模型包括两个版本:基础模型 Kimi-K2-Base、更适合通用聊天和智能体任务的后训练模型 Kimi-K2-Instruct。在自主编程、工具调用和数学推理相关的能力评测中,Kimi K2 均取得了较优的表现。以 SWE-bench Verified、AIME 2025 等评测集为例,Kimi-K2-Instruct 的得分超过了同为开源模型的 DeepSeek-V3、阿里 Qwen3,逼近甚至能够反超 OpenAI GPT-4.1、Anthropic Claude 4 Opus 等领先闭源模型。
结合 6 月底开启内测的新 Agent"Kimi-Researcher" 不难看出,月之暗面的思路正转向 " 模型即 Agent"。模型自身就集成了自主决策和执行任务的能力,能够作为智能体解决复杂任务。
在官方释出的用例中,用户要求 Kimi K2 帮忙规划参加 Coldplay 乐队巡演的行程。该模型通过 17 次工具调用,涵盖搜索、日历、邮箱、航班、餐厅预订等环节,制定出一份完整的机酒与旅游规划,并形成可视化报告。
智能体能力正在成为国内外大模型厂商竞相押注的进化方向。本周,马斯克旗下的人工智能初创公司 xAI 发布新一代大模型 Grok 4,包括单智能体、多智能体两个版本,具备工具使用、实时搜索等功能。Anthropic 在推出 Claude 4 系列模型时也强调,在编程、推理和 Agent 方面 " 树立了全新标准 ",能够处理复杂且长时间运行的任务。
月之暗面在 Kimi K2 的技术博客里分享了对构建开放智能体智能的看法。其指出,预训练是智能体智能的关键基础,它让模型拥有基本的知识、理解和推理能力,从而在后续的强化学习中更有效地学习。但 " 人类数据就像是有限的‘化石燃料’ ",因此如何在预训练阶段提升对有限数据的利用效率,成为当前 AI 扩展的关键挑战。
而在后训练阶段,大模型不再只依赖人类数据,开始从自己的行为和结果中获得奖励、进行自我优化,以实现超越人类能力的可能。
"Kimi K2 正是在这些洞见之上锻造而成的。" 月之暗面表示。其同时强调,Kimi K2 是构建通用 Agent 能力的坚实基础,但通用 Agent 还需要更高级的能力,比如思考和视觉理解,计划未来为该模型加入这些能力。此外,长文本处理能力曾是 Kimi 的核心优势,此次 Kimi K2 的上下文长度为 128k,不及部分新发布的模型。
值得注意的是,Kimi K2 是国内首个开源的万亿参数级别模型。此前虽有其他大模型厂商训练出万亿参数模型,如腾讯混元 Turbo、MiniMax abab 6.5 等,但都采取了闭源路线。
在训练 Kimi K2 这样的万亿参数级别的大模型时,月之暗面采用了自主创新的 Muon 优化器。与传统的 Adam 优化器相比,Muon 在 token 利用效率上表现更优,能让大模型学得更快、更有效率。同时为解决 Muon 在超大规模训练时遇到的不稳定问题,团队还提出了 MuonClip 这一稳定性增强技术,支撑 Kimi K2 顺利完成 15.5 万亿 tokens 的预训练,未出现训练损失值的异常峰值。
自年初 DeepSeek 横空出世以来,月之暗面虽然陆续释出了一些技术或产品上的更新,但始终未能重拾外界对其的热切期待,一度表现得颇为低调沉寂。而此次 Kimi K2 的发布,让这家明星创企终于重回基模舞台的聚光灯下,这场牌局仍未见定论。