关于ZAKER 合作
每日新闻摘录 7小时前

首次完整披露 ! 月之暗面创始人英伟达大会重磅发声 _ 中国基金报 _ 媒体广场 _ 财经

【导读】AI 大模型龙头月之暗面创始人杨植麟首次完整披露 Kimi 技术路线图

中国基金报记者 卢鸰

北京时间 3 月 18 日凌晨,月之暗面 Kimi 创始人杨植麟在主题为《How We Scaled Kimi K2.5》的演讲中首次完整披露 Kimi 技术路线图,并将焦点对准了大模型中被沿用多年的底层架构。

杨植麟认为,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。

据悉,目前月之暗面 Kimi 正以投前估值 180 亿美元(约合人民币 1200 亿元),进行新一轮 10 亿美元融资。约一个月前,Kimi 刚完成逾 7 亿美元的融资,当时估值为 100 亿美元;而在去年底一轮 5 亿美元的融资中,其估值为 43 亿美元。

首次完整披露 Kimi 技术路线图

在正在举行的英伟达 GTC 2026 大会上,算力基建的规模化(Scaling)已成为行业共识。

继今年 1 月底正式发布 Kimi K2.5 以后,杨植麟在本次演讲中首次系统性披露了该模型背后的技术路线图。他将 Kimi 的进化逻辑归纳为三个维度的共振:Token 效率、长上下文以及智能体集群(Agent Swarms)。

在杨植麟看来,当前的 Scaling 不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。如果能将这三个维度的技术增益相乘,模型将表现出远超现状的智能水平。

技术重构是本次演讲的核心。杨植麟提出,行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为 Scaling 的瓶颈。

针对 2017 年诞生的全注意力机制(Full Attention),杨植麟展示了基于 KDA 架构的 Kimi Linear。这是一种混合线性注意力架构,它挑战了 " 所有层必须使用全注意力 " 的惯例。

此外,针对已有十年历史的残差连接,Kimi 引入了 Attention Residuals 方案,将传统的固定加法累加替换为对前序层输出的 Softmax 注意力。这项工作引发了前 OpenAI 联合创始人 Karpathy 的思考,直言对 Attention is All You Need 这篇 Transformer 开山之作的理解仍然不够。xAI 创始人马斯克也评论称,Kimi 这项工作令人印象深刻。

AI 研究范式之变

在演讲的最后,杨植麟深入探讨了智能体集群的扩展。

他认为,未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5 引入的 Orchestrator 机制,能够将复杂的长任务拆解给数十个子 Agent 并行处理。为了防止协作过程中出现单点依赖导致的 " 串行塌缩 ",团队设计了全新的并行 RL 奖励函数,激励模型真正学会任务分解与并行执行。

在总结中,杨植麟还谈到了 AI 研究范式的转变。

他提到,十年前的研究往往更看重新想法的发表,但受限于算力资源,很难通过不同规模的实验来验证这些想法。而现在由于拥有了足够的资源和 " 缩放阶梯(Scaling Ladder)",研究者可以进行严谨的规模化实验,从而得出更自信、更可靠的结论。这也是为什么 Kimi 能够从那些看似 " 古老 " 的技术中挖掘出新突破的原因。Kimi 将继续坚持开源路径,将 MuonClip、Kimi Linear 和 Attention Residuals 等底层创新贡献给开源社区。

编辑:杜妍

校对:王玥

制作:鹿米

审核:陈墨

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容