关于ZAKER 合作
钛媒体 2小时前

Kimi 没有 DeepSeek 的命

文 | 阑夕

或许你还记得,在并不遥远的 2024 年,Kimi 是中国 AI 当红炸子鸡:10 亿美金融资、Kimi 概念股多次涨停、200 万字输入碾压 GPT、激进的投流推广策略。

但他们当时获得的曝光度,远超自己的技术影响力。

事实上,那个 200 万字的模型,后来能用到的人微乎其微。后来了解到,那是个实验性模型,每次运行成本接近 3 位数,完全不具备大规模服务用户的可能性。

那时的技术圈,对 Kimi 是不屑一顾的。

但是靠着 200 万字的噱头,Kimi 还是站住了「长文本」标签和用户心智。

2025 年初,DeepSeek 横空出世,真正靠技术实力成为中国 AI 技术的代言人。

到了 2025 年中,Kimi 已快一年没任何融资的消息。被「唱衰」成为主旋律,员工开始流失,业内基本给这个创业项目判了死刑。

如果你从 2025 年年中开始,闭关了 9 个月,到 2026 年 3 月看到新闻:

你很可能会惊掉下巴。

大家说「AI 一天,人间一年」,AI 领域 9 个月确实发生了很多事情。

但归根结底是一件事情,AI 技术的范式发生了变化。这个变化最常见、最偷懒的概括是从 Chat 到 Agent。

对全世界的 3000 万程序员来说,变化是,最受推崇的工具从 Cursor 变成 Claude Code。

对总是率先拥抱新技术的 early adopter 来说,变化是更频繁地打开那个类似 DOS 系统的黑白命令行终端……

对 AI 公司来说,变化是大家陆续发现:更会聊天的模型,远不如会写代码和调用工具的模型有价值。

最酷的产品从 ChatGPT 变成 Claude Code,最酷的创业公司也从 OpenAI 变成了 Anthropic。

回到 2025 年初的中国市场。

DeepSeek R1 因为复刻并开源了 OpenAI o1 的「深度思考」能力爆火,另一个「通用 Agent」产品 Manus 也横空出世……

彼时的中国 AI 公司,大多数在忙着复现 DeepSeek R1,推出能「深度思考」的新模型。少数公司意识到 Manus 背后的那个模型,才是更值得花资源「复现」的东西。或者意识到了,但没有分配到足够的资源,或找到方法。

Manus 的一个很大的价值,就是可视化呈现了 Claude 模型的多轮工具调用能力。正如一位大模型公司的技术专家在自己的博客中写到,「绝大多数 Agent 产品,离了 Claude 以后,什么都不是。」

直到 2025 年 7 月,中国第一个主打 Agent 能力的模型才悄然出现。7 月 11 日,Kimi K2 发布,喊的是 Open Agentic Intelligence。这里显然藏着他们的野心:复现 Claude 模型的 Agent 能力,并开源出去。就像 DeepSeek R1 复现 OpenAI o1 并开源出去。

发布 5 天后,7 月 16 日,英国的 Nature 自然杂志发现了这个模型的价值,用「另一个 DeepSeek 时刻」来形容。

发布 10 天后,7 月 21 日,Anthropic 联合创始人 Jack Clark 在自己的博客中介绍了 K2,评价称:

在我看来,Kimi 是一款还不错的模型,落后美国最前沿几个月,延续了 DeepSeek 的轨迹。其编码和工具调用分数已足够高,我预计现实中会有人真正用它,因此观察其采用率能折射竞争力。

7 月底,杨植麟在播客专访中,解释了 K2 为什么没有先做「深度思考」,而是在 Agent 需要的编程和工具调用能力上发力。他用「缸中之脑」来形容主打深度思考的模型。对了,杨植麟这篇采访值得多看几遍,他讲了很多技术层面更本质的东西,比如编程和 Agent 的关系,思考和工具调用的关系。

因为 K2 和后续 K2 Thinking 模型的表现,Kimi 的融资在年底终于续上了,5 亿美金,IDG 和几家老股东继续加持。

2026 年春节前后,这个疯狂的大模型发布季,Kimi 是第一个交卷的选手。可能也是让同行们最难受的一个,因为 K2.5 万亿参数、图片和视频的多模态理解能力,支持思考和非思考模式。其他创业公司同行发布的都是纯文本模型。有实力把多模态能力融入旗舰模型的,只有大厂的闭源模型。

3 月 16 号,Kimi 团队发布了 Attention Residuals 的技术论文,挑战已有 10 年历史的神经网络底层残差连接机制。OpenAI 的联合创始人 Andrej Karpathy 锐评 Kimi「让我们意识到根本没有把 Attention is All You Need 理解透彻」,要知道,Attention is All You Need 就是开启大模型时代的圣杯,哪怕考虑到 AI 圈的通词膨胀,这个评价也是前所未有的高。据说,论文第一作者是一位仅 17 岁的高中生,天才出少年,真是令人感慨。

3 月 17 号,Kimi 模型继年初的 CES 2026 之后,在黄仁勋的 GTC 2026 主旨演讲中再度成为英伟达展示下一代芯片和推理性能的御用模型。

3 月 18 号,作为英伟达的 GTC 年度大会唯一受邀的中国独立大模型公司代表,杨植麟的现场演讲全是干货,上来就把优化器、注意力机制、残差连接三大核心模块比作有 8-11 年历史的陈旧技术标准,是继续 Scaling 的障碍,用新的技术突破表明「每一项基础技术都值得重新思考」。

然后是这几天人尽皆知的「Cursor 丑闻」,谁能想到,估值 500 亿美金的全球最大编程助手 Cursor,重磅推出的新一代编程模型 Composer 2 ——跑分超过 Claude Opus 4.6 ——竟然是套的 Kimi K2.5 的壳

身为 Token 中介定位的 Cursor 之所以要发力「自研」,主要还是为了摆脱它对 Anthropic 和 OpenAI 的高度依赖,卡脖子这事儿可不分国界,Anthropic 也真的曾经断供 Windsurf 这类编程工具,在既当裁判员又当运动员的环境下,Cursor 希望独立自主的心情,完全可以理解。

只是能力和愿景之间的巨大鸿沟,让 Cursor 选择了抹掉来自 Kimi 的底座模型名字,靠代笔求融资,事情最后也算是体面收场,Cursor 的联合创始人公开道歉,在技术报告中给除了选择 Kimi K2.5 作为底座模型的详细理由,而 Kimi 官方也回应表示,很高兴 Cursor 使用 Kimi K2.5 作为基座,双方通过推理服务商 Fireworks AI 做了技术授权。

根据小道消息, 2026 年春节前后,Kimi 陆续以投前 48 亿美元、60 亿美元、100 亿美元的估值完成总额近 20 亿美元的融资,3 月份开启的 180 亿美元轮次份额也要排队才能拿到。

这当然也受益于两个同行在港股的超常表现,但更重要的还是靠自己的 K2 和后续的模型实际表现,包括前文题库的 Cursor、Cloudflare、Perplexity、黄仁勋、马斯克、马克 · 安德森、查马斯等不断发来的「金水」,以及 K2.5 发布后 20 天收入超过过去一年的财务表现。

一位 Kimi 的朋友在私下聊天里说,制约业务发展的只有算力,现在至少还有 10 倍的需求没有满足。有多少卡,就能有多少收入。据我跟另一个大厂工作的朋友了解,现在有些大厂在编程工具中接入的 Kimi 模型,甚至要通过预购才能拿到足够的额度。

这 9 个月,Kimi 算是完成了一次逆天改命。

DeepSeek V3 不是一天炼成的。其背后的幻方量化基因,决定了他们从 2023 年起就走上了一条与硅谷截然不同的极致能效比之路。在 2023 到 2024 年的大部分时间里,他们游离于主流叙事之外,潜心自研 MLA(多头潜在注意力机制) 与 DeepSeekMoE 架构,试图在有限的算力下压榨出超越物理极限的性能。直到 2025 年成就自己,也给其他 AI 创业公司带来信心。

所有人都在期待 DeepSeek 的下一代模型继续惊艳全场,但媒体上三番五次的「狼来了」把戏只会消磨大家的注意力。技术突破,哪是那么容易的事情,我们完全有理由更有耐心地等待 DeepSeek 团队的下一个作品。

Kimi K2 也不是一天炼成的。他们实际上跟 DeepSeek R1 同一天发布了无人问津的 K1.5 模型,被 OpenAI 官方认为是率先复现 o1 的两个公司之一。他们在被唱衰最厉害的 2025 年初发布了 Moonlight 系列小型 MoE 模型,用来验证下一代二阶优化器技术,并且最终应用到万亿的 K2 模型上。现在 Muon 已取代已经用了 10 年的标准技术 Adam,成为 Kimi、GLM-5、DeepSeek Engram 在内的新模型都开始采用的新标准。

正所谓,「出来混,总要还的。」Kimi 在 2024 年提前享受了 C 位和曝光,2026 年没再复现该属于自己的流量。

各有各的命。

作为两家几乎同时起步的创业公司,我佩服他们那种从来不认为市场格局已定、相信技术才是最大变量、敢于追逐 AGI 的勇气和年轻生猛、战绩可查、永远相信细水长流的力量。

即使站在 2026 年 3 月底这个时间节点看,2022 年底开始的这场 AI 革命也才进行了 3 年半的时间,一切才刚刚开始。为什么下一个 OpenAI 和 Anthropic 不能是一家中国公司?

觉得文章不错,微信扫描分享好友

扫码分享