最近的 AI 圈,如果说有什么事能让东西方开发者社区同时 " 上头 ",那可能就是月之暗面和它的 Kimi K2 Thinking 模型了。K2 Thinking 在推理和编码能力上超越了不少前沿模型,被许多开发者誉为新 SOTA ,发布后迅速在海内外技术社区引发热议。
就在这波热度席卷全球之时,Kimi 团队也趁热打铁,在 Reddit 举办了一场 AMA ( Ask Me Anything 问我任何事)。
据了解,这次直接通宵答疑的正是月之暗面的三位联合创始人杨植麟、周昕宇和吴育昕。这也算是三位联创难得的对外 " 集体亮相 "。
从回答阵容来看,杨植麟用了一个叫 "ComfortableAsk4494" 的账号来直接在线答疑。
而我们也问了两个外界很关注的问题,得到了回答。
460 万真的吗?为何一直在做纯文本
我们关注的两个问题分别是此次 K2 Thinking 传出的极低的成本,以及 Kimi 至今依然在走的纯文本和 Agent 路线的原因。以下是他的回答。

A:这不是官方数据。由于训练成本中很大一部分是研究和实验,所以很难量化具体数字。

A:训练视觉语言模型需要时间获取数据和调整训练,所以我们决定先发布一个文本模型。
AMA 是 Reddit 由来已久的传统,从奥巴马到基努 · 里维斯再到 OpenAI 团队和 Sam Altman,政商科技与娱乐圈的许多知名人物都曾通过这种形式与社区进行交流。Kimi 这次选择的是 r/LocalLLaMA 这个分区,这是一个关于开源模型、模型本地化部署分区,聚集了许多硬核的开发者。这可能也是第一次中国 AI 公司选择这种形式在海外技术社区开诚布公。以下是更多 AMA 内容:
AMA 实录
在我们提的这些问题之外,Kimi 核心团队也回答了全球开发者的更多问题,从 Kimi 本身的模型到整个行业的一些看法。
以下是这次 AMA 的省流版和实录:
训练成本:460 万美元训练成本不是一个官方数字。
用什么训练的: 配备 InfiniBand 的 H800 GPU。
K3 新架构: 将采用混合架构。
K2 为何采用 INT4: 为了更好地兼容非 Blackwell 架构的 GPU。
多模态:" 我们正在做。"
Muon 优化器:可良好扩展至 1 万亿参数
K3 什么时候来: "Sam 的万亿级数据中心建成之前 "。

A:我们使用的是配备 Infiniband 的 H800 GPU;虽然比不上美国的高端 GPU,数量上也处于劣势,但我们把每张显卡的性能都榨取得淋漓尽致

A:在我们对预训练和强化学习的公平比较中,采用 NoPE MLA 的 KDA 混合模型表现优于全量 RoPE MLA 模型。它们不仅获得了更高的基准分数,而且速度更快、更经济高效,使我们能够加速预训练、在强化学习阶段更快部署,并服务更多用户。我们还有更多改进正在研发中,将在准备就绪时分享。
A:KDA 是我们最新的实验性架构。
相关理念很可能会应用于 K3 架构中。

A:在 Sam 的万亿级数据中心建成之前

A:Muon 是一种未经他人测试的优化器,但我们已经通过所有扩展阶梯验证了它的有效性。
我们对自身的研究体系充满信心。或许你会觉得 Muon 只是运气好,但事实上已有数十种优化器和架构在严苛考验中被淘汰。

A:我们选择 int4 是为了更好地兼容非 Blackwell 架构的 GPU,同时利用现有的 int4 推理 Marlin 内核(https://github.com/IST-DASLab/marlin)。
我们的工程师对此话题有详细中文解读:https://www.zhihu.com/question/1969558404759544488/answer/1970539327902679960
除了分享技术亮点,Kimi 团队回应了一些对模型槽点的质疑,并给出了对未来规划和行业发的看法。

A:说得好。在当前版本中,我们更看重绝对性能而非 token 效率。后续会尝试将效率纳入奖励机制,让模型学会压缩思考过程。

A:一个挑战是支持 " 思考 - 工具 - 思考 - 工具 " 的交替模式。这是 LLMs 中相对较新的行为,需要大量工作才能正确实现。

A:我们测试了 Kimi Linear 模型,效果看起来很有潜力。它还可以与稀疏性技术结合使用。

A:不知道。只有 Sam 清楚。我们有自己的一套方法和节奏

A:if it gets too dangerous : )
在这些对与 Kimi 有关的话题之外,Kimi 的联创团队也难得回答了许多带有一点 " 隔空对话 " 火药味的问题。
当被问道是否需要像 OpenAI 那样也搞一个 Chromium 的套壳浏览器时,Kimi 的回答是:No。
另一个非常有趣的回答则来自周昕宇。一个用户问到了此前被广为夸赞的 DeepSeek 的 OCR 模型,当时这款模型被认为是一个非常棒的创新,试图用视觉的方式来解决原本依赖文字 token 的存储和记忆的问题。
他回答到:
我个人的想法是,这个太刻意了。我宁愿留在特征空间,并找到更通用和模式无关的方法来让模型更有效率。

这可能是更多 AI 研究团队可以考虑的方式,这样的交流至少更加有人味儿。