K2 Thinking 再炸场，杨植麟凌晨回答了 21 个问题

文｜邓咏仪

编辑｜苏建勋

继上周发布 K2 Thinking 再度引起全球热议后，很快，北京时间凌晨 11 月 11 日，月之暗面创始人杨植麟，以及合伙人周昕宇、吴育昕，在 Reddit 社区进行了长达数小时的线上 AMA（Ask Me Anything）环节，解答新模型相关的问题。

这也是数位联创第一次共同露面。

从高举高打到转向模型技术冲锋，如今的 Kimi 不再投流，愈发安静了。这次的新模型发布，和三个月前 K2 发布一样走低调路线：不开线下正式发布会，在社区直接发布模型。

团队主创选择在 Reddit、知乎上回答问题，也和 Kimi 现在的开源路线一脉相承——这些社区都是 AI 从业者、极客聚集的地方。

国外开发者们毫不吝啬对 Kimi K2 的喜爱。AMA 环节开始后，数十个问题很快填满讨论串，夹杂着对 Kimi 性价比、开源深度的称赞，" 绝对伟大的模型！" 不少用户表示。

不少开发者还现场 " 催更 "，希望 Kimi 团队快点推出 K2 Thinking 更小体量的模型，部署在 PC 端，或者用于企业生产环境。

杨植麟也首次澄清了一系列传闻——还会继续开源吗？K2 Thinking 的 460 万美金训练成本是真的吗？以及下一代 K3 模型的计划，K2 Thinking 关键的训练细节。

△杨植麟回应训练成本问题

△以后会发布更大规模的闭源模型吗？一个含蓄的回答：如果模型变得越来越危险的话 : )

Kimi 团队也坦诚回应了技术讨论，甚至幽默地回应了一下最近的 AI 泡沫—— " 我们也不知道（为什么 OpenAI 烧钱哦），只有 Sam 知道，我们有自己的节奏。" 月之暗面联合创始人周昕宇表示。

△月之暗面联合创始人周昕宇

新发布的 K2 Thinking，是个高达 1 万亿参数，稀疏混合专家（MoE）架构模型——这是开源模型里相当大的体量。

在多个代表前沿能力的基准测试中，K2 Thinking 确实取得了不错的成绩，尤其强在推理、任务执行上。

在以高难度著称的测试集 HLE（Humanity's Last Exam，有超过 3000 道高难度人类专家测试题）、BrowseComp（自主网页浏览）等 Agent 榜单上，K2-Thinking 的分数甚至超过了 GPT-5。

K2 Thinking 继承了 DeepSeek 的架构设计，不过在此基础上做了更多创新工作——参数放得更大，采用了 INT4 等新的量化手段。

从价格上看，K2-Thinking 的成本优势巨大，其百万 token 输出价格为 2.5 美元，仅为 GPT-5（10 美元）的四分之一，被很多人称之为 GPT-5 和 Claude Sonnet 4.5 的 " 平替 "。

" 这是又一次 DeepSeek 式的辉煌时刻吗？"K2 Thinking 发布后，Hugging Face 联合创始人 Thomas Wolf 在 X 上感慨。

最近几个月，可以说是国产大模型的丰收季。各大厂商像是约好了接力开源，给了硅谷一点小小的震撼—— 9 月，智谱发布 GLM-4.6，10 月 MiniMax 发布 M2，加上这次的 K2 Thinking，在全球榜单上上打得有来有回，好不热闹。

（我们也将此次 AMA 的完整问答整理在了文末）

话唠的 K2 Thinking，是为了更好做任务

在 AMA 环节以及知乎等社区，不少开发者的第一个感觉是：K2 Thinking 很话唠。问它一个问题，思考时间很长，虽然便宜，但 Token 消耗巨大。

话唠，其实是为了一个最重要的目的：让 AI 能够帮人类完成更多任务。

从 K2 到 K2 Thinking，一切设计都围绕这一点开始：专注 Agentic（智能体）能力，让 AI 不只是聊天，而是能真正完成任务。

K2 Thinking 高达万亿参数，但大体量并不是为了炫技，而是希望能够让模型能够囊括更多知识，有利于理解和执行任务，这相当于 " 脑子更聪明 "；但 K2 Think 在实际运行时，激活参数控制在 300 亿，也保证了回答问题和执行任务的速度足够快。

长思维链是 K2 Thinking 的长板。据 Kimi 官方介绍，K2 Thinking 能够连续执行 200-300 次工具调用来解决复杂问题，保证任务连续性。

知乎上的一位答主 @平凡就做了个实验：给 K2 Thinking 一个博士级别的数学难题，仅用了 23 次工具调用，K2 Thinking 就成功了解决问题。

K2 Thinking 的具体执行过程是这样的：

第一步：模型首先理解问题，规划出解决路径

第二步：调用搜索工具，查找相关的解法和理论

第三步：分析搜索结果，判断是否可用

第四步至第 N 步：反复调用 Python 代码执行器，编写代码、进行计算、验证假设

循环：在 " 思考 - 调用工具 - 验证结果 " 的循环中不断迭代，直到问题解决

不难看出，这是在模仿人类解决问题的过程，在 " 思考 - 调用工具 - 验证结果 " 的循环中不断迭代。

" 步数 " 衡量的是模型的长程执行能力和耐力。步数越多，代表模型能处理的任务越复杂、越需要多轮迭代，并且在这个过程中，如何让模型不容易跑偏最初的目标，这个是训练的主要难点之一。

K2 Thinking 的很多设计，核心目标是确保模型能够完整处理复杂任务而不丢失信息。为了达到 " 性能第一 " 这个目标，Kimi 团队的取舍在于，可以牺牲一点 Token 效率——话唠一点也没关系，但要保证任务完成。

对于前不久 DeepSeek 爆火的 OCR 路线研究（纯像素输入模型），团队也谈了谈想法。" 我个人觉得这条路走得有点重了，我更倾向于继续在特征空间（Feature Space）里下功夫，去找到更通用、并且与具体模态无关（Modality-agnostic）的方法，来提升模型效率。" 月之暗面联合创始人吴育昕说。

除了文本模型，Kimi 团队也表示，其他模态如视觉理解，正在努力当中，时间线可能还要往后推推。

Claude 断供后，国内创新速度反而更快了

无论是 Kimi K2 Thinking 的发布，还是 GLM、MiniMax M2，共同指向的一个趋势是：在基础设施如芯片受限、Claude 断供的情况下，国产大模型在算法创新上反而加快了进程。

关于训练成本，杨植麟明确表示 460 万美元 " 不是官方数字 "，并表示很难量化培训成本，因为主要部分是研究和实验，这部分无法包含在一次性训练成本当中。

可以肯定的是，K2 Thinking 是在比较有限的条件下完成的。杨植麟表示，K2 Thinking 包括在配备 Infiniband 的 H800 GPU 上进行训练。相比美国，Kimi 在 GPU 数量上处于劣势，但把每张显卡的性能都压榨到了极致。

不止是 Kimi，如今仍在基座模型上投入的国内团队，都在算法层面找到了细分创新方向。

一个典型例子是，MiniMax 和月之暗面面对 " 如何高效处理长上下文 " 这个问题，就给出了不一样的选择。

MiniMax 的上一代模型 M1，采用的一个关键模型极致是 Linear Attention（线性注意力机制），但到了 M2，又回退到了 full attention（全注意力机制）。

两者区别在于，MiniMax 希望技术实现更稳定，在处理长链条信息时不要丢失关键内容。MiniMax 在近期的技术博客就表示：在实际应用中发现，虽然 Linear Attention 能省算力，但对于多步推理的复杂 Agent 任务，传统方法反而更可靠，他们更看重在当前工程体系下的稳定性。

Kimi 则选择了更激进的路径。比如最近发布的 Kimi Linear，从更底层的硬件、架构层面，研发了 KDA+MLA 路线，即用 3:1 的比例，把 KDA 和 MLA 路线混合在一起。

传统的 Transformer 架构，就像一个记忆力超群但有点健忘的秘书——模型每个字都能记住，不会遗漏细节；但记的东西越多，模型的计算时间就以平方为单位增加。

而采用 KDA 架构之后，迫使模型学会 " 抓重点信息 "。模型可以选择性按照每个字来标注重要性、时效性等维度，选择性忘掉一些细节。这种新架构在性能、速度、显存占用上，会有巨大优势。

技术路线的选择背后，也和各家如今商业目标的不同有关。

各家公司的打法开始出现明显分化。Minimax M2 的定位是性价比，推理速度快，多模态选择丰富，希望吸引开发者在他们的平台上构建丰富的应用生态；

Kimi 则选择继续 " 爬山 "，专注于把文本模型的能力做到极致，探索智能的上限。在这个目标之下，团队选择性能为先，让 Agent 更可用，暂时不太考虑 Token 消耗效率。

而智谱 GLM 就抢占了不少 Claude 断供之后的市场，特别是在编程和推理场景，GLM-4.6 从性能、效率和价格上，是一个相对全面的模型，让企业能够快速上手使用，很多应用厂商也可以直接套壳。

这些选择没有对错之分，只是在当前环境下不同的生存策略。

实际上，中国开源模型的应用生态正在形成自己的优势——许多海外开发者开始在中国的开源模型上构建应用，并积极提供反馈。可以预见的是，这场开源风暴，也会带来应用的更多爆发。

附在 AMA 环节问答，经《智能涌现》编辑整理，有部分合并：

Q：460 万美元训练成本是真的吗？

Kimi：这不是一个官方数字。很难量化培训成本，因为还有很大一部分工作是研究和实验。

Q：是什么导致你们这些疯子（深情地说），选择用一个相对未经测试的优化器，来训练如此庞大的模型？

Kimi：Muon 是一个未经其他人测试的优化器（Optimizer），但是在我们的实验里，它通过了缩放定律验证流程（Scaling Laws Ladder）。

我们对我们的研究体系（Research Stack）有信心，你可能会认为我们选择 Muon 只是运气好，但是选择的背后是，有几十个优化器和架构没有（在实验中）通过考验。

Q：你们的训练硬件配置是怎么样的？想了解一下你们的基础设施和美国顶尖公司相比有什么不同。

Kimi：我们用的是配备 Infiniband 的 H800 GPU。虽然不如美国的高端 GPU，我们在数量上也不占优势，但我们充分利用了每一张卡！

Q：在你们的预训练中过程中，最重要的指标是什么？消融架构更改的过程是怎么样的？在什么尺度上进行测试，需要查看哪些指标，以确保模型表现良好？

以及，你们做了什么，在预训练前后，让数据更有利于模型学习？有哪些指标可以预测数据是否对模型有益 / 有益，可以分享一些经验吗？

Kimi：最重要的指标是：损失（Loss）、基准测试（Benchmarks）和内部稳定性内部指标。

我们有一个在多个尺度上不断发展的缩放定律验证流程，模型消融环节必须在进行下一个之前通过小规模验证。所有指标都很重要。

如果有任何意外，我们将暂停扩大模型规模，直到问题被理解和解决。

最重要的超参数是学习率（以及学习率调度器）。变量太多，所以最好在深入超参数搜索工作之前，先了解一下超参数的情况。

一个好的数据集，必须在训练期间有一个好的基准趋势。如果不是，那就好优化数据或找到一个更好的基准来显示进展。

我想说的是，找到合适的数据集（data mixture）是一门艺术。因为数据集之间有太多的交互和共享模式。从你的直觉开始，但最终相信实验。

Q：只做纯文本模型，这是一个为了达到 SOTA（达到当前最好的性能）的取舍，还是说这是你们真就押注的长期方向？未来会考虑增加上下文窗口到 1M 吗？

Kimi：要做视频理解模型，获取数据和训练都需要时间，因此我们选择首先发布文本模型。

我们以前做过 1M 上下文窗口，但是现在服务太贵了。我们将来会重新审视更长的上下文窗口。我们应该能够在未来的版本中增加上下文长度。

Q：你们会发布适合 MacBook 的小型模型吗？或者有没有计划制作 32B 或 20B 模型？

Kimi：我们注意到了这个需求，但目前没有对 MacBook 友好型模型的具体计划。像 Kimi Linear 这样的小模型很可爱，我们很可能会在未来发布更多作为研究演示。

Kimi-Linear-48B-A3B-Instruct 是我们发布的小模型的一个例子。将来我们很可能会训练更多并添加更多功能。

Q：Kimi K2 Instruct 是如何拥有如此独特而富有洞察力的散文风格的？这主要是归功于后训练吗？

Kimi：我们也喜欢它的写作风格，它是我们后期训练数据和评估的重要组成部分。

预训练阶段为模型打下了基础，赋予了它相关的先验知识和能力（priors），这就像是奠定了模型的 " 底蕴 "。

而后训练阶段在此基础上增添了一些独特的风味和个性（taste）。

很有意思的是，不同的强化学习（RL）策略或方法（RL recipes）确实能让模型呈现出截然不同的风格和特点（different tastes）。

人们对这些细微之处有不同的喜好，模型的风格大体上也反映了我们的喜好。

Q：Kimi K2 Thinking 虽然称得上是目前最适合创意写作的大模型，但仍有很大的提升空间。它在语言表达上存在不少瑕疵（slop issues）。

此外，尽管 Kimi 比其他模型审查更少、刻意的 " 正能量 " 也更少，但在处理残酷的战斗场景或角色间充满矛盾的真实对话时，输出内容过于安全和套路化（GPT-isms）。给人的感觉不是真实的人类情感，而是一种 " 有毒的积极 "（toxic positivity）。这些问题在未来版本中会得到解决吗？

最后一个问题：未来会支持 NSFW（成人内容）吗？Grok 允许生成 NSFW 内容，但文笔很差。OpenAI 最近也宣布会推出 ChatGPT 的成人版本。如果 Kimi 能大幅放宽审查，这是一个能发挥 Kimi 写作优势、抢占市场的好机会。

Kimi：这是非常宝贵的反馈。

关于语言表达的瑕疵问题（slop），我们已经取得了一些进展，但这确实是所有大语言模型（LLM）长期面临的挑战。从技术上讲，LLM 的训练过程会不断强化数据中已有的模式，导致某些模式被过度放大，从而偏离了真实人类的偏好。但我们相信，这个问题是有解决方案的。

关于减少审查和刻意的正面引导，这应该是可以实现的，我们会进一步研究！

至于 NSFW 内容，我们需要先找到一种可靠的年龄验证方法。我们可能需要根据不同场景对模型进行调整，并更新我们的服务条款来反映这些变化。这些都是非常棒的建议！

Q：会开发双向对话模型吗？

Kimi：我们没有专门的双向对话模型。不过，任何双向注意力机制（Bidirectional Attention），都可以通过延长因果注意力模型（Causal Attention）的上下文长度，来实现类似的效果。

Q：K2 Thinking 最大的技术挑战是什么？

Kimi：一个挑战是支持交错的 " 思考 - 工具 - 思考 - 工具 " 模式。这在 LLM 中是一种相对较新的挑战，需要大量的工作才能正确运行。

Q：K2 可以做到 200-300 步的稳定工具调用，这是如何实现的？

Kimi：我们使用端到端智能体强化学习（End-to-end Agent RL）训练 K2 Thinking，这导致了数百个步骤的工具调用以及包括检索（Retrieval）在内的中间步骤的更好性能。

Q：如何保障长链推理的稳定性？为什么 Kimi K2 思维可以在单次推理中，实现如此长的推理时间和推理链？GPT5 Pro 使用代理来延长推理时间，但推理效果仍然不如 K2 的单次长推理。将来会进一步考虑提高基础模型的推理时间吗？

Kimi：这需要大量的工程工作才能正确实现。当数据集组合时，我们可以更好地进行观察泛化（Generalization）。

推理时间取决于 API 吞吐量，而 Token 的数量取决于如何训练模型。我们训练 K2 思维的方式，倾向于用相对更多的 Token 来思考，以达到最佳结果。

我们的 K2 Thinking Turbo 的 API 应该更快。此外，K2 思维本身就是采用的 INT4，这进一步加快了推理过程。

Q：想请教一下，你们觉得从 int4 到 fp4 算是一次实质性的提升吗？还是说 int4 的效果其实已经足够好了？

Kimi：我们选择 int4，主要是为了更好地兼容非 Blackwell 架构的 GPU，同时也能直接用上社区现有的 Marlin int4 推理内核（https://github.com/IST-DASLab/marlin ) 。

对这个话题，我们团队的工程师有一篇更详细的分析，可以参考（中文）：https://www.zhihu.com/question/654759544/answer/3493279960

Q：以后的 K3，会有什么新突破？

Kimi：我们很乐意在 K3 中加入重大架构更改并开发新功能。KDA（Kernel-Attention Dual Architecture）是我们最新的实验架构，相关的想法很可能会在 K3 中使用。

Q：你们有计划推出像 AI 浏览器这样的产品吗？

Kimi：我们目前的重心还是在模型训练上，但会持续将我们的最新能力更新到 kimi.com 网站上。

我们认为，要做好模型，并不需要再去做一个浏览器 " 壳 "（Chromium Wrapper）。

Q：会计划发布更大规模的闭源模型吗？

Kimi：如果模型变得越来越危险的话（if it gets too dangerous）: )

Q：为什么选择开源策略？Kimi 会开源安全对齐技术栈吗？

Kimi：同意。发布安全对齐（Safety Alignment）技术栈，将惠及更多从事开放模型进一步微调（Fine-tuning）的人。我们可能还需要更多机制，确保这些微调工作遵循特定的安全协议。

我们拥抱开源，因为我们相信 AGI（通用人工智能，Artificial General Intelligence）应该是一种导致团结而不是分裂的追求。

Q：如何看待与 OpenAI 等巨头的竞争？为什么 OpenAI 这么烧钱？

Kimi：不知道，可能只有 Sam 知道哦，我们有自己的方式和节奏。我们的使命是 " 寻求从能源到智能的最佳转换 "。在可预见的未来，我们依旧将专注于提高智能。

Q：会提升多语言能力吗？

Kimi：我们很想教 Kimi 说更多的语言，但我们在不同语言方面的带宽和知识有限。也许这也是开源社区可以提供帮助的地方，例如在数据采集方面。

Q：你们如何看待最近从一些闭源模型（Gemini、GPT）过度赞美用户的趋势？Kimi 会试图阻止这种行为吗？

Kimi：模型具有不同的个性化偏好是好的。我们相信，未来模型拥有更多元化的风格与能力将成为一种趋势。

Q：你们是 "AGI 信徒 " 吗？预测一下 AGI 什么时候能实现？

Kimi：AGI 这件事很难定义，但大家已经能感觉到那个范儿了，未来会有更多更强大的模型。

封面来源｜AI 生成

扫码加入「智涌 AI 交流群」

欢迎交流

本文来自微信公众号" 智能涌现 "，作者：邓咏仪，36 氪经授权发布。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

K2 Thinking 再炸场，杨植麟凌晨回答了 21 个问题

宙世代

一起剪

相关阅读

产业资本领投，时驾科技完成亿元A轮融资，将建设50万套空悬产能

最新评论

36氪

热门推荐