关于ZAKER 合作
36氪 16分钟前

K2 Thinking 再炸场,杨植麟凌晨回答了 21 个问题

文|邓咏仪

编辑|苏建勋

继上周发布 K2 Thinking 再度引起全球热议后,很快,北京时间凌晨 11 月 11 日,月之暗面创始人杨植麟,以及合伙人周昕宇、吴育昕,在 Reddit 社区进行了长达数小时的线上 AMA(Ask Me Anything)环节,解答新模型相关的问题。

这也是数位联创第一次共同露面。

从高举高打到转向模型技术冲锋,如今的 Kimi 不再投流,愈发安静了。这次的新模型发布,和三个月前 K2 发布一样走低调路线:不开线下正式发布会,在社区直接发布模型。

团队主创选择在 Reddit、知乎上回答问题,也和 Kimi 现在的开源路线一脉相承——这些社区都是 AI 从业者、极客聚集的地方。

国外开发者们毫不吝啬对 Kimi K2 的喜爱。AMA 环节开始后,数十个问题很快填满讨论串,夹杂着对 Kimi 性价比、开源深度的称赞," 绝对伟大的模型!" 不少用户表示。

不少开发者还现场 " 催更 ",希望 Kimi 团队快点推出 K2 Thinking 更小体量的模型,部署在 PC 端,或者用于企业生产环境。

杨植麟也首次澄清了一系列传闻——还会继续开源吗?K2 Thinking 的 460 万美金训练成本是真的吗?以及下一代 K3 模型的计划,K2 Thinking 关键的训练细节。

△杨植麟回应训练成本问题

△以后会发布更大规模的闭源模型吗?一个含蓄的回答:如果模型变得越来越危险的话 : )

Kimi 团队也坦诚回应了技术讨论,甚至幽默地回应了一下最近的 AI 泡沫—— " 我们也不知道(为什么 OpenAI 烧钱哦),只有 Sam 知道,我们有自己的节奏。" 月之暗面联合创始人周昕宇表示。

△月之暗面联合创始人周昕宇

新发布的 K2 Thinking,是个高达 1 万亿参数,稀疏混合专家(MoE)架构模型——这是开源模型里相当大的体量。

在多个代表前沿能力的基准测试中,K2 Thinking 确实取得了不错的成绩,尤其强在推理、任务执行上。

在以高难度著称的测试集 HLE(Humanity's Last Exam,有超过 3000 道高难度人类专家测试题)、BrowseComp(自主网页浏览)等 Agent 榜单上,K2-Thinking 的分数甚至超过了 GPT-5。

K2 Thinking 继承了 DeepSeek 的架构设计,不过在此基础上做了更多创新工作——参数放得更大,采用了 INT4 等新的量化手段。

从价格上看,K2-Thinking 的成本优势巨大,其百万 token 输出价格为 2.5 美元,仅为 GPT-5(10 美元)的四分之一,被很多人称之为 GPT-5 和 Claude Sonnet 4.5 的 " 平替 "。

" 这是又一次 DeepSeek 式的辉煌时刻吗?"K2 Thinking 发布后,Hugging Face 联合创始人 Thomas Wolf 在 X 上感慨。

最近几个月,可以说是国产大模型的丰收季。各大厂商像是约好了接力开源,给了硅谷一点小小的震撼—— 9 月,智谱发布 GLM-4.6,10 月 MiniMax 发布 M2,加上这次的 K2 Thinking,在全球榜单上上打得有来有回,好不热闹。

(我们也将此次 AMA 的完整问答整理在了文末)

话唠的 K2 Thinking,是为了更好做任务

在 AMA 环节以及知乎等社区,不少开发者的第一个感觉是:K2 Thinking 很话唠。问它一个问题,思考时间很长,虽然便宜,但 Token 消耗巨大。

话唠,其实是为了一个最重要的目的:让 AI 能够帮人类完成更多任务。

从 K2 到 K2 Thinking,一切设计都围绕这一点开始:专注 Agentic(智能体)能力,让 AI 不只是聊天,而是能真正完成任务。

K2 Thinking 高达万亿参数,但大体量并不是为了炫技,而是希望能够让模型能够囊括更多知识,有利于理解和执行任务,这相当于 " 脑子更聪明 ";但 K2 Think 在实际运行时,激活参数控制在 300 亿,也保证了回答问题和执行任务的速度足够快。

长思维链是 K2 Thinking 的长板。据 Kimi 官方介绍,K2 Thinking 能够连续执行 200-300 次工具调用来解决复杂问题,保证任务连续性。

知乎上的一位答主 @平凡就做了个实验:给 K2 Thinking 一个博士级别的数学难题,仅用了 23 次工具调用,K2 Thinking 就成功了解决问题。

K2 Thinking 的具体执行过程是这样的:

第一步:模型首先理解问题,规划出解决路径

第二步:调用搜索工具,查找相关的解法和理论

第三步:分析搜索结果,判断是否可用

第四步至第 N 步:反复调用 Python 代码执行器,编写代码、进行计算、验证假设

循环:在 " 思考 - 调用工具 - 验证结果 " 的循环中不断迭代,直到问题解决

不难看出,这是在模仿人类解决问题的过程,在 " 思考 - 调用工具 - 验证结果 " 的循环中不断迭代。

" 步数 " 衡量的是模型的长程执行能力和耐力。步数越多,代表模型能处理的任务越复杂、越需要多轮迭代,并且在这个过程中,如何让模型不容易跑偏最初的目标,这个是训练的主要难点之一。

K2 Thinking 的很多设计,核心目标是确保模型能够完整处理复杂任务而不丢失信息。为了达到 " 性能第一 " 这个目标,Kimi 团队的取舍在于,可以牺牲一点 Token 效率——话唠一点也没关系,但要保证任务完成。

对于前不久 DeepSeek 爆火的 OCR 路线研究(纯像素输入模型),团队也谈了谈想法。" 我个人觉得这条路走得有点重了,我更倾向于继续在特征空间(Feature Space)里下功夫,去找到更通用、并且与具体模态无关(Modality-agnostic)的方法,来提升模型效率。" 月之暗面联合创始人吴育昕说。

除了文本模型,Kimi 团队也表示,其他模态如视觉理解,正在努力当中,时间线可能还要往后推推。

Claude 断供后,国内创新速度反而更快了

无论是 Kimi K2 Thinking 的发布,还是 GLM、MiniMax M2,共同指向的一个趋势是:在基础设施如芯片受限、Claude 断供的情况下,国产大模型在算法创新上反而加快了进程。

关于训练成本,杨植麟明确表示 460 万美元 " 不是官方数字 ",并表示很难量化培训成本,因为主要部分是研究和实验,这部分无法包含在一次性训练成本当中。

可以肯定的是,K2 Thinking 是在比较有限的条件下完成的。杨植麟表示,K2 Thinking 包括在配备 Infiniband 的 H800 GPU 上进行训练。相比美国,Kimi 在 GPU 数量上处于劣势,但把每张显卡的性能都压榨到了极致。

不止是 Kimi,如今仍在基座模型上投入的国内团队,都在算法层面找到了细分创新方向。

一个典型例子是,MiniMax 和月之暗面面对 " 如何高效处理长上下文 " 这个问题,就给出了不一样的选择。

MiniMax 的上一代模型 M1,采用的一个关键模型极致是 Linear Attention(线性注意力机制),但到了 M2,又回退到了 full attention(全注意力机制)。

两者区别在于,MiniMax 希望技术实现更稳定,在处理长链条信息时不要丢失关键内容。MiniMax 在近期的技术博客就表示:在实际应用中发现,虽然 Linear Attention 能省算力,但对于多步推理的复杂 Agent 任务,传统方法反而更可靠,他们更看重在当前工程体系下的稳定性。

Kimi 则选择了更激进的路径。比如最近发布的 Kimi Linear,从更底层的硬件、架构层面,研发了 KDA+MLA 路线,即用 3:1 的比例,把 KDA 和 MLA 路线混合在一起。

传统的 Transformer 架构,就像一个记忆力超群但有点健忘的秘书——模型每个字都能记住,不会遗漏细节;但记的东西越多,模型的计算时间就以平方为单位增加。

而采用 KDA 架构之后,迫使模型学会 " 抓重点信息 "。模型可以选择性按照每个字来标注重要性、时效性等维度,选择性忘掉一些细节。这种新架构在性能、速度、显存占用上,会有巨大优势。

技术路线的选择背后,也和各家如今商业目标的不同有关。

各家公司的打法开始出现明显分化。Minimax M2 的定位是性价比,推理速度快,多模态选择丰富,希望吸引开发者在他们的平台上构建丰富的应用生态;

Kimi 则选择继续 " 爬山 ",专注于把文本模型的能力做到极致,探索智能的上限。在这个目标之下,团队选择性能为先,让 Agent 更可用,暂时不太考虑 Token 消耗效率。

而智谱 GLM 就抢占了不少 Claude 断供之后的市场,特别是在编程和推理场景,GLM-4.6 从性能、效率和价格上,是一个相对全面的模型,让企业能够快速上手使用,很多应用厂商也可以直接套壳。

这些选择没有对错之分,只是在当前环境下不同的生存策略。

实际上,中国开源模型的应用生态正在形成自己的优势——许多海外开发者开始在中国的开源模型上构建应用,并积极提供反馈。可以预见的是,这场开源风暴,也会带来应用的更多爆发。

附在 AMA 环节问答,经《智能涌现》编辑整理,有部分合并:

Q:460 万美元训练成本是真的吗?

Kimi:这不是一个官方数字。很难量化培训成本,因为还有很大一部分工作是研究和实验。

Q:是什么导致你们这些疯子(深情地说),选择用一个相对未经测试的优化器,来训练如此庞大的模型?

Kimi:Muon 是一个未经其他人测试的优化器(Optimizer),但是在我们的实验里,它通过了缩放定律验证流程(Scaling Laws Ladder)。

我们对我们的研究体系(Research Stack)有信心,你可能会认为我们选择 Muon 只是运气好,但是选择的背后是,有几十个优化器和架构没有(在实验中)通过考验。

Q:你们的训练硬件配置是怎么样的?想了解一下你们的基础设施和美国顶尖公司相比有什么不同。

Kimi:我们用的是配备 Infiniband 的 H800 GPU。虽然不如美国的高端 GPU,我们在数量上也不占优势,但我们充分利用了每一张卡!

Q:在你们的预训练中过程中,最重要的指标是什么?消融架构更改的过程是怎么样的?在什么尺度上进行测试,需要查看哪些指标,以确保模型表现良好?

以及,你们做了什么,在预训练前后,让数据更有利于模型学习?有哪些指标可以预测数据是否对模型有益 / 有益,可以分享一些经验吗?

Kimi:最重要的指标是:损失(Loss)、基准测试(Benchmarks)和内部稳定性内部指标。

我们有一个在多个尺度上不断发展的缩放定律验证流程,模型消融环节必须在进行下一个之前通过小规模验证。所有指标都很重要。

如果有任何意外,我们将暂停扩大模型规模,直到问题被理解和解决。

最重要的超参数是学习率(以及学习率调度器)。变量太多,所以最好在深入超参数搜索工作之前,先了解一下超参数的情况。

一个好的数据集,必须在训练期间有一个好的基准趋势。如果不是,那就好优化数据或找到一个更好的基准来显示进展。

我想说的是,找到合适的数据集(data mixture)是一门艺术。因为数据集之间有太多的交互和共享模式。从你的直觉开始,但最终相信实验。

Q:只做纯文本模型,这是一个为了达到 SOTA(达到当前最好的性能)的取舍,还是说这是你们真就押注的长期方向?未来会考虑增加上下文窗口到 1M 吗?

Kimi:要做视频理解模型,获取数据和训练都需要时间,因此我们选择首先发布文本模型。

我们以前做过 1M 上下文窗口,但是现在服务太贵了。我们将来会重新审视更长的上下文窗口。我们应该能够在未来的版本中增加上下文长度。

Q:你们会发布适合 MacBook 的小型模型吗?或者有没有计划制作 32B 或 20B 模型?

Kimi:我们注意到了这个需求,但目前没有对 MacBook 友好型模型的具体计划。像 Kimi Linear 这样的小模型很可爱,我们很可能会在未来发布更多作为研究演示。

Kimi-Linear-48B-A3B-Instruct 是我们发布的小模型的一个例子。将来我们很可能会训练更多并添加更多功能。

Q:Kimi K2 Instruct 是如何拥有如此独特而富有洞察力的散文风格的?这主要是归功于后训练吗?

Kimi:我们也喜欢它的写作风格,它是我们后期训练数据和评估的重要组成部分。

预训练阶段为模型打下了基础,赋予了它相关的先验知识和能力(priors),这就像是奠定了模型的 " 底蕴 "。

而后训练阶段在此基础上增添了一些独特的风味和个性(taste)。

很有意思的是,不同的强化学习(RL)策略或方法(RL recipes)确实能让模型呈现出截然不同的风格和特点(different tastes)。

人们对这些细微之处有不同的喜好,模型的风格大体上也反映了我们的喜好。

Q:Kimi K2 Thinking 虽然称得上是目前最适合创意写作的大模型,但仍有很大的提升空间。它在语言表达上存在不少瑕疵(slop issues)。

此外,尽管 Kimi 比其他模型审查更少、刻意的 " 正能量 " 也更少,但在处理残酷的战斗场景或角色间充满矛盾的真实对话时,输出内容过于安全和套路化(GPT-isms)。给人的感觉不是真实的人类情感,而是一种 " 有毒的积极 "(toxic positivity)。这些问题在未来版本中会得到解决吗?

最后一个问题:未来会支持 NSFW(成人内容)吗?Grok 允许生成 NSFW 内容,但文笔很差。OpenAI 最近也宣布会推出 ChatGPT 的成人版本。如果 Kimi 能大幅放宽审查,这是一个能发挥 Kimi 写作优势、抢占市场的好机会。

Kimi:这是非常宝贵的反馈。

关于语言表达的瑕疵问题(slop),我们已经取得了一些进展,但这确实是所有大语言模型(LLM)长期面临的挑战。从技术上讲,LLM 的训练过程会不断强化数据中已有的模式,导致某些模式被过度放大,从而偏离了真实人类的偏好。但我们相信,这个问题是有解决方案的。

关于减少审查和刻意的正面引导,这应该是可以实现的,我们会进一步研究!

至于 NSFW 内容,我们需要先找到一种可靠的年龄验证方法。我们可能需要根据不同场景对模型进行调整,并更新我们的服务条款来反映这些变化。这些都是非常棒的建议!

Q:会开发双向对话模型吗?

Kimi:我们没有专门的双向对话模型。不过,任何双向注意力机制(Bidirectional Attention),都可以通过延长因果注意力模型(Causal Attention)的上下文长度,来实现类似的效果。

Q:K2 Thinking 最大的技术挑战是什么?

Kimi:一个挑战是支持交错的 " 思考 - 工具 - 思考 - 工具 " 模式。这在 LLM 中是一种相对较新的挑战,需要大量的工作才能正确运行。

Q:K2 可以做到 200-300 步的稳定工具调用,这是如何实现的?

Kimi:我们使用端到端智能体强化学习(End-to-end Agent RL)训练 K2 Thinking,这导致了数百个步骤的工具调用以及包括检索(Retrieval)在内的中间步骤的更好性能。

Q:如何保障长链推理的稳定性?为什么 Kimi K2 思维可以在单次推理中,实现如此长的推理时间和推理链?GPT5 Pro 使用代理来延长推理时间,但推理效果仍然不如 K2 的单次长推理。将来会进一步考虑提高基础模型的推理时间吗?

Kimi:这需要大量的工程工作才能正确实现。当数据集组合时,我们可以更好地进行观察泛化(Generalization)。

推理时间取决于 API 吞吐量,而 Token 的数量取决于如何训练模型。我们训练 K2 思维的方式,倾向于用相对更多的 Token 来思考,以达到最佳结果。

我们的 K2 Thinking Turbo 的 API 应该更快。此外,K2 思维本身就是采用的 INT4,这进一步加快了推理过程。

Q:想请教一下,你们觉得从 int4 到 fp4 算是一次实质性的提升吗?还是说 int4 的效果其实已经足够好了?

Kimi:我们选择 int4,主要是为了更好地兼容非 Blackwell 架构的 GPU,同时也能直接用上社区现有的 Marlin int4 推理内核(https://github.com/IST-DASLab/marlin ) 。

对这个话题,我们团队的工程师有一篇更详细的分析,可以参考(中文):https://www.zhihu.com/question/654759544/answer/3493279960

Q:以后的 K3,会有什么新突破?

Kimi:我们很乐意在 K3 中加入重大架构更改并开发新功能。KDA(Kernel-Attention Dual Architecture)是我们最新的实验架构,相关的想法很可能会在 K3 中使用。

Q:你们有计划推出像 AI 浏览器这样的产品吗?

Kimi:我们目前的重心还是在模型训练上,但会持续将我们的最新能力更新到 kimi.com 网站上。

我们认为,要做好模型,并不需要再去做一个浏览器 " 壳 "(Chromium Wrapper)

Q:会计划发布更大规模的闭源模型吗?

Kimi:如果模型变得越来越危险的话(if it gets too dangerous): )

Q:为什么选择开源策略?Kimi 会开源安全对齐技术栈吗?

Kimi:同意。发布安全对齐(Safety Alignment)技术栈,将惠及更多从事开放模型进一步微调(Fine-tuning)的人。我们可能还需要更多机制,确保这些微调工作遵循特定的安全协议。

我们拥抱开源,因为我们相信 AGI(通用人工智能,Artificial General Intelligence)应该是一种导致团结而不是分裂的追求。

Q:如何看待与 OpenAI 等巨头的竞争?为什么 OpenAI 这么烧钱?

Kimi:不知道,可能只有 Sam 知道哦,我们有自己的方式和节奏。我们的使命是 " 寻求从能源到智能的最佳转换 "。在可预见的未来,我们依旧将专注于提高智能。

Q:会提升多语言能力吗?

Kimi:我们很想教 Kimi 说更多的语言,但我们在不同语言方面的带宽和知识有限。也许这也是开源社区可以提供帮助的地方,例如在数据采集方面。

Q:你们如何看待最近从一些闭源模型(Gemini、GPT)过度赞美用户的趋势?Kimi 会试图阻止这种行为吗?

Kimi:模型具有不同的个性化偏好是好的。我们相信,未来模型拥有更多元化的风格与能力将成为一种趋势。

Q:你们是 "AGI 信徒 " 吗?预测一下 AGI 什么时候能实现?

Kimi:AGI 这件事很难定义,但大家已经能感觉到那个范儿了,未来会有更多更强大的模型。

封面来源|AI 生成

扫码加入「智涌 AI 交流群」

欢迎交流

本文来自微信公众号" 智能涌现 ",作者:邓咏仪,36 氪经授权发布。

相关标签
36氪

36氪

让创业更简单

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容