关于ZAKER 合作
硅星人 1小时前

我们问了问“通宵答疑”的杨植麟:460 万美金真实性和纯文本背后的选择

最近的 AI 圈,如果说有什么事能让东西方开发者社区同时 " 上头 ",那可能就是月之暗面和它的 Kimi K2 Thinking 模型了。K2 Thinking 在推理和编码能力上超越了不少前沿模型,被许多开发者誉为新 SOTA ,发布后迅速在海内外技术社区引发热议。

就在这波热度席卷全球之时,Kimi 团队也趁热打铁,在 Reddit 举办了一场 AMA ( Ask Me Anything 问我任何事)。

据了解,这次直接通宵答疑的正是月之暗面的三位联合创始人杨植麟、周昕宇和吴育昕。这也算是三位联创难得的对外 " 集体亮相 "。

从回答阵容来看,杨植麟用了一个叫 "ComfortableAsk4494" 的账号来直接在线答疑。

而我们也问了两个外界很关注的问题,得到了回答。

460 万真的吗?为何一直在做纯文本

我们关注的两个问题分别是此次 K2 Thinking 传出的极低的成本,以及 Kimi 至今依然在走的纯文本和 Agent 路线的原因。以下是他的回答。

Q:K2 思维模型 460 万美元的训练成本是真的吗?

A:这不是官方数据。由于训练成本中很大一部分是研究和实验,所以很难量化具体数字。

Q:纯文本 Agent 专注策略是为了短期达到 SOTA 而做出的,还是你们长期看好的方向?

A:训练视觉语言模型需要时间获取数据和调整训练,所以我们决定先发布一个文本模型。

AMA 是 Reddit 由来已久的传统,从奥巴马到基努 · 里维斯再到 OpenAI 团队和 Sam Altman,政商科技与娱乐圈的许多知名人物都曾通过这种形式与社区进行交流。Kimi 这次选择的是 r/LocalLLaMA 这个分区,这是一个关于开源模型、模型本地化部署分区,聚集了许多硬核的开发者。这可能也是第一次中国 AI 公司选择这种形式在海外技术社区开诚布公。以下是更多 AMA 内容:

AMA 实录

在我们提的这些问题之外,Kimi 核心团队也回答了全球开发者的更多问题,从 Kimi 本身的模型到整个行业的一些看法。

以下是这次 AMA 的省流版和实录:

训练成本:460 万美元训练成本不是一个官方数字。

用什么训练的: 配备 InfiniBand 的 H800 GPU。

K3 新架构: 将采用混合架构。

K2 为何采用 INT4: 为了更好地兼容非 Blackwell 架构的 GPU。

多模态:" 我们正在做。"

Muon 优化器:可良好扩展至 1 万亿参数

K3 什么时候来: "Sam 的万亿级数据中心建成之前 "。

Q:你们的训练硬件配置是怎样的?很好奇你们的架构与美国那些巨头使用的系统相比如何?

A:我们使用的是配备 Infiniband 的 H800 GPU;虽然比不上美国的高端 GPU,数量上也处于劣势,但我们把每张显卡的性能都榨取得淋漓尽致

Q:非常感谢你们为开源社区带来了最先进的模型!我的问题是:Kimi 的下一代旗舰模型会采用 KDA 技术吗?它有什么优势?

A:在我们对预训练和强化学习的公平比较中,采用 NoPE MLA 的 KDA 混合模型表现优于全量 RoPE MLA 模型。它们不仅获得了更高的基准分数,而且速度更快、更经济高效,使我们能够加速预训练、在强化学习阶段更快部署,并服务更多用户。我们还有更多改进正在研发中,将在准备就绪时分享。

A:KDA 是我们最新的实验性架构。

相关理念很可能会应用于 K3 架构中。

Q:K3 什么时候出?

A:在 Sam 的万亿级数据中心建成之前

Q:是什么让你们这群狠人(亲切地说)决定用一个相对未经充分测试的优化器来训练如此庞大的模型?

A:Muon 是一种未经他人测试的优化器,但我们已经通过所有扩展阶梯验证了它的有效性。

我们对自身的研究体系充满信心。或许你会觉得 Muon 只是运气好,但事实上已有数十种优化器和架构在严苛考验中被淘汰。

Q:请问您认为 fp4 与 int4 相比是否确实有显著提升?还是说 int4 已经足够好地完成编码任务?

A:我们选择 int4 是为了更好地兼容非 Blackwell 架构的 GPU,同时利用现有的 int4 推理 Marlin 内核(https://github.com/IST-DASLab/marlin)。

我们的工程师对此话题有详细中文解读:https://www.zhihu.com/question/1969558404759544488/answer/1970539327902679960

除了分享技术亮点,Kimi 团队回应了一些对模型槽点的质疑,并给出了对未来规划和行业发的看法。

Q:关于 token 效率问题,kimi k2 thinking 似乎使用了过多 token。你们计划在下一个版本中修复这个问题吗?

A:说得好。在当前版本中,我们更看重绝对性能而非 token 效率。后续会尝试将效率纳入奖励机制,让模型学会压缩思考过程。

Q:你好 Moonshot 团队!感谢你们为闭源模型提供了真正的竞争 在开发 k2 思维模型的过程中,你们遇到的最大挑战是什么?谢谢!

A:一个挑战是支持 " 思考 - 工具 - 思考 - 工具 " 的交替模式。这是 LLMs 中相对较新的行为,需要大量工作才能正确实现。

Q:你认为 LLM 架构的下一个重大突破会是什么?

A:我们测试了 Kimi Linear 模型,效果看起来很有潜力。它还可以与稀疏性技术结合使用。

Q:为什么 OpenAI 在烧这么多钱?是当前商业规则(税收、生活成本等)导致的,还是你认为有其他原因?

A:不知道。只有 Sam 清楚。我们有自己的一套方法和节奏

Q:你们有计划发布更重量级的闭源模型吗?

A:if it gets too dangerous : )

在这些对与 Kimi 有关的话题之外,Kimi 的联创团队也难得回答了许多带有一点 " 隔空对话 " 火药味的问题。

当被问道是否需要像 OpenAI 那样也搞一个 Chromium 的套壳浏览器时,Kimi 的回答是:No。

另一个非常有趣的回答则来自周昕宇。一个用户问到了此前被广为夸赞的 DeepSeek 的 OCR 模型,当时这款模型被认为是一个非常棒的创新,试图用视觉的方式来解决原本依赖文字 token 的存储和记忆的问题。

他回答到:

我个人的想法是,这个太刻意了。我宁愿留在特征空间,并找到更通用和模式无关的方法来让模型更有效率。

这种和开发者当面聊的亲历感,或许正是 AMA 这种形式的最大特点。而由联合创始人级别的核心技术成员亲自下场,在海外技术社区与开发者交流技术细节,足见 Kimi 团队的重视。而且这种交流过程里,也能让这些对架构创新等的不同看法,从水底露出来一下,让外界更加了解这样一个技术团队的思考方式。

这可能是更多 AI 研究团队可以考虑的方式,这样的交流至少更加有人味儿。

相关阅读

最新评论

没有更多评论了