文 | AlphaEngineer
就在几天前,马斯克的 xAI 正式发布 Grok 4 大模型,号称世界最强 AI。
我们团队这几天仔细研究了 Grok 4 相关的研究资料,有一些新发现,对未来 AI 产业趋势及算力展望具有一定价值,遂整理成此文,用一篇文章的篇幅给大家介绍清楚 Grok 4 的发展脉络。
核心要点:
Grok 4 的核心创新是在训练阶段引入多智能协作,即 " 多智能体内生化 "
OpenAI o1 实现了 " 思维链内生化 ";Gemini 实现了 " 多模态内生化 ";Grok 4 则是率先走出了 " 多智能体内生化 " 的一步,将进一步推高基座模型的性能上限,Agent 走向 2.0 时代
预训练、后训练、测试时均存在 Scaling Law。过去两年以预训练为主,今年开始后训练、测试时推理需求快速增长,新一代大模型军备竞赛已启动,算力需求持续指数级增长
Grok 4 在各大 Benchmark 表现出众,但 Benchmark 测试污染严重,结果仅供参考,经实测发现 Grok 4 现阶段编程能力较弱,未来将单独推出 Coding 版本模型
下面我们正式开始。
(1)大力出奇迹,性能登顶各大 Benchmark
Grok 4 是在 xAI 自研的 Colossus 超算上训练而成的,其训练规模远超前代模型,计算资源投入为 Grok-2 的 100 倍、Grok-3 的 10 倍,实现了推理性能、多模态能力和上下文处理能力的跃升。
Grok 4 拥有两个版本:Grok 4(月费 30 美金)、Grok 4 Heavy(月费 300 美金,是的你没看错,300 美金!)。其中 Grok 4 是单 Agent 版本,而 Heavy 是多 Agent 协作版本,能够同时启动多个 Agent 并行工作,并最后整合结果。
经过实测,Grok 4 在多个 Benchmark 上均取得了优秀的成绩。在 GPQA、AIME25、LCB(Jan-May)、HMMT25、USAMO25 等多项测评中,Grok 4 都超越了 o3、Gemini 2.5 Pro、Claude 4 Opus 等模型。
(2)HLE:人类最后的考试
随着大模型能力的提升,许多最新模型能够在现有 Benchmark 表现出极高的准确率,导致这些基准失去了分辨模型智能水平的能力。
因此,Center for AI Safety 和 Scale AI 在 25 年初提出了 HLE,即 " 人类最后的考试 ",旨在成为最后一个广泛覆盖学术能力的封闭式基准测试,专注于评估模型在人类知识前沿的表现。
有趣的是,大模型在给出错误回答的时候,往往表现出极高的置信度,这说明了大模型在处理复杂问题上的短板。
(3)Grok 4 的核心创新:多智能体内生化
Grok 4 Heavy 的核心创新在于训练阶段即引入多智能体协作,我们将其称为 " 多智能体内生化 "。
何谓 " 内生化 "?我们来回顾一下过去 3 年大模型的发展历史,你一定会一目了然。
还记得在 22 年风靡一时的 CoT 思维链吗?当时人们为了让大模型达到更好的回答效果,需要引入一些提示词来诱发大模型进行深度思考,比如 "Let's think step by step"。
当时,CoT 能力属于 Prompt 工程,是独立于大模型能力之外的一种提示词技巧。
然后在 24 年 9 月,OpenAI 推出的 o1 模型首次明确将深度思考能力 " 内化 " 到大模型中,确立了从 Scaling Training 到 Scaling Inference 的训练新范式。
随后 25 年 2 月的 DeepSeek 进一步验证了将 "CoT 能力内化 " 确实能够大幅提升大模型的推理性能。
回顾历史后,我们能清晰地发现大模型发展的一条主线:大模型逐渐把 Prompt 工程、深度思考等能力纳入到训练过程中,实现能力内生化。
好比两个学生,其中一个拿着参考书进行开卷考试,另一个真正学习并掌握了知识(内生化)。相比之下,后者往往能考出高分并且发挥更稳定。
融会贯通一定是优于刻板记忆和机械调用的。
Grok 4 这次的最大突破,在于将 Agent 能力也进行了内生化,融入到训练过程中。
Grok 4 在训练中融合了 Agent 调用及实时搜索等能力,将多个 Agent 之间的 debate 和 self-check 变成了大模型的内生能力。
今年 5 月的一篇论文详细阐述了从 AI Agent 到 Agentic AI 的发展趋势,强调从单一任务的执行迈向多代理协作的新范式。
在 OpenAI o1 出现之前,人们为了激发大模型的深度思考能力,往往需要学习大量提示词工程技巧,但现在这些技巧已经不再重要。
在 Grok 4 Heavy 出现之前,人们会通过 Manus 等 Agent 工具让大模型处理复杂任务。当 Agent 能力内生化的方向得到确立,越来越多的 AI 大厂将加入其中,竞争会愈发激烈。
未来通用型 Agent 产品需要有新的定位,把重心聚焦于工具链的完备设计、业务知识的注入、记忆层的辅助等,基于更加聪明的内核,解决更多复杂的任务。
其实除了 "Agent 能力内生化 " 之外,大模型发展还有一条主线,即:多模态内生化。通俗点来讲,就是未来大模型应该能够输入任何模态的数据,也能够输出任何模态的数据。
大模型的 I/O 不应该只能是文本或图片,也应该包含视频和音频。这在业界被称为 Omni Model,算是大家公认的目标。
值得注意的是,这里 " 内生化 " 和大家平时体验到的接收语音输入的大模型有着本质区别。多模态内生化指的是大模型能够原生的理解图片、音频、视频,而非先转码成文字之后再进行理解。
截至目前,OpenAI 的所有模型尚不支持视频模态输入,而 Google Gemini 目前已经能够支持视频模态的输入和输出,毕竟 Google 旗下的 Youtube 拥有世界上最大的视频资源库,大家能够从最近推出的 Veo 3 的惊艳效果上具象化的感受到这个巨大的竞争优势。
(5)AI Coding 能力的认知分歧,以及 Base44 带来的启发
Grok 4 上线后,经历了全球网友的检阅,实测反馈分歧较大,和 xAI 官方公布的跑分结果有着一定出入。
其实这点是容易理解的,现在主流 Benchmark 测评污染太严重。只要一个测评的问题集流传到互联网上,就有可能被加入到大模型的训练集中,导致测评误差。
以前研究员可以通过控制大模型训练集的数据范围来解决测试集污染的问题,但这次 Grok 4 把实时搜索和 Agent 能力都内化到大模型中去了,数据污染的边界无法得到有效的人为控制,没有人能够保证 Benchmark 的关键语料是否漏进训练数据中。
所以 Benchmark 看看就好,实际还是得看海量用户的实测体验。
根据大家的反馈,Grok 4 在代码生成能力上目前还有所不足。Grok 4 生成的代码往往存在依赖库丢失、界面 UI 粗糙等问题。
在使用 Grok 4 编写游戏时,经常把最重要的 pygame 库都给丢失了,这也是大家诟病 Grok 4 的核心原因之一。
马斯克显然也意识到了目前模型的短板,因此放出预期,在未来几个月内将会发布 coding 模型,值得期待。
人们心目中一个强大的 coding model 往往是那种能够刷榜 LeetCode,精通各种算法的奥赛型选手。
但其实落地到商业场景,人们真正需要的 coding model 其实是一个能够整合各种 Github repo 资源,构建项目级应用的实战派选手。
这其实也是最近炙手可热的 Base44 获得成功的主要原因之一。
Base44 是一家专注于 Vibe Coding(氛围编程)的 AI 初创企业,由以色列程序员 Shlomo 于 2024 年 12 月创立,仅运营 6 个月即以 8000 万美元(约 5.7 亿元人民币)被以色列软件巨头 Wix 收购,成为该领域首笔并购案例。
相比其他 AI Coding 产品而言,Base44 更加专注于通过自然语言交互生成完整软件系统,覆盖数据库搭建、身份验证、数据分析等功能。
Base44 的目标用户主要是无编程经验的普通开发者,他们能够使用 Base44 一站式创建完整的项目,这是广大用户最朴素的需求。
随着 Grok 4 将更多实用的 Agent 能力内生化到模型中,相信未来 AI 能够真正实现这个效果,媲美全栈高级程序员。
(6)Grok 4 之后的全球算力需求展望
今年年初以来,海外大模型发展提速,你方唱罢我登场。
海外 AI 基础模型持续提速的根源,在于算力资源的持续投入。据称 xAI 每个月要消耗 10 亿美元的资金,预估 2025 年全年总支出将高达 130 亿美金,这一数字远超行业平均水平。
Grok4 是在 xAI 自建的 Colossus 超算中心上训练而成的,依托 20 万张 GPU 集群,其计算资源投入是 Grok2 的 100 倍、Grok3 的 10 倍,上下文窗口扩展到了 25.6 万 tokens,远超 Claude 3 Opus。
Grok4 将 Colossus 超算的 80% 算力投入推理训练中,这也是直接推动其在 HLE 基准测试中达到 44.4% 的核心原因。
预训练、后训练、测试时均存在 Scaling Law。过去两年以预训练为主,今年开始后训练、测试时推理需求快速增长。
多 Agent 内生化开了算力需求增长的新维度,在可见的未来将会给全球算力需求带来几何级增长。
(7)结语:Agent 内生化趋势明确,新一代 AI 训练军备竞赛已启动
随着 Grok 4 打响了 Agent 能力内生化的第一枪,各个 AI 大厂大概率会跟进,训练端仍然有较大的 Scaling 空间,新一代大模型训练的军备竞赛已然开始。
让我们一起拭目以待!