马斯克憋了快半年,终于把 Grok 4 端上了台面。
这一次,他的口气依旧不小。早在发布会前就放出狠话,声称 Grok 4 要「重写人类知识库」。等到了发布会上,马斯克再次强调 Grok 4 是目前世界上最聪明的 AI。
当然,马斯克夸自家产品这事儿,大家早就见怪不怪,但正如网友所调侃的那样,你可以嘲笑 xAI 员工在办公室帐篷里睡觉或者周末工作到凌晨 4:20,但也得承认,他们的确是当下发展速度最快的 AI 实验室之一。
至于 Grok 4 能不能配得上「最聪明 AI」的称号,还得看后续的实际体验。不过,有一点是跑不了的——它已经成了市面上最贵的 AI,年订阅价格最高可达到 3000 美元,定价策略可谓是相当不讲武德。
世界上最聪明的 AI?世界上最贵的 AI!
Grok 的训练路径分为两个核心阶段:预训练与强化学习。从 Grok 2 到 Grok 3,主要依赖预训练方式;而从 Grok 3 升级到 Grok 4,则大幅引入了以推理能力为核心的强化学习训练。
马斯克说得轻描淡写,但训练的动静却不小。
相比 Grok 2,Grok 4 的训练计算量提升了整整两个数量级,相当于增长了 100 倍——而且还在持续扩张。
他甚至语言,今年底 Grok 可能就能发明新技术,明年几乎可以确定将具备发现新物理规律的能力。
当然,让 AI 接入现实世界,才是真正的关键。
他表示,Grok 与人形机器人 Optimus 的结合,将形成一个闭环推理系统——提出假设、验证假设、探索现实。这将开启一个智能大爆炸的时代,是人类历史上最令人激动的节点。
前者比较好理解,而后者则支持多个智能体并行思考,在推理过程中横向比对、纵向协同,调用更大规模的计算资源以完成更复杂、更精密的任务。
在现场演示中,Grok 4 Heavy 展示了多个场景能力。
比方说,让 Grok 4 Heavy 去预测今年 MLB 世界大赛(World Series)的冠军概率,它通过信息检索、数据建模、概率计算,评估洛杉矶道奇队的夺冠概率为 21.6%,并在 4.5 分钟内完整输出预测过程。
除了推理和搜索,Grok 还能生成内容时间轴。
比如,根据 X 平台上的公开发帖,它能梳理出多个 AI 模型的基准测试成绩、厂商更新节奏以及社区反应。用户可以一目了然地看到 OpenAI 的分数表现、Gemini 的更新迭代,甚至是模型之间的微妙竞争态势。
目前,Grok 最大的短板依然集中在多模态理解能力,尤其是在图像理解和生成方面,能力仍有待加强。好消息是,下一阶段的基础模型训练已经在路上,预计几周内完成。
演示过程中,在测试「两个黑洞相撞过程」的可视化任务时,Grok 采用了简化的计算方式——使用后牛顿近似(Post-Newtonian approximation)替代完整的广义相对论框架。
就纸面参数而言,Grok 4 也交出了亮眼答卷。
Humanity ’ s Last Exam(人类最后的考试,简称:HLE,)覆盖了数学、物理、计算机、医学、人文社科等超过 100 个学科,共 2500 道闭卷题,测试难度极高,能够真实反映模型在通用知识和复杂推理上的综合表现。
而在使用工具的情况下,Grok 4 Heavy 的得分达到 44.4%,远高于使用工具后 Gemini 2.5 Pro 的 26.9%。从整体趋势来看,Grok 4 在扩展训练资源的同时,通过引入工具使用和链式思维,不仅提升了复杂任务的处理能力,也逐步缩小了模型智能与通用认知之间的差距。
另外,知名分析机构 Artificial Analysis 通过对多款主流大模型在 7 个推理相关基准(MMLU-Pro、GPQA Diamond、Humanity ’ s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500)上的综合表现进行评估。
数据显示,Grok 4 位列第一,得分为 73,是目前推理能力综合得分最高的模型。紧随其后的则是 o3-pro(估算值)71 分。
马斯克也强调:
「未来 Grok 将几乎在所有考试中答对每一个问题。而当它答不出某个问题时,它会指出题目的错误之处,或者指出问题含糊不清的地方,并给出不同情境下可能的答案。到那时,传统考试将失去意义。AI 唯一的检验标准将是现实世界:它是否能发明有用的技术,是否能推动科学的突破。所以 HLE 这类测试题库必须尽快更新,因为以当前的 AI 进展速度,它们很快就会过时。」
截至发稿前,Grok 4 和 Grok 4 Heavy 目前均已陆续上线。
除了更强的推理能力,更聪明,Grok 4 这次也在「更像人」这件事上,迈出了一大步。
跟我们熟悉的语音助手不同,xAI 全新语音助手「Eve」不只是能答话,它能表达情绪、有语调变化,甚至还能现场「唱歌」。
现场还安排了一段和 ChatGPT Voice 的对比演示,两者轮流复述数字。ChatGPT 时不时「抢答」,有点像没听清就硬接话的同学。而 Grok 的表现更流畅、更贴近人类说话习惯,而且不会打断用户说话。
发布会上提到,自语音模型上线以来,Grok Voice 的端到端延迟缩短了两倍,活跃用户也增长了 10 倍。Grok Voice 正在迅速发展。
马斯克:让 Grok 去开一百万个自动售货机赚钱
几个 Grok 4 API 的应用场景让我印象非常深刻。
比如,在一项自动售货机商业模拟 Vending-Bench 中,Grok 被要求自主完成:供应商协商、库存管理、定价策略,连续完成并长期保持盈利。
测试结果显示,Grok 4 不仅登顶排行榜,而且它所获得的净资产是其他模型的两倍。连马斯克都开始调侃说:「以后买显卡的钱,可以让 Grok 去部署运营一百万个自动售卖机赚回来」。
Grok 4 不是终点。发布会最后预告了接下来的路线图,每一项都非常值得期待。
多模态能力:Grok 4 在图像理解上表现依旧是有限,团队也说正在以更大规模训练下一个版本,预计会在图像、视频和音频理解上迎来质变,到时 Grok 将能「像人类一样看世界」。
视频生成:xAI 说将使用大规模的算力资源,进行视频生成模型的训练。他们的最终目标是做到图生视频,生成可交互的「无尽视频流」,让用户能边看边参与剧情走向。
可能有不少朋友已经发现,这次发布会还有两个熟悉的华人面孔。他们正是 xAI 的联合创始人——吉米 · 巴(Jimmy Ba)和吴宇怀(Yuhuai Wu)。
其中,吴宇怀(Yuhuai Wu)本科以满绩点毕业于加拿大纽布伦斯威克大学,并在 2021 年获得多伦多大学机器学习博士学位,期间曾师从「深度学习之父」杰弗里 · 辛顿。
博士阶段,他还曾在 Google DeepMind 和 OpenAI 实习,毕业后在 Google 任职,并在斯坦福大学从事博士后研究。
吴宇怀的研究重点是打造具备强推理能力的人工智能系统,先后主导或参与了自训练推理模型 STAR、语言模型 Minerva 以及定理证明器 Alpha Geometry 等项目,并在《Nature》等顶刊上发表论文,推动 AI 在数学推理领域实现突破。
坐在他身旁的吉米 · 巴(Jimmy Ba)则是多伦多大学计算机科学系的助理教授,也是吴宇怀博士时期的导师之一。
他同样出身于辛顿门下,是深度学习训练优化领域的关键人物。
最为人熟知的,是他与合作者共同提出了 Adam Optimizer(自适应矩估计优化器)——如今几乎成为深度神经网络训练的默认算法。可以说,他的博士论文为现代 AI 训练机制奠定了坚实理论基础。
不得不说,Gork 4 的到来适逢其时。
前代 Grok 3 的热度来得猛,退得也快。
根据知名市场分析机构 SimilarWeb 发布的截至 5 月 9 日的《2025 年全球生成式 AI 行业趋势报告》,Grok 从三月流量暴涨超 100 万倍,到五月增幅跌回 5200%。
相比前代仓促上线、草草交卷的节奏,这次的 Grok 4 明显放慢了脚步,在产品打磨上也更下功夫。归根结底,马斯克的光环可以帮 Grok 带来第一波流量,但能不能留下用户,还得靠模型本身的硬实力。
只不过,我没记错的话,马斯克当初在 Grok 3 发布时,还信誓旦旦说要把 Grok 2 开源。眼看五个月过去了,这事儿却毫无动静,这次发布会上也没再提半句。
老马啊,可不能宽于律己,严以待人呀。
作者:张子豪、莫崇宇