关于ZAKER 合作
经济观察报 14小时前

“最强 AI 模型” Grok 4 发布 马斯克称超越人类的推理水平

7 月 10 日,特斯拉创始人兼首席执行官马斯克旗下的人工智能公司 xAI 正式发布了 Grok 4,迎来了作为 xAI 在 2023 年推出首代大模型以来的第四次重要更新。

得益于计算能力的增强、强化学习的训练,Grok 4 的推理能力相较于前代提升了 10 倍,因此也被称为 " 最强 AI 模型 "。马斯克称,Grok 4 最强大的地方是其推理能力,它已经实现了超越人类的推理水平,不过,Grok 4 也引发了业界对其安全、伦理冲突等方面的担忧。

或自主发现科学理论

在发布会直播中,xAI 发布了两款模型,分别是 Grok 4(单智能体版本)和 Grok 4 Heavy(多智能体版本),其中后者支持 4 个智能体并行思考,在推理过程中横向比对、纵向协同,调用更大规模的计算资源以完成更复杂、更精密的任务。

" 在所有学科上,Grok 4 比博士还强——没有例外。" 马斯克在直播中表示,虽然 Grok 4 目前还没有发现新科学或新的物理定律,但这只是一个时间问题,他相信 Grok 4 可以在今年内实现科学新发现。

马斯克表示,Grok 4 每次都能在 SAT 考试(美国高考)中获得满分,无需事先查看题目,它也可以做到 GRE 任何学科接近满分,超过了全世界所有研究生的水平。Grok 4 最强大的地方是其推理能力,它已经实现了超越人类的推理水平。

直播中,xAI 的研究人员将 " 人类的最后考试 " 扩展到了 2500 个问题,涵盖了数学、自然科学、工程以及所有人文学科,问题广泛且都是博士甚至高级研究水平,极具挑战性,但 Grok 4 在这些问题上都可以得到很好的分数。

据介绍,从 Grok 2 到 Grok 4,xAI 采用的技术范式不同,在训练计算量、推理能力较前一代提升了 10 倍。今年 2 月,xAI 团队发布 Grok 3,Grok 3 的诞生被普遍认为是 AI 计算能力的全新时代。彼时,为了达到理想的训练效果,xAI 公司动用了 20 万块英伟达 GPU,构建了全球最大的超算集群。

发布会上,Grok 4 的训练是在一个拥有超过 20 万张 H100 GPU 的超级计算机集群上完成的,是 Grok 3 时期的两倍。更重要的是,xAI 改变了训练策略,将更多的算力投入到 " 推理能力 " 的专项训练上。

相比于 Grok 2,Grok 4 的训练量提升了整整 100 倍,在 GPQA、AIME25、LCB(Jan-May)、HMMT25 等多项测评中,Grok 4 都超越了 OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus 等模型。

须警惕潜在的负面影响

2024 年 6 月,xAI 宣布在美国田纳西州孟菲斯建造超级计算机以训练其人工智能大模型 Grok。该系统初期配备 20 万个英伟达 GPU,马斯克计划将 GPU 规模最终扩大到 100 万个,而 xAI 计划今年 8 月推出代码模型,9 月上线多模态智能代理,10 月发布视频生成模型。

Grok 4 的发布在全球科技界引起了巨大反响,它不仅标志着 AI 性能的新飞跃,也引发了关于追求极致智能的 AI 是人类文明里程碑还是未知风险源的讨论。

此前,Grok 3 曾因传播不当言论而受到批评,这使得 Grok 4 在发布之初就被贴上了 " 高性能之下的高风险 " 标签。尽管马斯克强调 Grok 4 的目标是 " 成为尽可能追求真相的 AI",甚至设想其与类人机器人结合以发现新物理定律,但缺乏结构性的安全机制和透明的训练方式,依然引发了国际专家的担忧。

Google 旗下人工智能公司 DeepMind 研究副总裁 Oriol Vinyals 指出,过度纠正错误可能使模型失去检测和修复新错误的能力,这警示了在追求 " 真相 " 过程中平衡开放性和安全性的复杂问题。

专家表示,AI 正以指数级的速度重塑社会结构、经济模式乃至人类的认知边界。在享受 AI 带来的效率提升和知识拓展的同时,我们必须警惕其潜在的负面影响,并构建完善的伦理框架和监管体系。只有技术创新与社会责任并驾齐驱,AI 才能真正推动人类文明的进步。

相关标签
经济观察报

经济观察报

理性·建设性

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容