关于ZAKER 合作
量子位 15小时前

马斯克从英伟达挖人做 AI 游戏!第一步:研发世界模型

马斯克的 xAI 也入局世界模型了

想必听到这个消息的 Meta、Google DeepMind 一定会缓缓打出一个问号:冲我们来的?

据《金融时报》(FT)报道,为了增加这场 " 世界模型大混战 " 的赢面,今年夏天,xAI已经从英伟达挖来了多名资深研究员来助阵。

另一边,在悄然下场世界模型后,马斯克几天前又在上再次重申了去年定下的那个 " 小目标 " ——

2026 年年底前,xAI 会发布一款伟大的 AI 生成游戏。

Stability AI 创始人 EMostaque 在自己的上列出这样一组数字:

OpenAI 今年收入约 100 亿美元,视频游戏行业今年收入约 2000 亿美元。

马斯克呀马斯克,Attention is all you need(狗头)。

从英伟达那儿挖人,开搞!

世界模型是近两年全球 AI 巨头 & 实验室们的新战场,Google DeepMind、Meta、NVIDIA、李飞飞等都在做。

如今,xAI 也来了。

而它的第一步,就选择了去英伟达挖老黄墙脚——

今年夏天,xAI 至少雇佣了两位来自英伟达的研究人员:Zeeshan PatelEthan He

其中,Zeeshan Patel 今年 5 月硕士毕业于 UC 伯克利,研究主要面向深度学习、生成模型和物理人工智能。

加入 xAI 前,他先在苹果 AI/ML 部门从事基础模型研究,后又加入英伟达研究院从事生成式世界模型研究。

在英伟达工作期间,Zeeshan Patel 专注于大规模多模态模型与训练框架的研发

Ethan He,本科毕业于西安交通大学,而后前往 CMU 攻读计算机视觉的硕士学位,最后满绩毕业。

目前,他的 Google Scholar 被引数为 8495。

2019 年到 2021 年期间,Ethan He 在 FaceBook AI 从事研究工程师,工作内容主要包括大规模视频自监督学习、视频基础模型等。

2023 年,他加入英伟达,工作内容均与 MoE 模型、多模态模型和世界模型有关。

今年 7 月,他正式加入 xAI。

若说这两人有什么共同点,那就是两人此前都在英伟达参与了 Omniverse 平台的核心开发工作

这个平台是全球最成熟的仿真平台之一,被称作 " 通往物理世界的数字平行宇宙 "。

简单来说,Omniverse 是英伟达打造的物理一致性仿真系统,广泛应用于机器人训练、3D 建模、数字孪生、自动驾驶等领域。

它能在虚拟世界中精确地模拟现实物理规律,让 AI 在不触碰现实的情况下,就能学会如何与世界互动。

——而世界模型需要的就是这样的能力

Omniverse 与世界模型训练 / 评测天然契合,难怪 xAI 内部人士透露,马斯克计划在 xAI 将英伟达在图形与物理模拟领域的积累,应用到自家的世界模型体系中。

入局世界模型要干啥?

" 世界模型 " 这个概念,其实最早可以追溯到强化学习,意思是让 AI 先在脑海中模拟出一个世界,再去规划行动、预测结果。

而时至今日,它被不少业内人士视为 AGI 的核心底座。

AI 教母李飞飞对世界模型的定义则是源自于人类自然形成的世界心智模型。

指的是一种 AI 系统能够真正理解和推理物理 3D 世界的模型,而不仅仅局限于文本处理。

世界模型能让 AI 理解 3D 结构、形状和组合性,从而推动机器人技术、创意产业和计算的未来发展。

在李飞飞看来,世界模型不仅能生成和重建持久存在、可导航的 3D 环境,还能支持多种应用,实现更大规模的虚拟世界和多元宇宙的构建。

在过去一年,这个方向几乎成了 AI 巨头和实验室的兵家必争之地。

DeepMind 推出 Genie 3,能从一张图片或一段文字,直接生成可交互的 2D 游戏世界;

Meta 发布 V-JEPA-2,让模型在视频中预测未来帧、理解物理因果;

英伟达自家也在强化世界模型,用于机器人训练与数字孪生;

……

那么,马斯克携 xAI 下场,到底想干啥?

知情人士消息,xAI 入局世界模型后的的首批落点可能是电子游戏

目前,团队正在尝试让 AI 自动生成自适应、逼真的 3D 场景,可以根据玩家行为实时变化的那种。

这与马斯克自己设下的目标完美呼应——到 2026 年底,推出一款由世界模型驱动的 AI 生成游戏。

一位用户在上留言称:"AI 在游戏开发中的效率很高,能让创造力自由流动,这很有道理。"

与此同时,xAI 内部也正在为此组建一支全模态团队(Multimodal Team),专门研究图像、视频、音频的综合理解与生成。

他们近期公开的招聘信息显示,这支团队包括多个方向:

Member of Technical Staff – Multimodal(Audio),职责涵盖音频理解、生成与评测;

Member of Technical Staff – Multimodal Understanding,薪资区间 18 万– 44 万美元 / 年,侧重于多模态建模与数据系统。

除此之外,还有一个职位在业内引发热议,Video Games Tutor,即电子游戏导师。

相关招聘页面写得很直接:

时薪 45 – 100 美元,向模型讲解电子游戏机制、叙事逻辑、任务设计。

看来,马斯克似乎打算让人类专家教模型怎么玩游戏、怎么设计任务、如何构建可交互世界。

马斯克本人在多次公开发言中提到,xAI 的使命是 " 让 AI 理解宇宙的本质 "。而世界模型正是通向理解宇宙的必经之路。

有了世界模型,AI 不再只用来生成内容,而能在内部模拟出一个真实世界的副本。

这意味着它既可以驱动 AI 游戏,也可以驱动智能体、自动驾驶乃至具身智能机器人。

从这一点上来看,xAI、特斯拉、Neuralink、之间的关系也变得微妙——

xAI 研发模型,特斯拉拥有机器人和自动驾驶数据,Neuralink 提供脑机接口则是社交与实时反馈的平台。

如果这些板块能通过世界模型互通,马斯克的 AI 帝国,将真正形成闭环

参考链接:

[ 1 ] https://www.ft.com/content/ac566346-53dd-4490-8d4c-5269906c64ee

[ 2 ] https://x.com/EMostaque/status/1977352468087320714

[ 3 ] https://www.zeeshanp.me/research/

[ 4 ] https://www.linkedin.com/in/ethanhe42/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情

企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与

一键关注 点亮星标

科技前沿进展每日见

相关标签

相关阅读

最新评论

没有更多评论了