关于ZAKER 合作
全天候科技 12小时前

马斯克旗下 xAI 加入“世界模型”竞赛,“视觉模型”会是下一个“大语言模型”吗?

本文作者:龙玥

来源:硬 AI

人工智能领域的战火正在从大语言模型蔓延至一个更前沿的领域——能够理解并模拟真实物理世界的 " 世界模型 "(World Models)。而 xAI 已悄然加入这场竞赛,与谷歌和 Meta 等科技巨头同台竞技。

据英国《金融时报》10 月 12 日报道,马斯克的初创公司 xAI 在今年夏天从芯片巨头英伟达聘请了人工智能专家,专门从事世界模型的研发。与依赖文本的大语言模型不同,世界模型通过对海量的视频和机器人数据进行训练,旨在掌握真实世界的物理规律。

" 未来的视频模型将变得和语言模型一样智能 ",谷歌研究人员在论文中说道。英伟达上月也曾表示,世界模型的潜在市场规模可能接近当前全球经济的总量。

兵马先行:xAI 的游戏 " 奇袭 " 与机器人野望

为了在这场竞赛中占据一席之地,xAI 正在积极招兵买马。

公司已聘请了来自英伟达的两位 AI 研究员 Zeeshan Patel 和 Ethan He,他们在世界模型领域拥有丰富经验。英伟达凭借其用于创建和运行模拟的 Omniverse 平台,一直是该技术的领导者。

知情人士透露,xAI 为世界模型规划的第一个商业化落点是游戏领域,用于生成可交互的 3D 环境。这一动态迅速引发市场关注,因为它不仅是 xAI 商业化路径的明确信号,也凸显了世界模型作为下一代 AI 技术的巨大潜力。

马斯克本人也在社交平台 X 上确认,xAI 将在 " 明年年底前发布一款出色的 AI 生成游戏 "。长远来看,这些技术最终可能应用于机器人的人工智能系统。

xAI 的招聘信息也印证了其发展方向。公司正在为其 "omni 团队 " 招聘图像和视频生成领域的技术人员,薪资范围高达 18 万至 44 万美元,该团队致力于 " 创造超越文本的神奇 AI 体验 "。

此外,公司还在以时薪 45 至 100 美元招聘 " 视频游戏导师 ",以训练其 AI 模型 Grok 制作视频游戏。

范式转移:视觉模型的 "GPT 时刻 "

xAI 的高调入局,恰逢一个关键的行业预判浮出水面:未来的视频模型将变得和语言模型一样智能。谷歌最近的一篇论文指出,其视频模型 Veo 3 正展现出与大语言模型(LLM)相似的 " 涌现能力 "。

正如 LLM 通过 " 下一词元预测 " 的简单任务,最终学会了数学和创意写作等额外技能,视频模型通过 " 下一帧预测 ",也开始零样本(zero-shot)地解锁一系列令人惊讶的能力,例如物体分割、边缘检测和模拟工具使用等,而这些都未经专门训练。

谷歌的研究人员 Jack Clark 在论文中写道:" 我们认为,正如自然语言处理(NLP)从特定任务模型转向通用模型一样,机器视觉领域也可能通过视频模型发生同样的转变——一个‘视觉领域的 GPT-3 时刻’。"

他们将视频逐帧生成的过程类比为语言模型中的 " 思维链 "(chain-of-thought),并称之为 " 帧链 "(chain-of-frames),认为这使得视频模型能够跨越时空进行推理。

这一发现意义深远,它暗示着通过发展更智能的视频模型,人们或许能够获得能力极强的机器人 " 代理 "(agent)。

前景与现实:高昂的成本与 " 愿景 " 的缺失

尽管前景诱人,但通往世界模型的道路并非坦途。目前,该技术仍面临巨大的技术挑战,其中最主要的是为模拟真实世界寻找和处理足够训练数据的成本极其高昂。

与此同时,业界也存在对 AI 作用的冷静审视。热门游戏《博德之门 3》的开发商 Larian Studios 的发行主管 Michael Douse 本周在 X 上表示,AI 无法解决游戏行业的 " 大问题 ",即 " 领导力和愿景 "。

他补充说,行业需要的不是 " 更多由数学方式生产、经过心理学训练的游戏循环 ",而是对世界更多样化的表达。这代表了一种普遍的观点:纯粹的技术突破本身,并不能保证创造出能够真正打动人心的商业产品。

尽管挑战重重,但 xAI 的入局无疑为世界模型的竞赛再添一把火。

AI 的焦点正不可逆转地从纯粹的数字信息处理,转向对复杂物理现实的模拟与交互。视觉模型是否能复刻大语言模型的辉煌,迎来属于自己的 "GPT 时刻 ",不仅将决定下一代 AI 霸主的归属,更可能重塑我们与数字及物理世界的根本关系。

本文来自微信公众号 " 硬 AI",关注更多 AI 前沿资讯请移步这里