APP下载

关于ZAKER

Skills 合作

钛媒体 55分钟前

阿里练操作，Momenta 开真车，英伟达搭片场：三个 " 世界模型 " 根本不是一回事

文 | AI 唱反调

阿里、 Momenta、英伟达最近都在讲 " 世界模型 "。阿里那个能让 AI 帮你操作电脑，Momenta 那个能让车预判路人下一步，英伟达那个能生成逼真的暴雨视频。如果不太关注技术细节，大概率会以为这是同一个方向的三次突破，像同一个班里的三个学霸同时考了满分。

真相很直接：这三样东西除了名字一样，几乎没有任何关系。把它们统称为 " 世界模型 "，就像把 " 世界地图 "" 世界时钟 " 和 " 世界观 " 当成同一类东西。字面上都有 " 世界 "，实际各说各话。

阿里做的是让 AI 在电脑里先试错的 " 数字沙盘 "，Momenta 做的是让自动驾驶预判路况的 " 老司机直觉 "，英伟达做的是给 AI 造训练素材的 " 虚拟片场 "。三个 " 世界 "，三条平行线，谁也不挨着谁。

同名不同命

第一个是阿里 Qwen-AgentWorld，本质上是一个给 AI 用的 " 数字沙盘 "。

它把浏览器、电脑桌面、手机界面、代码编辑器这些环境打包成一个虚拟游乐场，让 AI 在里面先试错、再行动。比如操作某个软件会不会点错按钮，先在沙盘里预演一遍，成功了再去操作真实的电脑。这基于超过 1000 万条真人操作电脑的记录训练。AI 看了上千万次真人怎么写代码、怎么搜索、怎么填表格，学会了 " 点这里之后通常会发生什么 "。

它的 " 世界 " 是电脑里的数字空间：网页、App、代码仓库。和真实的马路、真实的机器人没有直接关系。

第二个是 Momenta，那套已经量产上车的系统，它是自动驾驶的 " 预判本能 "。

自动驾驶最大的难点已经变了。现在的问题不再是 " 看清前面有什么 "，变成猜出下一秒会发生什么。前车突然减速，是要靠边停车还是临时踩了一脚？路边行人是要过马路还是等公交？Momenta 就是让 AI 提前在脑子里过一遍未来几秒的交通画面，然后选最安全的动作。这背后不只是直觉，还涉及感知、预测、规划多个模块的协同。

关键是，这东西已经量产了。Momenta 有 90 万辆车在跑，积累了 100 亿公里的真实驾驶数据。这些视频不只是 " 看着玩 "，里面包含 " 当时做了什么、车怎么反应、结果对不对 " 的完整因果链条。它的 " 世界 " 是真实的物理世界：马路、车辆、行人、雨雪天气。

第三个是 NVIDIA Cosmos 3，它是给 AI 造训练素材的 " 虚拟片场 "。

它的核心能力是生成逼真的视频画面，但这些视频不是拿来刷的，是给机器人和自动驾驶当练习题用的。比如想让 AI 学会 " 暴雨天路面反光看不清车道线 " 怎么处理，现实中不可能天天等暴雨，Cosmos 3 就生成一段暴雨开车的视频，让 AI 在虚拟画面里反复练。

它开源了权重，能处理文字、图片、视频、声音、动作指令五种信息，20 万亿 token（token 是 AI 处理信息的最小单元，文字、图像、视频、声音都会被切成这种 " 小块 " 喂进去）说明它看过、生成过巨量素材。但关键是，这些画面属于 " 合成数据 "，AI 自己造的，不是真实拍摄的。好处是成本低、场景全；坏处是 " 仿真 " 和 " 真实 " 之间永远有差距。

它的 " 世界 " 是人造出来的仿真环境，本身不直接开车，也不直接操作电脑，只给其他 AI 提供练习题。

世界模型：一个被掏空的标签

其实 " 世界模型 " 定义混乱这件事，学界自己也头疼。今年 6 月初，李飞飞团队在 MIT Technology Review 发文，标题就叫《当视频生成、机器人和 NVIDIA 都自称世界模型》。文章里提到，Sora 被叫世界模拟器，Genie 被叫世界模型，现在连做自动驾驶的、做机器人的都在用同一个词。

6 月中旬的智源大会上，智源研究院院长王仲远干脆把世界模型分成了四大类：以语言为中心的、以像素为中心的、以三维结构为中心的、以视觉表征为轴心的。看，连顶尖研究者都没法统一口径。

那三者的共性到底是什么？它们都在做 " 预测 " 或 " 模拟 "。预测点一下鼠标会发生什么，预测前车减速后下一秒的路况，预测暴雨天的路面长什么样。但预测的对象完全不同：一个在预测数字环境里的操作后果，一个在预测物理世界里的交通演变，一个在预测仿真画面里的场景参数。

这就好比 " 预测 " 这个词，可以预测股票、预测天气、预测孩子考多少分，都是预测，但干的事完全不同。世界模型现在就是这个状态：同一个词，被用来描述三种完全不同的能力。

闭环定生死

这三个 " 世界模型 " 不会合并成同一个东西，未来会沿着三条线走。

第一条是数字世界模型，解决 "AI 怎么操作软件、怎么写代码 " 的问题。由 Qwen、OpenAI、Claude 这类公司主导。特点是迭代快、数据成本低，因为电脑里的操作记录很容易获取。和我们关系最近：以后用的 AI 助手，可能先在后台沙盘推演一遍，再帮忙订机票、填表格。

第二条是物理世界模型，解决 " 自动驾驶怎么安全开车、机器人怎么搬东西 " 的问题。由 Momenta、Tesla、华为这类公司主导。特点是数据成本极高，需要真车去跑，但一旦形成闭环，壁垒极深。和我们关系：以后坐的车、看到的无人配送车，背后都是这类模型。

第三条是基础设施线，NVIDIA 的角色更像一个 " 卖铲子的 "。Cosmos 3 提供合成数据，让上面两条线的开发者都能用，但它自己不直接开车，也不直接操作电脑。它赚的是 " 造影视基地 " 的钱，不是 " 拍戏 " 的钱。

判断谁更领先，别只看参数大不大、开源不开源。真正重要的指标是闭环，AI 在真实环境里用了之后，能不能把结果反馈回来，让自己变得更聪明。

Momenta 的闭环最扎实。90 万辆车每天在路上跑，AI 预测错了，数据就会回来告诉它 " 下次别这么猜 "。这种真实世界反馈是合成数据替代不了的。

Qwen 的闭环在数字世界。1000 万条真人操作的成功和失败经验被记录下来，成了 AI 的教材。在 " 让 AI 操作软件 " 这个赛道上，这是稀缺资产。

Cosmos 3 的闭环在仿真基地内部其实很高。它生成视频、测试、反馈、再生成的循环在虚拟环境里跑得很快。但要把这些画面喂给真实世界的汽车或机器人，还要跨一道 " 从仿真到现实 " 的鸿沟。这一步目前还没完全打通。

三者的区别很明显：Momenta 是在真刀实枪开车中进化，Qwen 是在真人操作电脑中进化，NVIDIA 是在人造影视基地里进化。没有高下之分，只是战场不同。

下次看到 " 世界模型 " 四个字，先问一句：说的是电脑里的、马路上的，还是人造影视基地里的？答案不同，选择完全不同。现在喊 " 世界模型 " 的，一半是真在做，一半是借这个词给自己贴金。分得清前者后者，才不会被 PR 稿带跑偏。

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

阿里练操作，Momenta 开真车，英伟达搭片场：三个 " 世界模型 " 根本不是一回事

宙世代

一起剪

相关阅读

AI制药产业重心转向落地验证 上海以计算生物学赛事构筑创新转化高地

AI服务器推动高端电感渗透率提升 电感行业有望迎新一轮涨价周期

美银上调台积电、日月光等估值预期 先进封装仍是最具壁垒的环节

微软和苹果双双提价 霍尔木兹海峡通航量恢复至战事前57%

全球领先！华为OceanStor A800存储斩获IO500榜单第一：刷新纪录2.8倍

不做整机做“大脑”，这家公司用营收数千万验证了一条差异化路径

连续6天，每天11小时，8台机器人"进厂"的进化史

广电总局发布AI微短剧分类分层标准

IBM开创“亚1纳米”芯片时代：指甲盖大小塞进千亿晶体管

余承东：华为ADS平均安全行驶里程是中国车主的4倍 已避免447.9万次碰撞

苹果罕见上调Mac、iPad等多个产品类别价格 股价创逾一年最大跌幅

换名不换芯！PC厂商集体套娃卖旧货

旨在打破存储墙 高通发布HBC架构 带宽较HBM大幅提升

从MWC看国产算力链：CPU、光纤都喊“紧缺” 服务器订单积压排队

AMD Software Adrenalin Edition 26.6.3驱动：修复Windows 10安装问题

最新评论

钛媒体

热门推荐

AI制药产业重心转向落地验证上海以计算生物学赛事构筑创新转化高地

AI服务器推动高端电感渗透率提升电感行业有望迎新一轮涨价周期

美银上调台积电、日月光等估值预期先进封装仍是最具壁垒的环节

微软和苹果双双提价霍尔木兹海峡通航量恢复至战事前57%

余承东：华为ADS平均安全行驶里程是中国车主的4倍已避免447.9万次碰撞

苹果罕见上调Mac、iPad等多个产品类别价格股价创逾一年最大跌幅

旨在打破存储墙高通发布HBC架构带宽较HBM大幅提升