τ 0-WM：最大规模预训练的开源具身世界模型来了

具身智能火了快两年，现在，终于有团队富裕到拿真机数据去砸预训练了。

而且一砸，就是17800 小时。

这是啥概念？差不多相当于一台机器人，连续两年、一天 24 小时不停地被人类遥操作。

当所有人都以为真机数据是奢侈品，难以 scaling，只能放在最后的微调阶段时。

刚刚，上海创智学院副教授、智元机器人首席科学家罗剑岚带队，发布全球最大规模的开源预训练具身世界模型——

τ 0-World Model（τ 0-WM ) 。

整个 τ 0-WM 参数量达到5B，预训练数据规模高达约 3 万小时。其中，真机遥操作数据第一次成了绝对主力，占到了 1.78 万小时。

而 3 万小时的预训练数据，是目前全球开源预训练具身世界模型中最大的。

τ 0-WM 不仅能像其他世界模型那样预测未来画面、生成动作。

更重要的是，它还结合了测试时计算（Test-Time Computation），让机器人在执行前对多个候选动作进行排序，选出最优方案，质量不够就调用模拟器修正后再执行。

基于这套方法；τ 0-WM 在四个长程精细操作任务，包括 Toolbox（工具收纳）、School Bag（书包装物）、Badminton（羽毛球装盒）和 Faucet（水管接头对接）的平均成功率超过了对标 π 0.5 和 Fast-WAM。

可以说，罗剑岚团队此前在后训练方面的持续投入，不仅攒出了足够规模的真机数据，也攒出了把这些数据用于大规模预训练的经验。

预训练和后训练这两条线，终于对齐了。

提议、模拟、评估，然后行动

过去几年，驱动机器人实现感知与控制的主流范式，大多是一种反应式的端到端策略：

神经网络看到画面，立刻输出动作。

这种类似于人类 " 条件反射 " 的方式，在抓取、放置等标准任务里已经非常成功。

但就像人类其实并不完全依赖肌肉记忆一样，机器人在面对接触密集、长程跨度、或者存在严重遮挡的复杂操作时，单纯依靠 " 看见场景就输出动作 " 的方式，也很容易导致不可逆的错误。

很多时候，一步错，后面可能就全错了。

所以，和许多世界模型方法一样，τ 0-WM选择让机器人在行动之前，先在脑子里 " 想象 " 一下：

如果自己执行了这个动作，未来会发生什么，环境会怎么变化。

但 τ 0-WM 特别的地方在于，它不只 " 想一次 "。

为了让机器人能够三思而后行，研究引入了 Test-Time Computation（测试时计算），让机器人在真正执行前，可以多花一点时间，在内部 " 虚拟沙盘 " 里并行想象很多次，反复比较，甚至主动纠错。

也就是说，τ 0-WM 让机器人不再只是看到画面就立刻出手，而是像人一样，先在脑子里盘一遍哪种路线更靠谱，再决定真正怎么做。

某种程度上，这其实是在让机器人学会一种 " 慢思考 "。

具体来说，τ 0-WM 的在线推理，分成三步。

第一步，提议。

首先，视频动作模型（VAM）会根据当前多视角观测、语言指令以及机器人状态，一次性采样出多组候选动作，同时生成对应的模糊未来画面。

这相当于机器人先在脑子里快速闪过几种可能的做法。

第二步，推演。

其次，动作条件视频模拟器会针对每组候选动作，进一步生成对应的多视角未来画面。

之所以是多视角，是因为真实机器人操作里，正面视角经常会被机械臂或物体挡住，所以模型必须还能 " 脑补 " 侧面、顶部等其他视角下的未来状态，才能真正判断动作后果。

第三步，评估与修正。

最后，系统会先用 RCS（Re-denoising Consistency Score）给动作打分：把候选动作重新加噪，再丢回模型重新去噪，观察重建误差。

误差越小，说明这个动作越接近模型训练时学到的高质量动作分布，也越靠谱。

但如果最优动作的分数依然不够高，就会触发第二层机制 LAR（Low-quality Action Rectification）。

系统会把所有候选动作送进视频模拟器，预测对应未来状态以及任务进度，挑出 " 任务推进效果最好 " 的未来画面，再让 VAM 基于这个 " 最优未来 " 重新生成动作。

最终，模型基于这三步走，输出最好的动作。

值得一提的是，虽然很多世界模型在训练时也会预测未来，但部署时为了推理速度，往往会把未来预测模块直接去掉。

τ 0-WM 则坚持在推理阶段保留 " 显式未来想象 "，并把这些未来画面真正用于后续动作的打分、筛选与修正。

也就是说，对 τ 0-WM 而言，" 想象未来 " 不是训练技巧，而是机器人做决策的一部分。

在这三阶段 pipeline 背后，τ 0-WM 主要由两个共享视频扩散 backbone 组件驱动：

负责 " 提议动作 " 的 VAM，以及负责 " 沙盘推演 " 的动作条件视频模拟器。

前者基于 Wan2.2-5B 视频生成模型，同时输出未来视频 latent 和动作 chunk；后者则专门负责评估未来状态和任务进度。

而在训练阶段，三类不同来源的数据，也通过 modality-specific supervision masks 被统一揉进了同一个体系：

有动作标签的数据，同时训练视频与动作；没有动作标签的数据，则只训练视频分支。

3 万小时预训练数据

接下来，就到了 τ 0-WM 这次最夸张、也最 " 重资产 " 的部分：训练数据。

这近 3 万小时的预训练数据，不只刷新了开源具身世界模型的规模纪录，更重要的是，它正在打破行业对具身智能数据金字塔的固有认知。

整个 τ 0-WM 的训练数据，主要由三部分组成，而且每一类数据的角色都不一样。

第一类，是真机遥操作数据，总量 17800 小时。

这部分数据来自双臂机器人、多视角采集，而且动作空间和真实部署环境完全对齐。

某种程度上，它也是整个数据体系里 " 最贵 " 的部分。

因为真机采集不仅慢，还特别吃人力和硬件资源。但与此同时，它也是质量最高的数据。

这批数据提供了最核心的动作监督信号，可以说是 τ 0-WM 敢做大规模预训练的真正根基。

第二类，是 6500 小时的UMI 数据。

简单来说，UMI（Universal Manipulation Interface）是一种不依赖特定机器人平台的数据采集方式。

相比真机遥操作，它覆盖的物体种类和操作场景会丰富很多。但问题也很明显，它的动作空间，并不完全等同于真实机器人部署时的动作空间。

所以在 τ 0-WM 中，UMI 数据更像是在补 " 行为多样性 "。

它不一定最精准，但能让模型见过更多操作方式、更多物体、更多长尾场景。

第三类，则是 3000 小时的人类第一视角EgoCentric 数据。

这部分数据的采集成本最低，但覆盖范围却最大。

里面会包含大量长尾交互行为，以及很多机器人暂时很难专门采集到的真实场景。

不过，它有一个问题：没有机器人动作标签。

也就是说，模型只能 " 看 "，不能直接学 " 机器人该怎么动 "。因此，这部分数据只参与视频分支训练，不参与动作预测。

它更像是在帮助模型学习：物体会怎么运动，人与环境会怎么交互，场景状态会如何变化。

看到这里，其实会冒出一个很自然的问题：

既然人类视频没有动作标签，UMI 的数据格式又和真机动作空间不完全一致，那模型到底怎么把它们一起训进去？

τ 0-WM 这里用了一个很巧的设计—— Modality-specific supervision masks（模态特定监督掩码）。

简单来说，对于有动作标签的数据，就同时训练视频和动作，没有动作标签的数据，就把动作部分 mask 掉，只训练视觉分支。

这样一来，不同来源、不同模态、不同动作空间的数据，就第一次被真正揉进了同一个预训练体系里。

实验结论

在实验部分，团队最核心想验证的一件事，其实就是：

Test-Time Computation（测试时计算），到底有没有用。

在抽纸巾放进盒子和捡笔放进盒子两个任务上，这两个任务在 3 万小时预训练数据中从未出现过，属于模型完全没见过的新任务。

研究采用了比常规做法更严格的评测标准，不允许重试，单次机会，20 轮取平均。

结果表明，不加测试时计算时，裸策略平均成功率只有 43%。加入第一层 RCS 动作筛选后，提升到 50%。

再叠加 LAR 模拟器修正之后，最终来到 60%。提升最明显的是更难的 Pen → Box 任务，成功率直接从 30% 拉到了 50%。

此外，研究还专门对比了其他测试时引导方法。同样条件下，Classifier-Free Guidance（CFG）成功率只有 20%，Action Coherence Guidance（ACG）为 38%，τ 0-WM 则达到 60%。

这里最关键的区别就来自之前提到的，CFG 和 ACG，本质上还是在检查 " 动作本身是否连贯 "。

而 τ 0-WM 评估的，则是：

" 这个动作做完之后，未来世界会变成什么样，任务有没有真的往前推进。"

也就是说，前者关注的是动作空间内部的一致性。

而后者，开始真正把 " 未来后果 " 纳入了决策。

（其余实验细节可参考论文）

数据金字塔，要变样了

如果放到整个具身智能行业的数据路线里看，τ 0-WM 这次真正特别的地方，其实会更明显。

过去，具身行业的数据体系一直像一个很典型的金字塔。

最底层，是互联网视频数据。

规模最大、最便宜，但没有机器人动作标签，只能让模型学一些通用视觉和世界变化规律。

再往上一层，是仿真数据。

机器人终于开始 " 动起来 " 了，但问题在于，仿真和真实物理世界之间，始终隔着一道巨大的 sim2real gap。

而金字塔最顶层，则是真机遥操作数据。质量最高，动作空间和真实部署完全一致，但行业过去的普遍认知一直是：

太贵、太少、根本不可能 scale。

所以大多数团队，都会把真机数据留到最后微调阶段再用。

但今年，一个新的变化开始出现了，Ego-Centric 第一视角数据突然崛起。

大家开始意识到，人类第一视角视频虽然没有机器人动作标签，但它天然包含了大量真实世界里的交互过程、物体变化和长尾操作。

于是整个行业，开始集体 all in Ego 数据。

某种程度上，Ego-Centric 正在变成数据金字塔里的 " 新中层 "，比互联网视频更接近真实交互，又比真机数据便宜得多。

但问题是，绝大多数团队做到这里，其实就停下来了，因为大家仍然默认真机数据依然贵到不可能成为预训练主体。

但 τ 0-WM 第一次把这个逻辑反过来了。

他们一边引入 Ego-Centric 数据，一边直接用 17800 小时真机遥操作数据给预训练打底。

这件事也不是突然发生的。

回看罗剑岚团队过去一年多的工作，会发现一条非常清晰的主线，他们搭的不是单点模型，而是一整套真实世界数据飞轮。

2026 年 1 月，SOP 搭起了规模化的真机数据采集和回流基础设施。

2026 年 4 月，LWD 把大规模强化学习引入具身 VLA 的后训练，构建了部署即训练的数据飞轮，机器人跑得越多，回流数据越多，模型越强，又能跑更多任务。失败轨迹也第一次被系统性纳入学习。

而当真机交互数据积累跨过某个临界点之后，一件以前没人敢想的事，就自然发生了：

真机数据终于开始从 " 后训练耗材 "，变成 " 预训练燃料 "。

直到这里，具身智能里的 " 预训练—真机部署—数据回流—再预训练 " 这条链路，才第一次真正开始跑通。

项目网站：https://finch.agibot.com/research/tau0-wm

项目 github：https://github.com/sii-research/tau-0-wm

模型 huggingface：https://huggingface.co/sii-research/tau-0-wm

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

τ 0-WM：最大规模预训练的开源具身世界模型来了

宙世代

一起剪

相关阅读

浙大网新：ZH12数据中心第3个模块签署服务合同 预计总收入4.48亿元

宝鼎科技：公司未与英伟达有过接触或业务合作，目前未有高速覆铜板M7和M9产品销售

加投200亿！英特尔携资深玩家加码玻璃基板

香港消委会实测24款杀毒软件：免费不输付费 微软Defender表现垫底

虚假对比荣耀Magic V6与友商折痕！一博主被行拘 手写道歉信

黄仁勋说中了！华为轮值董事长感谢美国制裁：让中国半导体真正地成长起来

再投200亿！英特尔携资深玩家加码玻璃基板 机构：行业有望进入商业化元年

京东618开门红4小时战报出炉：iPhone 1分钟破亿、华为手机10分钟增超5倍

四部门：提升全民人工智能素养 宇树科技科创板IPO明日上会

环球下周看点：英伟达芯片帝国扩张 博通、慧与科技发布财报

为老父亲做的桌面 Agent，不小心在 GitHub 霸榜一周

狂揽全国60%手机膜！你手机贴的膜，可能来自这里

特斯拉FSD（监督版）获爱沙尼亚批准，将在当地推送

特斯拉Cybercab自动驾驶出租车即将在奥斯汀启动商业化运营

最新评论

量子位

热门推荐

企业资讯

浙大网新：ZH12数据中心第3个模块签署服务合同预计总收入4.48亿元

香港消委会实测24款杀毒软件：免费不输付费微软Defender表现垫底

虚假对比荣耀Magic V6与友商折痕！一博主被行拘手写道歉信

再投200亿！英特尔携资深玩家加码玻璃基板机构：行业有望进入商业化元年

四部门：提升全民人工智能素养宇树科技科创板IPO明日上会

环球下周看点：英伟达芯片帝国扩张博通、慧与科技发布财报