具身智能火了快两年,现在,终于有团队富裕到拿真机数据去砸预训练了。
而且一砸,就是17800 小时。
这是啥概念?差不多相当于一台机器人,连续两年、一天 24 小时不停地被人类遥操作。
当所有人都以为真机数据是奢侈品,难以 scaling,只能放在最后的微调阶段时。
刚刚,上海创智学院副教授、智元机器人首席科学家罗剑岚带队,发布全球最大规模的开源预训练具身世界模型——
τ 0-World Model(τ 0-WM ) 。

而 3 万小时的预训练数据,是目前全球开源预训练具身世界模型中最大的。
τ 0-WM 不仅能像其他世界模型那样预测未来画面、生成动作。
更重要的是,它还结合了测试时计算(Test-Time Computation),让机器人在执行前对多个候选动作进行排序,选出最优方案,质量不够就调用模拟器修正后再执行。
基于这套方法;τ 0-WM 在四个长程精细操作任务,包括 Toolbox(工具收纳)、School Bag(书包装物)、Badminton(羽毛球装盒)和 Faucet(水管接头对接)的平均成功率超过了对标 π 0.5 和 Fast-WAM。

预训练和后训练这两条线,终于对齐了。
提议、模拟、评估,然后行动
过去几年,驱动机器人实现感知与控制的主流范式,大多是一种反应式的端到端策略:
神经网络看到画面,立刻输出动作。
这种类似于人类 " 条件反射 " 的方式,在抓取、放置等标准任务里已经非常成功。
但就像人类其实并不完全依赖肌肉记忆一样,机器人在面对接触密集、长程跨度、或者存在严重遮挡的复杂操作时,单纯依靠 " 看见场景就输出动作 " 的方式,也很容易导致不可逆的错误。
很多时候,一步错,后面可能就全错了。
所以,和许多世界模型方法一样,τ 0-WM选择让机器人在行动之前,先在脑子里 " 想象 " 一下:
如果自己执行了这个动作,未来会发生什么,环境会怎么变化。
但 τ 0-WM 特别的地方在于,它不只 " 想一次 "。
为了让机器人能够三思而后行,研究引入了 Test-Time Computation(测试时计算),让机器人在真正执行前,可以多花一点时间,在内部 " 虚拟沙盘 " 里并行想象很多次,反复比较,甚至主动纠错。
也就是说,τ 0-WM 让机器人不再只是看到画面就立刻出手,而是像人一样,先在脑子里盘一遍哪种路线更靠谱,再决定真正怎么做。
某种程度上,这其实是在让机器人学会一种 " 慢思考 "。

第一步,提议。
首先,视频动作模型(VAM)会根据当前多视角观测、语言指令以及机器人状态,一次性采样出多组候选动作,同时生成对应的模糊未来画面。
这相当于机器人先在脑子里快速闪过几种可能的做法。
第二步,推演。
其次,动作条件视频模拟器会针对每组候选动作,进一步生成对应的多视角未来画面。
之所以是多视角,是因为真实机器人操作里,正面视角经常会被机械臂或物体挡住,所以模型必须还能 " 脑补 " 侧面、顶部等其他视角下的未来状态,才能真正判断动作后果。
第三步,评估与修正。
最后,系统会先用 RCS(Re-denoising Consistency Score)给动作打分:把候选动作重新加噪,再丢回模型重新去噪,观察重建误差。
误差越小,说明这个动作越接近模型训练时学到的高质量动作分布,也越靠谱。
但如果最优动作的分数依然不够高,就会触发第二层机制 LAR(Low-quality Action Rectification)。
系统会把所有候选动作送进视频模拟器,预测对应未来状态以及任务进度,挑出 " 任务推进效果最好 " 的未来画面,再让 VAM 基于这个 " 最优未来 " 重新生成动作。
最终,模型基于这三步走,输出最好的动作。
值得一提的是,虽然很多世界模型在训练时也会预测未来,但部署时为了推理速度,往往会把未来预测模块直接去掉。
τ 0-WM 则坚持在推理阶段保留 " 显式未来想象 ",并把这些未来画面真正用于后续动作的打分、筛选与修正。
也就是说,对 τ 0-WM 而言," 想象未来 " 不是训练技巧,而是机器人做决策的一部分。
在这三阶段 pipeline 背后,τ 0-WM 主要由两个共享视频扩散 backbone 组件驱动:

前者基于 Wan2.2-5B 视频生成模型,同时输出未来视频 latent 和动作 chunk;后者则专门负责评估未来状态和任务进度。
而在训练阶段,三类不同来源的数据,也通过 modality-specific supervision masks 被统一揉进了同一个体系:
有动作标签的数据,同时训练视频与动作;没有动作标签的数据,则只训练视频分支。
3 万小时预训练数据
接下来,就到了 τ 0-WM 这次最夸张、也最 " 重资产 " 的部分:训练数据。
这近 3 万小时的预训练数据,不只刷新了开源具身世界模型的规模纪录,更重要的是,它正在打破行业对具身智能数据金字塔的固有认知。
整个 τ 0-WM 的训练数据,主要由三部分组成,而且每一类数据的角色都不一样。

这部分数据来自双臂机器人、多视角采集,而且动作空间和真实部署环境完全对齐。
某种程度上,它也是整个数据体系里 " 最贵 " 的部分。
因为真机采集不仅慢,还特别吃人力和硬件资源。但与此同时,它也是质量最高的数据。
这批数据提供了最核心的动作监督信号,可以说是 τ 0-WM 敢做大规模预训练的真正根基。
第二类,是 6500 小时的UMI 数据。
简单来说,UMI(Universal Manipulation Interface)是一种不依赖特定机器人平台的数据采集方式。
相比真机遥操作,它覆盖的物体种类和操作场景会丰富很多。但问题也很明显,它的动作空间,并不完全等同于真实机器人部署时的动作空间。
所以在 τ 0-WM 中,UMI 数据更像是在补 " 行为多样性 "。
它不一定最精准,但能让模型见过更多操作方式、更多物体、更多长尾场景。
第三类,则是 3000 小时的人类第一视角EgoCentric 数据。
这部分数据的采集成本最低,但覆盖范围却最大。
里面会包含大量长尾交互行为,以及很多机器人暂时很难专门采集到的真实场景。
不过,它有一个问题:没有机器人动作标签。
也就是说,模型只能 " 看 ",不能直接学 " 机器人该怎么动 "。因此,这部分数据只参与视频分支训练,不参与动作预测。
它更像是在帮助模型学习:物体会怎么运动,人与环境会怎么交互,场景状态会如何变化。
看到这里,其实会冒出一个很自然的问题:
既然人类视频没有动作标签,UMI 的数据格式又和真机动作空间不完全一致,那模型到底怎么把它们一起训进去?
τ 0-WM 这里用了一个很巧的设计—— Modality-specific supervision masks(模态特定监督掩码)。
简单来说,对于有动作标签的数据,就同时训练视频和动作,没有动作标签的数据,就把动作部分 mask 掉,只训练视觉分支。
这样一来,不同来源、不同模态、不同动作空间的数据,就第一次被真正揉进了同一个预训练体系里。
实验结论
在实验部分,团队最核心想验证的一件事,其实就是:
Test-Time Computation(测试时计算),到底有没有用。
在抽纸巾放进盒子和捡笔放进盒子两个任务上,这两个任务在 3 万小时预训练数据中从未出现过,属于模型完全没见过的新任务。
研究采用了比常规做法更严格的评测标准,不允许重试,单次机会,20 轮取平均。

再叠加 LAR 模拟器修正之后,最终来到 60%。提升最明显的是更难的 Pen → Box 任务,成功率直接从 30% 拉到了 50%。
此外,研究还专门对比了其他测试时引导方法。同样条件下,Classifier-Free Guidance(CFG)成功率只有 20%,Action Coherence Guidance(ACG)为 38%,τ 0-WM 则达到 60%。
这里最关键的区别就来自之前提到的,CFG 和 ACG,本质上还是在检查 " 动作本身是否连贯 "。
而 τ 0-WM 评估的,则是:
" 这个动作做完之后,未来世界会变成什么样,任务有没有真的往前推进。"
也就是说,前者关注的是动作空间内部的一致性。
而后者,开始真正把 " 未来后果 " 纳入了决策。
(其余实验细节可参考论文)
数据金字塔,要变样了
如果放到整个具身智能行业的数据路线里看,τ 0-WM 这次真正特别的地方,其实会更明显。
过去,具身行业的数据体系一直像一个很典型的金字塔。

规模最大、最便宜,但没有机器人动作标签,只能让模型学一些通用视觉和世界变化规律。
再往上一层,是仿真数据。
机器人终于开始 " 动起来 " 了,但问题在于,仿真和真实物理世界之间,始终隔着一道巨大的 sim2real gap。
而金字塔最顶层,则是真机遥操作数据。质量最高,动作空间和真实部署完全一致,但行业过去的普遍认知一直是:
太贵、太少、根本不可能 scale。
所以大多数团队,都会把真机数据留到最后微调阶段再用。
但今年,一个新的变化开始出现了,Ego-Centric 第一视角数据突然崛起。
大家开始意识到,人类第一视角视频虽然没有机器人动作标签,但它天然包含了大量真实世界里的交互过程、物体变化和长尾操作。
于是整个行业,开始集体 all in Ego 数据。
某种程度上,Ego-Centric 正在变成数据金字塔里的 " 新中层 ",比互联网视频更接近真实交互,又比真机数据便宜得多。
但问题是,绝大多数团队做到这里,其实就停下来了,因为大家仍然默认真机数据依然贵到不可能成为预训练主体。
但 τ 0-WM 第一次把这个逻辑反过来了。
他们一边引入 Ego-Centric 数据,一边直接用 17800 小时真机遥操作数据给预训练打底。
这件事也不是突然发生的。
回看罗剑岚团队过去一年多的工作,会发现一条非常清晰的主线,他们搭的不是单点模型,而是一整套真实世界数据飞轮。
2026 年 1 月,SOP 搭起了规模化的真机数据采集和回流基础设施。


真机数据终于开始从 " 后训练耗材 ",变成 " 预训练燃料 "。
直到这里,具身智能里的 " 预训练—真机部署—数据回流—再预训练 " 这条链路,才第一次真正开始跑通。
项目网站:https://finch.agibot.com/research/tau0-wm
项目 github:https://github.com/sii-research/tau-0-wm
模型 huggingface:https://huggingface.co/sii-research/tau-0-wm
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见