机器人能通过普通视频来学会实际物理操作了!
来看效果,对于所有没见过的物品,它能精准识别并按照指令完成动作。
比如清理桌面垃圾,或者是从零食筐里找到人类想要的糖果。
△Vidar 真实场景演示视频
这就是清华大学与生数科技最新联合研发的Vidar 模型,首次让通用视频大模型长出了 " 手脚 ",通过少样本泛化能力,实现从虚拟的 Dream World 到真实世界 Real World 物理执行的关键跨越。
它在互联网级视频数据预训练的基座模型 Vidu 上,使用百万异质机器人视频数据进行再训练。
仅用 20 分钟机器人真机数据,即可快速泛化到新的机器人本体,所需数据量约为行业领先的 RDT 的八十分之一,π 0.5 的一千两百分之一,大幅降低了在机器人上大规模泛化的数据门槛。
众所周知, 当前主流视觉 - 语言 - 动作(VLA)模型需要海量的多模态数据进行预训练。这种方法高度依赖大量优质数据,并且这些数据往往只适配特定的机器人本体及其采集的特定任务集。此外,数据收集过程费时费力、成本高昂。这带来了动作数据稀缺和机器人本体不统一两大难题。
清华大学和生数科技研发团队解构了具身任务的执行范式,将其划分为上游视频预测和下游动作执行的方法。
上游预测部分,通过 Vidu 强大的基座能力和具身视频预训练,新的视频基座模型获得了少样本泛化到新的机器人本体的能力;下游执行部分,逆动力学模型(IDM)可以将视频翻译为对应的机械臂动作,从而实现了视觉 - 语言模态和动作模态的完全解耦。下面将逐一分析这两部分对应的技术细节。
Vidar 整体架构如下:视频扩散模型预测完成指定任务的视频,经过逆动力学模型解码为机械臂动作。
1、统一观测空间:通过多视角视频拼接,将不同机器人操作时的多视角画面,巧妙地融合成统一分辨率的 " 全景图 ",同时将本体信息、摄像头信息与任务标注一并打包整合,为海量互联网数据提供了共同对话的基础,实现了真正的多维度融合。
2、百万具身数据预训练:以经过互联网规模预训练的 Vidu2.0 模型为基础,进一步引入 75 万条涵盖各类双臂机器人操作的数据,持续深度训练,成功炼就了具身视频基座模型。该模型不仅将动作、环境和任务多重先验融会贯通,更练就了一身强大的通用本领与泛化能力。
3、20 分钟目标机器人微调:为使 Vidar 能够适配从未见过的机器人类型,研究团队专门收集了目标机器人 20 分钟的操作数据集,对模型进行专属微调。通过这一创新训练流程,Vidar 就能在目标机器人平台上大显身手,精准理解任何任务指令,并生成出分毫不差的任务执行预测视频。
在视频生成基准 VBench 上的测试表明,经过具身数据预训练,Vidu 模型在主体一致性、背景一致性和图像质量这三个维度上都有了显著的提升,为少样本泛化提供了有力支撑。此外,团队引入测试时扩展(Test-Time Scaling),使得模型能够 " 见机行事 ",选择更贴近现实的 " 机器人之梦 ",进一步提升了模型在实际应用中的视频预测表现和可靠性。
业界目前流行的 VLA 范式面临机器人动作数据匮乏的严重挑战,为了突破现有具身智能数据被任务 " 过度捆绑 "、难以做大的瓶颈,团队提出了任务无关动作(Task-Agnostic Action)的概念,这个概念不仅是从具身基座模型中解耦动作的关键一步,更一举带来三大好处:
( 1)数据好采集,规模化愿景成真(2)跨任务、甚至零样本任务都能轻松泛化;(3)告别人类监督、标注和遥操作,省心省力。
基于这个 " 任务无关数据 " 的概念,团队提出了:
自动化规模化收集任务无关动作数据的方法 ATARA ( Automated Task-Agnostic Random Actions ) :对于一个从未见过的机器人,利用全自动化任务无关动作数据的方法收集训练数据,仅需 10 小时无干预自动化采集该机器人的动作数据,即可实现该机器人的全动作空间泛化,彻底告别跨本体问题。
如视频所见,不需要人类监督和遥操作,机器人可以无干预自动采集数据,而且所采集的任务无关数据可以用于任何任务的执行,ATARA 有效解决了传统纯随机采样方法的三个大问题:可达状态覆盖效率低下、动作冗余(比如机械臂挥舞 " 出画 ")以及频繁的自碰撞。
超高精度预测逆动力学模型 AnyPos 进行动作执行:AnyPos 提出 Arm-Decoupled Estimation 和 Direction-Aware Decoder,让模型在自动化采集的数据上训练出高精度的动作预测模型。
真机操作实验:成功打通 " 虚拟 - 物理 " 世界
以下是一些执行任务的示例,左边是视频模型的预测,右边是实际执行的结果。从中可以看出,Vidar 具有较好的指令遵循能力,预测的视频能准确契合任务意图(如从一些红色物体中找到苹果并抓取),同时也能精确完成双臂协作抓取等困难任务。
技术溯源:从视频理解到具身执行的创新路径
Vidar ( Video Diffusion for Action Reasoning)是基于在视频大模型领域的系列原创性工作在具身领域的再次创新。Vidar ( Video Diffusion for Action Reasoning),在命名上保留技术同源的 " 生数科技旗下视频大模型 Vidu" 的前缀,延续雷达(Radar)灵敏的感知隐喻,突出其打通虚实结合的多重能力。
" 基于我们的技术理念和统一的基座大模型架构,Vidu 与 Vidar 均致力于解决复杂时空信息的理解与生成。此次推出的 Vidar,是全球首个采用多模态生成模型架构解决物理世界问题,并达到该领域 SOTA 水平的机器人大模型。这不仅彰显了 Vidu 的强大基模能力及其架构的卓越扩展性,也将通过强化对物理世界的认知,反哺 Vidu 在数字世界视频创作中对物理规律的理解与生成能力。二者相互促进,共同推动实现我们的终极愿景:提升所有劳动者(人类、Agent 与机器人)的生产力。"
生数科技创始人兼首席科学家朱军教授表示:" 我们致力于通过多模态大模型技术推动数字世界与物理世界的深度融合与协同进化。一方面,我们正在打造新一代数字内容创作引擎,让 AI 成为人类创意的延伸;另一方面,我们通过训练具身视频基座模型,实现虚拟与现实的深度交互。"
关于 Vidar 和 Anypos,更多的演示视频如下:
团队介绍
该项目有两位 Co-Lead。
一位是清华大学计算机系 TSAIL 实验室的 2023 级博士生冯耀(Yao Feng),主要研究方向包括具身智能、多模态大模型和强化学习。作为 Vidar 的第一作者和 Anypos 的共同第一作者,在 ICML、OOPSLA、IJCAI 等顶级会议上发表过多篇论文,曾获中国国家奖学金、全国大学生数学竞赛全国决赛(数学类高年级组)一等奖、叶企孙奖、北京地区高等学校优秀毕业生等荣誉。
论文链接:
https://arxiv.org/abs/2507.12898
https://arxiv.org/abs/2507.12768
项目链接:https://embodiedfoundation.github.io/vidar_anypos
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见