刚刚过去的 GTC Taipei 上,最备受关注的,莫过于Cosmos 3。


这篇工作已被 ICML 2026 接收,名字叫《Rethinking Video Generation Model for the Embodied World》,来自北京大学、字节跳动 Seed 等机构的研究团队。
他们提出了面向具身世界的视频生成评测与数据基础设施:R-Bench+RoVid-X。

R-Bench:专门给机器人视频生成请的 " 考官 "
Cosmos 3 是英伟达这次 GTC Taipei 的主角之一。
按老黄的说法,它是全球首个完全开源的物理 AI 全模态模型,基于一种 mixture-of-transformers 架构,能在一个模型里同时理解和生成文本、图像、视频、环境声音,乃至机器人的动作。
Nano 和 Super 两个尺寸,都已经挂上了 Hugging Face。

但问题它就来了。
一个模型生成的机器人视频,到底是不是 " 物理上说得通 ",该用什么来衡量?
过去一年,视频生成的故事几乎都绕着同一个问题展开:谁能拍得更清晰、更稳定、更有电影感。
但在机器人场景里,画质好看是一回事,能不能用又是另一回事。
如果一个模型能生成逼真的机械臂,却让夹爪穿过物体;能让机器人看起来 " 动起来 ",却无法完成抓取、放置、转身、协作等任务,那么它距离 Physical AI 需要的 " 世界模型 ",仍然隔着一条鸿沟。
R-Bench的核心出发点,就是把视频生成模型从 " 视觉生成器 " 放到 " 物理世界模拟器 " 的语境下重新评估。
它不只看画面是否逼真,而是系统性衡量模型是否能生成符合具身任务逻辑和物理约束的视频。

在任务维度上,R-Bench 覆盖操作执行、空间关系、多主体协作、长时规划和视觉推理;在机器人形态维度上,覆盖单臂、双臂、四足和人形机器人。

机器人有没有真正接触到目标物体?
任务关键步骤是否完整出现?
多个物体或多个主体之间的关系是否合理?
机器人形态在运动过程中是否保持稳定?
长时序动作是否符合任务逻辑?
因此,R-Bench 不只是一个排行榜,更可以作为机器人视频生成数据的" 物理质量过滤器 ":
它能够评估生成视频是否满足接触关系、动作顺序、形态稳定性和任务完成度等物理约束,从而帮助筛选出更符合物理规律、可用于具身智能训练的数据。
为了捕捉这些问题,R-Bench 设计了一套可复现的自动化评测指标体系,能够识别机器人形态畸变、物体属性漂移、部件漂浮或穿模、无接触抓取、凭空出现物体、关键动作缺失等常见失败模式。
值得注意的是,R-Bench 的自动打分,和人工评测的 Spearman 相关系数达到0.96。

榜单上还能看到什么?
在最新 R-Bench Leaderboard 中,Cosmos 3 系列已经成为开源社区最亮眼的模型之一。
Cosmos3-Nano 以0.584的综合得分位列 RBench 开源模型第一,Cosmos3-Super 紧随其后,拿到0.581。

一是以物理 AI 为目标训练的视频世界模型,已经开始在机器人图像到视频生成上展现竞争。
相比传统通用视频模型,它的优势不只在画质,更在于更接近具身智能需要的物理模拟与动作延展能力。
二是闭源商业模型综合能力仍然领先,但开源正在快速追赶。
对研究社区来说,这种 " 开源能打 " 的信号,比单个模型更强更重要。

精细操作还是老大难。移动、转身这类大幅动作模型已经做得不错,但抓、捏、拧、插、放置这些对接触建模要求高的动作,最容易出错。
长时规划仍是弱项。视频看起来连贯,不代表任务逻辑正确,模型可能动作流畅却漏掉关键步骤,或者把顺序搞反。
通用知识和机器人数据没 " 合上 "。纯通用视频有丰富的世界知识但缺机器人交互,纯机器人数据又往往规模有限、形态单一。
从这个角度看,R-Bench 更像一面镜子,把视频模型在物理世界里的真实软肋照了出来。
RoVid-X:400 万条机器人视频,开源了
发现了问题,下一步就是喂数据。这正是RoVid-X要解决的事。
团队已经在 Hugging Face 上开源了 RoVid-X 的重要子集(300 万条机器人视频),上线后热度攀升很快——它在 Datasets Trending 的 Video 模态大规模数据集中排名第一,在全部 6.5 万多个 Video 模态数据集的整体 Trending 里也位列第九。
这反映了 RoVid-X 作为面向机器人视觉 / 视频理解的大规模数据资源,在开源社区中的快速影响力。
数据集的完整版规模达到400 万条机器人视频片段、1300+ 细粒度技能、1 万 + 小时内容,分辨率 720P,并附带 RGB、深度、光流等多模态物理标注。

这种数据对于视频世界模型尤其关键。因为物理理解不是简单靠提示词补出来的,而需要模型在大量交互数据中学习接触、顺序、力学关系和结构稳定性。
实验结果也显示,引入 RoVid-X 数据后,模型在具身任务中的表现能够获得稳定提升。
例如在 Wan 系列模型上,经过 RoVid-X 微调后,模型在操作执行、长时规划和空间理解等维度均有明显改善。

这项工作的意义,不只在于多了一个 benchmark 和一个 dataset,而是把视频生成放进了物理 AI 的语境里重新审视。
过去视频生成更多服务于内容创作:广告、短片、特效。往后,它可能成为机器人训练、仿真环境构建和具身智能数据闭环的基础设施。
当模型开始理解接触、顺序、结构稳定性和动作后果," 生成一段看起来合理的视频 " 就在向 " 可用于物理世界推演的世界模拟引擎 " 靠近。
R-Bench 和 RoVid-X 是在这个转向中补上两块关键拼图:一个回答 " 如何评估 ",一个回答 " 如何训练 "。
随着 Cosmos 3 等 Physical AI 视频世界模型进入 R-Bench 榜单并取得开源 Top-1,具身视频生成的竞争也正在从单纯比拼视觉效果,转向更接近真实世界的物理理解和任务执行能力。
对于开源社区而言,这或许是一个更重要的信号:Physical AI 的进展,不只属于闭源模型和商业系统,也可以建立在开放评测、开放数据和开放模型共同演化的基础之上。
按团队的规划,下一步还会去做从生成视频反推可执行动作的 Inverse Dynamics Model,进一步打通视频生成、策略学习和真机部署之间的闭环。
视频生成模型的下一站,或许真的不只是拍电影,而是模拟、理解,并参与真实的物理世界。
团队背景
这支团队叫DAGroup,来自北京大学,负责人是周大权。

他从 2022 年就开始做视频生成,是最早一批入场的人之一——
代表作 MagicVideo 是业界最早的隐空间扩散视频模型之一,后来还有 MagicVideo-V2、StoryDiffusion、Magic-Me 等一系列工作。

更早之前,他在模型与硬件效率方向也颇有积累,Coordinate Attention 曾被列为 CVPR 2020 最具影响力论文第 2 名。

他自述,自己的研究始终带着一条 " 用最少的算力和内存,跑最强的算法 " 的主线。
除 R-Bench/RoVid-X 外,DAGroup 还在推进 HumanNet、StableVLA 等多个具身与世界模型方向的开源项目。
论文地址:
https://arxiv.org/abs/2601.15282
Project Page:
https://dagroup-pku.github.io/ReVidgen.github.io/
GitHub 地址:
https://github.com/DAGroup-PKU/HumanNet
R-Bench Leaderboard:https://huggingface.co/spaces/DAGroup-PKU/Leaderboard
RoVid-X Dataset:https://huggingface.co/datasets/DAGroup-PKU/RoVid-X/
— 欢迎 AI 产品从业者共建 —
「AI 产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为 AI 行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

科技前沿进展每日见