为了低成本训练机器人,研究者往往依赖仿真器来模拟其与环境的交互。
但传统仿真器效果受限于僵化的物理规则,基于新兴视频生成模型的又常在 2D 空间 " 脑补 " 交互…
为解决这个问题,南洋理工大学 MMLab为具身智能构建出了高保真 4D 时空训练场。
机器人 - 环境交互模拟是具身智能的核心。近期,一些研究展现了利用视频生成技术突破传统模拟器 " 僵化 " 的视觉与物理限制的潜力。然而,这些工作主要在 2D 空间运行、或受制于静态环境的单一引导,忽略了一个基本事实:机器人与世界的交互本质上是4D 时空事件,需要精确的交互建模。
为了还原这一本质并确保精确的机器人控制,南洋理工大学 MMLab 提出了全新的 4D 生成式具身模拟器——Kinema4D。它通过 "控制与环境解耦" 的思路重新定义了生成式模拟,使得模型 " 洞察 " 机器人准确的 4D 操作轨迹、并推演出环境的响应,首次展现了生成式模拟器的零样本泛化潜能,为下一代具身智能的规模化训练开辟了全新的 4D 高保真路径。


在具身智能领域,模拟机器人轨迹对于大规模数据增强、策略评估及强化学习至关重要。然而,实机部署成本高昂且存在安全隐患,使得虚拟环境模拟成为不可或缺的替代方案。尽管传统物理模拟器已取得长足进步,但其受限于视觉真实感不足及对预设物理规则的依赖,难以扩展至复杂的新场景。
近期,研究者开始利用视频生成模型来合成机器人与环境的交互,通过将动作作为条件提示,绕开了繁琐的物理建模。
然而,现有生成式仿真方法仍存在关键缺陷:
1. 维度缺失:大多模型局限于 2D 像素空间,缺乏机器人交互所需的4D 时空约束。
2. 精度不足:大多研究依赖高层语言指令、隐式动作理解、或静态环境先验,使得生成模型需要去 " 猜测 " 潜在的机器人动作,难以提供高保真建模所需的精确控制和动态引导,导致其在处理形变或遮挡等复杂情况时表现不佳。
3. 总结:如图 1 所示,现有方法难以同时兼顾动态引导、操作精度与时空感知这三大挑战。为此,本论文提出Kinema4D,通过运动学(Kinematics)将抽象动作锚定在 4D 空间下,从而引导生成模型在确保精度与时空感知的同时、实现了复杂动态交互的可靠生成。
核心方法

如图 2 所示,Kinema4D 的核心动机是在确保精确机器人控制的同时,还原交互过程的4D 时空本质。基于「模拟解耦」的设计哲学,将交互过程拆解为机器人控制及其产生的环境变化,并由以下两个协同洞察支撑:
i ) 运动学驱动的精确 4D 动作表征:机器人动作在 4D 空间中具有物理确定性,不应由生成模型 " 预测 " 或 " 猜测 "。抽象的关节角或位姿序列只有映射到物理结构上才具备意义。因此,Kinema4D 利用 3D 重建的 URDF 模型,通过显式运动学产生连续且物理准确的 4D 轨迹,为交互提供高粒度的时空因果驱动。
ii ) 可控生成下的环境反应 4D 建模:与确定的机器人控制不同,复杂的环境动力学需要高度灵活的生成建模。Kinema4D 将导出的 4D 机器人轨迹投影为时空点图(Pointmap)信号,以引导生成模型摆脱对机器人自身运动学的建模负担,转而专注于合成环境的反应动态(Reactive Dynamics)。
通过同步预测 RGB 与点图序列,Kinema4D 将模拟转化为统一 4D 空间内的时空推理任务,不仅实现了视觉真实感,更确保了几何一致性。
数据集

大规模数据集是训练世界模型的基石。为此,如图 3 所示,本论文构建了Robo4D-200k——目前规模最大的 4D 机器人交互数据集。
该数据集通过整合 DROID、Bridge 和 RT-1 等多样化的真实世界演示数据,奠定了坚实的数据基础;同时引入 LIBERO 仿真数据,合成了海量的成功与失败案例。每一条序列都完整记录了一次机器人与世界的交互过程(如 " 抓取与放置 "),为模型提供了稳健推理所需的连续时空信息。Robo4D-200k 包含201,426条高保真交互序列,以巨大的数据量和交互多样性,为训练具备时空与物理感知能力的具身基础模型提供了可能。
实验分析
论文从视频生成质量、几何质量以及下游策略评估三个维度,对所提出的方法进行了全面的基准测试:
针对于视频生成质量,Kinema4D 取得了领先的结果,如表 1。其可视化结果如图 2 所示,跟 Ctrl-World [ ICLR 2026 ] 相比,Kinema4D 能更好地还原机器人动作,并得到和 GT 相似的环境响应结果。


针对于几何质量,相比于近期的另一个 4D 生成式模拟器(TesserAct [ ICCV 2025 ] ),Kinema4D 也取得了更好的效果,如表 2。其可视化结果如图 3 所示,Kinema4D 能够精确还原真实轨迹(Ground-Truth)的执行效果,包括" 差之毫厘 "的机器人任务失败的案例。例如,在左下角的示例中,即便夹爪与植物在2D 视角下的 RGB 纹理发生重叠,Kinema4D仍能准确识别它们之间的空间间隙,从而准确模拟出机械臂未能抓取植物的结果。


论文还探索了 Kinema4D 作为高保真工具在机器人策略评估中的效用——即模拟器能否准确模拟执行策略轨迹(Rollout)后的真实结果,将评估部署于标准化模拟平台(无噪声环境)与真实世界(复杂物理环境)两类场景中。


如图 6 和图 7 所示,Kinema4D 的模拟结果与实际执行表现高度一致,能够准确合成成功的执行轨迹(Rollouts)以及 " 差之毫厘 " 的失败案例。在图中,即便夹爪与物体的 RGB 纹理在 2D 视角下发生重合,我们的模型仍能准确识别它们之间的空间间隙。
值得一提的是,对于真实世界的策略评估实验,Kinema4D未在任何真实世界数据上进行微调;测试所用的物理环境对模型而言完全是分布外(OOD)的。这是具身生成式世界模型首次在严格的 OOD 条件下展现了一定的泛化潜力。
总结与展望
Kinema4D 标志着机器人模拟范式从传统 2D 像素生成向 4D 时空推理的跨越。通过独创的 " 运动学锚定 " 与 " 生成式演化 " 解耦框架,成功将确定的机械控制与灵动的环境反馈完美融合。
实验证明,Kinema4D 不仅能跨越虚拟与现实的鸿沟,更展现了强大的零样本泛化能力。它为构建高保真、可规模化扩展的具身智能训练场,铺就了一条全新的 4D 通途。
此外,针对极端物理场景下的守恒定律挑战,如何将显式物理法则(如质量、摩擦力、碰撞动力学)深度注入生成网络将是一个值得探索的方向。
本文第一作者许牧天,南洋理工大学 MMLab 博士后。导师刘子纬教授,为本文通讯作者。
论文名称:
Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation
论文链接:
https://arxiv.org/abs/2603.16669
项目主页:
https://mutianxu.github.io/Kinema4D-project-page/
开源代码:
https://github.com/mutianxu/Kinema4D
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情
科技前沿进展每日见