关于ZAKER 合作
车云网 1小时前

让“黑客帝国”照进现实,智元机器人发布首个机器人世界模型开源平台—— Genie Envisioner

以下文章来源于与新研究所 ,作者袁洲

在电影《黑客帝国》中,有一个令人印象深刻的场景:主角尼奥躺在椅子上,各种格斗技能程序通过数据线被直接 " 上传 " 到他的大脑中。几分钟后,他睁开眼睛,自信地说出那句经典台词:"I know Kung Fu。"

8 月 14 日,智元机器人发布首个机器人世界模型开源平台—— Genie Envisioner(GE),让电影 " 黑客帝国 " 中的场景照进了现实。

训练机器人掌握一项技能是一件复杂、漫长且昂贵的事情。当前机器人学习系统普遍采用分阶段的开发模式,数据收集、模型训练和策略评估,每个环节都相互独立,并需要专门的基础设施和任务特定调优。碎片化的架构大幅增加了开发复杂度和迭代周期,同时还限制了系统的可扩展性。

不同于传统训练模式,智元的 GE 平台将将策略学习、仿真和评估这三大核心环节,全部统一到一个视频生成模型框架中。让机器人在同一世界模型中完成从 " 看 " 到 " 想 " 再到 " 动 " 的端到端推理与执行,不极大提高了训练效率,还显著加强了泛化能力。

GE 平台由三大核心组件和一个套件构成

为了能够便于理解 GE 平台的功能,这里借用 " 黑客帝国 " 的场景来做类比

GE-Base ( 世界基础模型 ) :虚拟世界架构师

电影中:Morpheus 团队能构建出一个名为 "The Construct" 的纯白虚拟空间,并在其中加载任何需要的训练场景。

Genie 中:GE-Base 就是机器人的 " 虚拟世界架构师 "。它通过深度学习超过 100 万个真实机器人工作视频,掌握了我们世界的 " 物理规律 "。当接到一个训练任务,例如 " 学会擦桌子 " —— GE-Base 能够立刻构建出一个高清、逼真的视频训练场景,完整地展示机器人如何一步步完成这个任务。这个场景是自洽且符合物理逻辑的。

GE-Act ( 动作模型 ) :动作控制

电影中:当技能上传完毕,尼奥的身体就能在虚拟或现实世界中,将脑海中的格斗知识转化为精确的拳脚。

Genie 中:GE-Act 能瞬间理解 " 架构师 " 构建的宏大蓝图(那段预测视频),并将其翻译成机器人身体可以理解的、精确到毫秒的动作指令。最神奇的是,这个过程效率极高,它无需真的把整个训练视频播放一遍,而是直接从场景的潜在结构中提取出关键动作,实现了 " 知识 " 到 " 行动 " 的无缝衔接。

GE-Sim ( 仿真器 ) :虚拟训练空间

电影中:"The Construct" 是进行技能训练和实战模拟的核心场所。

Genie 中:GE-Sim 就是那台强大的 " 虚拟训练空间 "。它是一个可控的神经模拟器,允许工程师设定不同的初始条件和动作脚本,然后生成无数个平行的 " 训练场景 " 来进行测试和演练。这使得机器人的训练成本大大降低,迭代速度呈指数级提升,一小时内就能完成数千次 " 虚拟排练 "。

EWMBench ( 评估套件 ) :现实检验程序

电影中:虚拟训练必须尽可能模拟现实,否则学到的技能在实战中就会失效。

Genie 中:EWMBench 就是 " 现实检验程序 "。它是一套专业的评估标准,用来检验 " 训练场景 " 的质量。它会严格审视:这个场景里的物理规则对吗?机器人的行为和训练目标一致吗?场景稳定、没有出现 Bug 吗?这个程序确保了机器人的学习是在一个高质量、贴近现实的虚拟环境中进行的。

Genie 的惊人之处

超强的 " 跨平台 " 上传能力

GE 平台不仅能为熟悉的 " 大脑 " 上传技能,还能快速适配新的 " 身体 "。实验中,一个主要在智元自家机器人上训练的 Genie 模型,仅需 1 小时的新数据进行微调,就能成功地为一款全新的机器人 " 上传 " 技能,并指导它完成折叠衣物、打包纸箱等高难度任务。相比之下,其他顶尖模型在这些任务上几乎完全失败。

长时序任务的精确执行能力

由于 GE 平台的训练场景是连贯且符合逻辑的,它能够指导机器人完成需要长时记忆和精细操作的复杂任务。比如,机器人需要先看到盒子里糖果的颜色,盖上盖子后,再根据记忆选择正确的印章来盖章。这种能力是传统 " 死记硬背 " 式模型难以企及的。

高效、低成本的 " 训练 "

整个 " 技能上传 " 流程的统一和自动化,使得教会机器人一项新技能的成本和时间都大大降低,为通用机器人的大规模应用扫清了关键障碍。

GE 平台的能力边界

目前,GE-Base 主要学习的是单一平台的数据,未来需要让它 " 周游世界 ",学习更多类型机器人和场景的数据。

技能的类型单一:当前的训练主要集中于桌面级的双臂操作,对于更精细的灵巧手交互或全身移动(如奔跑、跳跃)等 " 高级技能 " 尚未涉足。

虽然 EWMBench 已经非常先进,但一个能够全自动、完美区分 " 有效训练 " 与 " 无效训练 " 的终极程序,仍是整个行业追求的目标。

相关标签