关于ZAKER 合作
量子位 昨天

突破具身智能“专家困境”!北大新方法让宇树 G1 靠单一框架掌握跳舞和侧手翻

人形机器人对跳舞这件事,如今是越来越擅长了。

比如跳一支查尔斯顿舞,一分四十秒的丝滑摇摆,稳定得像踩着节拍器:

不过,它们能否像人类一样自如切换跳舞、体操、日常操作等不同的动作模式?

北京大学与 BeingBeyond 团队联合研发的 BumbleBee 系统给出了最新答案:通过创新的 "分治 - 精炼 - 融合" 三级架构,该系统首次实现人形机器人在多样化动作中的稳定控制。

破解 " 专家困境 " 与 " 现实鸿沟 "

传统人形机器人控制策略长期面临两大核心挑战:

专家困境:单一任务优化导致系统复杂度增长,难以覆盖多场景需求。

现实鸿沟:仿真环境训练的策略在真实物理世界中表现断崖式下降,动作执行精度与稳定性无法保障。

BumbleBee 系统通过 " 分治 - 精炼 - 融合 " 三级架构,首次在单一控制框架内实现从专家策略优化到通用全身控制的跨越,为通用具身智能控制提供了全新解决方案。

运动 - 语义联合驱动的动作分类:构建动作理解的 " 双通道 "

系统通过多模态特征构建与联合隐空间对齐,实现动作在运动学与语义层面的双重表征:

运动学特征提取:基于 SMPL 格式的人类运动序列,通过前向运动学转换为世界坐标系中的 3D 关节坐标(如头部、骨盆、手脚等关键点),并补充脚部速度、根节点位移等动态物理量;最后通过 Transformer 编码。

语义特征编码:利用 BERT 模型对动作文本描述(如 " 托马斯回旋:水平旋转 360 度,双手支撑地面 ")进行编码处理,并通过 Transformer 映射至与运动特征同维度的隐空间。

联合潜在空间对齐:通过对比学习将运动特征与语义特征在同一隐空间对齐,确保具有相似语义或者运动特征的动作在隐空间中靠近,形成运动 - 语义联合表征。

K-means 聚类:在隐空间中对运动数据进行分类,形成结构化数据集。相较于传统手工分类,该方法自动捕捉动作的运动学特征与语义的关联,使聚类结果在运动学与语义上的一致性得到提升。

仿真到现实的差异建模:弥合 " 现实鸿沟 "

专家策略训练:在每个动作簇内训练专家运动跟踪策略,并通过增量动作模型(Delta Action)补偿仿真与现实的物理差异(如电机延迟、地面摩擦力变化)。

多专家融合的通用策略:通过 DAgger 算法将多个专家策略的知识蒸馏到一个通用策略中,实现跨动作类型的无缝切换。在 MuJoCo 仿真环境中,通用策略的成功率达 66.84%,显著优于各类基线方法;真实机器人实验中,几分钟的连续舞蹈动作成功率 100%。

实验验证:数据驱动的性能突破仿真环境:超越基线的全面优势

研究人员在 IsaacGym 和 MuJoCo 仿真环境进行了全面评估,使用任务成功率(SR)关节角误差(MPJPE)关键点误差(MPKPE)等指标对比现有方法:

在更接近真实的 MuJoCo 环境中,BumbleBee 的成功率达到66.84%,显著优于其他基线(最高仅 50.19%)。

真实机器人:稳定与灵活的双重验证

在 Unitree G1 平台上,系统表现出以下特性:

动作稳定性:轻而易举地完成各类长程舞蹈任务。

高难度动作控制:可以进行托马斯回旋、侧手翻等动作。

接下来,研究团队计划在以下方向持续突破:

多模态感知融合:整合视觉 - 惯性里程计与触觉反馈,提升动态环境适应性。

自然语言指令驱动:通过自然语言指令直接生成动作序列(如 " 跳一段欢快的舞蹈 ")。

项目主页:https://beingbeyond.github.io/BumbleBee/

论文链接:https://arxiv.org/abs/2506.12779v2

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

点亮星标

科技前沿进展每日见

相关标签