连续飞踢一台机器人 30 秒会发生什么?
请看视频!
不到半分钟,这台宇树 G1 就连着挨了十几个飞踢,堪称机生的 " 至暗时刻 "。
在不少网友为它打抱不平时,也不禁让人感叹一句:稳,纯稳、无可争议的稳!
答案就出自银河通用的全新通用动作追踪框架——Any2Track。
Any2Track 不仅能让机器人精确模仿各种人类复杂动作,还能实时适应各种真实世界的干扰。
要知道,在干扰下也能平滑追踪人类动作,可不是件容易的事。
全身遥操作
人形机器人技能学习
人形机器人 VLA 模型
……
接下来,就让我们看看它是如何做到的——
兼顾精准模仿与抗干扰
简单来说,动作追踪就是让机器人能够准确捕捉、复现人类的复杂运动。
但要做到 " 既像人又能在真实环境里稳住 ",并不容易。
另一方面,我们也希望机器人具备在线动态的适应性,能够克服 sim2real 的差距,以及在不同场景下灵活调用这些 " 技能包 ",具备抗干扰的能力。
然而,在现实中,通用性与高度适应性往往难以兼得。
为实现这种 " 既要又要 ",银河通用团队提出了二阶段的强化学习框架——Any2Track ( Track Any motions under Any disturbances ) ,兼顾了精准的动作模仿与抗干扰能力。
这一举超越了 ASAP、GMT 等传统方法,实现了零样本 sim2real,让机器人做起复杂动作来,依旧稳如老狗。
开源链接:https://github.com/GalaxyGeneralRobotics/OpenTrack
总的来说,Any2Track 将动作捕捉的学习过程解耦为AnyTracker和AnyAdapter两个阶段。
AnyTracker 是一个通用的动作追踪模块,通过让机器人的本体感知状态(proprioception state)尽可能接近追踪目标(tracking goals)动作来训练强化学习策略。
其中,本体感知状态包括角速度、投影重力、每个关节的位置、每个关节的速度以及上一帧的动作。
追踪目标则包括目标关节位置、目标关节速度以及局部坐标系下的刚体信息。
(注:为实现通用动作追踪,研究团队使用了 AMASS 和 LAFAN1 运动数据集的组合作为训练数据。此外,作为基础策略训练,此阶段不引入任何动态随机化,以避免追踪性能下降 。)
在训练过程中,研究团队发现训练通用动作追踪器的瓶颈在于:
人形机器人具有高自由度(high degrees of freedom),动作空间复杂;
不同动作类别的动作分布差异大,使得单次 RL 优化难以学习所有分布。
为此,研究团队先设计了标准化动作空间(Canonicalized Action Spaces),通过标准化和残差预测,简化每个关节的动作范围,使策略更易学习。
接下来,又通过动作聚类(Motion Clustering)和专家到通用(Specialist-to-Generalist)的方法,先训练专家策略处理特定类别动作,再蒸馏到通用策略,兼顾了训练效率和多样性覆盖。
其次是 AnyAdapter。
在完成一阶段 AnyTracker 的训练后,研究团队在此阶段引入了环境动力学变化,并提出了 AnyAdapter
——一个基于历史信息感知的适应模块。
它能够利用历史交互数据学习环境动力学特征,并据此动态调整机器人行为,实现在线的动力学适应性。
在每个时间步中,历史编码器从历史交互信息中提取动力学特征嵌入,而世界模型则自回归地预测下一帧机器人状态:
初始化时,历史编码器将前 H 个数据对作为输入,计算初始动力学特征嵌入。
随后,世界模型以第 H+1 个状态作为初始状态,自回归预测接下来的 N 帧状态。
损失函数定义如下:
为此,一阶段的 Any2Track 网络参数被冻结,并引入 adapter 架构进行微调。
随着微调的进行,adapter 通过层级特征融合将动力学适应性注入到基础模型中。
这种训练范式避免了降低已经获得的运动追踪性能,最终实现了丰富的运动表现力和强大的动力学适应性。
实验结论
为验证 Any2Track 的性能,研究通过将 29 自由度的宇树 G1 部署在MuJoCo模拟器和现实世界中进行了实验。
首先,实验对比了 AnyTracker 与基线方法在动作追踪质量上的表现:
同时,规范化动作空间以及从专家策略到通用策略方法的有效性也得到了验证。
随后,团队测试了 AnyAdapter 在面对不同来源干扰时的在线动力学适应能力:
最后,团队将策略部署到宇树 G1 上,并在复杂地形、外部约束以及负重场景中评估 Any2Track 的实际表现。
而这种抗干扰能力,正是打开具身智能机器人从技术研发到商业场景落地中必不可少的关键一环。
据了解,Any2Track 背后的研发团队来自银河通用机器人公司,清华大学交叉信息研究院助理教授、上海期智研究院 PI 弋力老师和其团队,及北京大学助理教授王鹤老师团队。
从实验室走向街头:银河太空舱让机器人真正 " 干活 "
如果说 " 狂踹不倒 " 展示的是机器人在实验室里的硬核肌肉,那么能干活的 Galbot,则展现出真实世界里的切实价值。
目前,银河通用已经构建了 GraspVLA、TrackVLA、GroceryVLA 等端到端具身大模型,在精准操作、导航等核心任务上实现了泛化能力突破。
然而,有了干活的能力,还需要找到需要干活的场景。
银河通用的 " 银河太空舱 ",正是把实验室中的运控、抓握、识别、导航等技术推向街头巷尾、自主干活、服务大众的绝佳载体。
譬如,你的下一杯咖啡,可能就来自中关村 " 银河太空舱 " 里的机器人咖啡师。
在成都春熙路,吸引路人驻足的,也许正是 " 太空舱 " 门前翩翩起舞的机器人表演者。
这些具身智能机器人也不再只是实验里的科技展示,而是真正融入了城市烟火,成为切实的生产力。
比如,在十一当天,位于颐和园的银河太空舱就吸引了大量游客驻足体验。
银河通用机器人正在将智慧零售与创新文旅带入全国街头巷尾与热门景点:轮式人形机器人卖冰饮、咖啡、文创;双足人形机器人热情揽客,把地方特色融入舞蹈和互动。我们期待银河太空舱走向更多城市,人形机器人必将成为中国的又一张国际名片。
全栈自研技术管线
事实上,机器人的 " 狂踹不倒 " 与 " 太空舱 " 里机器人服务只是银河通用体系化能力里最新被发现的 " 冰山一角 "。
自成立以来,银河通用已形成了从合成数据到多模态具身大模型训练的完整技术管线。
在这一过程中,其提出了一套高效通往落地的解决方案:
以智能合成大数据与具身大模型为核心,实现 " 数据生产—模型训练—场景应用 " 的闭环迭代。
在当前具身智能领域真机数据普遍稀缺的背景下,银河通用选择了以合成为主、真实为辅的数据范式。
通过大规模仿真合成数据辅以少量真实数据,不仅能够更快、更低成本地产出海量高质量数据,有效破解场景数据匮乏的难题,还能加速模型在多场景中的泛化与落地。
也正是基于这一思路,银河通用将战略视野扩展到全国化的具身智能训练平台布局。
在大规模合成数据及银河通用基座大模型的基础上,通过打造真实场景的训练平台,能够更快形成多样化的垂直场景数据积累,从而让人形机器人具备更加精细的垂直场景工作能力并习得工作的流程和规则。
通过这一 " 合成 + 真实、研发 + 场景 " 的双轮驱动,银河通用正在不断推动具身智能在全国范围内的规模化落地。
无论是工业、零售,还是文旅、医疗等多元场景,银河通用都在以技术优势赋能千行百业,让智能真正走进生产与生活,也让未来的城市生活变得更加智能。
从 " 狂踹不倒 " 的黑科技,到 " 落地干活 " 的日常服务,人形机器人正在加速走向规模化应用。
银河通用这样的先行者,正在让中国的人形机器人产业,从实验室走向工厂、商圈与景区。
未来,人形机器人不仅是科研成果,更有望成为中国面向世界的又一张科技名片。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见