Figure 人形机器人首秀,靠神经网络叠衣服!
在没有任何架构改变、仅增加了数据的情况下,就让原本在物流场景干活的它,轻松习得了新技能。
好开心呀,又要开始干活了!
用拇指描边、拎角、理顺褶皱再叠起来,中间还实时调整操作。
不过有网友表示,咋擎天柱 10 个月前就会叠衣服了。
两个月前,Figure 机器人展现了他们在物流场景包裹分拣的能力,整个过程长达一小时。对于各种形态的包裹,它都能进行识别、抓取、翻转然后运送到传送带上。其灵活性和速度接近人类水平。
叠衣服对人来说可能平淡无奇,但对于人形机器人来说,这却是最具挑战性的灵巧操作任务之一。
相较于包裹来说,衣服更易变形,形状也更加多样,弯曲难以预测,而且容易起皱或缠结。
它没有固定的几何形状需要记住,也没有单一的 " 正确 " 抓握点。即使是手指轻微的滑动,也可能导致衣服起皱或掉落。
因此要完成这样一个操作,不仅需要机器人仔细地观察,还需要精细协调的手指控制,以追踪边缘、捏住角落、抚平表面,并实时调整。
完成此次任务,Figure 展现了三项关键成果:
这是人形机器人的首次尝试。这是首个拥有多指手的人形机器人,能够利用端到端神经网络完全自主地折叠衣物。
架构相同,仅数据变化。Helix 架构直接应用于衣物 / 毛巾折叠,无需修改模型或训练超参数,唯一的变化是数据集。
自然的多模态交互。除了折叠之外,Helix 还学会了与人互动时保持眼神交流、引导视线以及运用手势。
在完成这些功能时,并没有明确的对象表征、完全采用端到端方式来运行。主要也是因为像毛巾这种高度可变性的物体,构建这样的表征既脆弱又不可靠。
接下来,他们计划在现实世界数据规模扩大的基础上,会在机器人灵活性、速度和泛化能力方向持续提升。
Helix 架构立大功
此次虽然没有任何变化,但依旧起着关键作用的就是它的 Helix 架构。
Helix 是 Figure 与 OpenAI 分道扬镳后的第一个成果,是一个适用于通用人形机器人控制的端到端 " 视觉 - 语言 - 动作 " 模型(VLA),能让机器人像人一样感知、理解和行动。
Helix 由两个系统组成,两个系统经过端到端训练,并且可以进行通信。
它通过单一统一模型即可在各种任务中实现强大性能,仅使用一组神经网络权重,就能在不同容器中精准拾取放置物品、灵活操控抽屉与冰箱、协调多机器人完成灵巧交接,甚至能熟练操控数千种新物体。
而在上次包裹分拣的任务,研究团队对 Helix 的视觉电机策略的架构进行了针对性改进,引入了新的内存和传感模块,能更好地帮助机器人感知环境变化。
具体来说,可以分为视觉记忆、状态历史、力反馈三个部分:
视觉记忆,Helix 配备了一个新的内存模块,可以从系列视频帧中组合特征,再形成短期视觉记忆。
期间,机器人还可以记住它已经检查过的包装侧面,避免重复检查,提高成功率。
从本质上讲,视觉记忆为 Helix 提供了时间背景感,可以更有效地通过多次小型旋转或视点调整来查找条形码位置。
状态历史,该策略在固定持续时间内的动作分块中运行,也就是将连续动作序列分割为固定长度的小段进行规划和执行。
首先会观察当前状态(手、躯干和头部)并输出一小段运动轨迹,反复重新观察多次后,再将全部状态合并输入,以确保模块间的连续性。
由于状态历史记录保留了上下文,即使重新规划或面对干扰,机器人仍能保持稳健,例如当包裹抓取失败时,Helix 会以最小的延迟迅速纠正运动,显著缩短了处理时间。
力反馈,为了赋予 Helix 触感,机器人施加在环境和目标上的力,被反馈送至神经网络状态输入中,以帮助机器人动态调整运动过程,例如当它检测到与传送带接触时,会暂停向下继续运动。
通过一个闭合回路,Helix 可以实现更精准的控制,提高运动的成功率和一致性,也更能适应不同形态重量的物流包裹。
One More Thing
不过话说回来,叠衣服这件事儿确实也不稀奇。
像几个月前就 get 了这项任务的擎天柱。
接下来,你还期待机器人能干什么家务呢?
参考链接:
[ 1 ] https://www.figure.ai/news/helix-learns-to-fold-laundry
[ 2 ] https://x.com/adcock_brett/status/1955291307758489909
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
希望了解 AI 产品最新趋势?
量子位智库「AI 100」2025 上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考
点亮星标
科技前沿进展每日见