IT 之家 1 月 22 日消息,微软昨日发布了一款面向机器人领域的全新 AI 模型 Rho-alpha,旨在突破机器人长期以来只能在高度可控环境中运行的局限,推动其在更复杂、不可预测的真实世界中执行任务。


Rho-alpha 的核心能力在于,将自然语言指令直接转化为机器人控制信号,使机器人能够完成复杂的双手协同操作任务,而无需依赖传统工业机器人常见的固定脚本和预设流程。目前,微软正在双臂机器人平台和类人机器人上对该系统进行评估测试。
微软研究院企业副总裁兼总经理 Ashley Llorens 表示,相比语言和视觉 AI 的快速进展,机器人技术长期发展缓慢。随着感知、推理和行动能力的融合,机器人有望在非结构化环境中展现更高自主性,从而改变其与人类协作的方式。
在功能设计上,Rho-alpha 不仅属于视觉 - 语言 - 行动模型的范畴,还进一步引入了触觉感知能力。机器人在执行任务时,可根据触觉反馈实时调整动作,而不是仅依赖视觉信息。微软表示,未来版本还将加入力感知等更多传感模态,以提升操作精度和安全性。


为此,Rho-alpha 采用了真实机器人演示、仿真任务以及大规模视觉问答数据相结合的训练方式。大量合成数据通过运行在 Azure 基础设施上的机器人仿真和强化学习流水线生成,再与商业及开放数据集中的真实机器人数据融合使用。
