文|赵艳秋
编|牛慧
在山东某大型家电厂的产线上,数台白色机械臂低头忙碌,在焊点间精准落下,一台台高端洗衣机的金属骨架拼接成型。几个月前,这道工序还需要工程师手动调试数天。如今,八台具身智能机械手臂接入 " 数字大脑 ",四小时内便完成对新型号洗衣机的全部适配。
" 家电厂家接受度很高,这些手臂总计几十万,确实提高了生产效率。" 华龙迅达产品人士告诉数智前线。这套系统的 " 大脑 " 来自华为云盘古多模态大模型,负责任务拆解规划,小脑则由华龙迅达基于开源模型自主研发,负责具体操作。" 产线的数据是稀缺的。接下来,要在实际生产中边跑边学,让它更聪明。"
在这背后是一次具身智能对工业柔性制造的重构尝试。在 6 月前后举办的两场大会——北京智源大会和华为开发者大会上,具身智能成为焦点。与会者看到的不再是重复单一运动的机器人,而是一个个开始逐步能适应变化、做出决策、主动执行的 " 新物种 "。业界正在迎来一次智能跃迁。
但这场跃迁,还远未抵达终点。北京智源研究院院长王仲远说,具身大模型仍处在 "GPT-3 之前 " 的技术探索阶段。" 仿真数据、强化学习、大小脑融合等方向都还在摸索,尚未形成统一方法论,产业落地还有很多关口要过。"
" 我们这个产业不是一个悬浮的产业。" 银河通用创始人兼 CTO 王鹤说," 如果只讲故事,不做落地,长期来看对行业伤害很大。我们需要学术界和产业界一起,把几件事真的做好。"
中国制造业将迎来 " 具身智能 " 变革
国内第一波产业落地已在多个制造与服务场景中悄然展开。它们比特斯拉等海外巨头的应用场景更多元,甚至也更复杂。
看看下面这个视频,机器手臂正在进行精密光纤的安装。
在华为云联合华为制造部研发的展示中,双臂机器人正在完成手机 " 彩盒包装 " 的最后一道工序。这个工序目前仍全靠人工,正在尝试由具身智能来完成。
为何 " 柔性 " 制造如此关键?千寻智能联合创始人高阳给出一个解释:" 目前工业机器人年出货量只有 54 万台,为什么这么少?因为它不好用,每个机器人进厂后,都需要对机器人进行 2~3 个月的编程。" 换句话说,机器人的 " 智能 " 是人为设定好的。
类似问题也在汽车行业发生。冲压与喷涂车间虽高度自动化,但一旦车型更换,换线至少耗时六个月。" 具身智能如果能根据车型自动调整生产参数,就像人一样柔性工作,将极大缩短周期。" 华为云人士说。
为此,美的旗下的库卡机器人已在机械臂的机柜中开始预留算力接口,提前为 " 具身智能化 " 做准备。
具身智能不仅落地工业,也在走进生活场景。
" 你在某平台下单药品时,很可能已经是我们的人形机器人在备货。" 银河通用机器人创始人兼 CTO 王鹤展示了一家 24 小时药店中机器人操作的视频:机器人穿梭在开架区与密集货架间,自主取货、放入柜中,快递员随后取走。
" 北京已有 7 家在常态化运行,今年底北上深要部署 100 家。" 王鹤说,"24 小时店三班倒,人工成本一年 70 多万元,我们机器人就是把成本降到比这更低。"
中东某七星级酒店的礼品店中,机器人则充当接待员,吸引着顾客来购物。
具身智能也可能是中国制造出海的关键。" 其实中国公司到美国、欧洲建厂大都不赚钱,人工费太高、原材料贵," 清华大学孙富春教授说," 唯一的办法,就是把机器人带过去,通过云边端远程操作,这是下一步具身智能要面临的重要问题。"
然而,真正的落地远不只是 " 亮相 " 这么简单:
" 灵巧手的成本非常高昂,带传感器的可能十几万元,但寿命只有几千次。" 一位从业者直言。
人形机器人 " 走得稳 " 也是挑战:众擎机器人创始人赵同阳展示了一个场景,让人形机器人从一栋楼的 A 点走到 B 点,搭乘电梯、换层到达另一栋楼," 理论上可以,但现实中没有一家能真正做到。"
另一个关键点在于寿命。汽车的寿命在 10 至 15 年之间,而目前机器人平均寿命在 2 年左右。" 我们预计 5 年内能做到机械寿命 10~15 年。" 赵同阳说。
安全标准也成为进厂门槛,比如电池须满足工业级防火防爆标准,三元锂电、蓄电池就不行。
与此同时,另一场更基础的反思也正在展开:在具身智能的模型训练中,我们采用怎样的路径可以得到更强的泛化性?我们与海外采取的方法有怎样的不同?这关乎底层技术未来演化的路线图。
GPT 之后,机器人还缺一颗真正的大脑
在大模型火爆之前,机器人只能完成一件事——送餐、打螺丝或搬运物料。它们像训练有素的操作员,却只会一种 " 本能 "。但现在,业界正在尝试打破这种局限。
"2022 年之前,具身智能面临的是单一任务、单一场景、单一本体。" 北京智源研究院具身多模态大模型中心主任仉尚航说。转折点出现在 ChatGPT 横空出世的那年,机器人开始拥有 " 更聪明的大脑 "。
具身智能的热潮,本质是大模型与机器人技术的融合。多模态大模型带来了更强的泛化能力,推动机器人从 " 专才 " 向 " 通才 " 演化。但 " 通才 " 并不好做。业界认为,具身智能的挑战,远超智能驾驶。
仉尚航举例,当前,具身智能主要走三种技术路线:端到端的 VLA 模型(Vision-Language-Action)、大小脑架构,以及世界模型。
但在清华大学孙富春教授看来,VLA 还不够。
" 李飞飞特别强调视觉的作用,提出的空间智能,是在三维空间中感知、推理和行动的能力。" 但 VLA 缺乏能判别物理属性,利用物理规律做事的要素,也缺少了足够的控制轨迹。孙富春说," 这正是我们构建世界模型的原因。"
所谓世界模型,是一个全要素模型,空间智能仅仅是世界模型向视觉空间的一个投影。孙富春团队计划训练一组包含 200 万条轨迹、52TB 数据量的大模型,目标是在各类工厂中实现高度泛化的具身智能。他们的对标对象,是英伟达构造了 120 万条轨迹,32 个 TB 数据量的世界模型。
第三种路径是 " 大脑 + 小脑 " 模式,这是国内提出的形象说法,大脑负责任务规划,小脑负责具体执行。优势在于模块化、可解释性,更容易落地。但也有门槛。" 不是所有多模态大模型都能胜任大脑。" 仉尚航说," 比如 GPT-4o 做机器人大脑就不理想,因为缺乏长程规划和空间理解能力。"
在大小脑技术路线上,北京人形机器人创新中心唐剑博士认为," 卡点 " 主要有两个:一个是大脑如何精准规划各类任务,并且能对复杂任务精准拆解和规划十几步甚至几十步,是比较难的。另一是具身小脑的技能库。两者都需要具备强大泛化能力,因为任务有千千万。
高阳也给出了他们对具身智能泛化性的分级。他认为 L3 是非常重要的节点,因为它是在特定环境下完全自主,也是一个比较难的节点。
北京人形机器人创新中心唐剑博士也透露,他们计划推出统一开发平台 " 慧思开物 ",帮助开发者用一种方式,开发所有机器人任务。该创新中心曾研发在今年机器人马拉松竞赛上夺冠的天工机器人。他们在具身小脑技能库上,目前能支持 30 余种技能,目标是支持超 100 种。
有业界人士认为,最终的 " 大脑 "、" 小脑 " 竞争,都会收敛到有大模型研发能力的公司," 因为太烧钱了,它是长在多模态模型的基础上 "。
" 未来 5-10 年,大小脑融合的模型可能会成熟,但不是今天,原因很简单,数据受限。" 王仲远说,而能够真正实现跨本体的小脑模型,也还需要硬件在一轮一轮的产业迭代中淘汰和收敛。
没有好数据,机器人就学不会动手
尽管大脑架构和技术路线正在快速演化,但所有路线最终都绕不开一个共识:数据,这是具身智能最难啃的骨头。
" 我们面临最大的痛点是数据。" 千寻智能联合创始人高阳直言,无论是质量还是数量。他们提出了具身智能的 Scaling Law,引起业界关注。
" 大语言模型有 Scaling Law。我们也研究具身智能,采集大约 4 万个现实世界轨迹,并做了大约 1.5 万次现实的机器人测试。" 高阳说," 简而言之,结论是具身智能同样满足 Scaling Law,每多采 10 倍数据,机器人错误率就会降低大约 10 倍。如果你想从 99% 的成功率提高到 99.9%,意味着你要多采 10 倍数据,成本也是指数级上升。"
如果按照上述的 Scaling Law,银河通用王鹤认为,像 VLA 部署到车厂,一定要保证成功率在 4 个 9 以上,因为车厂每停工 1 分钟要扣 1 万元。如果押宝真实数据,那可能要先把机器人量产到百万级,雇上千万人采数据。这是一个无法落地的路线。现实的做法一定要有大量合成数据,直接做到几个 9,再用真实数据,目前没有达到。" 我们做零售,也是因为无法在今天真的做到 4 个 9。"
高阳坦言,不像大语言模型,数据直接可用,清洗相对简单。具身智能的数据,现在有几种方式:互联网视频、遥操作(本体模仿人类动作)、仿真生成……但具身智能还得深入物理世界采集摸索。" 我感觉宏观路线是清晰的,但具体到每一个数据源,怎么处理、怎么做最好,很多工程细节仍没有那么清楚。"
具身智能的数据技术存在几大问题:现实世界的数据难以大规模获取、成本高昂、精度不一。而强化学习在现实中的样本效率 " 非常低下 "。仿真器虽是替代方案,却因难以完美还原现实环境而存在 " 鸿沟 "。
数据难的另一个根源,是硬件不统一。
" 具身智能这么多家,每家机器人本体的自由度、传感器数量都不一样,数据根本不通用。" 众擎机器人创始人赵同阳提出问题。他担忧目前一些地方建设的数据采集中心," 你采的我不能用,我采的你也用不了。"
" 就像我们的电脑,大家都能用 Windows 或 iOS,是因为它的硬件是统一的,都有 USB 接口、都有键盘、屏幕,屏幕的分辨率也有标准。硬件统一之后,它的算法就更容易统一,大家都能基于一套东西开发。" 而机器人硬件本体的收敛,还需要时间。
统一的 "Action Space"(动作空间)或将是破局关键。北大计算机学院长聘副教授、初创公司北京智在无界卢宗青认为,大语言模型之所以能爆发,是因为输入输出统一。而机器人控制的维度五花八门,要构建具身智能生态,必须先统一 Action Space,才会有用之不完的数据。
在现实数据受限的背景下,王鹤团队也在尝试突破一条新的路径:纯合成数据训练 VLA(视觉 - 语言 - 动作)模型。今天国际上最主流的 VLA 训练方式是通过真机采集大量遥操作数据,像特斯拉建立了遥操工厂,特斯拉机器人做电池,光电池就采了 10 万条数据,这个路径没人用得起。
王鹤团队的模型参数量在几十亿量级,通过合成训练具备了零样本泛化能力,比如机器人抓鸭子的视频,打了迪斯科灯、有人手伸过来抢玩具,机械臂也能实时响应。
他强调,这是全球首个不依赖任何真实动作数据预训练的端到端 VLA 模型。" 合成数据是义务教育,真实数据是上岗培训。" 如果提供真实世界的动作数据,将让模型更强,而且遥操的量是今天人形机器人可以支持的。
北京智源研究院走的路线,也是让机器人学习互联网数据,再通过少量真实世界数据训练它的能力。在北京智源研究院,数智前线看到了针对一项技能,比如叠衣服的多种数据采集方式,有真人遥操作,也有电脑上的合成数据。
王仲远还提到,他们在与机器人本体硬件公司交流时,企业认为要展示硬件机器人的上限,同时也要降低成本。" 如果机器人每台售价不是几十万,而是几百元,那么数据采集量以及模型提升速度会大幅提升。"
" 具身智能的‘小组赛’还没结束,远没有到‘淘汰赛’。" 王仲远说。不过,中国业界的动作很快,制造业的丰富场景、政策支持,学界和产业界的合作在日趋紧密,提出了一些有别于海外的新路径。
众擎机器人赵同阳介绍,今年他们的人形机器人大概能出货两三千台。" 我估计友商也能出两三千台。马斯克说,三年之内,他们的出货量有 30 万台。我们在中国市场调研了,缺乏理论数据和能力的支撑,我认为这三年出 3 万台,我们是能做到的。"
本文为数智前线(szqx1991)原创内容
进群、转载或商务合作联系后台
文章精选