关于ZAKER 合作
数智前线 17小时前

中国具身智能火热,不再简单追随马斯克

中国第一波具身智能落地悄然展开,场景和技术路线与海外有所不同。

文|赵艳秋

编|牛慧

在山东某大型家电厂的产线上,数台白色机械臂低头忙碌,在焊点间精准落下,一台台高端洗衣机的金属骨架拼接成型。几个月前,这道工序还需要工程师手动调试数天。如今,八台具身智能机械手臂接入 " 数字大脑 ",四小时内便完成对新型号洗衣机的全部适配。

" 家电厂家接受度很高,这些手臂总计几十万,确实提高了生产效率。" 华龙迅达产品人士告诉数智前线。这套系统的 " 大脑 " 来自华为云盘古多模态大模型,负责任务拆解规划,小脑则由华龙迅达基于开源模型自主研发,负责具体操作。" 产线的数据是稀缺的。接下来,要在实际生产中边跑边学,让它更聪明。"

点焊场景演示

在这背后是一次具身智能对工业柔性制造的重构尝试。在 6 月前后举办的两场大会——北京智源大会和华为开发者大会上,具身智能成为焦点。与会者看到的不再是重复单一运动的机器人,而是一个个开始逐步能适应变化、做出决策、主动执行的 " 新物种 "。业界正在迎来一次智能跃迁。

但这场跃迁,还远未抵达终点。北京智源研究院院长王仲远说,具身大模型仍处在 "GPT-3 之前 " 的技术探索阶段。" 仿真数据、强化学习、大小脑融合等方向都还在摸索,尚未形成统一方法论,产业落地还有很多关口要过。"

" 我们这个产业不是一个悬浮的产业。" 银河通用创始人兼 CTO 王鹤说," 如果只讲故事,不做落地,长期来看对行业伤害很大。我们需要学术界和产业界一起,把几件事真的做好。"

中国制造业将迎来 " 具身智能 " 变革

国内第一波产业落地已在多个制造与服务场景中悄然展开。它们比特斯拉等海外巨头的应用场景更多元,甚至也更复杂。

看看下面这个视频,机器手臂正在进行精密光纤的安装。

在华为云联合华为制造部研发的展示中,双臂机器人正在完成手机 " 彩盒包装 " 的最后一道工序。这个工序目前仍全靠人工,正在尝试由具身智能来完成。

" 彩盒里不只有手机,还有说明书、耳机、充电器等。由于产线来料是无序的,配件的摆放也不是千篇一律,它的装备步骤每一次都不太一样。" 华为云人士解释," 他们探索的将是一个能理解环境、规划动作、执行决策的系统。"

为何 " 柔性 " 制造如此关键?千寻智能联合创始人高阳给出一个解释:" 目前工业机器人年出货量只有 54 万台,为什么这么少?因为它不好用,每个机器人进厂后,都需要对机器人进行 2~3 个月的编程。" 换句话说,机器人的 " 智能 " 是人为设定好的。

类似问题也在汽车行业发生。冲压与喷涂车间虽高度自动化,但一旦车型更换,换线至少耗时六个月。" 具身智能如果能根据车型自动调整生产参数,就像人一样柔性工作,将极大缩短周期。" 华为云人士说。

为此,美的旗下的库卡机器人已在机械臂的机柜中开始预留算力接口,提前为 " 具身智能化 " 做准备。

具身智能不仅落地工业,也在走进生活场景。

" 你在某平台下单药品时,很可能已经是我们的人形机器人在备货。" 银河通用机器人创始人兼 CTO 王鹤展示了一家 24 小时药店中机器人操作的视频:机器人穿梭在开架区与密集货架间,自主取货、放入柜中,快递员随后取走。

" 北京已有 7 家在常态化运行,今年底北上深要部署 100 家。" 王鹤说,"24 小时店三班倒,人工成本一年 70 多万元,我们机器人就是把成本降到比这更低。"

中东某七星级酒店的礼品店中,机器人则充当接待员,吸引着顾客来购物。

具身智能的目标不一定替代已有的机械臂,通过一年多的产业调研,智源研究院院长王仲远发现,像物流分拣、激光打码等重复而枯燥的工序,每天十余小时、人力疲劳度高、甚至存在安全隐患,正是具身智能最适合的第一波切入点。

具身智能也可能是中国制造出海的关键。" 其实中国公司到美国、欧洲建厂大都不赚钱,人工费太高、原材料贵," 清华大学孙富春教授说," 唯一的办法,就是把机器人带过去,通过云边端远程操作,这是下一步具身智能要面临的重要问题。"

然而,真正的落地远不只是 " 亮相 " 这么简单:

" 灵巧手的成本非常高昂,带传感器的可能十几万元,但寿命只有几千次。" 一位从业者直言。

人形机器人 " 走得稳 " 也是挑战:众擎机器人创始人赵同阳展示了一个场景,让人形机器人从一栋楼的 A 点走到 B 点,搭乘电梯、换层到达另一栋楼," 理论上可以,但现实中没有一家能真正做到。"

另一个关键点在于寿命。汽车的寿命在 10 至 15 年之间,而目前机器人平均寿命在 2 年左右。" 我们预计 5 年内能做到机械寿命 10~15 年。" 赵同阳说。

安全标准也成为进厂门槛,比如电池须满足工业级防火防爆标准,三元锂电、蓄电池就不行。

与此同时,另一场更基础的反思也正在展开:在具身智能的模型训练中,我们采用怎样的路径可以得到更强的泛化性?我们与海外采取的方法有怎样的不同?这关乎底层技术未来演化的路线图。

GPT 之后,机器人还缺一颗真正的大脑

在大模型火爆之前,机器人只能完成一件事——送餐、打螺丝或搬运物料。它们像训练有素的操作员,却只会一种 " 本能 "。但现在,业界正在尝试打破这种局限。

"2022 年之前,具身智能面临的是单一任务、单一场景、单一本体。" 北京智源研究院具身多模态大模型中心主任仉尚航说。转折点出现在 ChatGPT 横空出世的那年,机器人开始拥有 " 更聪明的大脑 "。

具身智能的热潮,本质是大模型与机器人技术的融合。多模态大模型带来了更强的泛化能力,推动机器人从 " 专才 " 向 " 通才 " 演化。但 " 通才 " 并不好做。业界认为,具身智能的挑战,远超智能驾驶。

仉尚航举例,当前,具身智能主要走三种技术路线:端到端的 VLA 模型(Vision-Language-Action)、大小脑架构,以及世界模型。

其中,VLA 模型最直观,它接收人类的语言和视觉输入,输出行动指令,构成一个快速闭环。银河通用机器人创始人王鹤认为:"VLA 是非常有希望的。"

但在清华大学孙富春教授看来,VLA 还不够。

" 李飞飞特别强调视觉的作用,提出的空间智能,是在三维空间中感知、推理和行动的能力。" 但 VLA 缺乏能判别物理属性,利用物理规律做事的要素,也缺少了足够的控制轨迹。孙富春说," 这正是我们构建世界模型的原因。"

所谓世界模型,是一个全要素模型,空间智能仅仅是世界模型向视觉空间的一个投影。孙富春团队计划训练一组包含 200 万条轨迹、52TB 数据量的大模型,目标是在各类工厂中实现高度泛化的具身智能。他们的对标对象,是英伟达构造了 120 万条轨迹,32 个 TB 数据量的世界模型。

第三种路径是 " 大脑 + 小脑 " 模式,这是国内提出的形象说法,大脑负责任务规划,小脑负责具体执行。优势在于模块化、可解释性,更容易落地。但也有门槛。" 不是所有多模态大模型都能胜任大脑。" 仉尚航说," 比如 GPT-4o 做机器人大脑就不理想,因为缺乏长程规划和空间理解能力。"

在大小脑技术路线上,北京人形机器人创新中心唐剑博士认为," 卡点 " 主要有两个:一个是大脑如何精准规划各类任务,并且能对复杂任务精准拆解和规划十几步甚至几十步,是比较难的。另一是具身小脑的技能库。两者都需要具备强大泛化能力,因为任务有千千万。

高阳也给出了他们对具身智能泛化性的分级。他认为 L3 是非常重要的节点,因为它是在特定环境下完全自主,也是一个比较难的节点。

业界在逐步取得进展。如在这次北京智源大会上,智源研究院发布了具身大脑 RoboBrain 2.0 与跨本体协作框架 RoboOS 2.0。通过它,全球开发者只需一键即可将大脑模型与在相同本体上开发的不同机器人小脑技能对接,无需适配过程。RoboOS 2.0 与 RoboBrain 2.0 已全面开源。

北京人形机器人创新中心唐剑博士也透露,他们计划推出统一开发平台 " 慧思开物 ",帮助开发者用一种方式,开发所有机器人任务。该创新中心曾研发在今年机器人马拉松竞赛上夺冠的天工机器人。他们在具身小脑技能库上,目前能支持 30 余种技能,目标是支持超 100 种。

有业界人士认为,最终的 " 大脑 "、" 小脑 " 竞争,都会收敛到有大模型研发能力的公司," 因为太烧钱了,它是长在多模态模型的基础上 "。

" 未来 5-10 年,大小脑融合的模型可能会成熟,但不是今天,原因很简单,数据受限。" 王仲远说,而能够真正实现跨本体的小脑模型,也还需要硬件在一轮一轮的产业迭代中淘汰和收敛。

没有好数据,机器人就学不会动手

尽管大脑架构和技术路线正在快速演化,但所有路线最终都绕不开一个共识:数据,这是具身智能最难啃的骨头。

" 我们面临最大的痛点是数据。" 千寻智能联合创始人高阳直言,无论是质量还是数量。他们提出了具身智能的 Scaling Law,引起业界关注。

" 大语言模型有 Scaling Law。我们也研究具身智能,采集大约 4 万个现实世界轨迹,并做了大约 1.5 万次现实的机器人测试。" 高阳说," 简而言之,结论是具身智能同样满足 Scaling Law,每多采 10 倍数据,机器人错误率就会降低大约 10 倍。如果你想从 99% 的成功率提高到 99.9%,意味着你要多采 10 倍数据,成本也是指数级上升。"

如果按照上述的 Scaling Law,银河通用王鹤认为,像 VLA 部署到车厂,一定要保证成功率在 4 个 9 以上,因为车厂每停工 1 分钟要扣 1 万元。如果押宝真实数据,那可能要先把机器人量产到百万级,雇上千万人采数据。这是一个无法落地的路线。现实的做法一定要有大量合成数据,直接做到几个 9,再用真实数据,目前没有达到。" 我们做零售,也是因为无法在今天真的做到 4 个 9。"

高阳坦言,不像大语言模型,数据直接可用,清洗相对简单。具身智能的数据,现在有几种方式:互联网视频、遥操作(本体模仿人类动作)、仿真生成……但具身智能还得深入物理世界采集摸索。" 我感觉宏观路线是清晰的,但具体到每一个数据源,怎么处理、怎么做最好,很多工程细节仍没有那么清楚。"

具身智能的数据技术存在几大问题:现实世界的数据难以大规模获取、成本高昂、精度不一。而强化学习在现实中的样本效率 " 非常低下 "。仿真器虽是替代方案,却因难以完美还原现实环境而存在 " 鸿沟 "。

数据难的另一个根源,是硬件不统一。

" 具身智能这么多家,每家机器人本体的自由度、传感器数量都不一样,数据根本不通用。" 众擎机器人创始人赵同阳提出问题。他担忧目前一些地方建设的数据采集中心," 你采的我不能用,我采的你也用不了。"

" 就像我们的电脑,大家都能用 Windows 或 iOS,是因为它的硬件是统一的,都有 USB 接口、都有键盘、屏幕,屏幕的分辨率也有标准。硬件统一之后,它的算法就更容易统一,大家都能基于一套东西开发。" 而机器人硬件本体的收敛,还需要时间。

统一的 "Action Space"(动作空间)或将是破局关键。北大计算机学院长聘副教授、初创公司北京智在无界卢宗青认为,大语言模型之所以能爆发,是因为输入输出统一。而机器人控制的维度五花八门,要构建具身智能生态,必须先统一 Action Space,才会有用之不完的数据。

在现实数据受限的背景下,王鹤团队也在尝试突破一条新的路径:纯合成数据训练 VLA(视觉 - 语言 - 动作)模型。今天国际上最主流的 VLA 训练方式是通过真机采集大量遥操作数据,像特斯拉建立了遥操工厂,特斯拉机器人做电池,光电池就采了 10 万条数据,这个路径没人用得起。

王鹤团队的模型参数量在几十亿量级,通过合成训练具备了零样本泛化能力,比如机器人抓鸭子的视频,打了迪斯科灯、有人手伸过来抢玩具,机械臂也能实时响应。

他强调,这是全球首个不依赖任何真实动作数据预训练的端到端 VLA 模型。" 合成数据是义务教育,真实数据是上岗培训。" 如果提供真实世界的动作数据,将让模型更强,而且遥操的量是今天人形机器人可以支持的。

北京智源研究院走的路线,也是让机器人学习互联网数据,再通过少量真实世界数据训练它的能力。在北京智源研究院,数智前线看到了针对一项技能,比如叠衣服的多种数据采集方式,有真人遥操作,也有电脑上的合成数据。

王仲远还提到,他们在与机器人本体硬件公司交流时,企业认为要展示硬件机器人的上限,同时也要降低成本。" 如果机器人每台售价不是几十万,而是几百元,那么数据采集量以及模型提升速度会大幅提升。"

" 具身智能的‘小组赛’还没结束,远没有到‘淘汰赛’。" 王仲远说。不过,中国业界的动作很快,制造业的丰富场景、政策支持,学界和产业界的合作在日趋紧密,提出了一些有别于海外的新路径。

众擎机器人赵同阳介绍,今年他们的人形机器人大概能出货两三千台。" 我估计友商也能出两三千台。马斯克说,三年之内,他们的出货量有 30 万台。我们在中国市场调研了,缺乏理论数据和能力的支撑,我认为这三年出 3 万台,我们是能做到的。"

本文为数智前线(szqx1991)原创内容

进群、转载或商务合作联系后台

文章精选

前店后厂,浪潮云的大模型落地新解法

相关标签

最新评论

没有更多评论了
数智前线

数智前线

关注数字化和智能化的人和事,有趣有料

订阅

觉得文章不错,微信扫描分享好友

扫码分享