在第八届进博会期间,来自宇树科技、优必选、商汤科技等多位专家围绕具身智能的落地应用分享了看法。
《科创板日报》记者了解到,明年将是人形机器人落地的关键年。目前,人形机器人已在一定范围内应用于表演、交互、展厅导览等场景,然而要进入工厂实现 " 大规模交付 " 仍存在瓶颈,距离真正意义上的产业化尚有差距。若未来要进一步走入家庭场景,则还需应对标准规范、安全性、用户隐私等一系列更为复杂的问题。
整体而言,机器人产业正从基础的本体制造,向更细分、更高难度的领域深入探索。未来产业将持续向上游延伸,朝着更精细化、技术密集度更高的方向发展,最终构建起完整的人形机器人产业链。
明年将是人形机器人落地的关键年
优必选副总裁、研究院院长焦继超认为,明年会是人形机器人落地的关键一年。对于行业特别是对于优必选来说,必须要找到一个真正落地的场景,而且该场景是有可复制性,具有一定的规模性。
对于人形机器人,焦继超认为工业场景应该是率先落地,实现全自主地工作。商业场景今年也有一些真正的应用,除了跳舞、表演外,还包括导览、4S 店、展厅的讲解等。
" 明年全尺寸的人形在这些场景里会有更多的应用。在其他的行业里, 2-3 年之后在工业场景才能泛化到一些更复杂的操作。在商业场景类似酒店服务员的角色,因为涉及与人打交道的更复杂场景,这个时间点应该是 3-5 年。家庭场景则涉及到标准问题和安全问题,进入家庭场景能够作业的人形机器人,至少需要 8-10 年左右的时间。"
微亿智造联合创始人、首席运营官潘正颐也认为,人工智能将在未来智能制造中发挥关键乃至决定作用。而当前制造企业面临的核心挑战在于:过度依赖自动化易引发刚性生产,难以适应多品种、小批量的柔性需求;过度依赖人工则易造成效率瓶颈与质量一致性差问题。具身智能技术与工业机器人的深度融合成为破局关键,如通过机器人调试智能化、多工序柔性切换等,实现生产柔性、效率与质量协同提升,真正推动人工智能在工业现场的深度落地与价值实现。

此外,随着自动驾驶技术的发展,无人物流车正迎来快速普及的契机,将深入解决 " 最后一公里 " 的末端配送难题。它们可自主完成上货、分拣等任务,应用于前置仓、闪购仓等标准化程度高、数量庞大的场景。然而,其大规模应用仍面临核心挑战:如何精准识别和处理数千甚至上万个 SKU(库存单位),这对机器的视觉感知与认知决策能力提出了极高要求。
帕西尼感知科技创始人兼 CEO 许晋诚看好近端小型人形机器人的落地。" 小型人形机器人,现阶段在娱乐相关、教育相关基本上已经有大量落地能力。而走进工厂可能在五年内。"
擎朗创始人兼 CEO 李通则提到了中国机器人的出海机遇。" 在这个关键时间节点上,机器人正在大规模走进全球的工厂和生活,这为中国机器人企业提供了前所未有的出海窗口期。"

人形机器人大规模交付仍存在难点
一目科技创始人兼 CEO 李智强在采访中对《科创板日报》表示,具身智能的核心点是 " 类人 ",这就需要拥有感知 - 决策 - 执行这样一整套闭环控制,才能够实现类人的具身智能。其中,感知能力必不可少,而且非常重要。一目科技此前发布了全球最薄可商用仿生视触觉传感器,目前形成销售和合作线索的已有上百家客户。
他认为,在视触觉传感器这些新兴领域,中国企业的机遇很大。不过仍需要提升参数性能以及量产能力," 能实现 10 万、百万量级量产的企业,还比较稀缺。"
谈及产业趋势,李智强表示,机器人产业正从本体往更细,更难的方向上探索。" 今年的趋势是手的自由度越来越高、越来越灵活。未来将继续往上游发展,走向更精细化,技术含量更高的方向,最终形成完整的人形机器人产业链。"
在李智强看来,现阶段人形机器人的大规模交付仍存在瓶颈,离真正的产业化仍有一段距离。
" 工业领域动作不复杂,但重复性操作比较多,对精度要求比较高,很多传统的工业臂就已经可以搞定了。这样的一些场景并非人形机器人最合适的场景。一目科技更多地在探索非重复性的、非标准化的,需要精细化操作的场景。"

乐聚智能董事长冷晓琨则判断,明年人形机器人在工业领域有望出现采购交付数量过万的企业。预计在未来五年左右,相关技术有望迈过 " 基本可用 " 的门槛。
"但要真正作为产品进入到我们身边的话,可能要奔着十来年的过程,涉及到的标准、安全、隐私一系列问题,要比技术问题复杂棘手得多。"
世界模型更被看好
当前,世界模型和 VLA 模型代表了具身智能领域两个并行互补的技术路线,一目科技创始人兼 CEO 李智强认为,最终收敛至哪一条,还未有定论。" 中短期内,VLA 模型是补充,长远来看大概率会走向世界模型,但其有赖于大量的数据训练。"
宇树科技创始人王兴兴也更青睐基于视频生成的世界模型。他指出,当前基于 VLA+RL 的模型在泛化能力上仍有不足,个人更喜欢基于视频生成技术构建的世界模型。
但他也表示,世界模型同样面临挑战。" 中小型机器人公司对这个模型跑不太动,因为视频生成模型对算力的需求非常大,需要的算力卡比较多。目前反而是一些大的 AI 公司、互联网公司对视频模型的资源更加丰富,可以做出来的概率更大一点。"
