文 | 海克财经,作者 | 许俊浩
AI 浪潮持续高涨。
机器人领域颇为典型。由中国机械工业联合会等单位主办的 2025 中国机器人产业发展大会,近日召开了新闻发布会。发布会数据显示,国内机器人产业规模高速增长,营收已由 2020 年的 1061 亿元增长到了 2024 年的 2378.9 亿元;2025 年前三季度,国内机器人产业营收同比增长 29.5%,工业机器人产量达 59.5 万台,服务机器人产量达 1350 万套,工业机器人和服务机器人产量均已超 2024 年全年。
作为 AI 的关键载体与核心落地方向,机器人正为产业变革注入全新动能。这一趋势更流行的表述是 " 具身智能 ",后者指具有物理载体的智能体,能够通过感知、决策与交互能力在现实世界中执行任务,并在与环境互动中持续进化。具身智能已在推动技术从算法模型迈向现实世界,进而拓展 AI 应用边界,为实现通用 AI 探索更多可能。
从定义看,具身智能不止包括人形或其他形态的机器人,也包括搭载 AI 模型的无人机、智能汽车等。具身智能中,人形机器人赛道尤为引人注目。从海外的 Figure AI、特斯拉到国内的宇树科技、智元机器人等,全球创新力量带动行业疾步向前,不断刷新。
2025 年 10 月 29 日,挪威科技公司 1X 发布家用人形机器人 NEO,以约 2 万美元(约合人民币 14.2 万元)的售价或每月 499 美元(约合人民币 3500 元)的月度订阅费用开放预订,计划于 2026 年交付。宇树科技则将人形机器人带入 " 双十一 " 大促活动,以 2.99 万元的价格在京东平台售卖。
自 2022 年 11 月 ChatGPT 点燃全球 AI 热潮,AI 迅速进入大众视野,从遥不可及的高端科技变成人人皆可使用的工具。CNNIC 即中国互联网络信息中心发布的《生成式人工智能应用发展报告(2025)》显示,截至 2025 年 6 月,国内生成式人工智能用户规模已达 5.15 亿人,普及率为 36.5%。

求解动作难题
如今人形机器人的迭代可谓日新月异。
机器人表演就颇为显眼。在 2025 年 1 月的央视春晚上,宇树科技机器人 H1 表演的《秧 Bot》仅是根据节奏扭动身体和转动手帕,动作相对简单。到了 2025 年 10 月,在舞剧《天工开物》的谢幕环节中,宇树科技机器人已能精准复现舞者姿态,以流畅的侧翻、后空翻等完成 " 人机共舞 "。
宇树科技机器人相关表演视频在抖音、快手等平台迅速传播,目前视频点赞量已累计超过 130 万。有用户在评论区发出感慨说,机器人动作年初看起来还不协调,没几个月已经协调到这种地步,像是 " 输入武功秘籍 " 了。

要知道,AI 奠基者艾伦 · 图灵在 1950 年的论文中就提出过智能必须依托物理实体与外界动态交互才能形成。只是受限于科技水平,半个多世纪以来,机器人都与真正意义上的具身智能相去甚远。
在 2011 年福岛核电站事故中,救援现场找不到具备实际作业能力的成熟机器人,有限的设备在复杂辐射环境中频频受困,甚至被散落电缆绊倒,难以执行关键任务。在此之后,DARPA,即美国国防部高级研究计划局宣布举办机器人挑战赛,旨在推动灾难救援机器人技术研发。
第一届美国国防部高级研究计划局机器人挑战赛 2012 年 10 月启动,直到 2015 年 6 月才决出胜者。决赛需要机器人进行抵达任务区、自主下车、打开房门、关闭闸门、借助工具开洞等操作,参赛机器人大多步履蹒跚,频频跌倒,多数都无法完整完成所有操作。获得冠军的是韩国 KAIST 研发的机器人 HuBo,行进时并不是依靠双足,而是以万向轮保证机器人的速度和平衡。亚军则是由波士顿动力研发的机器人 Atlas。
彼时该决赛视频引发了公众热议——机器人行动迟缓,错漏百出,与公众期待的灵敏、智能的助手形象毫不相干。
作为全球头部人形机器人公司,成立于 1992 年的波士顿动力曾是行业先驱。早在 2017 年,波士顿动力的 Atlas 就展示过后空翻。然而,Atlas 原先采用的是液压驱动系统,高强度、高精度的同时还有高能耗、高噪音和高成本的问题,难以商业化。波士顿动力 2013 年被谷歌收购、2017 年转至软银,2021 年又被韩国现代收购。软银时期,波士顿动力曾以约 7.5 万美元(约合人民币 53 万元)的价格将机器狗 Spot 推向市场,仅售出约 400 台。
空翻动作之所以被视为机器人技术发展的关键里程碑,在于它系统性融合并推动了机器人硬件设计、动态控制与实时决策等多个核心领域的进步。
据海克财经了解,要完成空翻动作,机器人的驱动系统要瞬间释放足量功率密度,且高负载持续时间极短;系统需实时解算包含前后、左右、上下平移及绕三轴旋转的六自由度运动方程,超过 0.5 度的角度偏差就可能导致落地失衡;机器人脚踝、膝盖与髋关节需要减震缓冲,要求脚掌力传感器在 0.01 秒内感知地面反作用力并作出响应。
以宇树科技为代表的新玩家舍弃了液压驱动方案,选择纯电驱动技术路线,克服了原先电力驱动功率不如液压驱动的问题,通过自研高扭矩电机与轻量化结构设计来保证动作完成性与成本的平衡。比如宇树 G1,用 23-43 个关节电机设计,最大关节扭矩达 120N · m,使其即使在侧空翻这类对横向惯性控制要求极高的动作中仍能维持整体稳定。
波士顿动力亦于 2024 年 4 月推出了电驱版 Atlas,标志着电驱技术路径获得更广泛认可。到了 2025 年 2 月,国内企业众擎机器人成功完成全球首次机器人前空翻,实现了技术上的重要突破。与前阶段常见的后空翻相比,前空翻对机器人的动态平衡能力、瞬间爆发力与精准落地控制提出了更高要求。
智能从何而来
空翻等高难度动作的突破,意义远不止于技术展示。
这些动作能够系统验证整机控制系统与关键零部件的成熟度,为机器人在复杂现实环境中的应用奠定了基础。在 2025 年 9 月的公开演示中,宇树机器人 G1 面对连续推搡与踢打,能够很快反应,恢复至站立状态,展现出了相当的运动智能。
这标志着机器人从实验室走向复杂现实世界的进程再度加速。
自 2022 年 AIGC 的突破及特斯拉推出机器人 Optimus 原型机以来,全球人形机器人产业进入快速发展期。国泰海通证券 2025 年 11 月发布的一份研报综合多方数据显示,2024 年国内人形机器人企业注册量为 104 家,同比增速 104%;人形机器人亦是投融资热点,2025 年 1-7 月,国内人形机器人行业融资达 101 起,融资额超过 260 亿元,已超过 2024 年全年融资额;2024 年以前,人形机器人行业处于实验测试阶段,产品性质为原型机,规模多在 10 台以内,2024-2025 年,行业进入试制阶段,部分头部企业开启数十台至数百台的试点交付,2025 年以后行业将进入规模量产阶段。
需要说明的是,机器人行业玩家根据业务重心可划分为硬件型与软件型两大发展路径。硬件型企业以机器人本体为核心切入点,聚焦关节模组、电机、减速器、控制器等关键零部件的自主研发,并重点突破运动控制算法。这类似于人类的 " 小脑 ",其产品通常以载重、速度与运动性能作为主要衡量指标,比如波士顿动力、宇树科技等。
软件型企业则更多从具身智能技术出发,以前沿的视觉语言大模型、世界模型、仿真合成数据等大脑能力作为研发起点,通常通过外采零部件进行本体集成,重点强调机器人的认知与决策智能,比如银河通用。而像特斯拉这样具备规模化制造基础的车企,能够凭借深厚的硬件制造基因与来自智能驾驶的软件积累,在机器人领域展现出软硬一体的全栈能力。

之后,机器人学习进入数据驱动阶段,通过观察模仿与反复试错自主学习技能。更进一步以后,智能系统与自主学习深度融合,机器人开始能理解抽象指令,在陌生环境中主动尝试解决方案,逐步向能应对复杂现实的自主智能体进化。由此,全球玩家在算法上各展所长。
海外头部玩家 Figure AI 在 2025 年 2 月宣布终止与 OpenAI 的合作后,转向自研端到端 AI 模型,据称其 AI 大模型 Helix 已取得重大技术突破。Helix 首次将双系统思维引入 VLA 模型(视觉语言动作模型),系统 1 专注于实时动作控制,能够以极高响应速度处理视觉信息;系统 2 拥有强大场景理解和语言解析能力,负责解读复杂指令、识别环境要素,并制定行动规划。双系统架构还在模块化迭代能力方面颇具优势。二者可独立优化,无需重新调整整体模型。

此外还有美国的 Physical Intelligence 和 Skild AI 等新玩家,正对世界模型这一前沿领域进行探索,旨在让机器人构建一个内在的物理世界模型,从而能够预测自己行动的结果。
挑战依旧颇多
机器人行业已开始构建系统化的技术发展框架。
类比 L1 至 L5 的自动驾驶分级体系,智元机器人提出了 G1 至 G5 的具身智能技术路线图。据海克财经了解,G1 级针对特定场景定制,缺乏跨场景迁移能力;G2 级则能洞察多场景任务,结合大语言模型实现有限泛化;G3 级转向端到端数据驱动,在架构层面实现范式转换;G4 级引入通用操作大模型与仿真数据,显著提升复杂任务表现;而 G5 级作为长期目标,将实现从感知到执行的完全端到端自主操作。
在机器人技术迈向更高水平的过程中,泛化是极为重要的挑战。
所谓泛化,指机器人能够在不同场景中灵活执行多种任务,无需针对每个新场景重新训练或调整。就目前来看,机器人在特定环境下熟练掌握的技能,难以有效迁移到新场景、新任务或新对象上。它或许可以在实验室环境中精准完成抓取动作,但只要更换一个不同形状的杯子,或改变光照条件,其性能就会显著下降甚至完全失效。
这一挑战的根源在于现实世界的无限复杂性。真实环境是开放且动态变化的,物体的形状、材质、摆放角度,以及光线、背景干扰等因素的组合几乎是无穷尽的。人类无法为所有可能性预先编程,也难以收集覆盖所有边缘情况的训练数据。面对一个反光强烈的桌面、突然出现的宠物,或是形状特异的日常物品,机器人操作的准确性便会大幅度降低。这意味着真正意义上的自主智能还为时尚早。
被很多网友揶揄的北京亦庄机器人马拉松赛事即是一例。2025 年 4 月,该人形机器人马拉松赛事聚集了知名机器人及智能制造生态企业超过 300 家,参赛机器人需要工程师团队全程跟随,负责更换电池、处理失衡等突发状况。比赛视频显示,有的机器人跑着跑着平地摔倒;有的机器人颤颤巍巍,走不出直线;有的机器人甚至直接把头部摔掉了。

机器人训练数据的获取与使用也是亟待解决的重点问题。
如果采用虚拟仿真环境生成训练数据,机器人就必须面对 Sim-to-Real Gap(仿真与现实差距)的问题。虚拟世界中的物理参数、传感器噪声与环境交互难以完全还原真实场景的复杂性,导致在仿真中表现优异的算法迁移至实体机器人时出现明显性能衰减。
如果完全依赖在真实环境中采集数据,则面临高昂的时间成本与硬件损耗,规模化推进存在现实阻力。比如特斯拉,就选择整合自有的 Dojo 训练中心,让 Optimus 人形机器人团队放弃传统的动作捕捉技术,转而采用纯视频学习方法,通过让机器人观察人类执行任务的视频录像,自主提炼行为模式并生成操作策略。

政策层面同样已释放出明确支持信号。2025 年 3 月,国务院发布的政府工作报告中明确提出,国家将以培育壮大新兴产业、未来产业作为重点工作方向。报告首次将具身智能与生物制造、量子科技、6G 等并列纳入未来产业培育范畴,具身智能发展由此上升至国家战略层面。北京、杭州等地也都围绕具身智能及机器人产业发布了针对性政策文件,旨在加速技术突破和产业集聚。
就目前来看,机器人演进与智能手机产业的发展路径极为相似。早期各家厂商各自为战,技术处于路线分化的探索阶段,逐步走向关键突破点。正如智能手机的 "iPhone 时刻 " 重新定义了移动终端的形态与生态,机器人领域也将在未来迎来属于自己的临界点——当某项技术或产品以超越用户预期的体验出现时,将迅速推动行业标准的统一与生态的成型。
这一突破将不仅仅是技术参数的提升,更是用户体验的根本性变革。在 AI 领域,这更像横空出世的 ChatGPT,将 AI 从实验室概念转化为生活的日常。量产只是漫长征程的第一步,技术的加速度已露端倪,科幻作品中的智能机器人走进寻常百姓家的那一天,离我们或已不远。