

这番话一出,立刻在具身智能领域引发轩然大波。

Jim Fan 的发言和科技公司的实践让有人高呼 " 终于找对了方向 ",也有人冷笑 " 英伟达又在为自己造势 "。支持者认为,这是机器人从模仿走向理解的必经之路;反对者则指出,VLA 在精细控制上的优势依然不可替代。
那么,这场关于机器人大脑的路线之争,到底在争什么?VLA 真的已经是具身智能的昨日黄花了吗?这场技术之变,对具身智能初创公司有什么影响?

VLA 的训练逻辑很直观:模仿人类遥控操作。你教它拿红色的杯子,它就记住了红色杯子的画面和对应的动作。下次看到同样的杯子,它就能拿起来。
但现实不是实验室。杯子颜色、光线会变化。这些在人类看来微不足道的变化,对 VLA 机器人来说却是巨大的挑战。换言之,VLA 学习到的是一种极其脆弱的、标准化的 " 条件反射 ",很难推广到复杂的现实场景。
WAM 提供了完全不同的思路。它的核心是预测和理解。WAM 试图让机器人在执行动作之前,先在内部模型里预演一下:这个动作之后,物体会怎么移动,液体会怎么流动,整个场景会发生什么变化。

泛化能力的突破之外,WAM 还完成了另一件更具产业意义的事情:对数据来源的结构性松绑。
VLA 长期被困在遥操作数据这座昂贵的小岛上,每一帧操作数据都需要真人遥控、真机采集。而 WAM 可以像大语言模型学习互联网文本一样,去学习海量的、现成的、每天都在产生的人类第一视角视频。这意味着,WAM 让机器人第一次拥有了从互联网视频中自学物理世界的可能性。智在无界的 Being-H0.7 直接用 20 万小时的人类视频进行预训练,证明了这条路的可行性。银河通用的 LDA 模型更进一步,把仿真数据、人类视频和机器人操作数据混在一起联合训练,打破了行业长期存在的 " 完美数据迷信 "。

国内团队在这条赛道上的进展速度,值得关注。银河通用的 LDA-1B 有清华大学、北京大学和英伟达的联合署名;生数科技的 Motubrain 登顶两项国际榜单;智在无界的 Being-H0.7 综合排名全球第一。
与此同时,海外前沿实验室同样在快速推进。英伟达提出的 DreamZero 在真机实验中展现出对新任务和新环境的强大泛化能力,较顶尖 VLA 模型提升 2 倍以上。
在这个新赛道上,国内和国外几乎是站在同一起跑线上。但热闹背后,一个更根本的问题浮出水面:VLA 真的该退场了吗?

一方面,WAM 确实展现了令人兴奋的技术潜力,它让机器人从机械模仿走向理解、预测物理世界,从依赖昂贵遥操数据转向利用海量人类视频。智在无界用 20 万小时人类视频预训练的 Being-H0.7,能够在 6 项国际评测中拿下综合排名第一,这在前 VLA 时代是不可想象的。
另一方面,这套判断背后也有一套商业叙事。理解这一点,不妨先看看到底是谁在说 "VLA 已死 "。
英伟达是全球最大的 AI 芯片供应商。无论 VLA 还是 WAM,底层算力都跑在它的芯片上。但两者的算力消耗不在一个量级。WAM 需要对海量视频数据进行预训练,推理时还要进行复杂的物理模拟或扩散生成,对 GPU 算力的需求远超 VLA。Jim Fan 力推 WAM,对英伟达来说意味着更大的芯片出货量和更高的单价。一家芯片公司,当然希望市场转向那些更 " 吃 " 算力的技术路线。

一方面,由于视频生成目标更关注像素级一致性而非关节级精细控制,在需要毫米级定位或双臂协同的精密装配任务中,WAM 的表现明显弱于专注动作优化的 VLA 模型,且推理延迟虽然经过优化仍高于后者。
另一方面,数据与算力门槛也不低。联合训练视频与动作需要海量真机交互数据和高昂的扩散模型训练成本,远非所有团队都能承担。
并且,当任务涉及抽象语言指令或复杂社交语境时,纯物理世界建模容易看懂画面但听不懂人话。这说明,WAM 虽然在 " 理解物理世界 " 这个方向上迈出了重要一步,但在 " 走进现实 " 这件事上,还有相当长的路要走。而耐人寻味的是,这恰恰是 VLA 的舒适区。
事实上,VLA 在现阶段仍有 WAM 难以替代的价值。
先看部署效率。在需要毫米级精度和实时力度调整的任务中,比如精密装配、手术辅助,VLA 的轻量化架构更容易实现实时部署。VLA 的本质是端到端的 " 观察-动作 " 映射,推理时不需要复杂的物理模拟,计算开销小、响应速度快。一个成熟的 VLA 系统可以在边缘设备上以较低的算力成本运行。

还有一个容易被忽视的维度:与现有工业体系的兼容性。在工业机器人领域,大量自动化任务不需要复杂的物理理解,只需要稳定、可靠、高精度的重复执行。VLA 的模仿学习范式与工业场景的需求天然契合。企业可以通过少量的示范,教会机器人完成特定的操作任务。
所以,更可能发生的演进路径不是 "VLA 被淘汰 ",而是两者的深度融合。"VLA 已死 " 是一个极具传播力的口号,但把它当成技术判决书来读可能为时过早。它更像是一声警钟,提醒行业不要停留在 VLA 的舒适区里,而是思考如何将物理理解的能力融入现有框架。
那么,就在 WAM 是否代替 VLA 的讨论正盛之时,那些押注 VLA 的创业公司,正在经历什么?

这一切的起点,首先是研发路线上巨大的沉没成本风险。
过去一年,大量初创企业围绕 VLA 构建技术栈,投入重金采购遥操作设备,组建专门的数据采集团队。创始人相信,积累高质量的遥操作数据就是未来的护城河。自变量机器人在 2023 年底成立后,先后完成了 B 轮近 20 亿元融资,累计融资超过 40 亿元,其中相当一部分用于数据采集工厂建设和真机数据采集团队搭建。智平方在一年内完成 12 轮融资,累计融资金额超过 10 亿元,其自建产线于 2025 年 9 月投产,同年 12 月实现单月百台级 AlphaBot 2 交付。毫无疑问,这些数字背后是一整套围绕 VLA 建立起来的资产、团队和认知框架。

技术路线的切换很快在人才市场上引发了连锁反应。
VLA 时代,行业需要的是擅长模仿学习、遥操作数据采集的人才;WAM 时代,人才需求转向视频理解、物理仿真、世界模型构建。技能组合的快速变化,让创业公司刚刚建立起来的团队结构面临重构压力。
并且,技术路线的快速切换意味着人才市场的供需关系也在剧烈波动,WAM 方向变得热门的同时,相关人才的溢价也在迅速攀升,而原本高薪聘请的 VLA 团队则面临流失或转型的双重困境。《脉脉 2026 春招职场洞察报告》显示,2026 年 1 至 4 月,具身智能岗位量同比暴增 15 倍,平均月薪从 5.9 万元升至 6.2 万元。有从业人员透露,行业跳槽薪资涨幅可高达 150%。而对于一家资源有限的创业公司来说,既要在新方向上抢人,又要消化旧方向上的团队惯性,这种两头承压的局面并不容易应对。

一个残酷的现实是,当技术路线半年一变,之前基于旧路线开发的产品可能突然就失去了市场价值。比如,那些基于 VLA 范式、依赖遥操作数据训练出来的机器人技能模型,在 WAM 的叙事下面临重新估值。如果未来机器人的主食真的是互联网视频,那这些用高昂成本训练出来的 " 私教 " 技能,还有多少客户愿意买单?
而所有这些问题,最终都会反馈到资本市场上。投资人的耐心和资本市场的窗口期,未必能跟上技术的节奏。
2026 年《中国投资发展报告》中给出了一个判断:人形机器人产业投资正进入 " 去伪存真 " 的关键阶段,估值逻辑正从概念炒作转向订单验证与供应链卡位。报告明确指出,中游整机制造商面临 " 技术路线尚未收敛的风险 ",市场给予的估值溢价取决于其模块化设计能力与软硬件协同优化水平。

回过头看,"VLA 已死 " 未必是事实,但它确实是一记警钟。
在这个行业,选对方向比埋头苦干重要得多。而选对方向的窗口期,正在变得越来越短。对于创业公司来说,这意味着必须在专注和灵活之间找到微妙的平衡;对于投资人来说,这意味着需要更加审慎地评估技术路线的可持续性,避免追逐短期的叙事热点。
机器人产业还处在早期阶段,技术路线远未收敛。今天的主流,明天可能就变成历史。WAM 的崛起是真实的,VLA 的价值也不会轻易消失。
