李想在 5 月的《理想 AI Talk 第二季》里,提前为理想 i8 身上的最大卖点—— VLA 司机大模型,埋下了伏笔。
以至于两个月后的理想 i8 发布会,有大约四分之一的时间都用在了描绘 VLA 司机大模型多么强大上。
事实上,不只是理想,长城、奇瑞、极氪、小鹏、零跑等车企均在推进 VLA 模型的研发和落地。
从整个智驾行业的角度来看,VLA 模型也早已取代端到端模型成为新一轮智驾竞赛的核心。
不过,就在当下智驾行业内的人风风火火大干 VLA 模型的时候,宇树科技 CEO 王兴兴,这位来自机器人行业的大佬,却毫不留情的给 VLA 司机大模型浇了一盆冷水。
相对 " 傻瓜 " 的 VLA 模型
8 月 9 日,王兴兴在 2025 世界机器人大会上直言 VLA 模型是一个相对 " 傻瓜式的架构 "。
同时,王兴兴还表示,自己对 VLA 模型抱一个 " 比较怀疑的态度 "。
在判断王兴兴的话究竟是 " 针砭之言 " 还是 " 无稽之谈 " 之前,我们先来了解下 VLA 司机大模型究竟是什么。
VLA 指的是 Vision-Language-Action,也就是视觉 - 语言 - 动作,它能够在端到端的基础上,同时通过视觉信息和语音信息来执行驾驶动作。
李想把它的产品形态比喻为 " 司机 Agent(智能体)",对比的对象自然是同为司机的人类。
你打车的时候怎么跟司机沟通,就可以怎么跟它沟通。
短平快的指令就由端侧的 VLA 直接处理,如果指令很复杂,需要理解,就送去云端的基座模型先解析翻译,然后再交给 VLA。
听到这你是不是会有种奇妙的感觉:这不就是有个机器人吗?
是的,VLA 模型虽然因智驾而被更多人所熟知,但它最早其实是应用在机器人身上的。
2024 年 10 月,斯坦福大学发布了全球首个开源 VLA 模型 OpenVLA,成功验证了 VLA 模型在机器人的实际操作中拥有更强的泛化能力。
此后经过在机器人行业和智驾行业的落地应用后,VLA 模型的确展现出了十分强大的实用价值。
它更像是端到端和 VLM 用上了融合卡,在面对一些人类都头疼的潮汐车道、长时序推理等特殊场景时,VLA 思考理解的方式能更像人,处理的方式则比人更好。
如果说此前的 VLM 还局限在 2D 图像上,那 VLA 则已经拥有一个完整的大脑,能通过语言和逻辑推理能力解决问题。
我们《超级开箱》也提前体验了,感兴趣的朋友可以点击视频观看。
听起来似乎 VLA 就是打开自动驾驶大门的那把钥匙,但在王兴兴看来,现阶段的 VLA 模型存在一道非常棘手的问题,就是它所采集的真实世界交互的数据是不够的。
为了解决这一问题,王兴兴说他们尝试了在 VLA 模型的基础上再加上一个 "RL",也就是强化学习,但最终发现还是 " 不够用 "。
相对于 VLA+RL,王兴兴发现更好的解决方案其实是世界模型。
王兴兴表示,宇树在去年就开始利用预训练的动作视频,去控制机器人按照视频内容去执行对应动作。
但对于世界模型究竟能不能实现技术收敛,王兴兴却又表示 " 不敢打包票 "。
关键原因就在于,王兴兴认为世界模型太考验视频生成质量了,导致对 GPU 的消耗有点大。
但王兴兴也表示,对于机器人来说,视频生成质量并不需要很高。
值得注意的是,在王兴兴公开怀疑 VLA 之前,理想 i8 发布会就讲过了类似的问题,并且也谈到了世界模型。
箭头渐渐指向世界模型
在理想 i8 发布会上,理想自动驾驶研发高级副总裁郎咸朋也谈到了数据不足对 VLA 模型的负面影响。
郎咸朋分享道,在人类驾驶中,高速和城市快速路占了总里程的 60% 多,而乡间小路的里程只占了 1% 不到,所以人开车的比例是非常不均衡的,如果以此来进行训练的话,那么效果是非常差的。
世界模型能够生成符合真实物理世界规律的场景,进而弥补实车数据的不足。
在汽车行业,相对于理想,蔚来对世界模型的应用更加深入。
早在去年的 7 月份,蔚来就发布了世界模型,只是一直到今年 5 月份,才推送了首个版本的世界模型,但就实际效果来看,世界模型的表现起码到现在还没有那么惊艳。
不过,根据蔚来发布的官方信息,蔚来世界模型对空间理解的能力和长时序的建模能力会更强,进而应对场景表现也会越来越好。
既然如此,那就先等等看吧。
此外,王兴兴对 VLA 模型提出 " 怀疑 " 后,国家地方共建人形机器人创新中心首席科学家江磊在世界机器人大会也表达了自己的观点。
江磊表示,感知 - 认知 - 决策 - 执行的闭环尚未闭合,VLA 模型需要重构,从而寻求新的解决范式。
国际机器人联合会技术委员会主席亚历山大 · 维尔(Alexander Verl)则在机器人大会上更直白地讲起了 VLA 模型在技术上的局限,主要包括 7 个方面,分别是:
无记忆能力;感知缺陷;动作缺失;物体混淆;成功率偏低;语言理解缺陷;反馈缺失。
至于这些问题的解决方案,维尔的想法与王兴兴基本一致,也是利用世界模型去学习。
写在最后
VLA 模型是当前智驾行业最热门的方向,更多的声音都是在讨论它有多么强大和有价值。
因此,王兴兴的 " 怀疑 " 声音就不免有些刺耳。
但刺耳归刺耳,从技术发展状况来看,VLA 大模型注定只是智驾走向终极之前的中转站。
所以,公开阐释对 VLA 的怀疑,王兴兴其实只是赶在了智驾行业前面。
而智驾最终是在世界模型那里,还在其他解决方案那里收敛,或许还需要更多的探索和讨论。
END