从去年开始,VLA 成为智驾行业高频提及的词汇,理想、小鹏、元戎启行等车企或供应商押注 VLA 技术路线,并相继拿出了量产和 Demo 产品。
华为智能驾驶解决方案产品线总裁李文广和华为车 BU CEO 靳玉志甚至公开强调华为不会走 VLA 的技术路线,并且质疑了 L(Language Model)在智驾技术上的应用。
于是我们看到的局面是,VLA、NWM、WEWA 技术词汇一堆,它们之间到底有什么区别?哪种方案才是正解?
大热的 VLA,到底是什么
最近大家应该看到很多基于 VLA 打造的智驾产品评测,其中一个易感知的功能就是 " 语音控车 ",例如,你可以直接告诉车你的意图,左转、右转或者靠边停车等等。
例如理想智驾把它包装成你的专属司机,你可以用语音控制车辆的行驶,屏幕上反馈的文字也直观地展示了车辆的行为,增强了交互性。
但这并不是 VLA 最核心的能力,VLA 并非语音控车的必要条件。
早在 2021 年,小鹏就可以通过语音 " 使唤 " 辅助驾驶变道超车。
同样的,你在桌面 HMI 上看到的车辆推理过程也并非 VLA 的核心卖点,而是厂商把这种因果推理做给你看,这也算是交互的一种。
但语音输入和语言输出都并非 VLA 核心能力。
元戎启行的周光也称:" 语音控车只是 VLA 的基础能力,最难的是思维链(Chain of Thought, CoT)和长时序推理。这才是 VLA 真正的核心能力 "。
那么,VLA 的具体作用是什么,为什么还有这么多研发自动驾驶的人押注这条路线。
VLA 中的 V 指的是感知、A 是执行,中间的 L 则是语言模型(Language Model),V 负责感知环境、A 负责动作执行,中间的 L 的作用类似于 " 中台 ",将 V 的内容,也就是感知的内容转译成 A 执行的规划和决策。
L 转译的内容是自然语言,例如它看到了前方有路口,能够将感知的内容以自然语言的方式表达出来,然后结合车辆的状态,做出行动规划和决策给到 A。
所以,VLA 具有很好的可解释性。
"(VLA)真正发挥作用的是背后推理的长思维链。如果没有强大的 L,再好的 V 和 A 都无法发挥出来。这跟人与动物的区别很相似。论视觉能力人比不过鹰,论行动速度比不过猎豹,但人之所以能够称霸地球,靠的是强大的认知和理解能力。而这个认知和理解能力就来自于人类特有的语言能力。"
但是 VLA 的弊端也比较明显,既然语言模型要将看到的内容转述为语言,且要将为做决策服务,那么就涉及到一个挑战——语言表述的模糊性与空间对齐问题。
华为李文广也发表过类似的质疑:" 它(VLA)有一个很大的弱点,它对空间的感知能力不行,因为我们的车是要做具体动作的,要在空间里面运动,那它在这块的感知能力不行,就这样就导致你让它来做动作的话,其实我是觉得,这条路挺危险的 "。
华为与蔚来站在了一起
蔚来今年基于世界模型打造了最新的 NOP+,已于几个月前全量推送给了用户。
在智能驾驶上,蔚来采用的是世界模型(World Model),华为在今年上海车展前也发布了全新一代架构 WEWA,其中 WE 指的是 World Engine 世界引擎,WA 指的就是 World Model Action。
蔚来与华为,在智驾战略上,倒是走在了一起。
华为认为,在现实世界去采集这类场景不现实,因为场景出现概率低,所以整体会很低效。
用 AI 训练 AI,密度是真实世界的 1000 倍,效果提升会更加明显。
第二个作用是云端仿真,解决长尾数据不足的问题。第三个作用则是生成的数据回灌给车端 WA 模型,做持续训练与蒸馏,形成 " 数据 - 模型 " 闭环。
WA 则更好理解:感知现实世界,不经过语言层,直接输出车控轨迹,也可以将它称之为 VA。
蔚来在去年年中就发布了 NWM,即 NIO World Model 蔚来世界模型。它的核心作用就是像人一样,看到现在,脑补未来。
它能够根据感知输入的信息,在 100 毫秒内,推演 216 种可能发生的轨迹、寻找最优路径;还能基于 3 秒钟视频的 Prompt 输入,生成 120 秒想象的视频。
在 NWM 中,语言只是输入之一,例如你也可以通过语言 " 使唤 " 车辆,它也能展现出类司机 Agent 效果。
目前来看,行业里对 VLA 技术路线还是存在争议的。
不只是华为、蔚来派,在上个月的 2025 世界机器人大会上,宇树科技王兴兴也公开谈论了 VLA,他称:"VLA 相对还是一个傻瓜式的架构,自己对 VLA 模型抱有比较怀疑的态度 "。
拿体验说话
看到这里,你应该对这些热门词的含义,有了个大致的了解。
谁更先进、更强不需要我们评判,毕竟成千上万名从事 AI、自动驾驶的专家都无法形成统一共识,我们作为 " 外行 " 岂能轻易下定论。
但是这对消费者来说重要吗?其实根本不重要。目前基于世界模型的蔚来 NOP+、基于 VLA 技术的理想 AD Max,在体验上都有缺陷。
我们只需要看表现,用实践检验真理。
END