文 | 极智 GeeTech
当 AI 具备自主意识,也就实现了从 " 能干活 " 到 " 会做事 " 的转变。
近日,Gemini 家族迎来一个新成员—— Gemini Robotics On-Device。这是谷歌 DeepMind 首个可以直接部署在机器人上的视觉 - 语言 - 动作模型(Vision-Language-Action,VLA)。该模型运行时无需依赖数据网络,可以完全在机器人设备本地离线运行,并在多种测试场景中实现了强大的视觉、语义和行为泛化能力,能理解自然语言指令,并完成拉开拉链、折叠衣物等高灵巧度任务。
作为机器智能领域的关键新范式,VLA 不仅让机器人拥有了将语言意图、视觉感知与物理动作编织成连续决策流的能力,也成为当下辅助驾驶提升智能化水平的重要技术之一。
去年以来,谷歌、微软、Figure AI 等海外公司以及银河通用、智元机器人、理想汽车、小鹏汽车等国内具身智能和车企均发布了自己的 VLA 模型,这项技术成为具身智能和智能辅助驾驶领域的关键性研究之一。
VLM 走向 VLA
VLA 模型最早由 DeepMind 提出并应用在机器人领域,旨在解决 " 视觉 - 语言 - 动作 " 三者协同的智能体控制问题。
2023 年 7 月,谷歌 DeepMind 推出了全球首个控制机器人的 VLA 模型—— RT-2。相比传统的机器人模型只能支持少数的特定指令,RT-2 借助于大语言模型强大的语言理解能力,可以直接和用户进行语言交互,并在接收摄像头的原始数据和语言指令后,直接输出控制信号,完成各种复杂的操作和各类任务。
VLA 在机器人领域的成功,很快也应用到了自动驾驶领域。2024 年 10 月底,谷歌旗下自动驾驶公司 Waymo 推出了一个基于端到端的自动驾驶多模态模型—— EMMA。
EMMA 建立在多模态大语言模型 Gemini 之上,将原始摄像头传感器数据直接映射到各种特定于驾驶的输出中,包括规划者轨迹、感知目标和道路图元素,通过将所有非传感器输入(如导航指令和自车状态)和输出(如轨迹和 3D 位置)表示为自然语言文本,最大限度地利用了预训练的大型语言模型中的世界知识。
从技术路径看,VLA 是继 VLM(视觉 - 语言模型)之后的进化形态,被视为端到端大模型 2.0 ——多模态机器学习模型。VLA 融合视觉、语言和行动三种能力,将其统一在一个模型里,只输入到机器就可执行动作的端到端映射,从而赋予模型强大的 3D 空间理解、逻辑推理和行为生成能力,让自动驾驶能够感知、思考和适应环境。
VLA 模型正是在此背景下应运而生,它舍弃了中间的手工设计算法,直接用统一的神经网络从多模态输入中学习最优控制策略,借助语言模型理解人类指令并生成可解释的决策过程,最后将多模态信息转化为具体的驾驶操作指令,从而简化了系统架构,提高了数据利用效率。
智能辅助驾驶关键跳板
今年,汽车行业的智驾之战明显比往年来得更加猛烈。比亚迪的天神之眼、吉利的千里浩瀚、奇瑞的猎鹰智驾,以及广汽的自动驾驶计划,这些主流车企的动向都说明了,如今的车圈已经是 " 得智驾者得天下 " 的时代了。
自 2023 年以来,智驾行业掀起 BEV、端到端技术浪潮后,车企们正逐步将 AI 神经网络融入感知、规划、控制等环节。比起传统基于规则的方案,基于 AI、数据驱动的 " 端到端 " 拥有更高能力天花板。
但在端到端模型之外,车企们还辅以了大语言模型、VLM 模型等外挂,提供更强大的环境理解能力,从而提升智驾能力上限。
与此同时,VLA 正在成为重要的一环。VLA 模型拥有更高的场景推理能力与泛化能力,对于智能辅助驾驶技术的演进意义重大。从长远来看,在从 L2 级辅助驾驶向 L4 级自动驾驶的技术跃迁过程中,VLA 有望成为关键跳板。
在提升汽车智能化方面,新势力车企最为激进。在 NVIDIA GTC 2025 大会上,理想汽车发布了新一代自动驾驶架构—— MindVLA。它通过整合空间智能、语言智能和行为智能,赋予自动驾驶系统以 3D 空间理解能力、逻辑推理能力和行为生成能力,并计划于 2026 年量产应用。
在 VLA 之前," 端到端 +VLM" 一直是智驾行业主流技术方案。因为驾驶时需要多模态的感知交互系统,用户的视觉、听觉以及周围环境的变化,甚至个人情感的波动,都与驾驶行为密切相关,所以 " 端到端 +VLM" 的技术架构中,端到端系统负责处理感知、决策和执行的全过程,而 VLM 则作为辅助系统,提供对复杂交通场景的理解和语义解析,但两者相对独立。
其中,系统 1 即端到端模型,是一种直觉式、快速反应的机制,它直接从传感器输入(如摄像头和激光雷达数据)映射到行驶轨迹输出,无需中间过程,是 One Model 一体化的模型。系统 2 则是由一个 22 亿参数的 VLM 视觉语言大模型实现,它的输出给到系统 1 综合形成最终的驾驶决策。
而小鹏汽车将云端模型工厂划分为四个车间,依次进行模型的预训练、后训练、模型蒸馏以及车端部署。理想则选择了先进行视觉语言基座模型的预训练,随后进行模型蒸馏,最后通过驾驶场景数据进行后训练和强化学习。两种不同的技术路线带来了不同的训练成本与效率,正是这种差异使得两家车企在市场上形成了强烈的对比。
虽然 " 端到端 +VLM" 大幅提升了智驾水平,但仍有很多问题。比如,端到端和 VLM 要进行联合训练比较困难,此外还有对 3D 空间理解不够、驾驶知识和内存带宽不足、难以处理人类驾驶的多模态性等问题。
而 VLA 通过统一的大模型架构,将感知、决策、执行无缝串联,形成 " 图像输入 - 语义理解 - 类人决策 - 动作输出 " 的闭环,可以同步提高智驾的上限和下限,实现空间、行为和语言的统一。
在推理方面,VLA 模型的能力要远高于 " 端到端 +VLM"。VLA 整合了 VLM 的感知能力和端到端模型的决策能力,还引入了 " 思维链 " 技术。这使得它具备了全局上下文理解与类人推理能力,能够在面对复杂的交通规则、潮汐车道、长时序推理等特殊场景时,像人类驾驶员一样进行思考和判断。
例如,在推理时长方面,传统的基于规则(rule-based)方案只能推理 1 秒钟的路况信息并做出决策控制;端到端 1.0 阶段的系统能够推理未来 7 秒的路况,而 VLA 模型则能够对几十秒的路况进行推理,显著提升了智能辅助驾驶系统的决策能力和适应性。
正因如此,VLA 被业界认为是端到端 2.0 的主要技术形态。目前,VLA 尚处于发展阶段,除 DeepMind 的 RT-2 外,还包括 OpenVLA 模型、Waymo 的 EMMA、Wayve 的 LINGO-2、英伟达 NaVILA 等。这其中,Waymo 的 EMMA 和 Wayve 的 LINGO-2 主要面向的是车载领域,RT-2、OpenVLA 和 NaVILA 则主要面向机器人领域。
下一代辅助驾驶技术基石
VLA 模型工作原理可以分为三个主要步骤:视觉感知、语言理解与决策生成、动作控制,并由多个关键模块支撑上述步骤,包括视觉编码器、语言编码器、跨模态融合模块和动作生成模块。
视觉编码器负责从图像或视频中提取高层次视觉特征,语言编码器则处理自然语言输入,跨模态融合模块将视觉和语言特征进行整合,而动作生成模块则根据融合后的信息生成车辆的控制指令。
在视觉感知阶段,车辆的摄像头、雷达等传感器就像是 VLA 模型的 " 眼睛 ",它们持续收集车辆周围的视觉信息,包括道路状况、交通标志、其他车辆和行人的位置等。这些原始数据被输入到模型的视觉处理模块,该模块利用先进的深度学习算法,对图像进行特征提取和分析,将复杂的视觉场景转化为计算机能够理解的特征向量。
例如,它能够识别出前方的红色圆形交通信号灯,判断出旁边车辆的行驶速度和方向,以及检测到路边的行人正在靠近马路。
语言理解与决策生成阶段是 VLA 模型的 " 大脑 " 核心运作部分。当视觉信息被处理后,模型会结合语言指令和自身的知识库进行分析和推理。
如果乘客发出 " 在前方路口右转 " 的语音指令,VLA 模型会首先理解这个语言信息,然后将其与当前的视觉感知信息进行融合。
它会分析前方路口的交通状况,如是否有车辆、行人,信号灯的状态等,同时考虑交通规则和安全因素,运用 " 思维链 " 技术进行类人推理,最终生成合理的驾驶决策。在这个例子中,模型可能会决定在确保安全的情况下,提前减速,打开右转向灯,并在合适的时机完成右转动作。
动作控制阶段则是 VLA 模型将决策转化为实际行动的过程。模型生成的驾驶决策,如加速、减速、转向等指令,会被发送到车辆的执行系统,就像是给车辆的各个 " 器官 " 下达操作命令。
执行系统根据这些指令,精确控制车辆的油门、刹车、方向盘等部件,实现车辆的安全行驶。例如,当模型决定减速时,执行系统会控制刹车系统,逐渐降低车速;当需要转向时,会精确调整方向盘的角度,确保车辆按照预定的轨迹行驶。
以在城市复杂路况下的驾驶场景为例,VLA 模型的工作过程更加清晰。当车辆行驶在拥挤的市区街道时,道路上可能同时存在各种车辆、行人、自行车,还有随时变化的交通信号灯和复杂的交通标志。
VLA 模型通过摄像头和雷达感知到这些信息后,会快速分析场景。如果遇到前方有行人正在过马路,同时交通信号灯即将变红,模型会理解这种复杂的情况,并根据语言指令和交通规则进行决策。它可能会决定立即减速停车,等待行人通过马路并且信号灯变为绿灯后,再继续行驶。
最重要的是,VLA 的推理过程全程可求导,能够通过车载显示向用户解释驾驶逻辑,增强用户信任感。
有行业人士表示,VLA 模型对智驾的演进意义重大,让端到端理解世界的能力更强后,在 L2 辅助驾驶到 L4 自动驾驶的飞跃中,VLA 可能会成为下一代智能辅助驾驶技术的基石。
但短期内,VLA 从 " 能用 " 到 " 好用 " 还面临两大难点。一是车端算力不足,比如理想车端双 Orin-X 芯片运行 " 端到端 +VLM" 算力已经比较吃紧。而 VLA 的模型结构更复杂,参数也会进一步扩大,对硬件算力和数据闭环的迭代能力要求就更高。
未来具备更强芯片整合能力和垂直整合能力的企业,有望在 VLA 技术的竞争中占据先发优势。目前行业头部竞争者如特斯拉、华为、小鹏、理想、Momenta 等都在逐渐走向软硬一体,针对自研模型定制化开发更匹配的智驾芯片,可以做到最大程度的优化。
另一大挑战是如何将端到端与多模态大模型的数据与信息作深度融合。这考验着智驾团队的模型框架定义能力、模型快速迭代能力。
为了解决上述问题,也正在探索多种技术路径。如有通过引入可解释性模块或后验可视化工具,对决策过程进行透明化;还有利用 Diffusion 模型对轨迹生成进行优化,确保控制指令的平滑性与稳定性。同时,将 VLA 与传统规则引擎或模型预测控制(MPC)结合,以混合架构提高安全冗余和系统鲁棒性也成为热门方向。
随着大模型技术、边缘计算和车载硬件的持续进步,VLA 有望在智能辅助驾驶领域扮演更加核心的角色,其不仅能为城市复杂道路提供更智能的驾驶方案,还可扩展至车队协同、远程遥控及人机交互等多种应用场景。
VLA 模型引发的技术变革正在重塑智能辅助驾驶产业格局,这场变革的终局或许不是某条技术路线的完胜,而是催生出分层市场。当然,VLA 是否能成为智能辅助驾驶的 " 最终归宿 " 目前尚难定论。从 CNN 到 Transformer,再到 VLM 与 VLA,技术迭代速度令人惊叹,未来新的突破或许已在酝酿。当软件定义汽车进入 2.0 时代,真正的较量才刚刚开始。