关于ZAKER 合作
蓝鲸财经 27分钟前

VLA 首发上车,理想汽车勇闯“技术无人区”

" 买车送私人司机 ",正在由理想照进现实。

日前,理想汽车 " 五年磨一剑 " 的辅助驾驶新阶段性成果—— VLA 司机大模型,在其重磅新车 i8 产品发布会上正式出鞘。

i8 上市当晚,知名相声演员岳云鹏(小岳岳)的一条 " 刁难 " 辅助驾驶系统的短片,实力破圈。只见其在发出 " 你快点、加速、慢一点 "" 环岛第二个路口出 "" 并线 "" 前边靠边停车 " 等语音指令后,车辆就立即理解并执行复杂动作。

发布会结束后,买理想送 " 司机 " 登上了微博热搜,最高位置去到榜单第 16 位。

那么,何为 VLA?即视觉语言行动模型(Vision Language Action Model),它不仅具备思维、沟通、记忆,以及自主学习四大核心能力,还将带来防御驾驶、平稳舒适、三点掉头、连续任务、地库行驶五大体验升级。

" 今年 VLA 上车之后,就会让大家有非常好的、安心的司机体验,有安全感,有舒适性,并且是越开越好。" 理想汽车自动驾驶研发高级副总裁郎咸朋日前受访时指出," 再往后,有了 VLA 模型的加持,辅助驾驶会往更好的,一个移动空间的思路去发展,这个车它能在安心、安全的基础上,帮你去做其他的事情,我相信那天很快就会到来。"

从模仿到强化学习:做正确的事,不做容易的事

在国内辅助驾驶江湖上,理想汽车可以说是个 " 后起之秀 "。但其仅用五年时间,便实现了硬件平台和技术的快速迭代,上演了 " 由追赶到超越 " 的戏码,如今又一举闯入 " 技术无人区 "。

究其背后原因,与理想汽车在产品和技术研发过程中,始终秉持 " 第一性原理 " 有关。其强调回归事物的本质,以 " 解决问题 " 为导向实现创新,而不是盲目关注竞争、依赖现有的经验。

在以规则算法为核心的 " 人工时代 ",理想汽车从最早的 2D、3D 感知开始研发,到 BEV(鸟瞰图)、NPN(先验网络)、无图等技术架构,一步一个脚印,奋起直追。就像其董事长兼 CEO 李想所言 " 没有葵花宝典,我也不是吃第 10 个包子的人 "。

基于 " 规则算法 " 的特点,人工时代辅助驾驶性能提升的核心,关键在于工程师的能力和经验。但在郎咸朋看来,人都有不足,很多场景需要 " 堆人 " 去研发才能解决;且很多场景是按下葫芦起来瓢," 把这个规则弄完了,那个规则又不行了 "。

为了解决人工时代无法解决所有 corner case 极端场景的问题,理想汽车开启自研 " 端到端 +VLM 架构 " 之路,实现了从人工时代到 AI 时代的跨越。

" 端到端 +VLM 架构 " 是理想汽车首次用 AI 的方式做辅助驾驶,也是两个时代的 " 分水岭 "。这一架构的本质是 " 模仿学习 ",指的是用人类驾驶数据训练模型,数据数量和质量决定性能。

但伴随技术研发的深入,理想汽车又看到了 " 端到端 +VLM 架构 " 面临的痛点。

比如当训练数据量到达一定水平时,端到端模型性能提升速度会变慢。理想在去年 7 月发布 " 端到端 +VLM 架构 " 时,MPI 接管里程超过 12 公里。经过 7 个月的迭代,训练数据从 100 万 Clips(视频片段)增长到 1000 万 Clips,MPI 接管里程超过 120 公里,性能提升速度实现 10 倍增长。但训练数据量达到 1000 万 Clips 后,今年 5 个月的时间,其模型 MPI 接管里程仅增长 2 倍左右。

再比如,端到端的模仿学习本身不具备深度的逻辑思维能力,这会导致三个问题:违反常理的行为;开车不够聪明,做决策时没有深度思考;安全感不足,不能根据场景做出预防性判断。

用李想的话来说,端到端模型像猴子开车,它能够学习人类行为,但并不理解物理世界。

延续 " 上一代技术能力的上限,是下一代技术能力的起点 " 这一原则,理想汽车开始自研 VLA 司机大模型。如今的 VLA,本质是强化学习,用生成数据结合仿真环境训练模型。仿真迭代的效率决定性能,解决了端到端 +VLM 现存的挑战。

" 做正确的事,不做容易的事。" 这句话被写入理想汽车的行为准则,是其企业文化的内核。在上半场的电动化比拼中,理想汽车看到了补能设施不足、消费者续航焦虑的痛点,未随大流,也不惧争议,让增程式路线上演 " 真香定律 ";基于对家庭用户需求的深入分析,理想从刚需出发,注重实际使用场景的需求,开创了 " 冰箱彩电大沙发 " 的产品形态,让其走向行业标配等。

迈入智能化下半场,理想汽车则在辅助驾驶技术演进道路上,走出了一条清晰的路径,以 " 生产一代、研制一代、预研一代、探索一代 " 的研发节奏,在辅助驾驶领域构建起难以逾越的竞争壁垒。

VLA 司机大模型率先上车,将 " 梯队 " 拿掉

那么,VLA 首发上车,将带来怎样的用户体验颠覆呢?

今年 6 月底,郎咸朋曾在微博上转发李想的言论 " 理想汽车牢牢站稳辅助驾驶等多方面的第一梯队 " 称,VLA 司机大模型交付后,理想可以把 " 梯队 " 拿掉。

这番话背后的底气,源于 VLA 架构的技术能力,以及背后的体验提升。据悉,理想自研的 VLA,拥有强大的 3D 空间理解能力、逻辑推理能力和行为生成能力,让车辆具备感知、思考和适应环境的能力。它让 AI 由信息工具、辅助工具,进化为交通领域的专业生产工具,真正让 AI 成为 " 司机 "。

拆解 VLA 技术架构,主要分为几个部分。

首先是 "V",即空间智能(Spatial Intelligence),代表模型对空间的理解能力,例如远距空间感知和全局语义理解能力。各类传感器(主要是视觉传感器)以及导航信息输入模型,让模型具备精细化感知和理解空间的能力。

其次是 "L",即语言智能(Linguistic Intelligence),代表模型的思维能力和沟通与记忆能力。其指的是用语言生成对空间的理解,模型把在空间内感知到的所有内容,用高度压缩的编码表达出来,输出决策。模型不仅可以在内部通过 CoT 思维链生成决策,人类也可以在外界直接给模型决策。

最终来到 "A",即行为策略(Action Policy)。其根据对场景高度压缩的描述进行推理,并生成最终的行为。与端到端最大的不同是,VLA 使用了 Diffusion 扩散模型规划轨迹。

传统的轨迹规划是将轨迹点连成一条折线,再用数学方式人为拟合成光滑曲线;Diffusion 扩散模型直接可以生成平滑的行车轨迹,并且 Diffusion 可以根据决策生成多种行车轨迹,让车辆完成更多驾驶的可能性(驾驶技巧)。

总的来说,VLA 具备四大核心能力,即思维、沟通、记忆和自主学习。在思考能力上,其实时推理速度可达到 10 赫兹以上,并呈现思维推理过程。在沟通上,用户可通过语言和模型进行交流," 开快点、开慢点、左转、右转 " 等基本操作均可实现。VLA 还能通过语言理解记住用户的偏好选择,记住用户之前下发过的指令。至于自主学习能力,其能在仿真环境里无监督地自我迭代和提升。

站在用户的角度而言,能够感知到的体验升级主要有五点。

首先,重中之重,与安全相关,即防御性驾驶。因为其对场景理解和分析更加透彻,所以可以提前做出更好的决策和行为。比如,系统准确识别到前面是丁字路口之后,会分析出存在盲区,所以提前刹车预防潜在的碰撞风险。

其次,平稳舒适。得益于感知能力和行为能力的升级,VLA 的驾驶平顺性大大提升。比如在仪表台上放一杯咖啡,车辆在加减速、转弯、超车等一系列复杂动作的过程当中,咖啡都不会洒出来。

再者,还有三点掉头、连续任务、地库行驶。" 在端到端里没做到的,VLA 都可以做到。我们可以和 VLA 模型连续进行交流和沟通,完成多个驾驶任务。你跟滴滴司机怎么说的,就跟 VLA 司机大模型怎么说就可以了。" 郎咸朋说道。

对于 VLA 上车,理想汽车的目标是让熟悉其车的人买 i8 一上车就会有非常大的体验。同时,让没用过辅助驾驶的人,在使用辅助驾驶的时候,也会有很强的安全感和安心感,而且还有很强的舒适程度。

四大优势,奠定 VLA 大模型技术壁垒

" 现在来看,只有我们才有机会第一个去做出 VLA。" 郎咸朋扬言,理想汽车能够比友商早、第一个落地 VLA,是源于理想在数据、算法、算力、工程四方面的优势。

首先,是数据,其分为采集数据和生成数据。据悉,理想 VLA 后训练过程中,使用了 10% 的生成数据,90% 的采集数据。

在采集数据方面,得益于销量增长,截至 2025 年 7 月,理想已累计 12 亿公里的有效数据,12 亿公里数据确保了场景多样性。理想将采集数据分为不同类型,从天气、时间段、道路类型、车道类型、路口类型、交通状况、合规行为、接管类型等维度进行分析。

而生成数据则来自于世界模型,世界模型能够实现重建和生成场景," 重建 " 指的是将真实数据通过三维重建出来," 生成 " 指的是根据真实数据举一反三,做出类似的场景。世界模型既可以模拟时间天气的变化,也可以直接生成危险场景数据,以此实现场景(数据)分布更加均衡。

" 我们有 12 亿数据,只有在充分了解这些数据的基础上,才能够更好的生成数据。如果没有这些数据基础,首先不能训练世界模型,其次也不清楚要生成什么样的数据。同时,基础训练算力和推理算力的支撑需要大量资金和技术能力,如果没有之前的积累是不能完成的。" 郎咸朋表示。

其次,算法方面,理想升级了模型评测方式,使用世界模型做模型的仿真测试,使得在后训练、强化学习等环节的评测效率更高。传统模型评测方式使用实车测试,实车测试无法 100% 复现所有 bad case 场景、测试周期长且成本高。世界模型中的仿真测试可以用于验证模型是否具备未知场景的理解和推理能力,自动生成 " 真题 "(完全复现某个场景)和 " 模拟题 "(新的场景),对于精度要求极高的极限场景可以做到 1:1 还原,大幅缩短测试周期,测试成本也大幅降低。

在郎咸朋看来,理想最核心的技术壁垒还是世界模型仿真的壁垒,这个壁垒是非常高的,别人很难短时间去复制出来。因为它的迭代速度得确保,且还得用实车去测试,所以很难超越。

再者,在算力方面,目前理想汽车总算力为 13EFLOPS,其中 3EFLOPS 用于推理,10EFLOPS 用于训练。此外,理想汽车拥有强大的工程落地能力,主要体现在量化精度高和跨平台部署能力强。

理想汽车自动驾驶高级算法专家詹锟在受访时指出,很多团队并不是认为 VLA 不好,而是因为 VLA 部署有困难,把它真正落地是非常具有挑战性的事情," 尤其是在边缘端芯片算力不够的情况下是不可能完成的,所以我们是在大算力芯片上才能部署。所以这不仅仅是工程创新,还需要工程部署大范围优化才能实现。"

从辅助驾驶赛道上的后来者,到以 " 黑马之姿 " 闯进第一梯队,再到将 " 梯队 " 拿掉,理想汽车用了五年时间实现了三级跳。如今,VLA 的强大潜力,正吸引其他玩家的跟进,如同电动化上半场的增程、" 冰箱彩电大沙发 " 等市场现象的复现。而展望下一个 10 年,理想汽车在智能化下半场的持续领跑,也有望进一步转化为市场竞争优势,未来可期。

相关标签
蓝鲸财经

蓝鲸财经

蓝鲸财经,专注财经新闻报道、财经事件解读。

订阅

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容