当时元戎启行的测试车遇到红灯就停了,后车因为看到标识而鸣笛催促。
即便通过地图打 tag 也需要至少一周,而大模型则可以实时处理。
在这时候,元戎启行决定着手研发 VLA 模型。
其实在更早的 2023 年底 GPT-4 发布时,周光团队就意识到 GPT 是真正的跨时代突破:
它打破了我们对 AI 发展进程的认知,原来从弱 AI 到强 AI 可能只需要几年,而非过去认为的 50 年。GPT-4 不仅能理解图像,还能做出逻辑判断,例如告诉我们 " 这里可以左转 "。
从去年 6 月着手研发到今天正式发布,元戎基于 VLA 模型的最新辅助驾驶系统已经正式落地,并且在今年已经收到了 5 款车型的 VLA 定点合作。
那么,理想、小鹏和元戎都在频繁提及的 VLA 是什么?它能给辅助驾驶带来哪些帮助?
什么是 VLA?
VLA 模型三个字母代表的分别是 Vision、Language、Action,即视觉 - 语 - 动作模型。
通过 VLA,汽车可以连接物理世界,通过对环境的了解,更好地帮人类开车。
这里很重要的一点是 L 的加入,正如开头的那个小故事,通过传统的模型,系统很难读懂 " 车辆左转不受灯控 " 的真正含义,也就无法解决这类场景。
但是语言模型的加入,就可以轻松化解。
同时,基于 VLA 模型的端到端具有思维链的能,拥有更时序的推理能,对于实时复杂路况的处理能也会越强。
并且 VLA 模型摆脱了 " 盒效应 ",可解释性更强。
除了识别车外文字类标识,加入了语言模型的 VLA 也可以实现语音控车," 司机感 " 更强。
但是周光称:"VLA 最难的是思维链和长时序推理,这才是 VLA 真正的核心能力 "。
周光称,这套平台最低可以适配到 15 万级车型,甚至 10 万级车型也有希望搭载。
VLA 能给辅助驾驶带来哪些好处?
那么大家都在宣传的 VLA 模型,除了增加了能够读懂车外文字、听懂车内语音指令的能力,还能给辅助驾驶带来哪些提升?
VLA 更有价值的是基于长时序推理和思维链,带来的复杂场景解决能力。
另外对 VLA 也有更强的空间语义理解能力,举个例子:
基于 BEV 架构的端到端存在的天生劣势是,它在无法看到盲区后的环境情况下,系统就会认为 " 不存在 "。
而人类则会利用经验来判断这种遮挡关系,进而采取谨慎保守的策略通行。
采用 VLA 的系统,在这类场景上的处理能够更加拟人,核心原因就是感知潜在风险,主动对盲区进行 " 预防性预判 ",这就是我们常说的 " 防御性驾驶 "。
除了空间语义理解能力,VLA 也能让系统更快、更好地应对异形障碍物与非结构化障碍,响应的速度更快。
5 辆定点,VLA 即将迎来量产
元戎的辅助驾驶是在 2024 年 8 月量产的,在即将到来的 2025 年 9 月,元戎即将迎来 10 万台量产交付的里程碑时刻。
周光谈到这一成绩的时候,除了自豪,还带有焦虑:随着交付量扩大,尤其是接近 10 万台的规模,我们面临更严格的市场监督。
早期千台、万台的阶段问题发生概率较低,但规模扩大后,任何问题都会被放大。"
与此同时,第一代端到端系统正逐渐触及性能瓶颈。于是,全新的 DeepRoute IO 2.0 应运而生。
VLA 无疑是今年智能驾驶圈最热门、被提及次数最多的词。也是各大车企、供应商抢占的高地,元戎率先量产意义重大,但是真正能够做成什么水平,给辅助驾驶带来多大提升,我们量产见分晓。
END