关于ZAKER 合作
车云网 53分钟前

理想 VLA 司机大模型,它真能听懂人话

原创|路知遥 编辑|Cong

理想 i8 上线,随即又对配置和价格进行了调整。这一系列的操作,围绕它的争议着实不少,不管是造型、价格或是小桌板,大家对这台车的评价褒贬不一。

但也有不少人认为,大家其实并没有真正认识到理想 i8 的杀手锏。理想的 VLA 司机大模型与 i8 同步发布,按照计划也会同步升级到所有 AD Max 车型上,包括了 Thor-U 平台和 Orin-X 平台,这意味着除了 i8 的用户,还会有大量的理想车主能在第一时间体会到 VLA 司机大模型的智驾实力。

VLA 司机大模型到底有什么不一样?今天,结合着上周基于 i8 的 VLA 司机大模型的上车体验简单来说一说。

BEV → 端到端 +VLM → VLA

应该说理想在过去几年,每年都有在智驾上的大动作。前年是 BEV,去年是端到端 +VLM,到了今年变成了 VLA。不明所以的人难免觉得理想一年一套东西,新概念频出,感觉都要去「考研」了。但其实,这三年一步一个台阶,其实一切都在同一个线路上稳步提升。

VLA 本身代表的就三个层面的结合,分别是:V 是 Vision(视觉),L 是 Language(语言),A 则是 Action(行动)。如果要把三代路径打通,那么 BEV 的本质是鸟瞰试图,对应的是视觉层面的大模型。而端到端 +VLM 则是两段的融合,端到端结合了视觉和行动两个层面的大模型,而 VLM 则是视觉语言大模型,简单来说在这个阶段其实 VLA 里面的三个层面都已经出现,唯一的问题是并没有做到三个层面的一个维度里的完整结合。

所以,端到端 +VLM 的本质是模仿学习,李想自己也把这套双系统架构比喻为「猴子开车」,虽然智驾能力提升了很多,但是还是无法达到人类顶级职业司机的水平。而在 VLA 则是强化学习,它解决了端到端的模仿学习不具备深度的逻辑思维能力的挑战,打破了端到端和 VLM 之间的沟通壁垒,以端到端 +VLM 的上限为起点,把整个智驾表现又进行了一次提升。

思考、沟通、记忆、自我学习

在这种能力的加持下,VLA 司机大模型在思考、沟通、记忆和自我学习四项能力上都有提升,在实际路面表现中,在一些场景下展示出不同以往的一些特点。

比如说最直观的一个感受,VLA 司机大模型在大屏上是可以看到完整的 CoT 推理过程的。对此,理想的工程师也反馈,其实如果没有 CoT 而是直接让模型来做决策,也是完全可行的。但理想希望在这个过程中,在决策偏复杂或是路口场景比较丰富的时候,展示模型「多两步」的思考决策过程,同时借助这个过程和用户建立一些沟通和信任。

另外就是,对于语义指令的理解能力的确有明显的提升。在实际试驾中,印象比较深的其实是在根据要求完成靠边停车之后,用户还可以对 VLA 司机大模型提出「往前再走 XX 米」这种诉求,展现 VLA 司机大模型对于距离的准确判断和控制。(事实上,人眼对于距离的判断反而不那么准确,实际试驾中就出现过我希望车向前挪 30 米但其实 30 米位置上有其他的障碍车辆已经占据位置的情形)

而在 workshop 的演示中也有一个类似的场景,我们可以通过语音助手要求 VLA 司机大模型「在蓝色车前面靠边停一下」,这样一个指令可以算是对于 VLA 三个层面的统一调度的最佳演示,不管是对于颜色还是距离还是周边障碍的识别,VLA 都给出了比较让人满意的表现。

类似的,在记忆的层面上,理想是可以通过语音助手实现比如「这条路以后开 XX 速度」的指令,并且实现对这一路段的记忆。这并不是说这个功能「无可挑剔」,在 workshop 上一位媒体老师提出的问题就很有意思:这条路以后开 70 的记忆指令 VLA 的确能记住,但这条路非常非常长,路况复杂多变,这个记忆是会完整适配到这条路上,还是说只会在这一段上生效呢?

当然大家不用很担心,在 VLA 司机大模型下,根据实际路面情况做出判断一定是必备技能,记住喜好是一回事,而保证安全才是更重要的指标。

所以很多时候,面对 VLA 司机大模型,我们的确可以做到「动动嘴皮子」就能开车,这也符合 VLA 司机大模型打造一个更好的家庭司机的理念。但如果开口就能开车,后排或者乘客是不是也可以借助语音助手介入驾驶环节呢?在这一点上理想早早做出了预案,借助语音的定位,屏蔽了除主驾以外的其他座位发出的和驾驶相关的所有命令。

数据、算法、算力、工程能力

在 workshop 中,理想自动驾驶高级算法专家詹锟就反复强调了四点:数据、算法、算力和工程能力。这四点对于理想率先推出 VLA 有着重大意义。

在销量增长下,理想的有效数据已经在上个月来到 12 亿公里。以海量用户行驶数据为基础,理想还有强大的生成数据能力,可以在仿真世界里创造出无数的 Corner Case 来训练模型,全面提升评测效率,缩减测试周期,降低测试成本。同时,13EFLOPS 的庞大算力,也为这种复杂的训练和仿真提供了算力保障。

一个数据说明了现阶段理想研发 VLA 司机大模型的效率优势:在 2023 年时,理想对于自动驾驶的评测成本是每公里 18.4 元;这个数据在去年已经下降到 4.84 元 / 公里;而今年上半年,这一成本已经进一步压缩到 0.53 元 / 公里。同时,今年上半年借助仿真测试,理想已经完成了超过 4000 万公里的评测,这个数字是去年全年的 8 倍。

在这样的基础上,我们也很容易好奇:VLA 司机大模型的上限到底在哪里?詹锟认为,这取决于模型、芯片和数据三者的共同进化。随着大模型推理效率的提升和芯片算力的增强,VLA 处理未知场景的 Few-shot 能力会越来越强。也许过不了很久,它就能看懂全国各地各不相同的红绿灯信号灯,也能准确判断大部分的交警手势,成为一名真正的老司机。

应该说,现阶段的 VLA 司机大模型肯定不是那个能让你在后排安心睡去的完美代驾。但其实我们在理想园区内,已经体验到了基于 VLA 司机大模型打造的 L4 级别无人小巴,也让我们感受到了 VLA 的上限却有更多畅想空间。VLA 已经初步具备了思考能力,这标志着智能驾驶正在进入由 AI 驱动的全新时代。这条路的终点依然遥远,但 VLA 的出现还是让未来更加明晰了一些。

我就知道你 " 在看 "