原创|路知遥 编辑|Cong
理想 i8 上线,随即又对配置和价格进行了调整。这一系列的操作,围绕它的争议着实不少,不管是造型、价格或是小桌板,大家对这台车的评价褒贬不一。
但也有不少人认为,大家其实并没有真正认识到理想 i8 的杀手锏。理想的 VLA 司机大模型与 i8 同步发布,按照计划也会同步升级到所有 AD Max 车型上,包括了 Thor-U 平台和 Orin-X 平台,这意味着除了 i8 的用户,还会有大量的理想车主能在第一时间体会到 VLA 司机大模型的智驾实力。
VLA 司机大模型到底有什么不一样?今天,结合着上周基于 i8 的 VLA 司机大模型的上车体验简单来说一说。
BEV → 端到端 +VLM → VLA
应该说理想在过去几年,每年都有在智驾上的大动作。前年是 BEV,去年是端到端 +VLM,到了今年变成了 VLA。不明所以的人难免觉得理想一年一套东西,新概念频出,感觉都要去「考研」了。但其实,这三年一步一个台阶,其实一切都在同一个线路上稳步提升。
VLA 本身代表的就三个层面的结合,分别是:V 是 Vision(视觉),L 是 Language(语言),A 则是 Action(行动)。如果要把三代路径打通,那么 BEV 的本质是鸟瞰试图,对应的是视觉层面的大模型。而端到端 +VLM 则是两段的融合,端到端结合了视觉和行动两个层面的大模型,而 VLM 则是视觉语言大模型,简单来说在这个阶段其实 VLA 里面的三个层面都已经出现,唯一的问题是并没有做到三个层面的一个维度里的完整结合。
所以,端到端 +VLM 的本质是模仿学习,李想自己也把这套双系统架构比喻为「猴子开车」,虽然智驾能力提升了很多,但是还是无法达到人类顶级职业司机的水平。而在 VLA 则是强化学习,它解决了端到端的模仿学习不具备深度的逻辑思维能力的挑战,打破了端到端和 VLM 之间的沟通壁垒,以端到端 +VLM 的上限为起点,把整个智驾表现又进行了一次提升。
思考、沟通、记忆、自我学习
在这种能力的加持下,VLA 司机大模型在思考、沟通、记忆和自我学习四项能力上都有提升,在实际路面表现中,在一些场景下展示出不同以往的一些特点。
比如说最直观的一个感受,VLA 司机大模型在大屏上是可以看到完整的 CoT 推理过程的。对此,理想的工程师也反馈,其实如果没有 CoT 而是直接让模型来做决策,也是完全可行的。但理想希望在这个过程中,在决策偏复杂或是路口场景比较丰富的时候,展示模型「多两步」的思考决策过程,同时借助这个过程和用户建立一些沟通和信任。
所以很多时候,面对 VLA 司机大模型,我们的确可以做到「动动嘴皮子」就能开车,这也符合 VLA 司机大模型打造一个更好的家庭司机的理念。但如果开口就能开车,后排或者乘客是不是也可以借助语音助手介入驾驶环节呢?在这一点上理想早早做出了预案,借助语音的定位,屏蔽了除主驾以外的其他座位发出的和驾驶相关的所有命令。
数据、算法、算力、工程能力
在 workshop 中,理想自动驾驶高级算法专家詹锟就反复强调了四点:数据、算法、算力和工程能力。这四点对于理想率先推出 VLA 有着重大意义。
一个数据说明了现阶段理想研发 VLA 司机大模型的效率优势:在 2023 年时,理想对于自动驾驶的评测成本是每公里 18.4 元;这个数据在去年已经下降到 4.84 元 / 公里;而今年上半年,这一成本已经进一步压缩到 0.53 元 / 公里。同时,今年上半年借助仿真测试,理想已经完成了超过 4000 万公里的评测,这个数字是去年全年的 8 倍。