APP下载

关于ZAKER

合作

车云网 53分钟前

理想 VLA 司机大模型，它真能听懂人话

原创｜路知遥编辑｜Cong

理想 i8 上线，随即又对配置和价格进行了调整。这一系列的操作，围绕它的争议着实不少，不管是造型、价格或是小桌板，大家对这台车的评价褒贬不一。

但也有不少人认为，大家其实并没有真正认识到理想 i8 的杀手锏。理想的 VLA 司机大模型与 i8 同步发布，按照计划也会同步升级到所有 AD Max 车型上，包括了 Thor-U 平台和 Orin-X 平台，这意味着除了 i8 的用户，还会有大量的理想车主能在第一时间体会到 VLA 司机大模型的智驾实力。

VLA 司机大模型到底有什么不一样？今天，结合着上周基于 i8 的 VLA 司机大模型的上车体验简单来说一说。

BEV → 端到端 +VLM → VLA

应该说理想在过去几年，每年都有在智驾上的大动作。前年是 BEV，去年是端到端 +VLM，到了今年变成了 VLA。不明所以的人难免觉得理想一年一套东西，新概念频出，感觉都要去「考研」了。但其实，这三年一步一个台阶，其实一切都在同一个线路上稳步提升。

VLA 本身代表的就三个层面的结合，分别是：V 是 Vision（视觉），L 是 Language（语言），A 则是 Action（行动）。如果要把三代路径打通，那么 BEV 的本质是鸟瞰试图，对应的是视觉层面的大模型。而端到端 +VLM 则是两段的融合，端到端结合了视觉和行动两个层面的大模型，而 VLM 则是视觉语言大模型，简单来说在这个阶段其实 VLA 里面的三个层面都已经出现，唯一的问题是并没有做到三个层面的一个维度里的完整结合。

所以，端到端 +VLM 的本质是模仿学习，李想自己也把这套双系统架构比喻为「猴子开车」，虽然智驾能力提升了很多，但是还是无法达到人类顶级职业司机的水平。而在 VLA 则是强化学习，它解决了端到端的模仿学习不具备深度的逻辑思维能力的挑战，打破了端到端和 VLM 之间的沟通壁垒，以端到端 +VLM 的上限为起点，把整个智驾表现又进行了一次提升。

思考、沟通、记忆、自我学习

在这种能力的加持下，VLA 司机大模型在思考、沟通、记忆和自我学习四项能力上都有提升，在实际路面表现中，在一些场景下展示出不同以往的一些特点。

比如说最直观的一个感受，VLA 司机大模型在大屏上是可以看到完整的 CoT 推理过程的。对此，理想的工程师也反馈，其实如果没有 CoT 而是直接让模型来做决策，也是完全可行的。但理想希望在这个过程中，在决策偏复杂或是路口场景比较丰富的时候，展示模型「多两步」的思考决策过程，同时借助这个过程和用户建立一些沟通和信任。

另外就是，对于语义指令的理解能力的确有明显的提升。在实际试驾中，印象比较深的其实是在根据要求完成靠边停车之后，用户还可以对 VLA 司机大模型提出「往前再走 XX 米」这种诉求，展现 VLA 司机大模型对于距离的准确判断和控制。（事实上，人眼对于距离的判断反而不那么准确，实际试驾中就出现过我希望车向前挪 30 米但其实 30 米位置上有其他的障碍车辆已经占据位置的情形）

而在 workshop 的演示中也有一个类似的场景，我们可以通过语音助手要求 VLA 司机大模型「在蓝色车前面靠边停一下」，这样一个指令可以算是对于 VLA 三个层面的统一调度的最佳演示，不管是对于颜色还是距离还是周边障碍的识别，VLA 都给出了比较让人满意的表现。

类似的，在记忆的层面上，理想是可以通过语音助手实现比如「这条路以后开 XX 速度」的指令，并且实现对这一路段的记忆。这并不是说这个功能「无可挑剔」，在 workshop 上一位媒体老师提出的问题就很有意思：这条路以后开 70 的记忆指令 VLA 的确能记住，但这条路非常非常长，路况复杂多变，这个记忆是会完整适配到这条路上，还是说只会在这一段上生效呢？

当然大家不用很担心，在 VLA 司机大模型下，根据实际路面情况做出判断一定是必备技能，记住喜好是一回事，而保证安全才是更重要的指标。

所以很多时候，面对 VLA 司机大模型，我们的确可以做到「动动嘴皮子」就能开车，这也符合 VLA 司机大模型打造一个更好的家庭司机的理念。但如果开口就能开车，后排或者乘客是不是也可以借助语音助手介入驾驶环节呢？在这一点上理想早早做出了预案，借助语音的定位，屏蔽了除主驾以外的其他座位发出的和驾驶相关的所有命令。

数据、算法、算力、工程能力

在 workshop 中，理想自动驾驶高级算法专家詹锟就反复强调了四点：数据、算法、算力和工程能力。这四点对于理想率先推出 VLA 有着重大意义。

在销量增长下，理想的有效数据已经在上个月来到 12 亿公里。以海量用户行驶数据为基础，理想还有强大的生成数据能力，可以在仿真世界里创造出无数的 Corner Case 来训练模型，全面提升评测效率，缩减测试周期，降低测试成本。同时，13EFLOPS 的庞大算力，也为这种复杂的训练和仿真提供了算力保障。

一个数据说明了现阶段理想研发 VLA 司机大模型的效率优势：在 2023 年时，理想对于自动驾驶的评测成本是每公里 18.4 元；这个数据在去年已经下降到 4.84 元 / 公里；而今年上半年，这一成本已经进一步压缩到 0.53 元 / 公里。同时，今年上半年借助仿真测试，理想已经完成了超过 4000 万公里的评测，这个数字是去年全年的 8 倍。

在这样的基础上，我们也很容易好奇：VLA 司机大模型的上限到底在哪里？詹锟认为，这取决于模型、芯片和数据三者的共同进化。随着大模型推理效率的提升和芯片算力的增强，VLA 处理未知场景的 Few-shot 能力会越来越强。也许过不了很久，它就能看懂全国各地各不相同的红绿灯信号灯，也能准确判断大部分的交警手势，成为一名真正的老司机。

应该说，现阶段的 VLA 司机大模型肯定不是那个能让你在后排安心睡去的完美代驾。但其实我们在理想园区内，已经体验到了基于 VLA 司机大模型打造的 L4 级别无人小巴，也让我们感受到了 VLA 的上限却有更多畅想空间。VLA 已经初步具备了思考能力，这标志着智能驾驶正在进入由 AI 驱动的全新时代。这条路的终点依然遥远，但 VLA 的出现还是让未来更加明晰了一些。

我就知道你 " 在看 "

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频剪辑

AI视频剪辑

AI智能客服

AI工具箱

AI写稿助手

AI口语陪练

我的订阅

理想 VLA 司机大模型，它真能听懂人话

宙世代

一起剪

相关阅读

售19.58万起 小鹏G7累计交付量突破10000台

新势力复活赛没有“时间的朋友”

昊铂HL增程版将8月19日上市交付 搭载广汽星源增程

在乐道 L90 上，我看到了完全体的蔚来

告别「偏科生」时代！36 万的坦克500，让对手从此无路可走

7天，一场风暴！理想 i8「刮骨疗毒」，怒砍两个版本

奇瑞鼎力支持！鸿蒙智行首款MPV给了智界：实车谍照曝光

物理断网、防火墙盒子…车主为拒深蓝汽车广告拼了

奔驰CEO抨击欧盟燃油车禁令，呼吁“正视现实”

性价比对决升级！合资新车密集发力，丰田、大众、日产抢先出击

我国锂电池大突破：能量密度和续航能力提高2-3倍 可量产

宝骏云海俊雅版上市 置换一口价10.29-12.29万元

绿色表盘，让超霸有了新的味道

全新GL8陆尊开启预售 1000元定金抵5000元购车金

燃油车首次！一汽奥迪开启融合直售模式：全国统一价 买车不用多店比价

最新评论

车云网

热门推荐

热门订阅 换一批

星河商业观察

售19.58万起小鹏G7累计交付量突破10000台

昊铂HL增程版将8月19日上市交付搭载广汽星源增程

我国锂电池大突破：能量密度和续航能力提高2-3倍可量产

宝骏云海俊雅版上市置换一口价10.29-12.29万元

燃油车首次！一汽奥迪开启融合直售模式：全国统一价买车不用多店比价

热门订阅换一批