关于ZAKER 合作
新熵 57分钟前

智驾终局:VLA 与 WA 的“强脑”之争

智驾领域的 " 终场哨 " 尚未吹响,真正的终局属于那些能把 " 说话 " 和 " 想象 " 融合成 " 思考 " 的玩家。

原创新熵 新能源车组

作者丨茯神 编辑丨思原

当理想 i8 在暴雨中的山区公路上自动识别出被冲垮的路肩,平稳减速并规划出绕行路线时;当小鹏 P7 Ultra 仅凭视觉传感器就精准避让了横穿马路的流浪猫与突发变道的货车时,智能驾驶行业悄然迎来了一场技术革命的临界点。

新能源汽车的市场淘汰赛已进程过半,从电池续航、充电速度到座舱智能化,竞争之下市场早已进入红海,甚至智驾能力也正从争议不断的 " 加分项 " 转变为决定车企生死的 " 生存项 "。

今年 8 月,理想、小鹏、元戎启行在两周内先后宣布 VLA(Vision-Language-Action)大模型上车,规划帧率从 10Hz 跳到 20Hz,端到端时延压进 100ms。或许就在同时,华为在松山湖实验室里正演示着,一辆搭载激光雷达的轿车在仿真机里连续 " 想象 " 未来 5 秒,把自己从暴雨 + 锥桶 + 逆行三轮车的死局中救了出来,用的正是 WA(World Action)世界模型。

▲图 / 小红书截图

两条不同的路线,却是同样的终局。VLA 让汽车 " 开口说话 ",WA 让汽车 " 动脑想象 "。谁先把 " 说话 " 变成 " 思考 ",谁就在新能源淘汰赛的最后一节拿到发球权。

后端到端时代

在智能驾驶行业的早期发展阶段,硬件无疑是竞争的核心所在。车企们深知,要想让车辆具备智能驾驶的能力,首先得让车辆 " 看 " 得见、" 听 " 得清、" 反应 " 得快。因此,它们在传感器、芯片等硬件上投入了大量的资金和精力。

传感器就如同车辆的 " 眼睛 " 和 " 耳朵 ",能够感知周围的环境信息。激光雷达、摄像头、毫米波雷达等不同类型的传感器各有优劣,车企们需要根据自身的技术路线和成本预算进行选择和搭配。

芯片则是车辆的 " 大脑 ",负责对传感器采集到的数据进行快速处理和决策。高性能的芯片能够提供强大的计算能力,支持复杂的算法运行,从而实现更高级的智能驾驶功能。英伟达、英特尔等芯片巨头,推出的自动驾驶芯片在算力、功耗等方面不断取得突破,为智能驾驶的发展提供了有力的支持,自然成了车企们争相合作的对象。

▲图 / 英伟达旗舰智驾芯片 Thor

然而在之前的硬件竞赛逻辑里,车企们普遍认为 " 传感器数量决定感知能力 ",但这种思路很快陷入了高成本与低效率的双重困境。以激光雷达为例,2020 年一颗高性能激光雷达的成本超过 1 万美元,搭载 3 颗激光雷达的车型仅硬件成本就增加 3 万美元,这直接导致早期智驾车型的售价普遍超过 50 万元,难以进入主流市场。

小鹏 P7 早期版本因搭载两颗激光雷达,售价较同配置无激光雷达版本高出 8 万元,上市后月销长期徘徊在 3000 辆以下,直到推出简化激光雷达配置的版本才实现销量突破。

2019 年,作为端到端路线的先行者,特斯拉为智能驾驶技术的发展开辟了一条新的道路。该路线的核心思想是通过大量实际路测数据训练模型,让车辆直接从传感器输入到控制输出,实现自动驾驶技术的快速迭代。

特斯拉利用其庞大的车队规模和广泛的用户群体,收集了海量实际路测数据,这些数据涵盖了各种不同的路况、天气条件和驾驶场景。再通过对这些数据的分析和训练,自动驾驶模型不断优化和改进,最终实现自动辅助导航驾驶、自动变道、自动泊车等一系列高级功能。

国内车企在看到端到端路线的成功之后,随即纷纷效仿。它们加大了在数据采集和模型训练方面的投入,希望能够在这场智能驾驶的竞赛中占据一席之地。

不过,端到端路线并非完美无缺,它在处理长尾场景时存在着明显的局限 , 比如突然出现的行人、违规行驶的车辆、恶劣天气下的道路状况等。由于这些场景在实际路测中出现的频率较低,端到端模型很难通过少量的数据进行充分的学习和训练,因此在面对这些情况时往往难以做出准确的判断和决策。

VLA 闪电逆袭

端到端路线的局限,为 VLA 路线的崛起埋下了伏笔。

2023 年底,理想汽车率先提出 VLA 技术概念,其核心是通过整合视觉、语言、行动三种模态,让智驾系统像人类一样 " 观察、推理、决策 "。

与端到端的 " 数据映射 " 不同,VLA 系统能够将视觉感知到的信息转化为语言描述,再通过语言模型进行逻辑推理,最后输出具体的行动指令。

在智能驾驶的赛道上," 先发优势 " 曾被视为不可逾越的壁垒。华为早在 2019 年就推出了 ADS(高阶智能驾驶系统),凭借激光雷达 + 高精地图的组合,一度成为行业技术标杆;百度 Apollo 更是从 2013 年就开始布局智驾,累计投入超过 500 亿元。然而,VLA 路线的出现,让理想、小鹏等 " 后发者 " 实现了闪电逆袭,彻底改写了行业竞争格局。

理想用户在日常使用汽车的过程中,车辆会持续收集各种驾驶数据,包括道路信息、交通状况、驾驶行为等。这些数据不仅数量庞大,而且涵盖了多种不同的场景和情况,为 VLA 模型的训练提供了丰富的素材。通过对这些数据的分析和挖掘,理想汽车的研发团队能够深入了解用户的需求和驾驶习惯,针对性地对 VLA 模型进行优化和改进,提高模型的准确性和适应性。

小鹏汽车则在算力方面加大投入,构建起强大的云端训练集群,为 VLA 模型的高效训练提供了有力支持。

其研发团队可以利用云端训练集群同时运行多个模型训练任务,大大提高了训练效率。此外,云端训练集群还具有可扩展性,能够根据研发需求随时增加计算资源和存储容量,满足 VLA 模型不断迭代和优化的需求。

当然,并不是所有玩家都有理想、小鹏的体量。成立于 2019 年的元戎启行,2024 年只交付了 3.4 万辆,却选择 "All in VLA"。其 CEO 周光算过一笔账:做 10 万辆车、每车每天跑 50 公里、回传率 20%,一年就能攒到 18 亿公里数据,刚好跨过 " 冷启动死亡谷 "。

为了抢时间,元戎把 DeepRoute IO 2.0 平台开放给五家主机厂共享数据、共享算力,换取 " 上车量 "。今年 8 月 26 日,元戎发布 VLA 量产版本,宣称 "Orin-X+ 征程 5" 双芯片方案就能跑通 20Hz 规划帧率,把 BOM 成本压到 5500 元人民币,比华为 MDC 810 低 32%。对于年销量较低且资金不充裕的企业而言,这几乎是唯一可选的 " 船票 "。周光直言:"VLA 让中小车企第一次有机会用低成本复制头部体验,窗口期 18 个月,错过就没了。"

WA 才是终极?

与全民 VLA 的喧嚣不同,华为、蔚来却选择了一条更为 " 激进 " 的技术路线—— WA(World Model,世界模型)。

WA 路线的核心逻辑是,让智驾系统通过云端模拟数据构建一个 " 数字孪生世界 ",从而实现对真实世界的深度理解。与 VLA 的 " 从数据到决策 " 不同,WA 试图让系统 " 先理解世界,再作出决策 ",这种思路被不少专家视为智驾的 " 终极答案 "。

华为 ADS 研发负责人王军,曾用一个生动的比喻解释 WA 的优势:" 如果把智驾系统比作学生,VLA 是通过做海量习题来应对考试,遇到没见过的题目就会束手无策;而 WA 是先理解知识点,无论遇到什么新题目,都能通过规律推导得出答案。" 蔚来的李斌也曾在内部邮件中称:"WA 让车拥有‘想象力’,而不是‘记忆力’。"

从理论上看,WA 系统能够从根本上解决 VLA 系统对数据的依赖,尤其是在处理长尾场景时,具备更强的通用性和适应性。

不过,这些优势目前还是基于理论,想要实现商业化落地,WA 路线仍需突破资金、数据、模拟与现实平衡的三重考验,也使其暂时成为了 " 巨头专属 "。

构建数字孪生世界,涵盖硬件设备、软件研发、场景建模等多个领域。华为在 WA 路线上的投入已超过 200 亿元,其中仅数字孪生平台的服务器集群就耗资 50 亿元,每年的电力和维护成本高达 8 亿元;蔚来为了研发 WA 系统,专门成立了 " 世界模型实验室 ",截至 2024 年,累计投入超过 150 亿元,占其总研发费用的 40%。

▲图 / 华为

这种级别的资金投入,将绝大多数中小车企拒之门外。某新势力车企创始人曾坦言:" 我们不是不想做 WA,而是做不起。仅构建基础的数字孪生场景,就需要至少 50 亿元,这相当于我们 3 年的研发预算,根本无法承担。" 相比之下,VLA 路线的研发投入仅为 WA 的十分之一,更适合资金有限的企业。

VLA 让汽车先学会 " 说话 ",WA 让汽车再学会 " 想象 "。前者或许是眼下的赛点,后者则可能是三年之后的终点。对于理想、小鹏,VLA 是逆袭的通行证;对于华为、蔚来来说,WA 是护城河的奠基石。而更多年销量不过十万辆的品牌,只能在窗口期里拼命挤上船,哪怕船票是成为 " 代工厂 "。

智驾领域的 " 终场哨 " 尚未吹响,真正的终局,属于那些能把 " 说话 " 和 " 想象 " 融合成 " 思考 " 的玩家。在这场没有硝烟的战争中,只有那些既能把握当下市场需求,又能洞察未来技术趋势的企业,才能在新能源汽车的淘汰赛中笑到最后。

参考资料:

经济观察报,《理想的 VLA" 长征 "》

虎嗅,《新一轮智驾 PK,迈入实战时刻》

远川汽车评论,《让一部分辅助驾驶先学会思考》

42 号车库,《元戎启行发布 VLA 模型,起点是让 AI 学会害怕?》

- END -

新熵

新熵

百略网是一家专注于泛互联网商业革新和科技创新的智识型 + 知识型新媒体

订阅

觉得文章不错,微信扫描分享好友

扫码分享