本文来源:时代财经 作者:贺晴
距离理想汽车 CEO 李想上一次谈 AI 已经过去了 130 多天,在 5 月 7 日晚的《理想 AI Talk 第二季》中,李想分享了对于人工智能的最新思考,VLA 司机大模型的作用、训练方法和挑战。
在这 130 多天时间里,外部世界发生了巨大的变化。DeepSeek 横空出世,在全球掀起 AI 热潮,致力于要做 AI 公司的理想汽车置身其中," 拥抱 DeepSeek 的这个过程比我们想象得要快。" 李想称。据介绍,得益于 DeepSeek 的开源,理想汽车在 VLA 司机大模型的语言能力研发上提速显著,节省了近 9 个月的时间和数亿元成本。
也正因如此,理想汽车今年 3 月 27 日宣布把自研的整车操作系统理想星环 OS 开源。" 我自己内心,包括谢炎(理想汽车 CTO)的内心就是 DeepSeek 给我们带来那么大的帮助,我们应该给社会贡献点什么。不让行业那么卷。说白了纯粹是感谢 DeepSeek。"
而在这 130 多天的时间里,李想本人依然是舆论场中颇具话题性的代表人物。就在《理想 AI Talk 第二季》上线的同一天," 李想年薪 6.39 亿元 " 的话题冲上微博热搜。对此,理想汽车方面回应时代财经称,事实上,李想 2024 年全部实际薪酬为 266 万元。目前披露的 6.39 亿,属于公司按照美股上市公司(美国会计准则)对于期权的特殊记会计费用方式,不是李想的实际薪资收益。
李想也谈到近期的 " 智驾 " 争议,今天的辅助驾驶走到了一个新的十字路口上,对此,他回应称:" 经过多年,从规则算法到端到端 +VLM(视觉语言),再到现在真正迈入 VLA(视觉语言行动模型)的阶段,现在比较像‘黎明前的黑暗’。"
"AI 成为生产工具才能真正爆发 "
为什么人类一定需要辅助驾驶?为什么科技不能就此止步?
抛出这两个问题后,李想的回答是:只要人类会雇佣司机。我觉得人工智能技术其实就是把类似这样的一些功能和角色去变成真正的生产力、生产工具,然后去进行替代。
李想表示:" 判断 Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。"
而 VLA 能够让 AI 真正成为司机,成为交通领域的专业生产工具。" 对于理想汽车而言,VLA 是一个司机大模型,像人类的司机一样去工作的一个模型。" 李想说。
创业做 AI 是 " 造人 ",而理想汽车做的就是在 " 造司机 "。
VLA 最早由 DeepMind 于 2023 年提出并应用在机器人领域。根据财通证券研报,VLA 不仅融合了 VLM(视觉语言模型)的感知能力和端到端模型(E2E)的决策能力,更引入了 " 思维链 " 技术,实现了全局上下文理解与类人推理能力。
2024 年,理想汽车正式推送了端到端 +VLM(视觉语言模型)辅助驾驶。不过,端到端模型在处理复杂问题时存在局限,虽可借助 VLM 视觉语言模型辅助,但 VLM 使用开源模型,使其在交通领域的能力有限。同时端到端模型也难以与人类沟通。
2024 年,理想汽车开始了 VLA 研究。VLA 的训练分为预训练、后训练和强化训练三个环节,类似于人类学习驾驶技能的过程。
在理想汽车进行 VLA 研究的这一时期,横空出世的 DeepSeek 全球爆火。根据公开资料,2024 年 12 月,视觉模型 DeepSeek-VL2、模型 DeepSeek-V3 首个版本相继发布并同步开源。2025 年 1 月 15 日,DeepSeek 官方 App 正式上线。
彼时,李想问团队:"DeepSeek 开源开得如此彻底,我们是否应该基于它的开源,去做我们的 VLA 的 L(language 语言)的部分,我们是否应该站在巨人的肩膀上去做?" 理想汽车 CTO 谢炎说:" 肯定应该这么做。" 理想汽车基座模型负责人陈伟则更为坚决,陈伟认为,理想应该以这个为基础,加速 VLA,加速端到端的多模态的进展。
" 拥抱 DeepSeek 的这个过程比我们想象得要快。" 李想称,我觉得 DeepSeek 的出现对我们加速做 VLA 是巨大的帮助。过去我们计划要到今年年底才能做出一个像样的、能够满足我们需求的语言模型,但 DeepSeek 一开源,我们就加速了 9 个月的时间,所以给我们带来了巨大的收益和帮助。"
据悉,VLA 司机大模型以 " 司机 Agent(智能体)" 的产品形态呈现,用户可通过自然语言与司机 Agent 沟通,跟人类司机怎么说,就跟司机 Agent 怎么说。简单通用的短指令由端侧的 VLA 直接处理,复杂指令则先由云端的 VL 基座模型解析,再交由 VLA 处理。
"VLA 是现阶段效率最高的架构 "
不仅是理想汽车,元戎启行、Waymo、Wayve 等企业也在 VLA 领域进行布局。
高盛最新自动驾驶报告显示,到 2030 年,VLA 模型主导的端到端方案可能占据 L4 级市场 60% 份额。
财通证券表示:" 现阶段,智驾市场竞争焦点已从单纯的功能实现转向了更深层次的技术范式竞争,强调技术架构的先进性和可持续性。"
当前智能辅助驾驶行业的技术路径快速迭代。从依赖规则算法和高精地图的辅助驾驶到端到端 +VLM 辅助驾驶,再到 VLA。在李想看来,未来是否有效率更高的架构出现,需要打个问号。" 我认为大概率还是会有的。但 VLA 是现阶段效率最高的架构。"
与此同时,行业也存有共识,VLA 模型的上车难度不小,对技术和车端的芯片算力都有高强度要求。
" 其他车企也可以做,但其有没有建立整个基座模型的能力,以及预训练、后训练、强化训练的能力,(带来的结果)是不一样的。很多时候一家公司如果模型能力不强,根本不知道怎么去做对齐。" 李想称。" 包括今天很多企业做端到端都很吃力,因为在规则算法时候都没做好。"
在他看来,大型企业的基本功和能力永远无法被逾越。
李想以特斯拉为例," 从实测上看,目前特斯拉在中国市场的辅助驾驶版本大概在用 12.5 之前的模型,其采用的是半规则算法能力,这并不是特斯拉真实能力,距其真实能力还有巨大差距,特斯拉 13.0 以后的能力还是非常强的,能看到特斯拉基本功是非常扎实的。"
李想称:" 我觉得这个是我们真正要去学的。尤其在今天这种内卷、外部不确定的环境下,更是每个企业扎扎实实练基本功的最好的时候。而且到了人工智能时代,基本功就更是不可跳跃的。如果很多企业做了很多创新,但是没有基本功,不扎实,所以很多创新就会昙花一现过去了。"
伴随技术架构的不停进阶与其真正落地应用的不断深入,可以看到,今天行业的辅助驾驶走到全新的十字路口。
李想认为," 经过多年,从规则算法到端到端 +VLM,再到现在真正迈入 VLA 的阶段,现在比较像‘黎明前的黑暗’。我觉得黎明马上就要来了。但是会先经历一个黑暗的过程,之所以有黑暗是因为要迎来黎明。" 李想说。" 我觉得今天这个阶段。正因为辅助驾驶行业遇到了问题。我最喜欢、最开心的方式,就是去解决行业解决不了的问题,我觉得这是我们自己坚决相信的。"