国内 VLA 模型已开始 " 上车 "。
8 月 26 日消息,笔者获悉,AI 公司元戎启行今天在深圳发布全新一代辅助驾驶平台—— DeepRoute IO 2.0,该平台搭载自研的 VLA(Vision-Language-Action)模型。
区别于传统 AI,VLA 模型融合视觉感知、语义理解与动作决策三大核心能力,并集成思维链(CoT),对比传统端到端模型,VLA 模型更擅长应对复杂路况,在安全性、舒适性方面呈现断代式突破。
元戎启行表示,DeepRoute IO 2.0 平台以 " 多模态 + 多芯片 + 多车型 " 适配为核心设计理念,支持激光雷达与纯视觉版本,可面向多种主流乘用车平台开展定制化部署。截至目前,基于 DeepRoute IO 2.0 平台,元戎启行已达成 5 个定点合作项目,首批量产车即将进入市场。
" 当语言模型与辅助驾驶相遇,一切都变得简单了。VLA 模型成为最优解。" 元戎启行 CEO 周光在会上表示,此次 DeepRoute IO 2.0 平台的发布,是元戎启行技术发展的里程碑,也意味着未来智能驾驶将走向大模型时代。
周光进一步表示,公司在量产商业化方面已获得超过 10 款车型的定点合作,并实现近 10 万辆具备城市领航辅助系统的量产车型交付,在行业处于第一梯队。下一步,元戎启行将发力 AGl in Robotics(机器人中的 AGl),让 VLA 模型从道路场景走向物理世界的 AGI。
会后媒体群访中,周光向笔者表示,当前 VLA 模型的核心成本是 AI 芯片。而芯片主要取决于制程工艺和投资多少资金,以及适配成本、时间成本、经济成本、数据成本等。他认为,未来 15 万元以上的车都可以应用 VLA 模型,随着成本优化有可能实现更多汽车适配。
周光强调,元戎启行的 VLA 模型主要为汽车打造,不会有专门数据(用于机器人),但当前其 VLA 模型可以对运动机器人做到很好地适配和泛化能力,所以他认为未来模型架构会自然而然拥有通用能力。
公开信息显示,元戎启行 CEO 周光毕业于清华大学基础科学班,曾加入清华大学高能物理研究中心、德州仪器 Kilby 实验室主导自动驾驶机器人项目等。2016 年,周光加入百度美国研究院自动驾驶事业部,2019 年回国创立了元戎启行。
截至目前,元戎启行集团总人数超 1000 人,研发人员占比达 84%。
融资方面,元戎启行已完成 6 轮融资,累计融资金额超过 5 亿美元(约合人民币 35.7 亿元),投资方包括阿里巴巴、复星锐正、云启资本、耀途资本等。2024 年 11 月 6 日,元戎启行宣布完成 1 亿美元 C1 轮战略融资,由国内头部主机厂(长城)独家投资。
商业化层面,元戎启行已与多家车企达成量产合作,共同推进十余款组合辅助驾驶汽车落地。预计到 2025 年,将有超过 20 万辆搭载元戎启行组合辅助驾驶方案的车辆进入消费者市场。
技术层面,元戎启行的 VLA 模型融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,并将信息串联、分析,从而推理出因果关系。同时,它天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境。
周光表示,当前整个辅助驾驶行业依然面临比较大的挑战,尤其随着辅助驾驶方案上车量级逐年增加,可能对于产品体系也有更多要求,所以 " 真的要用最敬畏的心去做 " 这个行业,而非类似做机器狗站起来就可以了。对于行业来说,当前处于增量阶段。此外,他认为可能需要良性竞争,这也是行业发展比较关键的一个因素。
" 安全放在第一位,让 AI 学会害怕。" 周光指出,公司会把辅助驾驶安全放在第一位,持续推进防御性驾驶。未来,元戎启行将围绕 VLA 模型持续拓展应用边界,在乘用车市场加速量产部署的同时,推进基于量产车平台的 Robotaxi 业务。在更广阔的 Road AGI 体系中,VLA 模型也将向更多可移动智能体延展复用,逐步实现从单点功能到通用智能体的系统演进。
对于 L4 和 L5 发展方向,周光表示已经在规划,但会采用与特斯拉一样的 AI 大模型路径解决 L4/L5 面临的问题,而不是用 Waymo 路径和方式,靠规则和 CNN 等方式解决自动驾驶问题。
" 其实关于自动驾驶的定义真的非常老了,已经有 30 多年历史了,它是 AI 产生之前的定义,其实我觉得(当前)并不是特别契合,L4 跟 L5 的区别就在于,一个有图,一个全部(自动)都能开,所以你看现在 AI 发展里面完全没有这些概念。" 周光称,当前,自动驾驶技术工作才刚刚开始,发展过程需要一些时间。
展望未来,周光表示,真正的自动驾驶离不开大模型,我们一定会全面走向基于 GPT 架构的端到端模型。而且,利用强化学习、VLA 等技术,大模型已经从弱专家系统、通才系统,走向强专家系统。
" 我们会全力推进我们的量产,而且把 VLA 技术放在对应领域,如 Robotaxi、C 端(乘用车)领域等。未来,我们还将把 VLA 模型运用到所有可移动物体上,实现物理 AGI。" 周光强调,他预测第一个能够达到 10 万级、百万级的机器人,一定是车。
(本文首发于钛媒体 App,作者|林志佳,编辑|盖虹达)