文 | HiEV 大蒜粒车研所,作者 | 肖恩,编辑 | 德新
两年一度的计算机视觉顶会 ICCV 10 月在美国檀香山闭幕,今年的最佳论文颁给了卡内基梅隆大学团队的 BrickGPT,一种能从文本描述直接生成物理结构稳定并可实际搭建的积木机构模型,这个成果展示了生成式 AI 在物理世界应用的潜力。
对自动驾驶从业者而言,这次会议上还有一个更令人瞩目的消息——特斯拉 AI 部门副总裁 Ashok Elluswamy 在 " 基础模型蒸馏与自动驾驶 " 论坛中,分享了 FSD 的最新进展。
自 2022 年在 AI Day 上分享了占用格栅网络之后,特斯拉几乎没有在任何公开场合透露过 FSD 的内幕,特别是进入到端到端架构之后,FSD 的表现进步神速,但是特斯拉对背后的技术始终讳莫如深。
Elluswamy 此次分享给出了关键信息:系统以视频为主的多模态输入进入端到端模型,直接输出控制指令,感知 - 预测 - 决策 - 控制在同一神经网络中耦合回传;这一整体框架与近期热议的 " 世界模型 " 思想高度相似。同时,在仿真侧,世界模型被用于生成对抗性场景,以实现闭环评测与迭代。
在此之前,围绕 VLA 与世界模型的路线分歧已争论不休,特斯拉的最新表态无疑又添一把火。无论最终范式如何定型,能够 " 想象未来 " 的世界模型,几乎注定将成为当下自动驾驶技术演进的关键支点。
一、特斯拉 FSD:端到端基础模型与世界模型的融合
Elluswamy 以 " 构建未来的自动化 " 为主题,首先阐述了 FSD 最近的一些进展,包括 Robotaxi 的上线以及实现了从工厂到交付中心的全程自动驾驶。
随后,他介绍了特斯拉的端到端架构,多摄像头图像、导航地图、车辆运动信息和音频信号等输入到一个端到端的神经网络内,这个模型经过海量的数据训练,支持长序列的输入,最后直接输出控制信号。
这部分和国内的技术方向基本一致,唯一的区别是增加了音频信号的输入。
为什么要使用端到端的架构,他给出了几点理由:
人类的驾驶行为很难用函数去描述,规则算法很容易顾此失彼;
传统的感知 - 规划 - 控制的结构会有大量的信息损失;
端到端的扩展性更强,更适合解决长尾问题;
时延稳定;
不需要依赖人类的经验,而是依靠算力和数据;
如果要构建一套出色的端到端系统,会遇到什么困难?Elluswamy 提到了三大难题:
维度灾难
FSD 需要处理高帧率、高分辨率、长时上下文的多模态输入:在以 "5 × 5 像素块 " 为输入 token 的假设下,仅视觉就相当于 7 个摄像头 × 36 FPS × 500 万像素 × 30 秒;同时还要结合未来数英里的导航地图与路径、100 Hz 的速度 /IMU/ 里程计等运动学数据,以及 48kHz 的音频数据。综合起来约有 20 亿个 token,如果直接输入到 Transformer,token 数量会在时间窗内爆炸,无法满足车端的时延要求。
特斯拉的做法是利用海量的车队数据,从中总结出 " 关键 token",通过稀疏化和聚合保留最有用的信息,可在不显著影响精度的情况下大幅降低推理的时延。
同时,特斯拉利用数据引擎从中抽取高质量的数据样本用于训练,让系统能在各种极端或罕见场景中实现出色的泛化能力。
可解释性与安全验证
为了避免 " 黑箱 "AI,特斯拉在车端模型中加入了可解释的中间输出,既有全景分割和 3D 占据网络,也有基于三维高斯渲染的场景重建和语言化输出,从而辅助工程师审视推理过程。

其中 Elluswamy 重点介绍了特斯拉的生成式高斯喷溅(Generative Gaussian Splatting),和传统的高斯喷溅相比,特斯拉 GGS 具有更强的泛化能力,生成场景仅需要 220 毫秒,无需初始化,可建模动态物体,并能与端到端 AI 模型联合训练。
闭环评测与仿真
最后、也是最具挑战性的一步,是模型评估。
即使拥有高质量的数据集,开环预测的损失函数下降,也未必意味着在真实世界中能有良好表现。评估体系必须多样化且覆盖不同模式,以支持快速的开发迭代。
为此,特斯拉开发了一个神经世界模拟器(Neural World Simulator)。该模拟器基于特斯拉自建的海量数据集进行训练,但与常规模型不同,它不是预测动作,而是根据当前状态与下一步动作生成未来状态。从而与车端的端到端基础模型闭环,做真实效果的评估。
图片来源:特斯拉
神经世界模拟器在驾驶策略的指令下,按因果关系生成可交互的未来:不仅能基于历史数据重放并验证新的驾驶模型,还能系统地合成对抗性 / 极端场景,用于长尾覆盖与安全边界测试。
在工程实现上,特斯拉也强调该模拟器可实时或近实时地产生高分辨率、因果一致的响应,用于研发环节的快速验证。除此之外,这类视频生成能力还可在闭环环境中进行大规模强化学习,以实现超越人类水平的表现。

与传统云端世界模型不同,特斯拉的系统不仅具备高保真场景生成能力,更关键的是,它能够在给定候选动作的条件下,预测未来几秒内的世界演化,从而实现决策前瞻与安全验证。
模型不再只是 " 生成环境 ",而是能 " 想象并评估行动结果 " 的因果预测系统。
从特斯拉将 " 预测未来几秒的世界演化 " 作为决策前瞻核心这一点出发,车端基础模型很可能走的也是世界模型路线:在车端进行实时的动作条件未来预测,在云端以神经世界模拟器进行大规模场景重现与回归验证,两者在目标与表征层面高度对齐,从而形成训练—评估—上线的一体化闭环。
二、何为世界模型 ?
端到端架构能为自动驾驶带来更高的上限,这已经是行业的共识。但是如何在端到端的框架下让自动驾驶达到甚至超越人类的驾驶水平,实现真正的无人驾驶,目前还没有一个明确的方向,在多种技术路线中,世界模型无疑是其中重要的一支。

世界模型并没有一个标准的定义,但业内逐渐形成了对它的共识,世界模型是一个生成式时空神经系统,它将来自摄像头、激光雷达、雷达和导航地图等多模态输入压缩成潜在状态,该状态不仅编码了几何、语义信息,还携带因果上下文。
世界模型可以在潜在空间内推演环境未来,并让智能体在执行动作前 " 演练 " 整个轨迹。正因如此,有人将世界模型形象地称为能够在脑海里 " 想象未来 " 的模型。
世界模型通常覆盖三类任务:
未来物理世界生成:基于传感器数据和车辆历史,生成场景的未来演化(包括物体运动、占据概率、点云或图像级视频)。
行为规划与决策:结合预测结果为自车生成轨迹或动作建议,实现决策与控制。
联合预测与规划:在潜在空间内同时建模多主体交互,利用生成的未来对候选动作进行评估,从而实现闭环的行为优化。
它不仅是感知或预测模块的简单堆叠,而是一个统一的大脑:它将现实世界压缩成可演化的内部表示,并通过生成式推演支撑规划与决策。它需要具备以下核心能力:
潜在时空表示
世界模型首先要将高维、多模态感知输入映射到一个低维的潜在状态。这一潜在表示既要包含环境中的几何、语义信息,又要随时间更新,使模型能够在此空间内捕捉环境状态的转移。该能力意味着模型不再依赖显示的 BEV 或占据栅格,而是以更加抽象但富含语义的形式表示 " 世界 "。
动作条件的未来推演
在潜在状态获得之后,世界模型必须能够在给定候选动作(加速、制动、变道等)的条件下,生成多步未来场景。这种生成不仅仅是时间上的外推,更是 " 假如我采取这个动作,其他道路参与者会如何反应、场景会如何变化 " 的因果推理。换言之,它不只是预测 " 将会发生什么 ",更要回答 " 如果我这样做,会发生什么 "。
与规划和控制的闭环耦合
世界模型的重要特征在于预测与规划的深度耦合。模型生成的未来场景不仅提供参考,而是直接用于评估不同动作的风险和收益,从而在潜在空间中完成候选动作的比较—筛选—决策。这种闭环能力使世界模型能够在端到端框架中直接输出控制信号,就像特斯拉的 " 神经世界模拟器 " 那样,能在闭环仿真中评估新模型、生成对抗场景,并进行大规模强化学习来获得超越人类的性能。
多主体交互与不确定性建模
真实的道路中不仅有自车,还有别的车和行人,大家的运动状态会互相影响。世界模型要在 " 脑海里的状态空间 " 里,把这些参与者的位置、速度、意图表示出来,并且随着时间跟踪他们彼此之间的互动。
同时,现实中的未来不是只有唯一的答案:前车可能并线,也可能减速。所以模型不能只给一条 " 最可能的轨迹 ",而要给出一组可能的未来,让系统在安全、效率、舒适之间做权衡。
长期记忆与自我演化
世界模型应当具有长期记忆和自我进化能力——能够积累驾驶经验、持续扩充其内部世界,并在不同任务和场景间迁移。这使它不仅适用于某条路线或某种条件,而是可在多种条件下泛化。
正是世界模型强大的能力,让它成为现在自动驾驶领域最热门的研究方向之一,很多人相信世界模型是通往 L3 和 L4 级别自动驾驶的关键钥匙。
三、中国的世界模型之路
作为自动驾驶技术应用最广泛的中国,世界模型已经生根发芽,既有像商汤这样专注于云端,为自动驾驶补充合成数据的技术公司,也有像蔚来和华为这样坚定的让世界模型上车的整车厂。在中国,世界模型正扮演着越来越重要的角色。
蔚来 NWM 世界模型
蔚来汽车是较早公开将世界模型作为核心技术路线的公司之一。在 2024 年 "NIO IN" 发布会上,蔚来宣布了中国首个驾驶世界模型 "NWM(Nio World Model)",蔚来将其定义为 " 能够全量理解多模态信息、生成新场景并预测未来的多元自回归生成模型 "。

它在空间上完成 " 想象重建 "(将感知到的物理世界逼真地重建为可编辑的虚拟世界),在时间上完成 " 想象推演 "(在内部时空中滚动预演不同未来),进而输出可执行的轨迹与动作。并展示了其在车端的应用。NWM 可在 100 毫秒内推理 216 种可能的驾驶场景 并选取最优决策。蔚来官方表示,模型可以用 3 秒的历史视频提示生成长达 20 秒的未来视频;世界模型通过生成式推演形成所谓 " 平行世界 ",在这些想象出的未来中评估不同动作的后果。除了纯视觉输入,NWM 还融合激光雷达、地图和自车运动信息,并能理解驾驶员的语言指令。

NWM 的首个版本已于今年 6 月推送,在主动安全方面新增 3 大功能:
驾驶员失能处置
在高速 / 快速路场景,监测到驾驶员无意识后,车辆缓慢减速并变道至最右侧应急车道,开启双闪 + SOS 主动介入,由 " 车道内安全停车 " 升级为 " 自主安全靠边 ",显著降低在车道内停车带来的追尾风险。
追尾预防与保护(首次将大模型用于被追尾场景)
在 0 – 150km/h 范围内对后向潜在碰撞进行警示;当碰撞不可避免时,系统在 500ms 内完成从感知决策到制动建压,最大可将被动前移距离降低 93%,减少二次事故风险。
通用障碍物预警增强
在转弯、变道靠边等动作中,对抬杆 / 护墙 / 隔离栅 / 路沿等多类型障碍均可响应,减少低速靠边剐蹭、车库盘楼剐蹭等常见事故。
高速领航新增了 ETC 场景智能通行和 " 智能驾享模式 "(行车风格更稳健,跟车 / 变道更平顺、更强的防御性驾驶,必要时可自主闪灯 / 鸣笛提醒周边车辆)。
城区点到点领航新增 2 大功能:
车位收藏:停车后可收藏画线车位,下次出发或驶入时实现无间断全域领航;若被占用,系统自动寻找临近空位临时泊入。
停车场自主寻路:无需地图 / 导航 / 记忆路线,可听懂自然语义指令、识别标识与文字,实现跨区 / 跨楼层寻找出口或楼栋门口。这是 NWM 认知—理解—推理能力在复杂微结构空间里的标志性落地。
智能泊车更新为全模型化泊车辅助,360 ° 全向车位识别、车位显示范围 × 4,可在任意位置发起泊入指令并长距离漫游泊车,在不同车位间自动腾挪切换;只要不被墙体完全阻隔,就能实现 " 可见即可选、可选即可泊 "。
NWM 的成功量产以及对智驾功能的全面升级,体现了世界模型在车端巨大的潜力。
华为 WEWA 架构
在围绕世界模型的技术路线争论中,作为国内智驾领域的 " 带头大哥 ",华为给出的答案是 "WA(World Action)" ——一种强调直接感知到控制的世界模型路线。
华为智能汽车解决方案 BU 总裁靳玉志公开表示,公司不会追随 VLA 的潮流,而是坚持以传感器信号直接驱动动作的世界行动模型。
在华为看来,VLA 利用大语言模型将视频转化为 " 语言 token" 再生成控制命令,看似是捷径,实则不能提供真正的自主能力;只有跳过语言层,直接从视觉、声音等多模态感知信息生成驾驶指令,才能在空间感知和实时性上满足高级自动驾驶要求。
华为的 ADS 4 平台基于 WA 原则进一步演化出 WEWA(World Engine + World Action)架构:
World Engine(云端世界引擎)在云端通过海量仿真与实车数据训练世界模型,并生成用于升级的模型参数。
World Action(车端世界行动模型)在车辆侧运行,将感知数据直接映射为控制动作,跳过语言解析过程。
WEWA 省略了语言层避免了抽象化损失,并通过多颗激光雷达和高性能硬件确保模型获得尽可能完整的环境信息。这样虽然硬件成本更高,但靳玉志认为这是实现安全可靠自动驾驶的唯一道路。
华为强调,真正的世界模型不仅限于仿真,而是支撑车辆实时决策的核心。在 WEWA 架构中,云端的 World Engine 使用大量仿真和实车数据对模型进行 " 梦境训练 ",学习环境的演化规律并生成优化后的参数;这些参数通过 OTA 下发到车端的 World Action 模型,使车辆在物理一致的 " 世界表示 " 上直接规划和控制。为了获得尽可能完整的环境感知,华为在车端使用多颗激光雷达和高性能硬件,在最新的问界 M9 和尊界 S800 上,已经开始使用 4 个激光雷达的方案。
靳玉志强调,这条路线虽然成本更高,但能够提供更强的空间理解和决策可靠性,是华为走向高级自动驾驶的唯一道路。
商汤绝影:" 开悟 " 世界模型与生成式仿真平台
商汤科技旗下的自动驾驶品牌绝影智驾推出了世界模型 " 开悟 " 并用于大规模仿真数据生成。2025 年世界人工智能大会(WAIC)上,绝影发布了升级版的交互式世界模型产品平台,以及业内最大规模的生成式驾驶数据集 WorldSim Drive。这一平台基于先进世界模型技术,具备对物理规律的理解和对场景元素的控制能力,是面向车企和开发者开放试用的可交互产品。

与蔚来的车端世界模型不同,绝影的 " 开悟 " 主要用于生成高保真仿真数据。开悟可在仿真场景中生成 11 个摄像头视角的时空一致视频,时长可达 150 秒,分辨率达到专业级 1080p。用户可以在平台上自由编辑场景的道路布局、参与体、天气和光照等元素,一键生成风险极高的场景或多样化组合。当前,绝影正与上汽旗下的智己汽车合作,利用这个平台构建端到端数据工厂,针对加塞、追尾等高价值场景批量生成训练数据,并计划推出覆盖数百万合成片段的场景库。
在数据规模和效率方面,WorldSim Drive 数据集包含超过 100 万段生成式驾驶片段,覆盖 50 多种天气与光照条件、200 类交通标识和 300 种道路连接场景,是迄今最大的自动驾驶生成数据集之一。这些合成数据保持多视角时空一致性,时长可达数分钟,画质与真实数据一致。开悟的日生产能力仅用一块 A100 GPU 就相当于 10 辆真实车辆或 100 台道路测试车辆的数据采集能力。目前,绝影已有 20% 的训练数据来自世界模型生成。
商汤绝影通过 " 开悟 " 世界模型搭建了数字世界到真实世界的桥梁:一方面在仿真平台上支持文本或图像提示,快速生成特定场景;另一方面与车企合作打造闭环数据工厂,用合成数据弥补长尾场景不足。
开悟的成功展示了世界模型在仿真数据生成中的力量,不仅降低数据采集成本,还能针对高风险场景进行定制化训练,为自动驾驶提供可靠、安全的测试和训练环境。
四、世界模型 VS VLA:自动驾驶终局路线之争
随着大模型时代的到来,以语言大模型 LLM 为核心的视觉 - 语言 - 行动(VLA)模型开始在自动驾驶领域崭露头角,理想、小米和元戎都是坚定的 VLA 路线拥护者,在今年 7 月理想已经开始率先推送量产的 VLA 版本。
VLA 倡导将视觉输入、自然语言理解与行动生成融为一个大模型,通过语言增强情境理解和推理能力。和世界模型相比存在显著差异:
结构与表示
世界模型采用潜在时空表示,核心是一个可以随时间演化的物理世界模拟器。它通过自监督压缩器将感知数据编码为潜在状态,并依靠生成式预测模块在该状态上演化未来
VLA 模型则以 视觉—语言—行动统一架构为特征。它引入大型语言模型为大脑,将高维视觉感知映射为自然语言表述,并利用语言链式推理来生成决策或动作指令。VLA 模型能够在车辆控制前进行语言层面的推理和解释,使系统兼具快速反射和慢速思考的双系统。
推理路径
世界模型的推理依赖动作条件的内在仿真:模型将候选动作注入潜在世界,生成不同未来场景,再用代价函数或风险评价选择最佳动作。这种推理方式像是在脑海中做实验,因此非常适合物理世界中的对抗和长期评估。
VLA 的推理则依赖语言链路:VLA 利用大型语言模型的常识和逻辑推理能力,通过自然语言对观察到的场景进行解释、制定规则,然后输出控制信号。这赋予系统更强的可解释性,但其物理推理通常依赖外部模块。。
能力与应用
世界模型着重于长时域、多主体和物理一致性。它可以生成复杂环境的长期演化,捕捉稀有事件、他车互动和路况变化,并在潜在空间中形成真实动作反馈。由于这种闭环特性,世界模型成为评估和优化自动驾驶策略的核心,如特斯拉的神经世界模拟器通过闭环仿真生成对抗场景、进行强化学习训练。
VLA 模型更强调语义推理与高层交互。它通过语言接口理解自然语言指令、交通规则和场景描述,具备链式思考能力。VLA 可以利用互联网规模的语言数据注入常识,支持复杂推理和解释。
" 世界模型 VS VLA" 的路线之争仍将持续。世界模型更贴近自动驾驶的物理本质,VLA 则凭借通识能力在长尾场景上具优势。最终的产业答案,很可能来自两者的互补与融合。
最近 AI 领域的先驱李飞飞发表长文讨论空间智能,她认为今天的大语言模型擅长抽象知识处理,但在物理世界上仍像 " 黑暗中的文字匠 ",缺乏对三维环境、因果与动力学的扎实理解,难以安全地在现实世界中行动。通过想象、推理、创造与互动来理解世界,而非仅仅依赖语言描述,这正是空间智能的力量。
实现空间智能的答案是 " 世界模型 ",能够在语义、物理、几何与动态等多重复杂世界(无论虚拟还是现实)中进行理解、推理、生成与交互。
她的观点再次将世界模型推向 AI 领域的前沿,无论最终实现自动驾驶的技术路径是什么,在通往终点的路上,世界模型一定会留下浓墨重彩的一笔。