作者 | Janson
编辑 | 志豪
理想汽车 12 篇论文入选计算机视觉顶会 CVPR!
作为与 ICCV、ECCV 并称为计算机视觉三大顶会,一次入选 12 篇论文的含金量不言而喻。
此次理想汽车入选的 12 篇论文,覆盖世界模型、端到端规划、多模态感知、强化学习、认知模型、语言与视觉智能等关键方向。
可以说,理想汽车的智能化竞争正在从产品功能,进一步深入到底层模型、仿真、安全和推理能力。
而这背后,也是理想汽车近几年持续加码研发的结果。
据理想汽车方面透露,截至 2026 年一季度末,理想汽车已连续 5 个季度保持 30 亿元左右的研发投入,相当于理想汽车五个季度就投入了约 150 亿的研发费用,2025 年全年研发费用也是达到 113 亿元。
近 5 年来,理想汽车已在 CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH、IROS、ICRA 等顶级会议和期刊上发表近百篇论文。
不过,相比单纯看 " 发了多少篇 ",更值得关注的是,这 12 篇论文分别解决了什么问题。
对此,车东西拆解了这 12 篇论文,帮你总结理想汽车在自动驾驶底层技术上的四条主线。
01.
拿下世界模型四项突破
仿真与安全基座升级
在自动驾驶领域,世界模型要解决的,是车辆能否在行动前先理解和推演这个世界。
此次理想汽车共有四篇世界模型方向论文入选 CVPR 2026,分别从深度估计、三维重建、交通规则认知评估和安全风险预判四个层面展开,形成了从 " 还原真实世界 " 到 " 理解交通规则 ",再到 " 预判危险后果 " 的技术链路。
道路结构会如何变化,其他交通参与体可能怎样运动,一条轨迹会不会带来风险,复杂交通规则之间又该如何取舍。
对面向真实道路的自动驾驶来说,世界模型不仅是仿真的基础,也是提升安全性和长尾场景处理能力的重要底座。

在几何理解层面,InfiniDepth(一种高精度连续深度估计方法)关注的是车辆理解三维世界时最基础也最关键的问题——深度。
传统深度估计方法通常在固定分辨率的图像网格上预测结果,容易受分辨率限制,细小结构和几何边界不够精细。
InfiniDepth 将深度表示为连续的神经隐式场,使模型可以在任意二维坐标上查询深度,从而支持更高分辨率、更细粒度的深度估计,并在精细区域和新视角合成任务中表现出优势。
对于车辆场景而言,这类能力有助于更准确地恢复道路、车辆、障碍物等三维结构,为后续仿真和环境建模提供更可靠的几何基础。
如此一来,车辆能更精细地判断画面中每个物体离自己有多远,为三维环境还原和仿真建模打基础。

在仿真资产构建层面,Unposed-to-3D(一种真实驾驶图像生成三维车辆能力)解决的是另一个现实问题,高质量三维车辆资产从哪里来。
论文指出,现有三维车辆生成方法往往依赖合成数据训练,和真实道路图像存在域差距,生成结果还可能存在姿态不统一、尺度不准确等问题,难以直接放入驾驶仿真环境。
Unposed-to-3D 通过两阶段框架,从真实驾驶图像中学习三维车辆重建,并引入尺度感知和外观协调模块,使生成车辆在尺寸、姿态和光照外观上更适合真实驾驶场景仿真。
这意味着,未来构建大规模、多样化的仿真交通环境,可以更少依赖人工建模,更高效地从真实世界中获取可用资产。

世界模型不仅要 " 看得准 "" 建得真 ",还要能理解交通世界里的规则,对此,理想发布的 DriveCombo 正是面向复杂交通规则推理提出的评测基准。
DriveCombo 构建了文本与视觉结合的组合式交通规则推理基准,并提出五级认知阶梯,从单规则理解逐步提升到多规则整合和冲突消解。
对 14 个主流多模态大模型的评估显示,随着任务复杂度提升,模型性能会系统性下降,尤其在规则冲突场景中更明显。
简单说,DriveCombo 不是一个驾驶模型,而是一套 " 考试题 ",用来测试多模态大模型能不能理解复杂交通规则,尤其是多条规则冲突时该怎么判断。

除此之外,安全预判则是世界模型走向闭环训练的关键一步。AD-R1 聚焦端到端驾驶强化学习中的一个核心难题:如果世界模型只在安全专家数据上训练,它可能会形成 " 乐观偏差 " ——面对危险轨迹时,仍然倾向于预测一个看似安全的未来,例如忽略碰撞或道路边界风险。
AD-R1 提出 " 公正世界模型 " 的概念,通过反事实合成生成碰撞、驶离道路等风险场景,让模型学会真实预测危险后果,并将其作为闭环强化学习中的内部评论器,为候选动作提供安全反馈。
换句话说,模型不只是学习 " 好司机怎么开 ",也要学会 " 错误动作会导致什么后果 "。这对于提升系统在长尾风险场景下的可靠性,具有直接意义。
如此一来,世界模型不再只是生成逼真的画面或场景,而是在向更完整的 " 可推演、可评估、可用于训练 " 的智能系统演进。
这四项研究共同构成了理想汽车在世界模型方向的系统性布局,也为智驾从 " 看见世界 " 走向 " 理解世界、推演世界并规避风险 " 提供了更坚实的技术支撑。
02.
认知对齐与语言、视觉智能
让模型推理更准更快
在训练侧世界模型是关键,而在推理侧,认知对齐、语言、视觉智能也是十分重要的一环。
针对上述问题,理想拿出了 5 篇关键研究。CogDriver 提升驾驶决策的时序稳定性,LinkVLA 打通语言理解与动作生成,FastMMoE 降低多模态大模型推理成本,CoV-Align 提升视觉与语言的细粒度对齐效率,Switch-KD 则让大模型能力更容易迁移到轻量模型。
它们共同构成了理想汽车在认知模型、语言智能和视觉智能方向的技术积累,也让车辆从 " 看见和判断 " 进一步走向 " 理解、推理和行动 "。

在驾驶认知层面,CogDriver关注的是当前视觉语言模型在时序理解上的短板,有助于让系统更好的理解驾驶场景。很多模型处理驾驶场景时,更像是在逐帧 " 看图说话 ",缺乏对历史状态和持续意图的记忆,容易造成决策抖动,难以完成复杂连续动作。
CogDriver 引入 " 认知惯性 " 机制,通过大规模视觉—语言—动作数据集提供时序监督,并在智能体中加入稀疏时序记忆模块,让模型能够形成更稳定的内部状态。
实验显示,CogDriver 在 Bench2Drive 闭环驾驶得分上提升 22%,在 nuScenes 上将平均轨迹误差降低 21%,说明时序一致性对于提升规划稳定性具有直接价值。
不难看出,CogDriver 就是给驾驶模型加入 " 记忆 " 和 " 惯性 ",让它做决策时不再只看当前一帧,而是结合前后状态保持判断稳定。
如果说 CogDriver 解决的是 " 连续理解 " 的问题,那么 LinkVLA 更进一步面向 " 理解之后如何行动 "。
视觉语言动作模型被认为是端到端驾驶的重要方向,但现有方法常常存在两个问题:一是语言指令和动作输出之间对不齐,二是逐步生成动作序列导致推理效率较低。

LinkVLA 通过把语言和动作统一到共享离散码本中,从结构上强化跨模态一致性;同时引入动作理解辅助任务,让模型既能从语言到动作,也能从轨迹反推语义描述。
它还采用由粗到细的两步生成方式替代传统逐步解码,在闭环驾驶基准中提升指令遵循和驾驶表现的同时,节省了 86% 的推理时间。
如此一来,通过 LinkVLA 就可以让系统延迟更低,更聪明。
模型变得更聪明之后,另一个现实问题是:能不能跑得更快、更轻。

相比单纯从注意力权重判断哪些 Token 可以删除,FastMMoE 更贴近 MoE 模型本身的计算机制。
实验表明,在 DeepSeek-VL2、InternVL3.5 等模型上,FastMMoE 最高可减少 55% 的 FLOPs,同时保留约 95.5% 的原始性能。
这类方法对于车端、座舱等对延迟和算力敏感的场景很有帮助,让多模态大模型 " 减负 ",在尽量不损失能力的前提下减少计算量,让模型跑得更快。
与此同时,在多模态理解中,语言和视觉之间能否精准对齐,同样决定了模型是否真正 " 看懂了 "。

CoV-Align 聚焦图像区域与文字描述之间的细粒度对齐。传统方法往往依赖文本引导去聚合图像区域,容易产生冗余的 patch-word 匹配,计算成本也较高。
CoV-Align 提出 " 内聚视觉语义优先 " 的思路,先在不依赖文本的情况下,把语义一致的视觉区域聚合起来,再进行跨模态对齐。这样既减少了噪声,也提升了效率。
论文显示,CoV-Align 在 Flickr30K 和 MS-COCO 等图文评测基准上达到领先表现,并带来 3 至 5 倍计算加速,为大规模多模态任务提供了更高效的对齐路径。
最后,Switch-KD 关注的是大模型能力如何迁移到小模型。

视觉语言模型能力强,但参数规模大、部署成本高;传统知识蒸馏又常常把视觉和语言分开监督,容易造成跨模态知识传递不充分。
Switch-KD 提出视觉切换蒸馏框架,将视觉—语言知识统一到共享的文本概率空间中,让小模型能够更有效地学习大模型的多模态理解能力。
论文显示,0.5B TinyLLaVA 在 3B 教师模型指导下,在 10 个多模态基准上平均提升 3.6 分,且无需改变模型结构。
对于需要在有限算力下运行的车端边缘计算和智能座舱场景,这类轻量化能力同样关键,可以让小模型也能具备更强的视觉语言理解能力。
03.
端到端规划升级
让模型从 " 看懂场景 " 走向 " 形成目标 "
相比把感知、预测、规划拆成多个独立模块,端到端方法希望模型能够直接从传感器输入中理解道路环境,并生成可执行的驾驶轨迹。
理想汽车提出的 SGDrive,正是围绕这一问题展开。

论文指出,SGDrive 可以将驾驶理解拆解为更接近人类驾驶认知的层级结构:先理解整体场景,再关注关键交通参与体及其行为,最后形成短期目标并执行动作。
论文将这一结构概括为 Scene-Agent-Goal,也就是 " 场景—交通参与体—目标 " 的层级认知框架。
这种设计的价值在于,它不是简单地让模型 " 看图后直接输出轨迹 ",而是给模型补上了驾驶任务所需的中间认知过程。

人类驾驶员在复杂路口或拥堵道路中,也不会只根据单帧画面做判断,而是会先把握道路整体格局,再判断哪些车辆、行人或障碍物会影响自身行驶,最后形成一个可执行的短期目标。
SGDrive 将这种过程结构化地注入模型,使通用视觉语言模型能够围绕驾驶知识进行表示学习,从而更好地服务轨迹规划。
从实验结果看,SGDrive 在 NAVSIM 基准上取得了纯视觉方法中的领先表现,验证了层级化驾驶知识结构对于端到端规划的有效性。
简单来说,SGDrive 就是让模型像人类驾驶员一样,先看整体道路环境,再判断关键车辆和行人,最后形成下一步驾驶目标。
04.
多模态感知与强化学习
提升环境预判与规划优化能力
在端到端规划中,模型需要从复杂道路环境中形成合理驾驶目标,而要让这一目标真正可靠,前提是系统既要能提前预判环境变化,也要能在不断试错和反馈中优化规划策略。
此次理想汽车入选 CVPR 的 SparseWorld-TC 和 PlannerRFT,分别从多模态感知和强化学习两个方向切入。
前者关注车辆如何更准确地理解未来场景,后者关注规划器如何在闭环训练中生成更优轨迹。

传统方法通常依赖鸟瞰图投影或离散化占据 token,这类中间表示虽然便于建模,但也可能带来信息压缩和表达能力限制。
SparseWorld-TC 则采用稀疏占据表示,直接从原始图像特征出发,端到端预测未来多帧三维场景占据情况,从而绕开 BEV 投影和离散 token 表示的双重瓶颈。
毕竟,真实道路上的风险往往不是静态出现的,而是在车辆、行人、道路结构和自身轨迹共同变化中逐步形成的。
SparseWorld-TC 通过轨迹条件化的方式,让车辆提前预测未来几秒周围三维空间会发生什么变化,从而为后续规划提供更可靠的环境预判。
如果说 SparseWorld-TC 让系统更好地 " 预判世界 ",那么 PlannerRFT 则进一步关注如何让规划器在反馈中变得更强。
近年来,扩散模型被用于生成更接近人类驾驶习惯的轨迹,但在强化微调过程中,如何生成多样化、场景自适应的轨迹,仍然是一个难点。

PlannerRFT 提出面向扩散规划器的样本高效强化微调框架,通过双分支优化同时调整轨迹分布,并自适应引导去噪过程,在不改变原始推理流程的前提下,让规划器更有效地探索高价值轨迹。
更重要的是,PlannerRFT 还同步开发了 nuMax 仿真器,用于支撑大规模并行学习。
论文显示,nuMax 的轨迹推演速度相比原生 nuPlan 提升 10 倍,为强化学习训练提供了更高效的闭环环境。
如此一来,通过强化学习不断优化轨迹规划器,可以让 PlannerRFT 在仿真反馈中学会生成更合理、更适应场景的驾驶轨迹。
05.
结语:理想全方位布局自动驾驶
从这 12 篇入选论文可以看到,理想汽车的技术布局并非停留在单点能力突破,而是围绕智驾构建一套更完整的能力链条。
世界模型负责还原、推演与评估真实道路环境,认知对齐与语言、视觉智能提升理解和推理效率。
端到端规划让模型形成驾驶目标,多模态感知与强化学习则进一步强化环境预判和闭环优化能力。
对于理想汽车而言,这些研究共同指向同一个方向:让车辆不仅能看见世界,更能理解世界、推演未来,并在复杂场景中做出更可靠的行动选择。