理想狂砸 150 亿研发！连甩 12 篇顶会论文，把自动驾驶的“家底”都亮出来了

作者 | Janson

编辑 | 志豪

理想汽车 12 篇论文入选计算机视觉顶会 CVPR！

作为与 ICCV、ECCV 并称为计算机视觉三大顶会，一次入选 12 篇论文的含金量不言而喻。

此次理想汽车入选的 12 篇论文，覆盖世界模型、端到端规划、多模态感知、强化学习、认知模型、语言与视觉智能等关键方向。

可以说，理想汽车的智能化竞争正在从产品功能，进一步深入到底层模型、仿真、安全和推理能力。

而这背后，也是理想汽车近几年持续加码研发的结果。

据理想汽车方面透露，截至 2026 年一季度末，理想汽车已连续 5 个季度保持 30 亿元左右的研发投入，相当于理想汽车五个季度就投入了约 150 亿的研发费用，2025 年全年研发费用也是达到 113 亿元。

近 5 年来，理想汽车已在 CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH、IROS、ICRA 等顶级会议和期刊上发表近百篇论文。

不过，相比单纯看 " 发了多少篇 "，更值得关注的是，这 12 篇论文分别解决了什么问题。

对此，车东西拆解了这 12 篇论文，帮你总结理想汽车在自动驾驶底层技术上的四条主线。

01.

拿下世界模型四项突破

仿真与安全基座升级

在自动驾驶领域，世界模型要解决的，是车辆能否在行动前先理解和推演这个世界。

此次理想汽车共有四篇世界模型方向论文入选 CVPR 2026，分别从深度估计、三维重建、交通规则认知评估和安全风险预判四个层面展开，形成了从 " 还原真实世界 " 到 " 理解交通规则 "，再到 " 预判危险后果 " 的技术链路。

道路结构会如何变化，其他交通参与体可能怎样运动，一条轨迹会不会带来风险，复杂交通规则之间又该如何取舍。

对面向真实道路的自动驾驶来说，世界模型不仅是仿真的基础，也是提升安全性和长尾场景处理能力的重要底座。

▲ InfiniDepth 高精度连续深度估计方法示意

在几何理解层面，InfiniDepth（一种高精度连续深度估计方法）关注的是车辆理解三维世界时最基础也最关键的问题——深度。

传统深度估计方法通常在固定分辨率的图像网格上预测结果，容易受分辨率限制，细小结构和几何边界不够精细。

InfiniDepth 将深度表示为连续的神经隐式场，使模型可以在任意二维坐标上查询深度，从而支持更高分辨率、更细粒度的深度估计，并在精细区域和新视角合成任务中表现出优势。

对于车辆场景而言，这类能力有助于更准确地恢复道路、车辆、障碍物等三维结构，为后续仿真和环境建模提供更可靠的几何基础。

如此一来，车辆能更精细地判断画面中每个物体离自己有多远，为三维环境还原和仿真建模打基础。

▲ Unposed-to-3D 真实驾驶图像生成三维车辆能力

在仿真资产构建层面，Unposed-to-3D（一种真实驾驶图像生成三维车辆能力）解决的是另一个现实问题，高质量三维车辆资产从哪里来。

论文指出，现有三维车辆生成方法往往依赖合成数据训练，和真实道路图像存在域差距，生成结果还可能存在姿态不统一、尺度不准确等问题，难以直接放入驾驶仿真环境。

Unposed-to-3D 通过两阶段框架，从真实驾驶图像中学习三维车辆重建，并引入尺度感知和外观协调模块，使生成车辆在尺寸、姿态和光照外观上更适合真实驾驶场景仿真。

这意味着，未来构建大规模、多样化的仿真交通环境，可以更少依赖人工建模，更高效地从真实世界中获取可用资产。

▲ DriveCombo 复杂交通规则推理评测框架

世界模型不仅要 " 看得准 "" 建得真 "，还要能理解交通世界里的规则，对此，理想发布的 DriveCombo 正是面向复杂交通规则推理提出的评测基准。

DriveCombo 构建了文本与视觉结合的组合式交通规则推理基准，并提出五级认知阶梯，从单规则理解逐步提升到多规则整合和冲突消解。

对 14 个主流多模态大模型的评估显示，随着任务复杂度提升，模型性能会系统性下降，尤其在规则冲突场景中更明显。

简单说，DriveCombo 不是一个驾驶模型，而是一套 " 考试题 "，用来测试多模态大模型能不能理解复杂交通规则，尤其是多条规则冲突时该怎么判断。

▲ AD-R1 面向安全预判的公正世界模型整体框架

除此之外，安全预判则是世界模型走向闭环训练的关键一步。AD-R1 聚焦端到端驾驶强化学习中的一个核心难题：如果世界模型只在安全专家数据上训练，它可能会形成 " 乐观偏差 " ——面对危险轨迹时，仍然倾向于预测一个看似安全的未来，例如忽略碰撞或道路边界风险。

AD-R1 提出 " 公正世界模型 " 的概念，通过反事实合成生成碰撞、驶离道路等风险场景，让模型学会真实预测危险后果，并将其作为闭环强化学习中的内部评论器，为候选动作提供安全反馈。

换句话说，模型不只是学习 " 好司机怎么开 "，也要学会 " 错误动作会导致什么后果 "。这对于提升系统在长尾风险场景下的可靠性，具有直接意义。

如此一来，世界模型不再只是生成逼真的画面或场景，而是在向更完整的 " 可推演、可评估、可用于训练 " 的智能系统演进。

这四项研究共同构成了理想汽车在世界模型方向的系统性布局，也为智驾从 " 看见世界 " 走向 " 理解世界、推演世界并规避风险 " 提供了更坚实的技术支撑。

02.

认知对齐与语言、视觉智能

让模型推理更准更快

在训练侧世界模型是关键，而在推理侧，认知对齐、语言、视觉智能也是十分重要的一环。

针对上述问题，理想拿出了 5 篇关键研究。CogDriver 提升驾驶决策的时序稳定性，LinkVLA 打通语言理解与动作生成，FastMMoE 降低多模态大模型推理成本，CoV-Align 提升视觉与语言的细粒度对齐效率，Switch-KD 则让大模型能力更容易迁移到轻量模型。

它们共同构成了理想汽车在认知模型、语言智能和视觉智能方向的技术积累，也让车辆从 " 看见和判断 " 进一步走向 " 理解、推理和行动 "。

▲ CogDriver 提升驾驶决策时序稳定性的方法示意

在驾驶认知层面，CogDriver关注的是当前视觉语言模型在时序理解上的短板，有助于让系统更好的理解驾驶场景。很多模型处理驾驶场景时，更像是在逐帧 " 看图说话 "，缺乏对历史状态和持续意图的记忆，容易造成决策抖动，难以完成复杂连续动作。

CogDriver 引入 " 认知惯性 " 机制，通过大规模视觉—语言—动作数据集提供时序监督，并在智能体中加入稀疏时序记忆模块，让模型能够形成更稳定的内部状态。

实验显示，CogDriver 在 Bench2Drive 闭环驾驶得分上提升 22%，在 nuScenes 上将平均轨迹误差降低 21%，说明时序一致性对于提升规划稳定性具有直接价值。

不难看出，CogDriver 就是给驾驶模型加入 " 记忆 " 和 " 惯性 "，让它做决策时不再只看当前一帧，而是结合前后状态保持判断稳定。

如果说 CogDriver 解决的是 " 连续理解 " 的问题，那么 LinkVLA 更进一步面向 " 理解之后如何行动 "。

视觉语言动作模型被认为是端到端驾驶的重要方向，但现有方法常常存在两个问题：一是语言指令和动作输出之间对不齐，二是逐步生成动作序列导致推理效率较低。

▲ LinkVLA 打通语言理解与动作生成的整体框架

LinkVLA 通过把语言和动作统一到共享离散码本中，从结构上强化跨模态一致性；同时引入动作理解辅助任务，让模型既能从语言到动作，也能从轨迹反推语义描述。

它还采用由粗到细的两步生成方式替代传统逐步解码，在闭环驾驶基准中提升指令遵循和驾驶表现的同时，节省了 86% 的推理时间。

如此一来，通过 LinkVLA 就可以让系统延迟更低，更聪明。

模型变得更聪明之后，另一个现实问题是：能不能跑得更快、更轻。

▲ FastMMoE 多模态大模型免训练加速方法示意

相比单纯从注意力权重判断哪些 Token 可以删除，FastMMoE 更贴近 MoE 模型本身的计算机制。

实验表明，在 DeepSeek-VL2、InternVL3.5 等模型上，FastMMoE 最高可减少 55% 的 FLOPs，同时保留约 95.5% 的原始性能。

这类方法对于车端、座舱等对延迟和算力敏感的场景很有帮助，让多模态大模型 " 减负 "，在尽量不损失能力的前提下减少计算量，让模型跑得更快。

与此同时，在多模态理解中，语言和视觉之间能否精准对齐，同样决定了模型是否真正 " 看懂了 "。

▲ CoV-Align 图像区域与语言描述细粒度对齐方法示意

CoV-Align 聚焦图像区域与文字描述之间的细粒度对齐。传统方法往往依赖文本引导去聚合图像区域，容易产生冗余的 patch-word 匹配，计算成本也较高。

CoV-Align 提出 " 内聚视觉语义优先 " 的思路，先在不依赖文本的情况下，把语义一致的视觉区域聚合起来，再进行跨模态对齐。这样既减少了噪声，也提升了效率。

论文显示，CoV-Align 在 Flickr30K 和 MS-COCO 等图文评测基准上达到领先表现，并带来 3 至 5 倍计算加速，为大规模多模态任务提供了更高效的对齐路径。

最后，Switch-KD 关注的是大模型能力如何迁移到小模型。

▲ Switch-KD 面向视觉语言小模型的知识蒸馏框架

视觉语言模型能力强，但参数规模大、部署成本高；传统知识蒸馏又常常把视觉和语言分开监督，容易造成跨模态知识传递不充分。

Switch-KD 提出视觉切换蒸馏框架，将视觉—语言知识统一到共享的文本概率空间中，让小模型能够更有效地学习大模型的多模态理解能力。

论文显示，0.5B TinyLLaVA 在 3B 教师模型指导下，在 10 个多模态基准上平均提升 3.6 分，且无需改变模型结构。

对于需要在有限算力下运行的车端边缘计算和智能座舱场景，这类轻量化能力同样关键，可以让小模型也能具备更强的视觉语言理解能力。

03.

端到端规划升级

让模型从 " 看懂场景 " 走向 " 形成目标 "

相比把感知、预测、规划拆成多个独立模块，端到端方法希望模型能够直接从传感器输入中理解道路环境，并生成可执行的驾驶轨迹。

理想汽车提出的 SGDrive，正是围绕这一问题展开。

▲ SGDrive 场景、交通参与体、目标层级规划框架

论文指出，SGDrive 可以将驾驶理解拆解为更接近人类驾驶认知的层级结构：先理解整体场景，再关注关键交通参与体及其行为，最后形成短期目标并执行动作。

论文将这一结构概括为 Scene-Agent-Goal，也就是 " 场景—交通参与体—目标 " 的层级认知框架。

这种设计的价值在于，它不是简单地让模型 " 看图后直接输出轨迹 "，而是给模型补上了驾驶任务所需的中间认知过程。

▲ SGDrive 的构成

人类驾驶员在复杂路口或拥堵道路中，也不会只根据单帧画面做判断，而是会先把握道路整体格局，再判断哪些车辆、行人或障碍物会影响自身行驶，最后形成一个可执行的短期目标。

SGDrive 将这种过程结构化地注入模型，使通用视觉语言模型能够围绕驾驶知识进行表示学习，从而更好地服务轨迹规划。

从实验结果看，SGDrive 在 NAVSIM 基准上取得了纯视觉方法中的领先表现，验证了层级化驾驶知识结构对于端到端规划的有效性。

简单来说，SGDrive 就是让模型像人类驾驶员一样，先看整体道路环境，再判断关键车辆和行人，最后形成下一步驾驶目标。

04.

多模态感知与强化学习

提升环境预判与规划优化能力

在端到端规划中，模型需要从复杂道路环境中形成合理驾驶目标，而要让这一目标真正可靠，前提是系统既要能提前预判环境变化，也要能在不断试错和反馈中优化规划策略。

此次理想汽车入选 CVPR 的 SparseWorld-TC 和 PlannerRFT，分别从多模态感知和强化学习两个方向切入。

前者关注车辆如何更准确地理解未来场景，后者关注规划器如何在闭环训练中生成更优轨迹。

▲ SparseWorld-TC 未来三维场景占据预测方法示意

传统方法通常依赖鸟瞰图投影或离散化占据 token，这类中间表示虽然便于建模，但也可能带来信息压缩和表达能力限制。

SparseWorld-TC 则采用稀疏占据表示，直接从原始图像特征出发，端到端预测未来多帧三维场景占据情况，从而绕开 BEV 投影和离散 token 表示的双重瓶颈。

毕竟，真实道路上的风险往往不是静态出现的，而是在车辆、行人、道路结构和自身轨迹共同变化中逐步形成的。

SparseWorld-TC 通过轨迹条件化的方式，让车辆提前预测未来几秒周围三维空间会发生什么变化，从而为后续规划提供更可靠的环境预判。

如果说 SparseWorld-TC 让系统更好地 " 预判世界 "，那么 PlannerRFT 则进一步关注如何让规划器在反馈中变得更强。

近年来，扩散模型被用于生成更接近人类驾驶习惯的轨迹，但在强化微调过程中，如何生成多样化、场景自适应的轨迹，仍然是一个难点。

▲ PlannerRFT 扩散规划器强化微调整体框架

PlannerRFT 提出面向扩散规划器的样本高效强化微调框架，通过双分支优化同时调整轨迹分布，并自适应引导去噪过程，在不改变原始推理流程的前提下，让规划器更有效地探索高价值轨迹。

更重要的是，PlannerRFT 还同步开发了 nuMax 仿真器，用于支撑大规模并行学习。

论文显示，nuMax 的轨迹推演速度相比原生 nuPlan 提升 10 倍，为强化学习训练提供了更高效的闭环环境。

如此一来，通过强化学习不断优化轨迹规划器，可以让 PlannerRFT 在仿真反馈中学会生成更合理、更适应场景的驾驶轨迹。

05.

结语：理想全方位布局自动驾驶

从这 12 篇入选论文可以看到，理想汽车的技术布局并非停留在单点能力突破，而是围绕智驾构建一套更完整的能力链条。

世界模型负责还原、推演与评估真实道路环境，认知对齐与语言、视觉智能提升理解和推理效率。

端到端规划让模型形成驾驶目标，多模态感知与强化学习则进一步强化环境预判和闭环优化能力。

对于理想汽车而言，这些研究共同指向同一个方向：让车辆不仅能看见世界，更能理解世界、推演未来，并在复杂场景中做出更可靠的行动选择。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

理想狂砸 150 亿研发！连甩 12 篇顶会论文，把自动驾驶的“家底”都亮出来了

宙世代

一起剪

相关阅读

工程师彻底放飞自我！丰田造出7缸凯美瑞 前后轮各一台发动机

30台！OMC有趣车首届萤火虫车聚来啦！

红旗发布首款硬派越野车G919：增程混动、四电机驱动，2026年下半年上市

大众全球产能削减300万辆，聚焦重组与在华合作应对销量下滑

特斯拉Model Y半年快充占比过半 电池健康度仍保持99%

安波福推出纯视觉高级乘员分类系统，可降低系统成本最高40%

鸿蒙智行发布旗舰MPV尊界V800，定位超豪华并搭载多项高端配置

2026款星途ET5新车商品性测试结果公布

台湾省5月汽车销量榜单出炉：日系霸榜、燃油畅销！

长城炮Hi4-T将于6月13日上市 预售价14.98万起

无人物流“新VAN式”将至？主机厂密集布局 抢占万亿级新赛道

广汽传祺越7官图发布 方盒子硬派设计

离地间隙媲美城市型SUV 高山7新车型发起全网征名

别克昂科威达成200万辆下线并推新配色及购车政策

零跑C系列SUV将于6月16日上市 目前开启盲订

最新评论

车东西

热门推荐

企业资讯

工程师彻底放飞自我！丰田造出7缸凯美瑞前后轮各一台发动机

特斯拉Model Y半年快充占比过半电池健康度仍保持99%

长城炮Hi4-T将于6月13日上市预售价14.98万起

无人物流“新VAN式”将至？主机厂密集布局抢占万亿级新赛道

广汽传祺越7官图发布方盒子硬派设计

零跑C系列SUV将于6月16日上市目前开启盲订