关于ZAKER 合作
智东西 06-16

计算机视觉界“奥斯卡”揭榜!华人霸榜 CVPR 2025,突破 3D 视觉瓶颈

智东西

编译 | 王涵

编辑 | 漠影

智东西 6 月 16 日消息,上周五,IEEE 计算机学会(CS)与计算机视觉基金会(CVF)联合公布了 2025 年计算机视觉与模式识别会议(CVPR)获奖论文及本年度 AI 艺术奖项。本次公布的 7 篇获奖论文全部都有华人科研人员参与其中,其中 2 篇文章由全华人团队完成。尤为亮眼的是,斩获 "CVPR 2025 最佳论文 " 的成果同样出自华人研究员之手。

CVPR 是 IEEE 国际计算机视觉与模式识别会议 ( IEEE/CVF Conference on Computer Vision and Pattern Recognition ) 。它是计算机视觉和模式识别领域最重要的年度国际会议之一,被公认为该领域的顶级盛会,许多人甚至称其为计算机视觉界的 " 奥斯卡 "。

该会议的论文录用标准非常严格,今年共有 13008 份有效投稿并进入评审流程,其中 2878 篇被录用,最终录用率为 22.1%。而其中能够进行口头报告的论文更是少之又少,这意味着能被 CVPR 录用的论文,通常代表了该领域最前沿、最具创新性的研究方向和最高水平。

一、CVPR 2025 最佳论文:华人一作,多项 3D 任务达最先进水平

摘得 CVPR 2025 最佳论文的论文题目为《VGGT: Visual Geometry Grounded Transformer》(VGGT:视觉几何基础 Transformer)。作者包括 Jianyuan Wang、Minghao Chen、Nikita Karaev、Andrea Vedaldi、Christian Rupprecht、David Novotny,来自牛津大学与 Meta AI 的工程师团队,其中第一作者 Jianyuan Wang、第二作者 Minghao Chen 均为华人。

该文章提出 VGGT(视觉几何基础 Transformer),能够直接从单视角、多视角乃至上百个视角中推断场景的所有关键 3D 属性,包括相机参数、点云图、深度图和 3D 点轨迹。该方法推动了 3D 计算机视觉领域的发展,传统模型通常局限于单一任务且需要专门优化。

VGGT 不仅结构简洁高效(图像重建耗时不足 1 秒),其性能更超越了需要视觉几何优化技术进行后处理的替代方案。该网络在多项 3D 任务中达到最先进水平,包括相机参数估计、多视角深度估计、稠密点云重建和 3D 点追踪。实验表明,将预训练的 VGGT 作为特征骨干网络,可显著提升非刚性点追踪和前馈式新视角合成等下游任务的性能。

二、CVPR 2025 最佳学生论文:根据物理规律逆向渲染,可屏蔽反射光干扰

获得 CVPR 2025 最佳学生论文的是《Neural Inverse Rendering from Propagating Light》(传播光线的神经逆向渲染),作者包括 Anagh Malik、Benjamin Attal、 Andrew Xie、 Matthew O ’ Toole、David B. Lindell,来自多伦多大学、Vector 研究所与卡内基梅隆大学,其中第三作者 Andrew Xie 为华人。

该团队首次实现基于物理的神经逆向渲染系统,能够处理多视角传播光线视频。该方法通过扩展神经辐射缓存技术(一种通过存储任意点从各方向接收的无限次弹射辐射来加速逆向渲染的技术),引入时间分辨率维度。所构建的模型能精确模拟直接与间接光传输效应,当应用于闪光激光雷达系统的捕获数据时,可在强间接光照环境下实现最先进的 3D 重建。此外,该团队还展示了传播光线的视角合成、捕获数据的直接 / 间接光自动分解,以及多视角时间分辨重照明等创新功能。

三、荣誉提名奖项:华为和北大浙大的全华团队夺得最佳学生论文提名

荣誉提名奖项授予那些在质量上仅次于最佳论文,但同样非常优秀且具有显著影响力的论文。它表明这些论文虽然不是最终的 " 第一名 ",但其研究成果和贡献也得到了高度认可。

其中共有 4 篇论文获得最佳论文荣誉提名,1 篇论文获得最佳学生论文提名,分别是:

1、最佳论文荣誉提名

《MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos》(MegaSaM:从动态视频中快速稳健地重建结构与运动),作者包括 Zhengqi Li、Richard Tucker、Forrester Cole、Qianqian Wang、Linyi Jin、Vickie Ye、Angjoo Kanazawa、Aleksander Holynski、Noah Snavely,来自谷歌 DeepMind 与加州大学伯克利分校和密歇根大学,其中第一作者 Zhengqi Li 和共同作者 Qianqian Wang、Linyi Jin、Vickie Ye 为华人。

来自谷歌 DeepMind 与加州大学伯克利分校、密歇根大学的团队提出了一种能够从动态场景的单目视频中快速、准确且稳定地估计相机参数和深度图的系统。传统运动恢复结构(Structure from Motion)和单目 SLAM 技术大多假设输入视频以静态场景为主且具有显著视差,当这些条件不满足时往往会产生错误估计。近期基于神经网络的方法尝试解决这些问题,但这些方法要么计算成本高昂,要么在相机运动不受控或视场未知的动态视频中表现脆弱。

该团队证明了一个深度视觉 SLAM 框架经过训练和推理方案的精心改进后,能够惊人地适应真实世界中相机路径不受限的复杂动态场景视频(包括相机视差较小的视频)。在合成与真实视频上的大量实验表明,相较于现有研究,该系统在相机位姿和深度估计方面显著提升了精度与稳定性,同时保持相当或更快的运行速度。

《Navigation World Models》(导航世界模型),作者包括 Amir Bar、Gaoyue Zhou、Danny Tran、Trevor Darrell、Yann LeCun(杨立昆),来自 Meta FAIR 团队、纽约大学与伯克利大学 AI 研究所,其中第二作者 Gaoyue Zhou 为华人。

该团队提出导航世界模型(Navigation World Model,NWM),这是一种基于视觉运动能力的智能体基础导航系统。作为可控视频生成模型,NWM 能根据历史观测和导航动作预测未来视觉场景。为捕捉复杂环境动态,NWM 采用条件扩散 Transformer 架构(Conditional Diffusion Transformer, CDiT),通过大规模训练(10 亿参数)于人类和机器人主体的第一视角视频数据集。

在熟悉环境中,NWM 可通过轨迹模拟与目标达成度评估自主规划路径。与传统固定行为的监督式导航策略不同,NWM 能在规划过程中动态整合约束条件。实验证明其具备两种核心能力:(1)从零开始规划轨迹;(2)对外部策略采样轨迹进行择优。更突出的是,NWM 能基于单张输入图像,利用学习到的视觉先验对陌生环境进行轨迹推演,这使其成为新一代导航系统中兼具灵活性与强大性能的工具。

《Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models》(Molmo 与 PixMo:先进视觉语言模型的开源权重与数据),有 Matt Deitke、Christopher Clark、Sangho Lee、Rohun Tripathi、Yue Yang、Jae Sung Park、Mohammadreza Salehi、Niklas Muennighoff、Kyle Lo、Luca Soldaini 等 39 名作者,来自艾伦人工智能研究所与华盛顿大学,有 Yue Yang 等多名华人为共同作者。

该团队提出 Molmo 系列模型。核心突破在于 PixMo 数据集组合:包含用于预训练的精细化图像描述数据集、用于微调的自由格式图像问答数据集,以及创新的 2D 指向数据集,所有数据均未借助外部 VLM 生成。该方案的成功取决于三个要素:(1)精细的建模选择;(2)优化充分的训练流程;(3)最关键的新建数据集质量。他们提出的 72B 旗舰模型不仅超越同类开源模型,更在学术基准和大规模人工评估中胜过 Claude 3.5 Sonnet、Gemini 1.5 Pro/Flash 等商业大模型,性能仅次于 GPT-4o。

《3D Student Splatting and Scooping》(3D 学生飞溅与挖掘技术),作者包括 Jialin Zhu、Jiangbei Yue、Feixiang He、He Wang,来自伦敦大学与伦敦大学 AI 中心、利兹大学,三名作者全部为华人。

该团队提出了一个由灵活的学生 t 分布(Student ’ s t distributions)组成的新混合模型,该模型同时包含正密度(溅射)和负密度(舀取)。此模型被命名为 " 学生溅射与舀取 "(Student Splatting and Scooping),简称 SSS。通过在多个数据集、设置和指标上进行的详尽评估与比较,该团队证明了 SSS 在质量和参数效率方面均优于现有方法。例如,在使用相似数量组件的情况下,SSS 能达到同等或更优的质量;并且在将组件数量减少高达 82% 的情况下,仍能获得可比较的结果。

2、最佳学生论文荣誉提名

获得最佳学生论文荣誉提名的论文是《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》(基基于离散扩散时间步长 tokens 的生成式多模态预训练),作者包括 Kaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang,来自华为新加坡研究中心、北京大学、浙江大学与南洋理工大学,为全华人团队。

多模态大语言模型(MLLM)的最新研究致力于通过结合 LLM 与扩散模型(分别为各自任务中的前沿技术)来实现视觉理解与生成的统一。现有方法依赖于空间视觉 tokens,即图像块按空间顺序(如光栅扫描)编码排列。但研究发现,空间 tokens 缺乏语言固有的递归结构,导致 LLM 难以掌握这种 " 非语言化 " 表征。

该研究提出通过扩散时间步长学习离散递归视觉 tokens,可随时间步长递增递归补偿噪声图像的渐进属性损失,使扩散模型能在任意时间步重建原始图像。该方法有效融合了 LLM 自回归推理优势与扩散模型精确图像生成能力,在统一框架内实现了无缝多模态理解与生成。大量实验表明,相比其他 MLLMs,该模型在多模态理解与生成任务上同步取得了更优性能。

四、让 AI 与艺术对话,全华人团队获奖

除技术研究外,CVPR AI 艺术项目(AI Art Program)探索科学与艺术的交叉领域,征集运用计算机视觉技术(包括生成模型、物体与面部识别等)的创作作品。今日公布的获奖作品从 100 余件入选作品中脱颖而出:

1、Tom White 的《Atlas of Perception(感知图册)》,通过探索神经网络的潜空间(latent space),揭示视觉模型的 " 视觉词汇 "。该雕塑作品解析机器如何理解世界,展现外观本身的语法规则:视觉的模块化语义。

2、Masaru Mizuochi 的《Green Diffusion(绿色扩散)》,将土壤微生物分解物质为养分的 " 破坏 " 过程,与 AI 扩散模型(diffusion model)的加噪去噪 " 创造 " 过程并置,凸显二者的同步性。

3、全华人团队 Mingyong Cheng, Sophia Sun, Han Zhang 的《Learning to Move, Learning to Play, Learning to Animate(学习运动、学习游戏、学习动画)》,是跨学科多媒体表演作品,包含自主研发的拾得材料机器人、实时 AI 生成、动作追踪、音频空间化及基于生物反馈(bio-feedback)的音频合成技术。

AI 艺术项目策展人 Luba Elliott 评价称:"AI 与艺术交汇处蕴藏丰富素材,本项目鼓励艺术家持续探索其潜力。祝贺所有获奖者及参与者对当下图景的深刻诠释。"

结语:华人正站在世界 AI 研究前沿

CVPR 2025 程序委员会联合主席、美国麻省理工学院(MIT)副教授 Phillip Isola 对以上获奖论文赞赏称:" 这些论文代表了本届会议最高质量的研究成果,包含突破性发现、广受关注的重要工具以及富有创造力的新思路。"

此次 CVPR 2025 大会上,科技巨头 Meta 和谷歌都没有缺席领奖台,华为的研究团队也获得了荣誉提名。除此之外,华人在获奖论文中的参与度让人十分惊喜。

华人在 CVPR 2025 上的超高 " 出镜率 " 凸显了华人在全球计算机视觉与模式识别领域的卓越贡献,多篇获奖论文及成果也彰显了中国在全球 AI 发展进程中日益增长的影响力。

相关标签
ai