编译 | 王涵
编辑 | 漠影
智东西 6 月 16 日消息,上周五,IEEE 计算机学会(CS)与计算机视觉基金会(CVF)联合公布了 2025 年计算机视觉与模式识别会议(CVPR)获奖论文及本年度 AI 艺术奖项。本次公布的 7 篇获奖论文全部都有华人科研人员参与其中,其中 2 篇文章由全华人团队完成。尤为亮眼的是,斩获 "CVPR 2025 最佳论文 " 的成果同样出自华人研究员之手。
CVPR 是 IEEE 国际计算机视觉与模式识别会议 ( IEEE/CVF Conference on Computer Vision and Pattern Recognition ) 。它是计算机视觉和模式识别领域最重要的年度国际会议之一,被公认为该领域的顶级盛会,许多人甚至称其为计算机视觉界的 " 奥斯卡 "。
该会议的论文录用标准非常严格,今年共有 13008 份有效投稿并进入评审流程,其中 2878 篇被录用,最终录用率为 22.1%。而其中能够进行口头报告的论文更是少之又少,这意味着能被 CVPR 录用的论文,通常代表了该领域最前沿、最具创新性的研究方向和最高水平。
一、CVPR 2025 最佳论文:华人一作,多项 3D 任务达最先进水平
摘得 CVPR 2025 最佳论文的论文题目为《VGGT: Visual Geometry Grounded Transformer》(VGGT:视觉几何基础 Transformer)。作者包括 Jianyuan Wang、Minghao Chen、Nikita Karaev、Andrea Vedaldi、Christian Rupprecht、David Novotny,来自牛津大学与 Meta AI 的工程师团队,其中第一作者 Jianyuan Wang、第二作者 Minghao Chen 均为华人。
VGGT 不仅结构简洁高效(图像重建耗时不足 1 秒),其性能更超越了需要视觉几何优化技术进行后处理的替代方案。该网络在多项 3D 任务中达到最先进水平,包括相机参数估计、多视角深度估计、稠密点云重建和 3D 点追踪。实验表明,将预训练的 VGGT 作为特征骨干网络,可显著提升非刚性点追踪和前馈式新视角合成等下游任务的性能。
二、CVPR 2025 最佳学生论文:根据物理规律逆向渲染,可屏蔽反射光干扰
获得 CVPR 2025 最佳学生论文的是《Neural Inverse Rendering from Propagating Light》(传播光线的神经逆向渲染),作者包括 Anagh Malik、Benjamin Attal、 Andrew Xie、 Matthew O ’ Toole、David B. Lindell,来自多伦多大学、Vector 研究所与卡内基梅隆大学,其中第三作者 Andrew Xie 为华人。
三、荣誉提名奖项:华为和北大浙大的全华团队夺得最佳学生论文提名
荣誉提名奖项授予那些在质量上仅次于最佳论文,但同样非常优秀且具有显著影响力的论文。它表明这些论文虽然不是最终的 " 第一名 ",但其研究成果和贡献也得到了高度认可。
其中共有 4 篇论文获得最佳论文荣誉提名,1 篇论文获得最佳学生论文提名,分别是:
1、最佳论文荣誉提名
《MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos》(MegaSaM:从动态视频中快速稳健地重建结构与运动),作者包括 Zhengqi Li、Richard Tucker、Forrester Cole、Qianqian Wang、Linyi Jin、Vickie Ye、Angjoo Kanazawa、Aleksander Holynski、Noah Snavely,来自谷歌 DeepMind 与加州大学伯克利分校和密歇根大学,其中第一作者 Zhengqi Li 和共同作者 Qianqian Wang、Linyi Jin、Vickie Ye 为华人。
该团队证明了一个深度视觉 SLAM 框架经过训练和推理方案的精心改进后,能够惊人地适应真实世界中相机路径不受限的复杂动态场景视频(包括相机视差较小的视频)。在合成与真实视频上的大量实验表明,相较于现有研究,该系统在相机位姿和深度估计方面显著提升了精度与稳定性,同时保持相当或更快的运行速度。
《Navigation World Models》(导航世界模型),作者包括 Amir Bar、Gaoyue Zhou、Danny Tran、Trevor Darrell、Yann LeCun(杨立昆),来自 Meta FAIR 团队、纽约大学与伯克利大学 AI 研究所,其中第二作者 Gaoyue Zhou 为华人。
在熟悉环境中,NWM 可通过轨迹模拟与目标达成度评估自主规划路径。与传统固定行为的监督式导航策略不同,NWM 能在规划过程中动态整合约束条件。实验证明其具备两种核心能力:(1)从零开始规划轨迹;(2)对外部策略采样轨迹进行择优。更突出的是,NWM 能基于单张输入图像,利用学习到的视觉先验对陌生环境进行轨迹推演,这使其成为新一代导航系统中兼具灵活性与强大性能的工具。
《Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models》(Molmo 与 PixMo:先进视觉语言模型的开源权重与数据),有 Matt Deitke、Christopher Clark、Sangho Lee、Rohun Tripathi、Yue Yang、Jae Sung Park、Mohammadreza Salehi、Niklas Muennighoff、Kyle Lo、Luca Soldaini 等 39 名作者,来自艾伦人工智能研究所与华盛顿大学,有 Yue Yang 等多名华人为共同作者。
《3D Student Splatting and Scooping》(3D 学生飞溅与挖掘技术),作者包括 Jialin Zhu、Jiangbei Yue、Feixiang He、He Wang,来自伦敦大学与伦敦大学 AI 中心、利兹大学,三名作者全部为华人。
2、最佳学生论文荣誉提名
获得最佳学生论文荣誉提名的论文是《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》(基基于离散扩散时间步长 tokens 的生成式多模态预训练),作者包括 Kaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang,来自华为新加坡研究中心、北京大学、浙江大学与南洋理工大学,为全华人团队。
多模态大语言模型(MLLM)的最新研究致力于通过结合 LLM 与扩散模型(分别为各自任务中的前沿技术)来实现视觉理解与生成的统一。现有方法依赖于空间视觉 tokens,即图像块按空间顺序(如光栅扫描)编码排列。但研究发现,空间 tokens 缺乏语言固有的递归结构,导致 LLM 难以掌握这种 " 非语言化 " 表征。
该研究提出通过扩散时间步长学习离散递归视觉 tokens,可随时间步长递增递归补偿噪声图像的渐进属性损失,使扩散模型能在任意时间步重建原始图像。该方法有效融合了 LLM 自回归推理优势与扩散模型精确图像生成能力,在统一框架内实现了无缝多模态理解与生成。大量实验表明,相比其他 MLLMs,该模型在多模态理解与生成任务上同步取得了更优性能。
四、让 AI 与艺术对话,全华人团队获奖
除技术研究外,CVPR AI 艺术项目(AI Art Program)探索科学与艺术的交叉领域,征集运用计算机视觉技术(包括生成模型、物体与面部识别等)的创作作品。今日公布的获奖作品从 100 余件入选作品中脱颖而出:
1、Tom White 的《Atlas of Perception(感知图册)》,通过探索神经网络的潜空间(latent space),揭示视觉模型的 " 视觉词汇 "。该雕塑作品解析机器如何理解世界,展现外观本身的语法规则:视觉的模块化语义。
结语:华人正站在世界 AI 研究前沿
CVPR 2025 程序委员会联合主席、美国麻省理工学院(MIT)副教授 Phillip Isola 对以上获奖论文赞赏称:" 这些论文代表了本届会议最高质量的研究成果,包含突破性发现、广受关注的重要工具以及富有创造力的新思路。"
此次 CVPR 2025 大会上,科技巨头 Meta 和谷歌都没有缺席领奖台,华为的研究团队也获得了荣誉提名。除此之外,华人在获奖论文中的参与度让人十分惊喜。
华人在 CVPR 2025 上的超高 " 出镜率 " 凸显了华人在全球计算机视觉与模式识别领域的卓越贡献,多篇获奖论文及成果也彰显了中国在全球 AI 发展进程中日益增长的影响力。