刚刚,备受瞩目的 ICCV 2025,在美国夏威夷正式 " 开奖 "!
好家伙,在提交论文的作者里,中国直接占了半壁江山,不多不少占比 50%。
让我们一起膜拜看看顶会荣耀,今年花落谁家?
最佳论文奖(马尔奖):
Generating Physically Stable and Buildable Brick Structures from Text(从文本生成物理稳定且可搭建的积木结构)。
最佳学生论文奖:
FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models(基于预训练流模型的无反演文本编辑方法) 。
最佳论文荣誉提名:
Spatially-Varying Autofocus(空间可变自动对焦)。
最佳学生论文荣誉提名:
RayZer: A Self-supervised Large View Synthesis Model(基于自监督学习的大规模视图合成模型)。
赫尔姆霍兹奖:
Fast R-CNN(快速区域卷积神经网络)和 Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification(深入研究修正激活函数:在 ImageNet 分类中超越人类水平)。
埃弗林厄姆奖:
The SMPL Body Model Team 和 The VQA Team。
杰出研究员奖:
David Forsyth 和 Michal Irani。
阿兹列尔 · 罗森菲尔德终身成就奖:
Rama Chellappa。
对于上述论文成果和奖项,是不是一下子有点懵?
别慌别慌,咱们一起来详细学习一下。
获奖的都是啥研究?最佳论文奖
首先介绍的是最佳论文奖,这含金量就不用多说了吧。
ICCV 最佳论文又名马尔奖(Marr Prize),每两年评选一次,被誉为计算机视觉领域的最高荣誉之一。
这一奖项因计算机视觉之父、计算机视觉先驱、计算神经科学的创始人 David Courtnay Marr(大卫 · 马尔)而得名。
研究团队构建了一个大规模、物理稳定的积木结构数据集 StableText2Brick,包含超过 47000 个积木结构,涵盖 28000 多个独特三维物体,每个结构均配有详细的文字描述,并训练了一个自回归大型语言模型,通过逐步预测 " 下一个积木 " 来生成完整结构。
实验表明,BRICKGPT 能够生成稳定、多样且美观的积木结构,并与输入文本高度契合。进一步地,他们还开发了基于文本的积木纹理生成方法,可生成带颜色和纹理的设计,且这些结构既可以由人手动组装,也可以由机械臂自动搭建。
其博士毕业毕业论文 Learning to Generate Images,获得了计算机图形学顶会 ACM SIGGRAPH 2018" 杰出博士论文奖 "。
博士毕业后,朱俊彦来到 MIT 计算机与人工智能实验室(CSAIL),成为一名博士后研究员。2020 年秋季,他回到曾经的母校 CMU(卡内基梅隆大学),担任助理教授一职。
最佳学生论文奖
使用预训练的文本到图像(Text-to-Image,T2I)扩散或流模型编辑真实图像时,通常需要先将图像反演(inversion)到对应的噪声空间。
然而,仅靠反演往往难以获得理想结果,因此许多方法会在采样过程中额外干预。这类方法虽然能够提升效果,但无法在不同模型架构之间无缝迁移。
FlowEdit 构建了一个常微分方程(ODE),直接在源分布与目标分布之间映射(对应源文本提示和目标文本提示),并实现了比传统反演方法更低的传输成本。
正如团队在 Stable Diffusion 3 和 FLUX 上的实验所示,该方法取得了最先进的效果。
透镜可以将一个平面聚焦到平面传感器上,因此场景中不在该焦平面上的部分会因失焦而模糊。
来自卡内基梅隆大学的团队打破常规,设计使用了 Lohmann 透镜与仅相位空间光调制器(phase-only spatial light modulator) 的光学组合,使得每个像素可以聚焦在不同深度上。
通过光学方式直接获取全焦图像,此技术在以下两个关键方面超越了现有成果:一是能够同时使整个场景保持清晰对焦,二是可维持最高的空间分辨率。
研究团队提出了 RayZer ——一种无需任何 3D 监督(如相机位姿与场景几何信息)即可完成训练的自监督多视图 3D 视觉模型。
在训练过程中,RayZer 仅依赖其自预测的相机位姿来渲染目标视角,完全无需真实相机标注数据,实现了仅通过 2D 图像监督即可完成训练。
RayZer 所表现出的三维感知能力主要归功于两个关键因素:
自监督框架设计:通过将相机表示和场景表示解耦,实现输入图像的三维感知自编码;
基于Transformer的模型设计:仅以射线结构作为唯一 3D 先验,同步关联相机、像素与场景信息。
实验表明,RayZer 在新视角合成任务中展现出与 " 真值标注 " 方法相当甚至更优的性能。
获赫尔姆霍兹奖的一共有两项研究,且都来自微软研究院。
其一为 Fast R-CNN ——一种基于快速区域卷积神经网络的目标检测方法。
实验表明,在 PASCAL VOC 2012 数据集上,Fast R-CNN 对 VGG16 网络的训练速度较 R-CNN 提升 9 倍,测试速度提升 213 倍,并获得了更高的 mAP 指标;相较于 SPPnet,其 VGG16 训练速度加快 3 倍,测试速度提升 10 倍,且检测精度更优。
首先,他们提出了一种参数化修正线性单元(Parametric ReLU,PReLU),它是对传统修正激活单元的推广。PReLU 在几乎不增加额外计算开销且几乎没有过拟合风险的情况下,提高了模型的拟合能力。
其次,他们提出了一种专门针对修正激活非线性的鲁棒初始化方法,能够从零开始训练极深的修正激活模型,并探索更深或更宽的网络架构。
基于 PReLU 网络(PReLU-nets),团队在 ImageNet 2012 分类数据集上实现了 4.94% 的 Top-5 测试误差,相比 ILSVRC 2014 冠军 GoogLeNet(6.66%)提升了 26%。据研究人员所知,这是首次在该视觉识别挑战中超过人类水平(5.1%)的结果。
细数完获奖的一众研究,就该看看获奖的团队了。
首先是 The SMPL Body Model Team,SMPL 是一种基于蒙皮和混合形状技术、从数千例 3D 人体扫描数据中学习得到的逼真人体三维模型。该模型在精度上超越现有模型,并与主流图形渲染管线完全兼容。
接下来是 The VQA Team,VQA 为一项自由形式开放式视觉问答任务。
与现实场景(例如为视障人士提供帮助)类似,这里的问题和答案都是开放式的。视觉问题会有选择性地关注图像的不同区域,包括背景细节和潜在上下文信息。
因此,要在 VQA 任务中取得成功,系统通常需要比生成通用图像描述更深入理解图像内容和进行复杂推理的能力。
对此,研究团队提供了一个数据集,包含约 25 万张图像、76 万个问题和约 1000 万个答案,并讨论了数据集所提供的信息。他们还提供了多种基线方法及 VQA 方法,并与人类表现进行了对比。
杰出研究员奖
他在约翰内斯堡维特沃特斯兰德大学获得电气工程学士和硕士学位,并于 1989 年在牛津大学获得计算机科学博士学位,导师为 J. Michael Brady。
完成博士后工作后,他曾在爱荷华大学任教,并于 1994 至 2004 年在加州大学伯克利分校担任电气工程与计算机科学系教授,2004 年起加入 UIUC,成为该校计算机科学领域的领军人物。
此外,David 长期参与国际学术会议的组织工作,曾三度担任 IEEE 计算机视觉与模式识别会议程序委员会联合主席(2000/2011/2018),两度担任 CVPR 大会联合主席(2006/2015),并担任 2008 年欧洲计算机视觉会议程序委员会联合主席。
他是所有主要国际计算机视觉会议程序委员会的常任委员,曾六度入选 SIGGRAPH 程序委员会并持续担任该会议评审。
Michal 的研究领域为计算机视觉、图像处理和人工智能。她尤其致力于理解自然图像和视频的内部统计信息、视频的时空分析以及基于构图的视觉推理。
Michal 教授在学术界成就卓著,获得多项荣誉,包括萨诺夫研究中心技术成就奖、Yigal Alon 杰出青年科学家奖、Morris L. Levinson 数学奖、ECCV 最佳论文奖等。
阿兹列尔 · 罗森菲尔德终身成就奖
Rama 教授于印度马德拉斯大学获得电子与通信工程学士学位(1975),随后在印度班加罗尔的印度科学研究院获得电子与通信工程硕士学位(1977),并在美国普渡大学获得电气工程硕士(1978)和博士学位(1981)。
他的研究领域涵盖计算机视觉、模式识别、图像与信号处理、机器学习和生物特征识别等,致力于利用数据、几何和物理学帮助计算机系统理解视觉世界。
One More Thing
有意思的是,这么大的会议,竟然有许多人坐在地上吃午饭。
[ 1 ] https://arxiv.org/abs/2505.05469
[ 2 ] https://arxiv.org/html/2412.08629v2
[ 3 ] https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf
[ 4 ] https://arxiv.org/abs/2505.00702
[ 5 ] https://arxiv.org/abs/1504.08083
[ 6 ] https://arxiv.org/abs/1502.01852
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名火热进行中!我们正在寻找 AI+ 时代领航者 点击了解详情
企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见