IT 之家 5 月 19 日消息,小米技术官方宣布,近日,小米在 CVPR 2026 NTIRE 赛事中获三项奖项。其中,小米玄戒多媒体算法团队夺得高效超分辨率赛道冠军,小米大模型应用团队获人像修复赛道冠军与反光消除赛道亚军。

据小米技术介绍,在 NTIRE 高效超分辨率挑战赛的最终评估中,小米玄戒多媒体算法团队依托在芯片多媒体影像算法领域的软硬融合方向积累,延续了上一届冠军方案 SPAN 技术路线,提出了全新一代方法 SPANV2,并以综合得分 4.43 位列第一,在推理速度、计算量、参数规模之间取得了整体均衡。



第一阶段:基于 OSDFace 进行粗修复与结构恢复,重点解决五官布局恢复、严重退化修正和整体人脸结构稳定,确保人脸结构修复正确
第二阶段:基于 Z-Image One-step Diffusion 进行细节增强,进一步补充皮肤纹理、发丝、边缘和高频细节,确保细节真实自然
此外,小米团队还引入了单步扩散细节增强机制(One-step Diffusion),将复杂的多步推理压缩至单步完成,在保证生成质量的同时提升推理效率。
最后是反光消除赛道,小米大模型应用团队基于 RDNet-XL 架构,通过骨干网络升级、扩散模型知识蒸馏与渐进式多分辨率训练策略,在 CVPR 2026 主观评分中荣获第二名(4.31 分),同时多项客观指标位列第一。

方案基于 XReflection 框架中的 RDNet(Reversible Decoupling Network)架构,将原始骨干从 FocalNet-L 替换为更大规模的 FocalNet-XL。这一升级带来了显著的多尺度表征能力提升和全局上下文建模增强,使模型能够更精确地抑制反射并保留细节。

困难样本生成:使用扩散模型 SOTA 方法(WindowSeat、DAI)对大规模开源图像进行反光消除,生成 1000 对高质量伪标签数据;
域对齐处理:将每张反射图像通过与扩散模型相同的 VAE 编码器 - 解码器处理,用重建图像作为网络输入,消除 VAE 编解码带来的域差异;
蒸馏训练:以扩散模型的输出作为教师信号,对已完成渐进式训练的模型进行额外蒸馏训练。
此外,为了在大分辨率图像上实现稳定训练,团队还采用了三阶段渐进式分辨率训练策略(384 × 384 → 512 × 512 → 768 × 768)。这种从小到大的训练方式,使模型先学习局部反射模式,再逐步扩展至全局结构理解,避免了直接在大分辨率上训练的不稳定性。
IT 之家附技术报告如下:
人像修复:https://arxiv.org/abs/2604.10532
反光消除:https://arxiv.org/abs/2604.10321
高效图像超分辨率:https://arxiv.org/abs/2604.03198