【图像去噪专题】NTIRE 2025:The Tenth NTIRE2025 Image Denoising Challenge Report
本文对NITRE2025的image denoising challenge report做了介绍,简要说明了各个团队的方案。
一场针对σ=50的图像去噪挑战赛(2025)
- 一、引言
- 二、挑战概况
- 三、方案细节
-
- 1. SRC-B
- 2. SNUCV
- 3. BuptMM (DDU)
- 4. HMiDenoise
- 5. Pixel Purifiers
- 6. Alwaysu
- 7. Tcler Denoising
- 8. cipher vision (Pureformer)
- 9. Sky-D (Two-Stage Framework)
- 10. KLETech-CEVI (HNNFormer)
- 11. xd denoise (SCUNet)
- 12. JNU620 (NAFNet & RCAN Ensemble)
- 13. PSU team (OptiMalDiff)
- 14. Aurora (GAN + NAFNet)
- 15. mpu ai (CTMP)
- 16. OptDenoiser (Two-Stage Framework)
- 17. AKDT (Adaptive Kernel Dilation Transformer)
- 18. X-L (MixEnsemble)
- 19. Whitehairbin (Diffusion Model)
- 20. mygo (U-Net Enhanced)
- 四、总结
本文将对NITRE 2025 的 Image Denoising Challenge Report做个解读,部分参赛团队的技术文章已发表,有兴趣的读者可以去详阅。
参考资料如下:
[1]. [报告地址]
[2]. [NITRE官网地址]
一、引言
图像去噪是low-level视觉中的基础问题,其目标是从退化的输入中重建无噪声图像。在图像采集和处理过程中,可能引入多种噪声类型,如高斯噪声、泊松噪声以及JPEG压缩伪影。这些噪声源使得去噪成为极具挑战性的任务。鉴于其在计算摄影、医学成像和遥感等领域的关键应用,持续的研究努力对于开发更高效、更具通用性的去噪解决方案至关重要。为推动该领域进展,本挑战赛旨在促进去噪方法的发展,并通过标准化基准公平评估性能,创造业内专业人士的交流和合作。
二、挑战概况
竞赛标准
目标: 从噪声水平σ=50的加性高斯白噪声(AWGN)退化图像中恢复干净图像。
评价标准: 以PSNR作为主要评价指标,SSIM为辅,不考虑模型大小和效率。
非常直接,方法不限,参数量计算量不限,运行效率不限,只管涨点。
数据集:
- DIV2K:共1000张2K分辨率RGB图,训练验证测试比为8:1:1
- LSDIR:共86991张高质量高分辨图,验证集1000张,测试集1000张,剩余可用于训练。
训练验证阶段: 除了官方训练集,可以使用外部训练集,例如Flickr2K。并提供100张DIV2K验证数据对。但禁止用验证集参与训练。退化噪声强度统一,即σ=50。
测试阶段: 代码提交至CodaLab评估服务器,用100张DVI2K和100张LSDIR作为测试数据。GT数据均不会公开。
竞赛结果
本挑战赛共吸引了290支注册团队,最终20支队伍提交了有效结果,具体指标排名如下。
冠军团队SRC-B提出了一种结合Transformer和卷积网络的混合架构,在200张测试图像上实现了31.20 dB的PSNR和0.8884的SSIM,显著优于2023年冠军方法1.24 dB。今年前六名小组的成绩均超过了上届的同名次小组,为图像去噪树立了新的标杆。
主要idea和架构
参赛团队所用的策略和框架主要包括以下几点
-
混合架构表现良好
前三名均采用了transformer+卷积的混合架构,兼容全局和局部特征提取能力。
-
数据很重要
冠军团队选择数据集中的高质量图像进行训练,而不是全量数据,来缓解数据分布不平衡的影响。
-
魔鬼藏在细节中
部分细节有助于改善模型,例如小波变换损失约束,渐进式学习策略,分块推理策略。的
-
基于Mamba的新设计
第二名SNUCV小组利用MambaIRv2设计了混合架构,取得了不错的效果。
-
自集成和模型集成
高重叠的多patch混合和多模型结果混合均能提升最终结果。
三、方案细节
1. SRC-B
题目:Dynamic detail-enhanced image denoising frame work
框架:transformer局部恢复能力弱?CNN全局视野不足?那就联合起来!作者combine了Restormer和NAFnet,用前者提取全局特征,用后者增强细节信息,最后加个动态融合block,来平衡去噪能力和细节保留能力。
数据:分为三部分
- 自配200W数据集;
- 官方全量数据集;
- 从1和2里精选出的2800张高质量数据集。(分辨率大,IQ指标高,语义多样性)
训练策略:分三个阶段
- 200W数据集预训练,打基础;
- 官方全量数据微调细节增强模块;
- 高质量数据精调整个模型;
损失函数除了L1、L2,引入了SWT小波损失(有助于跳出局部最优)。渐进式训练,patch size 从256到768。
双引擎降噪王!200W数据打基础,细节微操定胜负。
用Transformer全局视野+CNN细节修复的“双引擎”,配合小波约束和挑图策略,实现降噪能力突破。这套组合拳有想法,也合理。
2. SNUCV
题目:Deep ensemble for Image denoising
框架:MamabIRv2+Xformer+Restormer,三个模型并行输出去噪结果和特征图,然后与原图合并,送入基于Xformer构建的集成模型(功能类似第一名里的融合block),输出最终去噪图。
训练策略:先训练三巨头的去噪能力,然后冻结参数,训练集成模块。其中Xformer、Restormer和集成模型采用渐进式策略,提升鲁棒性和效率。去噪模块用L1损失,集成模型用L1+MSE+高频损失。
推理策略:采用了自集成方式,分patch推理然后融合,设置了多个patch-overlap size,平均后效果有提升。
三巨头联合!MambaIRv2、Xformer、Restormer去噪天团。整体思路与第一名类似,有点可惜,可能就输在数据策略上。
3. BuptMM (DDU)
题目: DDU——Image Denoising Unit using transformer and morphology method
框架:Restormer+HAT,双模型并行推理,根据两个结果做边缘检测,计算边缘差异,根据边缘差异信息进行双结果融合,差异部分取HAT结果,其他部分取两者平均,得到最终去噪图。
训练策略:分别训练Restormer和HAT,同样采用渐进式训练。
推理策略:用TLC技术提升Restormer性能。
双核去噪!Restormer+HAT强强联合。
不过既然不考虑计算复杂度,为何不用网络来融合?有点像第二名的简化版本。
4. HMiDenoise
题目: Hybrid Denosing Method Based on HAT
框架:提出HAT改进结构DB-HAT。
训练策略:渐进式训练,损失函数采用L2,微调阶段L2+SSIM
渐进式特训,超分模型也能打。。。额,HAT真好使?
5. Pixel Purifiers
题目: Denoiser using Restormer and Hard Dataset Mining
框架:Restormer
数据集:调整数据比,DIV2K:LSDIR为12:88时,模型泛化效果最好。
训练策略:利用了硬数据挖掘策略,即在基础训练模型上,选择损失值超过预定义阈值的训练块进行迁移学习,学习率降至初始的1/100。
推理策略:采用几何自集成技术,通过旋转+翻转,然后多个推理结果对齐后叠加取平均。
Restormer YYDS!大力出奇迹,用“难搞样本”特训模型,用自集成增强推理效果。
6. Alwaysu
题目: Bias-Tuning Enables Efficient Image Denoising
框架:Bias-version Restormer,在预训练Restormer新增可学习的偏差参数。
数据集:预训练阶段,800张DIV2K,2650张Flickr2K,400张BSD500,4744张WED。微调阶段,800张DIV2K,1000张LSDIR。
训练策略:PSNR损失函数,冻结预训练参数做微调。
推理阶段:自集成+分块拼接。
Restormer YYDS!大伙省点力吧,噪声模式强度固定,微调不香么?高效省力。
7. Tcler Denoising
题目:Tcler Denoising
框架:改进的PromptIR与改进的MambaIRv2融合。
数据集:常规数据增强,外加USM锐化。
训练策略:渐进式训练,采用了Charbonnier损失和梯度加权的L1损失,平衡像素级精度和边缘保持,损失权重分别为0.8和0.2。
推理策略:自集成。
同样是专门针对“σ=50”的定制方案,PromptIR&MambaIRv2联合去噪,精准打击!
8. cipher vision (Pureformer)
题目: Pureformer: Transformer-Based Image Denoising
框架:提出了Pureformer,多级编码器+特征增强块+多级解码器,transformer块借鉴了Restormer。
训练策略:15个epochs做线性预热,然后用余弦退火。常规数据增强。L1损失函数。
推理策略:几何自集成
自己搭个Transformer架构,但是Restormer YYDS!
9. Sky-D (Two-Stage Framework)
题目:A Two-Stage Denoising Framework with Generalized Denoising Score Matching Pretraining and Supervised Fine-tuning
框架:团队自研的时间条件扩散模型架构(已发文章)。
训练策略:基于广义去噪分数匹配(GDSM)策略做自监督训练,为后续有监督训练提供高质量初始化参数,然后进行有监督微调。GDSM预训练加速了微调过程的收敛和模型泛化能力。渐进式学习;
损失函数:自监督阶段用GDSM损失,监督微调阶段用一致性损失
J ′ ( θ ) = E X t d a t a , τ , X t [ ∥ γ ′ ( τ , σ t t a r g e t ) h θ ( X t , t ) + δ ′ ( τ , σ t t a r g e t ) X t − X t d a t a ∥ 2 ] J'(\theta) = \mathbb{E}_{\mathbf{X}_{t_{\mathrm{data}}}, \tau, \mathbf{X}_t} \left[ \left\lVert \gamma'(\tau, \sigma_{t_{\mathrm{target}}}) \, \mathbf{h}_\theta(\mathbf{X}_t, t) + \delta'(\tau, \sigma_{t_{\mathrm{target}}}) \, \mathbf{X}_t - \mathbf{X}_{t_{\mathrm{data}}} \right\rVert^2 \right] J′(θ)=EXtdata,τ,Xt[ γ′(τ,σttarget)hθ(Xt,t)+δ′(τ,σttarget)Xt−Xtdata 2]
L sup ( θ ) = 1 N ∑ i = 1 N ∥ h θ ( X t d a t a i , t d a t a ) − Y i ∥ 2 \mathcal{L}_{\text{sup}}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \left\lVert \mathbf{h}_\theta \left( \mathbf{X}_{t_{\mathrm{data}}}^{i}, t_{\mathrm{data}} \right) - \mathbf{Y}^{i} \right\rVert^2 Lsup(θ)=N1i=1∑N hθ(Xtdatai,tdata)−Yi 2
推理策略:几何自集成+自适应分块拼接
Two-stage denoising framework,自监督预训练+有监督微调,很有意思的想法,该方案能够降低对标注数据的依赖,适合数据稀缺场景。
10. KLETech-CEVI (HNNFormer)
题目:HNNFormer: Hierarchical Noise-Deinterlace Transformer for Image Denoising
框架:基于团队发表的HNN方案,小改一下,提出了HNNformer。主要框架就是HSC(层次化空间语义特征编码器)+GLSC(全局-局部空间语义交互模块)+HSC(层次化空间语义解码器),多感受野信息融合。
损失函数:L1损失,感知损失和多尺度SSIM损失的加权。
层次化降噪,从全局到局部,层层剖析。其实就是多尺度,利用注意力结构实现不同尺度特征交互和融合。
11. xd denoise (SCUNet)
题目: SCUNet for image denoising
框架:用SCUNet为基础模型
推理策略:测试中引入测试-时间增强(Test-Time Augencing,TTA),只做了几何变换(翻转+旋转),相当于几何自集成。再加个模型集成,将三个基础U-net与SCUNet链接,concat四个结果作为输出,以得到更好的性能
简简单单第11,集成技术真好用
12. JNU620 (NAFNet & RCAN Ensemble)
题目: Image Denoising using NAFNet and RCAN
框架:研究表明集成学习有好处,那就NAFnet+RCAN联合一下。
训练策略:分别用DIV2K单独训练,MSE损失。
推理策略:自集成+模型集成(简单的加权融合)。
又是双核阵容!反正没有“薪资帽”,不如再加个巨头吧。
13. PSU team (OptiMalDiff)
题目: OptimalDiff: High-Fidelity Image Enhancement Using Schr¨odinger Bridge Diffusion and Multi-Scale Adversarial Refinement
框架:一个分层的SwinT结构,一个条件扩散结构,一个多尺度细化结构MRefNet。为了提升真实性,加了PatchGAN判别器做对抗。
损失函数:扩散损失,多尺度SSIM,L1和对抗损失。降噪同时能。
用diffusion+swin提升降噪生成能力,用GAN做对抗提升保真度。虽然指标不高,但说不定视觉质量效果会比较好。
14. Aurora (GAN + NAFNet)
题目: GAN + NAFNet: A Powerful Combination for High-Quality Image Denoising
框架:NAFNet作为生成器,用SiLU替换原激活函数;VGG11作为鉴别器,用LeakyReLU替换ReLU。SiLU激活函数提升模型对复杂噪声模式的建模能力。
训练策略:渐进式训练,损失函数为L1、L2和Sobel损失。
推理策略:自集成,并选择性地采用了TLC来提升性能。
唯二的使用GAN的团队,另一个就是他的前一名。缘,妙不可言。
15. mpu ai (CTMP)
题目: Enhanced Blind Image Restoration with Channel Attention Transformers and Multi-Scale Attention Prompt Learning
框架:自己搭建的框架,名为CTMP,以transformer模块为主要结构,并对transformer模块做了改进,加入通道注意力,自注意力与通道注意力相结合,前者侧重高频信息如细节,后者侧重低频信息如语义。设计了高效多尺度注意力提升模块(EWAPM),提取不同方向的全局信息,并采用动态权重计算,自适应地条件不同尺度特征的重要性。(作为该方案的重大创新点)
EMAPM包括三个子模块提示生成模块(PGM),提示交互模块(PIM),多尺度注意力增强模块(EMA),对提示做增强。实验证明了CTMP的能力很强,能适应多种任务。当然,计算量也不小。
“attention is all you need”,外加prompt赋能,全篇介绍最详细的方案,可以好好看看。
16. OptDenoiser (Two-Stage Framework)
题目: Towards two-stage OptDenoiser framework for image denoising
框架:由两个独立编解码器(EDB)和多头相关性模块(MHC)组成。第一阶段用retinexformer,其去噪能力优于Uformer,Restormer,DnCNN。但弥补一些不足,加上了MHC和另一个EDB,有效利用了中间输出的特征相关性,实现更精确的重建,提高结构保真度和纹理保持度。本文对照度映射在常规图像重建任务中(包括去噪)的有效性进行了深入的理论分析和评估。
损失函数:将感知损失函数与亮度-色度引导相结合,减轻颜色不一致问题。
训练策略:裁成512大小patch,然后resize到128(有点太小了吧),说是为了增强模型捕获空间特征的能力。
retinex理论也能用来降噪!唯一一个将retinex理论用于去噪的团队,打开新思路了,似乎有点道理,值得深思。
17. AKDT (Adaptive Kernel Dilation Transformer)
题目: High-resolution Image Denoising via Adaptive Kernel Dilation Transformer
框架:团队现有的AKDT网络架构,提出了新型卷积结构:可学习膨胀率(LDR)模块,用于制定噪声估计模块。LDR能够帮助模型有效地选择卷积核的最佳伸缩率。噪声估计器NE集成了全局和局部LDR,以捕获全局和局部结构。把NE分别嵌到了MSA和FFN之前,取名为噪声导向的前馈网络(NG-FFN)和噪声导向的多头自注意力模块(NG-MSA)
数据集:只用了DIV2K
动态膨胀卷积,改进版的噪声导向transformer,以噪声估计为导向,调整注意力能力。
18. X-L (MixEnsemble)
题目: MixEnsemble
框架:Xformer+SwinIR
训练策略:无!直接用现成的预训练模型。
集成策略:自集成+模型集成
开箱即用,预训练模型组合装,无二次训练。好家伙!我直接好家伙!
19. Whitehairbin (Diffusion Model)
题目: Diffusion-based Denoising Model
框架:采用先前所提出的Refusion方案,学习不同time steps下的噪声梯度(score function)来引导反向扩散过程。骨干网络可选,本次选了NAFNet。
损失函数:Matching Loss,用于最小化预测噪声和真实噪声的残差。混合了L1和L2,基于不同time step下的噪声方差做动态加权,以稳定不同扩散水平下的训练。
测试验证了官方数据集和真实数据集,去高斯噪声的能力一致。
单纯来验证下先前的研究成果是否真的能打。
20. mygo (U-Net Enhanced)
题目:High-resolution Image Denoising via Unet neural network
框架:朴实无华,卷积Unet
损失函数:MSE+SSIM
看得出来对卷积Unet是真的爱,博主很认可该方案在实际应用中的价值。但这是竞赛也不限计算量,为何不上更复杂点的。
四、总结
从方案概要中可以得出几个结论:
- 全局和局部感受野都很重要,transformer结构还是非常有作用的。
- 模型组合+自集成策略是提升效果的好手段,值得借鉴。
- 高质量数据集,有助于模型学习更精准。
- 微小细节方面的策略可能胜于复杂的网络结构设计。
说实话,个人认为以固定模式的高斯噪声作为竞赛标准的意义不大,实用价值不高。实际应用中指标高的,视觉效果不一定就最好。
相信做视觉质量提升方向的业内人士应该深有体会。
PS:方案下的点评切勿当真,每个方案各有千秋。
感谢阅读,欢迎留言或私信,一起探讨和交流。
更多推荐
所有评论(0)