本文将对NITRE 2025 的 Image Denoising Challenge Report做个解读,部分参赛团队的技术文章已发表,有兴趣的读者可以去详阅。
参考资料如下:
[1]. [报告地址]
[2]. [NITRE官网地址]


一、引言

图像去噪是low-level视觉中的基础问题,其目标是从退化的输入中重建无噪声图像。在图像采集和处理过程中,可能引入多种噪声类型,如高斯噪声、泊松噪声以及JPEG压缩伪影。这些噪声源使得去噪成为极具挑战性的任务。鉴于其在计算摄影、医学成像和遥感等领域的关键应用,持续的研究努力对于开发更高效、更具通用性的去噪解决方案至关重要。为推动该领域进展,本挑战赛旨在促进去噪方法的发展,并通过标准化基准公平评估性能,创造业内专业人士的交流和合作。

二、挑战概况

竞赛标准

目标: 从噪声水平σ=50的加性高斯白噪声(AWGN)退化图像中恢复干净图像。

评价标准: 以PSNR作为主要评价指标,SSIM为辅,不考虑模型大小和效率。

非常直接,方法不限,参数量计算量不限,运行效率不限,只管涨点。

数据集:

  • DIV2K:共1000张2K分辨率RGB图,训练验证测试比为8:1:1
  • LSDIR:共86991张高质量高分辨图,验证集1000张,测试集1000张,剩余可用于训练。

训练验证阶段: 除了官方训练集,可以使用外部训练集,例如Flickr2K。并提供100张DIV2K验证数据对。但禁止用验证集参与训练。退化噪声强度统一,即σ=50。

测试阶段: 代码提交至CodaLab评估服务器,用100张DVI2K和100张LSDIR作为测试数据。GT数据均不会公开。

竞赛结果

本挑战赛共吸引了290支注册团队,最终20支队伍提交了有效结果,具体指标排名如下。

在这里插入图片描述

冠军团队SRC-B提出了一种结合Transformer和卷积网络的混合架构,在200张测试图像上实现了31.20 dB的PSNR和0.8884的SSIM,显著优于2023年冠军方法1.24 dB。今年前六名小组的成绩均超过了上届的同名次小组,为图像去噪树立了新的标杆。

主要idea和架构

参赛团队所用的策略和框架主要包括以下几点

  • 混合架构表现良好

    前三名均采用了transformer+卷积的混合架构,兼容全局和局部特征提取能力。

  • 数据很重要

    冠军团队选择数据集中的高质量图像进行训练,而不是全量数据,来缓解数据分布不平衡的影响。

  • 魔鬼藏在细节中

    部分细节有助于改善模型,例如小波变换损失约束,渐进式学习策略,分块推理策略。的

  • 基于Mamba的新设计

    第二名SNUCV小组利用MambaIRv2设计了混合架构,取得了不错的效果。

  • 自集成和模型集成

    高重叠的多patch混合和多模型结果混合均能提升最终结果。

三、方案细节

1. SRC-B

题目:Dynamic detail-enhanced image denoising frame work

在这里插入图片描述

框架:transformer局部恢复能力弱?CNN全局视野不足?那就联合起来!作者combine了Restormer和NAFnet,用前者提取全局特征,用后者增强细节信息,最后加个动态融合block,来平衡去噪能力和细节保留能力。

数据:分为三部分

  1. 自配200W数据集;
  2. 官方全量数据集;
  3. 从1和2里精选出的2800张高质量数据集。(分辨率大,IQ指标高,语义多样性

训练策略:分三个阶段

  1. 200W数据集预训练,打基础;
  2. 官方全量数据微调细节增强模块;
  3. 高质量数据精调整个模型;

损失函数除了L1、L2,引入了SWT小波损失(有助于跳出局部最优)。渐进式训练,patch size 从256到768。

双引擎降噪王!200W数据打基础,细节微操定胜负。
用Transformer全局视野+CNN细节修复的“双引擎”,配合小波约束和挑图策略,实现降噪能力突破。这套组合拳有想法,也合理。

2. SNUCV

题目:Deep ensemble for Image denoising

在这里插入图片描述

框架:MamabIRv2+Xformer+Restormer,三个模型并行输出去噪结果和特征图,然后与原图合并,送入基于Xformer构建的集成模型(功能类似第一名里的融合block),输出最终去噪图。

训练策略:先训练三巨头的去噪能力,然后冻结参数,训练集成模块。其中Xformer、Restormer和集成模型采用渐进式策略,提升鲁棒性和效率。去噪模块用L1损失,集成模型用L1+MSE+高频损失。

推理策略:采用了自集成方式,分patch推理然后融合,设置了多个patch-overlap size,平均后效果有提升。

三巨头联合!MambaIRv2、Xformer、Restormer去噪天团。整体思路与第一名类似,有点可惜,可能就输在数据策略上。

3. BuptMM (DDU)

题目: DDU——Image Denoising Unit using transformer and morphology method

在这里插入图片描述

框架:Restormer+HAT,双模型并行推理,根据两个结果做边缘检测,计算边缘差异,根据边缘差异信息进行双结果融合,差异部分取HAT结果,其他部分取两者平均,得到最终去噪图。

训练策略:分别训练Restormer和HAT,同样采用渐进式训练。

推理策略:用TLC技术提升Restormer性能。

双核去噪!Restormer+HAT强强联合。
不过既然不考虑计算复杂度,为何不用网络来融合?有点像第二名的简化版本。

4. HMiDenoise

题目: Hybrid Denosing Method Based on HAT
在这里插入图片描述

框架:提出HAT改进结构DB-HAT。

训练策略:渐进式训练,损失函数采用L2,微调阶段L2+SSIM

渐进式特训,超分模型也能打。。。额,HAT真好使?

5. Pixel Purifiers

题目: Denoiser using Restormer and Hard Dataset Mining

在这里插入图片描述

框架:Restormer

数据集:调整数据比,DIV2K:LSDIR为12:88时,模型泛化效果最好。

训练策略:利用了硬数据挖掘策略,即在基础训练模型上,选择损失值超过预定义阈值的训练块进行迁移学习,学习率降至初始的1/100。

推理策略:采用几何自集成技术,通过旋转+翻转,然后多个推理结果对齐后叠加取平均。

Restormer YYDS!大力出奇迹,用“难搞样本”特训模型,用自集成增强推理效果。

6. Alwaysu

题目: Bias-Tuning Enables Efficient Image Denoising

框架:Bias-version Restormer,在预训练Restormer新增可学习的偏差参数。

数据集:预训练阶段,800张DIV2K,2650张Flickr2K,400张BSD500,4744张WED。微调阶段,800张DIV2K,1000张LSDIR。

训练策略:PSNR损失函数,冻结预训练参数做微调。

推理阶段:自集成+分块拼接。

Restormer YYDS!大伙省点力吧,噪声模式强度固定,微调不香么?高效省力。

7. Tcler Denoising

题目:Tcler Denoising

框架:改进的PromptIR与改进的MambaIRv2融合。

数据集:常规数据增强,外加USM锐化。

训练策略:渐进式训练,采用了Charbonnier损失和梯度加权的L1损失,平衡像素级精度和边缘保持,损失权重分别为0.8和0.2。

推理策略:自集成。

同样是专门针对“σ=50”的定制方案,PromptIR&MambaIRv2联合去噪,精准打击!

8. cipher vision (Pureformer)

题目: Pureformer: Transformer-Based Image Denoising

在这里插入图片描述

框架:提出了Pureformer,多级编码器+特征增强块+多级解码器,transformer块借鉴了Restormer。

训练策略:15个epochs做线性预热,然后用余弦退火。常规数据增强。L1损失函数。

推理策略:几何自集成

自己搭个Transformer架构,但是Restormer YYDS!

9. Sky-D (Two-Stage Framework)

题目:A Two-Stage Denoising Framework with Generalized Denoising Score Matching Pretraining and Supervised Fine-tuning

框架:团队自研的时间条件扩散模型架构(已发文章)。

训练策略:基于广义去噪分数匹配(GDSM)策略做自监督训练,为后续有监督训练提供高质量初始化参数,然后进行有监督微调。GDSM预训练加速了微调过程的收敛和模型泛化能力。渐进式学习;

损失函数:自监督阶段用GDSM损失,监督微调阶段用一致性损失

J ′ ( θ ) = E X t d a t a , τ , X t [ ∥ γ ′ ( τ , σ t t a r g e t )   h θ ( X t , t ) + δ ′ ( τ , σ t t a r g e t )   X t − X t d a t a ∥ 2 ] J'(\theta) = \mathbb{E}_{\mathbf{X}_{t_{\mathrm{data}}}, \tau, \mathbf{X}_t} \left[ \left\lVert \gamma'(\tau, \sigma_{t_{\mathrm{target}}}) \, \mathbf{h}_\theta(\mathbf{X}_t, t) + \delta'(\tau, \sigma_{t_{\mathrm{target}}}) \, \mathbf{X}_t - \mathbf{X}_{t_{\mathrm{data}}} \right\rVert^2 \right] J(θ)=EXtdata,τ,Xt[ γ(τ,σttarget)hθ(Xt,t)+δ(τ,σttarget)XtXtdata 2]

L sup ( θ ) = 1 N ∑ i = 1 N ∥ h θ ( X t d a t a i , t d a t a ) − Y i ∥ 2 \mathcal{L}_{\text{sup}}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \left\lVert \mathbf{h}_\theta \left( \mathbf{X}_{t_{\mathrm{data}}}^{i}, t_{\mathrm{data}} \right) - \mathbf{Y}^{i} \right\rVert^2 Lsup(θ)=N1i=1N hθ(Xtdatai,tdata)Yi 2

推理策略:几何自集成+自适应分块拼接

Two-stage denoising framework,自监督预训练+有监督微调,很有意思的想法,该方案能够降低对标注数据的依赖,适合数据稀缺场景。

10. KLETech-CEVI (HNNFormer)

题目:HNNFormer: Hierarchical Noise-Deinterlace Transformer for Image Denoising

在这里插入图片描述

框架:基于团队发表的HNN方案,小改一下,提出了HNNformer。主要框架就是HSC(层次化空间语义特征编码器)+GLSC(全局-局部空间语义交互模块)+HSC(层次化空间语义解码器),多感受野信息融合。

损失函数:L1损失,感知损失和多尺度SSIM损失的加权。

层次化降噪,从全局到局部,层层剖析。其实就是多尺度,利用注意力结构实现不同尺度特征交互和融合。

11. xd denoise (SCUNet)

题目: SCUNet for image denoising

在这里插入图片描述

框架:用SCUNet为基础模型

推理策略:测试中引入测试-时间增强(Test-Time Augencing,TTA),只做了几何变换(翻转+旋转),相当于几何自集成。再加个模型集成,将三个基础U-net与SCUNet链接,concat四个结果作为输出,以得到更好的性能

简简单单第11,集成技术真好用

12. JNU620 (NAFNet & RCAN Ensemble)

题目: Image Denoising using NAFNet and RCAN

在这里插入图片描述

框架:研究表明集成学习有好处,那就NAFnet+RCAN联合一下。

训练策略:分别用DIV2K单独训练,MSE损失。

推理策略:自集成+模型集成(简单的加权融合)。

又是双核阵容!反正没有“薪资帽”,不如再加个巨头吧。

13. PSU team (OptiMalDiff)

题目: OptimalDiff: High-Fidelity Image Enhancement Using Schr¨odinger Bridge Diffusion and Multi-Scale Adversarial Refinement

在这里插入图片描述

框架:一个分层的SwinT结构,一个条件扩散结构,一个多尺度细化结构MRefNet。为了提升真实性,加了PatchGAN判别器做对抗。

损失函数:扩散损失,多尺度SSIM,L1和对抗损失。降噪同时能。

用diffusion+swin提升降噪生成能力,用GAN做对抗提升保真度。虽然指标不高,但说不定视觉质量效果会比较好。

14. Aurora (GAN + NAFNet)

题目: GAN + NAFNet: A Powerful Combination for High-Quality Image Denoising

框架:NAFNet作为生成器,用SiLU替换原激活函数;VGG11作为鉴别器,用LeakyReLU替换ReLU。SiLU激活函数提升模型对复杂噪声模式的建模能力。

训练策略:渐进式训练,损失函数为L1、L2和Sobel损失。

推理策略:自集成,并选择性地采用了TLC来提升性能。

唯二的使用GAN的团队,另一个就是他的前一名。缘,妙不可言。

15. mpu ai (CTMP)

题目: Enhanced Blind Image Restoration with Channel Attention Transformers and Multi-Scale Attention Prompt Learning

在这里插入图片描述
在这里插入图片描述

框架:自己搭建的框架,名为CTMP,以transformer模块为主要结构,并对transformer模块做了改进,加入通道注意力,自注意力与通道注意力相结合,前者侧重高频信息如细节,后者侧重低频信息如语义。设计了高效多尺度注意力提升模块(EWAPM),提取不同方向的全局信息,并采用动态权重计算,自适应地条件不同尺度特征的重要性。(作为该方案的重大创新点)

EMAPM包括三个子模块提示生成模块(PGM),提示交互模块(PIM),多尺度注意力增强模块(EMA),对提示做增强。实验证明了CTMP的能力很强,能适应多种任务。当然,计算量也不小。

“attention is all you need”,外加prompt赋能,全篇介绍最详细的方案,可以好好看看。

16. OptDenoiser (Two-Stage Framework)

题目: Towards two-stage OptDenoiser framework for image denoising
在这里插入图片描述

框架:由两个独立编解码器(EDB)和多头相关性模块(MHC)组成。第一阶段用retinexformer,其去噪能力优于Uformer,Restormer,DnCNN。但弥补一些不足,加上了MHC和另一个EDB,有效利用了中间输出的特征相关性,实现更精确的重建,提高结构保真度和纹理保持度。本文对照度映射在常规图像重建任务中(包括去噪)的有效性进行了深入的理论分析和评估。

损失函数:将感知损失函数与亮度-色度引导相结合,减轻颜色不一致问题。

训练策略:裁成512大小patch,然后resize到128(有点太小了吧),说是为了增强模型捕获空间特征的能力。

retinex理论也能用来降噪!唯一一个将retinex理论用于去噪的团队,打开新思路了,似乎有点道理,值得深思。

17. AKDT (Adaptive Kernel Dilation Transformer)

题目: High-resolution Image Denoising via Adaptive Kernel Dilation Transformer

在这里插入图片描述

框架:团队现有的AKDT网络架构,提出了新型卷积结构:可学习膨胀率(LDR)模块,用于制定噪声估计模块。LDR能够帮助模型有效地选择卷积核的最佳伸缩率。噪声估计器NE集成了全局和局部LDR,以捕获全局和局部结构。把NE分别嵌到了MSA和FFN之前,取名为噪声导向的前馈网络(NG-FFN)和噪声导向的多头自注意力模块(NG-MSA)

数据集:只用了DIV2K

动态膨胀卷积,改进版的噪声导向transformer,以噪声估计为导向,调整注意力能力。

18. X-L (MixEnsemble)

题目: MixEnsemble

在这里插入图片描述

框架:Xformer+SwinIR

训练策略:无!直接用现成的预训练模型。

集成策略:自集成+模型集成

开箱即用,预训练模型组合装,无二次训练。好家伙!我直接好家伙!

19. Whitehairbin (Diffusion Model)

题目: Diffusion-based Denoising Model

在这里插入图片描述

框架:采用先前所提出的Refusion方案,学习不同time steps下的噪声梯度(score function)来引导反向扩散过程。骨干网络可选,本次选了NAFNet。

损失函数:Matching Loss,用于最小化预测噪声和真实噪声的残差。混合了L1和L2,基于不同time step下的噪声方差做动态加权,以稳定不同扩散水平下的训练。

测试验证了官方数据集和真实数据集,去高斯噪声的能力一致。

单纯来验证下先前的研究成果是否真的能打。

20. mygo (U-Net Enhanced)

题目:High-resolution Image Denoising via Unet neural network

在这里插入图片描述

框架:朴实无华,卷积Unet

损失函数:MSE+SSIM

看得出来对卷积Unet是真的爱,博主很认可该方案在实际应用中的价值。但这是竞赛也不限计算量,为何不上更复杂点的。

四、总结

从方案概要中可以得出几个结论:

  1. 全局和局部感受野都很重要,transformer结构还是非常有作用的。
  2. 模型组合+自集成策略是提升效果的好手段,值得借鉴。
  3. 高质量数据集,有助于模型学习更精准。
  4. 微小细节方面的策略可能胜于复杂的网络结构设计。

说实话,个人认为以固定模式的高斯噪声作为竞赛标准的意义不大,实用价值不高。实际应用中指标高的,视觉效果不一定就最好。
相信做视觉质量提升方向的业内人士应该深有体会。

PS:方案下的点评切勿当真,每个方案各有千秋。


感谢阅读,欢迎留言或私信,一起探讨和交流。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐