中科院自动化所提出LoRA-IR | 通过引入一个简单机制将预训练CLIP扩展到更高分辨率
图像恢复(IR)是计算机视觉中的一个基本任务,旨在从低质量(LQ)输入中恢复高质量(HQ)图像。近年来,随着针对特定退化(如恶劣天气去除,去噪,去模糊,低光增强)的专用恢复网络取得了显著进展。然而,在实际应用(如自动驾驶和户外监控)中,图像通常同时受到多种复杂退化的影响,包括雾、雨、雪、低光条件和运动模糊。这些复杂退化不仅降低了图像质量,还严重损害了下游视觉任务的性能,对系统的安全性和可靠性提出了
基于 Prompt 的全集成图像修复(IR)框架通过将Degradation特定信息集成到 Prompt 模块中,实现了显著的性能提升。然而,在实际场景中遇到的各种复杂且多样性的Degradation仍是一个重大的挑战。为了解决这个挑战,作者提出了一种灵活的框架LoRA-IR,它动态地利用紧凑的低秩专家以实现高效的全部图像修复。
具体而言,LoRA-IR包括两个训练阶段:Degradation引导的预训练和参数高效的微调。在预训练阶段,作者通过引入一个简单机制将预训练的CLIP模型扩展到更高分辨率,使作者能够提取出适应性引导IR网络的健壮Degradation表示。在微调阶段,使用低秩自适应(LoRA)来优化预训练的IR网络。构建在混合专家(MoE)架构上,LoRA-IR通过Degradation导向的路由器动态集成多个低秩修复专家。这种动态集成机制极大地增强了作者的模型在复杂实际场景中应对各种未知Degradation的能力。大量的实验表明,LoRA-IR在14个图像修复任务和29个基准测试中实现了最先进的表现。
代码和预训练模型: https://github.com/shallowdream204/LoRA-IR
1 介绍
图像恢复(IR)是计算机视觉中的一个基本任务,旨在从低质量(LQ)输入中恢复高质量(HQ)图像。近年来,随着针对特定退化(如恶劣天气去除,去噪,去模糊,低光增强)的专用恢复网络取得了显著进展。然而,在实际应用(如自动驾驶和户外监控)中,图像通常同时受到多种复杂退化的影响,包括雾、雨、雪、低光条件和运动模糊。这些复杂退化不仅降低了图像质量,还严重损害了下游视觉任务的性能,对系统的安全性和可靠性提出了重大挑战。为单任务恢复而设计的现有专用模型在这些不可预测和变化的环境中很难有效泛化。
为了克服专业模型的局限性,越来越多的人开始关注能够处理多种Degradation的全集成框架的开发。早期的方法,如多编码器架构[24](图2(a)),为不同类型的Degradation分别使用独立的编码器。虽然它们在处理多种Degradation方面有效,但冗余的结构导致了大量参数,这阻碍了可伸缩性和效率。最近的方法采用了基于 Prompt 的框架(图2(b)),将Degradation特定的信息编码到轻量级的 Prompt 中,以引导共享网络。
然而,仅依赖轻量级 Prompt 和静态共享网络可能无法完全捕捉到不同Degradation相关联的精细细节和特定模式,导致恢复结果不理想。此外,Degradation之间的潜在相关性和共享特征–如恶劣天气条件下的共同模式–没有得到充分利用。探索这些相关性可能是增强模型在复杂真实世界场景中适应性和有效性的关键。
在这项工作中,作者提出了一种名为LoRA-IR的灵活高效的整体图像修复框架(图2(c))。受低秩自适应(LoRA)在参数高效微调方面的成功启发,本文探索了使用多种低秩专家来高效建模Degradation特性和相关性的方法。LoRA-IR包含两个训练阶段,均由作者提出的Degradation导向路由器(DG-Router)引导。DG-Router基于强大的视觉语言模型CLIP,其在广泛的高级视觉任务中展示了强大的表示能力。然而,在低级任务中,其有限的输入分辨率会导致处理高分辨率LQ图像时的性能不佳。
为此,作者提出了一种简单而有效的方法将CLIP扩展到高分辨率。LoRA-IR包括下采样图像和应用滑动窗口技术以捕获全局和局部细节表示,然后使用轻量级MLP进行融合。在训练参数最小化和训练时间短的情况下,DG-Router可以提供强大的Degradation表示和概率指导,用于LoRA-IR的训练。
在第一阶段,作者使用DG-Router提供的Degradation表示来指导IR网络的预训练。Degradation表示通过提出的Degradation引导自适应调制器(DAM)动态地调节IR网络内的特征。在第二阶段,作者使用LoRA微调第一阶段得到的IR网络。
基于Mixture-of-Expert(MoE)结构,作者构建了一组低秩恢复专家。利用DG-Router的概率引导,作者稀疏选择不同的LoRA专家,动态地调整IR网络。不同的专家增强了网络捕捉Degradation特定知识的能力,而它们的协同作用使网络具备学习各种Degradation之间的相关性的能力。
动态网络结构使得LoRA-IR能够适应多种Degradation,并提高了其泛化能力。如图1所示,LoRA-IR在处理复杂实际场景方面超过了所有比较的最先进的一体化方法,并展示了良好的泛化能力。
主要贡献可概括如下:
-
提出了LoRA-IR,一种简单而强大的全图像修复 Baseline 。LoRA-IR采用了一种新颖的低秩专家结构混合,在提高架构灵活性的同时保持了计算效率。
-
提出了一种基于CLIP的Degradation指导路由器(DG-Router),用于提取强大的Degradation表示。DG-Router所需的训练参数和时间最小,为LoRA-IR提供了有价值的指导。
-
经过在14个图像修复任务和29个基准测试中的广泛实验,验证了LoRA-IR的最高性能。值得注意的是,LoRA-IR在实际场景中表现出强大的泛化能力,包括在训练时未见过的任务和混合Degradation移除。
2 本文方法
如图4所示,图像恢复网络基于常用的U-Net结构,由堆叠的编码器、中间和解码器块组成。LoRA-IR由两个训练阶段组成:降维引导预训练和参数高效的微调,均由提出的降维引导路由器(DG-Router)指导。首先引入基于CLIP的DG-Router,用于提取稳健的降维表示并提供概率估计以指导LoRA-IR的训练。然后详细描述了LoRA-IR的预训练过程。最后,描述了微调过程。
2.1 Degradation-guided Router
如图4(a)所示,DG-Router利用一个预训练的CLIP图像编码器从LQ图像中提取丰富的特征。预训练的CLIP图像编码器通常将输入图像限制在较小的分辨率(例如,)。在处理更高分辨率的图像时,常见的方法是将图像下采样到CLIP支持的分辨率,通过处理器实现。虽然这种方法对基于感知的较高层次分类任务影响可能很小,但在像素级回归任务(如图像修复)中,重大的下采样可能导致关键Degradation信息的丢失。
图3展示了CLIP处理器处理LQ图像后的结果。可以看出,显著的下采样导致LQ图像中的Degradation信息大量丢失,从CLIP输出特征中有效提取Degradation表示变得具有挑战性。
为了应对这个问题,作者提出了一种简单而有效的机制来扩展输入分辨率。对于输入LQ图像,作者使用滑动窗口将图像划分为小的局部块,其中是块的数量,是CLIP支持的分辨率。和降采样图像同时输入到图像编码器中,得到输出特征和。
如图4(a)所示,在池化之后,将它们拼接并输入到两个层MLP中,以获得CLIP提取的Degradation嵌入,其可以表示为
在将输入到分类头后,作者最终得到降解预测概率,其中是降解类型的数量。去除不必要的装饰,DG-Router使用标准的交叉熵损失进行优化,仅包含分类头和两层MLP两个参数。训练完成后,DG-Router的所有参数都被冻结,不再更新。
2.2 Degradation-guided预训练
在预训练阶段(图4(b)),作者使用由DG-Router提取的退化表示动态调节恢复网络。作者提出了一种退化导向自适应调制器(DAM),用于调制恢复网络的特征。如图4(d)所示,作者首先使用两层MLP Projector 将转换为IR网络特征空间的退化嵌入。DAM采用类似于通道注意力块[88]的结构,在通道维度上调节退化信息,可以表示为:
其中 表示元素乘法, 表示不同块共享的 MLP Projector , 表示 LayerNorm, 是 IR 网络中的原始特征, 是经过调制后的特征。通过调制 DAM,来自 DG-Router 的鲁棒降维表示可以有效增强 IR 网络在预训练过程中的降维特定知识。
2.3 参数高效微调
在微调阶段,作者旨在利用低秩自适应(LoRA)技术有效地模拟Degradation特性和相关性,从而增强模型处理训练可见Degradation的能力,并提高其在实际训练中未见Degradation问题的鲁棒性。
如图4©所示,作者基于混合专家(MoE)架构建立了一个由低秩恢复专家组成的数据集。作者总共有n个低秩专家{E1,E2,…,En},每个专家都是一个从第一阶段预训练恢复网络的 learnable 轻量级 LoRA 权重,专门处理特定类型的退化。
对于给定的输入LQ图像,DG-Router可以预测其退化概率。被用作不同专家的评分,以选择适当的专家进行恢复过程。作者稀疏地选择评分最高的个专家作为最相关的专家,并通过他们的动态协作得到最终恢复结果,可以表述为
其中 表示第一阶段的预训练模块, 表示第 个被选中的专家的索引, 表示对所选前 个专家的分数应用softmax归一化后的结果(未选中的专家的权重设置为0)。
请注意,公式(3)中的稀疏选择机制赋予了LoRA-IR灵活的网络结构,增强了其表示Degradation特定知识的能力。另一方面,动态组合机制方便了不同修复专家之间的协作,有效地模拟了各种Degradation之间的共性和关联。低秩专家的设计确保了LoRA-IR的高效性,使其能够以计算高效的方式实现高性能的一体化图像修复。
3 实验
3.1 实验设置
**设置。**为了全面评估LoRA-IR,作者根据以前的工作在五个不同的设置中进行实验:
(I) 4种恶劣天气去除,包括除雪、去雨、去雾和雨滴去除;
(II) 3种真实世界的恶劣天气去除,包括去雨、去雾和除雪;
(III) 3种图像修复,包括去雨、去雾和去噪;
(IV) 5种图像修复,包括去雨、低光增强、除雪、去雾和去模糊;
(V) 10种图像修复,包括去模糊、去雾、JPEG伪影去除、低光增强、去噪、雨滴去除、去雨、阴影去除、除雪和图像修复。
对于每个设置,作者都训练一个统一的模型来处理多种类型的退化。
数据集和指标。对于设置I,作者使用全天气数据集来评估LoRA-IR。对于设置II,使用WeatherStream数据集来评估模型在实际场景中的性能。对于设置III,使用RESIDE进行去雾,使用WED和BSD进行去噪,使用Rain100L进行去雨。对于设置IV,使用一个合并的数据集进行去雨,使用LOL,DCIE,MEF,以及NPE进行低光增强,使用Snow100K进行去雪,使用RESIDE进行去雾,使用GoPro,HIDE,RealBlur进行去模糊。对于设置V,使用与[36]中相同的数据集。
关于评估指标,作者采用峰值信噪比(PSNR)和结构相似性指数(SSIM)作为失真度量标准,感知相似度(LPIPS)和弗里德曼指数(FID)作为感知度量标准。对于不包含真实图像的基准测试,使用无参考指标的图像质量指数(IL-NIQE)。
实现细节 对于DG-Router的训练,使用了Adam优化器,批量大小为,其中是任务的数量。整个训练耗时20分钟,固定学习率为,使用8块NVIDIA A100 GPU。作者的LoRA-IR遵循两阶段训练过程,即预训练和微调。对于两阶段,均使用了AdamW优化器,批量大小为64。训练块大小设置为256,以确保公平比较。随机裁剪、翻转和旋转被用作数据增强技术。对于图像恢复网络结构,图4中的所有基本块都是简单的卷积NAFBlocks,形成了一个简单的全卷积CNN基础。不同设置的更多具体细节请参阅附录。
3.2 与最先进方法的比较
设置I。表1显示了LoRA-IR与特定任务方法和一体式方法的比较结果。与如MPerciever和Histoformer等SOTA方法相比,LoRA-IR在所有基准测试和指标上都取得了显著的改进。附录中提供了视觉比较。
设置II。 为了进一步证明LoRA-IR在减轻真实世界恶劣天气条件方面的有效性,作者在WeatherStream数据集上评估其性能。表3展示了与最先进的通用IR(SOTA)以及一体的IR方法(all-in-one IR)的定量比较结果。与SOTA方法LDR相比,LoRA-IR在三个任务上平均提高了0.76 dB的PSNR。附录中提供了视觉比较。
设置 III。表2展示了3个任务图像复原的定量比较结果。在LoRA-IR中,与PromptIR相比,在Rain100L数据集上,PSNR提高了1.38 dB,SSIM提高了0.007,平均改进了0.36 dB。附录中提供了视觉比较。
设置IV。表4展示了LoRA-IR在五个任务上与SOTA任务特定方法和一体化方法的定量比较结果。结果表明,LoRA-IR在所有任务上都优于比较的一体化方法,甚至在大多数任务上超过了任务特定方法。例如,与最近的SOTA方法DiffUIR相比,LoRA-IR在各种任务上带来了0.92至2.8 dB的PSNR改进。
为了进一步验证作者在实际场景中处理复杂Degradation的方法的泛化性,作者从两个角度对其进行评估:
**在训练可见任务上的泛化:**作者直接在训练过程中未见过的真实世界基准测试上测试训练好的全集成模型。如表5所示,LoRA-IR在去模糊任务中实现了最佳的PSNR和SSIM指标。基于扩散的方法在无参考指标(如NIQE)方面通常具有优势。然而,作者的基于CNN的模型在去雾任务中达到了\begin{table}
与两种最先进的基于扩散的方法(DACLIP-UIR 和 DiffUIR)相比,在无参考指标上具有可比的甚至更好的性能。值得注意的是,LoRA-IR在增强方面相对于 DiffUIR 提高了大约100个点在 LOE 性能。图5也显示,LoRA-IR实现了更令人满意的视觉结果。
在训练未见过的任务上的泛化:作者直接在显示相机图像修复任务上测试全集成模型。表6显示,与通用IR和全集成方法相比,LoRA-IR在所有指标上要么获得最佳,要么获得第二好的性能。图5显示,当处理未知Degradation时,LoRA-IR产生最清晰的结果。
设置V。表7显示,与DA-CLIP相比,DG-Router需要的训练参数显著较少(大约为64倍),训练时间较短(大约为4倍),同时实现了更准确的退化预测。如表8所示,LoRA-IR在扭曲度和感知度指标上都优于所有比较的通用IR和一体化模型,展示了LoRA-IR的优势。
混合退化去除。 考虑到实际场景中的图像可能不包含单一类型的退化,作者在混合退化基准测试上进一步评估了不同的全能方法。作者的实验包括三个混合退化基准:雨雾,低光模糊,以及模糊与JPEG。
表9显示,LoRA-IR在处理具有挑战性的混合退化场景上具有显著优势。作者在图6中提供了视觉结果,展示了作者方法在处理混合退化方面的有效性。
3.3 Ablation Study
作者进行了消融研究,以检验作者提出的LoRA-IR中每个组件的作用。为了全面验证LoRA-IR,作者在All-Weather和混合退化基准上进行实验。
在表10中,作者从LoRA-IR开始,逐步删除或替换模块,包括DG-Router中的高分辨率技术、DAM模块(作者还尝试使用AdaLN进行特征调制),以及LoRA专家设计的混合。作者发现,LoRA-IR在所有基准测试中均优于其消融版本,突显了这些组件的关键重要性。
值得注意的是,LoRA专家设计的混合在混合退化基准测试中显著提高了模型的性能,增强了模型在实际场景中的泛化能力。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)