image-20241119100948184

摘要

水下物体检测(UOD)对海洋资源开发、环境监测和生态保护至关重要。然而,水下图像的退化问题限制了物体检测器的性能。目前,大多数现有方法将水下图像增强(UIE)和物体检测(UOD)视为两个独立的任务,通常将UIE作为预处理步骤来减轻退化问题,但这种方式未能有效提升检测准确度。因此,本文提出了一种双分支联合学习网络(DJL-Net),通过多任务联合学习将图像处理和物体检测相结合,构建了一个端到端的水下物体检测模型。借助双分支结构,DJL-Net可以利用图像处理模块生成的增强图像来补充因水下图像退化而丢失的特征。具体来说,DJL-Net首先采用一个由检测损失引导的图像去色模块,生成灰度图像以消除由水下光吸收和散射效应引起的颜色干扰。接着,利用改进的边缘增强模块增强灰度图像中的形状和纹理表达,从而提高物体边界特征的识别能力。然后,将生成的边缘增强灰度图像和原始水下图像输入两个分支,分别学习不同类型的特征。最后,提出了一种三维自适应门控特征融合模块,有效融合来自两个分支的互补特征。在四个水下物体检测数据集上,包括一些具有挑战性的水下环境场景,全面实验结果表明,所提DJL-Net方法具有较好的效果和鲁棒性。

1. 引言

水下物体检测(UOD)技术在水下资源勘探、海洋环境监测与生态研究、智能水产养殖、海上安全及国防等领域具有重要应用价值[1–3]。然而,由于复杂的水下环境,水下光学图像常常出现物体轮廓模糊、雾霾效应、不均匀亮度和颜色偏移等问题(如图1所示)[4–8],这限制了检测算法的性能。因此,减轻水下图像退化对物体检测的负面影响已成为水下物体检测领域的一个关键挑战。

为了解决这些问题,一种思路是优化检测算法框架,提高检测器对水下退化图像的适应性。另一种直观的方法是利用图像增强技术对水下光学图像进行预处理,从而减轻退化问题并改善整体可见性。增强后的图像随后作为物体检测器的输入,以提高水下环境中的检测精度[9–11]。然而,近期的一些研究[3,12–15]探讨了水下图像增强(UIE)与水下物体检测(UOD)之间的关系。这些研究表明,仅仅将图像增强技术作为预处理步骤生成增强图像,无法有效提升UOD任务的准确度。相反,对于大多数UIE算法,检测器在增强图像上的检测准确度甚至低于原始图像。这一现象可以通过UIE与UOD之间优化目标的差异来解释[3]。UIE旨在改善退化图像以符合人类视觉感知[16],而UOD则专注于物体的定位和识别。由于目标的不同,训练于增强图像数据上的模型可能无法取得令人满意的效果。此外,过度增强可能导致局部细节丧失,从而不利于物体检测的准确性。

为此,一些研究[12,17]提出将UIE与UOD结合,采用端到端联合学习的方法,借助图像增强技术帮助检测复杂水下环境中的物体。然而,现有的水下检测数据集缺乏适用于检测任务的真实图像标签,限制了图像增强网络在联合学习中的训练效果。此外,现有的UOD算法通常仅使用单一类别的水下图像(例如,仅使用原始图像或仅使用增强图像)作为输入。我们认为,若将多种类别的水下图像输入特征提取网络,并通过选择性匹配和融合这些图像中的特征,可以显著提高水下物体检测器的性能。

为此,本文提出了一种用于水下物体检测(UOD)任务的双分支联合学习网络(DJL-Net)。该模型在原有框架中增加了一个分支,输入处理后的边缘增强灰度图像。通过特征提取网络提取的来自不同分支的特征进行选择性匹配和融合,然后将融合后的特征输入后续检测网络,完成UOD任务。这一方法显著减轻了原始水下图像退化所导致的特征丧失现象,有助于更准确地完成UOD任务。为此,本文提出了两个由检测损失引导的图像处理模块。首先,设计了图像去色模块(IDM),该模块生成适合检测任务的灰度图像,去除原图中的水下光吸收和散射效应引起的颜色干扰。其次,改进的边缘增强模块(IEEM)用于增强灰度图像中的形状和纹理表达,从而提供更有效的物体边界和纹理信息。此外,本文还提出了三维自适应门控特征融合模块(TAGFFM)。该模块通过通道、宽度和高度三个维度对两个分支提取的特征进行编码,从而实现特征的更精确匹配和融合。

image-20241119155029326

总体而言,我们的贡献可以总结为以下四个方面:

(i)我们提出了一个用于水下物体检测(UOD)的DJL-Net模型,该模型通过联合学习策略控制图像处理模块,生成适合检测任务的边缘增强灰度图像。DJL-Net利用其独特的双分支结构,匹配并融合从边缘增强灰度图像及其原始图像中学习到的特征,实现特征的互补性。

(ii)我们开发了两个由检测损失引导的图像处理模块:IDM和IEEM。IDM设计用于将原始图像转换为适合检测任务的灰度图像,而IEEM则进一步精细化灰度图像中的边缘,以便清晰地区分检测对象。

(iii)我们设计了一个TAGFFM模块,用于有效融合从不同分支提取的特征。该模块通过三个不同的维度对特征进行编码,充分利用不同特征之间的通道和空间信息,控制整个特征融合过程。

(iv)我们在四个公开的水下物体检测数据集(DUO、UODD、RUOD和UDD)上进行了大量实验,并在一些具有挑战性的水下环境场景中进行了验证。全面的实验结果证明了所提DJL-Net的有效性和鲁棒性。

2. 相关工作

2.1 目标检测

物体检测的主要目标是在指定区域内识别所有感兴趣的物体,并准确确定它们对应的类别和空间位置[18,19]。目前,主流的物体检测算法大致可以分为两类:基于锚框的方法和无锚框的方法。基于锚框的物体检测算法通常先生成多个候选框,然后对其进行处理,以确定最终的检测结果。Faster R-CNN [20]和YOLO [21]是经典的基于锚框的方法。RetinaNet [22]通过采用单分支结构和更有效的焦点损失,改变正负样本对损失函数的影响权重,从而提高算法性能。Cascade R-CNN [23]通过级联多个分类和回归模块来优化检测器,增强了多尺度和遮挡物体的检测效果。DetectoRS [24]构建了一个新的主干网络,利用递归特征金字塔和可切换空洞卷积,显著提高了物体检测性能。DDOD [25]通过对分类和回归的标签分配进行分离,并实施独特的特征和监督解耦技术,提升了密集物体的检测性能。GFL [26]引入了分类和定位质量的统一表示,通过更准确地捕捉边界框分布,并使用质量焦点损失和分布焦点损失,增强了检测性能。

无锚框的物体检测算法与基于锚框的方法不同,通常直接预测检测框的位置和大小。FCOS [27]是一个具有代表性的无锚框方法。NAS-FCOS [28]是一种高效的神经架构搜索方法,利用定制的强化学习范式有效地搜索特征金字塔网络的预测头。Deformable DETR [29]基于DETR [30]引入了空洞卷积和位置编码等技术,提升了对非刚性形状和尺度变化物体的定位精度。TOOD [31]通过新颖的任务对齐头设计和任务对齐学习,解决了物体分类与定位之间预测不一致的问题,实现了显著的性能和效率提升。VFNet [32]通过创新的IoU感知分类评分、用于准确训练的变焦损失以及星形边界框特征表示,提高了检测性能,优化了得分预测和边界框精细化。DW [33]引入了一种新的自适应标签分配方法,通过聚焦于分类和回归预测之间的一致性和不一致性,动态地为每个锚框分配独特的正负权重。

2.2 水下物体检测

物体检测器已在许多场景中取得了成功应用[34–37],然而在水下物体检测(UOD)方面仍有很大的改进潜力。目前,大多数现有方法都基于改进通用物体检测器,结合特定的功能模块或引入先进的技术策略,以使通用物体检测器适应水下环境。FERNet [38]采用了一个双重细化框架,包含语义细化模块和位置细化模块,以提高水下物体检测的准确性。SWIPENet [39]引入了多类AdaBoost训练范式和加权损失函数,充分利用主干网络生成高分辨率和语义丰富的特征图,提高了在噪声干扰下小型水下物体的检测性能。Boosting R-CNN [40]采用了一种新的RetinaRPN来提供候选框,并提出了概率推理管道和困难样本挖掘方法,在水下数据集上取得了良好的性能和鲁棒性。Dai等人[41]提出了ERL-Net,一种基于边缘引导的表示学习框架,旨在提升水下物体检测性能。该框架通过将边缘信息与多级特征聚合相结合,显著增强了在低对比度水下环境和小物体检测中的性能。

此外,一些近期的研究集中于设计专门的注意力模块,并将其整合进通用检测框架中,从而改善水下检测性能[42,43]。例如,Liang等人[44]将外部注意力模块应用于RoI(兴趣区域)特征,以提高通用检测器在水下环境中的准确性。Shen等人[45]提出了一种多维、多功能、多级的注意力模块,通过三种创新策略显著增强了注意力机制的鲁棒性、灵活性和多样性,从而提高了模型在水下背景下的抗干扰能力。另一种策略是在数据层面进行改进,这可以通过特殊处理或增强训练数据来增强模型在水下环境中的学习效果和检测准确性。RoIMix [46]是一种基于RoI的数据增强模块,通过融合图像RoI区域来模拟水下物体的重叠和遮挡,从而提高通用检测器在水下物体检测任务中的泛化能力。Poisson GAN和AquaNet [47]采用了多分支结构,结合区域和语义信息,并利用Poisson GAN增强的数据集进行训练,取得了更好的效果。

一些研究者则致力于改进水下图像增强(UIE)方法,将其作为预处理步骤生成增强图像,减轻图像退化对检测任务的负面影响。例如,Liu等人[12]提出了一种基于物体引导的双重对抗性对比学习的水下图像增强方法,旨在解决水下图像失真对物体检测准确性的影响。Fu等人[48]提出了一种残差特征传递模块(RFTM),通过从适合检测器的水下图像中学习先验知识,改善水下图像中退化严重区域的特征分布,从而提高检测器在水下环境中的性能。

2.3. 多任务学习

多任务学习,有时也称为联合学习[49],是一种高效的机器学习方法。其核心原理是通过一个统一的框架同时处理多个相关任务,利用不同任务之间共享的知识和特征来提高学习效率和模型的泛化能力[50,51]。多任务学习在自然语言处理[52]、计算机视觉[53,54]、生物医学成像[55]和多模态数据分析[56]等多个领域中展现了强大的应用潜力。特别是在水下物体检测领域,利用UIE和UOD之间的任务相关性来提高水下检测准确性已成为一个重要的研究方向。

在水下环境中,图像往往因独特的光学特性(如光吸收和散射)而遭受严重的退化,导致对比度低、颜色偏移和模糊,这显著影响了物体检测的准确性和可靠性[57]。近期的研究[3,12–15]表明,单纯使用经过UIE预处理的增强图像,并不能有效提高UOD任务的准确性。将UIE和UOD视为两个独立学习任务的方法通常效果有限,因为这种单任务模型无法有效地同时满足图像质量和物体检测的优化目标。因此,一些研究尝试使用多任务联合学习,将UIE和UOD整合进一个统一框架进行端到端训练,通过相关任务的联合优化来增强水下物体检测性能。

Yeh等人[17]提出了一种新的轻量级深度水下物体检测网络,通过多任务学习将色彩转换网络和物体检测网络相结合,提升了水下环境中的检测性能。GCC-Net[58]从跨域数据交互和融合的角度,结合UIE和UOD,构建了一个端到端的水下检测模型,有效提升了在低光照和低对比度条件下的检测性能。

3. 方法论

3.1 概述

所提出的 DJL-Net 的整体框架如图 2 所示。DJL-Net 采用双分支网络结构,其中分支 1 以原始 RGB 水下图像 I r I_r Ir 作为输入,分支 2 以经过图像去色模块 (IDM) 和改进的边缘增强模块 (IEEM) 处理后的边缘增强灰度图像 I g I_g Ig 作为输入。我们使用了两个 ResNet-50 [59] 网络作为 DJL-Net 的特征提取网络,这两个网络的权重不共享。

从两个分支中提取的特征分别记为 { F r 1 , F r 2 , F r 3 , F r 4 } \{F_{r1}, F_{r2}, F_{r3}, F_{r4}\} {Fr1,Fr2,Fr3,Fr4} { F g 1 , F g 2 , F g 3 , F g 4 } \{F_{g1}, F_{g2}, F_{g3}, F_{g4}\} {Fg1,Fg2,Fg3,Fg4},它们通过三维自适应门控特征融合模块 (TAGFFM) 进行匹配和融合。该过程得到一组融合特征 { F 1 , F 2 , F 3 , F 4 } \{F_1, F_2, F_3, F_4\} {F1,F2,F3,F4},然后输入到特征金字塔网络 (FPN) [60] 中,以获取用于后续检测任务的特征图。我们使用 TOOD [31] 算法作为 DJL-Net 的检测网络来完成最终的分类和回归任务,输出对象标签和定位结果。

值得注意的是,我们方法的主要目标是提高检测器对水下物体的检测能力,因此提出的 DJL-Net 不额外引入损失函数,仅使用目标检测损失来优化和更新网络参数。损失函数的详细描述见第 3.5 节。

image-20241119104217070

图2. 所提出的DJL-Net的整体结构它采用了双分支结构:分支1从原始图像中学习特征,而分支2专注于从边缘增强灰度图像中学习特征。来自两个分支提取的特征在输入特征金字塔网络进行后续检测过程之前进行选择性匹配和融合。

3.2 图像去色模块

图像去色模块 (IDM) 的主要作用是将输入的 RGB 水下图像转换为对应的灰度图像。在之前的研究 [17] 中,单个灰度图像沿通道维度复制三次,并连接形成三通道输出灰度图像。然后使用三通道灰度图像代替原始图像作为输入,传递给目标检测网络进行后续的检测任务。上述研究表明,这种转换有助于消除水下图像色偏对检测器的不利影响,从而以较低的计算复杂度提高检测性能。受此方案启发,我们在所提出的 DJL-Net 模型中使用灰度图像作为新分支的输入。

然而,与上述方案不同,所提出的 IDM 模块预测具有不同尺度的三个特征层,并生成三个不同的灰度图像,以缓解因复制单个灰度图像而导致的信息丢失问题。在消融研究(第 4.4 节)中,我们报告了不同方案的实验结果。

image-20241119104829988

所提出的 IDM 的结构如图 3 所示。该模块接受三通道 RGB 彩色水下图像作为输入,并输出三组预测参数。每组包含三个通道转换参数,用于将彩色图像转换为对应的灰度图像。转换过程可以描述为:

I G r a y = ϕ R ⋅ I R + ϕ G ⋅ I G + ϕ B ⋅ I B , (1) I_{Gray} = \phi_R \cdot I_R + \phi_G \cdot I_G + \phi_B \cdot I_B, \tag{1} IGray=ϕRIR+ϕGIG+ϕBIB,(1)

其中, ϕ R \phi_R ϕR ϕ G \phi_G ϕG ϕ B \phi_B ϕB 是通过网络自适应学习获得的一组通道转换参数,分别编码输入 RGB 图像的红、绿和蓝通道。 I R I_R IR I G I_G IG I B I_B IB 分别表示输入 RGB 彩色图像的红、绿和蓝通道的值, I G r a y I_{Gray} IGray 是最终输出的灰度图像。

具体而言,IDM 处理的输入图像表示为 I r ∈ R 3 × H × W I_r \in \mathbb{R}^{3 \times H \times W} IrR3×H×W,其中 3 表示通道数, H × W H \times W H×W 表示空间大小。 I r I_r Ir 首先通过卷积块(Conv Block)进行特征提取和降维,卷积块包含三个卷积核大小为 3 × 3 3 \times 3 3×3 的卷积层,从而得出浅层特征 F a ∈ R 3 × H 2 × W 2 F_a \in \mathbb{R}^{3 \times \frac{H}{2} \times \frac{W}{2}} FaR3×2H×2W。该过程可以表示为:

F a = S c ∗ 3 ( I r ) , (2) F_a = S^{*3}_c (I_r), \tag{2} Fa=Sc3(Ir),(2)

其中, S c ∗ j S^{*j}_c Scj 表示顺序卷积操作,即操作序列 σ ( Conv 3 × 3 ( ⋅ ) ) \sigma(\text{Conv}_{3 \times 3}(\cdot)) σ(Conv3×3()) 重复 j j j 次。这里, Conv 3 × 3 ( ⋅ ) \text{Conv}_{3 \times 3}(\cdot) Conv3×3() 表示 3 × 3 3 \times 3 3×3 的卷积层, σ ( ⋅ ) \sigma(\cdot) σ() 为 ReLU 激活函数。

然后,使用深度可分离卷积层(depth-wise separable convolution layer)对特征 F a F_a Fa 的空间和通道维度进行重构,同时使用自适应最大池化层来减少特征提取和重构过程中的噪声干扰,得到特征 F b ∈ R 3 × H 2 × W 2 F_b \in \mathbb{R}^{3 \times \frac{H}{2} \times \frac{W}{2}} FbR3×2H×2W。详细计算过程可表示为:

F b = L m p ( σ ( DWConv 3 × 3 ( Conv 1 × 1 ( F a ) ) ) ) , (3) F_b = L_{mp}\left(\sigma\left(\text{DWConv}_{3 \times 3}\left(\text{Conv}_{1 \times 1}(F_a)\right)\right)\right), \tag{3} Fb=Lmp(σ(DWConv3×3(Conv1×1(Fa)))),(3)

其中, L m p ( ⋅ ) L_{mp}(\cdot) Lmp() 表示最大池化层, DWConv 3 × 3 ( ⋅ ) \text{DWConv}_{3 \times 3}(\cdot) DWConv3×3() 表示 3 × 3 3 \times 3 3×3 深度卷积层, Conv 1 × 1 ( ⋅ ) \text{Conv}_{1 \times 1}(\cdot) Conv1×1() 表示 1 × 1 1 \times 1 1×1 卷积层, σ ( ⋅ ) \sigma(\cdot) σ() 是 ReLU 激活函数。

接下来,利用三个不同尺度的自适应平均池化层提取特征 F b F_b Fb 中的多尺度颜色信息,得到三个不同的特征 { F c 1 ∈ R 3 × l 1 × l 1 , F c 2 ∈ R 3 × l 2 × l 2 , F c 3 ∈ R 3 × l 3 × l 3 } \{F_{c_1} \in \mathbb{R}^{3 \times l_1 \times l_1}, F_{c_2} \in \mathbb{R}^{3 \times l_2 \times l_2}, F_{c_3} \in \mathbb{R}^{3 \times l_3 \times l_3}\} {Fc1R3×l1×l1,Fc2R3×l2×l2,Fc3R3×l3×l3}。这里, l 1 l_1 l1 l 2 l_2 l2 l 3 l_3 l3 分别等于 8、16 和 32。这些特征通过全连接层在不同通道中融合颜色信息,从而预测出三组不同的转换参数 { ( ϕ R 1 , ϕ G 1 , ϕ B 1 ) , ( ϕ R 2 , ϕ G 2 , ϕ B 2 ) , ( ϕ R 3 , ϕ G 3 , ϕ B 3 ) } \{(\phi_R^1, \phi_G^1, \phi_B^1), (\phi_R^2, \phi_G^2, \phi_B^2), (\phi_R^3, \phi_G^3, \phi_B^3)\} {(ϕR1,ϕG1,ϕB1),(ϕR2,ϕG2,ϕB2),(ϕR3,ϕG3,ϕB3)}。上述过程可以数学表示为:

F c i = L a p i ( F b ) , (4) F_{c_i} = L^{i}_{ap} (F_b), \tag{4} Fci=Lapi(Fb),(4)

( ϕ R i , ϕ G i , ϕ B i ) = Linear i ( Flatten ( F c i ) ) , i = 1 , 2 , 3 , (5) (\phi_R^i, \phi_G^i, \phi_B^i) = \text{Linear}_i(\text{Flatten}(F_{c_i})), \quad i = 1, 2, 3, \tag{5} (ϕRi,ϕGi,ϕBi)=Lineari(Flatten(Fci)),i=1,2,3,(5)

其中, i i i 表示对应的第 i i i 组参数, L a p ( ⋅ ) L_{ap}(\cdot) Lap() 表示平均池化层, Flatten \text{Flatten} Flatten 表示展平操作, Linear ( ⋅ ) \text{Linear}(\cdot) Linear() 为全连接层。

3.3 改进的边缘增强模块

改进的边缘增强模块 (IEEM) 使用了 Rabbi 等人提出的边缘增强网络 (EEN) [61] 作为基本结构。EEN 通过使用残差中的残差密集块 (RRDB) 代替传统的密集块,提升了最初由 Jiang 等人提出的边缘增强子网络 [62] 的性能。此外,为了更好地集成到所提出的 DJL-Net 中,IEEM 在 EEN 的基础上进行了优化和改进,其结构如图 4 所示。

image-20241119144221389

首先,考虑到 DJL-Net 中 IEEM 增强的对象是灰度图像而非 RGB 彩色图像,IEEM 相应地减少了卷积通道数和 RRDB 模块的数量。这样做的原因是灰度图像的像素仅包含单一维度的信息,过多的参数可能导致网络学习过程中的过拟合问题。因此,这一优化不仅保证了边缘增强的有效性,而且显著降低了模块的复杂度和计算成本。

其次,考虑到单一灰度图像中包含的信息有限,传统的增强方法可能导致边缘特征的丢失。为了解决这个问题,IEEM 引入了一种创新的增强方式。IEEM 使用由 IDM 生成的三个不同的灰度图像作为输入,并应用拉普拉斯算子 [63] 分别提取它们的边缘,从而增强三个灰度图像的边缘特征,更好地捕捉和丰富边缘信息。

具体来说,三个灰度图像 { I g r a y 1 , I g r a y 2 , I g r a y 3 } ∈ R 1 × H × W \{I_{gray_1}, I_{gray_2}, I_{gray_3}\} \in \mathbb{R}^{1 \times H \times W} {Igray1,Igray2,Igray3}R1×H×W 首先通过拉普拉斯算子进行边缘提取,得到三个不同的边缘图像 { e 1 , e 2 , e 3 } ∈ R 1 × H × W \{e_1, e_2, e_3\} \in \mathbb{R}^{1 \times H \times W} {e1,e2,e3}R1×H×W。拉普拉斯算子 Δ I ( x , y ) \Delta I(x, y) ΔI(x,y) 被定义为图像 I ( x , y ) I(x, y) I(x,y) 的二阶导数,其数学表达为:

Δ I ( x , y ) = ∂ 2 I ∂ x 2 + ∂ 2 I ∂ y 2 , (6) \Delta I(x, y) = \frac{\partial^2 I}{\partial x^2} + \frac{\partial^2 I}{\partial y^2}, \tag{6} ΔI(x,y)=x22I+y22I,(6)

其中, x x x y y y 分别表示图像的水平和垂直位置, ∂ 2 ( ⋅ ) ∂ ( ⋅ ) 2 \frac{\partial^2 (\cdot)}{\partial (\cdot)^2} ()22() 表示二阶导数操作。由于拉普拉斯算子具有各向同性和旋转不变性,通过对图像进行二阶导数可以基于零交叉来确定图像中的边缘。在离散域中,对于图像 I I I,应用卷积核 K K K 后得到的边缘图像 E E E 可以表示为:

E = Lap ( I ) = K ∗ I , (7) E = \text{Lap}(I) = K * I, \tag{7} E=Lap(I)=KI,(7)

其中, Lap \text{Lap} Lap 表示拉普拉斯算子, ∗ * 表示二维卷积操作。通过拉普拉斯算子提取边缘信息后,边缘图像沿通道维度进行拼接,得到一个复合边缘图像,记为 e c a t ∈ R 3 × H × W e_{cat} \in \mathbb{R}^{3 \times H \times W} ecatR3×H×W。上述过程可以描述为:

e c a t = Cat { Lap ( I g r a y 1 ) , Lap ( I g r a y 2 ) , Lap ( I g r a y 3 ) } , (8) e_{cat} = \text{Cat}\left\{ \text{Lap}(I_{gray_1}), \text{Lap}(I_{gray_2}), \text{Lap}(I_{gray_3}) \right\}, \tag{8} ecat=Cat{Lap(Igray1),Lap(Igray2),Lap(Igray3)},(8)

其中, Cat \text{Cat} Cat 表示沿通道维度的拼接操作。接下来, e c a t e_{cat} ecat 通过一个组卷积块进行特征提取和降维,该组卷积块包含六个组卷积层,每个卷积核大小为 3 × 3 3 \times 3 3×3,组数为 3。此过程得到浅层特征表示 F c a t ∈ R C 1 × H 4 × W 4 F_{cat} \in \mathbb{R}^{C_1 \times \frac{H}{4} \times \frac{W}{4}} FcatRC1×4H×4W,其可以表示为:

F c a t = S g c 6 ( e c a t ) . (9) F_{cat} = S^6_{gc}(e_{cat}). \tag{9} Fcat=Sgc6(ecat).(9)
类似于 S c j S^j_c Scj 的定义, S g c j S^j_{gc} Sgcj 表示顺序组卷积操作,即操作序列 θ ( GPConv 3 × 3 ( ⋅ ) ) \theta (\text{GPConv}_{3 \times 3}(\cdot)) θ(GPConv3×3()) 重复 j j j 次。这里, GPConv 3 × 3 ( ⋅ ) \text{GPConv}_{3 \times 3}(\cdot) GPConv3×3() 表示 3 × 3 3 \times 3 3×3 的组卷积层, θ ( ⋅ ) \theta(\cdot) θ() 是Leaky ReLU(LReLU)激活函数。

然后,提取的边缘特征通过RRDB逐渐丰富。如图4底部所示,RRDB由两个组卷积层和三个重复的残差密集块(RDB)组成,残差连接用于传递输入特征信息。特别地,RDB由五个密集连接的组卷积层组成。假设RDB的输入特征为 F i n ∈ R C × H × W F_{in} \in \mathbb{R}^{C \times H \times W} FinRC×H×W,RDB中每个组卷积层的输入–输出映射关系可以描述为:

F o u t i = { θ ( GPConv 3 × 3 i ( F i n ) ) , i = 1 , θ ( GPConv 3 × 3 i ( Cat { F i n , F o u t 1 , … , F o u t i − 1 } ) ) , i = 2 , 3 , 4 , 5 , (10) F^{i}_{out} = \begin{cases} \theta (\text{GPConv}^i_{3 \times 3}(F_{in})), & i = 1, \\ \theta (\text{GPConv}^i_{3 \times 3}(\text{Cat} \{F_{in}, F^{1}_{out}, \ldots, F^{i-1}_{out}\})), & i = 2, 3, 4, 5, \end{cases} \tag{10} Fouti={θ(GPConv3×3i(Fin)),θ(GPConv3×3i(Cat{Fin,Fout1,,Fouti1})),i=1,i=2,3,4,5,(10)

其中, F o u t i ∈ R C i × H × W F^{i}_{out} \in \mathbb{R}^{C_i \times H \times W} FoutiRCi×H×W 表示第 i i i 个组卷积层的输出特征, GPConv 3 × 3 i ( ⋅ ) \text{GPConv}^i_{3 \times 3}(\cdot) GPConv3×3i() 表示RDB中的第 i i i 3 × 3 3 \times 3 3×3 组卷积层。因此,RDB的输入–输出映射关系可以表示为:

F o u t = RDB ( F i n ) = F o u t 5 + F i n , (11) F_{out} = \text{RDB} (F_{in}) = F^{5}_{out} + F_{in}, \tag{11} Fout=RDB(Fin)=Fout5+Fin,(11)

其中, F o u t ∈ R C × H × W F_{out} \in \mathbb{R}^{C \times H \times W} FoutRC×H×W 为RDB操作后的输出特征, F o u t 5 ∈ R C × H × W F^{5}_{out} \in \mathbb{R}^{C \times H \times W} Fout5RC×H×W 表示第5个组卷积层的输出特征。

整个通过RRDB细化边缘特征 F c a t F_{cat} Fcat 的过程可以表示为:

F d = GPConv 3 × 3 2 ( S RDB 3 ( GPConv 3 × 3 1 ( F c a t ) ) ) + F c a t , (12) F_d = \text{GPConv}^2_{3 \times 3}(S^3_{\text{RDB}}(\text{GPConv}^1_{3 \times 3}(F_{cat}))) + F_{cat}, \tag{12} Fd=GPConv3×32(SRDB3(GPConv3×31(Fcat)))+Fcat,(12)

其中, F d ∈ R C 1 × H 4 × W 4 F_d \in \mathbb{R}^{C_1 \times \frac{H}{4} \times \frac{W}{4}} FdRC1×4H×4W 为RRDB的输出特征, GPConv 3 × 3 n ( ⋅ ) \text{GPConv}^n_{3 \times 3}(\cdot) GPConv3×3n() 表示RRDB中的第 n n n 3 × 3 3 \times 3 3×3 组卷积层, S RDB 3 S^3_{\text{RDB}} SRDB3 表示重复RDB操作三次。

随后,HR卷积块用于进一步提取深层边缘特征,记为 F h ∈ R C 2 × H 4 × W 4 F_h \in \mathbb{R}^{C_2 \times \frac{H}{4} \times \frac{W}{4}} FhRC2×4H×4W,其表示为:

F h = S g c 2 ( F d ) . (13) F_h = S^2_{gc}(F_d). \tag{13} Fh=Sgc2(Fd).(13)

此外,IEEM利用具有sigmoid激活函数的Mask卷积块来细化边缘特征 F c a t F_{cat} Fcat 并减少噪声。上述过程可以表示为:

F m = sigmoid ( S g c 3 ( F c a t ) ) , (14) F_m = \text{sigmoid}(S^3_{gc}(F_{cat})), \tag{14} Fm=sigmoid(Sgc3(Fcat)),(14)

其中, sigmoid \text{sigmoid} sigmoid 为sigmoid函数。 F m ∈ R C 2 × H 4 × W 4 F_m \in \mathbb{R}^{C_2 \times \frac{H}{4} \times \frac{W}{4}} FmRC2×4H×4W 是一个用于细化边缘特征 F h F_h Fh 的权重矩阵,得到最终的边缘特征 F l ∈ R C 2 × H 4 × W 4 F_l \in \mathbb{R}^{C_2 \times \frac{H}{4} \times \frac{W}{4}} FlRC2×4H×4W,其表示为:

F l = F m ⊗ F h + F h , (15) F_l = F_m \otimes F_h + F_h, \tag{15} Fl=FmFh+Fh,(15)

其中, ⊗ \otimes 表示元素逐次相乘操作。

F l F_l Fl 通过上采样卷积块进行尺寸恢复,得到增强后的边缘图像 { e 1 ∗ , e 2 ∗ , e 3 ∗ } \{e^*_1, e^*_2, e^*_3\} {e1,e2,e3}。上述过程可以定义为:

{ e 1 ∗ , e 2 ∗ , e 3 ∗ } = Split ( S g c 3 ( fup ( S g c 1 ( fup ( F l ) ) ) ) ) , (16) \{e^*_1, e^*_2, e^*_3\} = \text{Split}\left(S^3_{gc}\left(\text{fup}\left(S^1_{gc}(\text{fup}(F_l))\right)\right)\right), \tag{16} {e1,e2,e3}=Split(Sgc3(fup(Sgc1(fup(Fl))))),(16)

其中, Split \text{Split} Split 表示沿通道维度的分割操作, fup \text{fup} fup 表示 2 × 2 \times 2× 的最近邻上采样插值操作。

最后,通过拉普拉斯算子描绘的边缘从增强的边缘表示中减去,并重新整合到输入图像中,从而完成边缘增强过程。获得最终边缘增强灰度图像 { I g 1 , I g 2 , I g 3 } ∈ R 1 × H × W \{I_{g1}, I_{g2}, I_{g3}\} \in \mathbb{R}^{1 \times H \times W} {Ig1,Ig2,Ig3}R1×H×W 的过程可以表示为:

I g i = I g r a y i + ( e i ∗ − e i ) , i = 1 , 2 , 3. (17) I_{gi} = I_{gray_i} + (e^*_i - e_i), \quad i = 1, 2, 3. \tag{17} Igi=Igrayi+(eiei),i=1,2,3.(17)

3.4. 三维自适应门控特征融合模块

门控特征融合模块通常用于深度学习中的特征融合,可以帮助网络更好地融合不同层次、分辨率或来源的特征,从而提取更丰富的信息。然而,传统的门控特征融合模块往往只考虑不同特征之间通道维度的信息,而忽略了在不同特征之间选择性融合时空间信息的重要性。特别是在物体检测任务中,空间信息对于捕捉物体的结构特征至关重要。

为了解决这一问题,本文提出了一种三维自适应门控特征融合模块(TAGFFM)。TAGFFM分别对特征的通道、高度和宽度三个维度进行编码,将对应于不同特征的三维信息映射到共同的特征空间,并对通道和空间信息进行建模,从而使通道和空间维度的信息能够相互学习和匹配。

图 5 展示了传统门控特征融合模块中通道信息编码的示意图。门控模块使用卷积层对特征层的通道维度信息进行编码,其表达式为:

Y ( h , w ) = ∑ c = 1 C δ c ⋅ F ( c , h , w ) , (18) Y(h, w) = \sum_{c=1}^{C} \delta_c \cdot F(c, h, w), \tag{18} Y(h,w)=c=1CδcF(c,h,w),(18)

其中, Y ( h , w ) Y(h, w) Y(h,w) 表示在特征层 Y ∈ R 1 × H × W \mathcal{Y} \in \mathbb{R}^{1 \times H \times W} YR1×H×W 中位置 ( h , w ) (h, w) (h,w) 的值,该特征层是沿通道维度编码后得到的, C C C 表示待编码的特征层的通道数, δ c \delta_c δc 表示编码过程中的权重值, F ( c , h , w ) F(c, h, w) F(c,h,w) 表示待编码特征层 F ∈ R C × H × W \mathcal{F} \in \mathbb{R}^{C \times H \times W} FRC×H×W 中第 c c c 个通道在位置 ( h , w ) (h, w) (h,w) 的值。

假设 F x ∈ R C × H × W F_x \in \mathbb{R}^{C \times H \times W} FxRC×H×W F y ∈ R C × H × W F_y \in \mathbb{R}^{C \times H \times W} FyRC×H×W 是两个输入特征层。上述过程在 F x F_x Fx F y F_y Fy 上执行,利用卷积操作压缩通道维度的信息,得到编码后的特征图 Y x ∈ R 1 × H × W \mathcal{Y}_x \in \mathbb{R}^{1 \times H \times W} YxR1×H×W Y y ∈ R 1 × H × W \mathcal{Y}_y \in \mathbb{R}^{1 \times H \times W} YyR1×H×W

然后,使用门控函数对 Y x \mathcal{Y}_x Yx Y y \mathcal{Y}_y Yy 进行激活,表示如下:

G x C = sigmoid ( Y x ) , (19) G^C_x = \text{sigmoid}(\mathcal{Y}_x), \tag{19} GxC=sigmoid(Yx),(19)

G y C = sigmoid ( Y y ) . (20) G^C_y = \text{sigmoid}(\mathcal{Y}_y). \tag{20} GyC=sigmoid(Yy).(20)

这样,我们分别得到了门控权重 G x C ∈ [ 0 , 1 ] 1 × H × W G^C_x \in [0, 1]^{1 \times H \times W} GxC[0,1]1×H×W G y C ∈ [ 0 , 1 ] 1 × H × W G^C_y \in [0, 1]^{1 \times H \times W} GyC[0,1]1×H×W。接着,将 G x C G^C_x GxC G y C G^C_y GyC 分别沿通道方向进行复制,将其形状变为 R C × H × W \mathbb{R}^{C \times H \times W} RC×H×W

最终,通过使用沿通道维度编码的门控权重得到融合后的特征 F z C ∈ R C × H × W F^C_z \in \mathbb{R}^{C \times H \times W} FzCRC×H×W,该过程可以表示为:

F z C = ( G x C ⊗ F x ) + ( G y C ⊗ F y ) , (21) F^C_z = (G^C_x \otimes F_x) + (G^C_y \otimes F_y), \tag{21} FzC=(GxCFx)+(GyCFy),(21)

其中, ⊗ \otimes 表示逐元素相乘操作。

在这种模式下,门控模块仅依赖于通道编码信息来匹配和融合不同特征层中位于相同空间位置的特征。然而,这种方法忽略了这些特征层之间不同空间位置的特征信息的交互匹配。为了解决这一问题,如图6所示,本文提出的TAGFFM分别使用卷积层对特征的宽度(图6中的 w w w轴)和高度(图6中的 h h h轴)维度进行编码。该过程可以表示为:

Y ( c , h ) = ∑ w = 1 W δ w ⋅ F ( c , h , w ) , (22) Y(c, h) = \sum_{w=1}^{W} \delta_w \cdot F(c, h, w), \tag{22} Y(c,h)=w=1WδwF(c,h,w),(22)

其中, Y ( c , h ) Y(c, h) Y(c,h) 表示沿宽度维度编码后得到的特征层 Y ∈ R C × H × 1 \mathcal{Y} \in \mathbb{R}^{C \times H \times 1} YRC×H×1 在位置 ( c , h ) (c, h) (c,h) 的值, W W W 是待编码特征层的宽度, δ w \delta_w δw 表示编码过程中的权重值, F ( c , h , w ) F(c, h, w) F(c,h,w) 表示待编码特征层 F ∈ R C × H × W \mathcal{F} \in \mathbb{R}^{C \times H \times W} FRC×H×W 在第 w w w 个宽度位置的值。

同样地,通过沿高度维度编码得到的特征层 Y ∈ R C × 1 × W \mathcal{Y} \in \mathbb{R}^{C \times 1 \times W} YRC×1×W 在位置 ( c , w ) (c, w) (c,w) 的值可以表示为:

Y ( c , w ) = ∑ h = 1 H δ h ⋅ F ( c , h , w ) . (23) Y(c, w) = \sum_{h=1}^{H} \delta_h \cdot F(c, h, w). \tag{23} Y(c,w)=h=1HδhF(c,h,w).(23)

根据公式 (19),最终得到沿宽度和高度维度编码的门控权重 G W ∈ [ 0 , 1 ] C × H × 1 G^W \in [0, 1]^{C \times H \times 1} GW[0,1]C×H×1 G H ∈ [ 0 , 1 ] C × 1 × W G^H \in [0, 1]^{C \times 1 \times W} GH[0,1]C×1×W。同样地,将 G W G^W GW 沿宽度方向复制,将 G H G^H GH 沿高度方向复制,改变它们的形状为 R C × H × W \mathbb{R}^{C \times H \times W} RC×H×W

最终,通过使用沿宽度和高度维度编码的门控权重,可以分别得到融合后的特征 F z W ∈ R C × H × W F^W_z \in \mathbb{R}^{C \times H \times W} FzWRC×H×W F z H ∈ R C × H × W F^H_z \in \mathbb{R}^{C \times H \times W} FzHRC×H×W,描述如下:

F z W = ( G x W ⊗ F x ) + ( G y W ⊗ F y ) , (24) F^W_z = (G^W_x \otimes F_x) + (G^W_y \otimes F_y), \tag{24} FzW=(GxWFx)+(GyWFy),(24)

F z H = ( G x H ⊗ F x ) + ( G y H ⊗ F y ) , (25) F^H_z = (G^H_x \otimes F_x) + (G^H_y \otimes F_y), \tag{25} FzH=(GxHFx)+(GyHFy),(25)

其中, ⊗ \otimes 表示逐元素相乘操作。

TAGFFM的结构如图7所示。模块的完整机制可以表示为:

{ G { r , g } H = T C ↔ H ( sigmoid ( Conv 1 × 1 ( T C ↔ H ( F { r , g } ) ) ) ) , G { r , g } W = T C ↔ W ( sigmoid ( Conv 1 × 1 ( T C ↔ W ( F { r , g } ) ) ) ) , (26) \left\{ \begin{aligned} &G^H_{\{r,g\}} = T_{C \leftrightarrow H} \left( \text{sigmoid} \left( \text{Conv}_{1 \times 1} \left( T_{C \leftrightarrow H} (F_{\{r,g\}}) \right) \right) \right), \\ &G^W_{\{r,g\}} = T_{C \leftrightarrow W} \left( \text{sigmoid} \left( \text{Conv}_{1 \times 1} \left( T_{C \leftrightarrow W} (F_{\{r,g\}}) \right) \right) \right), \end{aligned} \right. \tag{26} {G{r,g}H=TCH(sigmoid(Conv1×1(TCH(F{r,g})))),G{r,g}W=TCW(sigmoid(Conv1×1(TCW(F{r,g})))),(26)

{ F H = ( G r H ⊗ F r ) + ( G g H ⊗ F g ) , F W = ( G r W ⊗ F r ) + ( G g W ⊗ F g ) , (27) \left\{ \begin{aligned} &F^H = (G^H_r \otimes F_r) + (G^H_g \otimes F_g), \\ &F^W = (G^W_r \otimes F_r) + (G^W_g \otimes F_g), \end{aligned} \right. \tag{27} {FH=(GrHFr)+(GgHFg),FW=(GrWFr)+(GgWFg),(27)

G { H , W } C = sigmoid ( Conv 1 × 1 ( F { H , W } ) ) , (28) G^C_{\{H,W\}} = \text{sigmoid} \left( \text{Conv}_{1 \times 1} (F_{\{H,W\}}) \right), \tag{28} G{H,W}C=sigmoid(Conv1×1(F{H,W})),(28)

F = ( G H C ⊗ F H ) + ( G W C ⊗ F W ) , (29) F = (G^C_H \otimes F^H) + (G^C_W \otimes F^W), \tag{29} F=(GHCFH)+(GWCFW),(29)

其中, { r , g } \{r, g\} {r,g} 表示 r r r g g g { H , W } \{H, W\} {H,W} 表示相同的含义。 G r H G^H_r GrH G g H G^H_g GgH 分别是高度维度中 F r F_r Fr F g F_g Fg 的门控权重, G r W G^W_r GrW G g W G^W_g GgW 在宽度维度中具有相同的定义。 T a ↔ b T_{a \leftrightarrow b} Tab 表示维度 a a a 和维度 b b b 之间的交换操作。 F H F^H FH F W F^W FW 分别表示通过在高度和宽度维度上的门控融合得到的 F r F_r Fr F g F_g Fg 的融合特征。 G H C G^C_H GHC G W C G^C_W GWC 分别表示 F H F^H FH F W F^W FW 在通道维度上的门控权重。

3.5. 损失函数

值得注意的是,DJL-Net中提出的图像去色模块(IDM)和改进的边缘增强模块(IEEM)并不旨在生成符合人类视觉认知的高质量图像,而是旨在生成更有利于物体检测任务的图像。因此,DJL-Net只使用物体检测任务的损失来控制多任务联合学习的优化过程,而不增加额外的损失函数。

具体而言,DJL-Net以端到端的方式进行优化,其损失函数与基准方法TOOD [31]相同,由分类损失 L c l s L_{cls} Lcls 和回归损失 L r e g L_{reg} Lreg 组成。 L c l s L_{cls} Lcls 定义为:

L c l s = ∑ i = 1 N p o s ∣ t ^ i − s i ∣ γ BCE ( s i , t ^ i ) + ∑ j = 1 N n e g s j ′ BCE ( s j , 0 ) , (30) L_{cls} = \sum_{i=1}^{N_{pos}} \left| \hat{t}_i - s_i \right|^\gamma \text{BCE} (s_i, \hat{t}_i) + \sum_{j=1}^{N_{neg}} s'_j \text{BCE} (s_j, 0), \tag{30} Lcls=i=1Npos t^isi γBCE(si,t^i)+j=1NnegsjBCE(sj,0),(30)

其中, N p o s N_{pos} Npos N n e g N_{neg} Nneg 分别为正锚点和负锚点的数量。 i i i 表示从正锚点中选择的第 i i i 个锚点,而 j j j 表示从所有负锚点中选择的第 j j j 个锚点。 s i s_i si 是第 i i i 个正锚点的预测分类得分, t ^ i \hat{t}_i t^i 是第 i i i 个正锚点的归一化任务对齐度量,其由分类得分和交并比(IoU)构成的高阶组合。 γ \gamma γ 是焦点损失(focal loss)[22]的聚焦参数,BCE 代表二元交叉熵损失。 s j s_j sj 是第 j j j 个负锚点的预测得分。

L r e g L_{reg} Lreg 定义为:

L r e g = ∑ i = 1 N p o s t ^ i L G I o U ( b i , b ˉ i ) , (31) L_{reg} = \sum_{i=1}^{N_{pos}} \hat{t}_i L_{GIoU} (b_i, \bar{b}_i), \tag{31} Lreg=i=1Npost^iLGIoU(bi,bˉi),(31)

其中, L G I o U L_{GIoU} LGIoU 表示GIoU损失 [64]。 b i b_i bi b ˉ i \bar{b}_i bˉi 分别为预测的边界框和对应的真实边界框。

整体损失函数是 L c l s L_{cls} Lcls L r e g L_{reg} Lreg 的和,定义为:

L t o t a l = L c l s + L r e g . (32) L_{total} = L_{cls} + L_{reg}. \tag{32} Ltotal=Lcls+Lreg.(32)

4. 实验与分析

本节首先介绍了所使用的四个水下数据集,以及评估指标和实施细节,以确保实验的精度和可重复性。接着,报告并深入分析了所提出的 DJL-Net 在这些数据集上的实验结果。本节最后通过消融研究阐明 IDM、IEEM 和 TAGFFM 在 DJL-Net 中的贡献,从而证明了模型的有效性和鲁棒性。

4.1 数据集描述

DUO(^1) (Detecting Underwater Objects) [65] 是一个用于目标检测的水下光学图像数据集。该数据集包含 7782 张水下图像,其中 6671 张用于训练,1111 张用于测试。检测对象被分为四个类别:海参、海胆、扇贝和海星。DUO 数据集遵循 coco 风格的评估指标。

UODD(^2) (Underwater Object Detection Dataset) [66] 是一个真实世界的水下目标检测数据集。该数据集有 3194 张真实的水下图像,其中包括 2560 张用于训练,128 张用于验证,以及506 张用于测试。检测对象被分为三个类别:海参、海胆和扇贝。UODD 数据集遵循 coco 风格的评估指标。

RUOD(^3) (Real-world Underwater Object Detection Dataset) [4] 是一个新型的真实场景 UOD 数据集。它包含 14,000 张高分辨率的水下图像,其中 9800 张用于训练,4200 张用于测试。检测对象被分为十个类别:潜水员、扇贝、海参、海星、珊瑚、海胆、鱼类、水母、海龟和墨鱼。该数据集还将图像划分为具有如雾霾效应、色偏和光干扰等特征的子集,以测试算法在这些复杂环境中的表现。RUOD 数据集遵循 coco 风格的评估指标。

UDD(^4) (Underwater Detection Dataset) [47] 是第一个 4K 高清数据集,采集于真实开放海域的养殖场,包含 2227 张水下光学图像。该数据集分为 1827 张用于训练,400 张用于测试,检测对象被划分为三个类别:海参、海胆和扇贝。UDD 数据集遵循 coco 风格的评估指标。

4.2 评估指标和实施细节

本文使用标准的 coco 风格平均精度 (AP) 指标 [67] 来评估目标检测的性能。具体而言,AP、 A P 50 AP_{50} AP50 A P 75 AP_{75} AP75 指标分别在变化的 IoU 阈值集合 { 0.5 : 0.05 : 0.95 } \{0.5 : 0.05 : 0.95\} {0.5:0.05:0.95}、0.5 和 0.75 下量化检测器的准确性。此外, A P s AP_s APs A P m AP_m APm A P l AP_l APl 指标分别评估检测器对小型 (面积 < 3 2 2 32^2 322)、中型 ( 3 2 2 < 面积 < 9 6 2 32^2 < \text{面积} < 96^2 322<面积<962) 和大型 (面积 > 9 6 2 96^2 962) 目标的检测性能。

我们的所有实验均在 MMdetection 上实现 [68]。我们将所有输入图像的大小调整为 512 × 512,但不保持比例。模型优化采用 SGD 方法,初始学习率设置为 0.01,并在第 8 和第 11 个 epoch 时减少 0.1。训练时的批量大小设置为 4,共训练 12 个 epoch。训练和推理过程在单个 GeForce RTX 3090 GPU 上执行。除常规的水平翻转外,实验中未应用任何数据增强技术。所有其他超参数均遵循 MMdetection 的设置。

4.3 定量结果

4.3.1 DUO 数据集上的实验

DJL-Net 及其他最先进方法在 DUO 数据集上的实验结果如表 1 所示。从表中可以看出,DJL-Net 在 AP、 A P 50 AP_{50} AP50 A P 75 AP_{75} AP75 A P s AP_s APs A P m AP_m APm A P l AP_l APl 六个指标上均取得了最佳性能。其中,DJL-Net 在 AP 指标上取得了 65.6% 的精度。与基线方法 TOOD [31] 相比,所提出的 DJL-Net 实现了 2.7% 的 AP 提升(62.9% AP 对比 65.6% AP)。此外,DJL-Net 在 AP 指标上比最先进的通用检测器 DetectoRS [24] 高出 2.8%(62.8% AP 对比 65.6% AP),并且超过了最先进的水下检测器 GCC-Net [58] 4.5%(61.1% AP 对比 65.6% AP)。

image-20241119152954300

4.3.2 UODD 数据集上的实验

DJL-Net 在 UODD 数据集上的实验结果如表 2 所示。数据显示,DJL-Net 在该数据集的所有六个指标上均表现最佳。值得注意的是,DJL-Net 在 AP 指标上达到了 52.9%,相比基线方法 TOOD [31] 提升了 2.7%(50.2% AP 对比 52.9% AP)。此外,DJL-Net 超过了最先进的通用检测器 DDOD [25] 2.0%(50.9% AP 对比 52.9% AP),并且超过了最先进的水下检测器 Boosting R-CNN [40] 2.4%(50.5% AP 对比 52.9% AP)。

image-20241119153254418

4.3.3 RUOD 数据集上的实验

DJL-Net 及其他最先进方法在 RUOD 数据集上的实验结果如表 3 所示。表格分析显示,DJL-Net 在所有六个评估指标上均表现优异,取得了最好的或次优的结果。具体来说,在 AP 指标上,DJL-Net 达到 57.5%。与基线方法 TOOD [31] 相比,DJL-Net 提升了 2.5%(55.0% AP 对比 57.5% AP)。此外,DJL-Net 在 AP 指标上比最先进的通用检测器 DetectoRS [24] 高出 0.9%(56.6% AP 对比 57.5% AP),并且超过了最先进的水下检测器 GCC-Net [58] 1.4%(56.1% AP 对比 57.5% AP)。

4.3.4 UDD 数据集上的实验

表 4 展示了 DJL-Net 和其他领先方法在 UDD 数据集上的比较实验结果。DJL-Net 表现出色,在 AP、 A P 50 AP_{50} AP50 A P 75 AP_{75} AP75 A P m AP_m APm 等四个评估指标上排名第一或第二。具体来说,DJL-Net 在 AP 精度方面达到 31.5%,超越了基线 TOOD [31] 3.1%(28.4% AP 对比 31.5% AP)。此外,与最先进的通用检测器 GFL [26] 相比,DJL-Net 在 AP 上提高了 2.1%(29.4% AP 对比 31.5% AP)。同时,DJL-Net 相较于领先的水下检测器 ERL-Net [41],在 AP 上提升了 1.9%(29.6% AP 对比 31.5% AP)。

image-20241119153641267

4.3.5 水下环境干扰实验

RUOD 数据集包含三个测试集,用于评估雾霾效应、色偏和光干扰 [4]。每个子集包含 100 张图像,选择用于评估不同水下环境干扰下检测算法的性能。这些三个子集的评估结果如表 5、表 6 和表 7 所示。

首先,如表 5 所示,在抗雾霾效应测试中,DJL-Net 在 AP 和 A P 50 AP_{50} AP50 指标上表现最佳或次最佳。具体来说,DJL-Net 在 AP 指标上达到了 58.0%,仅次于 DetectoRS [24] 的 59.9%。

其次,如表 6 所示,在抗色偏测试中,DJL-Net 在 AP、 A P 50 AP_{50} AP50 A P 75 AP_{75} AP75 A P s AP_s APs A P m AP_m APm 五个指标中均表现优异,其中 AP 达到 56.4%,在所有检测器中表现最佳。

最后,如表 7 所示,在抗光干扰测试中,DJL-Net 在 AP、 A P 50 AP_{50} AP50 A P m AP_m APm 三个指标中均表现最佳或次最佳,其中 AP 为 49.4%,与 DetectoRS [24] 一致,共同达到了最佳精度。

上述实验结果表明,DJL-Net 在面对严苛的水下环境干扰时仍能保持卓越的检测性能。考虑到 DJL-Net 的网络参数仅为 DetectoRS [24] 的一半,而推理速度远快于 DetectoRS,DJL-Net 仍然是实时 UOD 任务的更好选择。

image-20241119153651809

4.3.6 模型复杂性分析

我们量化比较了模型在 DUO 数据集上的浮点运算(FLOPs)、模型参数以及每秒帧数(FPS)。为了保证公平对比,所有实验均在相同的实验设置下使用单个 GeForce RTX 3090 GPU 进行,结果如表 8 所示。

如表 8 所示,从 FLOPs、模型参数以及 FPS 三个方面比较所提出的方法时,尽管这些对比方法的计算效率较高,但所提出的模型仍然能够取得最高的检测精度。此外,DJL-Net 达到了 23.2 FPS,确保了 DJL-Net 具有快速推理速度,以满足水下目标检测的实时需求。

DJL-Net 中大多数额外的模块复杂性来自非共享权重的双分支结构,而所提出的 IDM、IEEM 和 TAGFFM 模块相对较轻(请参见第 4.4 节以了解模块复杂性)。然而,为了在特定场景中实现更有效和更具代表性的特征表示,通过使用更深的骨干网络来分别学习不同分支的特征可以提高水下目标检测的性能。因此,在某些特定情况下,DJL-Net 可以采用更轻量化的骨干网络来在精度和速度之间实现更好的平衡。

4.4. 消融研究

为了验证DJL-Net中所使用架构的有效性,我们基于TOOD [31] 逐步集成这些模块并分析它们的影响。我们在DUO、UODD和RUOD数据集上进行了消融研究,结果如表 9 - 表 12 所示。

image-20241119154004100

image-20241119154016765

4.4.1. 图像去色模块 (IDM) 的影响

如表 9 所示,表中的“Baseline”表示TOOD [31] 算法,而“+ IDM”表示使用IDM生成的灰度图像作为新分支的输入。为了进一步验证IDM的有效性,我们还进行了另外两组对比实验。“Original image”表示原始水下图像作为新分支的输入,而“Gray image”表示将单通道灰度图像复制三次后沿通道维度进行拼接得到的三通道灰度图像。在DUO、UODD和RUOD数据集上可以看出,“+ IDM”的AP值比基线分别提高了0.5%、0.2%和0.6%。此外,IDM比其他两种方案更有效地提高了检测精度,这表明使用IDM生成的灰度图像作为新分支输入的双分支结构在提高水下物体检测精度方面是有效的。值得注意的是,IDM仅增加了约3.36 M的模型参数和0.07 G FLOPs,这证明了它是一个轻量级模块。

为了探讨IDM在整个DJL-Net中的适用性,我们进行了额外的实验,结果如表 10 所示。我们将整个DJL-Net中的IDM替换为“Original image”和“Gray image”。可以观察到,当使用“Gray image”作为新分支的输入时,模型的性能显著下降。这是因为上述方案生成的三通道灰度图像是由单通道灰度图像沿通道维度复制得到的,在图像内部包含的有效信息有限,从而影响了后续TAGFFM模块中互补特征学习的有效性。与“Gray image”方案相比,“Original image”方案的精度有所提升,但仍显著低于使用IDM时的表现。经过IEEM模块的边缘增强后,原始图像被补充了细节信息。然而,这些图像保持了原始的颜色风格,导致在互补学习阶段引入了冗余的颜色信息,这限制了检测器对颜色偏移的抵抗能力。模型在使用IDM模块时表现最佳,因为IDM模块生成了三种不同的灰度图像,从而减少了单一灰度图像导致的信息丢失。同时,这种方法引入了来自不同领域的颜色信息,有助于检测器在这些领域之间进行互补信息的学习,从而有效提高了检测性能。

4.4.2. 改进边缘增强模块(IEEM)的效果

为了验证IEEM的有效性,我们设计了两个消融实验。第一个实验使用了“+IDM”(与表9中的设置相同)并包含IEEM模块;第二个实验则使用了完整的DJL-Net但不包含IEEM模块。结果如表11所示。在第一个实验中,加入IEEM使得模型在DUO、UODD和RUOD数据集上的平均精度(AP)分别提高了0.7%、0.6%和0.3%;在第二个实验中,移除IEEM使得模型在这些数据集上的AP分别降低了1.0%、1.0%和0.7%。这两组实验数据均验证了IEEM对DJL-Net的重要贡献。此外,由于我们对该模块进行了优化改进,添加IEEM所带来的计算成本几乎可以忽略不计。

4.4.3. 三维自适应门控特征融合模块(TAGFFM)的效果

为了验证TAGFFM的有效性,我们进行了四组实验,每组实验采用不同的方法来融合两个分支的特征。在第一组实验中,特征通过元素级加法进行融合。其余三组实验则使用编码在通道、宽度和高度维度的权重来融合特征。这些实验分别标记为“元素级加法(Element-wise Add)”、“+C权重(+C Weight)”、“+W权重(+W Weight)”和“+H权重(+H Weight)”。

从表12中可以看出,使用空间信息编码权重来融合两个分支的特征时,平均精度(AP)高于使用通道维度编码权重的情况,这也证明了我们关于空间信息在捕获检测任务中物体结构特征的重要性的观点。特别地,与元素级加法方法相比,使用TAGFFM的检测器在DUO、UODD和RUOD数据集上分别提高了1.5%、1.9%和1.6%的AP。这些结果充分验证了TAGFFM在特征匹配和融合方面的优越性能。此外,由TAGFFM带来的额外计算成本几乎可以忽略不计。

4.5. 定性结果

在本节中,我们展示了DJL-Net在DUO、RUOD以及水下环境挑战数据集上的定性分析结果。同时,为了更清晰直观地展示DJL-Net的性能,我们选择了每个数据集中表现较差的检测算法作为对比对象。

4.5.1. DUO数据集上的实验

DJL-Net与表现次优的TOOD [31] 在DUO数据集上的定性分析结果如图8所示。从第一列到最后一列,选择了水下相对清晰、色偏、复杂背景和遮挡、强光干扰以及物体模糊的场景作为定性实验的例子。从图8可以看出,DJL-Net在具有挑战性的场景中仍保持了较高的精度。与次优的TOOD算法相比,DJL-Net表现出更少的漏检和误检,且最终预测的边界框在位置和形状上更符合真实情况。然而,与TOOD算法类似,DJL-Net仍然无法有效处理被遮挡的物体,容易出现漏检的情况。

image-20241119154630067

4.5.2. RUOD数据集上的实验

DJL-Net与表现次优的DetectoRS [24] 在RUOD数据集上的定性分析结果如图9所示。图9的前三列是具有不同背景的水下图像示例。第四列和第五列是分别受强光干扰、物体模糊和遮挡影响的水下图像。从图中可以看出,DJL-Net和DetectoRS在具有各种背景的水下图像上均表现出卓越的检测性能。然而,对于具有挑战性的水下图像(图9的第四列和第五列),DJL-Net相较于DetectoRS表现出更少的漏检和误检,这表明DJL-Net具有更高的检测稳定性和更好的鲁棒性。缺点是DJL-Net在检测被遮挡物体时仍然有较高的漏检概率。

image-20241119154638245

4.5.3. 水下环境挑战上的实验

图10展示了DJL-Net和DetectoRS [24] 在RUOD的三个子集上的定性分析结果:类似雾霾的效果、色偏和光干扰。在类似雾霾的效果子集(图10最左两列)中,雾霾效应模糊了高频信息,降低了对比度,并使物体边缘和细节在水下图像中不易辨别。这些影响会为DJL-Net中的边缘增强模块引入额外的噪声,从而负面影响增强效果,因此DJL-Net的整体性能不如DetectoRS。在色偏子集上(图10中间两列),DJL-Net使用灰度图作为第二分支的输入,最大限度地消除了水下图像的色偏效应,因此在具有色偏的水下图像中仍表现出卓越的检测性能。在光干扰子集上(图10右侧两列),光的折射和反射在水中传播时会引起干扰,导致检测器对物体的识别出现偏差。尤其是在光源靠近物体时,轮廓通常是模糊的或不清晰的,从而对检测器造成显著干扰。在这种情况下,DJL-Net与DetectoRS都出现了性能下降,但DJL-Net的表现更好。

image-20241119154649061

4.6. 错误分析

图11至图13展示了最优和次优算法在DUO、UODD和RUOD数据集上的错误分析对比图 [67]。每个子图中的图形表示各种评估设置下的精确率-召回率(precision-recall)曲线。

image-20241119154658241

在DUO数据集上,如图11所示,提出的DJL-Net在 A P 75 AP_{75} AP75(即, C 75 C_{75} C75)上达到了73.0%,比TOOD [31] 高出2.7%。对于 A P 50 AP_{50} AP50(即, C 50 C_{50} C50),DJL-Net达到了84.2%,比TOOD高出1.5%。考虑定位误差(即,Loc),DJL-Net比TOOD提高了1.4%。在消除类别混淆和移除超级类别的误检(即,Oth和Sim)的前提下,DJL-Net比TOOD提高了1.4%。

image-20241119154718337

在UODD数据集上,如图12所示,DJL-Net在 A P 75 AP_{75} AP75(即, C 75 C_{75} C75)上达到了56.0%,比DDOD [25] 高出4.4%。对于 A P 50 AP_{50} AP50(即, C 50 C_{50} C50),DJL-Net达到了91.0%,比DDOD高出1.0%。对于Loc、Sim和Oth指标,DJL-Net分别比DDOD提高了1.1%、0.7%和0.7%。

image-20241119154730462

在RUOD数据集上,如图13所示,DJL-Net在 A P 75 AP_{75} AP75(即, C 75 C_{75} C75)上达到了62.5%,比DetectoRS [24] 高出0.6%。对于 A P 50 AP_{50} AP50(即, C 50 C_{50} C50),DJL-Net达到了83.7%,比DetectoRS高出0.9%。对于Loc、Sim和Oth指标,DJL-Net分别比DetectoRS提高了1.3%、1.7%和1.7%。在消除背景和类别混淆假阳性(即,BG)的前提下,DJL-Net达到了95.1%,相比DetectoRS的91.5%有显著提高。

从上述结果可以看出,提出的DJL-Net在水下物体检测任务中表现出色。此外,在不同的UOD数据集上表现良好,具有良好的泛化能力,能够最大限度地减轻水下图像退化对检测任务的不利影响。

5. 结论

本文提出了一种用于水下物体检测(UOD)任务的双分支联合学习网络(DJL-Net),该网络采用精心设计的双分支结构,以实现图像处理和目标检测任务的联合学习。在该模型中,一个分支以RGB水下图像为输入,另一个分支则使用通过图像去色模块(IDM)和改进的边缘增强模块(IEEM)生成的边缘增强灰度图像作为输入,以消除水下光吸收和散射效应引起的颜色干扰。同时,为了生成高质量的特征,本文还提出了一种三维自适应门控特征融合模块(TAGFFM),可以更有效地匹配和融合从两个分支中学习到的特征。此外,我们在四个公开的UOD数据集(DUO、UODD、RUOD和UDD)上以及一些具有挑战性的水下环境场景中进行了广泛的实验,结果表明提出的DJL-Net实现了最先进的检测性能。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐