一 背景与研究动机

协同显著性检测(CoSOD)旨在从一组相关图像中找出共有的显著目标,是一个比普通显著性检测(SOD)更具挑战性的任务。

与传统的显著对象检测(SOD)相比,CoSOD 需要充分建模图像间的关联性。

CONDA 是一种 Transformer-free、效率更高、压缩建模能力更强 的新框架。

二 CONDA 方法  首次提出深度关联学习策略

PAG 模块是 CONDA 的核心设计: 

1 使用 VGG-16 主干网络提取每张图像的多层次特征,生成不同尺度的特征图。

2 E 模块:在每个尺度层级上,特征图首先经过 E 模块进行特征增强。使用上一层的深度关联特征来增强当前层的原始图像特征。这是一种循环反馈机制。

3  HAC 模块:增强后的特征图进入 HAC 模块。HAC 模块计算特征图中每个像素与其他像素之间的高阶关联关系。

4 CAC 模块:CAC 模块将 HAC 模块计算得到的关联关系进行浓缩和整合。                                

5 Agg 模块:Agg 模块将经过 CAC 模块处理后的特征进行聚合。生成最终的特征图。

6 FPN 解码器:最终的特征图被输入到 FPN 解码器。从而得到预测图。

CONDA模型模块创新点

1 深度关联学习策略:

        原始关联转换为深度关联特征,以更充分地建模图像间的关联关系。比直接使用原始关联来优化图像特征,具有更强的鲁棒性,在处理复杂场景时表现更佳。

2 渐进式关联生成(PAG)模块:

        1 不像传统方法一次性建完所有层的关联,PAG 是一种自顶向下的策略。

        2 PAG能够显式地建模图像间的关联关系。解决了 传统方法直接依赖原始关联(像素间相似性)来优化图像特征,且在复杂场景下前景与背景相似度高容易失效的问题。传统方法难以建模高级别的图像间关联)。

3 语义对应诱导的关联浓缩(CAC)模块 是区别以往全关联建模方法最大的创新:

        1 创新性地引入语义 (像素级语义匹配)机制,为每个像素寻找跨图像中“真正对应”的语义位置。

        2 利用语义对应点作为中心,只选取一个K×K邻域的像素组团进行关联建模,压缩了大量无效或噪声关联,有效提升了效率与性能。减少了不必要的计算。

4 对象感知的循环一致性(OCC)损失:

        1 是一个 loss 设计,不引入任何额外网络结构。

        2 只在共显著区域加上 SSIM loss,避免背景误导。SSIM loss结构相似性损失

       3 解决了 传统的循环一致性损失会受到背景和其他非共显著像素的干扰

四 实验结果

与其他SOTA方法定量比较:

实验结果表示,CONDA我们在最具挑战性的CoCA数据集中取得了出色的结果,大大超过了第二好的模型,并在另外两个数据集也有着很好的表现。

五 消融实验  各个模块对结果的影响

独立关联生成(SAG)消融实验:

        1 SAG是一种独立关联生成策略,作为一种对比模块。

        2 为每个阶段单独生成关联特征,而不利用之前阶段生成的关联特征来增强图像特征。

实验效果提升原因

1-3:

        PAG通过渐进式生成深度关联特征,利用高级别的关联特征增强低级别的图像特征,从而逐步提高超关联计算的质量。

        SAG无法充分利用不同阶段之间的关联信息,而PAG通过渐进式增强,能够更有效地挖掘和利用这些信息,从而提升模型的整体性能。

3-5:

        传统方法直接使用全像素关联,CAC模块通过语义对应估计,筛选出具有语义对应的像素对

使得模型能够更准确地捕捉图像间的共显著信息,从而提升了CoSOD的检测精度。

5-7:

        OCC仅在共显著像素上进行约束,避免了背景和其他不相关物体的干扰,使得模型能够更专注于共显著对象的检测。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐