我愿称之无敌!多尺度卷积+Attention最新暴力涨点方案!
多尺度特征为注意力机制提供了更丰富的信息基础,而注意力机制则可以动态地调整多尺度特征的权重,实现更精细的特征融合。多尺度卷积:通过引入多尺度卷积核,扩大了卷积的感受野,使模型能够提取更丰富的特征信息,从而提高了路面裂缝分割的准确性。多尺度扩张卷积(MDC):通过不同扩张率的扩张卷积路径,提取不同时间尺度的特征,避免了传统多尺度CNN结构在提取大时间尺度特征时参数过多的问题。多尺度卷积:在深度可分离
2025深度学习发论文&模型涨点之——多尺度卷积+Attention
多尺度卷积通过构建并行或串行的多分支结构,提取图像中不同尺度的特征信息,从而增强模型对尺度变化的鲁棒性。注意力机制则借鉴人类视觉系统,引导模型聚焦于图像中的关键区域,抑制无关背景的干扰,提升特征表达的 discriminative power。
值得注意的是,多尺度卷积和注意力机制并非相互独立,而是存在着天然的互补性。多尺度特征为注意力机制提供了更丰富的信息基础,而注意力机制则可以动态地调整多尺度特征的权重,实现更精细的特征融合。因此,将两者有机结合,已成为计算机视觉领域的一个重要研究方向,并在图像分类、目标检测、语义分割等任务上取得了显著成果。
我整理了一些多尺度卷积+Attention【论文+代码】合集,需要的同学公人人人号【AI创新工场】发525自取。
论文精选
论文1:
Multi-Scale Attention Networks for Pavement Defect Detection
用于路面缺陷检测的多尺度注意力网络
方法
多尺度移动注意力网络(MANet):提出了一种基于编码器-解码器架构的多尺度移动注意力网络,用于自动检测路面缺陷。该网络以MobileNet作为骨干网络提取特征。
多尺度卷积:在深度可分离卷积层中用1×1、3×3和5×5的多尺度卷积核替代传统的3×3卷积核,扩大了卷积的感受野,丰富了特征通道信息。
混合注意力机制:在编码器和解码器模块中分别嵌入混合注意力模块,结合通道注意力(CA)和空间注意力(SA),突出重要特征,抑制无关信息。
优化的Focal Loss函数:采用增强版的Focal Loss函数替代传统的交叉熵损失函数,解决样本不平衡问题,提高模型对小目标(如裂缝)的检测性能。
创新点
多尺度卷积:通过引入多尺度卷积核,扩大了卷积的感受野,使模型能够提取更丰富的特征信息,从而提高了路面裂缝分割的准确性。在Crack500数据集上,MIoU(平均交并比)达到0.7219,比仅使用3×3卷积核的模型提升了约0.0997。
混合注意力机制:在编码器和解码器中嵌入混合注意力模块,能够更好地突出裂缝等重要特征,同时抑制背景噪声等无关信息。在CFD数据集上,MIoU达到0.7788,比未使用混合注意力机制的模型提升了约0.0557。
优化的损失函数:采用增强版的Focal Loss函数,解决了样本不平衡问题,提高了模型对小目标的检测性能。在CFD数据集上,使用EFL(增强版Focal Loss)的模型MIoU比使用CE(交叉熵)损失函数的模型提升了约0.107。
检测性能提升:在Crack500数据集上,MANet的F1分数达到0.8557,比其他先进方法(如U-Net、PSPNet等)有显著提升;在CFD数据集上,F1分数达到0.8221,OR(重叠率)达到0.7153,均优于其他方法。
论文2:
AGGN: Attention-based Glioma Grading Network with Multi-scale Feature Extraction and Multi-modal Information Fusion
AGGN:基于注意力机制的胶质瘤分级网络,具有多尺度特征提取和多模态信息融合
方法
双域注意力机制:提出了一种双域注意力机制,同时在通道和空间维度上对特征图进行加权,突出关键模态和位置信息。
多尺度特征提取模块:应用多分支卷积和池化操作,分别在每个模态上提取浅层和深层特征,以获取不同尺度的信息。
多模态信息融合模块:采用多模态信息融合模块,充分整合低层次的详细特征和高层次的语义特征,促进不同模态信息之间的协同交互。
深度学习框架:基于PyTorch框架,使用Adam优化器和交叉熵损失函数进行模型训练,通过数据增强和预处理提高模型的泛化能力。
创新点
双域注意力机制:通过通道注意力和空间注意力的结合,能够更准确地识别和定位MRI中的关键病理特征,提高模型的鲁棒性。在内部测试集上,使用双域注意力机制的AGGN模型,其准确率、召回率、F1分数和AUC分别比仅使用空间注意力或通道注意力的模型提高了2.92%、3.61%、4.23%和1.6%。
多尺度特征提取:通过多分支卷积块(MB Conv)提取不同尺度的特征,能够更好地处理不同大小的肿瘤区域,提高特征提取的准确性。与AMMFNet中的多感受野(MRF)卷积块相比,MB Conv在所有指标上均表现更优。
多模态信息融合:通过融合不同模态的特征,AGGN能够充分利用多模态MRI提供的丰富信息,提高模型的诊断性能。与AMMFNet中的信息融合方法相比,AGGN在准确率、召回率、F1分数和AUC上分别提高了3.4%、0.6%、0.3%和0.7%。
论文3:
MPARN: multi-scale path attention residual network for fault diagnosis of rotating machines
MPARN:用于旋转机械故障诊断的多尺度路径注意力残差网络
方法
多尺度扩张卷积(MDC):通过不同扩张率的扩张卷积路径,提取不同时间尺度的特征,避免了传统多尺度CNN结构在提取大时间尺度特征时参数过多的问题。
路径注意力模块(PAM):在多尺度扩张卷积层后引入路径注意力模块,为不同卷积路径的特征分配不同的权重,突出与故障相关的时间尺度特征。
多尺度注意力残差块(MARB):构建了多尺度注意力残差块结构,通过堆叠多个MARB,持续提取有意义的多尺度特征和尺度间的关系。
残差连接(RC):在MARB中使用残差连接,防止由于PAM的多次使用导致的梯度消失问题,提高网络的训练稳定性和性能。
创新点
路径注意力模块(PAM):通过比较不同路径提取的通道间的关系,为每个卷积路径计算权重,突出信息量大的时间尺度特征,抑制冗余特征。在齿轮箱数据集上,使用PAM的MPARN模型准确率比不使用PAM的模型提高了0.70%;在PMSM数据集上,准确率提高了8.77%。
多尺度特征提取能力提升:通过MDC和PAM的有效结合,MPARN能够更好地提取与故障相关的多尺度特征。在齿轮箱数据集上,MPARN的准确率达到99.48%,在PMSM数据集上,准确率达到99.49%,均优于其他比较模型。
残差连接(RC):通过引入残差连接,解决了PAM多次使用可能导致的梯度消失问题,提高了网络的训练稳定性和性能。在齿轮箱数据集上,MPARN(包含RC)的准确率比MPARN不包含RC的模型提高了0.23%;在PMSM数据集上,准确率提高了1.72%。
更多推荐
所有评论(0)