【2024医学图像异常检测文献】医学图像异常检测综述
MedIAnomaly: A comparative study of anomaly detection in medical images
MedIAnomaly: A comparative study of anomaly detection in medical images
1. Introduction
异常检测(AD)旨在检测偏离预期正常模式的异常样本。通常,它仅能通过正常数据进行训练,无需异常样本,因此在医学领域识别罕见疾病和健康筛查中发挥着重要作用。
尽管出现了许多医学AD方法,我们观察到缺乏公平和全面的评估,导致结论模糊并阻碍了该领域的发展。
为了解决这个问题,本文构建了一个基准测试,进行了统一比较。
我们策划了七个医学数据集,包含五种图像模态,包括胸部X光、脑磁共振成像(MRI)、视网膜眼底图像、皮肤镜图像和组织病理学全切片图像,用于广泛评估。
三十种典型的AD方法,包括重建和自监督学习基础方法,参与了图像级异常分类和像素级异常分割的比较。
此外,我们首次正式探索了现有方法中关键组件的效果,清晰揭示了未解决的挑战和潜在的未来方向。
2. Literature review
2.1. Reconstruction-based anomaly detection
基于重建的方法是医学AD的主要策略。这些方法通常依赖于生成模型,如生成对抗网络(GANs)、自动编码器(AEs)或其变体。如图1所示,它们训练一个重建模型仅重建正常图像,并在推理期间使用重建误差作为异常分数。潜在的假设是,仅在正常图像上训练的模型将难以准确重建未见过的异常区域,并在这些区域产生高重建误差。
我们将现有的基于重建的方法分为两组:图像重建和特征重建方法。
两者区别:
- 图像重建方法直接在图像空间中执行重建和异常得分计算。
- 特征重建方法则在特征空间中重建高级特征图,而不是图像强度。
2.1.1. Image-reconstruction
图像重建方法直接在图像空间中进行重建和异常得分计算。
这些方法通常依赖于生成模型,如生成对抗网络(GANs)和自动编码器(AEs)或其变体。
一些研究训练GANs来学习正常图像的流形,并计算重建图像和中间判别器特征的重建误差。
其他工作探索了使用自动编码器及其变体,包括变分自动编码器(VAE)、对抗自动编码器(AAE)和向量量化VAE(VQ-VAE)。
为了提高重建质量,一些研究引入了对抗训练来增强AE模型的重建质量。
还探索了不同的距离函数,如结构相似性指数度量(SSIM)和感知损失(PL),以提高图像空间的保真度和感知一致性。
然而,基于重建的AD假设模型无法重建未见过的异常区域,这个假设并不总是成立。尽管已经做出了一些努力,但这个问题仍未解决。
我们从两个不同问题的角度讨论这一点。
第一个问题是,由于模型的泛化能力,模型可以重建一些未见过的异常区域,导致假阴性。为了解决这个问题,。。。
第二个问题是,由于网络容量有限,正常区域上固有的重建误差是不可避免的,导致假阳性。为了解决这个问题,。。。
2.1.2. Feature-reconstruction
与图像重建方法不同,特征重建方法重建的是高级特征图,而不是图像强度。它们采用预训练的深度神经网络将图像映射到特征空间,在该空间中执行重建。
Shi等人(2021年)和Meissen等人(2022a)使用ImageNet(Krizhevsky等人,2012年)预训练的网络生成多尺度特征图,基于此应用重建方法。
You等人(2022b,a)主张在重建网络中存在一个“相同捷径”,并提出了一个带有逐层查询解码器和邻居掩码注意力的变换器(Vaswani等人,2017年)架构来重建输入特征。
Deng和Li(2022年)提出了将预训练编码器的多尺度特征图聚合成一个密集嵌入。以这个嵌入作为输入,训练解码器重建原始的多尺度特征图。
Guo等人(2023a)主张,使用在自然图像上预训练的冻结编码器是次优的,因为存在语义差距。他们引入了一些对比学习(Chen和He,2021年)的元素,以联合优化预训练编码器,针对目标域进行特征重建,实现特定领域的异常检测。
特征重建方法能够实现比图像重建方法更优越的性能,这可以归因于特征比图像具有更强的区分能力。
在特征空间中,异常可以从正常样本中显著偏离,阻止它们的重建。因此,图像重建方法中重建未见异常区域的问题在一定程度上被这些方法缓解了。
尽管它们有优势,特征重建方法可能会在准确定位小病变方面遇到挑战,因为在利用中间特征图时固有地丢失了低级信息。虽然具有更丰富语义信息的特征图可以突出在强度空间中可能看起来微妙的某些异常区域,但它们并没有完全保留异常区域的形状和边界等低级细节。
作为一种妥协,现有方法通常聚合来自多个中间层的特征图(Shi等人,2021年;Meissen等人,2022a;You等人,2022a;Deng和Li,2022年)。然而,在这些层的选择和深度上仍然存在偏见,这倾向于捕获特定大小的异常模式。这种偏见最终可能导致在处理复杂的现实世界场景时性能不佳。
2.2. Self-supervised learning-based anomaly detection
自监督学习(SSL)是一种学习方法,其中网络通过生成的伪标签显式地使用预文本任务进行训练。这种技术已经被广泛探索,并以不同的方式应用于各种方法中。为了提供AD的清晰分类,我们特别关注直接使用SSL来训练异常判别网络或学习与异常相关的表示的方法,并将它们归类为基于SSL的AD方法。现有的基于SSL的AD方法有两种范式:单阶段和双阶段方法,如图2所示。
supplements
自监督学习(Self-Supervised Learning,SSL)是一种无监督学习方法,它不依赖于外部提供的标签来训练模型。相反,自监督学习通过从输入数据本身生成伪标签来训练模型,这些伪标签用于指导模型学习有用的特征表示。这种方法的核心思想是利用数据的内在结构和模式来构建辅助任务,模型通过解决这些任务来学习数据的有用表示。
自监督学习(Self-Supervised Learning, SSL)中的单阶段和双阶段方法主要指的是模型训练和学习过程中的不同策略。以下是它们的主要区别:
-
单阶段自监督学习:
- 在单阶段自监督学习中,模型直接从未标记的数据中学习特征表示,不需要额外的下游任务。这种方法通常在没有特定任务的情况下进行预训练,即in a task-agnostic way。
- 单阶段自监督学习的目标是直接学习到有用的特征表示,这些特征表示可以被直接用于下游任务,如分类、检测等,而不需要额外的训练步骤。
- 这种方法的一个典型例子是使用对比学习或生成学习范式,通过构建辅助任务从未标记的数据中学习特征表示。
-
双阶段自监督学习:
- 双阶段自监督学习包括两个主要步骤:预训练和微调(Fine-tune)。在预训练阶段,模型使用无标签的数据集学习初步的特征表示,即Visual Representation。然后在微调阶段,模型使用带标签的数据集针对特定的下游任务进行进一步的训练,即in a task-specific way。
- 第一阶段不涉及任何下游任务,而是通过无标签数据集进行训练。第二阶段则涉及下游任务,并使用带标签的数据集进行Fine-tune。
- 这种方法允许模型在预训练阶段学习到通用的特征表示,然后在微调阶段适应特定的任务,这可以减少对大量标记数据的需求。
总结来说,单阶段自监督学习侧重于在一个阶段内直接学习有用的特征表示,而双阶段自监督学习则分为预训练和微调两个阶段,先学习通用的特征表示,然后针对特定任务进行调整。双阶段方法通常能够更好地适应下游任务,但需要更多的计算资源和带标签数据。单阶段方法则更加高效,但可能在特定任务上不如双阶段方法表现好。选择哪种方法取决于具体的应用场景和资源限制。
2.2.1. The one-stage approach
如图2(a)所示,单阶段方法训练一个模型来检测手动合成的异常,并直接将训练好的模型应用于检测真实异常。这种方法的原理是设计现实的伪异常,以便在这些合成异常模式上训练的模型能够很好地泛化到未见过的真正异常样本上。
2.2.2. The two-stage approach
如图2(b)所示,双阶段方法首先通过在正常训练数据上的预文本任务学习自监督表示,然后在此基础上构建单类分类器。这种方法的原理是设计使用正常训练数据的预文本任务,以学习能够区分正常和异常样本的判别表示。其中一种流行的预文本任务是对比学习。
2.2.3. Other SSL-related approaches
除了上述典型的应用之外,SSL还被设计成各种其他方式来帮助AD。
2.3. Feature reference-based anomaly detection
基于特征参考的方法进行异常检测是基于当前特征与参考特征之间的差异来进行的,这些方法在工业缺陷检测中特别流行。
这些方法可以分为两组:知识蒸馏方法和特征建模方法。
知识蒸馏方法使用当前输入的特征图,这些特征图由预训练的教师网络提取,作为参考;而特征建模方法则使用由预训练在ImageNet上的模型提取的正常训练数据的原型作为参考。具体来说,知识蒸馏方法(Bergmann等人,2020;Salehi等人,2021;Deng和Li,2022;Tien等人,2023;Zhang等人,2023)训练学生网络来回归预训练教师网络的正常特征图。预期的是,学生网络的特征图在不知道异常的情况下,会在异常区域与教师网络的特征图有所不同。这种教师和学生特征图之间的差异被设计为异常得分。
特征建模方法(Roth等人,2022;Jiang等人,2022;Lee等人,2022)利用预训练网络的中间特征来模拟正常图像补丁的局部特征,然后选择一组代表性的原型存储在记忆库中。在推理过程中,它们测量测试补丁特征与存储原型之间的距离作为异常得分。
3. Benchmark
数据集:
4. Experiments and analysis
在对医学异常检测(AD)方法进行全面评估和分析时,我们在五种不同的图像模态上评估了总共三十种异常检测方法。这种广泛的覆盖范围确保了我们结果和发现的普遍性。表5提供了我们实验中涉及的方法的总结。表6和表7分别展示了这些方法在AnoCls(图像级异常分类)和AnoSeg(像素级异常分割)上的性能。此外,对于定性分析,我们在图5中可视化了图像重建方法生成的重建图像和预测图,在图6中可视化了其他方法生成的预测图。在后续部分,我们首先分析最新技术,然后深入讨论重建和SSL方法中的重要发现。
4.1. Comparison of the state-of-the-arts
对于图像级AnoCls,我们从表6中观察到,AEPL、AE-U和FAE-SSIM通常在重建方法中实现了最佳性能。在SSL方法中,那些利用或微调ImageNet预训练权重的方法最具竞争力。值得注意的是,除了AE-U之外,大多数这些最新技术方法都以某种方式利用了ImageNet权重。这些结果证明了ImageNet权重对于医学AD的有效性,并突出了它们在通过各种方式增强AD方面的多功能性,包括距离测量(例如,AE-PL)、输入数据转换(例如,特征重建方法)和直接特征提取(例如,双阶段SSL方法)。在不使用ImageNet权重的情况下,我们注意到重建方法在图像级AnoCls中的性能优于SSL方法。
当排除ImageNet权重的使用时,最佳的SSL方法是双阶段AnatPaste。然而,这种方法在不同数据集上表现出不稳定的性能。它在LAG和BraTS2021数据集上未能胜过简单的AE,表明其对异常模式的高度敏感性。相比之下,AE-U和DAE是未使用ImageNet权重的SOTA重建方法,它们在大多数数据集上展现了稳定且有竞争力的性能。
值得注意的是,基于DDPM的方法在组织病理图像(如Camelyon16)上表现出特别高的性能。如表6所示,当不使用ImageNet权重时,大多数基于AE或GAN的方法在Camelyon16上都无法工作。只有AE-U和DAE实现了超过51%的AUC。相反,像AutoDDPM和AnoDDPMSimplex这样的基于DDPM的方法在Camelyon16上分别取得了80.7%和70.6%的显著AUC,远远超过其他方法。这种现象可以归因于组织病理图像中的异常与细胞形态学的密切关系。因此,具有强大重建能力(例如,DAE、AnoDDPMSimplex和AutoDDPM)或特征提取能力(例如,AE-PL、FAE和ReContrast)的模型是理想的,可以修复图像空间的形态变化或识别特征空间的偏差。这一假设在图4和表6中得到了支持。
对于像素级AnoSeg,重建方法显著优于SSL方法。如表7所示,简单的AE在BraTS2021的分割指标上超越了所有SSL单阶段分割方法。这可以归因于通过合成数据分割训练的SSL方法依赖于合成异常模式与真实异常之间的相似性。当这些区域在外观上与合成异常有显著差异时,它们在识别真实异常区域时会遇到困难。因此,它们在此类数据集上的性能会下降。这一点将在4.3.1节中进一步讨论。
最佳的AnoSeg性能由DAE实现,超过了第二名方法10%以上的⌈Dice⌉。这种卓越的性能可以归因于定制的UNet架构和提出的自监督去噪任务之间的协同作用。这种合作使得模型能够精心重建健康区域,同时有效地消除疾病区域。具体来说,配备跳跃连接的UNet保留了正常细节以实现高质量的重建。然而,跳跃连接无意中将输入中的异常信息引入重建中,导致假阴性(Mao等人,2020)。DAE中的去噪任务有效地缓解了UNet的这一缺点。它优化了模型以生成输入图像的清洁版本,该版本已被粗噪声破坏。因此,模型被鼓励修复输入图像中的损坏内容,例如异常,有助于生成伪健康重建。
4.2. Analysis of reconstruction methods
4.2.1. Effects of network architectures in AE
虽然一些论文已经对自动编码器(AE)中某些方面的网络架构进行了分析,但这些分析仍然不完整。例如,Berceau等人(2023b)证明了增加AE的层深度倾向于学习数据分布,从而导致模糊的重建。然而,他们的分析主要集中在重建质量上,而不是对异常检测(AD)性能的影响。此外,实验通常限于单一图像模态,可能限制了结论的普遍性。此外,一些关键配置的影响,如网络宽度和输入大小,尚未被研究。作为补充,我们的目标是基于我们在不同数据集上的广泛实验,全面分析AE架构对AD性能的影响。具体来说,我们使用不同输入大小H × W、块深度D和基本宽度C0的AE进行了实验。它们的计算成本,以网络参数数量和FLOPs(浮点运算次数)表示,总结在表8中,而这些架构在收集的数据集上的性能分别展示在表9、10和11中。
令人惊讶的是,我们从表9中观察到,使用64 × 64的输入大小与使用更大的输入大小(如128 × 128)相比,实现了相当可比的性能。这些结果表明,当前用于AD的AE架构可能不足以利用高分辨率图像中的细节,即使在潜在大小增加以保持一致的压缩率时也是如此。因此,当前方法中通常所做的使用更高分辨率对于当前AE架构可能是不必要的。探索增强AEs捕捉更精细细节的能力以用于AD成为一个值得深思的问题。
总体而言,这些实验结果表明,当前用于医学AD的AE架构并不从大分辨率或大型网络中受益。这种对基于重建的AD的观点表明,增加模型的复杂性可能是不必要的。因此,它自然引发了一个问题,即重建方法如何有效地用于AD。这个问题将在下面的4.2.2节中进一步讨论。
4.2.2. Effects of latent space restrictions in AE
基于重建的 AD 方法AE将输入数据映射到一个压缩的潜在空间中,然后相应地重构输入。潜在空间作为信息瓶颈,潜在地阻碍了异常信息的传播,从而阻碍了异常信息的重建。尽管之前的方法已经结合了各种形式的潜在空间限制,例如变分自动编码器(VAE)中的KL散度或MemAE中的记忆模块,但这些研究并没有系统地比较和分析这些策略的效果。此外,最简单的潜在空间限制方法——潜在维度缩减——尚未被探索。为了解决这些问题,我们明确地研究了在潜在空间上施加不同限制的效果,使用我们策划的数据集进行实验。这一研究旨在检验它们的效果,并揭示基于AE的方法的基本原理。
首先,我们讨论潜在维度缩减。表12中的结果表明,对于包含局部区域异常的数据集(如第3.1.4节中提到的RSNA、VinDr-CXR、Brain Tumor、LAG和BraTS2021数据集),一个非常紧凑的潜在尺寸(例如4-32)可以显著提高评估指标。例如,将潜在尺寸从128减少到4在RSNA数据集上提高了12.4%的AUC和10.0%的AP,在VinDr-CXR数据集上提高了12.7%的AUC和12.2%的AP,在LAG数据集上提高了7.3%的AUC和6.9%的AP。在脑MRI模态的情况下,特别是Brain Tumor和BraTS2021数据集,观察到类似的趋势,尽管最优潜在尺寸分别大约为32和16。
基于这些结果,我们得出两个主要结论。首先,为了检测局部异常,重建网络中足够狭窄的瓶颈更受青睐,以防止异常重建。如第3.1.4节所述,具有局部异常的异常样本与正常样本相比,在某些区域表现出意外的变体,同时仍然保留了大部分正常区域。一个适当紧凑的潜在尺寸允许AE表示正常变化,并限制其泛化能力,使其无法表示异常变化。如果潜在尺寸过大,AE可能表现出对未见异常变化的不希望的泛化,导致假阴性。
其次,最优潜在尺寸因数据集而异,其中正常数据表现出更多变化(即信息更丰富)的数据集倾向于偏好更大的潜在尺寸。如上所述,MRI数据集的最优潜在尺寸比其他数据集大。这种差异可以归因于MRI提供的信息内容比2D扫描更多。MRI是体积扫描,捕捉详细的组织信息,表现出健康个体之间的更大变化,并包含轴向切片之间的变化。这些特征使MRI数据集超越了其他数据集的信息内容,需要更大的潜在尺寸来充分表示它们。
一个意外的结果是ISIC2018数据集的性能。如表12所示,与上述偏好较小潜在尺寸的数据集相反,ISIC2018随着潜在尺寸的增加而表现出改善的性能。这一现象的潜在原因是ISIC2018包含与正常数据完全不同类别的全局语义异常。与主要涉及区域意外变化的图像不同,ISIC2018中的异常图像引入了与正常样本完全不重叠的全新主题类别。这些样本相对远离分布(OOD)。因此,增加潜在尺寸可能对使网络泛化到这些远OOD样本无效,但仍然有助于正常样本的重建。这一结果使得ISIC2018数据集从大潜在尺寸中受益。然而,Camelyon16,另一个包含全局异常的数据集,由于难度太大,任何潜在尺寸的AE都未能成功。因此,我们不能从Camelyon16的实验中得出结论性证据来验证基于ISIC2018数据集实验的假设。全局语义异常的特性仍需进一步探索。
此外,我们探索了空间潜在尺寸的性能,其中瓶颈包括1×1卷积层而不是平坦化和全连接层。这允许潜在代码保留空间形状,例如z ∈ R1×4×4或z ∈ R2×4×4。我们观察到,尽管空间AE显著减少了与密集AE相比的参数数量,但在某些数据集上性能可能会下降。具体来说,具有z ∈ R16的密集AE和具有z ∈ R1×4×4的空间AE具有相同数量的潜在变量。然而,密集AE(z ∈ R16)有2.35M参数,而空间AE(z ∈ R1×4×4)只有0.22M参数。在性能方面,空间版本在Brain Tumor和LAG数据集上遭受了显著下降。这一现象可以归因于空间瓶颈对不同区域的压缩程度一致,而不考虑这些区域中存在的不同信息量。
除了最简单的潜在维度缩减之外,还有其他流行的设计以各种方式限制潜在空间,例如VAE、Constrained AE和MemAE。然而,我们从表6中观察到,与潜在维度缩减相比,这些现有的限制潜在空间的方法并没有表现出更优越的性能。可能的原因是VAE从学习到的分布中对潜在代码进行采样,而不是使用确定性向量,使得重建变得不确定,而Constrained AE没有明确限制潜在空间。
MemAE(Gong等人,2019)的意外失败,尽管它在各种自然图像上取得了成功,引发了疑问。MemAE引入了一个记忆库来存储正常潜在特征的原型,并在训练期间使用这些原型的组合来替换输入的潜在特征。它假设正常和异常特征之间存在明显差异,旨在使异常输入无法使用正常原型的组合进行重建。然而,这种假设并不一定有效,因为AE的固有特性。因此,我们将MemAE的失败归因于医学图像中正常和异常潜在特征的不可分离性。为了支持我们的论点,我们在图7中可视化了从AE获得的正常和异常医学图像的潜在特征,并展示了在这些特征上构建的OC-SVM的性能。结果清楚地表明,这些特征混合在一起,无法通过OC-SVM分离。这一发现与MemAE的基本假设相矛盾,并为我们的论点提供了支持,最终解释了MemAE在医学场景中的失败。
4.2.3. Effects of distance functions for the reconstruction error in AE
除了最基本的ℓ2和ℓ1距离(Baur等人,2021),各种距离函数已被探索用于测量重建误差以进行异常检测(Bergmann等人,2018;Behrendt等人,2024b;Shvetsova等人,2021;Berceau等人,2023c)。例如,Bergmann等人(2018);Behrendt等人(2024b)采用了结构相似性指数(SSIM)(Wang等人,2004),而Shvetsova等人(2021);Berceau等人(2023c)使用了感知损失(PL)(Johnson等人,2016)。然而,这些研究将特定的距离函数与其他方法设计结合起来,并没有明确比较不同距离函数在各种类型图像上的效果。因此,不同距离函数的特性以及选择最适合重建基础AD的距离函数的原则仍然不清楚。为了解决这些问题,我们明确地研究了这些距离函数的效果,通过使用相同的AE架构,但采用不同的重建误差函数。AE(ℓ2)、AE-ℓ1、AE-SSIM和AE-PL的性能在表6和表7中展示。
令人惊讶的是,我们观察到距离函数对重建基础AD的性能有显著影响。虽然标准的ℓ2和ℓ1损失在大多数数据集上表现出相当的性能,但SSIM和PL损失呈现出显著的结果。具体来说,用SSIM替换默认的ℓ2损失在RSNA数据集上提高了超过10%的AUC,而在VinDr-CXR上表现稍差,而在LAG数据集上AUC下降了超过10%。值得注意的是,AE-PL在六个数据集上展现出最佳或相当的性能:RSNA、VinDr-CXR、Brain Tumor、LAG、Camelyon16和BraTS2021,超过ℓ2版本在某些数据集上超过20%的AUC。然而,它在ISIC2018上的表现比ℓ2损失差。这些观察表明,用于测量重建误差的距离函数在重建基础AD中扮演着重要角色,并且它们的性能与数据集中存在的异常模式密切相关。因此,开发一个合适的距离函数来测量不同场景中的重建误差是一个有前景的方向。
4.2.4. Effects of the gradient strategy in AE
在比较使用基于梯度的异常分数的AE骨干网络的方法,例如AE-Grad和VAE-Gradrec,与使用原始重建误差的方法,即AE和VAE时,我们观察到梯度基分数通常比原始重建误差表现得稍微好一些。这一发现可能启发我们将全局信息聚合成标量,并使用输入相对于梯度的策略作为预测图。然而,VAE-Gradcombi,它结合了KL项,表现得比VAE-Gradrec差。这引发了一个问题,即如何通过梯度策略正确地利用额外信息作为对重建误差的补充。
4.2.5. Effects of noise types in DDPM
当前基于DDPM(Denoising Diffusion Probabilistic Models,去噪扩散概率模型)的异常检测方法依赖于在扩散过程中添加噪声来破坏异常区域,从而促进伪健康重建。Wyatt等人(2022)展示了他们提出的Simplex噪声在破坏异常区域方面优于DDPM中使用的原始高斯噪声,并在脑MRI上展示了更好的性能。在我们的实验中,我们评估了配备这两种噪声类型的AnoDDPM(Wyatt等人,2022)在更广泛数据集上的性能。我们的发现与他们的结论一致,并提供了DDPM基于异常检测方法由于依赖噪声而固有的局限性的额外见解。
表7显示,AnoDDPMSimplex在大多数数据集上优于其高斯噪声对应物,特别是在BraTS2021上,它实现了超过30%的⌈Dice⌉的显著差距。图5中提供的可视化证据表明,AnoDDPMSimplex成功地修复了胸部X光和脑MRI中的大多数异常区域,而AnoDDPMGaussian重建了许多不希望的病变。这些发现确立了Simplex噪声在各种图像模态中破坏异常区域的优越性。
然而,DDPM基于方法在LAG和ISIC2018数据集上的性能揭示了这些方法的局限性。在这两种情况下,普通的AE都优于基于DDPM的方法。潜在的原因是DDPM基于方法严重依赖于所使用的噪声类型与异常模式之间的相似性,以确保在扩散过程中破坏异常区域。这一特性引入了强烈的偏差,使得这些方法不适用于与噪声类型差异较大的异常。尽管试图通过集成健康上下文到修复过程中,如AutoDDPM(Berceau等人,2023a)中所做的那样,LAG和ISIC2018数据集上的性能仍然不如普通AE。因此,这一未解决的问题限制了基于DDPM的方法在异常检测中的普遍性,使它们比基于AE的方法的适用性更有限。
4.2.6. Reconstruction quality and AD performance
之前,Baur等人(2021)展示了重建质量与脑MRI的AnoSeg性能之间存在相对弱的相关性。他们观察到,在某些情况下,随着重建误差的增加(即重建质量的下降),AnoSeg性能实际上得到了改善。基于他们的发现,我们在更广泛的数据集和方法上进行实验,扩展了他们的结论,并为某些数据集提供了进一步的见解。
扩展Baur等人(2021)的结论,我们展示了重建质量与AD性能之间的关系不仅适用于脑MRI,还适用于其他模态,如胸部X光、视网膜眼底图像和皮肤镜图像。支持这一结论的一个突出例子是AnoDDPMGaussian与AE-PL之间的比较。如图5所示,AnoDDPMGaussian在所有数据集上实现了最高的重建质量,有效地保留了正常和异常区域。然而,如表6和表7所强调的,AnoDDPMGaussian的整体性能最差。这可以归因于高斯噪声在破坏低频异常区域方面的无效性,导致它们与正常区域一起被良好重建。相反,尽管AE-PL产生了视觉上“有缺陷”的重建,但在大多数数据集上展现了竞争力的性能。潜在原因是感知损失有助于在特征空间中检测异常区域。因此,重点放在捕捉高级语义信息上,而不是强度重建。
虽然我们的结果加强了Baur等人(2021)的结论,即高重建质量通常是不必要的,但我们也揭示了一个补充发现,即对于检测特定异常模式(如Camelyon16中的肿瘤细胞)时,高重建质量可能是有益的。结合表6和图5,我们观察到,除了利用ImageNet权重的方法之外,在Camelyon16上表现最好的三个方法是AutoDDPM、AnoDDPMSimplex和DAE。值得注意的是,这些方法也产生了高质量的重建。我们将其归因于组织病理图像中独特的异常模式,其中肿瘤细胞与正常细胞相比表现出意外的形态变化。为了有效地识别这些与细胞形态学相关的异常,高重建质量在图像空间中被证明是有益的。
4.3. Analysis of SSL methods
4.3.1. Methods without ImageNet weights
没有使用ImageNet权重的SSL方法主要依赖于在合成数据上的训练。从它们的结果中,我们可以得出两个重要结论。
首先,比较具有相同阶段数的方法,我们得出结论:更真实的合成异常通常会导致SSL基方法中更好的性能。例如,AnatPaste(Sato等人,2023)专门为胸部X光设计,比CutPaste生成更真实的肺部病变。因此,在两阶段范式中,AnatPaste在两个胸部X光数据集上都优于CutPaste,RSNA数据集上提高了20.2%的AUC和17.1%的AP,VinDr-CXR数据集上提高了14.0%的AUC和13.3%的AP。在单阶段分类范式中,也观察到类似的趋势,AnatPaste在RSNA和VinDr-CXR数据集上优于CutPaste。此外,在单阶段分割模式中,NSA(Schlütter等人,2022)和PII(Tan等人,2021)使用泊松图像编辑合成更真实的异常,因此一致性地优于CutPaste和FPI在所有数据集上的表现。
其次,比较使用相同异常合成方法的单阶段和双阶段范式,我们得出结论:在SSL基AD中,双阶段范式通常优于单阶段范式。具体来说,异常合成方法可以用于这两种范式。虽然这两种范式共享一个训练过程,即对正常和合成数据进行分类,但双阶段范式有一个额外的过程,即移除投影头并在学习到的表示上构建高斯密度估计器。结果表明,当使用AnatPaste进行自监督训练时,双阶段范式在四个数据集上优于单阶段分类范式:RSNA数据集上提高了11.5%的AUC和15.2%的AP,VinDr-CXR数据集上提高了5.3%的AUC和10%的AP,Brain Tumor数据集上提高了16.0%的AUC和24.0%的AP,LAG数据集上提高了3.9%的AUC和0.2%的AP。当使用CutPaste或CutPaste-3way时,也出现了一致的趋势。
为了解释结果,我们对通过AnatPaste和CutPaste学习到的表示进行了t-SNE可视化。为了验证真实合成的有效性,我们比较了这两种典型合成方法的可视化。如图8(a)所示,通过CutPaste训练的模型可以轻松区分正常数据和不真实的CutPaste样本。然而,由于真实异常和合成样本之间的显著差异,该模型难以区分真实异常和正常数据。相反,图8(b)表明,训练在真实合成数据上的模型可以通过利用分类训练自然识别真实异常。这一观察强调了合成数据真实性的重要性。
此外,为了理解双阶段范式的优越性,让我们考虑图8(a)中提供的例子。可视化突出显示,尽管在不真实合成数据上训练的分类器未能识别真实异常,但训练过程使模型能够有效地区分正常和异常样本的特征。因此,双阶段范式,它移除了分类头并利用学习到的表示,优于单阶段范式,后者直接使用性能不佳的分类头。
4.3.2. Methods with ImageNet weights
大多数基于自监督学习(SSL)的异常检测(AD)方法,如果利用了ImageNet权重,最初是为工业场景开发的(Li等人,2021;Reiss等人,2021;Reiss和Hoshen,2023)。尽管一些研究已经利用ImageNet权重进行医学AD(Sato等人,2023;Lagogiannis等人,2023),它们主要只是用于模型初始化。因此,ImageNet权重本身在医学AD中的性能仍然不清楚,可能导致对它们效用的误解。为了明确评估ImageNet权重在医学AD中的性能,并评估相关SSL方法的有效性,我们不仅对现有方法进行了评估,还对没有特殊设计的原始ImageNet预训练的ResNet18和ResNet152特征提取器进行了评估。这使我们能够揭示ImageNet权重在医学AD中的真正影响,并阐明现有方法的有效性。
令人惊讶的是,我们从表6中观察到,直接使用固定的ImageNet预训练网络提取表示用于单类分类器,超过了大多数包含更复杂训练过程的现有SSL方法。具体来说,两阶段模式下使用的ImageNet预训练的ResNet18,在几乎所有数据集上都取得了前三名的性能。这一发现突出了ImageNet权重在医学AD中的有效性,这一点尚未得到足够的关注和探索。虽然一些方法,如PANDA(Reiss等人,2021)和MSC(Reiss和Hoshen,2023),试图适应ImageNet权重进行AD,但实验结果表明,与直接使用这些权重相比,它们并没有显著提高性能。因此,适应强大的ImageNet权重进行医学AD仍然是一个有前景但未解决的问题。
5. Challenges and future directions
5.1. Latent space configuration of AE
潜在空间是重建基础异常检测中的核心组件,对潜在维度的简单调整被证明是控制潜在空间并实现满意性能的最有效手段。不幸的是,现有的方法仍然依赖于测试结果来找到最优配置,留下了如何为不同数据集调整潜在空间到其最优状态的问题未解决。最近,Cai等人(2024)利用信息论揭示,最优潜在空间的熵应该与正常数据的熵对齐。然而,他们没有开发出明确测量这一熵的方法。为了应对这一挑战,一个有前景的方向是量化正常训练数据的信息熵,并开发自适应方法,动态限制潜在空间接近不同数据集上正常数据的熵。这种方法将能够确定基于AE的AD方法理论上最优解。
5.2. Distance function for measuring reconstruction error
第4.2.3节强调了距离函数在测量重建基础异常检测中的重建误差方面的重要性。尽管一些距离函数,如感知损失(AE-PL),表现出显著的性能,但没有任何一种能够超越所有七个数据集上的基线AE-ℓ2。例如,强大的AE-PL在某些数据集上比AE-ℓ2的AUC高出20%以上,但在ISIC2018上的表现比AE-ℓ2低6.1%。这些观察表明,设计一个有效的距离函数来测量重建误差仍然是一个挑战,这在文献中没有得到充分的研究。
基于这些发现,一个基本问题出现了:一个好的距离函数应该是怎样的?为了回答这个问题,我们比较了不同距离函数的重建保真度,并参考了表6和表7中的指标。从视觉角度看,AE-SSIM产生了高质量的重建,保留了更多的细节,与其他方法相比。相比之下,AE-PL产生的重建在视觉上明显失真。然而,AE-PL在六个数据集上的指标上比AE-SSIM高出很多,无论是AnoCls还是AnoSeg。这表明,一个好的距离函数可能是违反直觉的。因此,最好是通过深度学习自动学习距离函数,而不是依赖手动设计。
通过深度学习训练距离函数(相似性度量)的概念最初是为多模态医学图像配准提出的。由于组织外观的高变异性,传统度量通常难以测量不同成像模态之间的相似性。Simonovsky等人(2016)通过训练网络使用构建的图像对来测量相似性,解决了这一挑战。类似地,在异常检测中,某些重建误差与异常无关,可以归因于模型容量有限。这些误差在计算输入和重建之间的距离时,理想情况下应该被忽略,只强调突出异常区域。受到配准中深度相似度度量的启发,我们相信有可能训练一个相似度网络,自动测量与异常相关的重建误差。这个网络可以针对正常训练集生成的合成图像对进行训练,考虑到数据特性。追求这个方向可能会导致开发出一种强大的距离函数,能够有效地测量不同数据集和不同图像模态的重建误差。
5.3. Utilization of ImageNet pre-trained weights
如表6和表7所示,无论是基于重建的方法还是基于自监督学习的方法,大多数最先进的异常检测方法都广泛利用了ImageNet预训练权重。尽管这些方法表现出了竞争力,但ImageNet权重的应用形式多样,包括距离测量(例如AE-PL)、输入数据转换(例如特征重建方法)和直接特征提取(例如两阶段SSL方法)。这些成功的应用突显了ImageNet权重在识别正常和异常模式方面的强大能力,为从不同角度推进AD提供了灵感。
ImageNet权重在距离测量中的有效利用表明,在基于重建的AD中,更希望测量语义差异而不是低级别的强度差异。这与Meissen等人(2022b)的发现一致,他们指出,由于正常区域的内在误差,残差误差本身不能可靠地识别具有中等像素强度的异常区域。ImageNet权重在输入数据转换中的应用表明,使用特征图增强异常区域的显著性是可行的。如图4所示,医学异常区域通常表现出微妙和无缝的特征,这可能解释了为什么AD在医学场景中的表现比工业场景中低。在这种情况下,增强这些异常的显著性变得至关重要。最后,直接使用ImageNet权重进行特征提取突显了它们在AD中的区分能力,激发了进一步适应以提高性能的动力。
尽管ImageNet权重已在多种情况下得到有效应用,重要的是要强调它们在特征参考方法中的应用,如知识蒸馏和特征建模方法,在工业AD中特别流行,但不适合医学AD。如表13所示,这些方法在医学图像中的表现不如表6中利用ImageNet权重的其他策略。这一观察促使我们重新考虑如何加强这些在工业AD中常用的策略,并有效地适应医学领域。
此外,由于自然图像和医学图像之间的差距,ImageNet预训练权重肯定是次优的,因此在目标数据集上进行微调是一个有前景的方向。尽管Reiss等人(2021)和Reiss和Hoshen(2023)分别尝试通过PANDA和MSC研究这一点,但表6和表7中的实验表明,这些方法并没有实现令人满意的改进。因此,如何在目标数据集上对预训练特征进行微调仍然是一个未解决的问题。
同时,随着最近视觉语言模型(VLMs)的快速发展,探索利用这些强大的预训练模型进行AD的新可能性是一个值得努力的方向(Sun等人,2024)。
5.4. Special settings for anomaly detection
除了传统的单类分类(OCC)设置,即仅使用正常训练数据进行异常检测(AD),最近的工作越来越关注更具有挑战性和实际意义的AD设置,这些设置更接近真实世界场景。
单类半监督设置使用正常数据和未标记数据(可能包含一些异常)进行训练。在这个设置中,一个典型的想法是使用两个模块来学习数据分布:一个仅在正常数据上训练,而另一个在正常和未标记数据上训练(Cai等人,2022, 2023a; Bozorgtabar等人,2023)。这些方法利用两个模块之间的重建差异来识别异常。其他方法(Siddiquee等人,2024; Zhang等人,2024)训练基于GAN的模型来消除未标记数据中的潜在疾病,为正常和未标记输入生成健康的重建。然后,重建误差被用作异常得分。
值得注意的是,各种罕见疾病的存在使得将所有类型的异常纳入未标记训练集变得具有挑战性。换句话说,测试集可能包含许多在未标记训练集中从未出现过的未见异常类型。这种不匹配已经被Oliver等人(2018)证明会导致传统半监督学习方法的性能显著下降。为了解决这一挑战,已经提出了各种方法。例如,Cai等人(2022, 2023a)使用了额外的模块来捕获正常和未标记训练数据的分布,作为规范模块的补充。这个模块作为补充,增强了识别未标记训练数据中出现的异常的能力,而不影响识别未见异常的能力。Siddiquee等人(2024)利用未标记训练数据帮助模型生成伪健康重建,而不是识别已见异常,从而增强了对未见异常的泛化能力。
虽然这些方法利用现成的未标记数据协助AD,但仍需要足够数量的正常样本来训练模型。因此,探索使用更少的数据训练有效模型的技术将进一步增强其在临床实践中的应用性。
少样本/零样本设置使用极少或没有来自目标数据集的样本进行AD方法的训练。这种设置在工业缺陷检测中受到了广泛关注(Huang等人,2022; Xie等人,2023; Chen等人,2023)。最近,随着视觉语言模型(VLMs)的快速发展,这些模型已被广泛用于少样本/零样本设置(Jeong等人,2023; Huang等人,2024; Zhou等人,2023; Li等人,2024)。与单类和单类半监督设置相比,这种设置减少了对大量正常训练数据的需求,使得模型能够快速部署到全新的场景中。然而,少样本/零样本设置在医学领域尚未得到广泛探索,且现有方法在医学数据上的表现并不令人满意,如表14所示。与自然工业图像相比,医学图像具有更复杂的变化,为开发这种设置下的AD方法带来了额外的挑战。解决这些挑战仍然是未来研究的一个关键领域。
5.5. 3D anomaly detection
与大多数医学图像中的异常检测(AD)方法类似,我们的分析依赖于利用二维信息。即使在处理三维体积扫描,如MRI时,常见的方法是提取轴向切片,并将它们作为二维图像进行分析。然而,这种策略忽略了轴向上的关键信息,导致在体积医学图像的AD性能上不是最优的。
先前的一些工作已经探索了体积医学图像上的AD。一种常见的策略是直接将二维方法适应到三维领域,用三维层替换网络中的二维层。例如,Simarro Viana等人(2020)开发了f-AnoGAN的三维版本。Cho等人(2021)和Marimont和Tarroni(2023)将单阶段基于SSL的AD方法适应于体积CT扫描或MRI。认识到三维网络常常由于内存限制而遇到深度限制,Kang和Park(2022)提出了联合嵌入,通过在嵌入空间中对齐它们的表示,结合了二维和三维网络的优势。此外,Naval Marimont和Tarroni(2021)引入了隐式场学习方法(Park等人,2019)基于体积的潜在变量和体素的空间坐标来重建体素强度。
虽然在医学图像上探索三维AD开辟了新的途径,但这仍然是一个需要进一步研究的领域。缺乏同时支持二维和三维AD的医学数据集,为比较二维和三维方法的性能带来了挑战。此外,三维网络的内存限制限制了它们的网络设计,以实现有效的特征提取。未来的研究应该优先解决这些问题,并发展解决方案以推进该领域的发展。
6. Conclusion
🐂🐎。。。
更多推荐
所有评论(0)