A Noise and Edge extraction-based dual-branch method for Shallowfake and Deepfake Localization
先进的图像伪造定位(IML)技术越来越多地用来评价多媒体的可信度,从而导致了IML领域的出现。一个有效的伪造模型需要利用伪影来提取被操作部分和合法部分之间的非语义差异特征。这就需要对这两个地区进行直接比较。目前的模型要么采用基于手工特征的特征方法,要么采用卷积神经网络(cnn),要么采用两者结合的混合方法。手工特征方法预先假定篡改,因此限制了其处理各种篡改过程的有效性,但cnn捕获的语义信息不足以
arXiv' 2024
paper: https://arxiv.org/pdf/2409.00896
code:
Abstract
先进的图像伪造定位(IML)技术越来越多地用来评价多媒体的可信度,从而导致了IML领域的出现。一个有效的伪造模型需要利用伪影来提取被操作部分和合法部分之间的非语义差异特征。这就需要对这两个地区进行直接比较。目前的模型要么采用基于手工特征的特征方法,要么采用卷积神经网络(cnn),要么采用两者结合的混合方法。手工特征方法预先假定篡改,因此限制了其处理各种篡改过程的有效性,但cnn捕获的语义信息不足以处理操作伪影。为了解决这些限制,我们开发了一个双分支模型,将人工设计的特征噪声与传统的CNN特征集成在一起。该模型采用双分支策略,其中一个分支集成噪声特征,另一个分支使用分层ConvNext模块集成RGB特征。此外,该模型利用边缘监督损失获取边界操作信息,实现边缘精确定位。此外,该体系结构利用特性增强模块来优化和细化属性的表示。浅层伪造数据集(CASIA, COVERAGE, COLUMBIA, NIST16)和深度伪造数据集 Faceforensics++ (FF++)经过了彻底的测试,证明了它们出色的特征提取能力以及与其他基线模型相比的优越性能。AUC得分达到了惊人的99%。相比之下,该模型具有优势,并且轻松优于现有的最先进(SoTA)模型。
关键词:边缘监督,噪声不一致性,操作定位,图像伪造,深度伪造定位
1 Introduction
计算机图形学和深度学习的进步为个人提供了生成欺骗性视觉效果的增强能力。由于先进的可编辑人工智能工具的进步,现在可以毫不费力地修改多媒体数据,以创建极其逼真的内容。被操纵的媒体可能造成重大伤害,包括具体损害、心理困扰和身体痛苦。有欺诈行为的个人可以利用该技术非法获取有价值的东西,意图造成损害[1]。遵循传统方法的图像编辑工具或基于图形的程序通常被称为“shallow fakes(浅层伪造)”[2]。浅层伪造已经有所改变,但还没有达到“深度伪造”的程度或复杂程度。深度伪造指的是基于深度学习的方法。Deepfake因其能够非常轻松地生成非常逼真和令人信服的内容而获得了极大的兴趣。随着先进技术的进步,需要更复杂的图像伪造定位方法来处理现有的伪造图像并降低安全风险。定位挑战的目标是以像素级精度检测和描绘图像中的变化区域。浅层伪造涉及三种不同形式的图像处理。浅层伪造可分为三类[2](图1):
1) 拼接:复制图像的一部分并将其转移到另一个图像中。
2) Copy-move:复制图像的特定部分。
3)去除:去除图像的部分或从图像中去除一个对象。
此外,Deepfake可以分为三个不同的类别:
1)换脸:将一个人的脸从一个图像或画面转移到另一个图像或画面的行为。
2)面部再现:它涉及将面部表情或动作从一个源转移到目标。
3)完整图像合成:使用先进的人工智能技术生成完整图像。
手工制作的基于特征的方法通常在存在特定操作伪影的假设下运行。他们的目标是通过检查彩色滤光片阵列(CFA)[3][4]、照明[5]、光响应非均匀性噪声(PRNU)[6]、JPEG图像中的压缩伪影[7]、纹理单元[8]中的区域不一致性来检测伪造。然而,这些解决方案预设了篡改的先验知识,因此限制了它们在许多情况下的有效性。深度学习方法,特别是cnn倾向于获取上下文(语义)信息,并采用先进的策略来检测图像伪造[9][10][11],并利用它们[12]。卷积神经网络基于局部信息,关注周围区域之间的关系。然而,它们可能无法捕捉到图像不同部分之间的全局交互。伪影是难以察觉的低级特征的差异,如噪音或高频,肉眼无法识别,但仔细检查[13]却很明显。因此,根据先前的研究,伪造任务的关键方面是识别与语义无关的微小差异和可见证据,以检测伪影。手工制作的特征是有限的,因为它们预先假定了篡改的种类,并且可能无法检测到其他类型的篡改。另一方面,卷积神经网络(cnn)学习语义特征并分析附近伪影之间的联系,但仅凭这一点还不足以学习操作伪影。
为了克服这些限制,我们创建了一个双分支模型,利用手工制作的特征,例如一个分支上的RGB信息和另一个分支上的噪声不一致,并使用边缘监督和ConvNext的分层结构。
论文的贡献总结如下:
•开发了一种创新的双分支结构,该结构使用ConvNext的分层结构在一个分支中使用RGB数据,在另一个分支中使用噪声特征,并通过特征增强模块改进特征。该模型还利用边缘监督来提高边缘操作的定位。
•在浅层伪造数据集上进行实验,浅层伪造数据集包括NIST16、Coverage、Columbia和CASIA数据集,以及深度伪造数据集Faceforensics++。结果表明,FF++模型的判别能力优于其他模型。
•进行定性分析,以直观地检查模型的定位结果,并将其与最先进(SOTA)模型的可视化结果进行比较。
•进行消融研究以研究整体模型中各组成部分的重要性。
2 Related Work
图像定位方法(IML)根据特征表示可以分为两大类:手工特征和基于深度学习的方法。
本节将探讨这两个类别。
2.1 Handcrafted features
基于手工特征的解决方案传统上对真实图像进行建模,揭示像素之间的统计关系,捕捉图像处理过程造成的统计变化。例如,将图像隐写分析中常用的空间丰富模型(SRM)[14]扩展到[15]中,以获得基于残差的特征,用于多维高斯模型和SVM分类器检测和定位图像伪造。然而,修改图像将不可避免地导致其视觉元素的修改,这可能被局部图像描述用来识别伪造版本。为了识别图像拼接引起的变化,[5]结合了从各种局部描述中获得的统计数据,分析了纹理、照明、形状和颜色特征。图像改变会影响图像的非语义特征,并导致低级特征,如噪声不一致。研究者对这些特征进行了进一步的探索,以获得更有效的判别特征。Zhang等人[16]利用约束卷积模型的增强版本来提取噪声特征,这些噪声特征作为更细微的操作指标。然后将这些特征输入到双分支架构中,以进行额外的特征学习。然而,当遭受JPEG压缩和高斯模糊时,这些噪声特征表现出不一致和恢复力。
Li等人[17]在四元数离散余弦变换(QDCT)域中使用基于马尔可夫的方法。该方法扩展了在QDCT频域中发现的马尔可夫转移概率特征,以揭示相邻像素之间的互连。然而,该技术仅限于彩色照片,由于不同的压缩模糊实例,其有效性是不确定的。手工制作的特征假设可以在某些特定操作伪影中观察到隐藏的操作特征,并且采用专门用于捕获这些伪影的技术将产生更好的结果。然而,这些方法应用于广泛情况的能力有限,而且它们缺乏处理多种伪造操作所需的强度。
2.2 Deep learning-based method
深度学习算法可以自主训练和优化特征表示,用于伪造取证。这与传统技术不同,传统技术依赖于繁琐的特征工程过程来手动构建特征。Wu等人[11]提出了一种称为Mantra-Net的方法,用于定位和检测广义图像伪造(IFLD)。该系统能够检测图像中的特定不规则性,这可以表明存在被伪造的像素。它提供了一种全面的方法来检测不同类型的伪造。它们消除了对预处理和/或后处理的需要。然而,该模型在处理多重伪造和具有强相关噪声的图像方面的能力有限。Cozzolino等人[18]提出了一种改进的初始化方法,并采用Siamese网络进行拼接定位和检测。在Noiseprint中使用Siamese网络可以通过分析噪声残留来检测和识别相机模型伪影,从而帮助定位伪造行为[18]。
图像伪造检测领域的一个重要障碍是识别出能够区分真实图像和伪造图像的独特和适应性特征,而不会对真实图像产生假警报,同时能够在新的和不熟悉的数据中检测到伪造。Chen等[19]在他们的研究中,作者采用多尺度监督和多视角特征学习来解决这两个问题。前一种方法旨在获得不依赖于特定含义的特征,因此可以更广泛地应用。这是通过分析篡改区域周围的边界伪影和噪声分布来实现的。后者允许我们从真实图像中获取知识,这些图像对于当前基于语义分割网络的方法来说过于复杂。该模型在跨数据集场景中表现出卓越的性能,并展示了对各种后处理技术的恢复力。建立了一个多任务全卷积网络(MFCN)来实现定位伪造。训练数据由合成区域和边界[9]的GT组成。在最近的一项研究[10]中,研究人员构建了一个混合LSTM和编码器-解码器网络来定位像素级伪造。该技术利用空间属性和重采样来准确捕捉伪造补丁和真实补丁之间的不规则变化。CNN方法在理解视觉上下文和获取语义特征方面表现优异,因此在图像分类任务中表现优异。图像处理与语义无关;因此,这些策略通常对图像伪造不太成功。cnn具有归纳和位置偏差,这使得它们无法捕获特征的全局相关性。
Objectformer[20]和Transforensics[21]是利用transformers的方法,过去已经有人提出过。这两种模型的总体架构和设计理念与ViT不太吻合。与直接嵌入补丁图像进行编码的ViT不同,这两个系统在使用transformer进行进一步编码之前都使用了许多CNN层来提取特征映射。然而,这种方法忽略了关键的初始低级信息。为了解决当前模型的缺点,我们开发了一个双分支模型,该模型结合了手工制作的特征、噪声和来自卷积神经网络(cnn)的特征。双分支架构包括一个捕获RGB信息的分支和另一个使用Bayar卷积和SRM滤波器提取噪声信息的分支。ConvNext的层次结构通过这些特征,并通过特征增强模块进一步改进这些特征。该模型还采用边缘监督,使其能够集中在通常发生篡改的边界信息上。最后,将两个分支的特征添加到掩码的最终预测中。
3 Proposed Model
该模型包括两个并行分支:一个分支以噪声/残差特征作为输入,使用Bayar卷积和SRM卷积滤波器确定。这些低级/非语义特征通过ConvNext模块进一步关联,特征增强(FE)模块通过调节沿各个轴的全局依赖关系进一步增强特征表示。而另一个分支是上下文分支,它使用图像样本的空间特征来确定伪造。Sobel操作和边缘提取(EE)模块从每个ConvNext层沿着上下文分支生成的特征中检索伪造边缘预测。随后,边缘提取的特征concat到一起并用作损失函数的监督(图2)。上下文分支旨在保留特征的精细细节,旨在捕获数据之间更全面的相关性。将两个分支获得的特征结合起来,提高对局部特征的精确处理。
本节将详细讨论噪声分支和上下文分支及其组成部分。
3.1 Noise Inconsistencies
真实的图像在整个图像上具有一致的噪声分布。不同的篡改行为导致篡改区域的不一致性,削弱了篡改区域的均匀性。使用噪声残差作为特征的基本原理是,当从一幅图像(源)中提取物体并插入到另一幅图像(目标)中时,源图像和目标图像之间的噪声特征不可能相似。该情况中的噪声残差表示像素的真实值与该像素的估计值之间的差值,该差值仅通过插值相邻像素的值来计算。这个估计充当噪声模型。存在各种类型的噪声残差滤波器或核,每种滤波器对不同伪造方式都有其敏感性。Bayer和SRM滤波器被广泛用于有效捕获低级噪声的残差特征。
3.1.1 Bayar Convolution or Constrained CNN
约束卷积神经网络可以利用数据来学习图像编辑操作如何影响局部像素相关性。因此,该方法可以在图像级消除实质,并动态获取关于图像改变迹象的知识[22]。约束CNNs是专门为学习预测错误的过滤器而开发的,从而生成用作低级伪造痕迹的特征图。这些痕迹提供了改进的通用性和鲁棒性。神经网络的后续层将逐渐获得低层伪影[23]中描述的更复杂的视觉特征的知识。为了约束CNN获取低级模式的知识,对CNN核的权值施加了特定的限制。
方程(1)表示对内核过滤器的约束。上标表示CNN层。一层中的第k个卷积滤波器用下标k表示,空间坐标(0,0)对应滤波器的中心值。在训练期间,在向后传递中,使用优化器更新权重。然后,将核的中心值设置为零,并将核的剩余权重归一化,使其和等于1。最后,过滤器的中心值更新为-1。
3.1.2 Steganalysis Features 隐写分析特性
SRM(空间丰富模型)滤波器是另一种从图像的噪声残差中提取特征的技术。Fridrich等人[14]最初建立了空间丰富模型(SRM)的概念。它的主要目的是进行隐写分析,这涉及到使用一组预先确定的高通滤波器从图像的噪声残差中提取隐藏的特征。然后,将上述特征合并并传输到集成分类器中。该方法专门用于计算从图像中像素邻域周围的噪声残差中提取特定属性所需的统计量。如果我们将隐写术中的数据嵌入过程视为图像篡改的一种特定形式,那么图像伪影和隐写分析可以被视为同一件事。它们的目的是区分篡改图像和自然图像。对图像的特定属性所做的修改将影响相应的残差,因为残差与这些属性密切相关。SRM特征首先是通过30个基本滤波器捕获基本噪声特征来获得的。然后,应用非线性处理,例如从滤波后的相邻输出中选择最大值和最小值。过滤器产生量化的输出,然后由SRM缩短。然后,SRM提取最接近的共现数据作为最终特征。这种方法产生的特征可以看作是对局部噪声的描述。
3.2 Feature Enhancement Module
利用改进模块增强ConvNext块的特征表示能力,并应用于特征映射。该设置旨在利用从适当层检索到的高频特征。从CNN层中获得的特征通常是有噪声的,导致性能的潜在下降。深层在其特征中表现出较少的高频信息[24]。
功能增强模块的体系结构如图III所示。利用ConvNext块输出的一个特征映射(F∈R h×w× c),用扩展卷积来扩大接受域,用𝑐𝑜𝑛𝑣3×3𝑑𝑙𝑎𝑡𝑒𝑑和𝑐𝑜𝑛𝑣1×1来调整通道维度。以上分支生成的注意图如下:
其中批归一化用BN表示。此外,利用通道间联系形成通道注意。通过对通道特征映射应用全局平均池化(global average pooling, GAP)进行聚合,建立通道特征映射,然后是MLP层和批归一层。
接下来,我们将矩阵M1(F)和M2(F)通过相应位置相加合并在一起,然后应用一个激活函数sigmoid来生成最终的注意力图。
最后,通过与注意特征图进行元素级相乘并随后将结果添加到现有特征图中来改进特征。
3.3 Edge Extraction Block
边缘检测是一种用于检测图像中亮度有显著和突然变化的区域的方法。通过利用一阶导数,在图像直方图的最低值或最高值处检测强度值的突变。这种梯度的变化使我们能够有效地在边缘定位伪造。它由两个操作或模块组成,其中第一个提取信息是使用sobel操作获取的,该操作由边缘提取模块进一步增强。
Sobel operator:可以通过计算像素强度的差异来确定边缘。sobel 掩码计算一阶导数,并用局部最大值或局部最小值来描绘边缘。Sobel操作中掩码的系数可以根据我们的具体要求进行调整,只要它们坚持导数掩码的所有特性即可。
Edge extraction block: 检测图像伪造的任务包括识别图像内部极其微弱的变化迹象。此外,伪造边缘和周围非伪造区域之间的细微区别具有重要意义。为了更有效地捕获这些细微的信息,有必要以相当高的分辨率保留卷积神经网络(CNN)中的特征。
由于卷积神经网络(CNN)的每一层学习到不同的特征内容,利用网络每一层产生的特征提取伪造边缘。为了增强边缘的提取,我们使用了一个专门设计的边缘提取块(EEB)来实现。图4显示了EEB的情况。为了优化计算并最大限度地利用特征信息,我们采用1 × 1卷积操作,将特征中的通道数量减少1/4。随后,我们继续构建残差学习。最后,使用1×1卷积将通道数量减少到1。
将上述的注意力相乘,进一步改善边缘特征的表示。这些特征包含了丰富的边缘特征的呈现。
3.4 ConvNext Module
论文的作者提出了ConvNext,一种新的卷积网络设计,它用受视觉transformers(ViTs)[1]最新突破影响的现代卷积网络取代了传统的“Conv2d”层。作者提出了几个新的设计原则来增强基本的卷积网络。这些方法包括使用更大的内核大小,使用GELU激活而不是ReLU,增加深度卷积,并用层归一化代替批处理归一化。使用更大的内核大小可以更好地理解更广泛的空间内容,从而可以更准确地检测细微的伪影。利用更深的卷积增强了空间上下文的知识,而不会显著增加计算成本。此外,结合层归一化促进更稳定的训练,这对于检测精细伪造是必不可少的。增强的分层结构和激活函数能够获取复杂的特征,包括高级上下文特征和低级复杂细节,这些特征对细微的变化具有高度响应。结合这些设计元素,ConvNext架构能够增强稳健的性能和高度全面的特征提取能力,这对于伪造检测任务至关重要。
3.5 Loss function
本节将分析我们的定位模型中使用的损失函数。用于分类和分割任务的三个著名的损失函数是边缘损失(EL),二元交叉熵(BCE)损失和焦点损失Focal Loss(FL)。
Edge Loss: 为了解决伪影通常在篡改区域的外围(即边缘)附近更常见的观察结果,其中伪造区域和真实区域之间的区别最明显,我们设计了一种优先处理伪造区域的边界区域的方法。由于非边缘像素占边缘像素的主导地位,我们对伪造边缘检测应用Dice loss[2],称为lossedge。该模型将不同语义层次的边缘信息连续连接起来,并通过对边缘信息和伪造掩码信息的操作来计算损失。通过对边缘信息的整合,该模型可以对目标的分割边界进行优先排序,提高整体定位精度。
The BCE loss:推导自伯努利分布,旨在量化预测和实际掩码[25]的概率分布之间的差异。分割通常用于分类目的,因为它涉及到在颗粒级别对像素进行分类。它被描述为:
其中𝐺𝑚为GT mask, Pm为掩码的预测像素值。该方法计算每个像素的损失,并为每个像素分配同等的重要性。
Focal Loss :焦点损失是分割任务中常见的现象,在类分布[26]严重不平衡的检测任务中,焦点损失作为二元交叉熵(Binary Cross Entropy, BCE)的补充。
Focal Loss方法在不需要调整权重的情况下,有效地引导网络集中在困难的样本上。这使得模型能够获取更复杂场景的知识,同时降低不太复杂场景的重要性。focal Loss方法使用一个调节因子,表示为p,以降低简单示例的重要性,而将训练集中在具有挑战性的负例上。
其中Pi表示类标签的估计概率分布,等于1。平衡因子表示为α,简单数据样本的降权率由参数γ定义。
The combined loss function: 组合损失函数是二元交叉熵(BCE)、边缘损失和焦点损失的有效融合。BCE损失函数惩罚数据样本中偏离正态分布的偏差。另一方面,Focal Loss函数专门解决了类不平衡的问题,并通过超参数设置减少了简单任务的影响,从而优先考虑了任务中最具挑战性的方面。边缘损失的思想专门针对伪造的边界区域,这在获得准确的定位结果中起着关键作用。这种组合有助于在保持边界精度的同时提高整体精度。
式(12)为本模型所采用的综合损失函数。该模型在进行综合训练时利用该综合损失函数。
4 Experiments
本节的目的是在许多基准数据集上验证所提出方法的有效性,并将其与许多不同的前沿伪造定位技术进行比较。
4.1 Datasets
4.1.1 Shallowfake dataset
为了使用提出的模型进行训练和验证,使用了以下数据集:
CASIA [27]. CASIA v1.0总共包含920张伪造图像,这些图像主要通过拼接和复制移动技术进行处理。CASIA v2.0是CASIA v1.0的增强迭代。然而,后者包含5063个伪造图像,其中许多具有更复杂的修改,适合网络训练。CASIA包括CASIA v1.0和CASIA v2.0。使用CASIA v2.0数据集进行训练,使用CASIA v1.0数据集进行测试。
NIST16 [28]. NIST16包括564张图像,包含三种伪造技术:copy-move、splicing和removal。NIST16是一个由于后处理已经实现模糊任何潜在的图像伪造痕迹的具有挑战性的数据集。
COLUMBIA [29]. Columbia数据集采用拼接,总共涉及180张照片。拼接图像是通过直接从Adobe Photoshop中复制和粘贴视觉隐藏元素到原始照片而创建的,无需任何额外的编辑或修改。
COVERAGE [30]. 通过复制-移动操作设计的100张图像伪造较小的数据集及其相应的Ground truth mask。为了消除可见痕迹,每个图像都经过后处理以隐藏视觉痕迹。
表1提供了关于将数据集划分为训练集和测试集的信息,以及用于操作的具体方法。深度学习网络训练的特点是对数据有很大的需求。目前通常用于训练深度神经网络进行图像伪造检测的数据集缺乏足够数量的图像。此外,来自典型数据集的伪造图像可能无法提供足够的训练材料,因为它们具有较少的缺陷。该模型最初使用CASIAv2进行训练,然后通过使用其他数据集进行微调来进一步改进。随后,对前面提到的数据集进行测试。
4.1.2 Deepfake Dataset
目前,还没有deepfake图像数据集包含一个精确的掩码,表明已被修改的区域。Zhang等[31]使用faceforensics ++[32]构建了他们的数据集,目前,还没有现有的deepfake图像数据集包含一个精确的掩码,表明被修改的区域。Zhang等人使用Faceforensics++[41]构建了他们的数据集,Faceforensics++[41]是唯一的deepfake数据集,其中包括大多数影片的mask。著名的Faceforensics++数据集包括1000个真实视频和5000个使用各种技术(如Deepfakes, Face2Face, Face-Swap和Neural-Textures)创建的伪造视频。由于这些视频没有任何GT mask,因此正在对从1000个面部变换记录中恢复的帧进行四次操作评估。从每个视频中检索两帧,但某些可访问性问题使我们无法下载某些真实和虚假的视频。我们一共提取了8449个真实帧和7330个伪造帧[3]。
4.2 Experimental setup
为了构造我们的模型,我们使用了PyTorch框架。该模型在一对NVIDIA RTX A5000图形处理器(gpu)上执行,并将图像调整为256 × 256的尺寸。在训练和测试阶段,使用批大小为16的Adam优化器对模型进行优化。初始学习率设置为1e-4,每10步降低0.8倍。该模型经过150个epoch的预训练,随后用另外50个epoch进行微调。
4.3 Evaluation Metric
以像素级F1分数和曲线下面积(AUC)作为比较方法的评估指标,量化定位性能。值越高表示性能越好。F1分数和像素级AUC的取值范围为[0,1]。这两个指标通常用于评估和比较。对于消融实验和deepfake数据集比较,我们使用了另一个名为IoU (Intersection over Union)的度量。
4.4 Quantitative Analysis
在本节中,我们对浅层伪造数据集和深度伪造数据集的性能进行了定量分析。
4.4.1 Shallowfake dataset
基于参考文献[33]中描述的方法,使用CASIA2数据集对模型进行训练,并使用Nist16、Coverage、Columbia和CASIA1等知名浅层伪造数据集对模型进行进一步细化。这些数据集的曲线下面积(AUC)和F1分数见表2。为了提供比较,我们将研究两组模型:无监督模型和深度神经网络模型。表中提供的数据表明,该模型大大超过了无监督模型。为特定类型的伪造量身定制的人工设计特征的有效性受到很大限制,所有这些传统技术都只能提取某些篡改迹象,几乎没有可供检测的数据。我们的方法在多个数据集上的性能优于以前基于dnn的方法,使它们可以直接比较。我们的模型在CASIA和Columbia数据集上表现出色,AUC得分达到了令人印象深刻的97.25%。此外,在Nist16数据集上,我们的模型得分与其他模型相当,AUC得分为99.79%。模型的边缘监督的结合允许处理薄结构或小对象的复杂情况,其中边缘信息可能是至关重要的,并导致结果的整体改进。
相比之下,该模型在Coverage数据集上表现出较差的性能。由于图像较少,并且包含了具有相似外观的重复或重新定位的对象,实现了88.26%的AUC分数。此外,数据集包含了一系列不同的伪造场景,包括光照条件、背景视角和物体外观的变化。这些因素对我们的模型进行有效泛化提出了挑战,特别是在不太多样化的数据集上进行训练时。我们的技术有效地收集了一组不同的数据,包括RGB属性、噪声不一致性和全局上下文,而不仅仅是依赖于相邻的像素。这使我们能够获得更广泛的数据进行分类和分析。ConvNext模块支持对不同语义尺度的特征进行建模,允许它捕获低级伪造(如blobs)和高级语义方面(如纹理)。因此,加入多尺度特征可以使模型更好地优先考虑像素级图像分割。复杂CNN模型的不良性能可归因于使用基于dnn的技术,该技术使用多个CNN网络或复杂分支来建模网络。TDA-Net[33]是一个结合了三种不同CNN流的模型的例子。这种集成需要以整体的方式训练一个复杂的网络,这在训练复杂性和提高计算需求方面提出了问题。此外,只有有限范围的模型明显不那么复杂,因为它们只优先考虑语义信息,导致无法准确检测伪造部分。然而,相比之下,我们的模型不那么复杂,善于捕捉非语义特征,并且不需要大量的训练数据来获得相同的性能。因此,该技术允许模型通过捕获多尺度信息来有效地优先处理像素级图像分割。
4.4.2 Deepfake dataset
目前正在评估10个模型在deepfake数据集上的表现。目前有六种最先进的图像处理模型,其余的模型是典型的图像分割模型。考虑GitHub上可用模型的代码进行比较。经过预训练的PyTorch模型用于图像分割模型,然后对这些模型进行微调。采用三项评估措施,以提供更彻底和全面的审查。表III显示了deepfake技术在几个模型上的实证结果。除MantraNet[11]外,所有模型在Faceforensics++数据集的几个类别中都表现出令人满意的性能。这种现象可以归因于面部伪造的普遍存在,占据整个框架的唯一实体的存在,以及所有模型有效代表这些明显缺陷的能力。MantraNet在所有深度伪造类别中表现欠佳,可能是由于图像/帧中存在低分辨率、模糊和噪声。这可能是由于模型严重依赖于多样化和足够的训练数据集来表现良好,而缺乏训练数据集会严重降低模型的性能。NedB-Net[44]是一个取得了良好性能的模型,尽管它的分数与其他最先进的(SoTA)模型相比要低得多。这种现象可以归结为不合格图像的存在和更明显的伪造区域,以及模型对不同类型的噪声和边缘形式的敏感性。这项研究的作者承认这个问题。DL-Net[45]在FF++数据集上的性能相当不错,F1得分达到96%。这是由于它能够通过预测噪声水平分割图有效地捕获高级和低级线索。这些图帮助模型将重点放在有被特别修改过的区域。然而,该模型在Face-swap伪造类别中的表现可以更好地与其他三个类别的FF++操纵进行比较。这是因为Face-swap技术有时涉及应用平滑或模糊效果,这会改变模型所依赖的噪声和语义模式,以检测伪造。[46]用于深度伪造定位的另一项技术是一个弱监督框架,该框架利用三种方法:GradCAM、Patches和Attention来说明结果。我们使用GradCAM技术来比较分数。该技术在弱监督环境下表现出色,表明该模型具有较强的判别能力。然而,与之前的版本类似,当涉及到FS操作类别时,该模型的性能会下降。这可能是由于该技术是专门为扩散生成的图像设计的,这可能会限制其在gan生成的图像上有效执行的能力。此外,另一项技术[31]也表现出色,F1得分达到98%。他们的方法基于现有的UperNet,并使用Bayar卷积技术来检测和跟踪噪声指标。虽然这些模型被认为是最先进的,但它们的得分都高于90%。这可以归因于这样一个事实,即大部分的变化都集中在面部,这很容易被模型识别。DADF技术[47]优于大多数模型,它利用多尺度适配器来检测小范围和大范围伪造,以及引导注意力机制,增强了对丰富伪造线索的识别。他们的分数与其他方法相当,并作为与最先进的方法进行比较的合适基准。我们的模型在FF++数据集的不同类别中表现出显著的性能,并且超过了其他传统模型的得分。评估表明,多个模块的有效协调导致了强大的识别和适应各种形式的伪造能力的发展。
4.5 Qualitative Analysis
本节将我们的方法与两种最具竞争力的方法(即MantraNet和mvss)进行比较,以在浅层伪造和深度伪造数据集上提供详细的定性结果。图V显示了图像伪造检测结果的可视化表示。我们的方法在定位精度方面优于其他方法,因为其他方法会产生大量的误报。对于shallow - fake数据集,该方法在CASIA、Columbia和Nist16数据集上表现出出色的定位性能。deepfake数据集的定位似乎非常简单,考虑到大多数图像伪造都集中在面部,简化了定位过程。MantraNet明显偏离GT,而MVSSNET在未改变的区域显示出明显的假阳性。造成这一结果的主要因素是,在训练阶段,MVSSNET接触了大量的自然照片,这可能对网络的训练过程产生不利影响。此外,该模型需要大量显示特定伪造的训练数据样本。如果没有这个,模型的性能将会下降。然而,Mantra-Net在检测细微的伪造方面面临困难,例如避免产生异常伪影或生成低分辨率图像的方法。这些障碍导致该模型的假阴性数量增加。我们的方法优先分析低水平数据,如噪声,以及高层次的上下文变量与基于边缘的监督,从而改进了对伪影的识别和定位。
4.6 Ablation Studies
我们通过逐步引入其组成部分来评估不同场景下所提出的网络,并分析每个组成部分的影响。使用CASIA2数据集对组件进行训练,随后使用其他浅层伪造数据集(即NIST16、Columbia、Coverage和CASIA1)对组件进行评估。表4为消融实验结果。下面,我们将讨论各种实验设置。
Case A: Model without edge loss supervision: 在这里,模型的训练没有边缘监督损失。从表中第一行可以看出,该模型在评估指标的综合得分上大幅下降了5-7%,这表明边缘监督对模型的整体检测精度起着至关重要的作用。边缘监督允许模型专注于伪造边界,从而在边缘上获得精确的操作结果,特别是,伪造涉及更精细的细节或薄结构。此外,边缘监督允许模型学习区分真实边缘和噪声伪影,这有助于识别复杂的结构。
Model without feature enhancement module: 第二行为分数,可以看出,定位总分下降了3-4%。这种现象可以归因于模型将注意力转向高级或语义特征,这对伪造至关重要。此外,该模块在许多数据集上都显示出其有效性,这表明它能够为各种伪造获取广泛的上下文信息。此外,值得注意的是,分数在所有数据集中都呈现出轻微而均匀的下降。
Model without Noise branch: 在这种情况下,从模型中消除了噪声分支。检测主要依赖于RGB高级或语义属性的利用。在本例中,性能大幅下降了约6-8%,验证了噪声一致性等低水平因素对整个检测任务的重要影响。CASIA模型在面对各种形式的图像伪造时,表现出了显著的分数下降,特别是在15%左右。这说明了残差噪声特征在识别不同类型伪造中的重要性。
Model without RGB branch:模型的RGB分量已被删除,噪声分量用于定位目的。在这种情况下,AUC评分经历了相当温和的下降,约为3-5%。这进一步证实了在检测任务中,低水平的噪声成分比高水平的语义信息更重要。Coverage数据集的性能已经大幅下降,这表明需要足够数量的带有噪声的分支数据集来有效地训练和检测噪声引起的不一致性。
5 Conclusion
本研究提出了一种新的双分支设计,其中一个分支包含噪声残差提取模块,另一个分支包含RGB信息。该体系结构采用传统的ConvNext模块,通过特征改进模块进一步改进其特征。该模型还利用边缘监督来提高操伪造的定位,特别是在边缘。该模型准确地捕获了对机器学习任务的可解释性至关重要的基本不一致性,以及结合进一步的语义变量。在浅层伪造和深度伪造数据集上进行的大量实验表明,该模型成功地检测到细微的伪造迹象,并提供了最先进的(SoTA)结果。未来的工作可能需要评估模型应用于新的、未开发的数据的能力,并对不同的压缩方案进行彻底的审查,以确保可靠性。
更多推荐
所有评论(0)