在这里插入图片描述


汇总结果来源CVPR 2025 Accepted Papers

若文中出现的 论文链接GitHub链接 点不开,则说明还未公布,在公布后笔者会及时添加. 若笔者未及时添加,欢迎读者告知.

文章根据题目关键词搜索,可能会有遗漏. 若笔者出现遗漏,欢迎告知.

部分文章还未公布正文,只有名称.


Mind the Gap:通过查询更新分析检测正在进行中的黑盒对抗攻击
Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis | 对抗防御

论文链接

GitHub链接

摘要:对抗攻击仍然是一个重大威胁,可能会危及机器学习(ML)模型的完整性。特别是,基于查询的黑盒攻击可以在无法访问受害模型架构的情况下生成恶意噪声,这使得其在实际环境中具有实用性。现在已经提出了几种针对对抗攻击的防御措施,但却被更先进和自适应的攻击策略所突破。在本文中,我们提出了一个框架,用于检测是否正在生成对抗噪声实例。与现有的通过监测输入空间来检测对抗噪声生成的有状态防御不同,我们的方法在输入更新相似性空间中学习对抗模式。实际上,我们提出观察一种称为增量相似性(DS)的新指标,我们表明它能更有效地捕捉对抗行为。我们针对 8 种最先进的攻击(包括自适应攻击,其中攻击者知道防御并试图逃避检测)评估我们的方法。我们发现,我们的方法在特异性和敏感性方面都比现有防御更加稳健。


AnyAttack:可用于任何图像的针对视觉语言模型的目标性对抗攻击
AnyAttack: Targeted Adversarial Attacks on Vision-Language Models Toward Any Images | 对抗攻击 | 视觉语言模型

论文链接

GitHub链接

摘要:由于其多模态能力,视觉语言模型(VLMs)在现实场景中找到了许多有影响力的应用。然而,最近的研究表明,VLMs 容易受到基于图像的对抗攻击,特别是目标性的对抗图像,这些图像操纵模型生成由攻击者指定的有害内容。当前的攻击方法依赖于预定义的目标标签来创建有针对性的对抗攻击,这限制了它们在大规模鲁棒性评估中的可扩展性和适用性。在本文中,我们提出了 AnyAttack,这是一个自监督框架,无需标签监督即可为 VLMs 生成有针对性的对抗图像,允许任何图像作为攻击的目标。我们的框架采用“预训练和微调”范式,对抗噪声生成器在大规模 LAION-400M 数据集上进行预训练。这种大规模预训练使我们的方法在广泛的 VLMs 中具有强大的可迁移性。在五个主流开源 VLMs(CLIP、BLIP、BLIP2、InstructBLIP 和 MiniGPT-4)上进行的三个多模态任务(图像文本检索、多模态分类和图像字幕)的广泛实验证明了我们攻击的有效性。此外,我们成功地将 AnyAttack 转移到多个商业 VLMs,包括 Google Gemini、Claude Sonnet、Microsoft Copilot 和 OpenAI GPT。这些结果揭示了 VLMs 面临的前所未有的风险,强调了需要有效的对策。


TAPT:用于视觉语言模型鲁棒推理的测试时对抗提示微调
TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models

论文链接

GitHub链接(无)

摘要:像CLIP这样的大规模预训练视觉语言模型(VLMs)在各种下游任务中展现出了卓越的零样本泛化能力。然而,最近的研究表明,CLIP的推理性能会因微小的对抗扰动而大幅下降,尤其是在视觉模态方面,这构成了重大的安全威胁。为了缓解这一漏洞,在本文中,我们提出了一种名为测试时对抗提示调整(TAPT)的新型防御方法,以增强CLIP在面对视觉对抗攻击时的推理鲁棒性。TAPT是一种测试时防御方法,它学习防御性的双模态(文本和视觉)提示,以强化CLIP的推理过程。具体而言,这是一种无监督方法,通过最小化多视图熵并对齐对抗-干净分布,为每个测试样本优化防御性提示。我们在11个基准数据集上评估了TAPT的有效性,这些数据集包括ImageNet和其他10个零样本数据集。结果表明,TAPT在对抗AutoAttack(AA)时,将原始CLIP的零样本对抗鲁棒性提高了至少48.9%,同时在很大程度上保持了在干净样本上的性能。此外,TAPT在各种骨干网络上均优于现有的对抗提示调整方法,平均鲁棒性提升至少36.6%.


通过前向传播优化提高视觉Transformer的对抗可迁移性
Improving Adversarial Transferability on Vision Transformers via Forward Propagation Refinement

论文链接

GitHub链接

摘要:视觉 Transformer(ViTs)已广泛应用于各种计算机视觉和视觉语言任务中。为了深入了解它们在实际场景中的鲁棒性,对 ViTs 上的可迁移对抗样本进行了广泛研究。提高对抗可迁移性的一种典型方法是通过细化替代模型。然而,现有的关于 ViTs 的工作将其替代模型的细化限制在反向传播上。在这项工作中,我们专注于前向传播细化(FPR),并具体细化 ViTs 的两个关键模块:注意力图和标记嵌入。对于注意力图,我们提出了注意力图多样化(AMD),它使某些注意力图多样化,并在反向传播期间隐含地施加有益的梯度消失。对于标记嵌入,我们提出了动量标记嵌入(MTE),它积累历史标记嵌入以稳定注意力和 MLP 块中的前向更新。我们使用从 ViTs 转移到各种 CNN 和 ViTs 的对抗样本进行了广泛的实验,证明我们的 FPR 平均比当前最佳(反向)替代模型细化方法高出高达 7.0%. 我们还验证了它相对于流行防御方法的优越性以及与其他转移方法的兼容性。


具有伪语义先验的无数据通用对抗性扰动
Data-free Universal Adversarial Perturbation with Pseudo-semantic Prior

论文链接

GitHub链接

摘要:无数据通用对抗扰动(UAP)是一种与图像无关的对抗攻击方式,它利用仅从随机噪声生成的单一扰动来欺骗深度神经网络,且不依赖任何数据先验信息。然而,传统的无数据UAP方法往往由于随机噪声中缺乏语义信息,导致其迁移性有限。为解决这一问题,我们提出了一种新颖的无数据通用攻击方法,该方法从UAP中递归生成伪语义先验,在无数据UAP框架内丰富语义内容。我们的方法基于这样一个观察结果:UAP本身固有潜在的语义信息,通过区域采样捕捉多种语义,可使生成的UAP作为替代数据先验。我们进一步引入样本重加权技术,聚焦受UAP影响较小的样本,突出难样本的重要性。利用伪语义先验中的语义信息,我们还融入了输入变换(通常在无数据UAP中因随机先验缺乏语义内容而效果不佳),以提升黑盒转移性。在ImageNet上进行的全面实验表明,我们的方法在平均愚弄率方面取得了显著领先的最先进性能,与现有的无数据UAP方法相比,显著提高了跨各种CNN架构的攻击转移性,甚至超越了依赖数据的UAP方法。


Adv-CPG:带有面部对抗攻击的定制肖像生成框架
Adv-CPG: A Customized Portrait Generation Framework with Facial Adversarial Attacks | 对抗攻击

论文链接

GitHub链接

摘要:近期的定制肖像生成(CPG)方法以面部图像和文本提示作为输入,引起了广泛关注。尽管这些方法生成高保真度的肖像,但它们无法防止生成的肖像被恶意人脸识别系统跟踪和滥用。为了解决这个问题,本文提出了一种带有面部对抗攻击的定制肖像生成框架(Adv-CPG)。具体来说,为了实现面部隐私保护,我们设计了一个轻量级的局部身份加密器和一个加密增强器。它们分别通过直接注入目标身份和添加额外的身份指导来实现渐进式双层加密保护。此外,为了完成细粒度和个性化的肖像生成,我们开发了一种多模态图像定制器,能够生成可控的细粒度面部特征。据我们所知,Adv-CPG 是第一个将面部对抗攻击引入 CPG 的研究。大量实验证明了 Adv-CPG 的优越性,例如,所提出的 Adv-CPG 的平均攻击成功率分别比最先进的基于噪声的攻击方法和无约束攻击方法高 28.1%和 2.86%.


DEAL:面向高质量红外成像的数据高效对抗学习
DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared Imaging | 对抗训练

论文链接

GitHub链接

摘要:热成像通常会受到硬件限制和不可预测的环境因素引起的动态、复杂退化的影响。高质量红外数据的稀缺性,加上动态、复杂退化的挑战,使得使用现有方法难以恢复细节。在本文中,我们通过将这些退化因素建模为对热图像的对抗攻击,通过最小-最大优化将热退化模拟集成到训练过程中。该模拟是动态的,以最大化目标函数,从而捕获广泛的退化数据分布。这种方法可以在有限的数据下进行训练,从而提高模型性能。此外,我们引入了一种双交互网络,该网络将脉冲神经网络的优势与尺度变换相结合,以具有尖锐的脉冲信号强度捕获退化特征。这种架构在保持高效特征表示的同时确保了紧凑的模型参数。大量实验表明,我们的方法不仅在各种单一和复合退化下实现了卓越的视觉质量,而且在仅使用五十张清晰图像进行训练时,在处理方面实现了显著减少,在效率和准确性方面优于现有技术。


NitroFusion:通过动态对抗训练实现高保真单步扩散
NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training | 对抗训练

论文链接

GitHub链接

摘要:我们引入了 NitroFusion,这是一种与单步扩散的完全不同的方法,它通过动态对抗框架实现高质量生成。虽然单步方法具有显著的速度优势,但与多步方法相比,它们通常会遭受质量下降的问题。就像一组艺术评论家通过专注于构图、色彩和技巧等不同方面提供全面反馈一样,我们的方法维持着大量的专业判别器头,共同指导生成过程。每个判别器组在不同噪声水平下针对特定质量方面发展专业知识,提供多样化的反馈,从而实现高保真单步生成。我们的框架结合了:(i)具有专业判别器组的动态判别器池以提高生成质量;(ii)防止判别器过拟合的策略性刷新机制;以及(iii)用于多尺度质量评估的全局-局部判别器头,以及用于平衡生成的无条件/有条件训练。此外,我们的框架独特地支持通过自下而上的细化进行灵活部署,允许用户使用同一模型在 1-4 个去噪步骤之间动态选择,以直接权衡质量和速度。通过全面的实验,我们证明 NitroFusion 在多个评估指标上显著优于现有的单步方法,尤其在保留精细细节和全局一致性方面表现出色。


STEREO:一种用于文生图扩散模型中进行对抗鲁棒概念擦除的两阶段框架
STEREO: A Two-Stage Framework for Adversarially Robust Concept Erasing from Text-to-Image Diffusion Models

论文链接

GitHub链接

摘要:大规模文本到图像生成(T2IG)模型的迅速扩散引发了人们对其在生成有害内容方面可能被滥用的担忧。尽管已经提出了许多从 T2IG 模型中擦除不期望概念的方法,但它们仅提供了一种虚假的安全感,因为最近的研究表明,概念擦除模型(CEM)很容易被对抗性攻击欺骗以生成已擦除的概念。在不显著降低模型效用(生成良性概念的能力)的情况下进行对抗性鲁棒概念擦除的问题仍然是一个未解决的挑战,特别是在对手可以访问 CEM 的白盒设置中。为了解决这一差距,我们提出了一种名为 STEREO 的方法,它包括两个不同的阶段。在第一阶段,通过利用来自对抗训练的鲁棒优化原则,充分搜索能够从 CEM 中再生已擦除概念的强大且多样化的对抗性提示。在第二阶段“一次性稳健擦除”中,我们引入了基于锚概念的组合目标,以一次性稳健地擦除目标概念,同时尽量减少对模型效用的降低。通过在三种对抗性攻击下将提出的 STEREO 方法与四种最先进的概念擦除方法进行基准测试,我们证明了它能够实现更好的鲁棒性与效用的权衡。


将更强的单独攻击用于百万规模的对抗鲁棒性评估
Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks

论文链接

GitHub链接(无代码)

摘要:随着深度学习模型越来越多地部署在安全关键型应用中,评估它们对对抗性扰动的脆弱性对于确保其可靠性和可信度至关重要。在过去十年中,已经提出了大量的白盒对抗鲁棒性评估方法(即攻击方法),从单步到多步方法,从单独方法到集成方法。尽管取得了这些进展,但在进行有意义且全面的鲁棒性评估方面仍然存在挑战,特别是在大规模测试以及确保评估反映现实世界中的对抗风险时。在这项工作中,我们专注于图像分类模型,并提出了一种新颖的单独攻击方法,即概率余量攻击(PMA),它在概率空间而不是对数空间中定义对抗余量。我们分析了 PMA 与现有的基于交叉熵或基于对数余量的攻击之间的关系,并表明 PMA 可以超越当前最先进的单独方法。基于 PMA,我们提出了两种类型的集成攻击,平衡了有效性和效率。此外,我们从现有的 CC3M 数据集创建了一个百万规模的数据集 CC1M,并使用它对经过对抗训练的 ImageNet 模型进行首次百万规模的白盒对抗鲁棒性评估。我们的发现为单独攻击与集成攻击之间以及小规模评估与百万规模评估之间的鲁棒性差距提供了有价值的见解。


基于弱监督对比对抗训练从半监督数据中学习鲁棒特征
Weakly Supervised Contrastive Adversarial Training for Learning Robust Features from Semi-supervised Data

论文链接

GitHub链接

摘要:现有的对抗性训练(AT)方法经常遭受不完全扰动,这意味着在生成对抗样本(AE)时,并非所有非鲁棒特征都受到扰动。这导致非鲁棒特征和标签之间存在残余相关性,导致鲁棒特征的次优学习。然而,由于难以区分鲁棒和非鲁棒特征以及标记数据的稀疏性,实现完全扰动——扰动尽可能多的非鲁棒特征——具有挑战性。为了应对这些挑战,我们提出了一种称为弱监督对抗性对抗性训练(WSCAT)的新方法。WSCAT通过基于信息论的部分标记数据上的完整AE生成来破坏非鲁棒特征和标签之间的相关性,从而确保完全扰动以改进鲁棒特征的学习。广泛采用的基准上的广泛理论分析和全面实验验证了WSCAT的优越性。


CLIP 强大到足以反击:针对 CLIP 零样本对抗鲁棒性的测试时反击
CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP

论文链接

GitHub链接

摘要:尽管 CLIP 以零样本方式在图像文本匹配任务中得到广泛应用,但已被证明对添加到图像上的对抗性扰动高度敏感。最近的研究提出使用即时生成的对抗性样本对 CLIP 的视觉编码器进行微调,并在一系列下游数据集上展示出对对抗性攻击的改进的鲁棒性,这一特性被称为零样本鲁棒性。在本文中,我们表明旨在最大化分类损失的恶意扰动会导致“虚假稳定”的图像,并提出在推理期间利用 CLIP 的预训练视觉编码器来反击此类对抗性图像以实现鲁棒性。我们的范例简单且无需训练,提供了第一种在测试时保护 CLIP 免受对抗性攻击的方法,这与现有的旨在提高 CLIP 的零样本对抗鲁棒性的方法完全不同。我们在 16 个分类数据集上进行实验,并与从现有的对抗鲁棒性研究中改编的不依赖外部网络的测试时防御方法相比,展示了稳定且一致的收益,同时不会明显损害干净图像上的性能。我们还表明,我们的范例可以应用于经过对抗性微调的 CLIP 模型,以在测试时进一步增强其鲁棒性。


BEARD:用于数据集蒸馏的对抗鲁棒性基准测试
BEARD: Benchmarking the Adversarial Robustness for Dataset Distillation

论文链接

GitHub链接

BEARD Leaderboard

摘要:数据集蒸馏(Dataset Distillation,DD)是一种新兴技术,它将大规模数据集压缩为显著更小的合成数据集,同时保持较高的测试性能,并能够高效地训练大型模型。然而,当前的研究主要集中在有限压缩比下提高评估准确性,常常忽略了对抗鲁棒性等关键安全问题。评估这种鲁棒性的一个关键挑战在于蒸馏方法、模型架构和对抗攻击策略之间的复杂交互,这使得标准化评估变得复杂。为了解决这个问题,我们引入了 BEARD,这是一个开放且统一的基准,旨在系统地评估 DD 方法(包括 DM、IDM 和 BACON)的对抗鲁棒性。BEARD 涵盖了对 CIFAR10/100 和 TinyImageNet 等蒸馏数据集的各种对抗攻击(例如 FGSM、PGD、C&W)。利用对抗博弈框架,它引入了三个关键指标:鲁棒性比率(Robustness Ratio,RR)、攻击效率比率(Attack Efficiency Ratio,AE)和综合鲁棒性 - 效率指数(Comprehensive Robustness-Efficiency Index,CREI)。我们的分析包括统一的基准、各种每类图像(Images Per Class,IPC)设置以及对抗训练的效果。结果可在 BEARD Leaderboard 上获得,同时还有一个提供模型和数据集池的库,以支持可重复的研究。


通过多损失对抗搜索探索用于视觉语言模型越狱的视觉漏洞
Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models

论文链接

GitHub链接(无代码)

摘要:尽管从基础语言模型继承了安全措施,但视觉语言模型(VLMs)可能仍然容易受到安全对齐问题的影响。通过实证分析,我们发现了两个关键结论:场景匹配的图像可以显著放大有害输出,并且与基于梯度的攻击中的常见假设相反,最小损失值并不能保证最佳攻击效果。基于这些见解,我们引入了 MLAI(多损失对抗图像),这是一种新颖的越狱框架,它利用场景感知图像生成进行语义对齐,利用平坦最小值理论进行稳健的对抗图像选择,并采用多图像协同攻击以提高效果。大量实验证明了 MLAI 的重大影响,在 MiniGPT-4 上实现了 77.75%的攻击成功率,在 LLaVA-2 上实现了 82.80%的攻击成功率,分别比现有方法大幅高出 34.37%和 12.77%。此外,MLAI 对商业黑盒 VLMs 显示出相当大的可转移性,成功率高达 60.11%。我们的工作揭示了当前 VLMs 安全机制中的基本视觉漏洞,并强调了需要更强的防御措施。


SceneTAP:现实世界环境中针对视觉语言模型的场景连贯的印刷体对抗规划器
SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments

论文链接

GitHub链接(无代码)

摘要:大型视觉语言模型(LVLMs)在解释视觉内容方面表现出了卓越的能力。虽然现有工作表明这些模型容易受到故意放置的对抗性文本的攻击,但这些文本通常很容易被识别为异常。在本文中,我们提出了第一种生成场景连贯的印刷体对抗性攻击的方法,该方法通过基于大型语言模型(LLM)的代理的能力误导先进的 LVLMs,同时保持视觉自然性。我们的方法解决了三个关键问题:生成什么样的对抗性文本、将其放置在场景中的何处以及如何无缝集成。我们提出了一种无需训练、多模态的由 LLM 驱动的场景连贯的印刷体对抗性规划(SceneTAP),它采用三阶段过程:场景理解、对抗性规划和无缝集成。SceneTAP 利用思维链推理来理解场景、制定有效的对抗性文本、策略性地规划其放置位置,并提供在图像中自然集成的详细说明。接着是一个场景连贯的 TextDiffuser,它使用局部扩散机制执行攻击。我们通过打印并将生成的补丁放置在物理环境中,将我们的方法扩展到现实世界场景,展示了其实际意义。大量实验表明,我们的场景连贯的对抗性文本成功地误导了最先进的 LVLMs,包括 ChatGPT-4o,即使在捕获物理设置的新图像后也是如此。我们的评估表明,在保持视觉自然性和上下文适当性的同时,攻击成功率显著提高。这项工作突出了当前视觉语言模型对复杂的、场景连贯的对抗性攻击的脆弱性,并为潜在的防御机制提供了见解。


使用扰动伪造检测对抗性数据
Detecting Adversarial Data Using Perturbation Forgery

论文链接

GitHub链接

摘要:作为对抗攻击的一种防御策略,对抗性检测旨在根据自然数据和对抗性数据之间的分布差异和噪声模式差异,从数据流中识别并过滤出对抗性数据。尽管先前的检测方法在检测基于梯度的对抗攻击方面表现出色,但基于具有不平衡和各向异性噪声模式的生成模型的新攻击却能逃避检测。更糟糕的是,显著的推理时间开销和对未知攻击的有限性能使得现有技术在实际应用中不切实际。在本文中,我们探索了对抗性噪声分布之间的邻近关系,并证明了这些分布存在一个开覆盖。通过在对抗性噪声分布的开覆盖上进行训练,可以开发出一种对各种类型的未知攻击具有强大泛化性能的检测器。基于这一见解,我们启发式地提出了扰动伪造,它包括噪声分布扰动、稀疏掩码生成和伪对抗性数据生成,以训练一个能够检测任何未知的基于梯度、基于生成和物理对抗攻击的对抗性检测器。在多个通用和面部数据集上进行的综合实验,涵盖了广泛的攻击类型,验证了我们方法的强大泛化能力。


分治:基于扩散的对抗性净化中的异构噪声集成
Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification

论文链接

GitHub链接

摘要:现有的基于扩散的净化方法旨在通过正向扩散过程引入一定量的噪声来破坏对抗性扰动,然后通过反向过程恢复干净的样本。然而,这种方法存在根本缺陷:正向过程在所有像素上的统一操作在对抗对抗性扰动时会损害正常像素,导致目标模型产生错误的预测。仅仅依赖低强度噪声不足以进行有效防御。为了解决这个关键问题,我们实施了一种基于神经网络可解释性的异构净化策略。我们的方法果断地将高强度噪声应用于目标模型关注的特定像素,而其余像素仅受到低强度噪声。这一要求促使我们重新设计扩散模型的采样过程,以便有效去除不同强度的噪声。此外,为了针对强适应性攻击评估我们的方法,我们提出的方法通过单步重采样大幅降低了时间成本和内存使用。来自三个数据集的大量实验的经验证据表明,我们的方法在很大程度上优于大多数当前的对抗训练和净化技术。


TAET:长尾分布上的两阶段对抗均衡训练
TAET: Two-Stage Adversarial Equalization Training on Long-Tailed Distributions

论文链接

GitHub链接

摘要:对抗鲁棒性在将深度神经网络部署于实际应用中仍然是一个重大挑战。尽管对抗训练被广泛认为是一种有前景的防御策略,但大多数现有研究主要集中在平衡数据集上,忽略了现实世界中的数据往往呈现出长尾分布这一事实,这给鲁棒性带来了巨大挑战。在本文中,我们对长尾分布背景下的对抗训练进行了深入分析,并确定了当前最先进的方法 AT-BSL 在这种情况下实现鲁棒性能的局限性。为了应对这些挑战,我们提出了一种新颖的训练框架 TAET,它包括一个初始稳定阶段,随后是一个分层的均衡对抗训练阶段。此外,先前关于长尾鲁棒性的工作在很大程度上忽略了一个关键评估指标——平衡准确率。为了填补这一空白,我们引入了平衡鲁棒性的概念,这是一种专门在长尾分布下测量鲁棒性的综合指标。大量实验表明,我们的方法优于现有的先进防御方法,在内存和计算效率方面都有显著提高。我们相信,这项工作在应对实际应用中的鲁棒性挑战方面迈出了重要的一步。


IDProtector:一种用于防止保留身份图像生成的对抗噪声编码器
IDProtector: An Adversarial Noise Encoder to Protect Against ID-Preserving Image Generation

论文链接

GitHub链接

摘要:最近,像 InstantID 这样的零样本方法彻底改变了保持身份的生成。与 DreamBooth 等多图像微调方法不同,这些零样本方法利用强大的面部编码器从单张肖像照片中提取身份信息,通过单次推理实现高效的保持身份的生成。然而,这种便利性给面部身份保护带来了新的威胁。本文旨在保护肖像照片免受未经授权的基于编码器的定制。我们引入了 IDProtector,这是一种对抗噪声编码器,可在单次前向传递中对肖像照片应用难以察觉的对抗噪声。我们的方法为肖像提供针对多种最先进的基于编码器的方法(包括 InstantID、IP-Adapter 和 PhotoMaker)的通用保护,同时确保对常见图像变换(如 JPEG 压缩、调整大小和仿射变换)具有鲁棒性。跨不同肖像数据集和生成模型的实验表明,IDProtector 对看不见的数据甚至闭源专有模型都能有效泛化。


MOS-Attack:一种可扩展的多目标对抗攻击框架
MOS-Attack: A Scalable Multi-objective Adversarial Attack Framework

论文链接

GitHub链接(无代码)

摘要:生成对抗样本对于评估和提高深度神经网络(DNNs)的鲁棒性至关重要,这带来了一个等同于最大化不可微的 0-1 损失函数的挑战。然而,现有的单目标方法,即对抗攻击,专注于替代损失函数,由于对多个损失函数的协同和冲突性质理解不足,未能充分利用使用多个损失函数的好处。为了克服这些限制,我们提出了基于多目标集合的攻击(MOS Attack),这是一种新颖的对抗攻击框架,利用多个损失函数并自动揭示它们之间的相互关系。MOS Attack 采用基于集合的多目标优化策略,能够在不增加额外参数的情况下纳入众多损失函数。它还能自动挖掘各种损失之间的协同模式,有助于用更少的目标生成强大的对抗攻击。大量实验表明,我们的 MOS Attack 优于单目标攻击。此外,通过利用已确定的协同模式,MOS Attack 在减少损失函数数量的情况下仍能继续显示出优越的结果。


攻击链:视觉语言模型对基于迁移的对抗攻击的鲁棒性
Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks

论文链接

GitHub链接(无代码)

摘要:预训练视觉语言模型(VLMs)在图像和自然语言理解方面表现出了卓越的性能,例如图像字幕生成和响应生成。随着视觉语言模型的实际应用越来越广泛,其潜在的安全性和鲁棒性问题引起了人们的担忧,即对手可能会逃避系统,并通过恶意攻击使这些模型生成有害内容。因此,评估开源 VLMs 对对抗性攻击的鲁棒性越来越受到关注,其中基于迁移的攻击是一种具有代表性的黑盒攻击策略。然而,大多数现有的基于迁移的攻击忽略了视觉和文本模态之间语义相关性的重要性,导致对抗性样本生成和攻击性能欠佳。为了解决这个问题,我们提出了攻击链(CoA),它通过一系列中间攻击步骤,基于多模态语义更新迭代地增强对抗性样本的生成,实现了卓越的对抗性可迁移性和效率。此外,我们还提出了一种统一的攻击成功率计算方法用于自动逃避评估。在最现实和高风险的场景下进行的大量实验表明,我们的攻击策略可以仅使用黑盒攻击而无需了解受害模型的任何信息,有效地误导模型生成目标响应。我们论文中的综合鲁棒性评估提供了对 VLMs 漏洞的洞察,并为未来模型开发的安全考虑提供了参考。


基于对抗一致性蒸馏的即时对抗净化
Instant Adversarial Purification with Adversarial Consistency Distillation

论文链接

GitHub链接

摘要:神经网络尽管在包括图像分类在内的广泛应用中表现出色,但也容易受到细微的对抗性噪声的影响。尽管已经提出了一些基于扩散的净化方法,例如 DiffPure,但这些方法很耗时。在本文中,我们提出了一步控制净化(One Step Control Purification,OSCP),这是一种基于扩散的净化模型,可以在扩散模型的一次神经函数评估(Neural Function Evaluation,NFE)中净化对抗性图像。我们使用潜在一致性模型(Latent Consistency Model,LCM)和 ControlNet 进行一步净化。与其他基于扩散的净化方法相比,OSCP 在计算上更友好且时间效率更高;我们在 ImageNet 上实现了 74.19%的防御成功率,每次净化仅需 0.1 秒。此外,一致性蒸馏和对抗性扰动之间存在根本的不一致性。为了解决这种本体上的不和谐,我们提出了高斯对抗性噪声蒸馏(Gaussian Adversarial Noise Distillation,GAND),这是一种新颖的一致性蒸馏框架,有助于更细致地协调潜在空间动态,有效地弥合自然流形和对抗性流形之间的差距。我们的实验表明,GAND 不需要完全微调(Full Fine Tune,FFT);参数高效微调(Parameter-Efficient Fine-Tuning,PEFT),例如 LoRA 就足够了。


通过打破不可见替代梯度实现对脉冲神经网络的有效且稀疏的对抗攻击
Towards Effective and Sparse Adversarial Attack on Spiking Neural Networks via Breaking Invisible Surrogate Gradients

论文链接

GitHub链接

摘要:脉冲神经网络(Spiking neural networks,SNNs)在处理低能耗的时空事件数据方面已显示出其能力。与传统的人工神经网络(Artificial neural networks,ANNs)类似,SNNs 也容易受到基于梯度的对抗攻击,其中梯度是通过时空反向传播(spatial-temporal back-propagation,STBP)和替代梯度(surrogate gradients,SGs)计算得出的。然而,对于仅用于推理的模型,SGs 可能是不可见的,因为它们不影响推理结果,并且当前基于梯度的攻击对于动态视觉传感器(Dynamic vision sensor,DVS)捕获的二进制动态图像无效。虽然一些方法通过通用 SGs 解决了不可见 SGs 的问题,但它们的 SGs 与受害模型缺乏相关性,导致性能欠佳。此外,现有的基于 SNN 的二进制攻击的不可感知性仍然不足。在本文中,我们引入了一种创新的潜在相关替代梯度(potential-dependent surrogate gradient,PDSG)方法,以在 SG 和模型之间建立强大的连接,从而提高具有不可见 SGs 的各种模型的对抗攻击的适应性。此外,我们提出了稀疏动态攻击(sparse dynamic attack,SDA)以有效地攻击二进制动态图像。利用生成-减少范式,SDA 可以充分优化对抗性扰动的稀疏性。实验结果表明,我们的 PDSG 和 SDA 在各种模型和数据集上优于最先进的基于 SNN 的攻击。具体而言,我们的 PDSG 在 ImageNet 上实现了 100%的攻击成功率,我们的 SDA 通过仅修改 CIFAR10DVS 上 0.24%的像素获得了 82%的攻击成功率。


Prompt2Perturb(P2P):用于乳腺超声图像的基于文本引导扩散的对抗攻击
Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attack on Breast Ultrasound Images

论文链接

GitHub链接

摘要:深度神经网络(DNNs)在医学影像中为改善乳腺癌诊断带来了巨大希望。然而,这些模型极易受到对抗攻击——微小、难以察觉的变化可能误导分类器——这引发了对其可靠性和安全性的严重担忧。传统攻击依赖于固定范数的扰动,与人类感知不一致。相比之下,基于扩散的攻击需要预训练模型,在这些模型不可用时需要大量数据,这在数据稀缺的情况下限制了其实际应用。然而,在医学影像中,由于数据集的有限可用性,这通常是不可行的。基于可学习提示的最新进展,我们提出了 Prompt2Perturb(P2P),这是一种新颖的语言引导攻击方法,能够生成由文本指令驱动的有意义的攻击示例。在提示学习阶段,我们的方法利用文本编码器中的可学习提示来创建微妙但有影响力的扰动,这些扰动在引导模型朝向目标结果的同时保持难以察觉。与当前基于提示学习的方法相比,我们的 P2P 通过直接更新文本嵌入而脱颖而出,避免了重新训练扩散模型的需要。此外,我们利用仅优化早期反向扩散步骤可提高效率的发现,同时确保生成的对抗性示例包含微妙的噪声,从而在不引入明显伪影的情况下保持超声图像质量。我们表明,我们的方法在三个乳腺超声数据集上的 FID 和 LPIPS 指标方面优于最先进的攻击技术。此外,与现有的对抗攻击相比,生成的图像在外观上更自然且更有效。


无声品牌攻击:文生图扩散模型的无触发数据投毒攻击
Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

论文链接

GitHub链接

摘要:文本到图像扩散模型在根据文本提示生成高质量内容方面取得了显著成功。然而,它们对公开可用数据的依赖以及用于微调的数据共享日益增长的趋势使得这些模型特别容易受到数据投毒攻击。在这项工作中,我们引入了无声品牌攻击,这是一种新颖的数据投毒方法,它操纵文本到图像扩散模型以生成包含特定品牌标志或符号的图像,而无需任何文本触发。我们发现,当某些视觉模式在训练数据中反复出现时,模型即使在没有提示提及的情况下也会自然地在其输出中重现它们。利用这一点,我们开发了一种自动化的数据投毒算法,该算法将标志不显眼地注入原始图像中,确保它们自然融合且不被检测到。在这个被投毒的数据集上训练的模型生成包含标志的图像,而不会降低图像质量或文本对齐。我们在大规模高质量图像数据集和风格个性化数据集的两种现实设置中对我们的无声品牌攻击进行了实验验证,即使没有特定的文本触发也能实现高成功率。人类评估和包括标志检测在内的定量指标表明,我们的方法可以偷偷地嵌入标志。


FedMIA:一种在联邦学习中利用“人人为我”原则的有效成员推理攻击。
FedMIA: An Effective Membership Inference Attack Exploiting "All for One" Principle in Federated Learning

论文链接

GitHub链接

摘要:联邦学习(Federated Learning,FL)是一种很有前景的方法,可在保护隐私的同时对分散的数据进行机器学习模型训练。然而,隐私风险,特别是成员推理攻击(Membership Inference Attacks,MIAs),其旨在确定特定数据点是否属于目标客户端的训练集,仍然是一个重大问题。联邦学习中现有的实现成员推理攻击的方法主要分析来自目标客户端的更新,重点关注诸如损失、梯度范数和梯度差等指标。但是,这些方法未能利用来自非目标客户端的更新,可能未充分利用可用信息。在本文中,我们首先基于非目标客户端的更新可能性制定了一个单尾似然比假设检验。在此基础上,我们引入了一种三步成员推理攻击(Membership Inference Attack,MIA)方法,称为 FedMIA,它遵循“人人为我”原则——利用来自多个通信回合中所有客户端的更新来提高成员推理攻击的有效性。理论分析和大量实验结果均表明,FedMIA 在分类和生成任务中均优于现有的成员推理攻击。此外,它可以作为现有方法的扩展进行集成,并且对各种防御策略、非独立同分布(Non-IID)数据和不同的联邦结构具有鲁棒性。


从域偏移角度重新审视针对大型视觉语言模型的后门攻击
Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift

论文链接

GitHub链接

摘要:指令微调增强了大型视觉语言模型(LVLMs),但由于其开放设计,增加了它们对后门攻击的脆弱性。与先前在静态设置下的研究不同,本文探索了在不匹配的训练和测试域中对 LVLM 指令微调的后门攻击。我们引入了一个新的评估维度,即后门域泛化,以评估在视觉和文本域偏移下攻击的鲁棒性。我们的发现揭示了两个见解:(1)当独特的触发模式独立于特定数据域或模型架构时,后门的泛化能力得到提高;(2)触发模式与干净语义区域之间的竞争交互,其中引导模型预测触发可以增强攻击的泛化能力。基于这些见解,我们提出了一种多模态归因后门攻击(MABA),它使用归因解释将与域无关的触发注入关键区域。对 OpenFlamingo、Blip-2 和 Otter 的实验表明,MABA 显著将泛化攻击成功率提高了 36.4%,在 0.2%的中毒率下实现了 97%的成功率。这项研究揭示了当前评估的局限性,并强调了增强的后门泛化能力如何对 LVLMs 构成安全威胁,即使在没有测试数据访问的情况下。


针对扩散模型语义水印的黑盒伪造攻击
Black-Box Forgery Attacks on Semantic Watermarks for Diffusion Models

论文链接

GitHub链接

摘要:将水印集成到潜在扩散模型(LDMs)的生成过程中,简化了生成内容的检测和归因。语义水印,如 Tree-Rings 和 Gaussian Shading,代表了一类新颖的水印技术,易于实现且对各种扰动具有高度鲁棒性。然而,我们的工作揭示了语义水印的一个基本安全漏洞。我们表明,攻击者可以利用不相关的模型,即使具有不同的潜在空间和架构(UNet 与 DiT),来进行强大而逼真的伪造攻击。具体来说,我们设计了两种水印伪造攻击。第一种通过在不相关的 LDM 中操纵任意图像的潜在表示以接近带水印图像的潜在表示,将目标水印印入真实图像中。我们还表明,该技术可用于水印去除。第二种攻击通过反转带水印的图像并用任意提示重新生成它来生成带有目标水印的新图像。两种攻击都只需要一张带有目标水印的参考图像。总体而言,我们的发现通过揭示攻击者在现实条件下可以轻松伪造或去除这些水印,对语义水印的适用性提出了质疑。


UIBDiffusion:扩散模型的通用不可察觉后门攻击
UIBDiffusion: Universal Imperceptible Backdoor Attack for Diffusion Models

论文链接

GitHub链接

摘要:近期研究表明,扩散模型(DMs)易受后门攻击。现有的后门攻击采用不加掩饰的触发器(例如,一个灰色盒子和眼镜),这些触发器包含明显的模式,虽然能产生显著的攻击效果,但很容易被人类检查和防御算法检测到。虽然可以通过降低后门的强度来提高隐蔽性,但这样做会大大损害其通用性和有效性。在本文中,我们提出了 UIBDiffusion,即扩散模型的通用不可察觉后门攻击,它使我们能够在逃避最先进的防御的同时实现卓越的攻击和生成性能。我们提出了一种基于通用对抗性扰动(UAPs)的新颖触发器生成方法,并揭示了这些最初为欺骗预训练的判别模型而设计的扰动可以被调整为对 DMs 有效的强大的不可察觉后门触发器。我们在各种数据集和目标上对具有不同类型采样器的多种类型的 DMs 评估 UIBDiffusion。实验结果表明,UIBDiffusion 具有三个优点:1)通用性,不可察觉的触发器是通用的(即,与图像和模型无关),其中单个触发器对任何图像和具有不同采样器的所有扩散模型都有效;2)实用性,与先前的工作相比,在低毒害率下,它实现了相当的生成质量(例如,FID),甚至更好的攻击成功率(即,ASR);3)不可检测性,UIBDiffusion 对人类感知来说是合理的,并且可以绕过 Elijah 和 TERD,这是针对 DMs 后门的最先进防御。


利用特征微调混合改进迁移性目标性攻击
Improving Transferable Targeted Attacks with Feature Tuning Mixup

论文链接

GitHub链接

摘要:深度神经网络容易受到对抗样本的攻击,这些对抗样本可以在不同模型之间迁移。一个特别具有挑战性的问题是开发可迁移的目标性攻击,这种攻击可以误导模型预测特定的目标类别。虽然已经提出了各种方法来提高攻击的可迁移性,但它们往往会产生巨大的计算成本,同时改进有限。最近的干净特征混合方法使用随机的干净特征来扰动特征空间,但缺乏针对破坏对抗样本的优化,忽略了特定于攻击的扰动的优势。在本文中,我们提出了特征调谐混合(FTM),这是一种通过在特征空间中结合随机噪声和优化噪声来提高目标性攻击可迁移性的新方法。FTM 引入了可学习的特征扰动,并采用有效的随机更新策略进行优化。这些可学习的扰动有助于生成更强大的对抗样本,提高可迁移性。我们进一步证明,通过多个经过 FTM 扰动的代理模型的集成,可以提高攻击性能。在与 ImageNet 兼容的数据集上对各种模型进行的大量实验表明,我们的方法在保持低计算成本的同时,比最先进的方法有显著的改进。


通过多轮一致性对联邦学习的模型投毒攻击
Model Poisoning Attacks to Federated Learning via Multi-Round Consistency

论文链接

GitHub链接

摘要:模型投毒攻击是对联邦学习(FL)的重大安全威胁。现有的模型投毒攻击存在两个关键局限性:1)在部署防御措施时,它们的有效性欠佳;2)它们需要了解真实客户端上的模型更新或本地训练数据。在这项工作中,我们做出了一个关键观察,即它们的次优有效性源于仅在单个训练轮次中利用恶意客户端之间的模型更新一致性,使得攻击效果在训练轮次之间自我抵消。鉴于此观察结果,我们提出了 PoisonedFL,它在恶意客户端的模型更新之间强制实施多轮一致性,同时不需要关于真实客户端的任何知识。我们在五个基准数据集上的实证评估表明,PoisonedFL 突破了八种最先进的防御措施,并优于七种现有的模型投毒攻击。此外,我们还探索了针对 PoisonedFL 定制的新防御措施,但我们的结果表明,我们仍然可以调整 PoisonedFL 来突破它们。我们的研究表明,FL 系统的稳健性远低于先前的预期,这凸显了开发新防御机制的紧迫性。


针对大型视觉语言模型的自监督学习视觉编码器中的隐形后门攻击
Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models

论文链接

GitHub链接

摘要:自监督学习(SSL)视觉编码器学习高质量的图像表示,因此已成为开发大型视觉语言模型(LVLMs)视觉模态的重要组成部分。由于训练此类编码器的成本很高,预训练的编码器被广泛共享并部署到许多对安全至关重要或具有社会意义的 LVLMs 中。在这种实际情况下,我们揭示了一种新的后门威胁,即仅通过破坏视觉编码器就可以在这些 LVLMs 中引发显著的视觉幻觉。由于这些编码器的共享和重用,许多下游 LVLMs 可能从编码器继承后门行为,从而导致广泛的后门。在这项工作中,我们提出了 BADVISION,这是第一种利用 LVLMs 的 SSL 视觉编码器中的此漏洞的方法,采用了新颖的触发优化和后门学习技术。我们在两种类型的 SSL 编码器和 LVLMs 上跨八个基准进行了 BADVISION 的评估。我们表明,BADVISION 有效地将 LVLMs 驱动到攻击者选择的幻觉,攻击成功率超过 99%,同时在保持隐蔽性的情况下造成 77.6%的相对视觉理解误差。最先进的后门检测方法无法有效检测到我们的攻击。


黑暗中的内斗:联邦学习中的多标签后门攻击
Infighting in the Dark: Multi-Label Backdoor Attack in Federated Learning

论文链接

GitHub链接

摘要:联邦学习(FL)是一种保护隐私的去中心化机器学习框架,已被证明容易受到后门攻击。当前的研究主要集中在单标签后门攻击(SBA)上,其中攻击者具有一致的目标。然而,一个关键事实被忽略了:攻击者可能不合作,具有不同的目标,并独立操作,这呈现出一种更实际的场景,称为多标签后门攻击(MBA)。不幸的是,由于非合作攻击者相互排斥,先前的工作在 MBA 场景中是无效的。在这项工作中,我们进行了深入的调查,以揭示这种排斥的内在限制:为不同的目标构建类似的后门映射,导致后门功能之间的冲突。为了解决这个限制,我们提出了 Mirage,这是联邦学习中第一个非合作 MBA 策略,通过构建分布内(ID)后门映射,允许攻击者在无需串通的情况下将有效且持久的后门注入到全局模型中。具体来说,我们引入了一种对抗适应方法,以 ID 方式桥接后门特征和目标分布。此外,我们还进一步利用一种约束优化方法,以确保 ID 映射在全局训练动态中存活。广泛的评估表明,Mirage 优于各种最先进的攻击,并绕过现有的防御,实现平均攻击成功率大于 97%,并在 900 轮后保持 90%以上。这项工作旨在提醒研究人员注意这种潜在威胁,并激发有效防御机制的设计。


无法阻挡我:针对边缘设备的时延攻击学习鲁棒且硬件自适应的目标检测器
Can't Slow me Down: Learning Robust and Hardware-Adaptive Object Detectors against Latency Attacks for Edge Devices

论文链接

GitHub链接

摘要:目标检测是许多实时下游应用(如自动驾驶、增强现实和供应链管理)的基本推动因素。然而,神经网络的算法骨干对系统输入中难以察觉的扰动很脆弱,这些扰动通常被称为错误分类攻击。最近出现了一类新的时延攻击,其针对实时处理能力。它们通过在后处理模块中制造计算瓶颈,利用目标检测器中的新攻击面,导致级联故障并使实时下游任务面临风险。在这项工作中,我们通过对背景敏感的对抗训练(也考虑底层硬件能力)对这种攻击进行了初步尝试防御。我们首先在异构 GPU 设备之间建立时延攻击与硬件容量之间的系统级联系。基于特定的对抗行为,我们将目标性损失用作代理,并将背景注意力构建到对抗训练管道中,在干净准确性和鲁棒准确性之间实现合理平衡。大量实验表明,在 Jetson Orin NX 上,将实时处理能力从 13 FPS 恢复到 43 FPS,证明了防御的有效性,并且在干净准确性和鲁棒准确性之间有更好的权衡。


NoPain:基于最优传输奇异边界的无盒点云攻击
NoPain: No-box Point Cloud Attack via Optimal Transport Singular Boundary

论文链接

GitHub链接

摘要:对抗攻击利用深度模型对对抗样本的脆弱性。现有的点云攻击者是针对特定模型定制的,在白盒或黑盒设置下基于梯度迭代地优化扰动。尽管它们具有良好的攻击性能,但由于过度拟合代理模型的特定参数,它们通常难以生成可迁移的对抗样本。为了克服这个问题,我们将焦点转移到数据分布本身,并引入一种名为 NoPain 的新方法,该方法利用最优传输(OT)来识别数据流形的固有奇异边界,以进行跨网络点云攻击。具体来说,我们首先计算从噪声到目标特征空间的 OT 映射,然后通过定位不可微位置来识别奇异边界。最后,我们沿着奇异边界采样以生成对抗点云。一旦确定了奇异边界,NoPain 可以高效地生成对抗样本,而无需迭代更新或来自代理分类器的指导。大量实验表明,所提出的端到端方法在可迁移性和效率方面均优于基线方法,并且即使在面对防御策略时也保持显著优势。


通过方向对齐检查检测联邦学习中的后门攻击
Detecting Backdoor Attacks in Federated Learning via Direction Alignment Inspection

论文链接

GitHub链接

摘要:训练的分布式特性使联邦学习(FL)容易受到后门攻击,在后门攻击中,恶意的模型更新旨在损害全局模型在特定任务上的性能。现有的防御方法效果有限,因为它们忽略了良性和恶意模型更新在一般和细粒度方向上的不一致性。为了填补这一空白,我们引入了 AlignIns,这是一种旨在保护 FL 系统免受后门攻击的新型防御方法。AlignIns 通过方向对齐检查过程来研究每个模型更新的方向。具体来说,它检查模型更新与整体更新方向的对齐情况,并分析其重要参数的符号分布,与所有模型更新中的主要符号进行比较。表现出异常程度对齐的模型更新被认为是恶意的,因此会被过滤掉。我们提供了 AlignIns 的鲁棒性及其在联邦学习中的传播误差的理论分析。我们在独立同分布(IID)和非独立同分布的数据集上的实证结果表明,与最先进的防御方法相比,AlignIns 实现了更高的鲁棒性。


Edit Away and My Face Will not Stay:恶意生成编辑下的个人生物特征防御
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

论文链接

GitHub链接

摘要:扩散模型的最新进展使生成式图像编辑比以往任何时候都更容易。虽然这些发展让用户能够轻松地进行创造性编辑,但它们也引发了重大的伦理问题,特别是关于对人物肖像的恶意编辑,这威胁到个人的隐私和身份安全。现有的通用图像保护方法主要侧重于生成对抗性扰动来抵消编辑效果。然而,这些方法在防范各种编辑请求时往往表现出不稳定性。在这项工作中,我们为防止恶意编辑个人人物肖像引入了一种新颖的视角。与旨在阻止编辑生效的传统方法不同,我们的方法 FACELOCK 优化对抗性扰动,以确保原始生物特征信息(如面部特征)在编辑后要么被破坏,要么被大幅改变,使得编辑输出中的对象在生物特征上无法识别。我们的方法创新性地将人脸识别和视觉感知因素集成到扰动优化过程中,确保对各种编辑尝试提供强大的保护。此外,我们揭示了图像编辑中常用评估指标的几个关键问题,并揭示了容易被操纵的作弊方法,从而导致对保护的欺骗性评估。通过广泛的实验,我们证明 FACELOCK 在防御各种恶意编辑方面的性能显著优于所有基线。此外,我们的方法对净化技术也表现出很强的鲁棒性。全面的消融研究证实了我们的方法在各种基于扩散的编辑算法中的稳定性和广泛适用性。我们的工作不仅推进了生物特征防御的最先进技术,还为图像编辑中更安全和保护隐私的实践奠定了基础。


Saliuitl:基于集成显著度引导恢复针对 CNN 的对抗图块
Saliuitl: Ensemble Salience Guided Recovery of Adversarial Patches against CNNs

论文链接

GitHub链接

摘要:对抗补丁能够误导基于卷积神经网络的计算机视觉系统。现有的恢复方法至少存在三个基本缺点之一:对场景中补丁的存在情况一无所知、无法有效处理非连续补丁攻击,以及严重依赖固定的显著性阈值。我们提出了Saliuitl,这是一种与补丁数量及其形状无关的恢复方法。与先前的工作不同,它在尝试恢复之前会明确检测补丁攻击。在我们的方法中,检测基于二值化特征图集合的属性,该集合是通过使用一组显著性阈值生成的。如果检测到攻击,Saliuitl会通过一组二值化特征图来定位补丁并进行修复,从而恢复准确的预测。我们在对抗补丁文献中广泛使用的目标检测和图像分类基准上对Saliuitl进行了评估,结果表明,与近期最先进的防御方法相比,在相同的预测损失率下,Saliuitl在图像分类和目标检测方面的恢复率分别高出97.81和42.63个百分点。从设计上看,Saliuitl计算复杂度低,并且对自适应白盒攻击具有鲁棒性。


在攻击-防御博弈中重新思考多出口神经网络的对抗鲁棒性
Rethinking the Adversarial Robustness of Multi-Exit Neural Networks in an Attack-Defense Game

论文链接

GitHub链接

摘要:多出口神经网络是一种有前景的提高模型推理效率的方法,但与普通神经网络一样,它们在对抗攻击下的鲁棒性会显著降低。虽然已经提出了一些防御方法来增强多出口神经网络的对抗鲁棒性,但我们发现了以往研究评估中一个长期被忽视的缺陷:简单地使用固定的一组出口进行攻击可能会导致对其防御能力的高估。基于这一发现,我们的工作从以下三个关键方面探讨多出口神经网络的对抗鲁棒性:(1)我们发现攻击者和防御者使用的网络出口不匹配是导致以往防御方法鲁棒性被高估的原因;(2)通过在两人零和博弈中找到最佳策略,我们提出AIMER作为一种改进的评估方案,以衡量多出口神经网络的内在鲁棒性;(3)更进一步,我们在AIMER评估下引入NEED防御方法,该方法可以通过找到博弈的纳什均衡来优化防御者的策略。在3个数据集、7种架构、6种攻击和4种基线的实验表明,在自动攻击下,AIMER评估的鲁棒性比以往方法低13.52%,而NEED的鲁棒性能比相同骨干的单出口网络最高超出5.58%。


ProjAttacker:一种通过投影仪实现的用于人脸识别的可配置物理对抗攻击
ProjAttacker: A Configurable Physical Adversarial Attack for Face Recognition via Projector | 对抗攻击

论文链接

GitHub链接

摘要:以往的物理对抗攻击表明,精心设计的扰动能够欺骗人脸识别系统,暴露出严重的安全漏洞。然而,这些攻击往往难以冒充多个目标,并且常常无法绕过活体检测。例如,使用人皮面具的攻击难以制作,在不同用户之间切换不便,而且由于面部遮挡,经常无法通过活体检测。不过,投影仪能够在不遮挡面部的情况下生成内容丰富的光线,使其成为非侵入式攻击的理想选择。因此,我们提出一种使用投影仪的新型物理对抗攻击,并探索投影光与自然光的叠加,以创建对抗性面部图像。这种方法无需在面部使用物理制品,从而有效克服了这些限制。具体而言,我们提出的ProjAttacker生成对抗性3D纹理,并将其投影到人脸。为确保物理可实现性,我们引入了一个光反射函数,该函数对投影光与人体皮肤之间的复杂光学相互作用进行建模,同时考虑反射和衍射效应。此外,我们还纳入了相机图像信号处理(ISP)模拟,以在现实世界多样的成像条件下保持对抗性扰动的鲁棒性。在数字和物理场景中进行的全面评估验证了我们方法的有效性。


T-CIL:类增量学习中使用对抗性扰动进行温度缩放校准。
T-CIL: Temperature Scaling using Adversarial Perturbation for Calibration in Class-Incremental Learning

论文链接

GitHub链接

摘要:我们研究了类别增量学习中的模型置信度校准问题,在这种学习中,模型从具有不同类别集合的顺序任务中进行学习。虽然现有工作主要关注准确性,但保持校准后的置信度在很大程度上被忽视了。不幸的是,大多数事后校准技术并非为处理类别增量学习中旧任务数据的有限记忆而设计,因为保留足够的验证集并不现实。因此,我们提出了T - CIL,这是一种用于类别增量学习的新型温度缩放方法,无需针对旧任务设置验证集,它利用了从记忆中对抗扰动的样本。直接使用样本进行温度优化是不够的,因为它们已经用于训练。T - CIL的关键思想是,通过根据特征距离调整扰动方向,对旧任务的样本进行比对新任务更强的扰动,单个扰动幅度通过新任务验证集来确定。这种策略利用了旧任务准确率低于新任务的趋势,使得从新任务计算出的扰动幅度也适用于旧任务。我们通过实验表明,T - CIL在真实数据集的校准方面显著优于各种基线方法,并且可以与现有的类别增量学习技术相结合,对准确率的影响极小。


PatchDEMUX:一种针对对抗性图块的多标签分类器的可证明鲁棒框架
PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial Patches

论文链接

GitHub链接

摘要:深度学习技术已使计算机视觉技术取得了巨大进步。然而,这些模型容易受到对抗性补丁攻击,从而严重损害性能。这些攻击的物理可实现性要求有可验证的防御方法,其特点是能对鲁棒性提供可证明的保证。虽然可验证的防御方法已成功应用于单标签分类,但针对多标签分类的研究工作有限。在这项工作中,我们提出了PatchDEMUX,这是一种针对多标签分类器抵御对抗性补丁的可验证鲁棒框架。我们的方法是一种通用方法,可通过将多标签分类任务视为一系列独立的二分类问题,从而可证明地扩展任何现有的单标签分类可验证防御方法。此外,由于一个补丁只能放置在一个位置,我们进一步开发了一种新颖的认证程序,该程序提供了更严格的鲁棒性认证边界。以当前最先进的(SOTA)单标签可验证防御方法PatchCleanser为基础,我们发现PatchDEMUX在MSCOCO 2014验证数据集上能够实现显著的鲁棒性,同时保持较高的正常性能。


A3:通过跨模态对抗特征对齐实现不可学习样本的小样本提示学习
A3: Few-shot Prompt Learning of Unlearnable Examples with Cross-Modal Adversarial Feature Alignment

论文链接

GitHub链接

摘要:摘要:在机器学习应用无处不在的时代,保护数字内容不被未经授权使用已成为一个紧迫的问题。不可学习示例(UEs),即通过不可察觉的扰动修改数据,以在保留人类可用性的同时抑制模型训练,已成为一种有前景的方法。然而,现有的UE方法假设未经授权的训练者广泛接触UEs,或者模型是从头开始训练的,这在实际场景中可能不成立。本文研究了在少样本学习范式下UEs的有效性,并将其与视觉提示学习(VPL)模型进行对比,VPL模型利用预训练的视觉语言模型(VLMs),如CLIP,能够用极少的数据对新类别进行泛化。为解决这一问题,我们引入了一个自适应UE框架,以生成专门针对VPL过程的不可学习示例。此外,我们提出了一种新颖的UE应对措施A3,采用跨模态对抗特征对齐,专门设计用于在少样本VPL下规避UEs。在7个数据集上的实验评估表明,A3优于现有的VPL方法,在从UEs中学习方面性能提升高达33%。例如,在涉及 ℓ ∞ \ell_{\infty} 有界EM扰动的场景中,A3在7个数据集上的平均调和平均准确率为82.43%,而CoCoOp的基线为65.47%。我们的研究结果凸显了现有UEs对抗VPL的局限性,并为未来的数据保护机制奠定了基础。


利用单个模型训练的 Checkpoint 增强对抗迁移性
Enhancing Adversarial Transferability with Checkpoints of a Single Model’s Training

论文链接

GitHub链接

摘要:对抗攻击威胁着深度神经网络(DNN)的完整性,尤其是在高风险应用中。本文探索了一种创新的黑盒对抗攻击策略,该策略利用单个模型训练轨迹中的checkpoint。与需要不同架构的多个替代模型的传统集成攻击不同,我们的方法利用单个模型的各种训练检查点来生成对抗样本。通过将训练过程中学习到的知识分为任务内在知识和任务无关知识,我们确定了主要捕获任务内在知识的检查点,这些知识可在不同模型间通用。我们引入了一种基于准确率差距的选择策略,以提高对抗样本对不同架构模型的可迁移性。在包括ImageNet和CIFAR - 10等基准数据集上进行的大量实验表明,我们的方法在可迁移性方面始终优于传统的模型集成攻击。此外,即使训练数据大幅减少,我们的方法仍然非常有效,为高可迁移性的对抗攻击提供了一种实用且资源高效的解决方案。


R-TPT:通过测试时提示微调提高视觉语言模型的对抗鲁棒性
R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning

论文链接

GitHub链接

摘要:视觉语言模型(VLM),如CLIP,作为基础模型已广受欢迎,人们开发了大量微调方法以提升其在下游任务上的性能。然而,由于其固有的脆弱性,以及通常从有限的开源模型中进行选择的做法,VLM相比传统视觉模型面临更高的对抗攻击风险。现有的防御技术通常依赖训练过程中的对抗微调,这需要有标记的数据,并且对于下游任务缺乏灵活性。为解决这些限制,我们提出了稳健测试时提示调整(R - TPT)方法,该方法可在推理阶段减轻对抗攻击的影响。我们首先重新构建经典的边际熵目标,去除在对抗条件下会引入冲突的项,仅保留逐点熵最小化。此外,我们引入了一种即插即用的基于可靠性的加权集成策略,该策略从可靠的增强视图中聚合有用信息以强化防御。R - TPT在无需有标记训练数据的情况下增强了对对抗攻击的防御,同时为推理任务提供了高度的灵活性。在广泛使用的基准测试上针对各种攻击进行的大量实验证明了R - TPT的有效性。


利用全局-局部协同对抗性扰动实现反定制化
Harnessing Global-local Collaborative Adversarial Perturbation for Anti-Customization

论文链接

GitHub链接

摘要:尽管潜在扩散模型(LDM)在个性化图像合成方面取得了显著成功,但它也带来了因未经授权的滥用(如面部盗用)而引发的重大社会风险。为应对这些威胁,有人提出了利用对抗扰动的反定制(AC)方法。不幸的是,现有AC方法由于忽视了层次特征,即全局特征相关性和局部面部属性,防御能力不足,导致对来自定制方法的概念迁移和语义盗用的抵抗能力较弱。为解决这一问题,我们受启发提出一种全局-局部协作反定制(GoodAC)框架,通过干扰特征相关性和面部属性来生成强大的对抗扰动。为增强抵抗概念迁移的能力,我们在全局层面破坏构成模型生成基础的感知特征的空间相关性,从而创建高度抗概念迁移的对抗伪装。为提高抵抗语义盗用的能力,利用面部属性具有个性化这一特点,我们在局部设计了一种个性化且精确的面部属性扭曲策略,将攻击重点放在个体图像结构上以生成强大的伪装。在包括Dreambooth、LoRA和文本反转等各种LDM上进行的大量实验有力地证明,我们的GoodAC在性能上大幅超越其他最先进的方法,例如在ISM上提升超过50%。


从邻近中获益:通过对邻近类别进行对抗性扰动提高野外模型的鲁棒性
Gain from Neighbors: Boosting Model Robustness in the Wild via Adversarial Perturbations Toward Neighboring Classes

论文链接

GitHub链接

摘要:近期的方法,如数据增强、对抗训练和迁移学习,在解决由分布偏移导致的性能下降问题上展现出了潜力。然而,这些方法通常需要在数据或模型方面进行精心设计,并且对分布偏移的影响缺乏认知。在本文中,我们观察到由分布偏移引起的分类错误往往集中在真实值附近,这表明误分类通常发生在语义相似的相邻类别中。此外,强大的先进视觉基础模型在保持语义一致性的同时,维持了较大的类间距离,使其对这种偏移的敏感性较低。基于这些发现,我们提出了一种名为GFN(从邻居中获益)的新方法,该方法利用来自相邻类别的梯度先验来扰动输入图像,并结合类间距离加权损失来改进类别分离。这种方法促使模型从容易出错的数据中学习更具弹性的特征,增强其在各种情况下对偏移的鲁棒性。在对各种模型架构和基准数据集进行的大量实验中,GFN始终表现出卓越的性能。例如,与当前最先进的TAPADL方法相比,我们的方法在ImageNet - C上实现了更高的41.4%的抗损坏鲁棒性(提高了2.3%),且无需额外参数,仅使用极少的数据。


通过假设空间增强提升对抗迁移性
Boosting Adversarial Transferability through Augmentation in Hypothesis Space

论文链接

GitHub链接

摘要:对抗样本可以通过微小的扰动误导深度神经网络,使其做出错误的预测。值得注意的是,为一个模型精心构造的对抗样本也能欺骗其他模型,这种现象被称为对抗样本的可迁移性。为了提高可迁移性,现有研究围绕数据与模型之间的复杂交互设计了各种机制。然而,它们的提升相对有限。此外,由于这些方法通常是为特定的数据模态设计的,这极大地限制了它们在其他数据模态上的可扩展性。在这项工作中,我们观察到模型泛化能力与对抗样本可迁移性之间存在一种镜像关系。受此启发,我们提出了一种基于增强的攻击方法,称为OPS(基于算子扰动的随机优化,Operator-Perturbation-based Stochastic optimization),该方法通过输入变换算子和随机扰动构建一个随机优化问题,并求解该问题以生成具有更好可迁移性的对抗样本。在图像和三维点云上进行的大量实验表明,OPS在性能和成本方面均显著优于现有的最先进方法,展示了我们方法的通用性和优越性。


沉默是金:在基于潜在扩散模型(LDM)的虚拟头像生成中利用对抗样本使音频控制无效
Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head Generation

论文链接

GitHub链接

摘要:基于潜在扩散模型(LDM)的说话人头像动画技术的进步,使得创建高度逼真、同步的视频成为可能。这些合成视频与真实视频难以区分,增加了被用于诈骗、政治操纵和传播错误信息等潜在滥用风险。因此,解决这些伦理问题已成为人工智能安全领域的紧迫议题。近期的主动防御研究主要集中在通过在人像上添加扰动来对抗基于LDM的模型。然而,这些方法在保护参考人像免受先进的图像转视频动画攻击方面效果不佳。其局限性体现在两方面:1)它们无法阻止图像被音频信号操控;2)基于扩散的净化技术能够有效地消除保护性扰动。为应对这些挑战,我们提出了“消音器”(Silencer)方法,这是一种两阶段的方法,旨在主动保护人像隐私。首先,提出一种归零损失,以在说话人头像生成过程中忽略音频控制。其次,在LDM中应用抗净化损失来优化反向潜在特征,以生成强大的扰动。大量实验表明,“消音器”(Silencer)在主动保护人像隐私方面是有效的。我们希望这项工作能提高人工智能安全领域对与说话人头像生成技术相关的关键伦理问题的认识。


对抗领域提示微调与生成以实现单领域泛化
Adversarial Domain Prompt Tuning and Generation for Single Domain Generalization

论文链接

GitHub链接

摘要:单域泛化(SDG)旨在学习一种稳健的模型,该模型在仅有一个可用于训练的单域时,也能在许多未见域上表现良好。实现单域泛化的一个有前景的方向是通过数据增强或图像生成来生成域外(OOD)训练数据。鉴于人工智能生成内容(AIGC)的快速发展,本文首次提出利用强大的预训练文本转图像(T2I)基础模型来创建训练数据。然而,手动设计文本提示以生成所有可能域的图像通常不切实际,而且一些域特征可能过于抽象,难以用文字描述。为应对这些挑战,我们为预训练扩散模型提出了一种新颖的渐进式对抗提示调整(PAPT)框架。我们的方法不依赖于静态文本域,而是学习两组抽象提示作为扩散模型的条件:一组捕捉域不变类别信息,另一组模拟特定域风格。这种对抗学习机制使T2I模型能够在保留关键类别特征的同时,生成各种域风格的图像。大量实验证明了所提方法的有效性,其性能优于最先进的单域泛化方法。代码见补充材料。


PatchGuard:通过视觉Transformer和伪异常实现具有对抗鲁棒性的异常检测与定位
PatchGuard: Adversarially Robust Anomaly Detection and Localization through Vision Transformers and Pseudo Anomalies

论文链接

GitHub链接

摘要:异常检测(AD)和异常定位(AL)在医学成像和工业监测等高可靠性要求领域至关重要。然而,由于训练数据的局限性,当前的AD和AL方法往往容易受到对抗攻击,这些训练数据通常仅包含正常的、未标记的样本。本研究引入了PatchGuard,这是一种对抗鲁棒的AD和AL方法,该方法在基于视觉Transformer(ViT)的架构中融入了带有定位掩码的伪异常,以解决这些漏洞。我们首先研究伪异常的基本属性,随后从理论上深入探讨增强AD和AL系统对抗鲁棒性所需的注意力机制。然后我们提出利用前景感知伪异常来克服以往异常感知方法缺陷的途径。我们的方法将这些精心制作的伪异常样本纳入基于ViT的框架,并在一种旨在提高模型鲁棒性的新型损失函数指导下进行对抗训练,这得到了我们理论分析的支持。在成熟的工业和医学数据集上的实验结果表明,PatchGuard在对抗环境下显著优于先前的方法,在AD方面性能提升53.2%,在AL方面提升68.5%,同时在非对抗环境下也保持着有竞争力的准确率。


视觉语言模型的零样本对抗鲁棒性:一种真正的零样本且无需训练的方法
On the Zero-shot Adversarial Robustness of Vision-Language Models: A Truly Zero-shot and Training-free Approach

论文链接

GitHub链接

摘要:像CLIP这样的预训练视觉语言模型(VLM)展现出了强大的零样本泛化能力。尽管它们在各种下游任务中表现出色,但仍然容易受到对抗样本的影响。现有的方法通过在特定数据集上进行对抗训练来微调VLM,以提高其性能。然而,这可能会导致模型过拟合,并且并非真正的零样本场景。在本文中,我们提出了一种真正的零样本且无需训练的方法,该方法能够显著提升VLM的零样本对抗鲁棒性。具体而言,我们首先发现简单地添加高斯噪声就能大幅增强VLM的零样本性能。然后,我们将添加了高斯噪声的对抗样本视为锚点,并努力在嵌入空间中找到一条从对抗样本通向更纯净样本的路径。与先前的方法相比,我们以一种真正的零样本且无需训练的方式提升了VLM的泛化能力。在16个数据集上进行的大量实验表明,我们的方法能够实现最先进的零样本鲁棒性能,将top-1鲁棒准确率平均提高9.77%。代码将公开提供。


RAEncoder:一种用于数据集知识产权保护的无标签可逆对抗样本编码器
RAEncoder: A Label-Free Reversible Adversarial Examples Encoder for Dataset Intellectual Property Protection

论文链接

GitHub链接

摘要:可逆对抗样本(RAE)旨在保护数据集的知识产权。这类样本可作为难以察觉的对抗样本,削弱未经授权用户的模型性能,同时允许授权用户去除对抗扰动,恢复原始样本以进行正常的模型训练。随着自监督学习(SSL)的兴起,社区中出现了越来越多的无标签数据集和预训练编码器。然而,现有的RAE方法不仅依赖标记良好的数据集来训练监督学习(SL)模型,而且在攻击SSL预训练编码器时,对抗迁移性较差。为应对这些挑战,我们提出了RAEncoder,这是首个无需标记样本的RAE框架。RAEncoder旨在通过针对SSL预训练编码器生成通用对抗扰动。与传统RAE方法不同,预训练编码器输出受保护数据集的特征分布,而非分类标签,从而提高了RAE的攻击成功率和迁移性。我们在六个预训练编码器和四个SL模型上进行了广泛实验,涵盖了诸如不可察觉性和迁移性等方面。结果表明,RAEncoder能有效保护无标签数据集免受恶意侵犯。额外的鲁棒性实验进一步证实了RAEncoder在实际应用场景中的安全性。


眼见未必为实:用于硬标签三维场景攻击的对抗性自然目标优化
Seeing is Not Believing: Adversarial Natural Object Optimization for Hard-Label 3D Scene Attacks

论文链接

GitHub链接

摘要:用于3D数据的深度学习模型已被证明容易受到对抗攻击,这种攻击在自动驾驶和机器人导航等各种安全关键型应用中受到越来越多的关注。现有的3D攻击方法主要致力于通过在白盒/黑盒设置下扰动点云对象来攻击简单的3D分类模型。然而,现实世界中的3D应用侧重于处理更复杂的基于场景的数据,同时不向用户透露模型参数和对数几率的任何信息。因此,直接将之前简单的3D攻击方法应用于这些应用并不奏效。为此,本文尝试解决具有挑战性的硬标签3D场景攻击问题,且仅能访问3D模型的输入/输出。为了使攻击既有效又隐蔽,我们提议生成通用对抗对象,无论将这些对象放置在任何场景输入中,它们都能误导具备场景感知能力的3D模型预测攻击者选定的标签。具体而言,我们向所有场景中注入一个难以察觉的对象触发器,并进一步对其进行扰动,通过仅查询3D模型来误导模型的推理。我们首先用一个逼真的对象初始化触发模式,并寻找一个合适的位置将其自然地放置在场景数据中。然后,我们设计了一种新颖的加权梯度估计策略,通过添加轻微噪声来扰动对象触发器,使其在迭代优化过程中具有对抗性。大量实验表明,我们的攻击在七个3D模型和三个基于场景的数据集上都能取得卓越的性能,具备令人满意的对抗不可察觉性以及对防御方法的强大抗性。


通过多样化参数增强提高人脸识别中对抗攻击的可迁移性
Improving the Transferability of Adversarial Attacks on Face Recognition with Diverse Parameters Augmentation

论文链接

GitHub链接

摘要:人脸识别(FR)模型易受对抗样本的攻击,这些对抗样本会对良性人脸图像进行细微的篡改,这凸显了提高对抗攻击可迁移性的迫切需求,以便揭示这些系统的盲点。现有的对抗攻击方法往往忽视了用多样化的初始化来增强替代模型可能带来的好处,这限制了所生成对抗样本的可迁移性。为了弥补这一差距,我们提出了一种名为多样化参数增强(DPA)攻击方法的新方法,该方法通过纳入多样化的参数初始化来增强替代模型,从而得到更广泛、更多样化的替代模型集。具体来说,DPA包括两个关键阶段:多样化参数优化(DPO)和硬模型聚合(HMA)。在DPO阶段,我们使用预训练参数和随机参数来初始化替代模型的参数。随后,我们在中间训练过程中保存模型,以获得多样化的替代模型集。在HMA阶段,我们通过纳入有益的扰动来增强多样化替代模型的特征图,从而进一步提高可迁移性。实验结果表明,我们提出的攻击方法能够有效地增强精心制作的对抗人脸样本的可迁移性。


提升 GNeRFs 的对抗鲁棒性:IL2-NeRF 攻击
Advancing Adversarial Robustness in GNeRFs: The IL2-NeRF Attack

论文链接

GitHub链接

摘要:通用神经辐射场(GNeRF)被认为是在实际应用中进行新视图合成和三维模型生成最有前景的技术之一。然而,与计算机视觉中的其他生成模型一样,确保其在各种威胁模型下的对抗鲁棒性对于实际应用至关重要。该领域的开创性工作NeRFool引入了一种先进的攻击方法,通过在特征提取之前对源视图进行操作来攻击GNeRF,成功扰乱了构建视图的颜色和密度结果。在此基础上,我们提出了IL2 - NeRF(迭代L2NeRF攻击),这是一种新的对抗攻击方法,探索了一种新的威胁模型(在L2域中)来攻击GNeRF。我们在三个基准数据集上针对两个标准GNeRF模型对IL2 - NeRF进行了评估,基于NeRFool提出的相同评估指标,结果表明其性能与NeRFool相近。我们的研究成果确立了IL2 - NeRF作为L2范数下针对GNeRF的首个对抗方法。我们为未来的研究建立了一个基础的L2威胁模型,能够进行直接的性能比较,同时在对抗性三维重建中引入了一种更平滑的、针对整幅图像的扰动方法。


分身与对抗性漏洞
Doppelgängers and Adversarial Vulnerability

论文链接

GitHub链接

摘要:许多机器学习(ML)分类器据称性能优于人类,但它们仍会犯人类不会犯的错误。这类错误中最臭名昭著的例子是对抗性视觉同色异谱体。本文旨在定义和研究包括对抗性视觉同色异谱体在内的对抗性分身(AD)现象,并将机器学习分类器的性能和稳健性与人类表现进行比较。我们发现,AD是根据本文定义的感知指标彼此接近的输入,并表明AD在性质上与通常的对抗性示例不同。绝大多数分类器容易受到AD的影响,稳健性 - 准确性权衡可能无法改善它们。由于底层类别模糊,一些分类问题可能不存在任何抗AD的分类器。我们提供了可用于确定分类问题是否定义良好的标准;描述了抗AD分类器的结构和属性;为易受AD攻击的分类器引入并探讨了概念熵和概念模糊区域的概念,以及限制攻击的AD欺骗率的方法。我们定义了表现出超敏感行为的分类器概念,即仅在对抗性分身问题上犯错的分类器。提高超敏感分类器的AD稳健性可提高准确性。我们确定了确保所有具有足够高准确性的分类器都具有超敏感性的条件。


“你的缩放因子是我的武器:通过缩放因子操纵对视觉 Transformer 进行目标性位翻转攻击”。
Your Scale Factors are My Weapon: Targeted Bit-Flip Attacks on Vision Transformers via Scale Factor Manipulation

论文链接

GitHub链接

摘要:视觉Transformer(ViT)已取得显著进展,并被量化以部署在资源受限的应用中。量化模型易受针对性比特翻转攻击(BFA)。针对性BFA准备一个触发器和相应的木马/后门,将后者(通过RowHammer比特翻转)插入受害模型,以误导其对包含触发器样本的分类。现有的针对量化ViT的BFA存在局限性:(1)它们需要大量的比特翻转;(2)翻转比特之间的间隔小于4KB,这使得在现实场景中使用RowHammer进行攻击不可行。我们提出了一种针对量化ViT的新型实用针对性攻击Flip - S。核心观点是,在量化模型中,比例因子的变化会波及一批模型权重。因此,对比例因子中的比特进行翻转,而非仅对模型权重中的比特进行翻转,能够实现更具成本效益的攻击。我们设计了一种比例因子搜索(SFS)算法,以识别比例因子中用于翻转的关键比特,并采用互斥策略确保翻转之间间隔4KB。我们在CIFAR - 10和ImageNet数据集上,对五种ViT架构和两个量化级别评估了Flip - S。结果表明,Flip - S在所有翻转50比特的模型上实现了超过90.0%的攻击成功率(ASR),优于通常ASR低于80.0%的基线。此外,与当前最优方法相比,Flip - S在达到相同或更高ASR的同时,将所需的比特翻转数量减少了8倍 - 20倍。我们的源代码已公开。


具有任意扰动的图神经网络抗投毒攻击的确定性认证
Deterministic Certification of Graph Neural Networks against Poisoning Attacks with Arbitrary Perturbations

论文链接

GitHub链接

摘要:图神经网络(GNN)正成为图数据学习事实上的方法,并在节点和图分类任务上取得了最先进的成果。然而,最近的研究表明,GNN在训练时容易受到投毒攻击——对训练图的边、节点或/和节点特征进行轻微扰动,就会大幅降低GNN的测试性能。之前大多数针对图投毒攻击的防御方法都是基于经验的,很快就会被自适应的/更强的攻击攻破。少数可证明的防御方法提供了鲁棒性保证,但在实际应用中存在很大差距:1)将攻击者限制在仅一种类型的扰动上;2)为特定的GNN架构或任务设计;3)鲁棒性保证并非100%准确。在这项工作中,我们通过开发PGNNCert来弥合所有这些差距,PGNNCert是首个针对GNN在任意(边、节点和节点特征)扰动下的投毒攻击的具有确定性鲁棒性保证的可证明防御方法。在多个节点和图分类数据集以及GNN上进行的广泛评估表明,PGNNCert能有效地防御任意投毒扰动。研究还表明,PGNNCert在防御GNN训练过程中的边扰动或节点扰动方面,显著优于当前最先进的可证明防御方法。


通过优化驱动的多帧扰动框架实现自动驾驶中的持久、高效且稳健的轨迹预测攻击
Enduring, Efficient and Robust Trajectory Prediction Attack in Autonomous Driving via Optimization-Driven Multi-Frame Perturbation Framework

论文链接

GitHub链接

摘要:轨迹预测在自动驾驶系统中起着至关重要的作用,探索其脆弱性已受到广泛关注。然而,现有的轨迹预测攻击方法通常依赖单点攻击来进行高效扰动。由于单点攻击的瞬态性、易受过滤性以及部署环境的不确定性,这限制了它们在现实场景中的应用。为应对这些挑战,本文提出了一种新颖的激光雷达诱导攻击框架,通过优化驱动的对抗位置搜索实施多帧攻击,实现持久性、高效性和鲁棒性。该框架通过在对抗车辆附近策略性地放置物体来实施攻击,并引入了三项关键创新。首先,利用多帧单点攻击策略生成连续的状态扰动,有效地在较长时间范围内误导轨迹预测。其次,我们通过三个专门的损失函数高效地优化对抗物体的位置,以实现所需的扰动。最后,在位置搜索阶段,我们将对抗物体视为无尺寸约束的点来提高鲁棒性,并减少对特定攻击点和对抗物体属性的依赖。大量实验证实了我们框架的卓越性能和鲁棒性。完整代码将予以发布。


针对自监督学习的隐形后门攻击
Invisible Backdoor Attack against Self-supervised Learning

论文链接

GitHub链接

摘要:自监督学习(SSL)模型易受后门攻击。现有的在SSL中有效的后门攻击通常涉及明显的触发器,如彩色补丁或可见噪声,这些很容易被人工检测到。本文提出了一种针对自监督模型的难以察觉且有效的后门攻击方法。我们首先发现,现有的为监督学习设计的难以察觉的触发器在破坏自监督模型方面效果较差。然后我们确定,这种低效性归因于后门样本与SSL中使用的增强样本之间的分布重叠。基于这一认识,我们设计了一种攻击方法,使用与SSL中的增强变换解耦的优化触发器,同时对人类视觉来说仍然难以察觉。在五个数据集和六种SSL算法上进行的实验表明,我们的攻击方法非常有效且隐蔽。它对现有的后门防御措施也具有很强的抗性。


BadToken:针对多模态大语言模型的Token级后门攻击
BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models

论文链接

GitHub链接

摘要:多模态大语言模型(MLLM)扩展了大语言模型(LLM),使其能够处理多模态信息,从而能够针对图文输入生成回复。MLLM已通过即插即用的方式,无需微调,就被集成到各种多模态应用中,如自动驾驶和医疗诊断。这种部署模式增加了MLLM对后门攻击的脆弱性。然而,现有的针对MLLM的后门攻击在有效性和隐蔽性方面都很有限。在这项工作中,我们提出了BadToken,这是首次针对MLLM的Token级后门攻击。BadToken引入了两种新的后门行为Token替换和Token添加,通过对后门输入的原始输出进行Token级修改,实现灵活且隐蔽的攻击。我们构建了一个考虑这两种后门行为的通用优化问题,以最大化攻击效果。我们在两个开源MLLM和各种任务上对BadToken进行了评估。结果表明,我们的攻击在保持模型实用性的同时,实现了较高的攻击成功率和隐蔽性。我们还展示了BadToken在自动驾驶和医疗诊断这两种场景下对现实世界的威胁。此外,我们考虑了包括微调与输入净化在内的防御措施。我们的结果突出了这种攻击的威胁。


从头到尾:通过长尾学习实现高效的黑盒模型逆向攻击
From Head to Tail: Efficient Black-box Model Inversion Attack via Long-tailed Learning

论文链接

GitHub链接

摘要:模型逆攻击(Model Inversion Attacks,MIAs)旨在从模型中重建私有训练数据,从而导致隐私泄露,特别是在人脸识别系统中。尽管许多研究提高了白盒 MIAs 的有效性,但在攻击者能力有限的情况下,对提高效率和实用性的关注较少。现有的黑盒 MIAs 需要不切实际的大量查询,从而产生显著的开销。因此,我们分析了现有 MIAs 的局限性,并引入了具有长尾增强的代理模型逆攻击(Surrogate Modelbased Inversion with Long-tailed Enhancement,SMILE),这是一种面向高分辨率且查询高效的黑盒设置下的 MIA。我们首先从数据分布的角度分析 MIAs 的初始化,并提出一种长尾代理训练方法以获得高质量的初始点。然后,我们通过采用由 NGOpt 选择的无梯度黑盒优化算法来提高攻击的有效性。我们的实验表明,SMILE 优于现有的最先进的黑盒 MIAs,同时仅需要约 5%的查询开销。


针对文生图扩散模型的隐式偏差注入攻击
Implicit Bias Injection Attacks against Text-to-Image Diffusion Models

论文链接

GitHub链接

摘要:文生图扩散模型(T2I DM)的迅速发展,使得人工智能生成的图像在日常生活中越来越常见。然而,有偏差的T2I模型可能会生成具有特定倾向的内容,这有可能影响人们的认知。蓄意利用这些偏差,可能会向公众传递误导性信息。目前关于偏差的研究主要针对具有可识别视觉模式的显性偏差,比如肤色和性别。本文介绍了一种新型的隐性偏差,这种偏差没有明显的视觉特征,但却能在各种语义情境中以不同方式表现出来。这种偏差的微妙性和多样性,使其难以被察觉,容易传播,并且能适应多种场景。我们进一步提出了一种针对T2I扩散模型的隐性偏差注入攻击框架(IBI - 攻击),该框架通过在提示嵌入空间中预先计算一个通用偏差方向,并根据不同输入进行自适应调整。我们的攻击模块可以以即插即用的方式无缝集成到预训练的扩散模型中,无需直接操纵用户输入或对模型进行重新训练。大量实验验证了我们的方案在通过微妙且多样的修改引入偏差的同时,保留原始语义的有效性。我们的攻击在各种场景下强大的隐蔽性和可迁移性,进一步凸显了我们方法的重要性。


两个比一个好:高效的鲁棒紧凑模型集成防御
Two is Better than One: Efficient Ensemble Defense for Robust and Compact Models

论文链接

GitHub链接

摘要:基于深度学习的计算机视觉系统采用复杂且庞大的架构来提升性能,然而,在资源受限的移动和边缘设备上进行部署时,它们面临着诸多挑战。为解决这一问题,诸如剪枝、量化和矩阵分解等模型压缩技术已被提出;但这些压缩后的模型往往极易受到对抗攻击。我们引入了高效集成防御(EED)技术,该技术基于不同的剪枝重要性得分,对单个基础模型的压缩方式进行多样化处理,并增强集成多样性,以实现较高的对抗鲁棒性和资源效率。EED在推理阶段动态确定所需子模型的数量,在保持高鲁棒性的同时,将不必要的计算降至最低。在CIFAR - 10和SVHN数据集上,与现有的对抗剪枝技术相比,EED展现出了最先进的鲁棒性性能,推理速度提升了1.86倍。这证明了EED是资源受限环境下强大的防御解决方案。


针对大规模图像描述模型的基于方差的成员推理攻击
Variance-Based Membership Inference Attacks Against Large-Scale Image Captioning Models

论文链接

GitHub链接

摘要:多模态生成模型的激增带来了新的隐私和安全挑战,尤其是由于存在记忆和无意泄露敏感信息的风险。本文聚焦于多模态图像字幕模型在成员推理攻击(MIA)方面的脆弱性。这些模型从视觉内容合成文本描述,可能会无意中泄露嵌入在其训练数据集中的个人或专有数据。我们探究了在此类模型背景下实施MIA的可行性。具体而言,我们的方法采用了一种专为图像字幕模型量身定制的基于方差的策略,仅利用图像数据而无需知晓相应的字幕。我们基于方差均值(MV)这一指标,引入了方差均值阈值攻击(MVTA)和基于置信度的弱监督攻击(C-WSA),以评估向量嵌入之间的变异性。我们的实验表明,这些模型易受MIA攻击,这表明存在重大的隐私风险。我们通过对这些实际模型进行严格评估,验证了我们方法的有效性,证实了我们研究结果的实际意义。


针对参数高效微调的梯度反转攻击
Gradient Inversion Attacks on Parameter-Efficient Fine-Tuning

论文链接

GitHub链接

摘要:联邦学习(FL)允许多个数据所有者通过交换本地梯度来协作训练机器学习模型,同时将其私有数据保留在设备上。为了同时提高隐私性和训练效率,最近大规模预训练模型的参数高效微调(PEFT)在联邦学习中受到了广泛关注。在保持预训练(骨干)模型冻结的情况下,每个用户仅对几个轻量级模块进行微调以便联合使用,以适应特定的下游应用。因此,仅将与这些轻量级模块相关的梯度共享给服务器。在这项工作中,我们研究了如何通过对预训练模型和可训练适配器模块的恶意设计来危及用户微调数据的隐私。我们展示了针对一种流行的PEFT机制——适配器的梯度反演攻击,攻击者仅使用可获取的适配器梯度就能重建目标用户的本地数据样本。通过大量实验,我们证明可以高保真地检索出一大批微调图像。我们的攻击凸显了对PEFT隐私保护机制的需求,同时也开辟了几个未来的研究方向。


ACAttack:通过多模态响应解耦自适应交叉攻击 RGB-T 跟踪器
ACAttack: Adaptive Cross Attacking RGB-T Tracker via Multi-Modal Response Decoupling

论文链接

GitHub链接

摘要:针对跟踪器的对抗攻击研究主要集中在RGB模态,而针对RGB-T多模态跟踪器的攻击方法目前尚未得到探索。这项工作是一次创新尝试,旨在通过多模态响应解耦开发一种自适应交叉攻击框架,生成多模态对抗补丁以躲避RGB-T跟踪器。具体而言,引入了一种模态感知自适应攻击策略,交替且迭代地削弱具有高公共信息贡献的模态,实现模态解耦攻击。为了干扰跟踪器中模态平衡机制的判断,我们设计了一种模态干扰损失,以增加跟踪器中单模态对抗样本响应图的距离。此外,我们还提出了一种新颖的时空联合攻击损失,以逐步降低跟踪器对目标的感知能力。再者,共享对抗形状的设计使得生成的多模态对抗补丁能够轻松部署在现实场景中,有效减少补丁张贴过程对红外对抗层形状攻击的干扰。大量的数字和物理领域实验证明了我们多模态对抗补丁攻击的有效性。


一种统一、有适应性且可解释的对抗性图块检测器
A Unified, Resilient, and Explainable Adversarial Patch Detector

论文链接

GitHub链接

摘要:

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐