干净标签的无差别投毒攻击会在训练集图像上添加不可见的扰动,极大地降低受害模型的泛化能力。最近所提出的防御机制,如对抗性训练、图像变换、图像净化等,要么容易受到自适应攻击,要么作出了不实际的假设,要么只对特定类型的毒药有效,限制了其通用有效性。为此,文章提出了一种更为通用高效、更实际且鲁棒的防御方案,称为ECLIPSE。文章首先研究了高斯噪声对中毒图像的影响,并从理论上证明了在施加足够的随机噪声时,不同类型的毒药扰动都会被同化。基于此,ECLIPSE假设受害者可以获取极少量的干净图像,然后扩大这个稀疏集以训练一个去噪概率模型。接着,ECLIPSE引入高斯噪声来吸收中毒图像,然后应用扩散模型进行去噪,从而得到一个净化的数据集。最后,为了解决高斯噪声在不同中毒图像同化敏感度上的不一致性问题,文章进一步提出了一个轻量级的补偿模块,以消除残留的毒药。大量基准数据集上的实验表明ECLIPSE防御方法优于10种现有最先进的防御机制,在CIFAR-10数据集上的测试准确率平均高于现有方案4.21%-31.55%。
该成果“ECLIPSE: Expunging Clean-Label Indiscriminate Poisons via Sparse Diffusion Purification”收录于第29届European Symposium on Research in Computer Security(ESORICS 2024)上,ESORICS是计算机安全领域的顶级国际学术会议,也是中国计算机学会(CCF)推荐的B类会议,该会议2024年的录用率为16%。
论文链接:https://link.springer.com/chapter/10.1007/978-3-031-70879-4_8
代码链接:https://github.com/CGCL-codes/ECLIPSE
背景与动机
深度神经网络(Deep Neural Network,DNN)的迅速发展标志着人工智能领域的一场革命。在过去的十年中,由于计算能力的增强、大规模数据的可用性以及创新的训练技术,深度学习取得了巨大的突破。深度神经网络的层次结构允许模型从数据中学到复杂的特征和表示,从而能够在图像识别、语音识别、自然语言处理等任务上表现出色,因此其在医疗、金融、交通等多个领域产生了深远的影响,推动了科学研究和工业应用的飞速发展。这一快速进展不仅为技术创新提供了新的可能性,也为社会带来了深刻的变革。
然而,深度神经网络的成功依赖于大量的训练数据,这促使许多商业公司通过自动抓取来源不受信任的图像来充当它们的训练集。这些不受信任的数据有可能被攻击者利用以实现对DNNs投毒,从而挑战其在安全相关的应用中的可信性。在图像领域,目前最为流行的数据投毒攻击是干净标签可用性投毒攻击,其是指攻击者不对标签进行任何篡改的情况,仅通过对图片样本添加人眼不可觉察的噪声实现投毒。受害者模型在中毒数据上训练后的泛化性能将急剧下降,在干净的测试分布中具有极低的准确率。这一类投毒攻击具有极高的隐蔽性和攻击效果,对防御者提出了一个巨大的挑战。
防御干净标签可用性投毒攻击具有重要的研究意义,特别是在当今大规模部署深度学习模型的环境中,对于这一类攻击的防御研究对于确保模型的鲁棒性和可信度至关重要。首先,成功防御投毒攻击将有助于提高深度学习模型在实际应用中的安全性。在许多关键领域,如医疗、金融和自动驾驶等,模型的准确性和可信度对决策过程至关重要。如果这些模型受到投毒攻击的影响,可能导致严重的安全风险和实际损害。因此,开展针对投毒攻击的研究不仅有助于提高模型性能,还有助于保障在现实应用中对模型的信任。其次,研究防御投毒攻击还可以推动深度学习领域的创新。针对投毒攻击的防御策略需要综合考虑模型的鲁棒性、泛化能力和性能,这将促使研究人员提出更有效的模型和训练方法。这对于推动深度学习技术的发展具有积极意义,并有助于构建更加健壮和可靠的人工智能系统。
最近有许多为了解决这一投毒攻击的防御技术被提出,包括对抗性训练, Image Shortcut Squeezing(ISS),对抗数据增强(Adversarial Augmentation,AA)。然而这些方法大多数都不能胜任,因为他们都只对某些类别的毒药有效,不能作为一个通用有效的防御方案。针对干净标签可用性投毒攻击设计一个通用有效的防御方案是至关重要的,因为这些毒药的隐蔽性使得防御者难以辨别所面临的投毒攻击是哪一种。而另一类具有前景的防御策略则是数据净化方案,然而这些方案是完全不切实际的,因为他们对干净数据集的获取做了不切实际的假设,例如Dolatabadi等人假设防御者可以获取完整的干净训练集来训练一个扩散模型,这严重违反了发生于训练阶段的投毒攻击场景的假设。
除此之外,由于毒药的隐蔽性,判断训练集是否是干净或者被投毒是十分困难的。因此,任何旨在抵御毒药攻击的防御策略都必须确保在没有毒药的情况下不会显著损害模型的准确性。基于此,我们提出了“干净准确率”的概念,即在不受攻击的数据集上使用防御策略训练模型所获得的准确率。这一概念作为另一个关键的评估指标在之前的研究中并未受到足够关注。因此,我们现在急需针对干净标签可用性投毒攻击设计一个通用有效、符合实际场景的、以及不剧烈损伤干净准确率的防御方案。
设计与实现
1
基于稀疏训练的去噪工具
本方案假设防御者私密存储了一组稀疏图像数据集Ds={Si}i=1B,其分布与干净训练集(大小为N)的分布相同。确保稀疏数据集与干净数据的分布一致是关键。本方案设置B≪N,以使本方案的假设在中毒攻击中更具实际意义。为了解决稀疏数据集规模与假设可行性之间的权衡,本方案尝试使用各种标准数据增强技术扩展数据集,包括裁剪、翻转、旋转以及强数据增强方法mixup。然而,这些数据增强方法在抵御某些攻击(如SEP)时证明效果不佳,限制了本防御方案的通用性,效果如图1所示。这可能是因为扩散模型训练的本质在于从噪声数据分布到干净数据分布的映射学习,而数据增强改变了原始干净数据分布,从而影响了扩散模型的采样能力。
图1 使用裁剪、翻转、旋转以及强数据增强方法mixup得到的稀疏训练的净化效果
为了解决这一问题,本方案提出直接复制原始数据集,从而完全保持增强数据集的分布与原始数据集一致,同时增加数据量。本方案将这一重复数据扩展方案形式化为:
DA= Ds∪R(Ds,M)
其中,函数𝑅表示在数据集Ds上执行复制操作后获得的数据集,𝑀表示复制的次数,DA表示用于训练扩散模型的扩展数据集。接着,本方案利用无条件扩散过程,从扩展数据集DA中采样的初始图像x0生成x1,x2,…,xT。其前向随机高斯噪声添加过程被表述为:
其中,q (x0,x1,…,xT )表示前向过程的联合分布,βt是时间t的随机噪声方差,αt和 βt满足 αt2+ βt2= 1。
2
吸收和消除多种毒药
从图2(a)中可以看出,现有的投毒攻击的种类各异,因此所设计的方案需要具有通用有效性。本方案首先向被污染的图像添加随机高斯噪声,以统一吸收毒性扰动,这通过连续时间扩散模型实现,表示为:
其中,,k1和k2是小于零的常数,ϵ∼ N(0,I) ,xp是被污染的投毒图像,前向步骤t*表示添加的高斯噪声的强度。经过吸收过程后,本方案使用从稀疏数据训练的扩散模型中获得的去噪参数来消除毒性扰动,定义为:
其中,z∼N(0,I),当t = 1时,设置z = 0。
图2 (a) 我们展示了八种毒药扰动类型,并逐步在一到五十轮中添加服从正态分布的高斯噪声。我们观察到高斯噪声对低频扰动的同化较慢,而对高频扰动的同化较快;(b) 我们提出的防御方案 ECLIPSE 的总体框架图。
3
轻量级损伤补偿模块
由于不同毒药模式引起的同化效应的变化,某些毒药需要更多的噪声才能有效同化。具体来说,低频毒药(例如,EM、REM和LSP)以及鲁棒的高频毒药(例如,SEP)同化得更慢。为了解决这个问题,本方案提出了一种轻量级的损伤补偿模块,用以消除这些残余的毒性扰动,同时确保图像特征不受过度损害。由于低频毒性作用于图像的颜色敏感区域,本方案利用概率灰度变换来去除残余的低频毒药。此外,本方案首次提出了轻量级的高斯噪声来消除强鲁棒的高频毒药SEP。这两阶段的轻量级损伤模块能够有效地清除残余毒药,同时确保对图像特征的影响最小,这可以形式化定义为:
其中,xf表示最终处理后的图像,xe表示净化后的图像,ε∼ N(0,σ2),G表示灰度变换函数。三个模块形成的最终的防御方案ECLIPSE如图2(b)所示。
实验评估
1
ECLIPSE的性能评估
表1中用灰色标示了防御后和无防御情况下平均测试准确率相近的数值。这表明,cutout、mixup、cutmix和DP-SGD对于干净标签可用性投毒攻击几乎无效。同时,我们用浅黄色标示了准确率低于50%的结果,表示防御效果不合格;用浅蓝色标示了准确率高于80%的结果,表示防御能力优秀。因此,ISS-G、AA、OP和AVATAR在对抗各种类型的中毒攻击时表现出极大的局限性,如表1所示,这使它们不适合作为通用防御方案。此外,表1显示的两种最新防御方案AT和ISS-J的平均测试准确率分别比ECLIPSE低超过8%和4%。在ImageNet数据集上的测试中,我们的防御方案也优于这两种最新防御方案(见表2)。考虑到只有AT和ISS-J的防御性能在测试准确率上与ECLIPSE相当,我们进一步在表3中仅比较了这两种方案的干净数据准确率。可以看出,ECLIPSE在这一指标上具有绝对且显著的优势。同时,ISS-J对干净数据的训练准确率造成了约9%的损害,这表明了该方法的缺陷(表2和表3中用深橙色标示的值表示最佳防御效果,浅橙色标示的值表示次优效果)。
表1 在CIFAR-10数据集上使用ResNet18和VGG19的测试准确率
表2 在ImageNet数据集上使用ResNet18和DenseNet121的准确率
表3 在CIFAR-10数据集上使用不同模型的干净准确率
2
ECLIPSE对自适应攻击的评估
我们假设攻击者了解扩散模型和补偿模块的结构,并据此设计了一种针对 ECLIPSE的自适应攻击,称为ADP,其涉及解决以下优化目标:
其中,δa满足∥δa∥∞ ≤ 𝜖,是具有∞-范数约束的自适应毒化扰动;𝑈表示扩散模型中使用的U-Net网络,该模型被稍作修改为一个分类网络(最终层被替换为具有全局平均池化的卷积层);𝑪是轻量补偿模块中的损坏函数。针对ADP的防御性能已在表1中给出。我们提出的ECLIPSE方案在防御ADP时表现出色,表明ECLIPSE面对自适应攻击时具有很强的鲁棒性。
3
净化视觉效果评估
经过毒化吸收和噪声去噪的处理后,生成的图像本质上是一张净化后的图像,如图3所示。可以看出,经过稀疏扩散净化阶段后,中毒图像中的毒化噪声明显被去除。
图3 五种干净标签可用性投毒攻击的样本的视觉展示,包括干净图像、中毒图像、加噪图像和净化后图像。
详细内容请参见
Xianlong Wang, Shengshan Hu, Yechao Zhang, Ziqi Zhou, Leo Yu Zhang, Peng Xu, Wei Wan, Hai Jin, "ECLIPSE: Expunging Clean-Label Indiscriminate Poisons via Sparse Diffusion Purification", In Proceedings of the 29th European Symposium on Research in Computer Security (ESORICS 2024), September 16-20, 2024, Bydgoszcz, Poland.
https://link.springer.com/chapter/10.1007/978-3-031-70879-4_8
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...