对抗性ML攻击
对抗性机器学习攻击对机器学习系统的安全和隐私构成重大威胁。在下一节中,我们概述了规避、 中毒和 后门 攻击,这些攻击性威胁的主要类别会破坏 ML 系统的安全属性。尽管此类攻击暴露了基于学习的算法的固有弱点,但重要的是要在可实现(或问题空间)攻击的背景下考虑它们的影响,我们将在本节末尾进行讨论。
规避攻击
规避攻击(也称为测试时攻击)是指攻击者在推理阶段操纵(扰动)输入数据以误导机器学习模型。一般来说,对抗性攻击的主要工作机制是解决一个优化问题,该问题旨在发现对输入数据的扰动,当添加这些扰动时,会导致目标机器学习模型产生不正确或误导性的输出。这些扰动通常很小,通常对人类来说是察觉不到的,但足以有效地欺骗模型。
优化问题可以正式定义如下:
其中 x 是原始输入,δ 是扰动,∥δ∥是扰动的lp范数(扰动大小的度量),是分类器,n 是输入空间的维数。目标函数力求最小化扰动δ的 lp 范数,但须遵守以下约束条件:(a) 分类器为扰动输入 (x + δ) 生成与原始输入 x 不同的类。附加约束 (b) 确保扰动输入保持在有效输入域内,对于归一化输入,该域为 [0, 1]n。
对抗性攻击算法,如快速梯度符号法(FGSM、预测梯度下降法(PGD)、Carlini和Wagner(C&W),以及最近提出的快速最小范数(FMN),在如何解决这一优化问题和处理超参数选择、对抗性起点和收敛计算复杂性方面存在差异。一些攻击使用模型损失函数的梯度信息来有效地计算对抗性扰动,而另一些攻击则采用更高级的优化技术。尽管存在这些差异,但这些攻击的总体目标是找到一个最佳扰动,该扰动可以有效地欺骗目标模型,同时根据某些选定的范数将扰动的大小最小化。
对抗性 ML 攻击最初是在计算机视觉任务的背景下研究的。因此,上述关于最小 lp 范数扰动的考虑通常是保证对抗性输入被视为与原始输入相似的要求。Biggio和Roli扩展了这一观察结果,并建议对高置信度攻击与低置信度攻击进行推理,相反,前者不一定受到最小扰动目标的限制。当我们考虑视觉感知概念没有意义的领域时,例如在软件、网络或自然语言处理任务中,这种推理会进一步加剧。事实上,在这里,最小化输入扰动可能并不重要,而是要满足其他约束,例如语义,这将影响输入对象的操作方式。我们将在第后面章节中讨论所谓的问题空间或可实现的攻击。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...