随着人工智能技术的快速发展,其在各个领域的应用越来越广泛。然而,随之而来的是安全性问题。作为AI与计算机安全的交叉领域,对抗性机器学习(Adversarial Machine Learning,AML)成为了业界关注的焦点。对抗性机器学习,是针对机器学习模型的一种攻击方式,通过在输入数据中添加微小的扰动,使得机器学习模型在处理这些数据时产生错误的输出。
2024年1月,美国国家标准与技术研究院(NIST)发布了一份关于人工智能(AI)安全性的报告《对抗性机器学习-攻击和缓解的分类和术语》,重点关注如何防范对抗性机器学习(Adversarial Machine Learning, AML)中的攻击。报告重点关注两大类人工智能系统(预测式和生成式)在训练阶段和部署阶段面临的主要攻击类型,并构建了一个AML攻击的分类法,根据攻击者在训练阶段或部署阶段的不同目标,将其划分为不同的类别。报告详细介绍了攻击与缓解手段的分类与术语,并指出由于机器学习方法存在可利用的漏洞,AI系统面临着严峻的安全和隐私威胁。NIST的这份报告对AML攻击进行了较为全面的梳理和分析,旨在为研究人员和从业人员提供一个全面的框架,以更好地理解和应对对抗性机器学习所带来的挑战。本文主要梳理了预测式、生成式人工智能系统面对的攻击类型及其缓解措施以及对抗性机器学习领域面临的挑战,以供参考。
预测式人工智能系统主要包括分类、回归、聚类等任务,其输入是已标记的数据样本,输出是对数据样本的预测结果。根据训练数据的不同,预测式人工智能系统可以分为单模态和多模态两种。
(一)预测式人工智能面临的安全威胁
预测式人工智能系统面临多种安全威胁,可分为逃避攻击、投毒攻击和隐私攻击三大类。
1.逃避攻击。其目的是通过模型接口输入提示词使模型做出错误的预测。逃避攻击可以跨模型转移,即在某个模型上生成的逃避样本可以应用于其他模型。
2.投毒攻击。其目的是通过控制训练数据或模型参数使模型做出错误的预测,可以分为可用性攻击、针对性攻击、后门攻击和模型投毒。可用性投毒通过注入噪音或破坏性数据降低模型的可用性。针对性投毒通过注入针对特定样本的数据使模型做出错误的预测。后门投毒在模型中嵌入后门代码,使模型在特定条件下做出错误的预测。模型投毒通过控制模型参数使模型做出错误的预测。
3.隐私攻击。其目的是从模型中提取敏感信息,可以分为数据重构、成员推断、模型提取和属性推断。数据重构通过模型输出反向推断输入数据。成员推断通过模型输出推断样本是否属于训练数据。模型提取通过模型查询获取模型内部信息。属性推断通过模型输出推断训练数据的属性分布。
预测式人工智能系统分为训练阶段和部署阶段。训练阶段面临中毒攻击,攻击者可以通过控制训练数据或模型参数实施攻击。部署阶段面临逃避攻击,攻击者可以通过模型接口输入提示词使模型做出错误的预测。报告认为,攻击者可以利用多种能力实施攻击,包括训练数据控制、模型控制、测试数据控制、标签控制、源代码控制和查询访问。根据攻击者对模型的了解程度,攻击可以分为白盒攻击、黑盒攻击和灰盒攻击。白盒攻击指攻击者拥有模型的全部信息(包括训练数据、模型架构和模型超参数等),黑盒攻击指攻击者只能查询模型的输出,对机器学习系统拥有最少的信息。灰盒攻击是一系列介于黑盒和白盒攻击之间的攻击,攻击者拥有机器学习系统的部分信息(例如,攻击者可能知道模型架构但不知道其参数,或者知道模型及其参数但不知道训练数据)。同时,攻击可以应用于不同模态的数据,包括图像、文本、音频、视频和表格数据。
(二)预测式人工智能的攻击缓解方法
1.针对逃避攻击,可以采用的缓解方法:(1)对抗训练:在模型训练过程中,不断生成对抗性样本并加入训练数据,使模型能够识别对抗性样本并产生正确的输出。(2)随机平滑:在模型预测时,对输入进行随机噪声扰动,使模型产生不同的输出,从而降低逃避攻击的成功率。(3)形式验证:通过数学推理和证明,证明模型在一定条件下是安全的,能够抵抗逃避攻击。(4)模型压缩:通过模型压缩技术,减少模型对敏感信息的依赖,从而降低逃避攻击的成功率。
2.针对数据投毒攻击,可以采用的缓解方法:(1)训练数据清理:通过检测并移除训练数据集中的中毒样本,可以减轻数据投毒攻击的影响。常用的方法包括基于区域非兴趣的方法、标签清洗、异常检测等。(2)鲁棒训练:通过在训练时引入噪声或使用trimmed损失函数等方法,可以提高模型对中毒样本的鲁棒性。(3)对抗训练:在训练过程中迭代生成对抗性样本并加入正确标签,可以增强模型对中毒攻击的抵抗力。(4)模型检验和修剪:通过分析模型,检测并修剪后门样本,可以减轻模型中毒攻击的影响。此外,针对于模型中毒攻击可以通过上述检测和修剪后门、修改模型参数等方法缓解。
3.针对隐私攻击,可以采用的缓解方法:(1)差分隐私:在模型训练过程中,加入随机噪声,使模型输出具有随机性,从而保护训练数据隐私。(2)模型蒸馏:通过将大模型蒸馏到小模型中,减少模型对敏感信息的依赖,从而保护训练数据隐私。(3)机器遗忘:通过删除模型中的敏感信息,使模型对训练数据的影响降低,从而保护训练数据隐私。
生成式人工智能系统包括生成对抗网络(Generative Adversarial Networks, GAN)、生成预训练Transformer(Generative Pre-trained Transformer, GPT)和扩散模型(Diffusion Model)等。这些系统可以产生新的内容,如图像、文本、音频等。与预测式人工智能系统不同,生成式人工智能系统没有明确的输入和输出,而是基于概率分布生成样本。
(一)生成式人工智能面临的安全威胁
生成式人工智能系统面临多种安全威胁,尽管预测式人工智能系统中的许多攻击类型都适用于生成式人工智能,但还需特别关注新型安全违规行为。根据生成式人工智能系统的学习过程,可以将攻击分为训练阶段和部署阶段。根据攻击的目标和行为,可以将攻击分为四类:可用性攻击、完整性攻击、隐私攻击和违规滥用。
1.可用性攻击。其目的是让生成式人工智能系统生成包含特定指令的文本,从而导致系统可用性下降。
2.完整性攻击。其目的是让生成式人工智能系统生成包含错误信息的文本,从而导致系统输出不完整或不正确。
3.隐私攻击。其目的是让生成式人工智能系统生成包含敏感信息的文本,从而导致用户隐私泄露。
4.滥用违规。其目的是让生成式人工智能系统生成包含有害内容的文本,从而导致系统被滥用。
攻击者的主要攻击手段可以分为训练数据控制、查询访问权限、源代码控制和资源控制四种。训练数据控制指攻击者可以通过插入或修改训练样本来控制训练数据的子集,查询访问权限指攻击者可以向模型提交查询以接收输出,源代码控制指攻击者可能会修改机器学习算法的源代码,资源控制指攻击者可能会修改生成式人工智能模型在运行时摄取的资源(如文档、网页)。
(二)生成式人工智能的攻击缓解方法
报告中详细阐述了针对人工智能供应链体系、直接提示注入攻击、间接提示注入攻击的缓解应对方法。
1.由于AI是由软件、数据、模型等组成的复杂系统,因此其供应链中存在多种安全风险,例如软件漏洞、数据泄露和模型攻击等。
针对人工智能供应链体系的攻击,可以采用的缓解方法:(1)使用安全的模型持久化格式,例如safetensors,以增强模型存储的安全性。(2)定期对模型工件进行漏洞扫描,包括对机器学习管道中使用的模型工件进行定期的安全性检查,以识别和修复潜在的安全漏洞。(3)加强数据源的验证,对于从网络上获取的数据,验证数据的来源和完整性,确保数据未被篡改或污染。(4)对图像进行免疫处理,使图像在被大型扩散模型处理时保持其原始状态,不受恶意篡改的影响。
2.当用户注入旨在改变LLM行为的文本时,就会发生直接提示注入。针对直接提示注入攻击,可以使用的缓解方法:(1)对齐训练,模型提供者持续通过更严格的前向对齐训练来创建内置机制。(2)提示指令和格式化技术,通过向提示添加特定指令,指导模型如何处理用户输入。(3)采用检测技术,模型供应商通过训练更严格的反向对齐来创建内置机制,以更好地识别和处理潜在的攻击。
3.由于LLM在处理输入时并不总是能够明确区分数据和指令,
攻击者可以通过资源控制,实施间接提示注入攻击。针对间接提示注入攻击,可以使用的缓解方法:(1)从人类反馈中强化学习(RLHF),使LLM更好地与人类价值观保持一致,并防止出现不被需要的行为。(2)过滤检索输入,对检索到的输入进行处理,以过滤掉指令。(3)LLM调节器,用于检测攻击,而不仅仅是过滤明显有害的输出。(4)基于可解释性的解决方案,对预测轨迹进行离群点检测。
报告中就当前对抗机器学习领域面临的主要挑战进行了讨论,并指出了该领域尚需解决的一些关键问题。
1.随着模型规模的不断扩大,训练数据量也在成比例增长,这给保证模型安全带来新的挑战。互联网上存在大量未标记的合成内容,这给后续训练的模型带来潜在风险。此外,随着模型能力的增强,针对大规模语言模型和生成扩散模型的攻击也在增多。
2.当前对抗稳健性存在理论上的局限性。许多机器学习算法缺乏信息理论安全的证明,导致现有的对抗攻击缓解技术往往是经验性的,并且随着更强大的攻击出现而不断被打破。
3.虽然开放源代码模型有利于科研与创新,但也可能被恶意利用。如何管理这种风险需要各方共同努力。
4.供应链安全也是一个关键的挑战。随着模型能力的增强,攻击者可能通过供应链对模型植入后门等。保障模型供应链安全需要各方通力合作。
5.安全性、可解释性和公平性之间存在权衡取舍。在实际应用中,往往需要根据具体情况权衡这些属性。找到这些属性的最佳平衡点仍是一个开放的研究问题。
6.多模态模型不一定更稳健。多模态模型虽然可以利用不同模态的数据冗余,但仍可能被单模态攻击成功。如何提高多模态模型的稳健性是一个值得研究的方向。
7.量化模型的安全性和稳健性仍需进一步研究。量化模型继承了原始模型的漏洞,同时也引入了新的弱点,需要持续监控其行为。
当前对抗机器学习领域仍面临许多挑战,需要各界通力合作,从理论、算法、系统实现等多个方面进行研究和改进,以使机器学习模型更加安全可靠。
免责声明:本文转自战略科技前沿。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!
推荐阅读
转自丨战略科技前沿
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
微信:iite_er
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...