从部署到运维：全球安全机构联手打造AI安全部署指南 | 英美安全机构《AI系统安全部署指南》全文翻译 - 新鲜讯息

执行摘要

安全部署人工智能（AI）系统需要仔细的设置和配置，这取决于AI系统的复杂性、所需资源（例如，资金、技术专长）以及所使用的基础设施（即本地、云或混合）。本报告扩展了安全AI系统开发指南中的“安全部署”和“安全运维”部分，并结合了《与人工智能（AI）互动中的缓解》进行考虑。它适用于由另一实体设计和开发的AI系统的组织部署和运营。最佳实践可能不适用于所有环境，因此应将缓解措施适应特定用例和威胁概况。[1]，[2]

AI安全是研究领域中快速发展的区域。随着机构、行业和学术界发现AI技术和技术的潜在弱点以及利用它们的方法，组织将需要更新其AI系统以应对变化的风险，除了将传统的IT最佳实践应用于AI系统。

本报告由美国国家安全局的人工智能安全中心（AISC）、网络安全和基础设施安全局（CISA）、联邦调查局（FBI）、澳大利亚信号局的澳大利亚网络安全中心（ACSC）、加拿大网络安全中心（CCCS）、新西兰国家网络安全中心（NCSC-NZ）和英国国家网络安全中心（NCSC-UK）共同撰写。

AISC和本报告的目标是：

提高AI系统的保密性、完整性和可用性；
确保AI系统中已知的网络安全漏洞得到适当的缓解；
提供方法和控制措施来保护、检测和响应针对AI系统及相关数据和服务的恶意活动。

范围和受众

本报告中AI系统一词指的是基于机器学习（ML）的人工智能（AI）系统。

这些最佳实践最适用于在本地或私有云环境中部署和运营外部开发的AI系统的组织，特别是在高威胁、高价值环境中的组织。它们不适用于不自己部署AI系统而是利用他人部署的AI系统的组织。

并非所有指导方针都直接适用于所有组织或环境。对手的复杂程度和攻击方法将根据针对AI系统的对手而变化，因此组织应考虑其用例和威胁概况的同时使用指导方针。

请参阅安全AI系统开发指南，了解AI系统的设计和开发方面。[1]

引言

AI能力的快速采用、部署和使用可能使它们成为恶意网络行为者的高价值目标。历史上曾通过盗窃敏感数据和知识产权来推进其利益的行动者，可能会寻求控制已部署的AI系统，并将它们用于恶意目的。

恶意攻击者针对人工智能（AI）系统时，可能会利用AI系统特有的攻击手段，也可能使用那些针对传统信息技术（IT）的常规攻击技巧。因为攻击手段多种多样，我们的防御措施也需要全面且多样化。那些技术高超的攻击者往往会同时使用多种攻击手段，进行更为复杂的攻击行动，这样的组合攻击更容易突破层层安全防护。

组织应考虑以下最佳实践，以保护部署环境，持续保护AI系统，并安全地操作和维护AI系统。

以下最佳实践与CISA和国家标准与技术研究所（NIST）共同开发的跨行业网络安全性能目标（CPGs）一致。CPGs提供了CISA和NIST推荐所有组织实施的最小实践和保护集。CISA和NIST基于现有的网络安全框架和指南制定CPGs，以防范最常见和影响最大的威胁、战术、技术和程序。访问CISA的跨行业网络安全性能目标，了解更多关于CPGs的信息，包括额外推荐的基线保护。

保护部署环境

组织通常在现有的IT基础设施内部署AI系统。在部署之前，他们应确保IT环境应用健全的安全原则，如健全的治理、设计良好的架构和安全的配置。例如，确保负责AI系统网络安全的人员与负责组织网络安全的总体人员相同[CPG 1.B]。

IT环境的安全最佳实践和要求也适用于AI系统。以下最佳实践对于应用到AI系统和组织部署它们的IT环境中尤为重要。

管理AI系统的部署环境和治理

如果组织外部的组织正在部署或运营AI系统，请与IT服务部门合作，确定部署环境，并确认它符合组织的IT标准。

了解组织的风险水平，并确保AI系统的使用在组织的整体风险容忍度内，并且在托管AI系统的特定IT环境的风险容忍度内。评估和记录适用的威胁、潜在影响和风险接受度。[3]，[4]
确定每个利益相关者的角色和责任，以及他们如何对履行它们负责；确定这些利益相关者尤其重要，如果组织分别管理他们的IT环境和AI系统。
确定IT环境的安全边界以及AI系统如何适应其中。

要求AI系统的主要开发人员为其系统提供威胁模型。

AI系统部署团队应利用威胁模型作为指导，实施安全最佳实践，评估潜在威胁，并计划缓解措施。[5]，[6]

在为AI系统产品或服务开发合同时，考虑部署环境的安全要求。
促进所有相关方的协作文化，包括特别是数据科学、基础设施和网络安全团队，允许团队表达任何风险或关注，并让组织适当地解决它们。

确保强大的部署环境架构

为IT环境和AI系统之间的边界建立安全保护[CPG 2.F]。
识别并解决边界保护和其他安全相关领域中的盲点，这些是威胁模型识别的。例如，确保使用访问控制系统对AI模型权重进行限制，并限制访问到一组具有两人控制（TPC）和两人完整性（TPI）的特权用户[CPG 2.E]。

译者注：

"两人控制（TPC）"指的是在进行某些敏感操作时，需要至少两名授权人员同时在场并同意，以确保操作的安全性和可追溯性。这是一种防止单一个体滥用权限的措施。

"两人完整性（TPI）"则是指在处理敏感数据或关键操作时，需要两名独立的授权人员来验证和确认操作的准确性和完整性，以避免错误或故意的篡改。

识别并保护组织将在AI模型训练或微调中使用的所有专有数据源。如果可能，检查由他人训练的模型所使用的数据源列表。维护可信和有效数据源的目录将有助于防止潜在的数据投毒或后门攻击。对于从第三方获取的数据，考虑按照CPG 1.G和CPG 1.H推荐的内容，通过合同或服务级别协议（SLA）规定。
将安全设计原则和零信任（ZT）框架应用于架构，以管理来自AI系统的风险。[7]，[8]，[9]

加强部署环境配置

将现有的安全最佳实践应用于部署环境。这包括在加固的容器或虚拟机（VMs）中沙箱化运行ML模型的环境[CPG 2.E]，监控网络[CPG 2.T]，配置具有允许列表的防火墙[CPG 2.F]，以及其他最佳实践，如NSA的云部署十大云缓解策略中的最佳实践
查看硬件供应商的指导和通知（例如，GPU、CPU、内存），并应用软件补丁和更新，以最小化利用漏洞的风险，最好通过通用安全咨询框架（CSAF）。[10]
保护敏感AI信息：通过在数据静止时进行加密，确保AI模型权重、输出和日志的安全，并在硬件安全模块（HSM）中存储加密密钥，以便之后按需进行解密[CPG 2.L]。
实施强认证机制：建立强大的认证机制、访问控制和安全的通信协议，例如使用最新版本的传输层安全性（TLS）来加密传输中的数据[CPG 2.K]。
确保使用防钓鱼的多因素认证（MFA）：对于访问信息和服务，确保使用能够抵抗网络钓鱼攻击的多因素认证[2]，并监控并响应欺诈性认证尝试[CPG 2.H][11]。
了解和缓解安全控制的弱点：了解并减轻恶意行为者如何利用安全控制的弱点，按照《Weak Security Controls and Practices Routinely Exploited for Initial Access》中的缓解措施进行操作。

保护部署网络免受威胁

采用零信任策略的心态，假设违规是不可避免的或已经发生。实施检测和响应能力，实现快速识别和遏制违规行为。[8]，[9]

使用经过充分测试、高性能的网络安全解决方案，有效识别未经授权的访问尝试，并提高事件评估的速度和准确性[CPG 2.G]。
集成事件检测系统以帮助确定事件的优先级[CPG 3.A]。此外，集成一种手段，以立即阻止被怀疑是恶意的用户访问，或在需要快速响应的重大事件中断开所有进入AI模型和系统的传入连接。

持续保护AI系统

模型是软件，像所有其他软件一样，可能存在漏洞、其他弱点或恶意代码或属性。

在使用前和使用中验证AI系统

使用加密方法、数字签名和校验和来确认每个工件的来源和完整性（例如，加密safetensors以保护其完整性和保密性），在AI过程中保护敏感信息免受未经授权的访问。[14]
为AI模型和系统的每个版本创建哈希和加密副本，将其存档在防篡改的位置，将哈希值和/或加密密钥存储在安全保险库或硬件安全模块（HSM）中，以防止同时访问加密密钥和加密数据和模型。[1]
将所有形式的代码（例如，源代码、可执行代码、基础设施即代码）和工件（例如，模型、参数、配置、数据、测试）存储在具有适当访问控制的版本控制系统中，以确保只使用经过验证的代码，并且跟踪任何更改。[1]
在修改后，彻底测试AI模型的健壮性、准确性和潜在漏洞。应用技术，如对抗性测试，以评估模型对妥协尝试的弹性。[4]
准备自动回滚，并使用具有人工介入的高级部署作为故障安全措施，以提高可靠性、效率，并实现AI系统的持续交付。在AI系统的背景下，回滚功能确保如果新模型或更新引入问题或AI系统被破坏，组织可以快速恢复到最后一个已知的良好状态，以最小化对用户的影响。
评估并保护任何外部AI模型和数据的供应链，确保它们符合组织标准和风险管理政策，并优先选择根据安全设计原则开发的模型。确保了解并接受那些无法遵守组织标准和政策的供应链部分的风险。[1]，[7]
不要立即在企业环境中运行模型。在考虑调整、训练和部署之前，在安全开发区内仔细检查模型，尤其是导入的预训练模型。使用组织批准的AI特定扫描仪（如果有的话），以检测潜在的恶意代码，确保部署前模型的有效性。
考虑自动化检测、分析和响应能力，通过提供使IT和安全团队更高效的洞察力，使他们能够快速、有针对性地对潜在的网络事件做出反应。对AI模型及其托管的IT环境进行持续扫描，以识别可能的篡改。

在考虑是否使用其他AI功能使自动化更有效时，仔细权衡风险和收益，并确保在需要时有人参与。

确保API的安全暴露

如果AI系统暴露了应用程序编程接口（APIs），通过实施API访问的身份验证和授权机制来保护它们。使用安全协议，如带有加密和身份验证的HTTPS [CPG 2.C, 2.D, 2.G, 2.H]。[1]
为所有输入数据实施验证和数据清洗协议，以减少传递给AI系统的不良、可疑、不兼容或恶意输入的风险（例如，提示注入攻击）。[1]

积极监控模型行为

收集日志以涵盖输入、输出、中间状态和错误；自动化警报和触发器 [CPG 2.T]。
监控模型的架构和配置设置，以检测任何未经授权的更改或可能危及模型性能或安全的意外修改。[1]
监控尝试访问或从AI模型获取数据或聚合推理响应的尝试。[1]

保护模型权重

加固访问模型权重的接口，增加对手窃取权重的努力。例如，确保API只返回任务所需的最少数据，以抑制模型反转。
尽可能实施模型权重存储的硬件保护。例如，禁用不需要的硬件通信能力，并防止辐射或侧通道技术。

译者注：

“防止辐射或侧通道技术”是安全领域的术语，涉及到保护硬件安全模块（HSM）或其他敏感设备免受侧通道攻击。

辐射：这里指的是电磁辐射，即电子设备在运行过程中可能发出的电磁波。攻击者可以通过捕捉这些电磁波来尝试获取设备中的敏感信息。
侧通道技术：这是一种攻击手段，攻击者不直接攻击加密算法本身，而是通过分析加密系统的物理实现（如功耗、计算时间、电磁泄漏等）来获取加密密钥或其他敏感信息。侧通道攻击利用了物理实现的非理想特性，而不是算法本身的弱点。

积极隔离权重存储。例如，将模型权重存储在受保护的存储库中，在高度限制区域（HRZ）（即单独的专用飞地）中，或使用硬件安全模块（HSM） [CPG 2.L]。[12]

安全AI运维

遵循组织批准的IT流程和程序来部署AI系统，确保以批准的方式实施以下控制措施：

防止未经授权的访问或篡改AI模型。应用基于角色的访问控制（RBAC），或在可能的情况下应用基于属性的访问控制（ABAC），将访问限制在授权人员。

区分用户和管理员。要求对管理访问进行多因素认证（MFA）和特权访问工作站（PAW）[CPG 2.H]。

译者注：

特权访问工作站（Privileged Access Workstation，简称PAW）是一种特殊的计算机工作站，用于执行需要高权限或敏感操作的任务。PAW通常用于管理、配置和维护关键系统和应用程序，因为它们提供了额外的安全措施来保护这些操作免受恶意软件和其他安全威胁的侵害。

PAW的关键特点包括：

增强的安全性：PAW配备了高级安全软件和硬件，如防病毒、防恶意软件、入侵检测系统和防火墙。
访问控制：严格限制谁可以访问PAW，通常仅限于授权的管理员和技术人员。
物理安全：PAW可能被放置在安全的位置，以防止未授权的物理访问。
专用用途：PAW专门用于执行特权任务，不用于日常的、可能面临更高安全风险的活动，如浏览互联网或打开电子邮件附件。
监控和审计：所有在PAW上的操作都可能被密切监控和记录，以便于事后审计和跟踪。

使用PAW的目的是减少高权限操作的安全风险，确保关键任务的安全性和完整性。在涉及敏感数据或关键基础设施的组织中，如金融服务、政府机构和大型企业，PAW的使用非常普遍。

确保用户意识和培训

教育用户、管理员和开发人员关于安全最佳实践的知识，如强密码管理、防网络钓鱼和安全数据处理。促进安全意识文化，以最小化人为错误的风险。如果可能，使用凭证管理系统来限制、管理和监视凭证使用，以进一步降低风险 [CPG 2.I]。

进行审计和渗透测试

让外部安全专家对即将部署的AI系统进行审计和渗透测试。这有助于发现可能被内部忽视的漏洞和弱点。[13]，[15]

实施强大的日志记录和监控

使用强大的监控和日志记录机制监控系统的行为、输入和输出，以检测任何异常行为或潜在的安全事件 [CPG 3.A]。[16] 在监控AI系统时，需要留意数据的统计特性是否随时间发生了变化（数据漂移），以及是否出现了异常的高频率或重复的输入模式。[17]
建立一个警报机制，当系统检测到可能是故意破坏的复杂攻击、安全漏洞或者不寻常的行为时，能够立即提醒管理员。[18]

定期更新和打补丁

在将模型更新到新/不同版本时，进行全面评估，确保在重新部署之前，准确性、性能和安全测试在可接受的范围内。

准备高可用性（HA）和灾难恢复（DR）

根据系统需求，使用不可变的备份存储系统来确保所有对象，尤其是日志数据，一旦写入就无法更改。[2]

计划安全删除能力

在任何过程中，如果数据和模型被暴露或可以被访问，必须执行彻底的组件删除操作，比如删除训练和验证模型或加密密钥，确保没有留下任何备份或残留信息。[19]

结论

撰写机构建议部署AI系统的组织实施强大的安全措施，既能防止敏感数据被盗，也能减轻AI系统的滥用。例如，模型权重作为深度神经网络中可训练的参数，是特别关键且需要保护的部分。它们代表了训练高级人工智能模型过程中许多昂贵且具有挑战性的要素的成果，这包括大量的计算资源、收集和处理可能包含敏感信息的数据，以及算法的优化工作。

AI系统是软件系统。因此，部署组织应优先选择安全设计，其中AI系统的设计师和开发者对系统运行后的积极安全结果感兴趣。[7]

尽管我们必须全面实施安全措施来防御各种潜在的攻击手段，以防止出现严重的安全漏洞。并且随着人工智能领域的不断发展，我们的最佳实践方法也会随之更新。但在此之前，以下是一些特别关键的安全措施概要：

对所有需要高权限访问或运行关键服务的设备，持续进行安全漏洞的评估。
加固和更新IT部署环境。
审查AI模型的来源和供应链安全。
在部署前验证AI系统。
对AI系统实施严格的访问控制和API安全，采用最小权限和深度防御的概念。
使用强大的日志记录、监控和用户和实体行为分析（UEBA）来识别内部威胁和其他恶意活动。

译者注：

用户和实体行为分析（User and Entity Behavior Analytics，简称UEBA）是一种先进的安全分析技术，它通过监控和分析用户及实体（如设备、应用程序、网络等）的行为模式，来识别和预防潜在的安全威胁。UEBA 系统使用机器学习和数据科学方法，从大量数据中发现异常行为，这些行为可能表明有恶意活动发生。

UEBA 的关键特点包括：

行为基线学习：系统首先学习正常行为模式，建立基线。
行为分析：持续监控用户和实体的行为，与基线进行比较。
异常检测：当检测到与基线显著偏离的行为时，系统会发出警报。
多数据源融合：分析来自不同来源的数据，如网络日志、系统日志、用户活动记录等。
上下文关联：考虑行为发生的上下文，以提高警报的准确性。
自动化响应：在某些情况下，系统可以自动采取措施，如隔离可疑设备或终止可疑会话。

UEBA 可以帮助组织提前发现潜在的安全问题，如内部威胁、账户泄露、恶意软件传播等，从而提高整体的安全防御能力。

限制和保护对模型权重的访问，因为它们是AI系统的本质。
持续关注当前和新兴的安全威胁，特别是在快速变化的人工智能领域，确保组织的人工智能系统得到加固，以防范安全漏洞和弱点。

最后，保护AI系统涉及一个持续的过程，包括识别风险、实施适当的缓解措施和监控问题。通过采取本报告中概述的步骤来保护AI系统的部署和运营，组织可以显著降低所涉及的风险。这些步骤有助于保护组织的知识产权、模型和数据免受盗窃或滥用。从一开始就实施良好的安全实践将为组织成功部署AI系统奠定正确的道路。

参考文献

[1] National Cyber Security Centre et al. Guidelines for secure AI system development. 2023. https://www.ncsc.gov.uk/files/Guidelines-for-secure-AI-system-development.pdf
[2] Australian Signals Directorate et al. Engaging with Artificial Intelligence (AI). 2024. https://www.cyber.gov.au/sites/default/files/2024- 01/Engaging%20with%20Artificial%20Intelligence%20%28AI%29.pdf
[3] MITRE. ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) Matrix version 4.0.0. 2024. https://atlas.mitre.org/matrices/ATLAS
[4] National Institute of Standards and Technology. AI Risk Management Framework 1.0. 2023. https://www.nist.gov/itl/ai-risk-management-framework
[5] The Open Worldwide Application Security Project (OWASP® ). LLM AI Cybersecurity & Governance Checklist. 2024. https://owasp.org/www-project-top-10-for-large-language-modelapplications/llm-top-10-governance-doc/LLM_AI_Security_and_Governance_Checklist-v1.pdf
[6] The Open Worldwide Application Security Project (OWASP® ). OWASP Machine Learning Security Top Ten Security Risks. 2023. https://owasp.org/www-project-machine-learning-securitytop-10/
[7] Cybersecurity and Infrastructure Security Agency. Secure by Design. 2023. https://www.cisa.gov/securebydesign
[8] National Security Agency. Embracing a Zero Trust Security Model. 2021. https://media.defense.gov/2021/Feb/25/2002588479/-1/- 1/0/CSI_EMBRACING_ZT_SECURITY_MODEL_UOO115131-21.PDF
[9] Cybersecurity and Infrastructure Security Agency. Zero Trust Maturity Model. 2022. https://www.cisa.gov/zero-trust-maturity-model
[10] Cybersecurity and Infrastructure Security Agency. Transforming the Vulnerability Management Landscape. 2022. https://www.cisa.gov/news-events/news/transforming-vulnerabilitymanagement-landscape
[11] Cybersecurity and Infrastructure Security Agency. Implementing Phishing-Resistant MFA. 2022. https://www.cisa.gov/sites/default/files/publications/fact-sheet-implementing-phishing-resistantmfa-508c.pdf
[12] Canadian Centre for Cyber Security. Baseline security requirements for network security zones Ver. 2.0 (ITSP.80.022). 2021. https://www.cyber.gc.ca/en/guidance/baseline-securityrequirements-network-security-zones-version-20-itsp80022
[13] Ji, Jessica. What Does AI Red-Teaming Actually Mean? 2023. https://cset.georgetown.edu/article/what-does-ai-red-teaming-actually-mean/
[14] Hugging Face GitHub. Safetensors. 2024. https://github.com/huggingface/safetensors.
[15] Michael Feffer, Anusha Sinha, Zachary C. Lipton, Hoda Heidari. Red-Teaming for Generative AI: Silver Bullet or Security Theater? 2024. https://arxiv.org/abs/2401.15897
[16] Google. Google's Secure AI Framework (SAIF). 2023. https://safety.google/cybersecurityadvancements/saif/
[17] Government Accountability Office (GAO). Artificial Intelligence: An Accountability Framework for Federal Agencies and Other Entities. 2021. https://www.gao.gov/assets/gao-21-519sp.pdf
[18] RiskInsight. Attacking AI? A real-life example!. 2023. http://wavestone.com/en/2023/06/attacking-ai-a-real-life-example
[19] National Cyber Security Centre. Principles for the security of machine learning. 2022. https://www.ncsc.gov.uk/files/Principles-for-the-security-of-machine-learning.pdf