天极按
生成式人工智能(AI)可以根据用户的提示创建文本、图像、音频或视频等内容。生成式人工智能与其他人工智能系统的不同之处在于其生成新内容的能力、训练所需的大量数据以及模型的规模和复杂性。商业开发人员已经创建了多种生成式人工智能模型,可生成文本、代码、图像和视频输出,以及可增强现有产品或支持定制开发和完善模型的产品和服务。生成式人工智能的使用呈爆炸式增长,一家商业开发商称,其一种模型的每周活跃用户已超过2亿。生成式人工智能技术的商业开发已迅速加速,业界不断更新模型,增加新的功能和能力。然而,一些利益相关者对模型使用训练数据以及可能产生的有害输出提出了信任、安全和隐私方面的担忧
本技术评估要求描述生成式人工智能技术的商业开发情况。本报告概述了常见的生成式人工智能开发实践、这些技术的局限性及其易受攻击性,以及商业开发商收集、使用和存储生成式人工智能技术训练数据的流程。本报告是研究生成式人工智能的第二份报告。在未来的报告中,我们计划评估:(1)使用生成式人工智能对社会和环境的影响;(2)联邦对生成式人工智能技术的研究、开发和采用。
开发者为促进负责任地开发和部署生成式人工智能技术而采用的常见做法包括:基准测试;制定信任、隐私和安全政策;使用多学科团队;以及红队(通过测试找出缺陷或漏洞)。
商业开发者在开发生成式人工智能技术时面临一些限制。商业开发者认识到,尽管在部署后努力对模型进行持续监控,但他们的模型可能会受到攻击,或产生与事实不符或有偏差的输出结果。
开发人员从各种来源收集数据来训练其生成式人工智能模型,包括公开信息、来自第三方的数据和用户提供的数据。然而,商业开发者使用的训练数据的具体细节并不完全向公众公开。
商业开发者采用常见做法来促进负责任地开发和部署生成式人工智能技术,例如大型语言模型(LLM)。根据对以下内容的审查,确定了这些做法是行业内的常见做法:(1)白宫2023 年10月发布的《关于安全、可靠和可信赖地开发和使用人工智能的行政命令》;(2)商业开发者提供的可用文献,例如描述其生成式人工智能模型的模型卡和白皮书。这些做法侧重于定量和定性评估方法,以提供准确和符合实际情况的结果,并防止有害输出。
尽管商业开发商发布了文档并向我们介绍了这些不同的做法,但我们并未对这些做法的有效性进行评估。此外,这些常见做法的功效可能并不完全为人所知。开发人员表示,他们的模型并不完全可靠,并告诫用户不要盲目接受模型的输出结果,因为这可能会提供不正确的信息。
开发者使用以下常用方法:
基准测试。商业开发者表示,他们使用各种基准测试来量化评估生成式人工智能模型的准确性。据一位专家称,这些测试有助于量化模型的危害程度,以便为进一步开发提供依据。这些测试包括开发人员用来评估模型在推理、事实性、数学和科学以及多语言理解等方面性能的评估和数据集(见表1)。一些开发者还公布了模型在标准化测试(如SAT 和GRE)中的表现结果。商业开发者可能会把自己的模型和竞争对手的模型的测试结果写入文档中,以突出自己的模型在哪些方面可能优于其他模型。然而,一些研究人员指出,基准测试存在一些挑战。例如,评估缺乏标准,导致结果难以解释。此外,评估数据集可能会被泄露,成为生成式人工智能模型训练数据集的一部分。
多学科团队。与我们交谈过的商业开发者告诉我们,他们在部署前会采用多学科团队来评估生成式人工智能模型。这些团队可能包括模型开发人员、相关主题专家、负责任的人工智能开发方面的社会技术专家以及法律专家。据一些开发者称,这些团队会对安全、性或图片内容以及其他有害内容等方面进行评估。这些评估可能会导致开发人员推迟部署或采取纠正措施,以防止出现不受欢迎的内容。不过,一位专家指出,这种多学科小组的使用可能不会贯穿开发者所有模型的开发过程。
部署后监测。商业开发者表示,他们会在生成式人工智能模型部署后对其使用情况进行监控。具体来说,开发者可能会根据其信任、隐私或安全政策(见下文),监控其模型的不当使用。一家开发商指出,他们会收集违反这些政策的用户信息,并限制他们进一步使用其生成式人工智能模型。
红队。在网络安全领域,红队一般用于模拟对手的攻击,这有助于识别实体基础设施中被利用的领域。就生成式人工智能模型而言,红队与渗透测试(测试系统的安全性)的关系更为密切。商业开发者表示,他们聘请了网络安全、负责任的人工智能开发和不同领域(如法律、教育或医疗保健)的众多专家来识别潜在风险。虽然开发商的 “红队 ”方法各不相同,但一些开发商表示,他们在与自主复制、化学、生物、放射性和核风险、网络能力和网络安全相关的领域进行测试。白宫关于安全、可靠和值得信赖的人工智能的行政命令也将这些领域确定为特定风险领域。图1 概述了 “红队 ”如何在生成式人工智能模型中检测和处理脆弱性领域。
图 1:生成式人工智能(AI)模型上的红队概述
隐私与安全政策。商业开发商制定了隐私和安全政策,以指导其人工智能生成技术的开发。这些政策包括有关数据使用、如何整理数据或防止有害输出的一般内部指导。例如,一家开发商表示,它制定了如何为其生成式人工智能模型策划训练数据的政策,强调性别、种族和民族的多样性。这些措施可以降低模型产生有害或歧视性输出的可能性。另一家开发商指出,它在开发生命周期中嵌入了一些原则,以确保遵守隐私、安全和道德准则。
商业开发者在负责任地开发和部署生成式人工智能技术以确保其安全和可信方面面临一些限制。开发者认识到,他们的模型并不完全可靠,用户在接受模型输出时应作出判断。但是,他们可能不会宣传这些局限性,而是在发布新的迭代模型时将重点放在模型的功能和改进上。此外,生成式人工智能模型在某些应用中可能比在其他应用中更可靠,用户可能会在模型特别不可靠的情况下使用模型。
在各种白皮书、模型卡和其他文件中,他们都指出,尽管做出了缓解努力,但他们的模型可能会产生不正确的输出,表现出偏差,或容易受到攻击。例如,它们可能产生 “混淆 ”和 “幻觉”自信地陈述但错误的内容,可能误导或欺骗用户。这种意外输出可能会产生严重后果,例如生成和发布不愿意接受的对象的露骨图像或关于如何制造武器的说明。
此外,恶意用户还在不断寻找规避模型保护措施的方法。据专家称,这些攻击不需要高级编程知识或技术知识。相反,攻击者可能只需要依靠制作文本提示的能力就能达到目的。商业开发人员意识到了这些现实以及它们对负责任地部署人工智能模型所造成的限制。
那些有意无意或恶意使用生成式人工智能技术生成有害输出的人可能会采用多种方法来实现他们的目标。根据美国国家标准与技术研究院(NIST)的一份报告,有多种攻击生成式人工智能模型的方法,主要是破坏模型的可用性(正确运行的能力)、完整性、隐私和易滥用性。
其中一种方法是提示注入,当用户输入可能改变生成式人工智能模型行为的文本时就会发生(见图2)。提示注入攻击可使用户执行非预期或未经授权的操作。例如,用户可能不会要求大型语言模型提供开发炸弹的说明(模型可能不会回答,因为这违反了安全策略),而是要求它讲述一个关于如何制造炸弹的故事,从而以一种规避模型保护措施的方式重构输入。提示注入攻击可用于窃取敏感数据、进行误导宣传或传输恶意软件等恶意活动。
图2:针对生成式人工智能(AI) 模型的提示注入攻击概述
另一种方法被称为越狱。越狱是指用户采用提示注入的方式,意图规避生成式人工智能模型的安全和节制保障措施。通过规避模型的保障措施,用户可能会导致模型输出不同类型的伤害,例如执行恶意指令或做出违反开发者政策的决定。生成式人工智能模型越狱的一种流行技术被称为 “现在做任何事 ”提示。在这种情况下,用户会命令模型采用一个没有任何保障措施或与模型初衷相冲突的角色。
生成式人工智能技术的商业开发商表示,他们采取了旨在防止此类攻击的措施。他们主要是通过红队工作和部署后监测来做到这一点。例如,一家开发商表示,他们实施了一个安全架构,包括持续的 “红色团队”、阻止滥用提示和禁止滥用其人工智能系统的用户。开发者认识到,这些风险随时可能发生,恶意用户也在不断寻找攻击生成式人工智能模型的新方法。在各种文档中,开发者强调了持续监控以降低这些风险的重要性。例如,一家商业开发商在一篇研究论文中展示了其模型的上一次迭代是如何允许某种提示注入发生的,而模型的当前迭代则将其识别为禁止内容。NIST的一份报告也提出了应对此类攻击的缓解技术,例如从人类反馈中进行强化学习、过滤用户输入中的指令以及使用大型语言模型来检测恶意攻击。
数据中毒是指攻击者通过操纵生成式人工智能系统的训练数据或过程来改变其行为的过程。攻击者可以通过多种方式 “毒化 ”数据,以修改模型的输出。定向投毒攻击是试图破坏训练数据中目标部分完整性的攻击。同样,后门中毒攻击也是以部分训练数据为目标,但它包括一种插入训练数据和测试样本的模式,以导致数据分类错误。另一种中毒攻击是数据注入攻击,即攻击者在训练集中添加新的训练数据。例如,一个聊天机器人从用户在社交媒体平台上的互动中学习,很快就以其攻击性和不恰当的回复而闻名,这就是通过有机使用社交媒体平台进行数据中毒攻击的结果。
当训练数据从公共来源获取时,基础模型尤其容易受到中毒攻击(见图3)。在数据中毒攻击中,对手通过插入或修改训练样本来控制训练数据的子集。执行数据中毒可以很简单,只需从已知数据源购买一小部分过期域名即可。
图3:数据中毒如何影响生成式人工智能模型训练数据的概述。
由于需要检查大量的训练数据,数据中毒攻击很难被检测到。此外,中毒技术可能很隐蔽,因此很难被检测到。防止数据中毒需要采用多方面的方法。例如,数据集发布者会提供用于建立训练数据集的网站地址列表。为这些网站提供服务的域名可能会过期或被购买。这可能导致资源被攻击者替换,从而引发定向中毒攻击、后门中毒攻击和模型中毒。
数据集发布者可用于降低商业实体的这种风险的一种做法是,在网站地址列表中加入一种机制,下载者可使用该机制来验证地址。其他做法包括定期数据清理和清洁、数据多样性、对抗训练、用户访问控制、监控和检测、性能基准以及用户教育和意识。预防数据中毒是一项持续的工作。随着攻击技术的发展,防御策略也应与时俱进。
生成式人工智能通常需要大量数据集进行训练,从数百万到数万亿个数据点不等。训练信息用于帮助模型学习语言以及如何回答问题。数据量可根据模型的具体类型而有所不同。在训练语言模型时,会将多个建模数据集汇总起来,以创建一个大型的多样化训练集。这些数据集中的信息可以包括互联网上的公开信息、第三方授权的信息以及用户或人类培训师提供的信息(见图4)。
图4:生成式人工智能(AI)模型的训练数据源示例
公共可用信息。由于训练基础模型需要大量数据,开发人员通常会从各种公共资源(如在线百科全书)中搜刮数据。为模型训练而收集的公共可用信息包括网络文档、书籍、代码和社交媒体帖子等数据。虽然信息可以公开获取,但这并不意味着这些信息属于公共领域,不受版权保护。一般来说,商业开发者会确定所收集信息的截止日期。例如,一种流行的语言模型使用截至2023年的事件数据。有些模型可能会从个人信息中学习,以了解姓名和地址如何与语言和句子相匹配。此外,模型还可以学习名人和公众人物的信息,以提高模型为用户提供相关回复的能力。不过,由于公开信息可能受版权保护,因此目前还不清楚这些信息是否可用于训练商业生成式人工智能模型,而不可能侵犯版权保护。
第三方许可的数据。商业实体可以购买数据来训练自己的模型。商业实体感兴趣的数据类型包括反映人类社会的大型数据集,例如,长篇写作和对话--而且这些数据集还不容易在网上向公众开放。具体来说,需要能捕捉人类情感的数据,如不同主题甚至不同语言的对话。
用户数据。可以收集提示输入、账户详情、IP地址、位置以及用户与服务和其他应用的交互等数据。一些商业实体表示,他们使用这些信息来改进产品,并为用户提供了选择不共享此类数据的选项。
有关训练数据集的具体信息并不完全向公众公开。除了模型卡和其他相关文档中的高级信息外,我们会见过的商业开发者并未披露有关其训练数据集的详细信息。例如,许多开发商表示,他们的训练数据由互联网上公开的信息组成。但是,由于无法获得他们为遵守内部信任、隐私和安全政策而对数据进行整理的过程的详细信息,我们无法评估这些过程的有效性。根据描述其模型的文件,开发人员并不分享这些过程,并坚持认为其模型的训练数据是专有的。据一位专家称,随着时间的推移,生成式人工智能模型训练数据的透明度越来越差,模型卡中包含的训练数据信息也不符合研究人员提出的准则。
此外,开发者也没有披露其训练数据在多大程度上包含版权信息。一些开发者认为,将受版权保护的信息用于训练人工智能生成模型构成了合理使用。与此相反,有人创建了一种数据中毒工具,旨在对训练数据下毒,以试图保护某些版权。如前所述,在训练数据中使用受版权保护的信息是否可能侵犯版权保护,目前尚不清楚。
商业开发者正在采取措施保护敏感信息,在培训和开发的各个阶段进行隐私评估。在训练模型之前,开发者可以过滤和整理训练数据,以减少敏感内容的使用,如收集个人信息的网站。专有训练数据集可能包含敏感数据,如用户姓名、地址和其他个人身份信息。不过,据一位专家称,能否成功删除个人信息可能取决于信息的类型。例如,与身份证号码相比,找到并删除电子邮件地址可能相对容易。
此外,商业实体正在应用不同的技术,包括人工和人工智能辅助方法,对模型进行红队分析。例如,一家开发商表示,它对其模型进行红队分析,以评估个人信息的记忆情况和降低风险的方法。另一家开发商也指出,它使用先进的安全措施来确保数据交互的安全和隔离。
为了描述能够开发和部署生成式人工智能工具的常见做法,在本研究和2023年开始的相关工作过程中,我们收集了有关各公司开发生成式人工智能的各种模型、工具、产品和服务的信息。我们选择了以下生成式人工智能商业开发商:亚马逊、Anthropic、谷歌、Meta、微软、Nvidia Corporation、OpenAI和 Stability AI。这些公司是 2023年向白宫自愿承诺管理人工智能风险的领先人工智能组织之一。我们还审查了相关公开文档,如白皮书、模型卡和指导文件,以确定有关生成式人工智能模型开发和部署流程的更多信息。此外,我们还采访了生成式人工智能商业开发商的代表。
为了描述商业开发者在开发生成式人工智能时面临的限制以及生成有害输出的方法,我们审查了商业开发者提供的文档,如模型卡和技术出版物,其中讨论了应对数据中毒、提示注入和越狱等风险和攻击的技术和缓解策略。我们还查阅了美国国家标准与技术研究院关于对抗性机器学习的技术出版物,以确定对生成式人工智能模型的攻击和缓解策略。
为了描述商业开发商收集、使用和存储生成式人工智能技术训练数据的流程,我们查阅了商业开发商提供的讨论训练数据和数据整理策略的文档。此外,我们还确定了相关文献,这些文献描述了商业开发者收集的数据类型,以及商业开发者收集的训练数据的透明度问题。我们还采访了部分生成式人工智能商业开发商的代表,以了解他们正在使用哪些保障措施来保护敏感数据。
在2024 年6 月至2024 年10月期间按照美国政府问责局质量保证框架中与技术评估相关的所有部分开展了工作。该框架要求我们计划和开展工作,以获得充分和适当的证据,从而实现我们的既定目标,并讨论我们工作中的任何限制。我们相信,所获得的信息和数据以及所进行的分析为本产品中的任何发现和结论提供了合理的依据。
天极智库聚焦网络安全相关领域,聚集网络安全职能部门、行业主管部门、科研院所、相关企业和专家学者的力量,组织开展政策研判、事件分析、技术研究、学术交流,为国家网络安全工作提供支撑,增强国家网络空间安全防御能力,提升国家关键信息基础设施安全保障能力和水平。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...