摘要
ICO正在启动一系列关于数据保护法应如何适用于生成式人工智能模型的开发和使用的征求意见,该系列已经于2024年6月10日停止了公开征求意见。
生成式人工智能指的是能够创造新内容的人工智能模型,例如文本、计算机代码、音频、音乐、图像和视频。通常这些模型是在广泛的数据集上训练的,这使它们能够展现出广泛的通用能力。
如果组织负责任地开发和部署生成式人工智能,并赢得所依赖数据的来源者的信任,那么生成式人工智能的影响可能对人们和企业都是变革性的。我们正在迅速行动以解决任何风险,并使组织和公众能够获得生成式人工智能的好处。
新技术,新问题
我们与创新者的互动揭示了若干领域,在这些领域中,组织寻求对数据保护法律如何适用于生成式人工智能模型的开发与使用获得更清晰的指导。
由于生成式人工智能的开发和部署方式与那些用于分类或预测目的的较简单的人工智能模型不同,这引出了一些新的问题。
我们的征求意见系列
在接下来的几个月里,我们将分享一系列章节,概述我们对如何解释UK GDPR和2018年DPA第2部分与这些问题相关的特定要求的初步思考。
我们邀请所有对生成式人工智能感兴趣的利益相关者作出回应并帮助形成我们的立场。这包括生成式人工智能的开发者和用户、在这个领域工作的法律顾问和顾问、民间团体和其他对生成式人工智能感兴趣的公共机构。
我们将使用收到的意见来更新我们关于人工智能和其他产品指南。
第一章:网页抓取训练生成式人工智能的合法性基础
这篇文章是ICO关于生成性人工智能系列征求意见的一部分。这次征求意见集中在从网络抓取数据或处理网络抓取的数据以训练生成性人工智能模型的合法基础。我们提供了我们进行的分析摘要和我们希望征求意见的政策立场。
背景
作为生成性人工智能生命周期第一阶段的收集训练数据
开发一个生成性人工智能模型涉及几个阶段。最初步骤是收集和预处理训练数据。然后使用这些数据来训练基础模型。接着,基础模型针对特定环境进行微调,并评估其性能。在部署后,定期提供反馈以改进模型。
用于生成式人工智能的训练数据:它是什么,来自哪里?
大多数生成式人工智能的开发者依赖公开可访问的来源来获取他们的训练数据。开发者要么通过网页抓取直接收集训练数据,要么间接地从其他已经抓取了数据的组织那里获取,或者通过这两种方法的混合。无论哪种方法,开发者都需要确保他们处理的个人数据的收集符合数据保护法规。
什么是网页抓取?
网页抓取涉及使用自动化软件来“爬取”网页,收集、复制和/或提取那些页面上的信息,并将这些信息(例如存储在数据库中)用于进一步使用。信息可以是网站上的任何内容——图片、视频、文本、联系方式等。
从互联网环境如博客、社交媒体、论坛讨论、产品评论和个人网站抓取的信息可能包含个人放置在那里的个人数据。重要的是要注意,互联网也包含并非由与之相关的人放置的信息(例如讨论论坛、泄露的信息等)。
收集训练数据的可能合法基础是什么?
作为符合数据保护合法性原则的一部分,开发者需要确保他们的处理:
(a) 不违反任何法律;以及
(b) 根据英国GDPR具有有效的合法基础。
如果抓取个人数据违反了除数据保护之外的其他法律法规,如知识产权法或合同法,那么第一个方面(a)将不满足。
为了解决点(b)并确定合法基础,生成性人工智能开发者需要考虑英国GDPR第6(1)条中列出的六个合法基础。根据当前实践,六个合法基础中的五个在训练生成性人工智能时使用网络抓取的数据可能不可用。
因此,这次证据呼吁集中在合法利益的合法基础(英国GDPR第6(1)条(f)),在某些情况下可能适用。为了满足合法利益基础,控制者必须通过“三要素”测试【1】,并证明:
处理的目的合法; 处理对于该目的是必要的;以及 个人的利益不会覆盖正在追求的利益。
我们的分析
1. 合法利益是否是训练网络抓取数据的生成性人工智能模型的有效合法基础?
合法利益可以是训练网络抓取数据的生成式人工智能模型的有效合法基础,但只有当模型的开发者能够确保他们通过三要素测试时。为了做到这一点,他们可以采取以下行动,我们将在下面探讨。
目的测试:是否有有效利益?
作为生成性人工智能模型训练的控制者,开发者需要首先确定处理网络抓取的个人数据的合法利益。尽管模型的潜在下游用途可能有很多,但它们需要基于在收集训练数据时能够访问的信息,以具体而非开放式的方式构建利益框架。
开发者的利益可能是开发模型并将其部署以获得商业利益的商业利益,无论是在自己的平台上还是在市场中供第三方采购。也可能有更广泛的社会利益与模型可能驱动的应用相关——但为了依赖这些,开发者必须能够证明模型的特定目的和使用。
关键问题是:如果你不知道你的模型将被用于什么,你如何确保其下游使用将尊重数据保护以及人们的权利和自由?
依赖广泛社会利益的开发者需要通过在网络抓取数据上应用适当的控制和监控措施,确保这些利益实际上正在实现而不是假设。
必要性测试:鉴于目的,网页抓取是否必要?
必要性测试是一种事实评估,它询问处理是否有必要实现目的测试中确定的利益。ICO的理解是,目前,大多数生成性人工智能训练只能使用通过大规模抓取获得的大量数据。
尽管未来的技术发展可能提供新的解决方案和替代品,但目前几乎没有证据表明生成性人工智能可以使用较小的专有数据库进行开发。我们期待就此观点提出意见。
平衡测试:个人的权利是否覆盖了生成性人工智能开发者的利益?
如果控制者已经确定使用网络抓取数据进行生成性人工智能训练是合法目的,并且处理对于该目的是必要的,那么最后一步是评估对个人的影响,并确定那些个人的利益、权利和自由是否覆盖了控制者或第三方追求的利益。
通过网页抓取收集数据是一种“隐形处理”活动,人们不知道他们的个人数据以这种方式被处理。这意味着人们可能会失去对他们的个人数据如何以及被哪些组织处理的控制,或者变得无法行使英国数据保护法律授予的信息权利。隐形处理和与人工智能相关的处理都被视为需要在ICO指导下进行数据保护影响评估(DPIA)的高风险活动【2】。
2. 个人利益在平衡测试中如何体现?
关于生成式人工智能模型的风险和伤害,已有越来越多的文献【3】【4】。为生成式人工智能开发而抓取数据的个人可能会遭受伤害,这些伤害与训练数据的收集有关,或是因为使用生成式人工智能模型。这些伤害可以以两种方式表现:
上游风险和伤害:例如,人们可能会失去对他们的个人数据的控制【5】,因为他们没有被告知其数据的处理情况,因此无法行使他们的信息权利或评估该处理对他们的影响,包括其公平性。 下游风险和伤害:例如,生成式人工智能模型可以用来生成关于个人的不准确信息【6】,导致痛苦【7】【8】或声誉伤害,被黑客使用【9】部署社交工程策略生成针对个人的钓鱼电子邮件【10】,或进行其他对抗性攻击【11】。
3. 在平衡测试中考虑的风险缓解措施
有一些考虑因素可能有助于生成式人工智能开发者通过合法利益测试的第三部分,这与模型的开发和部署都相关。
生成式人工智能开发者在部署期间能够减轻下游伤害的程度取决于他们将模型投入市场的方式。
由初始开发者部署的生成式人工智能模型
当生成式人工智能模型开发者在自己的平台上部署模型时,预期他们可以完全控制如何使用生成式人工智能模型。如果开发者依赖于更广泛的社会公共利益作为测试的第一部分,为了通过整个测试,他们仍然应该能够:
控制并证明生成式人工智能模型是否真正用于所述的更广泛的社会利益; 评估对个人的风险(在生成式人工智能开发期间提前进行,以及作为部署后持续监控的一部分); 实施技术和组织措施以减轻对个人的风险。 通过API由第三方(非初始开发者)部署的生成性人工智能模型
另一种部署生成式人工智能模型的方式是开发者通过API向第三方提供模型。在这种情况下,第三方没有自己的底层生成式人工智能模型副本,但可以通过API查询它,输入自己的数据。这有时被称为“闭源”方法。
在这种情况下,初始生成式人工智能开发者可以通过实施技术(例如输出过滤器等)和组织控制来确保第三方的部署与生成式人工智能训练阶段确定的合法利益一致。
例如,API访问可以用来限制查询(防止那些可能导致对个人的风险或伤害),并监控模型的使用。合同限制和措施也可以用于支持这一点,开发者在法律上限制其客户使用生成式人工智能模型的方式。我们希望听到更多关于缓解措施及其效果评估和记录的信息。
提供给第三方的生成性人工智能模型
如果初始开发者向第三方提供了底层生成性人工智能模型的副本或大量详细信息(例如模型权重、起始代码等),则预计开发者对模型的下游使用将有更少的控制。在这些情况下(有时被称为“开源”方法),客户通常运行他们自己的生成性人工智能模型实例。
如果生成性人工智能模型能够在无限多的下游应用中实现,其初始开发者可能无法限制或监控模型的使用及其影响。这意味着他们可能无法知道在初始训练阶段确定的潜在广泛社会利益是否在实践中得到实现。此外,如果第三方对模型的使用不受限制,清晰而精确地阐述开发初始模型的广泛社会利益可能变得极其困难,因为开发者可能无法有意义地知道或监控模型的使用。
合同控制可能缓解这种风险,尽管开发者也需要证明任何此类控制实际上是否得到遵守。
结论
在网络抓取数据上训练生成性人工智能模型是可行的,如果生成性人工智能开发者认真对待他们的法律义务,并能在实践中证明和展示这一点。
关键在于有效考虑合法利益测试。使用网络抓取数据训练生成性人工智能模型的开发者需要能够:
证明并确定一个有效和明确的利益。 当他们不能或无法行使对模型使用的有意义的控制时,特别仔细地考虑平衡测试。 展示他们如何实现识别出的利益,以及如何减轻对个人的风险,包括他们如何行使信息权利。
注:
1 What is the legitimate interests basis?
2 Examples of processing ‘likely to result in high risk’
3 Evaluating social and ethical risks from generative AI - Google DeepMind
4 Generating Harms: Generative AI’s Impact & Paths Forward – EPIC – Electronic Privacy Information Center
5 OpenAI, Google, and Meta used your data to build their AI systems - Vox
6 Six Risks Of Generative AI (forbes.com)
7 I felt numb – not sure what to do. How did deepfake images of me end up on a porn site? - Deepfake - The Guardian
8 Spanish prosecutor investigates if shared AI images of naked girls constitute a crime - Spain - The Guardian
9 AI: a new tool for cyber attackers — or defenders? - ft.com
10 ChatGPT tool could be abused by scammers and hackers - BBC News
11 The Cybersecurity Crisis of Artificial Intelligence: Unrestrained Adoption and Natural Language-Based Attacks
第二章:生成式人工智能生命周期中的目的限制原则
本章说明了如何在生成式人工智能生命周期的不同阶段应用目的限制的数据保护原则。
背景
特定、明确和合法的目的
数据保护法中的目的限制原则要求组织在处理个人数据时必须清晰并公开其原因,并确保其意图与个人的合理预期相符。
目的限制要求组织在开始处理任何个人数据之前必须有一个清晰的目的。如果他们不清楚为什么处理个人数据,那么他们也无法向个人清晰地说明。
这个目的必须是合法的,意味着:
必须有处理它的法律依据【1】; 该目的不违反其他法律,如知识产权或合同法。
目的还必须是明确的和明确的:组织需要清楚为什么他们正在处理个人数据。组织必须在内部文件和治理结构中清楚这一点,同时也要向与个人数据相关的人员清楚说明。
不同阶段,不同目的
生成式人工智能模型的生命周期涉及几个不同的阶段。每个阶段可能涉及处理不同类型的个人数据,出于不同的目的。任何涉及处理个人数据的活动都与数据保护相关。
例如,训练基础模型的目的将需要训练数据和测试数据,而适应基础模型的目的可能需要第三方开发自己的应用程序时的微调数据。
不同的组织可能对这些不同的目的有不同的控制权(例如,是否将模型微调以驱动应用程序),这有助于界定目的的边界。
为什么目的限制很重要?
在每个阶段都有一个明确的目的将允许组织适当理解每个处理活动的范围,评估其与数据保护的合规性,并帮助他们证明这一点。
例如,开发者可能收集训练数据,并且在这些数据上训练一个生成式人工智能模型。模型训练后,开发者可能决定开发一个应用程序,部署模型以服务于某些业务目标。进行模型开发和部署的组织理解和记录这两个目的至关重要。
如果没有适当的目的分离,开发者就无法评估他们如何满足其他数据保护原则,包括是否:
数据对目的是否必要(最小化原则); 数据用于该目的是否合法(合法性原则); 目的是否已向数据相关的人员解释(透明度原则); 目的是否符合人们的合理预期,或者可以解释为什么任何意外的处理是合理的(公平原则); 以及声明的目的是否与处理活动的范围和组织确定该范围的能力相符。
我们的分析
重新使用训练数据的兼容性
训练数据可能很昂贵且难以收集,因此开发者可能希望返回到相同或丰富的训练数据集,并多次使用它。如果以这种方式重新使用训练数据,例如,训练两个或更多的不同模型,重新使用训练数据的开发者必须考虑训练新模型的目的是否与收集训练数据的原始目的兼容。
一个需要考虑的关键因素是,数据被重新使用时,其数据被处理的个人的合理预期是什么。如果进一步的处理与原始目的不兼容,控制者将需要建立一个新的、独立的目的。
对于那些在训练过程中直接与生成式人工智能编码的个人数据相关的个人有直接联系的组织来说,评估这种兼容性可能更为容易。
译者注:换句话说,如果一个组织在收集和使用个人数据时与数据主体有直接的联系和互动,那么在评估是否将这些数据用于新的或不同的用途时,确定这种使用是否与收集数据时的目的相符合可能会更加直接和简单。
如果开发者与该个人没有直接关系,公共信息传播活动和突出的隐私信息可能有助于提高个人的意识,以及保护措施(匿名化或使用增强隐私的技术)以减轻对个人可能的负面影响。
如果进一步的处理与原始目的不兼容,控制者将需要建立一个新的、独立的目的。
一个模型,多个目的
各种生成式人工智能驱动的应用程序,如聊天机器人、图像生成器和虚拟助手,都可以依赖于一个作为它们基础模型。在生成式人工智能模型的预训练之后,基于它或其微调版本构建应用程序,使其能够在现实世界中部署。
这意味着一个基础模型可以开发出许多不同的应用程序。例如,可以使用相同的大语言模型来创建一个帮助构思的应用程序、一个回答客户电子邮件的应用程序、一个生成法律合同的应用程序,甚至一个最终可以用于任何这些任务的通用应用程序。
在生成式人工智能模型预训练时,开发者可能已经考虑了他们想要构建的特定应用程序或应用程序。或者,特别是如果开发者和部署者是不同的组织,应用程序可能只有在基础模型已经存在后才被指定。
两个处理活动可以由同一个组织执行,也可以由不同的组织执行。我们了解到,常见的行业实践包括以下情况:
一个组织同时开发生成式人工智能模型和基于它的应用程序;【2】 一个组织开发生成式人工智能模型,然后提供它或其微调版本给另一个组织,后者随后可能开发一个嵌入它的应用程序以服务于自己的业务目标; 一个组织开发生成式人工智能模型,然后根据另一个组织关于产品预期目的的指示,基于模型开发一个应用程序。
我们认为,在数据保护法下,开发生成式人工智能模型和基于该模型开发应用程序(无论是否微调)构成不同的目的。这除了组织在收集网络抓取数据的存储库时可能追求的初始独立目的之外。
定义目的
目的必须足够详细和具体,以便所有相关方都清楚了解为什么以及如何使用个人数据。这些方包括:(i) 开发模型的组织;(ii) 数据被用来训练模型的数据主体;(iii) 在部署期间数据被使用的数据主体;(iv) 信息专员办公室(ICO)。
依赖非常广泛目的(例如“为了开发生成式人工智能模型而处理数据”)的开发者可能在内部和外部解释该目的涵盖的具体处理活动时遇到困难。这是因为,如果没有对目的的精确解释,开发者将很难证明为什么需要特定类型的个人数据,或者如何通过任何合法利益平衡测试。
为每个不同的处理定义一个具体和清晰的目的,是数据保护设计和默认方法的关键。
考虑整个生成式人工智能生命周期的开发者和部署者可以评估生命周期每个阶段的目的是什么,然后继续确定该目的需要哪些个人数据(如果有)。一个明确定义的目的还将帮助开发者和部署者为生命周期的不同阶段分配控制者和处理者的责任,并向正在处理其数据的数据主体解释这种责任分配。
我们理解,在生成式人工智能生命周期的早期阶段,如初始数据收集的目的可能比接近部署端的目的更难精确定义。许多生成式人工智能模型的开发是开放式的,其业务目标是开发多功能、通用模型,使公司能够在所有垂直领域扩展。尽管如此,在生成式人工智能生命周期的初始阶段定义目的涉及考虑模型可能导致哪些类型的部署,以及模型将具有什么功能。
在基于模型开发应用程序时,将更容易更详细地指定该处理的目的。基于生成式人工智能模型开发应用程序的组织,应考虑这些应用程序将用于什么,以及开发它需要哪些个人数据处理(例如,微调以确保模型针对将在特定上下文中部署的任务进行训练)。
结论
生成式人工智能模型的特点在于它们可以广泛使用的方式。尽管这些模型意图开放,但开发者需要仔细考虑数据保护的目的限制原则,以确保在他们开始处理之前,他们能够:
明确每个生命周期的不同阶段的足够具体、明确和清晰的目的; 解释每个阶段处理哪些个人数据,以及为什么需要这些数据来满足声明的目的。
如果组织仔细考虑开发生成式人工智能模型、基于它开发应用程序之间的区别,并清楚每种情况下使用和处理哪些类型的数据,它们将更好地遵守数据保护法并维护公众信任。
注:
1 See the first call for evidence for more detail on the lawful basis: Generative AI first call for evidence: The lawful basis for web scraping to train generative AI models
2 The application through which the model is deployed can then be made available to other parties or made accessible through an API, as discussed in our first Call for Evidence.
第三章:训练数据和模型输出的准确性
本章是ICO关于生成式人工智能的征求意见系列的一部分。第三次征求意见稿重点关注准确性原则如何适用于生成式人工智能模型的输出,以及训练数据的准确性对输出的影响。我们提供了我们所进行分析的摘要以及我们希望就此进行咨询的政策立场。
背景
数据保护的准确性原则和统计准确性
准确性是数据保护法的原则之一。这一法律原则要求组织确保他们处理的个人数据是“准确且必要时保持最新”。它还要求组织采取“一切合理步骤……以确保不准确的个人数据,考虑到它们被处理的目的,被立即删除或更正”【1】。
本次征求意见稿侧重于数据保护中的准确性原则,即某人的个人数据是否正确和最新。这种对准确性的解释与其他用法不同,例如人工智能工程师在统计建模中有时使用准确性来指代人工智能系统输出与标记正确的测试数据之间的比较。我们使用以下术语:
“准确性”指数据保护法的准确性原则; “统计准确性”指人工智能系统本身的准确性。
个人数据不必总是准确的
个人数据不需要在所有情况下都保持最新。数据是否需要准确取决于处理目的:在某些情况下,处理过时的信息(例如历史记录)或并非事实准确的信息(例如意见)是适当的。
此外,正如ICO关于人工智能和数据保护的指南明确指出的,准确性原则并不意味着生成式人工智能模型的输出需要100%统计准确。适当的统计准确性水平取决于模型的使用方式,对于用于对人做出决策的模型需要高统计准确性。在这种情况下,例如,用于分类客户查询的模型需要比用于帮助开发视频游戏故事情节的模型保持更高的准确性【2】。
不准确性的影响
在实践中应用数据保护准确性原则可以防止关于人们的虚假信息传播,并确保关于人们的决策不是基于错误的信息。
对于生成式人工智能模型,开发者和部署者必须考虑训练数据对输出的影响,以及输出将如何被使用。如果由于不准确的训练数据导致输出不准确,并且这些输出对个人有影响,那么开发者和部署者可能没有遵守准确性原则。
例如,如果用户错误地依赖生成式人工智能模型提供事实上准确的信息,可能会产生负面影响,如声誉损害、财务损失和错误信息的传播【3】。
数据保护法的准确性原则与更正权密切相关,这是人们根据法律要求更正其数据的权利。本文档的分析不包括更正权,但未来的征求意见将重点关注在生成式人工智能开发和使用背景下数据主体权利的问题【4】。
我们的分析
生成式人工智能模型的输出应该是准确的吗?
这个问题只能通过首先考虑基于生成式人工智能模型的特定应用的用途来回答。一旦部署模型的组织确定了它的用途,并与开发者确保模型适合该用途,然后它就可以决定该用途是否需要准确的输出。例如:
用于帮助游戏设计师开发故事情节的模型不一定需要准确的输出。模型输出可以提供故事情节创意,在其中虚构的事实与真实的人相关联; 一个组织用来总结客户投诉的模型必须有准确的输出才能实现其目的。这个目的需要统计准确性(摘要需要是对它所基于的文件的良好反映)和数据保护准确性(输出必须包含关于客户的正确信息)。
开发和使用具有纯粹创意目的的生成式人工智能模型的组织不太可能需要确保输出的准确性作为他们的首要任务。生成式人工智能模型越多地用于对人做出决策,或者其用户越多地依赖它作为信息来源而不是灵感来源,准确性就越应该是模型设计和测试中的一个核心原则。
目的与准确性之间的联系
生成式人工智能模型将被用于的特定目的决定了输出是否需要准确。因此,开发者、部署者和模型的最终用户之间有清晰的沟通至关重要,以确保模型的最终应用适合其准确性水平。
如果一个模型没有足够的统计准确性,因为开发者为其设想的用途不一定需要准确性,我们希望开发者能够实施技术和组织控制,以确保它不被用于需要准确性的目的。这可能涉及,例如,通过与部署者的客户端合同中的合同要求限制使用类型或通过分析客户端使用情况(当模型通过API访问时)。
开发者还应该评估和传达所谓的“幻觉”的风险和影响,即不正确和意外的输出。这些可能由于生成式人工智能模型的概率性质而发生。如果控制评估和传达不准确性的可能性和影响的措施不到位,用户可能会错误地依赖生成式人工智能工具提供它实际上无法提供的事实准确信息【5】。
当基于生成式人工智能的应用被用于面向消费者的服务中的个人时,适当使用案例的沟通和监控尤为重要。在这些情况下,我们认为使应用程序可供人们使用的组织需要仔细考虑并确保模型不会被人以不适当的准确性水平使用。
这可能包括:
提供关于应用程序统计准确性的清晰信息,以及易于理解的适当使用信息; 监控用户生成的内容,无论是通过分析用户查询数据还是通过监控用户公开共享的输出; 用户参与研究,以验证提供的信息是否易于理解并被用户遵循; 将输出标记为由人工智能生成,或不是事实准确的。这可以通过在输出中嵌入元数据或对其进行不可见的更改以记录其来源(有时称为“水印”和“数据来源”); 提供关于输出可靠性的信息,例如通过使用置信度分数。生成式人工智能模型的输出可靠性可以通过参考可靠信息源,使用检索增强生成技术来评估【6】。
开发者需要为用户(无论是个人还是组织)设定关于输出准确性的明确期望。他们还应该对用户是否以符合这些期望的方式与模型交互进行研究。这将给ICO和个人用户提供保证,即开发者和部署者正在承担责任,确保使用对于模型可以提供的准确性水平是适当的。
图1,展示了开发者和部署者如何确保符合生成式人工智能模型的数据保护准确性原则的阶段。
基于生成式人工智能模型的应用程序即使不打算产生关于人的信息,也可以有很多用途。关键是这样的应用程序被明确定位为不准确,或者在必要时有明确、可理解的准确性限制,以避免被滥用或过度依赖其结果,从而导致对个人的伤害。
训练数据如何影响输出的准确性?
如果生成式人工智能模型将被用于需要准确输出的目的,开发者需要考虑训练数据的准确性在多大程度上会影响这一点。
开发者可以通过两种方式提高符合准确性原则的合规性:
在许多情况下,开发者知道并控制生成式人工智能模型将被如何部署。为确保符合数据保护下的准确性原则,开发者应该相应地确定训练数据,以确保足够的准确性。 在某些情况下,开发者可能没有预见到模型可能被部署的所有方式。如果他们开发的生成式人工智能模型没有提供准确的输出,开发者应该清晰、透明、简洁地向部署者和最终用户传达准确性限制,以满足开发者的数据保护法项下的准确性原则。
关于第一点,我们知道开发者有时会从社交媒体和用户论坛中选择训练数据,并根据内容的参与度进行加权。虽然高度参与的内容可能有助于训练模型产生吸引人的内容,但我们对如何将这与准确性的法律要求协调一致的依据感兴趣。特别是,我们希望听到组织如何评估、测量和记录不准确训练数据与不准确模型输出之间的关系。
这不仅与数据保护背景和ICO的职责相关,而且与更广泛的辩论相关,即生成式人工智能的能力如何可能导致或加剧更广泛的问题,如错误信息。
结论
我们期望开发者对他们用于开发生成式人工智能模型的训练数据的准确性有良好的理解。开发者应该:
知道训练数据是否由准确、事实和最新的信息、历史信息、推断、意见或甚至与个人相关的人工智能生成的信息组成; 理解并记录训练数据的准确性对生成式人工智能模型输出的影响; 考虑生成式人工智能模型输出的统计准确性是否足以满足模型使用的目的,以及这如何影响数据保护法项下的准确性原则; 清晰、透明、简洁地向部署者和最终用户传达第1-3步,以确保训练阶段的不准确性不会导致部署阶段对个人产生负面影响。
部署生成式人工智能的部署者负责与最终用户的清晰沟通,我们希望他们:
考虑潜在的缺乏准确训练数据和输出可能对个人产生的影响,并在部署前减轻这些风险(例如,限制用户查询,输出过滤器); 提供关于应用程序统计准确性及其预期用途的清晰信息; 监控应用程序的使用情况,以通知并必要时改进向公众提供的信息和对应用程序使用的限制。
1 Article 5(1)(d) of the UK GDPR
2 What do we need to know about accuracy and statistical accuracy?
3 For example: ChatGPT: Mayor starts legal bid over false bribery claim - BBC News, Lawyer Used ChatGPT In Court—And Cited Fake Cases. A Judge Is Considering Sanctions and Company worker in Hong Kong pays out £20m in deepfake video call scam
4 For more analysis on the purpose of processing in the context of generative AI, see our second Call for Evidence
5 For guidance on explainability in AI, see: Explaining decisions made with AI
6 See, for example: What is retrieval-augmented generation?
第四章:将数据主体权利工程化到生成式人工智能模型
本章重点关注数据主体权利——UK GDPR赋予数据主体关于其个人数据的权利——特别是与生成式人工智能的训练和微调有关的权利。我们提供了我们进行的分析摘要和我们希望征求意见的政策立场。
背景
数据主体对其信息的权利
根据数据保护法,数据主体对其个人数据拥有权利。组织必须使这些权利得以行使。
这些权利包括:
被告知他们的个人数据是否正在被处理; 访问其个人数据的副本; 如果个人数据不准确,有权要求更正; 不受仅自动化决策的约束,这些决策对数据主体具有法律上或类似的重大影响。
在某些情况下,数据主体还有权:
删除关于他们的个人数据; 限制或停止使用他们的个人数据。
这些权利适用于个人数据被处理的任何地方。在生成式人工智能的背景下,这意味着它们适用于包含在以下内容中的任何个人数据:
训练数据; 用于微调的数据,包括来自人类反馈的强化学习和基准测试数据; 生成式人工智能模型的输出; 用户查询(例如,当数据主体通过提示向模型输入个人数据时)。
因此,在人工智能生命周期中,组织必须有流程(包括技术和组织措施)来使数据主体的权利得以行使和记录。【1】
ICO已经制定了关于我们对记录和响应权利请求的期望的指导方针1,这是确保数据保护原则得到有效实施的关键环节,包括透明度、公平性和问责制。
征求意见的范围
本次征求意见集中在组织如何使开发生成式人工智能的人——包括为自己的部署微调生成式人工智能模型的组织——使数据主体能够行使他们的权利:
被告知他们的个人数据是否正在被处理; 访问其个人数据的副本; 在适用的情况下,删除关于他们的个人数据; 在适用的情况下,限制或停止使用他们的个人数据。
这次征求意见不审查与自动化决策相关的权利。
我们的分析
开发阶段
知情权
数据主体权利适用于所有情况下的个人数据处理,包括当它被用来训练和微调生成式人工智能模型时。由于数据主体只有在知道他们的信息正在被处理时才能行使这些权利,知情权是行使其他数据主体权利的先决条件。
生成式人工智能开发者使用各种各样的数据集。图2展示了用于训练和微调的数据来源和类型的指示性示例。
当 个人数据直接从数据主体收集时生成式人工智能开发者通常会直接从数据主体那里收集个人数据。这可能发生在支持模型训练或微调时,可能包括在模型部署后收集的数据(例如,为了持续模型发展而收集的提示)。当他们这样做时,他们必须向数据主体提供关于使用此数据的清晰信息以及他们如何行使权利,如UK GDPR第13条所述。
生成式人工智能开发者有时可能会处理由他们的客户提供的个人数据。例如,一家银行可能会向大型语言模型(LLM)开发者提供客户数据,以便他们为金融服务环境微调他们的模型。如果客户直接从数据主体那里收集数据,他们必须遵守第13条,并清楚地说明数据用于人工智能训练的事实。
当个人数据从其他来源收集时生成式人工智能开发者通常从数据主体以外的来源收集个人数据(例如,通过网络抓取)。在这些情况下,知情权仍然适用,如UK GDPR第14条所述。
在第14条的背景下,对于知情权有例外情况,例如,如果提供隐私信息给每个数据被收集的数据主体是不可能的,或者需要付出不成比例的努力。对于可能涉及数百万甚至数十亿个数据主体的网络抓取数据集来说,情况可能就是这样。
对于网络抓取的数据集,在开发生成式人工智能模型时处理个人数据可能超出了数据主体在提供数据给网站时的合理期望。例如,有人在2020年写了一篇关于拜访医生的帖子,不会期望这些数据在2024年被抓取来训练生成式人工智能模型。在某些情况下,数据主体甚至不会意识到有关他们的信息已经发布或泄露在网上。
寻求应用第14条例外的生成式人工智能开发者仍然必须采取适当的措施来保护数据主体的权利和自由,包括通过公开提供隐私信息。这包括:
发布关于用于开发模型的个人数据来源、类型和类别的具体、可访问的信息。关于数据来源的模糊声明(例如,只是"公开可访问的信息")不太可能帮助数据主体理解他们的个人数据是否可能是训练数据集的一部分,或者最初的控制者可能是谁。 发布关于处理个人数据目的的具体、可访问的解释(见我们之前关于目的限制的征求意见)以及处理的合法依据(见我们之前关于合法依据的征求意见)。这应该足以让数据主体有意义地理解并清楚地期望他们的数据会发生什么。如果合法依据是合法利益,组织必须说明正在追求的具体利益。 提供突出的、可访问的机制,便于数据主体行使他们的权利,包括访问权和更正权、删除权、限制处理权和反对处理权。
我们邀请关于生成式人工智能开发者应采取哪些进一步措施来保护数据主体的权利和自由的意见。例如,开发者可以应用隐私增强技术或其他伪匿名技术来限制正在处理的数据的可识别性。
资源或费用要求应该从一开始就纳入商业决策,特别是鉴于需要应用默认情况下的数据保护方法,这种方法确保数据保护原则得到有效实施——包括透明度、公平性和问责制。
访问权
数据主体有权访问关于他们的个人数据的副本。我们期望开发者拥有易于访问、清晰、易于使用、有文档记录和有证据支持的方法,以促进和响应这些请求,无论它们是否涉及用于训练、微调或部署的数据。
如果开发者辩称他们无法响应请求,因为他们无法识别数据主体(在训练数据或其他地方),法律要求他们向提出请求的数据主体解释这一点,并在可能的情况下证明为什么是这样。【2】然后,数据主体可以决定是否想提供额外的信息以便于根据UK GDPR第11条第2款进行识别。
删除权、更正权、限制处理权和反对处理权
在某些情况下,数据主体对处理他们的个人数据有反对权、限制其处理权和获得其更正或删除权。我们的指导方针解释了这些权利何时适用。
当数据主体想要行使他们的反对权或更正权时,他们的请求应在一个月内(或如果需要延期,则为三个月)以内以可验证的方式得到处理。我们欢迎关于这些请求在实践中如何得到尊重的证据。我们很乐意听取数据主体行使反对或更正数据权利的经历。
生成式人工智能开发者需要能够将这些权利应用于所有个人数据的处理,从训练数据到模型输出。这可能是具有挑战性的,因为生成式人工智能模型存在记忆问题【3】,这反映了在训练期间这些模型不仅仅像传统软件那样解析个人数据,而是保留其印记(因为它们需要"学习")。这是它们可能无意中输出它们"记忆"的训练数据部分的原因之一,而没有被明确要求。
许多开发者使用输入和输出过滤器来减轻生成式人工智能模型输出个人数据的风险。输入过滤器是可能用于检测和修改特定用户提示的处理技术,而输出过滤器是可能用于检测和修改特定模型输出的处理技术。我们邀请关于输入和输出过滤器是否足以执行数据主体权利的意见。我们对这些措施的有效性【4】感兴趣,并很乐意听到关于从训练生成式人工智能模型中抑制或删除个人数据的替代方法,特别是"机器非学习"方法【5】。
当一群人行使这些权利时(例如,一个特定的人群群体),生成式人工智能开发者还需要考虑这对模型本身的公平性和统计准确性的影响,并采取缓解措施。我们邀请关于当一群人行使他们的权利时应采取哪些缓解措施的意见。我们对接收相关方法的证据感兴趣。
部署阶段
各种各样的组织参与了生成式人工智能供应链,从提供数据集的组织到训练模型的开发者,再到部署它们的公司。这个供应链包括各种处理操作,从数据收集到训练,再到产生推断。
尽管这种复杂性,数据主体的权利需要在整个人工智能生命周期和供应链中得到尊重,包括在部署期间。这涉及到原始训练数据集中的人的数据,以及在启动后输入到实时模型中的个人数据或任何可以构成个人数据的输出。
履行这些权利的责任在于组织,它们是不同处理操作集的控制者。我们将作为这个系列第五次征求意见的一部分,检查生成式人工智能供应链中的控制权。
结论
大多数当前的生成式人工智能模型都是在包含个人数据的数据集上训练的,或者在部署阶段处理个人数据以生成输出。开发或使用这些模型的组织有法律义务使数据主体能够行使他们对所涉及的个人数据的权利。
开发或使用生成式人工智能模型的组织需要能够:
展示他们有一个清晰有效的流程,使数据主体能够对训练、微调和输出数据中包含的个人数据行使权利,以及模型本身。 证明他们如何确保数据主体有关于他们使用个人数据的有意义、简洁且易于获取的信息; 清楚地证明任何豁免的使用,并展示采取的措施以保障人们的利益、权利和自由。
我们正在征求关于经过测试、可验证且有效的方法的证据,组织正在开发或使用这些方法来满足他们在这一领域的法律义务,以支持创新和在生成式人工智能的开发和使用中保护个人数据。
注:
1 Individuals’ rights
2 See Article 11.
3 The Flaw That Could Ruin Generative AI - The Atlantic
4 Researchers have already flagged the limitations of these approaches
5 One of the most established AI conferences, NeurIPS, and Google have launched machine unlearning ‘challenges’. For more see: A Survey of Machine Unlearning
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...