中译本 | 欧盟首个大模型网络爬虫合法性指南：ChatGPT工作组报告 - 新鲜讯息

扫码立即加入学习！

欧盟首个大模型网络爬虫合法性指南

ChatGPT工作组执行报告

2024年5月23日

整理：何渊

免责声明

本文件中提出的观点是ChatGPT工作组（以下简称“ChatGPT工作组”）成员在协调处理有关美国公司OpenAI OpCo, LLC提供的ChatGPT服务的调查中得出的。这些观点反映了监管当局在解释与他们调查范围内的事项相关的GDPR适用条款方面的共同立场。本文件中提出的观点不预判断监管当局在各自调查中必须进行的分析。特别是，必须考虑到调查的情况可能会随时间变化。

背景

1. 在最近过去，出现了许多大型语言模型（以下简称“LLMs”），用于各个领域。虽然这些模型可以为公众带来巨大的好处，但与LLMs相关的处理操作必须遵守GDPR。必须指出，LLMs的训练和增强使用了大量数据，包括个人数据。

2. 最受欢迎和广为人知的LLMs之一是“GPT”类别的模型，因为它是在2022年11月30日通过ChatGPT服务首次推出的面向消费者模型。几个监管当局（以下简称“SAs”）根据GDPR第58条第1款(a)和(b)条对OpenAI OpCo, LLC（以下简称“OpenAI”）作为ChatGPT服务背景下进行的处理操作的控制者发起了数据保护调查。

3. 直到2024年2月15日，OpenAI在欧盟没有设立机构。因此，根据GDPR的一站式商店（以下简称“OSS”）机制无法适用，欧洲数据保护委员会（以下简称“EDPB”）在2023年4月13日决定成立一个工作组，以促进合作和交换可能对ChatGPT背景下个人数据处理的执法行动的信息（以下简称“ChatGPT工作组”，参与ChatGPT工作组的SAs以下简称为“工作组成员”）。由于OSS不适用，特别是有必要协调国家案件。

4. 在2024年1月16日的EDPB全体会议上，决定明确任务组的任务，并发布一份报告，概述ChatGPT工作组的中期结果。根据这一任务，工作组应：交换SAs之间关于与OpenAI接触和正在进行的关于ChatGPT的执法活动的信息；促进SAs关于ChatGPT背景下执法活动的外部沟通的协调；迅速确定SAs在不同执法行动中需要共同处理的问题清单。

5. 考虑到调查的保密性质，本报告参考公开可用的信息作为额外来源，向公众提供关于透明度、公平性、数据准确性和数据主体权利的信息。

6. 正如EDPB在2024年至2027年的战略优先事项中已经概述的那样，提供进一步的指导对于GDPR和其他欧盟法律行为，特别是欧盟人工智能法案的应用之间的相互作用具有重要意义。

7. 尽管如此，根据GDPR第5条第2款和第24条所规定的问责原则，处理个人数据的控制者在LLMs的背景下应当采取所有必要的步骤，以确保完全符合GDPR的要求。特别是，不能以技术不可能性为由来证明不遵守这些要求的合理性，尤其是考虑到在确定处理手段和处理本身时，应当考虑到GDPR第25条第1款所规定的数据保护原则设计。

正在进行的调查

8. OpenAI自2024年2月15日起在欧盟拥有一个单一机构。因此，从该日期起，OSS框架适用于OpenAI进行的“跨境处理”，根据GDPR第56条的意义，主要SAs负责在需要时行使纠正权力。然而，这不影响各自SAs正在进行的调查，其调查对象涉及直到2024年2月15日进行的处理操作，并涉及可能的非持续或非连续性质的违规行为。在这方面，这些国家调查将继续在这个工作组内协调。

9. 在报告期间，ChatGPT工作组举行了几次会议。作为活动的一部分，制定了一套共同的问题（以下简称“问卷”），该问卷附在本报告的附件中。几个SAs使用这个问卷作为与OpenAI交流的基础。问卷的制定旨在促进调查的协调方法。

10. 2024年2月15日之前的隐私政策版本属于各自SAs调查的范围。必须指出，OpenAI在2023年12月15日更新了他们的“EEA隐私政策”，并于2024年2月15日生效。

11. 此外，必须指出，OpenAI已经实施了一系列措施，以遵守意大利SAs的紧急决定，该决定对ChatGPT服务在意大利发布了临时禁令，以及随后在2023年4月11日通过的解除临时限制的决定。

初步观点

12. 由各自SAs进行的调查目前正在进行中，目前还不可能提供完整的结果描述。因此，本报告中的考虑应被视为对调查某些方面的初步观点。

3.1 合法性

13. 一般而言，必须回顾，每次处理个人数据必须至少满足GDPR第6条第1款规定的条件之一，并且在适用的情况下，满足第9条第2款规定的额外要求。

14. 在评估合法性时，区分处理个人数据的不同阶段是有用的。在当前背景下，这些阶段可以分为i) 收集训练数据（包括使用网络爬取数据或重用数据集），ii) 数据预处理（包括过滤），iii) 训练，iv) 提示和ChatGPT输出以及v) 使用提示训练ChatGPT。

3.1.1 收集训练数据、数据预处理和训练

15. 前三个阶段对自然人的基本权利和自由构成了特殊风险，因为“网络爬取”使自动收集和提取来自互联网上不同公开可用来源（如网站）的某些信息成为可能，这些信息随后用于ChatGPT的训练目的。这些信息可能包含个人数据，涵盖各自数据主体个人生活的各个方面。根据来源，爬取的数据甚至可能包含GDPR第9条第1款意义内的特类个人数据。

16. 关于网络爬取，OpenAI提出了GDPR第6条第1款(f)项作为法律依据。必须回顾，GDPR第6条第1款(f)项的法律评估应基于以下标准：i) 存在合法利益，ii) 处理的必要性，因为个人数据应该是适当的、相关的，并且限制在与它们被处理的目的相关的必要范围内，以及iii) 利益平衡。必须仔细评估和平衡数据主体的基本权利和自由以及控制者的合法利益。在这种评估中，应考虑数据主体的合理期望。

17. 如前文第29工作组所述，适当的保障措施在减少对数据主体的不当影响方面起着特殊作用，因此可以改变有利于控制者的利益平衡测试。虽然合法性的评估仍需等待正在进行的调查，但这些保障措施可能包括技术措施，定义精确的收集标准，并确保不收集某些数据类别或排除某些来源（如公共社交媒体个人资料）的数据收集。此外，应采取措施在训练阶段之前删除或匿名化通过网络爬取收集的个人数据。

18. 关于处理特殊类型个人数据，必须另外适用GDPR第9条第2款的例外之一，处理才是合法的。原则上，这些例外之一可以是GDPR第9条第2款(e)项。然而，个人数据公开可访问的事实并不意味着“数据主体已明确使这些数据公开”。为了依赖GDPR第9条第2款(e)项规定的例外，重要的是要确定数据主体是否打算通过明确和积极的行动，使有关个人数据可供公众访问。

19. 在当前背景下，通过网络爬取大量收集个人数据，几乎不可能对每个数据集进行逐案审查。然而，前述保障措施可以帮助满足GDPR的要求。例如，这些措施应包括过滤属于GDPR第9条第1款的数据类别。过滤应适用于数据收集（例如，选择收集哪些数据的标准）和数据收集后立即（删除数据）。根据GDPR第5条第2款和第24条，证明这些措施有效性的举证责任由作为控制者的OpenAI承担。

3.1.2 ChatGPT输入、输出和训练

20. 下一阶段涉及ChatGPT输入（包括“提示”）、输出和训练。

21. 提示指的是数据主体与LLMs（如ChatGPT）互动时输入的数据，以及文件上传和用户对ChatGPT数据输出（响应）质量的反馈。OpenAI将此归类为“内容”，并公开声明使用这些信息来训练和改进模型。在这种情况下，GDPR第6条第1款(f)项被提出作为法律依据。OpenAI提供了选择退出使用“内容”进行训练的选项。

22. 数据主体应该在任何情况下都被清楚且可证实地告知，这样的“内容”可能被用于训练目的。这种情况是GDPR第6条第1款(f)项利益平衡中的一个因素。

3.2 公平性

3.3 透明度和信息义务

3.4 数据准确性

3.5 数据主体的权利

35. 如上所述，根据GDPR第25条第1款，控制者应在确定处理手段和处理时，实施旨在有效实施数据保护原则和将必要的保障措施纳入处理中，以满足GDPR的要求并保护数据主体的权利的适当措施。

附件（问卷）

36. 以下问题集是在ChatGPT工作组的背景下制定的，并向公众提供。必须指出，SAs是独立的，因此，每个SA都可以自由修改问卷或添加进一步的问题。此外，由于使用各自的官方语言，问题上的差异可能会产生。

I. 一般

II. 与个人数据处理相关的原则

III. 数据保护影响评估（“DPIA”）和风险管理

IV. 处理的合法性