生成式AI场景下网络爬虫收集使用个人数据的合法依据是什么？

2024‍

英国信息专员公署（Information Commissioner’s Office, ICO）年初开始针对个人数据保护法如何适用于生成式人工智能（GAI）的开发和使用征求公开意见。第一个基础性问题便是GAI的数据收集的合法依据，特别是通过网络爬虫方式收集训练数据的合法依据是什么？本文一方面介绍ICO抛出的建议性结论，一方面结合个保法以及国内司法实践进行讨论，以观察海内外差异。

GAI模型训练一般涉及几个阶段：

第一，需要收集和预处理训练数据，然后使用这些数据来对基础模型进行训练。

第二，对基础模型进行微调以适用于特定环境或需求，并通过测试评估其性能。

最后，在部署后还会提供反馈以改进模型。

收集训练数据作为GAI生命周期中第一个阶段的必要步骤。大多数GAI开发者都依赖公开可获取的资源来获得他们所需的训练数据。开发者可以通过网络爬虫——直接从网页上爬取信息、间接地从其他已经爬取过网页信息的组织处获取，或两种方法结合使用来获得这些数据。

什么是网络爬虫？网络爬虫指利用自动化软件“爬取”网页、搜集、复制和/或提取页面信息，并将其存储（例如数据库）以备进一步使用。这些信息可能包括网站上任何内容，例如，图片、视频、文本等。

从博客、社交媒体、论坛帖子、产品评论和个人网站等互联网环境中搜集到的信息可能含有用户发布或生产的个人数据；同时也值得注意互联网上也存在非本人发布的数据，例如政府或者企业合法公开的个人数据。

收集训练数据可能具有哪些合法依据？

ICO认为，作为遵守《通用数据保护条例》(UK GDPR) 的原则之一, 模型开发者需要确保：

(a)不违反任何法律; 且

(b)在UK GDPR下具有有效合法依据.

如果网络爬取行为违反了除个人数据保护外其他领域，如知识产权或契约法等方面，则第一个条件(a)就不满足要求。

针对条件(b),并确定一个合理依据, GAI开发者需要考虑UK GDPR 第6(1)条中的6个合法依据。ICO 提出：根据目前实践看，其中五种情况（粗略列举：同意、合同、法定义务、公共利益、第三方重大利益）不太适用于网络爬虫收集数据以用于进行AI模型训练。很大程度上只有正当利益可以作为合法基础(UK GDPR 第6(1)(f))。要满足正当利益为合法依据, 数据控制者必须通过“三步“测试并证明:

1. 数据处理目标是正当;

2. 数据处理对达成该目标是必要的;

3. 该处理不会损害被影响方的权益.

ICO进一步对每个测试条件进行了分析，并寻求公开意见。

我国在《个人信息保护法》中规定应如何保护和利用已公开的个人信息。《个人信息保护法》第13条第1款第（六）项规定，个人信息处理者可以依照本法规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息。

其中第27条规定，个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息；个人明确拒绝的除外。个人信息处理者处理已公开的个人信息，对个人权益有重大影响的，应当依照本法规定取得个人同意。

可见，在国内已经初步明确了网络爬虫收集公开数据的合法依据。这一个人信息处理合法依据的确立意味着，如相关个人信息处理活动满足13条和27条的要求，则GAI开发者无需获取相关个人信息主体的同意即可收集处理。对于个人自行公开或者其他已经合法公开的个人信息，如个人未明确拒绝用于模型训练等目的，处理行为未显著违背个人公开目的且相关处理不会对个人权益造成重大影响的，可视为在合理范围内进行处理。

以上，也仅是消除侵犯个人信息的法律合规风险，另外还需要考虑知识产权侵权以及违背网络爬虫排除协议（Robots协议）导致不正当竞争等法律风险。

根据《生成式人工智能数据应用合规指南》团体标准，GAI开发者采用自动爬取方式的，应遵守目标网站的Robots协议等声明文件要求，避免采用破解密码、伪造用户代理（User Agent）、设置代理网际协议地址（IP地址）等技术手段进行违规爬取。应控制数据爬取的流量与频率，避免因爬取行为影响目标网站的正常运行。爬取移动互联网应用程序（App）、小程序等所依赖的网络服务应用程序接口（API）中的数据，应当遵守API的服务鉴权声明。另外，公开数据附有数据使用许可条件或使用限制的，提供者获取该公开数据后，应遵守相关约定。

值得注意的是，Robots协议本身并没有法律约束力，“robots.txt”文件更多的是一个约定俗成的互联网礼仪，由网站管理员指示网络爬虫哪些内容是可以抓取的，哪些不可以。如果想要更高级别的保护数据不被爬取，网站管理员可以需要采取其他措施，如设置身份验证、使用CAPTCHA或实施IP阻断等。

在欧盟，如果网络爬虫的行为违反了相关的法律，例如侵犯版权、违反数据保护法规（如GDPR），或者对网站进行不合理的访问导致服务器过载等，那么运行爬虫的个人或组织就可能面临法律责任。

在美国，根据《计算机欺诈和滥用法案》（Computer Fraud and Abuse Act，CFAA），非法访问受保护的计算机系统可能会被视作犯罪行为。但是，在某些情况下，如果爬虫忽视了robots.txt的指令并非法访问了网站数据，这可能会构成CFAA的违反。

美国的CFAA法案通常用于处理未授权访问，而忽略robots.txt文件并不自动构成非法行为。但如果结合其他违法行为，例如通过技术手段绕过明确的访问控制，抓取受密码保护的页面等，那么将robots.txt文件的忽视作为刑事犯罪行为的一部分，是可能的。

总的来说，网络爬虫只是收集数据的一种形式，法律合规风险和数据处理合法依据都需要结合使用目的和具体数据内容来判断。不论是生成式AI还是其他AI模型的训练数据，均需要回到以上至少两个方面去讨论。

— THE END —

--------------------------------------------------------