openAI爬虫偷数据被屏蔽！他还能继续发展吗？

大名鼎鼎的美国人工智能公司OpenAI这么多优秀的人工智能模型靠的是什么？

靠的时OpenAI的GPTBot自动化爬虫。

一、OpenAI的背后的“发动机” GPTBot自动化爬虫。

GPTBot，自2023年8月推出以来，便以其强大的数据收集能力闻名。它能自动从互联网上收集抓取各种信息，为GPT-4及未来的GPT-5等大型模型的训练提供海量数据。但这种"抓取"行为的背后，却隐藏着深重的安全隐忧。

二、爬虫被网站屏蔽

但是近期据路透社研究所的一项调查，有越来越多的新闻媒体已对OpenAI的数据爬取说“不”，在传统媒体领域，这一比例甚至超过了50%。

路透社研究所分析了《纽约时报》、《华尔街日报》、《华盛顿邮报》、CNN、NPR 等多家主流新闻媒体，涵盖美国、英国、德国、印度等10个国家，并将其归为传统印刷媒体（纸媒）、广播电视媒体、数字媒体三大类。研究发现，57%的传统印刷媒体屏蔽了OpenAI 的爬虫程序，广播电视媒体和数字媒体的比例分别为48%和 31%。

研究还发现，屏蔽 OpenAI 的新闻网站比例因国家和地区差异而存在很大不同，在美国，这一比例高达79%，而在墨西哥和波兰仅为 20%。

openAI 旗下产品

三、爬虫的危害

OpenAI的GPTBot自动化爬虫在国内引起了一阵风波。一些政府机构的数据被该爬虫大规模抓取，引发了广泛的信息安全和隐私保护担忧。那么，信息被这种爬虫“抓走”究竟意味着什么呢？

当网站内容被GPTBot捕获并纳入AI训练数据集时，意味着这些信息便可能永久留存，即便是误爬或侵权内容，也难以修正或删除。这不仅关乎个人隐私的泄露，也可能引发版权纠纷。更严重的是，如果包含个人身份、银行账户等私人敏感信息的页面被GPTBot爬取，这些数据可能会被泄露给未经授权的第三方，存在巨大的隐患。此外，如果GPTBot对某个网站进行过度爬取，可能引发该网站服务器过载，导致网站运行缓慢或崩溃，影响用户体验。

在人工智能高速发展的今天，数据安全与隐私保护变得尤为重要。无论是个人还是企业，都应提高警惕，采取有效措施防范GPTBot等自动化爬虫可能带来的风险，确保信息安全，维护自身合法权益。

参考

https://mp.weixin.qq.com/s/t46eolFa9QNLVBi_qfWpmwhttps://mp.weixin.qq.com/s/TkIWECwftMTI9jUNSlQKPwhttps://tech.ifeng.com/c/8XVgwNlUgcPhttps://m.chinabyte.com/ai/478/88478.shtml