为啥ChatGPT 们（大模型）这么懂中国 ？

ChatGPT等大模型可以代写邮件、文章、PPT等，比如输入“帮我写个英文请假邮件，需要正式的”，ChatGPT便会立即生成一封。

不仅如此，大模型还能回答各种问题，包括生活百科、解题思路、行业知识，甚至是时事要闻、各种政策法规解读，都可以几秒钟之内给出答案。让人吃惊的是国外的大模型竟然对国内政策法规、具体单位招投标信息、具体单位领导人等信息都了如指掌，并且时效性可截止到当天！

（中国人工智能政策法规）

（中国四大行某行近期采购信息）

（某国防院校领导人信息）

大模型为何“无所不知”

从创宇安全智脑大数据看，超5成互联网流量由各类网络爬虫产生，像ChatGPT这类大模型也会利用网络爬虫收集数据来训练自己，通过对互联网上海量数据的爬取和分析（其中包括中国党政机关、国企央企等各类网站业务系统的数据），不断地训练和迭代升级，增强对人类语言的理解，才能够生成更精确且与上下文高度相关的回答，从而成为“无所不知”的超级对话机器人。

创宇安全智脑显示，超90%的中国党政机关、国企央企网站业务系统被大模型爬虫爬取过！

如何查看网站是否被大模型爬过？

首先需要知道大模型爬虫的特征，才能通过查看网站业务系统访问日志等方式判断是否被大模型爬虫爬过。OpenAI公布过其爬虫GPTBot的特征，完整 UA 字符串为（Mozilla / 5.0 AppleWebKit / 537.36 / KHTML, like Gecko; compatible; GPTBot / 1.0; + https://openai.com/ gptbot）。而大多数大模型是没有公布其爬虫特征的。不出意外的话，您的网站业务系统已经被某个或若干个大模型爬虫爬过，为人工智能的发展做出了贡献。

如何防止大模型爬取自己的数据

国内党政机关、国企央企等各关基单位网站业务系统承载着关乎国计民生的珍贵数据，该如何防止数据被大模型尤其是国外的大模型爬取，进而维护自己的数据主权呢？以下是两种推荐的方式：

robots.txt文件添加规则拦截大模型爬虫

要封禁大模型爬虫，一种直接的方式就是在您网站业务系统的robots.txt文件中添加规则，以禁止GPTBot等爬虫爬取您网站业务系统的数据。

（完全禁止GPTBot抓取内容）

但是如果不知道大模型爬虫的特征，就没有办法采用这种方式封禁它们。而且有的大模型爬虫可能会“不讲武德”，忽视robots协议！

创宇盾协同防御一键屏蔽大模型爬虫

接下来推荐一种更省心的方式一键封禁大模型爬虫——创宇盾协同防御。创宇盾是一款云WAF产品，协同防御是创宇盾结合创宇安全智脑全网威胁情报打造的联动联防策略，开启创宇盾协同防御新上线的【AI爬虫流量屏蔽】功能，就可以将包括ChatGPT在内的主流大模型爬虫进行一键封禁。

该功能已经为4万党政机关、国企央企网站业务系统拦截大模型爬虫，维护单位数据主权，每天阻挡大模型爬虫访问超8000万次，为单位节省了50%以上的网络流量！

大模型的长期进化发展，必定需要从互联网广泛收集各类数据作为训练样本，越重要的数据越是大模型需要的，这将为各重要单位带来数据主权风险、可能导致数据跨境窃取。为此，创宇盾率先发布了大模型爬虫一键拦截功能，维护各重要单位数据主权，如需防护立即接入创宇盾。

欢迎扫码咨询