part1
点击上方蓝字关注我们
将二进制空间安全设为"星标⭐️"
第一时间收到文章更新
从2022年ChatGPT横空出世, 到2025年1月的DeepSeek刷屏, 全球都在享受AI带来的全新体验。谁曾想过, 这些大模型的训练数据中却包含12000多个可用的明文密钥, 并且可被用来进行身份验证。
在说明这个问题之前, 首先需要知道什么是公共爬虫服务, 也被称为Common Crawl, 这里维护着一个免费且开放的网页爬取数据库存储库, 在这个庞大的数据集中包含超过了2500亿个网页,时间跨度长达18年。
Common Crawl的下载地址: https://commoncrawl.org/get-started
该存档具体包含了400TB的压缩网页数据, 90000个WARC文件(Web ARChive格式), 以及来自3830万个注册域的4750万个主机的数据。
经分析, Common Crawl 数据集中包含 219 种不同类型的密钥, 这些密钥都是能够成功验证其对应服务的API密钥、密码及其他凭证。
由于LLMs在训练过程中无法区分有效和无效的密钥, 因此二者在提供不安全代码示例时具有同等影响。如图:
公共源代码库中的数据在被设为私有后,仍可能通过 AI 聊天机器人(如 Microsoft Copilot)访问,因为这些数据已被 Bing 索引并缓存。
这一攻击方法被称为“Wayback Copilot”,已经发现 20,580 个这样的 GitHub 代码库,涉及 16,290 家组织,其中包括Microsoft、Google、Intel、Paypal、IBM等大型公司以及所有使用了相关数据集的组织。这些代码库还泄露了 300 多个 GitHub、Hugging Face、Google Cloud 和 OpenAI 的私有令牌、密钥和凭据。
如何扫描Common Crawl中的数据?
我们搭建了一个分布式任务队列, 使用了20台中等性能服务器(每个配备16核CPU和32GB内存), 每个节点执行以下步骤:
下载约4GB大小的Common Crawl文件。
使用
awk
按照WARC记录头(WARC/1.0)对文件进行解压缩和拆分。在提取的内容上运行TruffleHog,命令如下:
trufflehog filesystem --only-verified --json --no-update .
将扫描结果存入数据库。
重复执行90000次。
关于密钥泄漏的说明
Common Crawl 数据集是互联网的公开快照。公网上泄露密钥的风险早已有充分记录。
Common Crawl 数据集中包含的泄露密钥,并不代表其所在组织的失误;开发者在前端 HTML 和 JavaScript 中硬编码密钥,这并非 Common Crawl 的责任。同时,Common Crawl 也不应负责对密钥进行删除,他们的目标是提供一个基于互联网的免费公共数据集,以供像 Truffle Security 这样的机构进行研究。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...