AI大模型满地跑,12000多个明文密钥四处飙

part1

点击上方蓝字关注我们

将二进制空间安全设为"星标⭐️"

第一时间收到文章更新

从2022年ChatGPT横空出世, 到2025年1月的DeepSeek刷屏, 全球都在享受AI带来的全新体验。谁曾想过, 这些大模型的训练数据中却包含12000多个可用的明文密钥, 并且可被用来进行身份验证。

在说明这个问题之前, 首先需要知道什么是公共爬虫服务, 也被称为Common Crawl, 这里维护着一个免费且开放的网页爬取数据库存储库, 在这个庞大的数据集中包含超过了2500亿个网页,时间跨度长达18年。

Common Crawl的下载地址: https://commoncrawl.org/get-started

该存档具体包含了400TB的压缩网页数据, 90000个WARC文件(Web ARChive格式), 以及来自3830万个注册域的4750万个主机的数据。

经分析, Common Crawl 数据集中包含 219 种不同类型的密钥, 这些密钥都是能够成功验证其对应服务的API密钥、密码及其他凭证。

由于LLMs在训练过程中无法区分有效和无效的密钥, 因此二者在提供不安全代码示例时具有同等影响。如图:

公共源代码库中的数据在被设为私有后，仍可能通过 AI 聊天机器人（如 Microsoft Copilot）访问，因为这些数据已被 Bing 索引并缓存。

这一攻击方法被称为“Wayback Copilot”，已经发现 20,580 个这样的 GitHub 代码库，涉及 16,290 家组织，其中包括Microsoft、Google、Intel、Paypal、IBM等大型公司以及所有使用了相关数据集的组织。这些代码库还泄露了 300 多个 GitHub、Hugging Face、Google Cloud 和 OpenAI 的私有令牌、密钥和凭据。

如何扫描Common Crawl中的数据?

我们搭建了一个分布式任务队列, 使用了20台中等性能服务器(每个配备16核CPU和32GB内存), 每个节点执行以下步骤:

下载约4GB大小的Common Crawl文件。
使用awk按照WARC记录头(WARC/1.0)对文件进行解压缩和拆分。

在提取的内容上运行TruffleHog,命令如下:

trufflehog filesystem --only-verified --json --no-update .

将扫描结果存入数据库。
重复执行90000次。

关于密钥泄漏的说明

Common Crawl 数据集是互联网的公开快照。公网上泄露密钥的风险早已有充分记录。

Common Crawl 数据集中包含的泄露密钥，并不代表其所在组织的失误；开发者在前端 HTML 和 JavaScript 中硬编码密钥，这并非 Common Crawl 的责任。同时，Common Crawl 也不应负责对密钥进行删除，他们的目标是提供一个基于互联网的免费公共数据集，以供像 Truffle Security 这样的机构进行研究。

参考文献:

https://thehackernews.com/2025/02/12000-api-keys-and-passwords-found-in.html

https://trufflesecurity.com/blog/research-finds-12-000-live-api-keys-and-passwords-in-deepseek-s-training-data