Common Crawl 非营利组织维护着一个庞大的开源存储库,其中存储了自 2008 年以来收集的数 PB 级网络数据,任何人都能免费使用这些数据。由于数据集规模巨大,许多人工智能项目,包括 OpenAI、DeepSeek、Google、Meta、Anthropic 和 Stability 等公司的大型语言模型(LLM)训练,可能至少部分依赖这一数字档案。
Truffle Security 公司(TruffleHog 敏感数据开源扫描器背后的公司)的研究人员对 Common Crawl 2024 年 12 月档案中 267 亿个网页的 400 TB 数据进行检查后,发现了 11,908 个成功验证的有效机密。这些机密均为开发人员硬编码,这意味着 LLM 存在在不安全代码上进行训练的可能性。
在这些机密中,有 Amazon Web Services(AWS)的根密钥、MailChimp API 密钥以及 WalkScore 服务的有效 API 密钥等。
源代码中的 AWS 根密钥:Truffle Security
TruffleHog 在 Common Crawl 数据集中总共识别出 219 种不同类型的秘密,其中最常见的是 MailChimp API 密钥,近 1,500 个独特的 Mailchimp API 密钥被硬编码在前端 HTML 和 JavaScript 中。
MailChimp API 密钥在前端 HTML 源代码中泄露:Truffle Security
开发人员的失误在于将这些密钥硬编码到 HTML 表单和 JavaScript 片段中,而未使用服务器端环境变量,这使得攻击者有可能利用这些密钥开展恶意活动,如进行网络钓鱼、品牌冒充,进而导致数据泄露。
此外,研究人员还发现报告中的机密存在高重复使用率,63% 的机密出现在多个页面上。例如,一个 WalkScore API 密钥在 1,871 个子域中出现了 57,029 次。研究人员还在一个网页上发现了 17 个独特的实时 Slack webhook,而 Slack 明确警告 webhook URL 包含秘密,严禁在网上(包括通过公共版本控制存储库)分享。
尽管 LLM 训练数据会经过预处理阶段,旨在清理和过滤掉不相关数据、重复内容、有害或敏感信息,但机密数据仍然难以彻底删除,且无法保证完全清除如此庞大数据集中的所有个人身份信息(PII)、财务数据、医疗记录和其他敏感内容。
研究结束后,Truffle Security 联系了受影响的供应商,并协助他们撤销了用户的密钥,成功帮助这些组织集体轮换 / 撤销了数千个密钥。即便人工智能模型使用的是比研究人员扫描的数据集更旧的档案,Truffle Security 的发现仍给我们敲响了警钟,不安全的编码实践可能会对 LLM 的行为产生影响。
参考及来源:https://www.bleepingcomputer.com/news/security/nearly-12-000-api-keys-and-passwords-found-in-ai-training-dataset/
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...