第71期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 大语言模型生成的报告在开发安全运营一体化（DevSecOps）中的潜力

简介：警报疲劳是采用开发安全运营一体化（DevSecOps）范式的软件团队面临的一个常见问题。安全和代码扫描工具生成的大量警告和警报，特别是在资源有限的小型团队中，会导致人们对安全警告变得不敏感且响应能力降低，这可能使系统面临漏洞风险。本文探讨了大语言模型在生成可操作的安全报告方面的潜力，这些报告强调如果不解决检测到的安全问题（例如凭证泄露）所带来的财务影响和后果。对开发人员进行的一项调查表明，大语言模型生成的报告通过提供清晰、全面且具有激励性的见解，显著提高了对安全问题立即采取行动的可能性。将这些报告整合到 DevSecOps 工作流程中可以减轻注意力饱和和警报疲劳，确保关键安全警告得到有效处理。

链接：

https://arxiv.org/abs/2410.01899

2. APOLLO：一种基于 GPT 的用于检测钓鱼邮件并生成警告用户的解释的工具

简介：研究者指出，网络钓鱼是最为常见的网络犯罪活动之一，且攻击手段日益复杂。因此，探索新技术以在技术和人为层面提升对用户的保护至关重要。大语言模型在各个领域的文本处理方面具有巨大潜力，但在防御网络钓鱼攻击方面的应用仍很少被探索。在本文中，研究者介绍了 APOLLO，这是一个基于 OpenAI 的 GPT-4o 的工具，用于检测网络钓鱼邮件并向用户生成特定邮件为何危险的解释信息，以提高用户的决策能力。研究者评估了 APOLLO 在分类网络钓鱼邮件方面的性能，结果表明大语言模型在分类网络钓鱼邮件方面能力出色（在 GPT-4o 的情况下准确率为 97%），且通过整合来自第三方服务的数据，性能可进一步提高至近乎完美的分类准确率（99%）。为评估该工具生成的解释的感知效果，研究者对 20 名参与者进行了一项研究，比较了作为网络钓鱼警告呈现的四种不同解释，将大语言模型生成的解释与四个基线（手工制作的警告以及来自 Chrome、Firefox 和 Edge 浏览器的警告）进行比较。结果显示，大语言模型生成的解释不仅质量高，而且比基线更易于理解、有趣和值得信赖。这些发现表明，使用大语言模型作为防御网络钓鱼的方法非常有前景，APOLLO 代表了这一研究方向的概念验证。

链接：

https://arxiv.org/abs/2410.07997

3. RePD：通过基于检索的提示分解过程防御越狱攻击

简介：在这项研究中，研究者引入了 RePD，这是一个创新的基于检索的提示分解框架，旨在降低大语言模型（LLM）遭受越狱攻击的风险。尽管经过了严格的预训练和以伦理对齐为重点的微调，但大语言模型仍然容易受到越狱攻击。RePD 基于一次性学习模型运行，它访问预先收集的越狱提示模板数据库，以识别并分解用户提示中嵌入的有害查询。这个过程包括将越狱提示的分解与用户的原始查询整合到一个一次性学习示例中，以有效地教导大语言模型识别和分离恶意组件。因此，大语言模型能够在处理用户提示之前首先消除任何潜在的有害元素，以符合其伦理准则的方式进行响应。RePD 具有通用性，可与作为智能体的各种开源大语言模型兼容。通过对有害和良性提示进行全面实验，研究者证明了所提出的 RePD 在增强大语言模型对越狱攻击的抵御能力方面的有效性，同时不影响其对典型用户请求的响应性能。

链接：

https://arxiv.org/pdf/2410.08660

4. PILLAR：一个由人工智能驱动的隐私威胁建模工具

简介：研究者指出，大语言模型的快速发展为在包括隐私工程在内的广泛领域应用人工智能开辟了新的可能性。现代应用处理敏感用户数据，保护隐私至关重要。现有隐私威胁建模框架如 LINDDUN 虽有价值，但需大量人工努力、专家投入和系统知识，过程耗时且易出错。当前方法依赖复杂数据流图和系统描述确定隐私问题，虽全面却麻烦，且依赖用户数据准确性，还缺乏威胁优先级指导。为应对这些挑战，研究者引入 PILLAR，它将大语言模型与 LINDDUN 框架集成，自动化 LINDDUN 过程关键部分。利用大语言模型能力，PILLAR 可根据系统自然语言描述转化为威胁模型，用户输入极少，减少开发人员和隐私专家工作量，提高效率和准确性，为隐私威胁建模提供了新的有效途径。

链接：

https://arxiv.org/abs/2410.08755

5. F2A：一种利用伪装安全检测智能体进行提示注入的创新方法

简介：随着大语言模型（LLMs）的快速发展，在内容安全检测领域已出现众多成熟应用。然而，研究者发现大语言模型对安全检测代理呈现盲目信任。一般的大语言模型可能因这一漏洞被黑客攻击。为此，本文提出一种名为伪装代理攻击（F2A）的攻击方式。通过恶意伪造，将虚假安全检测结果添加到提示中，可绕过大语言模型的防御机制，获取有害内容并劫持正常对话。接着，研究者进行了一系列实验，分析并展示了 F2A 对大语言模型的劫持能力，探索了大语言模型盲目信任安全检测结果的根本原因。实验涉及在提示中注入虚假安全检测结果的各种场景，并密切监测响应以了解漏洞程度。此外，本文针对这种攻击提供了合理解决方案，强调大语言模型对增强代理的结果进行批判性评估很重要，以防止生成有害内容。这样能显著提高可靠性和安全性，保护大语言模型免受 F2A 的攻击。

链接：

https://arxiv.org/abs/2410.08776

6. 针对大语言模型的拒绝服务中毒攻击

简介：研究者发现大语言模型（LLMs）易受拒绝服务（DoS）攻击，如拼写错误或无语义提示会引发无尽输出且不生成[EOS]标记，可能导致高延迟使其他用户或任务无法访问 LLM 服务。但在有语音转文本接口时，执行此类DoS攻击较难，仅靠自然指令如“不断重复‘你好’”会受 LLM 有监督微调数据最大长度限制输出长度。为克服此限制，研究者提出针对 LLM 的基于中毒的 DoS（P-DoS）攻击，证明注入一个为 DoS 目的设计的中毒样本可打破输出长度限制，例如能成功攻击 GPT-4o 和 GPT-4o mini，成本不到 1 美元使输出达到最大推理长度（16K 个标记，中毒前为 0.5K）。此外，研究者对开源 LLM 进行全面消融研究并将方法扩展到 LLM 智能体，攻击者可控制微调数据集和算法。研究者强调迫切需要针对 P-DoS 攻击的防御措施来保护 LLM，其代码可在特定 URL 获取。

链接：

https://arxiv.org/abs/2410.10760