第100期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. SafeGenBench：LLM生成代码中安全漏洞检测的基准框架

简介：大语言模型(LLM)的代码生成能力已成为评估其整体性能的关键维度。然而，先前的研究在很大程度上忽略了生成代码中固有的安全风险。本文引入了benchmark，这是一个专门用于评估LLM生成代码安全性的基准测试。该数据集涵盖了各种常见的软件开发场景和漏洞类型。基于此基准测试，研究者开发了一个自动评估框架，该框架结合静态应用程序安全测试(SAST)和基于LLM的评判来评估模型生成代码中是否存在安全漏洞。通过在benchmark上对最先进的LLM进行实证评估，研究者发现它们在生成无漏洞代码的能力方面存在显著缺陷。研究者的研究结果强调了紧迫的挑战，并为未来提升LLM的安全代码生成性能提供了可行的建议。

链接：

https://arxiv.org/abs/2506.05692

2. 使用多态提示保护LLM智能体免受提示注入攻击

简介：LLM 智能体在客户支持、内容生成和代码辅助等领域应用广泛，但面临提示注入攻击风险，即对抗性输入会操纵模型行为。传统防御手段如输入清理、防护模型和护栏，存在繁琐或无效的问题。针对此，本文提出名为多态提示组装 (PPA) 的新型轻量级防御机制，能以近乎零的开销抵御提示注入。该方法基于提示注入需猜测并破坏系统提示结构的原理，通过动态改变系统提示结构，使攻击者无法预测，在不影响性能的前提下提升安全性。研究者通过实验评估了 PPA 抵御现有攻击的有效性，并与其他防御方法进行了对比。

链接：

https://arxiv.org/abs/2506.05739

3. Joint-GCG：针对检索增强生成系统的统一基于梯度的中毒攻击

简介：检索增强生成(RAG)系统通过在生成响应之前从外部语料库中检索相关文档来增强大语言模型(LLM)。这种方法通过利用大量最新的外部知识，显著扩展了LLM的功能。然而，这种对外部知识的依赖使得RAG系统容易受到语料库中毒攻击，这些攻击通过注入中毒文档来操纵生成的输出。现有的中毒攻击策略通常将检索阶段和生成阶段视为脱节的，从而限制了其有效性。研究者提出了Joint-GCG，这是第一个通过三项创新统一检索器和生成器模型中基于梯度的攻击的框架：(1)用于对齐嵌入空间的跨词汇投影，(2)用于同步token级梯度信号的梯度标记对齐，以及(3)用于动态平衡攻击目标的自适应加权融合。评估表明，与之前在多个检索器和生成器中使用的方法相比，Joint-GCG的攻击成功率最多高出25%，平均高出5%。虽然是在白盒假设下优化的，但生成的毒药表现出前所未有的可迁移性，可应用于未知模型。Joint-GCG创新地将基于梯度的攻击在检索和生成阶段统一起来，从根本上重塑了研究者对RAG系统漏洞的理解。

链接：

https://arxiv.org/abs/2506.06151

4. ETDI：使用OAuth增强工具定义和基于策略的访问控制缓解模型上下文协议(MCP)中的工具抢注和RugPull攻击

简介：模型上下文协议(MCP)在扩展大语言模型(LLM)的功能方面发挥着至关重要的作用，它支持与外部工具和数据源的集成。然而，标准的MCP规范存在严重的安全漏洞，尤其是工具中毒(ToolPoisoning)和RugPull攻击。本文介绍了增强型工具定义接口(ETDI)，这是一个旨在增强MCP的安全扩展。ETDI集成了加密身份验证、不可变的版本化工具定义和显式权限管理，通常利用OAuth2.0。研究者进一步建议使用细粒度的基于策略的访问控制来扩展MCP，其中使用专用策略引擎根据显式策略动态评估工具功能，并考虑静态OAuth范围之外的运行时上下文。这种分层方法旨在为与LLM和外部工具交互的AI应用程序建立一个更安全、更可信、更可控的生态系统。

链接：

https://arxiv.org/abs/2506.01333

5. CyberGym：利用现实世界的漏洞大规模评估人工智能智能体的网络安全能力

简介：大语言模型(LLM)智能体在自主处理网络安全任务方面日益娴熟。鉴于该领域的高风险，全面评估其网络安全能力至关重要且刻不容缓。然而，现有的基准测试存在不足，往往无法捕捉真实场景或范围有限。为了弥补这一缺陷，研究者推出了CyberGym，这是一个大规模、高质量的网络安全评估框架，涵盖了在188个大型软件项目中发现并修复的1,507个真实漏洞。虽然CyberGym包含各种设置的任务，但它主要侧重于基于文本描述和相应的源代码库生成用于漏洞复现的概念验证(PoC)测试。解决这项任务尤其具有挑战性，因为它需要对整个代码库进行全面推理，以定位相关的代码片段并生成有效的PoC，从而从程序的入口点开始准确触发目标漏洞。研究者对4个最先进的智能体框架和9个LLM进行了评估，结果表明，即使是最佳组合（OpenHands和Claude-3.7-Sonnet），复现成功率也只有11.9%，且主要集中在较为简单的案例中。除了能够复现历史漏洞外，研究者还发现LLM智能体生成的PoC还能揭示新的漏洞，并识别出15个影响软件项目最新版本的零日漏洞。

链接：

https://arxiv.org/abs/2506.02548

6. ATAG：基于攻击图的AI智能体应用威胁评估

简介：评估大语言模型（LLM）驱动的多智能体系统（MAS）安全性充满挑战，根源在于系统内部动态复杂，且LLM漏洞不断变化，而传统攻击图（AG）方法缺乏对LLM攻击的针对性建模能力。本文提出基于攻击图的 AI 智能体应用威胁评估（ATAG）框架，旨在系统分析AI智能体应用的安全风险。ATAG通过扩展基于MulVAL逻辑的AG生成工具，添加自定义事实和交互规则，精准呈现 AI 智能体拓扑结构、漏洞与攻击场景。

此外，研究者创建了LLM漏洞数据库（LVD），推动LLM漏洞文档标准化。为验证ATAG有效性，研究者将其应用于两个多智能体应用程序，案例研究显示该框架能对复杂多步骤攻击场景建模并生成AG，覆盖提示注入、过度智能体、敏感信息泄露及跨智能体不安全输出处理等漏洞。

ATAG是构建强大方法论和工具集的关键一步，助力理解、可视化与优先处理多智能体AI系统（MAAS）复杂攻击路径，可在多智能体应用中主动识别和缓解 AI 智能体威胁。

链接：

https://arxiv.org/abs/2506.02859

7. 利用当代LLM实现安全策略自动化

简介：现代计算环境的复杂性和网络威胁日益复杂化，要求采取更稳健、更自适应、更自动化的安全执行方法。本文提出了一个利用大语言模型(LLM)的框架，通过上下文学习和检索增强生成(RAG)的创新组合，实现攻击缓解策略合规性的自动化。首先，研究者描述了系统如何收集和管理工具和API规范，并将它们存储在矢量数据库中，以便高效地检索相关信息。然后，研究者详细介绍了架构流程，该流程首先将高级缓解策略分解为离散任务，然后将每个任务转换为一组可操作的API调用。研究者使用公开的STIXv2格式的CTI策略和WindowsAPI文档进行了实证评估，结果表明，与非RAG基准相比，使用RAG时，准确率、召回率和F1分数均有显著提升。

链接：

https://arxiv.org/abs/2506.04838