第144期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 针对提示注入和越狱攻击的LLM分析

摘要：大语言模型（LLM）已广泛应用于现实世界的系统中。鉴于其广泛的适用性，提示工程已成为资源匮乏的组织将LLM应用于自身目标的有效工具。与此同时，LLM也容易受到基于提示的攻击。因此，分析这种风险已成为一项至关重要的安全需求。本研究使用一个大型的、人工整理的数据集，评估了多个开源LLM（包括Phi、Mistral、DeepSeek-R1、Llama 3.2、Qwen和Gemma变体）的提示注入和越狱漏洞。我们观察到不同模型之间存在显著的行为差异，包括拒绝响应以及由内部安全机制触发的完全静默无响应。此外，我们还评估了几种轻量级的、推理时防御机制，这些机制无需重新训练或GPU密集型微调即可作为过滤器运行。尽管这些防御机制可以缓解简单的攻击，但它们始终会被冗长且推理繁琐的提示所绕过。

链接：

https://arxiv.org/abs/2602.22242

2. 针对智能编码助手的提示注入攻击：技能、工具和协议生态系统漏洞的系统分析

摘要：包括 Claude Code、GitHub Copilot、Cursor 以及新兴的基于技能的架构在内的智能AI编码助手的激增，从根本上改变了软件开发工作流程。这些系统利用大型语言模型（LLM），并通过模型上下文协议（MCP）等协议集成外部工具、文件系统和shell访问。然而，这种扩展的功能面也带来了严重的安全漏洞。在本篇《知识系统化（SoK）》论文中，我们对针对智能编码助手的即时注入攻击进行了全面分析。我们提出了一种新颖的三维分类法，从“传递向量”、“攻击模式”和“传播行为”三个维度对攻击进行分类。我们的元分析综合了78项近期研究（2021-2026年）的发现，证实了当采用自适应攻击策略时，针对最先进防御措施的攻击成功率超过85%。我们系统地编录了 42 种不同的攻击技术，涵盖输入篡改、工具投毒、协议利用、多模态注入和跨域上下文投毒。通过对先前工作中报告的 18 种防御机制进行深入分析，我们发现大多数防御机制对复杂的自适应攻击的缓解率不足 50%。我们的贡献包括：(1) 构建了一个统一的攻击分类体系，将不同的攻击类型联系起来；(2) 首次系统地分析了基于技能的架构漏洞及其具体的攻击链；(3) 基于我们发现的局限性，构建了一个纵深防御框架。我们的研究结果表明，安全界必须将快速注入视为一级漏洞，需要架构层面的缓解措施，而不是临时性的过滤方法。

链接：

https://arxiv.org/abs/2601.17548

3. 面向基于 LLM 的多智能体系统的覆盖引导模糊测试

摘要：多智能体逻辑逻辑管理系统（MAS）通过将任务分解为子任务，实现了复杂人类工作流程的自动化。然而，由于逻辑逻辑智能体的非确定性行为以及智能体之间复杂的交互，MAS 应用经常会遇到各种故障，例如无限循环和工具调用失败。传统的软件测试技术由于缺乏逻辑逻辑智能体规范、MAS 庞大的行为空间以及基于语义的正确性判断等原因，难以有效检测此类故障。

本文提出了一种名为 FLARE 的新型 MAS 测试框架。FLARE 以 MAS 的源代码为输入，从智能体定义中提取规范和行为空间。基于这些规范，FLARE 构建测试预言机，并执行覆盖率引导的模糊测试来发现故障。然后，它分析执行日志，判断每个测试是否通过，并生成故障报告。我们对 16 个不同的开源应用程序进行了评估，结果表明 FLARE 实现了 96.9% 的代理间覆盖率和 91.1% 的代理内覆盖率，分别比基线高出 9.5% 和 1.0%。FLARE 还发现了 MAS 特有的 56 个先前未知的故障。

链接：

https://arxiv.org/abs/2604.05289

4. 面向 Java 库模糊测试的覆盖率引导多智能体工具生成

摘要：覆盖率引导的模糊测试已被证明对软件测试有效，但针对库代码进行测试需要专门的模糊测试框架，将模糊测试器生成的输入转换为有效的 API 调用。手动创建框架既耗时又需要对 API 语义、初始化序列和异常处理机制有深入的理解。我们提出了一种多智能体架构，它通过专门的 LLM 智能体自动生成 Java 库的模糊测试框架。五个 ReAct 智能体将工作流程分解为研究、综合、编译修复、覆盖率分析和优化。智能体无需预处理整个代码库，而是通过模型上下文协议按需查询文档、源代码和调用图信息，从而在探索复杂依赖关系的同时保持上下文的聚焦性。为了实现有效的优化，我们引入了方法目标覆盖率，仅在目标方法执行期间跟踪覆盖率以隔离目标行为；以及智能体引导的终止机制，该机制检查未覆盖的源代码，以区分有效的优化机会和收益递减的情况。我们使用来自六个广泛部署的 Java 库的七个目标方法（总共超过 115,000 个 Maven 依赖项）评估了我们的方法。我们生成的测试框架相比 OSS-Fuzz 基线平均提升了 26%，并且在包级覆盖率方面比 Jazzer AutoFuzz 高出 5%。每个测试框架的平均生成成本为3.20美元，耗时 10 分钟，这使得该方法适用于持续模糊测试工作流程。在一次 12 小时的模糊测试活动中，我们生成的测试框架在已集成到 OSS-Fuzz 的项目中发现了 3 个缺陷，证明了所生成测试框架的有效性。

链接：

https://arxiv.org/abs/2603.08616

5. 基于LLM生成的脆弱性模式的神经符号静态分析

摘要：本文提出了一种名为 MoCQ 的神经符号静态分析框架，它利用大语言模型 (LLM) 自动生成漏洞检测模式。该方法结合了基于模式的静态分析的精确性和可扩展性，以及 LLM 的语义理解和自动化能力。MoCQ 提取用于表达漏洞模式的领域特定语言，并采用迭代细化循环和基于跟踪的符号验证，为模式修正提供精确反馈。我们使用四种语言（C/C++、Java、PHP 和 JavaScript）的 12 种漏洞类型对 MoCQ 进行了评估。结果表明，MoCQ 的检测性能与专家开发的模式相当，而生成模式仅需数小时，远低于人工开发模式所需的数周时间。值得注意的是，MoCQ 发现了 46 个安全专家遗漏的新漏洞模式，并在实际应用中发现了 25 个此前未知的漏洞。此外，MoCQ 还具有更强大的分析能力和更广泛的适用性，优于以往的方法。

链接：

https://arxiv.org/abs/2504.16057

6. 基于软件物料清单图预测软件供应链中的多漏洞攻击链

摘要：软件供应链安全漏洞通常源于漏洞的级联交互，例如多个易受攻击的组件之间的交互。然而，基于软件物料清单 (SBOM) 的安全分析流程通常将扫描器结果视为独立的 CVE（通用漏洞披露）记录。我们提出了一种新的研究方向，即通过一种新颖的基于 SBOM 的图学习方法来学习多漏洞攻击链。该方法将 SBOM 结构和扫描器输出视为依赖关系约束的证据图，而不是简单的漏洞列表。我们将包含漏洞信息的 CycloneDX SBOM 表示为异构图，其节点捕获软件组件和已知漏洞（即 CVE），并通过类型化关系（例如依赖关系和漏洞链接）连接。我们训练了一个异构图注意力网络 (HGAT) 来预测组件是否与至少一个已知漏洞相关联，以此作为在该结构上进行学习的可行性检查。此外，我们将级联漏洞的发现过程构建为 CVE 对链接预测，并使用基于已记录的多漏洞链训练的轻量级多层感知器 (MLP) 神经网络进行预测。在来自 Wild SBOMs 公共数据集的 200 个真实 SBOM 上进行验证后，HGAT 组件分类器达到了 91.03% 的准确率和 74.02% 的 F1 分数，而级联预测模型 (MLP) 在包含 35 个已记录攻击链的种子集上实现了 0.93 的受试者工作特征曲线下面积 (ROC-AUC)。

链接：

https://arxiv.org/abs/2604.04977

7. Red-MIRROR：基于智能体LLM的自主渗透测试，结合反射式验证和知识增强交互

摘要：Web应用程序仍然是网络安全领域的主要攻击面，SQL注入、XSS和业务逻辑缺陷等漏洞持续导致重大数据泄露。虽然渗透测试能够有效识别这些弱点，但传统的手动方法耗时费力，且严重依赖于稀缺的专家知识。近年来，基于大语言模型（LLM）的多智能体系统在自动化渗透测试方面展现出巨大潜力，但它们仍然存在一些关键局限性：过度依赖参数化知识、会话内存碎片化以及对攻击载荷和响应的验证不足。本文提出了一种新型的多智能体自动化渗透测试系统Red-MIRROR，该系统引入了一个紧密耦合的内存反射机制来显式地控制智能体间的推理。Red-MIRROR通过整合检索增强生成（RAG）用于外部知识增强、共享循环记忆机制（SRMM）用于持久状态管理以及双阶段反射机制用于自适应验证，为复杂的Web攻击提供了一个稳健的解决方案。在 XBOW 基准测试和 Vulhub CVE 上的实证评估表明，Red-MIRROR 在 Vulhub 场景下的性能与最先进的智能体相当，而在 XBOW 基准测试中则展现出明显的优势。在 XBOW 基准测试中，Red-MIRROR 的总体成功率达到 86.0%，优于 PentestAgent (50.0%)、AutoPT (46.0%) 和 VulnBot 基线 (6.0%)。此外，该系统实现了 93.99% 的子任务完成率，表明其具有强大的长时域推理和有效载荷优化能力。最后，我们讨论了伦理影响，并提出了降低滥用风险的保障措施。

链接：

https://arxiv.org/abs/2603.27127

8. AgenticRed：用于红队演练的智能体系统

摘要：尽管近期的自动化红队演练方法在系统性地暴露模型漏洞方面展现出巨大潜力，但大多数现有方法依赖于人工指定的流程。这种对人工设计流程的依赖容易受到人为偏见的影响，并且使得探索更广泛的设计空间成本高昂。我们提出了 AgenticRed，这是一个自动化流程，它利用 LLM 的上下文学习能力，无需人工干预即可迭代地设计和优化红队演练系统。AgenticRed 并非在预定义的结构内优化攻击者策略，而是将红队演练视为一个系统设计问题，并利用进化选择和世代知识自主地演化自动化红队演练系统。AgenticRed 设计的红队演练系统始终优于现有最佳方法，在 HarmBench 平台上，对 Llama-2-7B 模型的攻击成功率 (ASR) 达到 96%，对 Llama-3-8B 模型达到 98%，对 Qwen3-8B 模型达到 100%。我们的方法生成了稳健的、与查询无关的红队演练系统，这些系统能够很好地迁移到最新的专有模型，并在 GPT-5.1、DeepSeek-R1 和 DeepSeek V3.2 上实现了令人瞩目的 100% 语音识别准确率。这项工作凸显了进化算法作为一种强大的 AI 安全方法，能够跟上快速发展的模型步伐。

链接：

https://arxiv.org/abs/2601.13518

9. 基于机器学习和自然语言处理的上下文感知钓鱼邮件检测

摘要：网络钓鱼攻击仍然是最普遍的网络安全威胁之一，给全球个人和组织造成了巨大的经济损失。本文提出了一种基于机器学习的网络钓鱼邮件检测系统，该系统利用自然语言处理（NLP）技术分析邮件正文内容。与现有主要侧重于URL分析的方法不同，我们的系统通过从整个邮件内容中提取上下文特征来对邮件进行分类。我们评估了两种分类模型：朴素贝叶斯和逻辑回归，它们均基于来自三个不同数据集的53,973封已标注邮件的综合语料库进行训练。我们的预处理流程包括小写转换、分词、停用词去除和词形还原，然后使用词频-逆文档频率（TF-IDF）提取一元词和二元词特征。实验结果表明，逻辑回归的准确率达到了95.41%，F1值为94.33%，比朴素贝叶斯高出1.55个百分点。该系统以 Web 应用程序的形式部署，采用 FastAPI 后端，提供实时网络钓鱼分类，平均响应时间为 127 毫秒。

链接：

https://arxiv.org/abs/2603.27326

10. 基于LLM的AI智能体的安全威胁与防御系统性调查：分层攻击面框架

摘要：智能体人工智能系统引入了一种与无状态逻辑层级模型（LLM）截然不同的安全面。它们会持久化记忆、调用外部工具、与对等智能体协调以及跨会话运行，这使得攻击不仅可能出现在即时接口，还可能通过架构状态、委托权限和长期交互等途径出现。然而，现有的安全分类主要按攻击类型（例如即时注入或越狱）对威胁进行分类，因此难以确定威胁在智能体堆栈中的出现位置以及其持续时间。

我们提出了分层攻击面模型（LASM），一种用于智能体人工智能安全的结构化分类方法。LASM 将智能体堆栈分解为七个层级——基础层、认知层、记忆层、工具执行层、多智能体协调层、生态系统层和治理层——并在此基础上增加了一个四类时间轴，涵盖瞬时威胁、会话持久威胁、跨会话累积威胁和子会话堆栈威胁。我们使用 7 4 框架分析了 2021 年至 2026 年的 116 篇论文。分析结果显示，智能体栈的上层仍未得到充分探索，尤其是在长时程和栈传播威胁方面；多个已记录的攻击区域缺乏相应的防御措施；现有基准测试无法覆盖跨会话或子会话栈故障模式。我们进一步推导出了跨层防御分类法、典型攻击类型的防御方案，以及一个将近期工程难题与基础研究挑战区分开来的依赖关系有向无环图 (DAG)。为了支持可复现的分析，我们发布了每篇论文的代码、鲁棒性脚本以及参考智能体物料清单 (AgBOM) 模式。

链接：

https://arxiv.org/abs/2604.23338

11. AgentWard：面向自主人工智能智能体的生命周期安全架构

摘要：自主人工智能智能体将大语言模型扩展为完整的运行时系统，这些系统能够加载技能、摄取外部内容、维护内存、规划多步骤操作并调用特权工具。在这样的系统中，安全漏洞很少局限于单一接口；相反，它们会传播到初始化、输入处理、内存、决策和执行等各个阶段，通常只有在有害影响实际存在于环境中时才会显现出来。本文提出了一种名为 AgentWard 的生命周期导向型纵深防御架构，它系统地组织了这五个阶段的保护措施。AgentWard 将阶段特定的异构控制与跨层协调相结合，从而能够在威胁传播路径上拦截威胁，同时保护关键资产。我们详细阐述了五个协调保护层的设计原理和架构，并在 OpenClaw 上实现了一个插件原生原型，以展示其实际可行性。这种视角为构建运行时安全控制、管理信任传播以及在自主人工智能智能体中强制执行隔离提供了一个具体的蓝图。

链接：

https://arxiv.org/abs/2604.24657

-End-