第106期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 通过双重检索增强微调和大语言模型上的补丁生成来加速自动程序修复

简介：自动程序修复（APR）对确保软件可靠性与质量、提升效率及减轻开发人员工作量至关重要。尽管基于规则和基于学习的 APR 方法已展现出有效性，但其性能受修复缺陷类型、训练数据质量和模型参数大小限制。近年来，大语言模型（LLM）与检索增强生成（RAG）相结合在 APR 任务中应用日益广泛，然而当前的代码 LLM 和 RAG 设计既无法彻底解决代码修复任务，也未能考虑代码特有的特性。

为克服这些局限性，研究者提出了 SelRepair—— 一种集成微调 LLM 与全新双 RAG 模块的新颖 APR 方法。该方法利用错误修复对数据集进行微调，并通过 RAG 选择门融合语义与句法 / 结构相似性信息。这种设计能高效检索相关信息，从而缩短 token 长度并减少推理时间。

在 Java 数据集上的评估显示，SelRepair 优于其他 APR 方法，在不同数据集的精确匹配（EM）上分别达到 26.29% 和 17.64%；同时，在控制输入长度的情况下，其推理时间至少减少 6.42%。

链接：

https://arxiv.org/abs/2507.10103

2. 逻辑层即时控制注入（LPCI）：代理系统中一种新的安全漏洞类别

简介：大语言模型 (LLM) 集成到企业系统中，带来了一类新的隐蔽安全漏洞，尤其是在逻辑执行层和持久内存上下文中。本文介绍了逻辑层即时控制注入 (LPCI)，这是一种新型攻击类型，其中编码、延迟和条件触发的有效载荷嵌入到内存、向量存储或工具输出中。这些有效载荷可以绕过传统的输入过滤器，并在会话中触发未经授权的行为。

链接：

https://arxiv.org/abs/2507.10457

3. 从警报到情报：一种基于主机的入侵检测的新型 LLM 辅助框架

简介：基于主机的入侵检测系统（HIDS）是保护组织抵御高级持续性威胁（APT）等高级威胁的关键防御组件。借助数据溯源等方法分析细粒度日志，HIDS 已成功捕捉到复杂的攻击踪迹。尽管研究界与业界取得了不少进展，但由于存在误报率高、不同环境结果不一致以及检测结果不人性化等问题，HIDS 在部署环境中常遭到运维人员的强烈反对。

大语言模型（LLM）具备对攻击技术的深入理解能力，以及通过语义分析检测异常的能力（近期研究已证实这些能力），在提升 HIDS 性能方面潜力巨大。不过，研究者的初步分析显示，单纯依靠 LLM 构建 HIDS 难以成功。

为此，本研究探索了为 HIDS 构建定制 LLM 流程的方向，开发出名为 SHIELD 的系统。该系统集成了多种技术，如用于攻击窗口检测、攻击证据识别与扩展的事件级掩蔽自编码器（MAE），用于分析正常活动的确定性数据增强（DDA），以及引导 LLM 进行精准且可解释的攻击调查的多用途提示，以此解决 LLM 面临的令牌限制、背景噪声混淆等挑战。

在三个日志数据集（DARPA-E3、NodLink 模拟数据和 ATLASv2）上的大量实验表明，SHIELD 与 5 个代表性 HIDS 相比，表现始终更优。这些发现凸显了 LLM 作为强大入侵检测工具的潜力，也为该领域的未来研究奠定了基础。

链接：

https://arxiv.org/abs/2507.10873

4. LRCTI：基于大语言模型的网络威胁情报可信度验证多步证据检索与推理框架

简介：验证网络威胁情报（CTI）的可信度对可靠的网络安全防御至关重要。但传统方法常将该任务视为静态分类问题，依赖手工设计的特征或孤立的深度学习模型，不仅缺乏处理不完整、异构或噪声情报所需的鲁棒性，且决策因素透明度有限，降低了在现实威胁环境中的有效性。

为解决这些局限性，研究者提出了 LRCTI—— 一个基于大语言模型（LLM）的多步骤 CTI 可信度验证框架。该框架首先通过文本摘要模块，将复杂的情报报告提炼为简洁且可操作的威胁声明；接着利用自适应多步骤证据检索机制，在 LLM 反馈的指导下，从 CTI 专用语料库中迭代识别和细化支持信息；最后应用基于提示的自然语言推理（NLI）模块，评估每个声明的可信度，并为分类结果生成可解释的依据。

在 CTI-200 和 PolitiFact 两个基准数据集上的实验显示，LRCTI 将 F1-Macro 和 F1-Micro 得分提升了 5% 以上，与最先进的基线相比，分别达到 90.9% 和 93.6%。这些结果表明，LRCTI 有效解决了现有方法的核心局限性，为自动化 CTI 可信度验证提供了一种可扩展、准确且可解释的解决方案。

链接：

https://arxiv.org/abs/2507.11310

5. LLAMA：具有 LLM 引导种子生成的多反馈智能合约模糊测试框架

简介：智能合约在区块链生态系统中扮演关键角色，模糊测试仍是保障其安全的重要途径。尽管变异调度是影响模糊测试有效性的关键因素，但现有模糊测试器主要研究种子调度和生成，此前研究很少涉及变异调度。

本文提出基于大语言模型（LLM）的多反馈智能合约模糊测试框架（LLAMA），该框架集成了 LLM、进化变异策略和混合测试技术。其关键组件包括：（i）分层提示策略，引导 LLM 生成语义有效的初始种子，并结合轻量级预模糊测试阶段选择高潜力输入；（ii）多反馈优化机制，通过利用运行时覆盖率和依赖性反馈，同时改进种子生成、种子选择和变异调度；（iii）进化模糊测试引擎，根据有效性动态调整变异算子概率，同时结合符号执行避免停滞并发现更深层次漏洞。

实验表明，LLAMA 在覆盖率和漏洞检测方面均优于最先进的模糊测试工具。具体而言，它实现了 91% 的指令覆盖率和 90% 的分支覆盖率，同时在 148 个已知漏洞中检测到 132 个，涵盖各类别。这些结果凸显了 LLAMA 在实际智能合约安全测试场景中的有效性、适应性和实用性。

链接：

https://arxiv.org/abs/2507.12084

6. MAD-Spear：针对多智能体辩论系统的一致性驱动的即时注入攻击

简介：多智能体辩论（MAD）系统借助大语言模型（LLM）智能体间的协作交互提升推理能力。尽管近期研究聚焦于提高 MAD 系统的准确性和可扩展性，但其安全漏洞却鲜少受到关注。

本文引入 MAD-Spear—— 一种定向即时注入攻击，它只需攻击一小部分智能体，就能严重扰乱整个 MAD 流程。受操控的智能体会生成多个看似合理实则错误的响应，利用 LLM 的从众倾向传播错误信息，降低共识质量。此外，该攻击可与通信攻击等其他策略组合使用，通过增加智能体接触错误响应的几率进一步放大影响。

为评估 MAD 在攻击下的韧性，研究者提出 MAD 容错性的正式定义，并开发了一个综合评估框架，该框架同时考量准确性、共识效率和可扩展性。在五个不同难度的基准数据集上的大量实验显示，MAD-Spear 在降低系统性能方面始终优于基线攻击。此外，研究者观察到，智能体多样性显著提升了数学推理任务中 MAD 的性能，这与先前研究认为智能体多样性对性能影响甚微的观点相悖。这些发现凸显了提升 MAD 设计安全性的迫切需求。

链接：

https://arxiv.org/abs/2507.13038

7. 网络安全中的大语言模型：应用、漏洞和防御技术

简介：大语言模型（LLM）正通过实现智能、自适应且自动化的威胁检测、漏洞评估及事件响应方法，改变着网络安全领域。凭借先进的语言理解与上下文推理能力，LLM 在应对物联网、区块链和硬件安全等领域的挑战时，表现超越了传统方法。

本综述全面概述了 LLM 在网络安全中的应用，重点关注两个核心领域：（1）LLM 与关键网络安全领域的集成；（2）LLM 自身的漏洞及其缓解策略。通过综合近期进展并识别关键局限性，本研究为利用 LLM 构建安全、可扩展且面向未来的网络防御系统，提供了实用见解与战略建议。

链接：

https://arxiv.org/abs/2507.13629

8. TopicAttack：通过主题转换进行间接提示注入攻击

简介：大语言模型（LLM）在一系列自然语言处理（NLP）任务中表现卓越。但由于具备强大的指令跟踪能力，且无法区分指令与数据内容，它们易受间接提示注入攻击。在此类攻击中，恶意指令会被注入外部数据源（如 Web 文档）；当 LLM 通过搜索引擎等工具检索到这些注入数据并执行注入的指令时，就会提供误导性响应。

近期的攻击方法已展现出潜力，但其指令注入较为突兀，往往削弱了有效性。鉴于现有攻击方法的局限性，研究者提出了 TopicAttack。该方法促使 LLM 生成虚构的对话过渡提示，将话题逐渐转向注入的指令，使注入过程更流畅，从而增强攻击的可信度和成功率。

全面实验表明，TopicAttack 性能最佳，即便在采用各种防御方法的情况下，其攻击成功率（ASR）在大多数情况下仍超过 90%。研究者通过检查注意力得分进一步分析了其有效性，发现注入与原始注意力的比率越高，成功概率越大，且研究者的方法比基线方法实现了更高的比率。

链接：

https://arxiv.org/abs/2507.13686