第107期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

FaultLine：使用 LLM 智能体自动生成漏洞证明

简介：尽管软件安全漏洞已构成严重威胁，但漏洞报告往往不够完整，尤其缺乏验证修复效果及防止漏洞回归所需的漏洞验证（PoV）测试。这类测试不仅是确保补丁有效的关键，还能帮助开发人员理解漏洞的利用方式。然而，生成 PoV 测试极具挑战性，需要对程序中深度嵌套层级的控制流和数据流进行推理。

为此，研究者提出了 FaultLine—— 一种基于大语言模型（LLM）的智能体工作流。它采用一组精心设计的推理步骤（灵感源自传统的静态和动态程序分析），可自动生成 PoV 测试用例。在给定附带漏洞报告的软件项目后，FaultLine 会按以下步骤运行：1) 追踪输入从外部可访问的 API（即 “源”）到与漏洞对应的 “接收器” 的流转过程；2) 推理输入必须满足的条件，以遍历流程中遇到的分支条件；3) 利用这一推理结果，在反馈驱动的循环中生成 PoV 测试用例。值得一提的是，FaultLine 不依赖特定于语言的静态或动态分析组件，因此能够跨编程语言使用。

为评估 FaultLine 的性能，研究者整理了一个具有挑战性的多语言数据集，涵盖 Java、C 和 C++ 项目中的 100 个已知漏洞。测试结果显示，FaultLine 能为其中 16 个项目生成 PoV 测试，而主流的先进开源智能体框架 CodeAct 2.1 仅能生成 9 个。由此可见，相较于现有技术，FaultLine 的性能提升了 77%。

研究者的研究结果表明，分层推理能够提升 LLM 智能体在 PoV 测试生成方面的表现，但总体而言，这一问题仍极具挑战性。目前，研究者已公开相关代码和数据集，希望能推动该领域的进一步研究。

链接：

https://arxiv.org/abs/2507.15241

2. eX-NIDS：利用大语言模型的可解释网络入侵检测框架

简介：本文介绍了 eX-NIDS 框架，该框架旨在利用大语言模型 (LLM) 来增强基于流的网络入侵检测系统 (NIDS) 的可解释性。在研究者提出的框架中，被 NIDS 标记为恶意的流首先通过一个名为“提示增强器 (Prompt Augmenter)”的模块进行处理。该模块从这些流中提取上下文信息和网络威胁情报 (CTI) 相关知识。然后，这些丰富的、特定于上下文的数据与 LLM 的输入提示集成，使其能够生成详细的解释，并解释 NIDS 将该流识别为恶意的原因。研究者将生成的解释与“基本提示解释器 (Basic-Prompt Explainer)”基线进行比较，该基线未将任何上下文信息纳入 LLM 的输入提示中。研究者使用 Llama 3 和 GPT-4 模型对研究者的框架进行了定量评估，采用了一种针对自然语言解释量身定制的全新评估方法，重点关注其正确性和一致性。结果表明，增强型 LLM 能够生成准确且一致的解释，可作为 NIDS 中解释恶意流分类的宝贵补充工具。与基本提示解释器相比，使用增强型提示可将性能提升 20% 以上。

链接：

https://arxiv.org/abs/2507.16241

3. 像网络钓鱼者一样说话：基于 LLM 的语音网络钓鱼分类器攻击

简介：语音钓鱼（vishing）一直是网络安全领域的一个持续威胁，它通过诱导性言语来利用人类的信任。虽然基于机器学习 (ML) 的分类器在检测恶意通话记录方面已展现出良好的前景，但它们仍然容易受到保留语义内容的对抗性操纵。在本研究中，研究者探索了一种新的攻击向量，利用大语言模型 (LLM) 生成对抗性语音钓鱼记录，这些记录在保持欺骗意图的同时能够规避检测。研究者构建了一个系统化的攻击流程，该流程采用快速工程和语义混淆技术，使用四个商用 LLM 来转换真实世界的语音钓鱼脚本。生成的记录将与多个在真实韩国语音钓鱼数据集 (KorCCViD) 上训练的 ML 分类器进行评估，并进行统计测试。研究者的实验表明，LLM 生成的记录在实践和统计上都能够有效对抗基于 ML 的分类器。特别是，GPT-4o 生成的记录显著降低了分类器的准确率（最高降低 30.96%），同时保持了较高的语义相似度（以 BERTScore 为衡量标准）。此外，这些攻击既省时又经济，平均生成时间不到9秒，每次查询的财务成本几乎可以忽略不计。研究结果强调了对更具弹性的语音钓鱼检测框架的迫切需求，并强调了LLM课程提供者必须实施更强有力的保障措施，以防止在对抗性社会工程环境中被迅速滥用。

链接：

https://arxiv.org/abs/2507.16291

4. LLMxCPG：通过代码属性图引导的大语言模型进行上下文感知漏洞检测

简介：软件漏洞是持续存在的安全挑战，仅 2024 年，通用漏洞与暴露 (CVE) 数据库中就报告了超过 25,000 个新漏洞。虽然基于深度学习的方法在漏洞检测方面展现出良好的前景，但最近的研究揭示了其在准确性和稳健性方面存在严重局限性：在经过严格验证的数据集上，准确率最高可下降 45%，并且即使进行简单的代码修改，性能也会显著下降。本文介绍了 LLMxCPG，这是一个将代码属性图 (CPG) 与大语言模型 (LLM) 相结合的新型框架，用于实现稳健的漏洞检测。研究者基于 CPG 的切片构建技术在保留漏洞相关上下文的同时，将代码大小减少了 67.84% 至 90.93%。研究者的方法能够提供更简洁、更准确的代码片段表示，从而能够分析更大的代码段，包括整个项目。这种简洁的表示是研究者方法检测能力提升的关键因素，因为它现在可以识别跨多个函数的漏洞。实证评估证明了 LLMxCPG 在已验证数据集上的有效性，其 F1 分数较最先进的基线模型提升了 15-40%。此外，LLMxCPG 在函数级和多功能代码库中均保持高性能，并在各种语法代码修改下展现出强大的检测效能。

链接：

https://arxiv.org/abs/2507.16585

5. PrompTrend：持续社区驱动的大语言模型漏洞发现与评估

简介：静态基准测试无法捕捉在线论坛社区实验中出现的LLM漏洞。研究者提出了PrompTrend，这是一个跨平台收集漏洞数据并使用多维评分进行评估的系统，其架构设计用于可扩展的监控。对五个月期间（2025年1月至5月）从在线社区收集的198个漏洞进行横断面分析，并在九种商业模型上进行了测试，结果表明，高级功能与某些架构中漏洞的增加相关，心理攻击的效果显著优于技术漏洞，平台动态变化通过可衡量的模型特定模式塑造攻击有效性。PrompTrend漏洞评估框架实现了78%的分类准确率，但跨模型可迁移性有限，这表明有效的LLM安全性需要全面的社会技术监控，而不仅仅是传统的定期评估。研究者的研究结果挑战了“能力提升可以提高安全性”的假设，并确立了社区驱动的心理操纵是当前语言模型的主要威胁载体。

链接：

https://arxiv.org/abs/2507.19185

6. 破解大型语言扩散模型：揭示基于扩散的文本生成中隐藏的安全漏洞

简介：大型语言扩散模型（LLDM）的性能与大语言模型（LLM）相当，同时在推理速度和数学推理方面具有显著优势。不过，LLDM 精确且快速的生成能力加剧了人们对其有害生成的担忧。为 LLM 设计的现有越狱方法对 LLDM 的有效性有限，无法暴露其安全性问题。此外，针对 LLDM 的 http URL 防御无法从根本上解决有害生成问题，因为目前尚不清楚 LLDM 是否具备安全稳健性，也不确定现有攻击与基于扩散的 http URL 是否兼容。

为解决这一问题，研究者首先揭示了 LLDM 的越狱漏洞，并证实 LLDM 中攻击失败源于其基本架构。基于此，研究者为基于扩散的语言模型提出了一种并行解码越狱（PAD）方法。PAD 引入多点注意攻击，将并行生成过程引导至受 LLM 中肯定响应模式启发的有害输出。

对四个 LLDM 的实验评估显示，PAD 的越狱攻击成功率高达 97%，暴露出重大安全漏洞。此外，与相同规模的自回归 LLM 相比，LLDM 的有害生成速度提升了 2倍，这显著凸显了其不受控制所带来的风险。通过综合分析，研究者对 LLDM 架构展开调查，为基于扩散的语言模型的安全部署提供了关键见解。

链接：

https://arxiv.org/abs/2507.19227