第94期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. GenXSS：一个用于自动检测 WAF 中 XSS 攻击的 AI 驱动框架

简介：随着对 Web 服务的依赖与日俱增，网络安全面临的威胁也愈发严峻，跨站脚本（XSS）攻击尤为突出。此类攻击通过向 Web 应用程序的客户端层注入恶意脚本实施破坏。传统的 Web 应用防火墙（WAF）在检测高度混淆和复杂的攻击时面临挑战，因其规则需手动更新。本文创新性地提出一种生成式 AI 框架，借助大语言模型（LLM）提升 XSS 防御能力。该框架主要达成两大目标：其一，运用上下文学习生成复杂且语法合规的 XSS 有效载荷；其二，通过针对受 WAF 保护的易受攻击应用程序测试这些攻击，对绕过攻击进行分类，并生成有效的 WAF 安全规则，以此实现防御机制的自动化。利用 GPT-4o 开展的实验验证了该框架的有效性。该框架生成了 264 个 XSS 有效载荷，其中 83% 通过验证，80% 的载荷能够绕过配备开放 Web 应用程序安全项目（OWASP）开发的行业标准安全规则集（用于防御 Web 漏洞）的 ModSecurity WAF。通过规则生成，仅 15 条新规则就可阻止 86% 先前成功的攻击。与之相比，Google Gemini Pro 的绕过率仅为 63%，这充分彰显了不同 LLM 在性能上的差异。

链接：

https://arxiv.org/abs/2504.08176

2. PR-Attack：通过双层优化对大语言模型中的检索增强生成进行协同 Prompt-RAG 攻击

简介：大语言模型（LLM）在医学问答、数学科学以及代码生成等诸多应用领域，展现出极为卓越的性能。不过，它也存在一些固有缺陷，像是知识更新不及时以及容易生成虚假信息（幻觉现象）。检索增强生成（RAG）作为一种新兴范式，为解决这些问题带来了希望，但同时也引入了新的安全隐患。近期研究聚焦于基于 RAG 的 LLM 的安全性，然而现有的攻击手段面临三大关键难题：其一，当能够注入知识库的恶意文本（毒文本）数量有限时，攻击有效性会大幅降低；其二，这些攻击手段缺乏足够的隐蔽性，很容易被异常检测系统识别出来，进而影响攻击效果；其三，它们依靠启发式方法生成毒文本，缺乏严谨的优化框架和理论支撑，限制了攻击的有效性与适用范围。

为攻克这些难题，研究者提出了协同式 Prompt - RAG 攻击（PR - attack），这是一种全新的、基于优化策略的攻击方式。它通过向知识库中引入少量毒文本，并在提示里嵌入后门触发器来实施攻击。一旦触发器被激活，LLM 就会针对目标查询生成预设的响应，而在其他情况下，模型仍能保持正常运行。这种方式确保了攻击既高效又隐蔽。研究者把攻击生成过程构建为一个双层优化问题，运用严谨的优化框架来设计出最优的毒文本和触发器。通过在多种 LLM 和数据集上开展大量实验，结果表明，即便毒文本数量有限，PR - Attack 依然能够达到很高的攻击成功率，并且相较于现有方法，隐蔽性有了显著提升。

链接：

https://arxiv.org/abs/2504.07717

3. 使用小型语言模型的代码生成：对 Codeforces 的深入评估

简介：大语言模型（LLM）展现出强大的代码生成能力，有望提升开发者的生产力。但因其存在高昂的计算成本、巨大的能耗，以及数据泄露和对抗攻击等安全风险，限制了其广泛应用。小型语言模型（SLM）作为更轻量级的替代方案，推理速度更快、部署开销更低，且更能适应特定领域任务，在实际应用中颇具吸引力。

此前的研究虽对 LLM 在竞技性编程任务上进行了基准测试，不过评估往往只关注 Elo 分数或通过率等指标，缺乏对模型行为、故障模式和问题多样性的深入洞察。并且，SLM 在处理竞技性编程这类复杂任务方面的潜力尚未得到充分挖掘。

在本研究中，研究者对五个开放式 SLM（LLAMA 3.2 3B、GEMMA 2 9B、GEMMA 3 12B、DEEPSEEK - R1 14B 和 PHI - 4 14B）进行基准测试，选取了 280 个 Codeforces 问题，这些问题 Elo 评分在 800 到 2100 之间，涵盖 36 个不同主题。所有模型的任务均为生成 Python 解决方案。结果显示，PHI - 4 14B 在 SLM 中表现最优，pass@3 达到 63.6%，接近专有的 O3 - MINI - HIGH（86.8%）。此外，研究者还在 C++ 上对 PHI - 4 14B 进行评估，发现结合 Python 和 C++ 的输出能将其聚合 pass@3 提升至 73.6%。对 PHI - 4 14B 错误输出的定性分析表明，部分失败是由一些小的实现问题（如处理边缘情况或纠正变量初始化）导致，而非深层次的推理缺陷。

链接：

https://arxiv.org/abs/2504.07343

4. 在物联网入侵检测系统中利用机器学习技术

简介：随着物联网（IoT）规模的持续扩张，保障联网设备的安全愈发关键。传统入侵检测系统（IDS）在应对物联网网络的动态特性与大规模特点时，常常显得力不从心。本文着重探讨机器学习（ML）与深度学习（DL）技术如何大幅提升物联网环境下 IDS 的性能。

文中对多种 IDS 部署策略进行了全面梳理，并对物联网系统中常见的入侵类型加以分类。同时研究了一系列机器学习方法，如支持向量机、朴素贝叶斯、K 最近邻、决策树和随机森林，以及先进的深度学习模型，像长短期记忆（LSTM）、卷积神经网络（CNN）、自动编码器、循环神经网络（RNN）和深度信念网络（DBN）。基于每种技术的准确性、效率及其在实际物联网应用中的适配程度，本文展开了评估。

此外，文中还探讨了高误报率、数据不平衡、加密流量分析以及物联网设备资源受限等主要难题。同时，突出了生成式人工智能和大语言模型（LLM）在优化威胁检测、实现自动化响应以及生成智能安全策略方面崭露头角的作用。最后，对伦理和隐私问题进行探讨，强调负责任且透明的实施方式至关重要。本文旨在构建一个全面的框架，用以开发能够适应物联网环境动态变化的、自适应的、智能且安全的入侵检测系统（IDS）解决方案。

链接：

https://arxiv.org/abs/2504.07220

5. 软件安全的大语言模型 (LLM)：代码分析、恶意软件分析、逆向工程

简介：近年来，大语言模型（LLM）已成为网络安全领域的得力工具，在恶意软件检测、生成以及实时监控方面展现出先进的功能。大量研究探索了 LLM 在网络安全中的应用，证实了其在识别新型恶意软件变种、剖析恶意代码结构以及强化自动化威胁分析等方面的有效性。

为进一步提升恶意软件分析能力，业界提出了多种基于变换器的架构以及 LLM 驱动的模型，借助语义与结构层面的洞察，更精准地识别恶意意图。本研究对基于 LLM 的恶意软件代码分析方法展开全面回顾，总结了最新进展、趋势及方法。研究者深入研究重要的学术文献，以勾勒研究版图，明确关键挑战，并着重介绍 LLM 驱动的网络安全领域中涌现的创新成果。

此外，研究者还强调了静态分析在恶意软件检测中的作用，介绍了值得关注的数据集和专用的 LLM 模型，同时探讨了对自动化恶意软件研究有重要支持作用的数据集。本研究为研究人员和网络安全专业人员提供了宝贵资源，不仅深入剖析了 LLM 驱动的恶意软件检测与防御策略，还概述了未来提升网络安全韧性的发展方向。

链接：

https://arxiv.org/abs/2504.07137

6. CTI-HAL：用于网络威胁情报分析的人工注释数据集

简介：组织正日益成为高级持续性威胁（APT）的攻击对象，这类威胁采用复杂、多阶段的策略以及多样化的技术。网络威胁情报（CTI）来源，诸如事件报告和安全博客，能够提供宝贵的见解，然而这些来源的数据通常是非结构化的，且以自然语言呈现，这就使得自动提取信息变得困难。

近期的研究尝试运用人工智能自动提取 CTI 数据，并借助现有的 CTI 数据集进行性能评估与微调。但这些研究面临着一些挑战与局限，进而影响了其有效性。

为解决这些问题，研究者引入了一个全新的数据集。该数据集是依据 CTI 报告手动构建而成，并参照 MITRE ATT&CK 框架进行搭建。为评估其质量，研究者运用 Krippendorff alpha 开展了注释者间一致性研究，证实了该数据集的可靠性。此外，研究者还将这个数据集应用于在实际业务环境中对大语言模型（LLM）进行评估，结果显示 LLM 具有良好的泛化能力。

链接：

https://arxiv.org/abs/2504.05866

7. 糖衣毒药：良性一代解锁LLM越狱

简介：大语言模型（LLM）已逐渐成为各类应用中不可或缺的部分。然而，越狱攻击的威胁始终笼罩着它们，攻击者会精心设计并操纵提示，诱导模型输出恶意内容。深入分析越狱方法，有助于挖掘 LLM 的潜在弱点，进而推动其改进。

本文通过对模型输出与输入之间、后续输出与先前输出之间注意力权重的分析，揭示了 LLM 中存在的一个漏洞 —— 防御阈值衰减（DTD）。当模型生成大量良性内容时，其注意力权重会从输入转向先前输出，致使模型面对越狱攻击时变得更为脆弱。

为验证 DTD 的可利用性，研究者提出了一种全新的越狱攻击方法 —— 糖衣毒药（SCP）。该方法借助良性输入和对抗推理，诱导模型先大量生成良性内容，进而产出恶意内容。为缓解这类攻击，研究者引入了一种简单却有效的防御策略 POSD。实验表明，POSD 能够显著降低越狱成功率，同时还能保留模型的泛化能力。

链接：

https://arxiv.org/abs/2504.05652

8. GenXSS：一个用于自动检测 WAF 中 XSS 攻击的 AI 驱动框架

简介：随着对 Web 服务的依赖程度不断加深，网络安全面临的威胁也日益严峻，其中跨站脚本（XSS）攻击尤为突出。这种攻击通过注入恶意脚本，对 Web 应用程序的客户端层发起攻击。传统的 Web 应用防火墙（WAF）在检测高度混淆且复杂的攻击时显得力不从心，因为其规则需要手动更新。

针对这一问题，本文提出了一种新颖的生成式 AI 框架，该框架借助大语言模型（LLM）来提升 XSS 防御能力。此框架主要实现两个目标：一是运用上下文学习生成复杂且经过语法验证的 XSS 有效载荷；二是针对受 WAF 保护的易受攻击应用程序对这些攻击进行测试，对绕过攻击进行分类，并生成有效的 WAF 安全规则，从而实现防御机制的自动化。

使用 GPT - 4o 的实验结果证实了该框架的有效性。框架共生成 264 个 XSS 有效载荷，其中 83% 通过验证，80% 的载荷能够绕过配备开放 Web 应用程序安全项目（OWASP）开发的行业标准安全规则集（用于防御 Web 漏洞）的 ModSecurity WAF。通过规则生成，仅 15 条新规则就可阻止 86% 的先前成功攻击。相比之下，Google Gemini Pro 的绕过率仅为 63%，这体现出不同 LLM 的性能存在差异。

链接：

https://arxiv.org/abs/2504.08176

9. LLM安全体系的演进：越狱攻击与防御研究

简介：大语言模型（LLM）在当下愈发流行，为众多应用提供了支撑。然而，随着其广泛应用，人们也产生了诸多担忧，其中就包括越狱攻击 —— 攻击者借此绕过安全措施，诱导模型生成有害内容。

本文针对大语言模型（LLM）开展了全面的安全性分析，深入探讨了模型安全性的演变过程以及决定安全性的关键因素等重要研究问题。

具体而言，研究者首先着力确定检测越狱攻击最为有效的技术手段。随后，研究者将研究新版本的 LLM 相较于前代版本，是否在安全性方面有显著提升。研究者还会评估模型规模大小对整体安全性的影响，并探讨整合多种防御策略来增强模型鲁棒性的潜在益处。

在研究过程中，研究者运用了四种前沿的攻击技术，并评估了三种新型防御方法的有效性，以此对开源模型（如 LLaMA 和 Mistral）以及闭源系统（如 GPT - 4）进行了全面评估。

链接：

https://arxiv.org/abs/2504.02080