第95期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 绕过 LLM Guardrails 中的即时注入和越狱检测

简介：大语言模型 (LLM) 防护系统旨在防御即时注入和越狱攻击。然而，它们仍然容易受到规避技术的攻击。研究者展示了两种绕过 LLM 即时注入和越狱检测系统的方法，即传统的字符注入方法和基于算法的对抗机器学习 (AML) 规避技术。通过对六种主流防护系统（包括微软的 Azure Prompt Shield 和 Meta 的 Prompt Guard）进行测试，研究者证明这两种方法均可用于规避检测，同时保持对抗效用，在某些情况下甚至可实现高达 100% 的规避成功率。此外，研究者还证明，攻击者可以利用离线白盒模型计算出的单词重要性排名来提高针对黑盒目标的攻击成功率 (ASR)。研究者的研究结果揭示了当前 LLM 防护机制中的漏洞，并凸显了对更稳健防护系统的需求。

链接：

https://arxiv.org/abs/2504.11168

2. ARCeR：用于自动定义网络靶场的代理 RAG

简介：网络安全威胁的日益增长和演变，亟需开发支持工具和平台，以便在虚拟受控环境中创建真实的IT环境，例如网络靶场（CR）。CR可用于分析漏洞、试验已设计的对策的有效性，并可作为IT运营商构建网络安全技能和能力的培训环境。本文提出了ARCeR作为一种创新解决方案，用于自动生成和部署CR，其起点是用户提供的自然语言描述。ARCeR依赖于Agentic RAG范式，这使得它能够充分利用最先进的人工智能技术。实验结果表明，即使在LLM或基本RAG系统无法应对的情况下，ARCeR也能够成功处理提示。此外，只要具备特定的知识，ARCeR就可以针对任何CR框架进行测试。

链接：

https://arxiv.org/abs/2504.12143

3. MOS：通过混合专家调优大语言模型实现有效的智能合约漏洞检测

简介：智能合约漏洞对区块链系统构成重大安全风险，可能导致严重的财务损失。现有方法面临以下几个局限性：（1）基于程序分析的方法依赖于预定义模式，缺乏对新漏洞类型的灵活性；（2）基于深度学习的方法缺乏解释能力；（3）基于大语言模型的方法存在较高的误报率。研究者提出了MOS，一个基于混合专家调优（MOE-Tuning）大语言模型的智能合约漏洞检测框架。首先，研究者对大规模智能合约数据集进行持续预训练，以提供领域增强的初始化。其次，研究者通过结合LLM生成和专家验证的多阶段流水线构建高质量的MOE-Tuning数据集，以获得可靠的解释。第三，研究者设计了一种漏洞感知路由机制，通过分析代码特征及其与专家的匹配度来激活最相关的专家网络。最后，研究者将前馈层扩展为多个并行的专家网络，每个专家网络专门针对特定的漏洞模式。研究者采用双目标损失函数：一个目标用于优化检测和解释性能，另一个目标通过熵计算确保漏洞类型在专家之间合理分配。实验表明，MOS 显著优于现有方法，F1 得分平均提升 6.32%，准确率提升 4.80%。在人工和 LLM 评估中，漏洞解释在正确性、完整性和简洁性方面分别获得了 82.96%、85.21% 和 94.58% 的好评（4 分制中 3-4 分）。

链接：

https://arxiv.org/abs/2504.12234

4. ZeroSumEval：通过模型间竞争扩展 LLM 评估

简介：传统上，评估大语言模型 (LLM) 的能力依赖于静态基准数据集、人工评估或基于模型的评估——这些方法通常存在过拟合、成本高昂和偏差等问题。ZeroSumEval 是一种基于竞争的评估协议，它利用零和博弈来评估 LLM，并设置动态基准以抵御饱和。ZeroSumEval 涵盖了一系列丰富的游戏，包括安全挑战（PyJail）、经典游戏（国际象棋、Liar's Dice、扑克）、知识测试（MathQuiz）和说服挑战（Gandalf、辩论）。这些游戏旨在评估一系列人工智能能力，例如战略推理、规划、知识应用和创造力。基于近期研究强调的 LLM 游戏化评估的有效性，ZeroSumEval 通过提供标准化和可扩展的框架来增强这些方法。为了证明这一点，研究者针对 7 款游戏和 13 个模型进行了超过 7000 次模拟的广泛实验。研究者的结果表明，虽然 GPT 和 Claude 系列的前沿模型可以玩常见游戏并解答问题，但它们在玩需要提出新颖且具有挑战性的问题的游戏时却举步维艰。研究者还观察到，模型之间无法可靠地相互越狱，并且在需要创造力的任务中普遍失败。

链接：

https://arxiv.org/abs/2504.12562

5. 概念增强工程：一种轻量级、高效的针对嵌入式人工智能越狱攻击的鲁棒防御方法

简介：与大语言模型 (LLM) 集成的具身智能 (EI) 系统面临着巨大的安全风险，尤其是来自越狱攻击的风险，这些攻击会操纵模型生成有害输出或执行不安全的物理操作。传统的防御策略，例如输入过滤和输出监控，通常会带来高昂的计算开销，或干扰实时具身场景中的任务性能。为了应对这些挑战，研究者提出了概念增强工程 (CEE)，这是一个新颖的防御框架，它利用表征工程，通过动态控制具身 LLM 的内部激活来增强其安全性。CEE 的运作方式包括：(1) 从模型激活中提取多语言安全模式；(2) 基于与安全对齐的概念子空间构建控制方向；以及 (3) 应用子空间概念旋转来强化推理过程中的安全行为。研究者的实验表明，CEE 能够在保持任务性能的同时有效缓解越狱攻击，在鲁棒性和效率方面均优于现有的防御方法。这项工作为具身人工智能提供了一种可扩展且可解释的安全机制，弥合了表征工程理论与实际安全应用之间的差距。研究者的研究结果强调了潜在空间干预作为物理接地人工智能系统中应对新兴对抗威胁的可行防御范例的潜力。

链接：

https://arxiv.org/abs/2504.13201

6. 使用 LLM 检测 PyPI 包中的恶意源代码：RAG 有用吗？

简介：开源生态系统中的恶意软件（例如 PyPI）构成了日益严重的安全风险。与传统漏洞不同，这些软件包旨在欺骗用户，由于攻击方法的不断演变和结构化数据集的缺乏，检测变得异常困难。本文通过实证评估了大语言模型 (LLM)、检索增强生成 (RAG) 和少样本学习 (few-shot learning) 在检测恶意源代码方面的有效性。研究者在精选数据集上对 LLM 进行微调，并整合 YARA 规则、GitHub 安全公告和恶意代码片段，旨在提高分类准确率。然而，研究者却发现了一个与直觉相反的结果：虽然 RAG 有望提升预测性能，但它在实际评估中却表现平平，准确率也相当平庸。相比之下，少样本学习则更为有效，它显著提升了恶意代码的检测能力，达到了 97% 的准确率和 95% 的均衡准确率，优于传统的 RAG 方法。因此，未来的工作应该扩展结构化知识库，改进检索模型，并探索混合人工智能驱动的网络安全解决方案。

链接：

https://arxiv.org/abs/2504.13769

7. BadApex：基于黑盒大语言模型自适应优化机制的后门攻击

简介：先前基于插入和释义的后门在攻击效果上取得了巨大成功，但它们忽略了文本质量以及中毒文本与干净文本之间的语义一致性。尽管近期研究引入了LLM来生成中毒文本，并提高了隐蔽性、语义一致性和文本质量，但它们的手工编写提示依赖于专家经验，在提示的适应性和防御后的攻击性能方面面临巨大挑战。本文提出了一种基于黑盒大语言模型自适应优化机制的新型后门攻击（BadApex），该攻击利用黑盒LLM通过精炼的提示生成中毒文本。具体而言，设计了一种自适应优化机制，使用生成代理和修改代理迭代地精炼初始提示。生成代理基于初始提示生成中毒文本。然后，修改代理评估中毒文本的质量并精炼新的提示。经过上述过程的多次迭代后，精炼的提示被用于通过LLM生成中毒文本。研究者在三个数据集上进行了广泛的实验，包含六种后门攻击和两种防御方案。大量的实验结果表明，BadApex 的性能显著优于目前最先进的攻击方法。它提升了提示的适应性、语义一致性和文本质量。此外，当采用两种防御方法时，平均攻击成功率 (ASR) 仍然高达 96.75%。

链接：

https://arxiv.org/abs/2504.13775

8. ControlNET：基于RAG的LLM系统的防火墙

简介：检索增强生成 (RAG) 显著提升了大语言模型 (LLM) 的事实准确性和领域适应性。这一进步使其能够广泛应用于医疗保健、金融和企业应用等敏感领域。RAG 通过整合外部知识来缓解幻觉，但也带来了隐私风险和安全风险，尤其是数据泄露风险和数据中毒风险。尽管近期研究探索了即时注入和中毒攻击，但在控制入站和出站查询流以缓解这些威胁的全面研究方面仍然存在巨大差距。本文提出了一种 AI 防火墙 ControlNET，旨在保护基于 RAG 的 LLM 系统免受这些漏洞的影响。ControlNET 利用激活移位现象来控制查询流，以检测对抗性查询并通过语义发散来减轻其影响。研究者使用最先进的开源 LLM（Llama3、Vicuna 和 Mistral）在四个不同的基准数据集（包括 Msmarco、HotpotQA、FinQA 和 MedicalSys）上进行了全面的实验。研究者的结果表明，ControlNET 在检测和缓解安全威胁的同时，实现了超过 0.909 的 AUROC，同时保持了系统的无害性。总体而言，ControlNET 提供了一种有效、稳健且无害的防御机制，标志着基于 RAG 的 LLM 系统在安全部署方面取得了显著进步。

链接：

https://arxiv.org/abs/2504.09593

9. 演示：ViolentUTF 作为生成式 AI 红队演练的无障碍平台

简介：生成式人工智能 (GenAI) 快速融入各种应用，需要强大的风险管理策略，其中包括红队演练 (RT)——一种模拟对抗性攻击的评估方法。然而，GenAI 的红队演练往往因技术复杂性、缺乏用户友好界面以及报告功能不足而受阻。本文介绍了 Violent UTF——一个易于访问、模块化且可扩展的 GenAI 红队演练平台。Violent UTF 旨在通过由 LLM 提供支持且面向 LLM 的直观界面（Web GUI、CLI、API 和 MCP），赋能非技术领域专家、学生以及技术专家，通过整合 Microsoft PyRIT、Nvidia Garak 等 RT 框架及其自有的专业评估工具的功能，促进全面的安全评估。ViolentUTF 正被用于评估美国某大型政府部门基于 LLM 的旗舰产品的鲁棒性。它还展示了其在评估 LLM 在网络安全和行为心理学之间的跨领域推理能力方面的有效性。

链接：

https://arxiv.org/abs/2504.10603