第93期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. LLM安全性的演变：越狱攻击与防御研究

简介：随着大语言模型（LLM）的日益普及，其为大量应用提供了技术支撑。然而，LLM 的广泛应用也引发了诸多安全担忧，其中，越狱攻击能够绕过安全机制，诱导模型生成有害内容，这一问题尤为突出。针对这一现状，研究团队开展了大语言模型的全方位安全性分析，旨在解答模型安全性演变及其决定因素等关键研究问题。

研究伊始，团队致力于甄别检测越狱攻击的最优技术。紧接着，对比新版本 LLM与旧版本，探究其安全性是否得到了提升。在此基础上，研究人员评估模型规模对整体安全性的影响，并深入剖析整合多种防御策略，提升模型稳健性的潜在价值。

在研究过程中，团队运用四种前沿攻击技术，对开源模型 LLaMA、Mistral，以及闭源模型 GPT-4 进行测试评估。与此同时，对三种新型防御方法的有效性展开量化分析。

链接：

https://arxiv.org/abs/2504.02080

2. PiCo：通过图像代码情境化对多模态大语言模型进行越狱攻击

简介：多模态大语言模型（MLLM）通过整合视觉等模态显著提升了AI能力，然而这种增强也伴随着新的安全风险。针对现有防御机制的薄弱环节，研究者提出的PiCo越狱框架创新性地结合了视觉模态漏洞与代码训练数据的长尾分布特性，成功突破先进MLLM的多层防护体系。该框架采用分阶段攻击策略：首先通过token级印刷攻击规避输入过滤系统，随后将有害指令嵌入编程上下文以绕过运行时监控。

为精准评估攻击效果，研究者开发了新型双维度评估指标，同时衡量输出毒性和功能有效性。实验数据显示，PiCo在Gemini-Pro Vision和GPT-4上分别实现84.13%与52.66%的平均攻击成功率（ASR），显著优于现有攻击方法。这一突破性成果不仅揭示了当前防御体系的关键漏洞，更凸显了构建鲁棒性MLLM安全防护机制的迫切需求，为未来防御策略的优化提供了重要基准。

链接：

https://arxiv.org/abs/2504.01444

3. 使用 LLM 从文档中提取形式规范以进行自动测试

简介：自动化测试作为保障软件安全的核心手段，其有效性高度依赖形式化规范对系统行为的精准刻画。然而，传统基于人工分析软件文档生成规范的方法存在显著瓶颈：不仅需要资深专家投入大量时间精力，在系统迭代时更面临规范维护成本激增、人工操作易错等问题。

为突破这一困境，研究者首次系统性探索大语言模型（LLM）在形式化规范自动化提取中的潜力。基于三大开源项目37份文档构建的603项规范数据集，研究团队对GPT-4o、Claude、Llama等前沿模型展开实证研究，揭示了当前LLM在此任务中的双重缺陷——规范过度简化导致关键细节缺失，虚构规范引发语义失真。

深入分析表明，这些局限源于模型认知深度不足与"幻觉"生成倾向的叠加效应。受人类认知分层处理机制的启发，研究者创新性地提出"标注-转换"两阶段方法：先通过语义解析建立中间表示，再转化为结构化形式规范。该方法使规范提取准确率较端到端模式提升14.0%，最优模型达到71.6%的准确率，成功修正29.2%的原有错误。该突破不仅验证了LLM驱动规范自动化的可行性，更为软件工程领域提供了可扩展的智能化解决方案，标志着软件质量保障向自动化、可持续化迈出关键一步。

链接：

https://arxiv.org/abs/2504.01294

4. 输出约束作为攻击面：利用结构化生成绕过 LLM 安全机制

简介：本文可能包含由 LLM 生成的不安全或有害内容，可能会冒犯读者。大语言模型 (LLM) 被广泛用作工具平台，通过结构化输出 API 来确保语法合规性，从而可以实现与代理系统等现有软件的稳健集成。然而，语法引导结构化输出的功能存在重大的安全漏洞。在这项工作中，研究者揭示了一个与传统数据平面漏洞正交的关键控制平面攻击面。研究者引入了约束解码攻击 (CDA)，这是一种新颖的越狱类，它利用结构化输出约束来绕过安全机制。与之前专注于输入提示的攻击不同，CDA 通过在架构级语法规则（控制平面）中嵌入恶意意图来操作，同时保持良性的表面提示（数据平面）。研究者通过概念验证链式枚举攻击来实例化这一点，在五个安全基准上通过单个查询在专有和开放权重 LLM 上实现了 96.2% 的攻击成功率，包括 GPT-4o 和 Gemini-2.0-flash。研究者的研究结果确定了当前 LLM 架构中的一个关键安全盲点，并敦促 LLM 安全性进行范式转变以解决控制平面漏洞，因为当前机制仅关注数据平面威胁，而关键系统则暴露在外。

链接：

https://arxiv.org/abs/2503.24191

5. 揭露 Transformer 中的幽灵：通过隐藏状态取证对大语言模型进行异常检测

简介：大语言模型（LLM）作为工具平台时，其结构化输出API虽能确保语法合规性以实现系统集成，却暴露了深层的安全脆弱性。本文揭示了一种与传统数据平面攻击正交的新型控制平面威胁——约束解码攻击（CDA），该攻击通过劫持LLM的架构级语法规则（控制平面）绕过安全防护，而非直接篡改表面提示（数据平面）。研究团队创新性地将恶意意图编码至输出格式约束中，例如通过链式枚举攻击的实证验证表明：仅需单次查询，CDA即可在GPT-4o、Gemini-2.0-flash等主流模型上实现96.2%的平均攻击成功率，横跨五大安全基准测试。这一发现直指当前LLM安全机制的核心盲点：过度聚焦数据平面威胁（如输入过滤），却忽视控制平面漏洞的防护。

研究警示，若继续依赖现有防御范式，关键系统将持续暴露于高风险中，亟需推动安全策略从单一数据层防御向"控制-数据双平面协同防护"的范式跃迁，以应对LLM生态中日益复杂的对抗性攻击场景。

链接：

https://arxiv.org/abs/2504.00446

6. Les Dissonances：多工具授权的 LLM 代理中的跨工具收获和污染

简介：大语言模型（LLM）代理作为自主决策系统，通过调用多工具链实现复杂任务推理与规划的能力，但其工具集成机制暗藏系统性安全风险。本文首度揭示LLM代理多工具协同场景下的跨工具收集与污染威胁（XTHP）——攻击者可劫持任务控制流，通过工具间依赖关系窃取机密信息（跨工具收集，XTH）或注入污染数据（跨工具污染，XTP）。为量化该威胁，研究者开发动态扫描框架Chord，可自动检测真实工具链中的漏洞节点。

基于LangChain、LlamaIndex两大主流框架的73个生产级工具测试表明：80%的工具存在控制流劫持风险，其中78%暴露于XTH攻击，41%可被XTP攻击渗透。这一发现不仅揭示了LLM代理生态中广泛存在的工具互操作安全隐患，更暴露出当前开发范式对"工具链级攻击面"的严重忽视，亟需建立覆盖工具兼容性验证、权限隔离与数据流监控的全生命周期防护体系。

链接：

https://arxiv.org/abs/2504.03111

7. 集成基于 LLM 的入侵检测与安全切片 xApp，以保护支持 O-RAN 的无线网络部署

简介：开放无线接入网络（O-RAN）架构正凭借开放性、灵活性和智能闭环优化特性，推动电信行业的革新。O-RAN 将硬件与软件分离，支持多供应商部署，不仅降低了运营成本、提升了网络性能，还让电信网络能快速适应新技术。

在技术创新上，智能网络切片是 O-RAN 的一大亮点。它将网络分割成多个独立切片，每个切片都能针对特定用例或服务质量要求进行定制。此外，RAN 智能控制器进一步优化资源分配，在提升资源利用效率的同时，保障了用户设备（UE）的服务质量。

不过，O-RAN 的模块化与动态特性也增大了网络的安全风险，需要采取高级安全防护手段，来维护网络的完整性、机密性和可用性。在众多安全举措中，入侵检测系统对识别和应对网络攻击至关重要。

本研究探索运用大语言模型（LLM），根据连接 UE 的时间流量模式，生成针对性的安全建议。研究提出了一个基于 LLM 的入侵检测框架，并通过实验部署验证其有效性。在实验过程中，对非微调与微调模型在特定任务上的准确性进行了对比。

链接：

https://arxiv.org/abs/2504.00341