第92期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 越狱大语言模型中的迭代提示与说服技巧

简介：研究者致力于让大语言模型（LLM）的回应契合人类价值观。但在本研究中，研究者利用 LLM 的迭代提示技术，对每个提示在多次迭代过程中进行系统性修改与完善，以此逐步提升越狱攻击的有效性。

研究过程中，研究者分析了GPT-3.5、GPT-4、LLaMa2、Vicuna 和ChatGLM等LLM的响应模式，据此调整并优化提示，从而绕过LLM的道德与安全限制。同时，运用说服策略提升提示有效性，确保攻击行动符合恶意意图。

研究结果显示，随着攻击提示不断细化，攻击成功率（ASR）随之上升。其中，GPT4和ChatGLM的最高ASR达 90%，LLaMa2的最低，为68%。与基线技术（PAIR和PAP）相比，本研究采用的技术在ASR方面更具优势，和 GCG、ArtPrompt相比，性能相当。

链接：

https://arxiv.org/abs/2503.20320

2. AED：使用大语言模型自动发现自动驾驶策略的有效且多样化的漏洞

简介：自动驾驶策略的安全性评估，对推动自动驾驶技术安全落地起着极为关键的作用。在这一领域，强化学习（RL）逐渐成为挖掘驾驶策略关键漏洞的有力手段。但现有的基于RL的方法，在识别既有效又多样的漏洞时，往往面临挑战 —— 这里所说的 “有效”，是指自动驾驶汽车对事故负有实际责任；“多样” 则意味着涵盖各种故障类型。

为突破这一困境，研究者提出了AED 框架。该框架借助大语言模型（LLM），能够自动发现自动驾驶策略中有效且多样的漏洞。具体而言，研究者首先运用LLM，自动化设计RL训练所需的奖励函数。之后，引导LLM考虑多种事故类型，并行训练针对不同事故类型的对抗策略。最后，借助基于偏好的学习，筛除无效事故，提升每个漏洞的有效性。

通过在多个模拟交通场景和测试策略中开展实验，研究者发现，相较于专家设计的奖励，AED能发现更广泛的漏洞，实现更高的攻击成功率。这不仅降低了对手动奖励工程的依赖，也大幅提升了漏洞发现的多样性和有效性。

链接：

https://arxiv.org/abs/2503.20804

3. 提示、分而治之：通过分段和分布式提示处理绕过大语言模型安全过滤器

简介：研究者发现，大语言模型（LLM）革新了各领域的任务自动化与内容生成，模型自身配备了安全过滤器以防止被滥用。在此背景下，研究者引入新颖的越狱框架，该框架借助分布式提示处理，结合迭代改进策略，专门绕过这些安全措施，尤其用于生成恶意代码场景。

研究者设计的框架架构包含提示分段、并行处理、响应聚合，以及基于LLM的陪审团评估这四个关键模块。通过对 10个网络安全类别下的500个恶意提示进行测试，框架生成恶意代码的成功率（SR）达到 73.2%。

经比较分析，研究者发现，相较于LLM陪审团系统得出的73.2%成功率，传统单一LLM评委评估得到的SR为 93.8%，存在高估情况。手动验证表明，单一评委评估常接纳不完整的实施。此外，研究者通过消融研究证实，相较于非分布式方法，所提出的分布式架构将 SR 提高了12%，这凸显了分布式提示处理的有效性，以及稳健评估方法在评估越狱尝试方面的重要性。

链接：

https://arxiv.org/abs/2503.21598

4. 用于网络钓鱼电子邮件检测的辩论驱动多代理LLM

简介：研究者发现，网络钓鱼攻击始终是严峻的网络安全威胁。攻击者持续优化攻击手段，致使网络钓鱼电子邮件愈发难以被察觉。传统检测方法，像基于规则的系统和监督机器学习模型，前者依赖黑名单等预定义模式，攻击者稍作修改就能绕过；后者虽需要大量数据集进行训练，但依然存在误报与漏报问题。

在此背景下，研究者提出一种多智能体大语言模型（LLM）提示技术，通过模拟智能体间的辩论，检测电子邮件内容是否涉及网络钓鱼。具体而言，该方法借助两个LLM 智能体，分别提出支持或反对分类任务的观点，再由一个判断智能体依据推理质量，给出最终裁决。这种辩论机制，能让模型对文本中的上下文线索、欺骗模式进行批判性分析，提升分类的准确性。

研究者在多个网络钓鱼电子邮件数据集上，对所提出的框架展开评估。结果表明，混合智能体配置的效果始终优于同质配置。此外，即便不采用额外提示策略，单纯的辩论结构也足以帮助模型做出准确决策。

链接：

https://arxiv.org/abs/2503.22038

5. 网络安全和隐私的流量建模：未来的挑战

简介：过去几十年来，研究者发现，运用机器学习和深度学习模型开展流量分析，取得了重大进展。这些模型有效应对了网络安全与隐私领域的多项任务，涵盖异常和攻击检测、反审查等。同时，在LLM令牌推理、用户访问网站及物联网设备和不同应用程序的指纹识别（与反指纹识别）研究中，这些模型揭示出用户面临的隐私风险。

尽管如此，研究者意识到，在保障网络免受威胁和攻击方面，依旧存在诸多挑战。为此，研究者对网络安全和隐私方面的任务以及最新的机器学习模型进行简要回顾后，对未来面临的挑战展开讨论。

链接：

https://arxiv.org/abs/2503.22161

6. 训练大语言模型以实现高级域名抢注检测

简介：研究者发现，域名抢注作为一种由来已久的网络威胁，会借助用户输入 URL 时产生的人为错误，达到欺骗用户、传播恶意软件以及实施网络钓鱼攻击的目的。随着域名数量大幅增加，新顶级域名（TLD）不断涌现，域名抢注技术愈发复杂，给个人、企业，乃至国家的网络安全基础设施都带来了严重风险。

传统的检测方法多聚焦于广为人知的模仿模式，在识别更为复杂的攻击时，存在明显的不足。基于此，研究者开展了一项新的探索，介绍一种借助大语言模型（LLM）强化域名抢注检测的新方法。研究者通过在字符级转换和基于模式的启发式方法（而非特定领域数据）上对LLM进行训练，开发出一种适应性和稳定性更强的检测机制。

经实验验证，研究者发现，经过适当微调，Phi-4 14B模型在性能上优于其他测试模型，仅使用几千个训练样本，便实现了98%的准确率。此项研究不仅突出了LLM在网络安全应用领域的潜力，尤其是在应对基于域名的欺骗策略方面的潜力，也为优化威胁检测的机器学习策略提供了有益的思路。

链接：

https://arxiv.org/abs/2503.22406

7. 丢掉金苹果：通过无DB软件组合分析识别第三方重用

简介：研究者发现，在现代软件开发过程中，第三方库（TPL）被广泛使用，这带来了严重的安全和合规风险，因此，实施软件组合分析（SCA）来管控这些威胁十分必要。然而，SCA工具的检测准确性，在很大程度上取决于集成特征数据库的质量，该数据库需要与用户项目进行交叉引用。随着开源生态系统呈指数级扩张，大型模型融入软件开发，维护一个涵盖潜在TPL的综合特征数据库变得愈发困难。

于是，研究者参考LLM在外部数据交互应用方面的发展，提出首个无数据库（DB-Less）的SCA框架。这一框架旨在摆脱传统的大型数据库，借助LLM的灵活性，模拟安全分析师的手动分析过程，检索相同证据，并通过开放互联网的支持信息，确认 TPL 的身份。

研究者针对两个典型场景 ——Android本机库识别和C/C++基于复制的TPL重用展开实验，尤其是针对那些未被低估的工件，实验结果证实，在SCA中采用无数据库策略具有良好的应用前景。

链接：

https://arxiv.org/abs/2503.22576