第102期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. ETrace：通过基于 LLM 的跟踪分析检测智能合约中的事件驱动漏洞

简介：随着区块链技术在各个领域的深入应用，确保智能合约的安全性和稳定性已成为一项关键挑战。目前，漏洞检测中的安全分析方法可以分为静态分析和动态分析，这些现有的传统漏洞检测方法主要依赖于分析原始合约代码，并非所有智能合约都提供可访问的URL呈现ETrace，一种新颖的事件驱动的智能合约漏洞检测框架，它通过LLM驱动的跟踪分析唯一地识别潜在漏洞，而无需访问源代码。通过从交易日志中提取细粒度的事件序列，该框架利用大语言模型（LLM）作为自适应语义解释器，通过思路链推理重建事件分析。ETrace实现模式匹配以建立交易行为模式和已知攻击行为之间的因果关系。此外，研究者通过初步实验结果验证了ETrace的有效性。

链接：

https://arxiv.org/abs/2506.15790

2. 先探后说：面向大语言模型的后门不一致黑盒防御

简介：针对大语言模型 (LLM) 的后门对齐攻击能够利用隐藏的触发器隐秘地破坏安全对齐，同时规避正常的安全审计。此类攻击对 LLM 在现实世界大语言模型即服务 (LLMaaS) 环境中的应用构成重大威胁，因为部署的模型是一个完全黑盒系统，只能通过文本进行交互。此外，攻击目标的样本依赖性也加剧了这种威胁。被植入后门的 LLM 不会输出固定的标签，而是遵循任何带有隐藏触发器的恶意命令的语义，从而显著扩展了目标空间。

本文介绍了一种黑盒防御机制BEAT，它可以在推理过程中检测触发样本并停用后门。其动机源于一个有趣的观察结果（称为探测连接效应）：连接触发的样本显著降低了被植入后门的LLM对恶意探测的拒绝率，而非触发的样本则几乎没有影响。具体来说，BEAT通过测量探针输出分布在与输入连接前后的畸变程度来识别输入是否被触发。研究者的方法从相反的角度解决了样本依赖性目标的挑战。它捕捉触发器对拒绝信号（与样本无关）的影响，而不是特定于样本的成功攻击行为。它通过使用多重采样来近似输出分布，克服了黑盒访问限制。研究者在各种后门攻击和 LLM（包括闭源的 GPT-3.5-turbo）上进行了大量的实验，验证了研究者防御的有效性和效率。此外，研究者还初步验证了BEAT可以有效防御流行的越狱攻击，因为它们可以被视为“天然后门”。

链接：

https://arxiv.org/abs/2506.16447

3. LLM vs. SAST：GPT4 代码缺陷检测技术分析——高级数据分析

简介：随着自然语言处理 (NLP) 技术的快速发展，像GPT-4这样的大语言模型 (LLM) 在各种应用领域（包括安全漏洞扫描）获得了显著的关注。本文探讨了 GPT-4 与传统静态应用程序安全测试 (SAST) 工具相比，在识别软件漏洞方面的有效性。通过分析一系列安全漏洞，研究者的分析凸显了GPT-4在LLM增强型漏洞扫描方面的强大能力。研究者发现，GPT-4（高级数据分析）在检测 32 种可利用漏洞方面的准确率比 SAST 高出 94%。本研究还探讨了 LLM 相关的潜在安全隐患，强调了设计/默认安全性的重要性，以及其他人工智能安全最佳实践。

链接：

https://arxiv.org/abs/2506.15212

4. AIRTBench：衡量语言模型中的自主 AI 红队能力

简介：研究者推出 AIRTBench，这是一个AI红队测试基准，用于评估语言模型自主发现和利用人工智能和机器学习 (AI/ML) 安全漏洞的能力。该基准包含 70 个真实的黑盒夺旗 (CTF) 挑战，这些挑战来自 Dreadnode 平台上的 Crucible 挑战环境，要求模型编写 Python 代码与 AI 系统交互并入侵。Claude-3.7-Sonnet 以明显的领先优势脱颖而出，解决了 43 个挑战（占总挑战的 61%，总体成功率为 46.9%），Gemini-2.5-Pro 紧随其后，解决了 39 个挑战（占总挑战的 56%，总体成功率为 34.3%），GPT-4.5-Preview 解决了 34 个挑战（占总挑战的 49%，总体成功率为 36.9%），DeepSeek R1 解决了 29 个挑战（占总挑战的 41%，总体成功率为 26.9%）。

研究者的评估表明，前沿模型在即时注入攻击方面表现出色（平均成功率为 49%），但在系统漏洞利用和模型反演挑战方面却表现不佳（即使是表现最佳的模型，成功率也低于 26%）。前沿模型的表现远远超越了开源替代方案，其中最佳的真正开源模型 (Llama-4-17B) 解决了 7 项挑战（10%，总体 1.0%），尽管在某些难题上展现出了专业能力。与人类安全研究人员相比，大语言模型 (LLM) 能够以惊人的效率解决挑战，只需几分钟即可完成人类通常需要数小时或数天才能完成的任务，在难题上的效率优势超过 5,000 倍。研究者的贡献填补了评估领域的一个关键空白，提供了第一个专门用于衡量和跟踪自主 AI 红队能力进展的综合基准。

链接：

https://arxiv.org/abs/2506.14682

5. Doppelgänger 方法：通过基于提示的可转移对抗攻击破坏 LLM Agent 中的角色一致性

简介：自大语言模型问世以来，提示工程如今能够快速、轻松地创建各种自主智能体，这些智能体已被广泛使用。然而，这种便利性也引发了人们对底层提示的安全性、鲁棒性和行为一致性的迫切担忧，以及如何防止这些提示暴露于用户的攻击之下。

本文提出了“Doppelgänger 方法”来演示智能体被劫持的风险，从而暴露系统指令和内部信息。接下来，研究者定义了“对抗迁移下的提示对齐崩溃 (PACAT)”级别来评估此类对抗迁移攻击的脆弱性。研究者还提出了“对抗迁移警告 (CAT)”提示来应对 Doppelgänger 方法。实验结果表明，Doppelgänger 方法会损害智能体的一致性并暴露其内部信息。相比之下，CAT 提示能够有效防御此类对抗攻击。

链接：

https://arxiv.org/abs/2506.14539

6. 从希望到危险：重新思考LLM时代的网络安全红蓝队

简介：大语言模型 (LLM) 将通过增强红蓝队作战能力重塑网络安全。红队可以利用 LLM 来策划攻击、编写网络钓鱼内容、模拟对手并生成漏洞利用代码。相反，蓝队可以部署 LLM 进行威胁情报综合、根本原因分析和精简文档。这种双重能力既带来了变革性的潜力，也带来了严重的风险。

本意见书概述了 LLM 在 MITRE ATT&CK 和 NIST 网络安全框架 (CSF) 等网络安全框架中的应用，并对其当前的实用性和局限性进行了结构化的阐述。虽然 LLM 在各种任务中展现出流畅性和多功能性，但它们在高风险、上下文密集的环境中仍然脆弱。主要局限性包括幻觉、有限的上下文记忆、较差的推理能力以及对提示的敏感性，这些都削弱了它们在作战环境中的可靠性。

此外，现实世界的集成引发了人们对双重用途风险、对抗性滥用和人为监督减弱的担忧。恶意行为者可以利用 LLM 实现自动化侦察、模糊攻击向量并降低执行复杂攻击的技术门槛。

为了确保更安全的采用，研究者建议保持人机交互监督，增强模型可解释性，集成隐私保护机制，并构建能够抵御对抗性攻击的系统。随着越来越多的组织采用 AI 驱动的网络安全，深入了解 LLM 的风险和运营影响对于确保其防御价值并减轻意外后果至关重要。

链接：

https://arxiv.org/abs/2506.13434