第90期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 调整大语言模型以实现参数高效的日志异常检测

简介：日志异常检测（LAD）对于评估系统的安全性与状况至关重要，其目标是识别日志数据中的非典型模式。尽管大语言模型（LLM）在诸多领域成绩斐然，但将其用于日志异常检测的方法却鲜有人探索，而研究者的研究正是为了填补这一空白。鉴于对 LLM 进行完全微调的成本过高，研究者尝试运用参数高效的微调技术（PEFT），使 LLM 适配于 LAD 任务。为深入探究 LLM 驱动的 LAD 的潜力，研究者全面研究了如何利用两种最常用的 PEFT 方法 —— 低秩自适应（LoRA）和表示微调（ReFT），来调整三种不同规模的知名 LLM，即 RoBERTa、GPT-2 和 Llama-3，从而实现参数高效的 LAD。研究者在四个公共日志数据集上展开了全面实验，从多个关键维度深入剖析，以揭示有效利用 LLM 驱动 LAD 的重要见解，这些维度包括基于 PEFT 的 LLM 驱动 LAD 方法的有效性、稳定性、样本效率、对不稳定日志的鲁棒性，以及跨数据集的泛化能力。

链接：

https://arxiv.org/abs/2503.08045

2. HALUrust：利用大语言模型的幻觉来检测 Rust 中的漏洞

简介：Rust 作为一种新兴编程语言，因其对安全性的高度重视，迅速赢得了开发人员的青睐与认可。它借助独特的所有权系统以及安全的并发实践，来保障强大的安全性。然而，即便有这些保障，Rust 的安全性仍面临挑战。自 2018 年起，实际应用中已报告了 442 个与 Rust 相关的漏洞。由于数据可用性有限，现有的漏洞检测工具在实际场景中表现欠佳，难以应对新出现的复杂漏洞。

研究者研发了 HALURust，这是一个全新框架，利用大语言模型（LLM）的幻觉来检测实际 Rust 场景中的漏洞。HALURust 借助 LLM 在自然语言生成方面的优势，将代码转换为详细的漏洞分析报告。其中关键创新点在于，促使 LLM 始终假设存在漏洞。若代码示例存在漏洞，LLM 能给出准确分析；若不存在，它则生成幻觉报告。通过对这些幻觉进行 LLM 微调，HALURust 可有效区分易受攻击和不易受攻击的代码样本。研究者在 81 个真实漏洞数据集上对 HALURust 展开评估，该数据集涵盖 54 个应用程序中的 447 个函数以及 18,691 行代码。HALURust 的表现优于现有方法，F1 得分达到 77.3%，提升幅度超过 10%。与传统基于代码的微调相比，基于幻觉报告的微调使检测率提高了 20%。此外，HALURust 能有效适应未见过的漏洞以及其他编程语言，展现出强大的泛化能力。

链接：

https://arxiv.org/abs/2503.10793

3. 漏洞检测：从形式化验证到大语言模型和混合方法：全面概述

简述：软件测试与验证对于保障现代软件系统的可靠性与安全性极为关键。传统的形式化验证技术，像模型检查和定理证明，为检测错误及漏洞提供了严谨框架。然而，在应用于复杂实际程序时，这些方法常面临可扩展性难题。近来，大语言模型（LLM）的兴起为软件分析带来新范式，其能理解不安全编码实践。虽然 LLM 在错误预测、不变量生成等任务中展现出不错能力，但缺乏传统方法所具备的形式保证。研究者对当前最先进的软件测试与验证方法展开了全面研究，重点聚焦于三种主要方式：传统形式化方法、基于 LLM 的分析方法，以及融合二者优势的新兴混合技术。研究者探究了每种方法的优势、局限及实际应用，着重突出混合系统弥补单一方法不足的潜力。研究者分析将形式严谨性与 LLM 驱动的洞察力相结合，是否能提升软件验证的有效性与可扩展性，并探索将其作为更强大、适应性更强的测试框架途径的可行性。

链接：

https://arxiv.org/abs/2503.10784

4. Siege：使用树搜索对大语言模型进行自主多轮越狱

简介：研究者引入了 Siege 这一多轮对抗框架，该框架从树搜索的角度出发，模拟大语言模型（LLM）安全性逐步下降的过程。不同于单轮越狱仅依赖一个精心设计的提示，Siege 在每个回合中以广度优先的方式拓展对话，衍生出多个对抗提示，借助先前响应的部分合规性。通过追踪这些增量策略泄漏，并将其重新应用于后续查询，Siege 揭示了微小的让步如何逐步累积，最终导致完全不被允许的输出。在 JailbreakBench 数据集上的评估显示，Siege 在对 GPT - 3.5 - turbo 的一次多轮运行中成功率达到 100%，对 GPT - 4 的成功率为 97%，且相比 Crescendo 或 GOAT 等基线方法，使用的查询次数更少。这种树搜索方法使研究者深入了解模型保障措施在连续对话回合中是如何退化的，凸显了针对语言模型构建强大的多轮测试程序的紧迫性。

链接：

https://arxiv.org/abs/2503.10619

5. CASTLE：针对 CWE 检测的静态代码分析器和 LLM 基准数据集

简介：在关键软件组件中，识别源代码漏洞极为关键。当前，静态分析、动态分析、形式化验证以及近来兴起的大语言模型等方法，被广泛应用于安全漏洞检测。研究者介绍了 CASTLE（CWE 自动安全测试和低级评估），这是一个用于评估不同方法漏洞检测能力的基准测试框架。研究者运用手工制作的包含 250 个微基准测试程序的数据集，对 13 种静态分析工具、10 种大语言模型以及 2 种形式化验证工具进行了评估，这些程序覆盖了 25 种常见的 CWE。研究者提出了 CASTLE 分数，这是一种新型评估指标，旨在确保公平比较。研究者的研究结果揭示了关键差异：ESBMC（一种形式化验证工具）能最大程度减少误报，但在处理模型检查之外的漏洞，如弱加密或 SQL 注入时存在困难。静态分析工具的误报率较高，增加了开发人员的手动验证工作量。在 CASTLE 数据集中，大语言模型在识别小代码片段中的漏洞时表现出色。然而，随着代码规模增大，其准确性降低，幻觉问题也随之增多。这些结果表明，大语言模型可能在未来安全解决方案中，尤其是在代码完成框架里发挥关键作用，能够提供实时指导以防范漏洞。

链接：

https://arxiv.org/abs/2503.09433

6. JBFuzz：使用模糊测试高效且有效地越狱 LLM

简介：大语言模型（LLM）作为强大的语言理解和决策工具，展现出巨大潜力，已广泛融入研究者的日常生活。但随着其应用范围的扩大，新风险也随之而来，比如通过越狱攻击，生成有害、不道德或令人反感的内容。尽管 LLM 开发人员投入大量精力，利用人工反馈对模型进行优化调整，可 LLM 依旧难以抵御越狱攻击。为解决这一问题，研究人员常借助红队策略，深入理解和研究越狱提示。然而，现有的红队方法普遍存在有效性不足、可扩展性差，甚至二者皆有的问题。为克服这些难题，研究者提出了 JBFuzz，这是一种新型、高效、自动化且可扩展的红队技术，专门用于应对 LLM 的越狱问题。JBFuzz 的设计灵感来源于模糊测试在检测软件错误和漏洞方面的成功经验。研究者通过设计新颖的种子提示、轻量级突变引擎，以及轻量级且精准的评估器，成功攻克了与有效性和可扩展性相关的三大挑战。整合这三种解决方案，构建出了一个强大的模糊测试工具，它仅需对目标 LLM 进行黑盒访问即可运行。研究者针对九种流行且应用广泛的 LLM，对 JBFuzz 展开了全面的实验评估。实验结果显示，JBFuzz 能够成功突破所有 LLM 的安全防线，针对各类有害 / 不道德问题发起攻击，平均成功率高达 99%。此外，JBFuzz 的效率也十分出色，平均仅需 60 秒，就能对给定问题的特定 LLM 完成越狱攻击。研究者的研究工作不仅揭示了当前最先进的 LLM，即便经过安全优化，仍极易遭受越狱攻击这一现状，同时也为 LLM 开发人员提供了一款极具价值的红队工具。

链接：

https://arxiv.org/abs/2503.08990

7. 基于大语言模型的控制流增强反编译器

简介：二进制反编译在安全威胁分析和软件工程的诸多任务中，像二进制漏洞检测以及软件供应链分析等，都发挥着关键作用。当下流行的二进制反编译手段，大多依托大语言模型（LLM），主要分为基于提示的反编译与端到端反编译这两类。基于提示的方法，通常得花费大量精力去分析、总结预测数据，从中提取特定领域的专家知识，再输入到通用大语言模型里，以完成特定的反编译任务。而端到端方法，则是精心构建训练数据集或神经网络，对通用大语言模型进行后训练，从而得到用于反编译预测数据的领域特定大语言模型。不过，现有的这两种方法依旧面临着严峻挑战，比如输入代码缺乏丰富的语义表示，还忽视了对准确反编译极为关键的控制流信息。而且，当前多数反编译技术都是专门针对 x86 架构设计的，很难有效适配并推广到其他位宽或指令架构。为突破这些限制，研究者提出了一种全新的端到端反编译 LLM——CFADecLLM，旨在对现有的端到端反编译方法加以强化。研究者在公共数据集 Humaneval 和 Exebench 的四个优化级别上开展了广泛实验，结果显示，研究者的方法在多个指标上超越了现有方法，充分验证了其有效性与优越性。

链接：

https://arxiv.org/abs/2503.07215

8. CtrlRAG：基于检索增强语言生成中的掩码语言模型的黑盒对抗攻击

简介：检索增强生成（RAG）系统通过整合外部知识库，增强了大语言模型（LLM）的能力。但这种集成也带来了新的安全隐患：攻击者能够借助检索机制，将恶意内容注入知识库，进而干扰生成的回复内容。基于这一攻击途径，研究者提出了 CtrlRAG，这是一种专为黑盒环境中的 RAG 系统设计的新型攻击手段，与现实场景的情况相契合。和现有的攻击方法不同，CtrlRAG 采用了一种扰动机制，利用掩码语言模型（MLM），依据检索到的上下文变化，动态优化恶意内容。实验结果表明，在情绪操纵和幻觉放大这两个攻击目标上，CtrlRAG 的效果均超过了三种基线方法。此外，研究者对三种现有的防御机制进行了评估，结果显示它们抵御 CtrlRAG 攻击的能力有限，这也凸显了开发更强大防御措施的紧迫性。

链接：

https://arxiv.org/abs/2503.06950

9. 对话注入攻击：通过上下文操纵越狱 LLM

简介：大语言模型（LLM）在众多应用中展现出显著的实用价值，然而其部署过程却饱受安全漏洞的困扰，其中越狱攻击尤为突出。此类攻击通过构造对抗性提示，操控 LLM 生成有害或不道德的内容。当前，针对越狱攻击的研究大多聚焦于单轮交互，却在很大程度上忽略了对话历史对模型行为产生的影响。在此项研究中，研究者引入一种全新的越狱范式 —— 对话注入攻击（DIA），该方法借助对话历史，提高了此类攻击的成功率。DIA 在黑盒环境下运行，仅需具备对聊天 API 的访问权限，或者了解 LLM 的聊天模板即可实施。研究者提出了两种构建对抗性历史对话的方法，一种是采用灰盒预填充攻击，另一种则是利用延迟响应。实验结果表明，DIA 在包括 Llama - 3.1 和 GPT - 4o 等最新的 LLM 上，实现了领先的攻击成功率。此外，研究者还证实 DIA 能够绕过 5 种不同的防御机制，充分凸显了其稳健性与有效性。

链接：

https://arxiv.org/abs/2503.08195