第43期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1.打破防御：对大语言模型攻击的比较研究

简介：大语言模型（LLMs）已经成为自然语言处理（NLP）领域的一个关键技术，它们强大的理解和文本生成能力对整个行业产生了深远的影响。然而，随着LLMs的应用越来越广泛，它们的安全性和脆弱性问题逐渐成为了公众关注的焦点。本文全面调查了LLMs可能面临的各种攻击方式，详细分析了这些攻击的特点、原理和潜在的影响，同时也讨论了目前可行的防御策略。在评价各种攻击方法的效果时，发现虽然LLMs对某些攻击具有抵抗能力，但仍然有被成功攻击的可能。这些攻击不只是威胁到了模型的安全，也可能削弱用户对模型的信任度。因此，开发和研究有效的防护措施显得尤为重要。

链接：

https://arxiv.org/pdf/2403.04786.pdf

2.让大语言模型提问并回答：通过伪装与重构指令破解模型

简介：近年来，大语言模型（LLMs）在完成多项任务上取得了显著的进步，然而它们的可信度仍然是一个亟待解决的问题。尤其令人担忧的是，LLMs有生成有害或恶意回复的风险。攻击者可能会设计精巧的对抗性提示，诱使LLMs产生不良的回复。针对这一问题，本研究为LLMs的安全性提供了理论基础，识别了在安全微调过程中可能存在的偏见漏洞，并提出了一种名为DRA（伪装与重构攻击）的黑盒攻击方法。这种方法利用伪装技术隐藏有害指令，使得模型在执行过程中重新构建这些指令。通过对DRA在各种开源和商业模型上的效果进行评估，结果显示其具有极高的越狱成功率和攻击效率。特别值得注意的是，DRA在LLM聊天机器人GPT-4上的攻击成功率达到了90%。

链接：

https://arxiv.org/abs/2402.18104

3.ChatSpamDetector：利用大语言模型进行有效的网络钓鱼邮件检测

简介：本研究介绍了一个名为ChatSpamDetector的系统，该系统使用大语言模型（LLMs）来检测网络钓鱼电子邮件。通过将电子邮件数据转换为适合LLM分析的提示，该系统能够非常准确地判断一封电子邮件是否为网络钓鱼。重要的是，它提供了详细的推理过程，帮助用户做出关于如何处理可疑电子邮件的明智决策。经评估，使用GPT-4的系统具有卓越的检测能力，准确率达到了99.70%。LLMs的高级上下文解释能力使得它们能够识别各种网络钓鱼策略和冒充行为，使它们成为对抗基于电子邮件的网络钓鱼威胁的一个潜在强大工具。

链接：

https://arxiv.org/abs/2402.18093

4.ACFIX：通过挖掘常见RBAC实践指导LLMs，对智能合约中的访问控制漏洞进行上下文感知修复

简介：智能合约面临多种安全威胁，尤其是访问控制（AC）漏洞，这些漏洞的自动修复是一个挑战。与现有工具能够处理的重入等漏洞不同，AC漏洞的难点在于从大量非AC相关的代码中识别合适的角色和权限，以生成正确的补丁。最近的研究利用大语言模型（LLMs）的进步，通过GPT-4模型结合ACFIX方法，提出了一种新的解决方案。ACFIX通过离线挖掘链上合约中的常见角色-权限对，并在在线阶段利用这些信息指导LLMs修复代码，生成合适的补丁。评估表明，ACFIX能够修复94.92%的真实世界AC漏洞，相比基线GPT-4的52.54%修复率，有了显著提升。

链接：

https://arxiv.org/abs/2403.06838

5.AVIBench：评估大型视觉语言模型对对抗性视觉指令的稳定性

简介：大型视觉语言模型（LVLMs）在理解用户的视觉指令方面取得了进步，但这些指令容易受到攻击。目前针对LVLMs鲁棒性的研究不足。为此，研究者推出了AVIBench框架，它能够测试LVLMs面对多种对抗性视觉指令的鲁棒性，包括图像和文本类型的攻击以及内容偏见。研究者创建了260K个包含多模态能力和内容偏见的对抗性样本，并评估了14个开源LVLMs的性能。AVIBench也能帮助从业者检测LVLMs的鲁棒性。实验结果显示，即使是高级闭源LVLMs如GeminiProVision和GPT-4V也存在偏见，强调了提升LVLMs鲁棒性、安全性和公平性的必要性。相关源代码和基准数据集将向公众开放。

链接：

https://arxiv.org/abs/2403.09346

编辑：Fancy