第56期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. SelfDefend: LLMs能够以实用的方式自我防御免受破解

简介：SelfDefend是一种新型的大语言模型（LLMs）防御框架，旨在对抗越狱攻击，即绕过安全对齐措施的攻击。该框架通过建立一个影子LLM实例来保护目标LLM，同时进行基于检查点的访问控制。SelfDefend利用现有LLMs识别用户查询中潜在有害内容的能力，通过实验验证了其有效性，能够显著降低攻击成功率，同时对正常查询影响极小。此外，通过数据蒸馏方法，SelfDefend还优化了开源防御模型，使其在抵御越狱攻击方面表现优异，且延迟低，进一步增强了其在实际应用中的实用性。

链接：

https://arxiv.org/abs/2406.05498

2. 多智能体软件开发实验：迈向统一平台

简介：大语言模型正在革新软件工程，通过AI技术贯穿需求收集、架构设计、代码编写、测试和部署等环节。本研究旨在构建一个统一平台，利用多个AI代理自动将用户需求转化为结构化的软件交付物，包括用户故事、优先级排序、UML图、模块化API、单元测试和端到端测试。该平台还负责任务组织、安全合规性检查，并为非功能性需求提供设计建议。用户可按偏好控制各阶段，平台遵循欧洲标准进行安全合规性检查，并提出设计优化。研究使用GPT-3.5、GPT-4和Llama3等模型生成模块化代码，并在GitHub上公开源代码，以支持研究和实践。

链接：

https://arxiv.org/abs/2406.05381

3. PowerPeeler：一种精确且通用的PowerShell脚本动态去混淆方法

简介：PowerShell作为强大的自动化工具，常被网络攻击者利用进行恶意脚本编写和混淆，以逃避检测和分析。为解决这一问题，本文提出了一种名为PowerPeeler的动态去混淆方法，它通过分析抽象语法树（AST）节点来识别和跟踪脚本执行过程中的混淆部分，并动态记录执行结果，从而实现精确的去混淆。与现有工具相比，PowerPeeler在去混淆正确率上达到95%，显著领先，并能恢复最多敏感数据，同时保持高语义一致性。此外，PowerPeeler在有限时间内能有效产出最多有效去混淆结果，且具有良好的可扩展性，可作为网络安全解决方案的一部分。

链接：

https://arxiv.org/abs/2406.04027

4. 探索针对基于大语言模型的决策制定的后门攻击

简介：大语言模型（LLMs）在特定应用的微调阶段，因其强大的常识和推理能力，在决策任务中表现出巨大潜力。然而，这一阶段也存在显著的安全风险。本研究提出了首个针对LLM决策系统的后门攻击框架（BALD），系统地探讨了如何在微调阶段通过不同渠道引入后门攻击。研究者提出了三种攻击机制：词注入、场景操纵和知识注入，并通过实验验证了这些攻击的有效性和隐蔽性。研究还评估了LLMs在决策任务中的脆弱性，并探讨了潜在的防御措施，以保护基于LLM的决策系统。

链接：

https://arxiv.org/abs/2405.20774

5. 针对GPT-4o的语音破解攻击

简介：随着GPT-4o这一多模态大语言模型的推出，它通过音频、视觉和文本的交互能力，将人机交互带入了更自然的领域。然而，这同时也为潜在的语音破解攻击提供了新的机会。本研究首次系统地评估了针对GPT-4o语音模式的破解攻击，并发现GPT-4o在将文本破解提示转换为语音时具有较强的抵抗性。研究者提出了VoiceJailbreak攻击，通过模拟人类行为和虚构故事讲述来诱使GPT-4o泄露敏感信息。实验表明，VoiceJailbreak能显著提高攻击成功率，从0.033提升至0.778。研究还探讨了不同因素对攻击效果的影响，并通过高级写作技巧进一步增强了攻击效果。研究者希望这项研究能为构建更安全的多模态语言模型提供帮助。

链接：

https://arxiv.org/abs/2405.19103

6. LLM辅助的静态分析用于检测安全漏洞

简介：软件存在安全漏洞的风险，而用于检测这些漏洞的程序分析工具在实际应用中的效果并不理想。尽管大语言模型（LLMs）在代码生成方面表现出色，但是它们难以进行复杂的代码推理以发现安全漏洞。本研究提出了一种名为IRIS的新方法，它首次将LLMs与静态分析相结合，以实现对整个代码库的推理，从而检测安全漏洞。研究者创建了一个包含120个真实Java项目中手动验证的安全漏洞的新数据集CWE-Bench-Java。IRIS利用GPT-4模型检测出其中的69个漏洞，而最先进的静态分析工具仅检测到27个。此外，IRIS还显著降低了误报率，最高减少了80%以上。这一成果不仅提高了漏洞检测的准确性，还减少了开发者的负担。

链接：

https://arxiv.org/abs/2405.17238