第44期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1.安全人工智能系统开发指南

简介：该指南提供了针对AI系统开发生命周期中设计阶段的指导，着重于理解风险、进行威胁建模，以及在系统与模型设计时需权衡的关键因素。指南涉及四个主要领域：提升员工对安全威胁和风险的意识、对系统潜在威胁进行细致建模、确保系统设计兼顾安全性、功能性与性能，以及在选择AI模型时评估安全性与其他因素之间的权衡。

链接：

https://www.ncsc.gov.uk/files/Guidelines-for-secure-AI-system-development.pdf

2.评估人工智能系统的挑战

简介：围绕人工智能对社会影响的讨论通常归结为其系统特质的探讨，如真实性和公平性，但许多人未意识到若想构建完善的模型评估方式是极具挑战性的工作，现有评估工具在准确性上存在局限。本文分享了研究人员在模型评估实践中的挑战，旨在为AI治理和评估工作的相关人员提供参考。

链接：

https://www.anthropic.com/index/evaluating-ai-systems

3.对人工智能安全的观点：时间（When）、原因（Why）、对象（What）以及方法（How）

简介：人工智能在未来十年可能引发深远变革，得益于计算能力的指数增长，其能力预计将显著提升，有可能超越人类智慧。尽管如此，如何培养出既强大又可靠的AI系统仍是一个未解之谜，快速的技术进步可能引发社会动荡和不安全的竞争。研究者正在采取以经验为导向的 AI 安全方法，积极探索工人工智能系统的运作本质，研究可扩展的人工智能系统监督和审查技术，尝试创建透明和可解释的人工智能系统，并分析人工智能的潜在风险点及如何预防它们，旨在构建出能够稳健应对各种挑战的安全系统

链接：

https://www.anthropic.com/index/core-views-on-ai-safety

4.用“Spotlighting”防御间接提示注入攻击

简介：大语言模型（LLMs）是为处理单一文本输入而设计的强大工具。在实际应用中，通常将多个输入合并为一个文本流来同时处理，但这样做LLM无法识别不同输入的来源。这就导致了一种安全漏洞，即间接提示注入攻击，攻击者会在数据中嵌入恶意指令，而模型可能会将这些指令误认为是用户的命令。为了解决这个问题，研究者提出了一种名为“Spotlighting”的技术，它通过对输入进行特定的转换，帮助模型可靠地识别输入的来源。实验证明，Spotlighting技术能有效防御间接提示注入攻击，将攻击成功率从50%以上降低到不到2%，同时对自然语言处理任务的性能影响极小。

链接：

https://arxiv.org/pdf/2403.14720.pdf

5.大语言模型中的风险和响应：评估关键威胁类别

简介：本论文研究了随着大语言模型（LLMs）得到广泛应用所带来的风险评估问题。文章集中讨论了奖励模型在微调LLMs以符合人类价值观时，如何识别和处理各种风险，以及个性化训练数据的主观性所引发的挑战。通过分析Anthropic Red-team数据集，研究者发现LLMs往往低估了信息危害的风险，这一点通过回归模型得到了验证。相比其他风险，LLMs对信息危害的反应也相对宽松。研究还揭示了LLMs在信息危害情况下对越狱攻击的高度脆弱性，突显了风险评估中的安全隐患，并强调了加强AI安全措施的必要性。

链接：

https://arxiv.org/pdf/2403.14988.pdf

6.BadEdit：通过模型编辑对大语言模型进行后门攻击

简介：传统的后门攻击方法在大语言模型（LLMs）上的应用受限于需要大量数据进行“投毒”，这不仅影响实用性，还可能损害模型的整体性能。针对这一问题，研究者首次提出了BadEdit攻击框架，将后门注入视为轻量级知识编辑任务，通过直接修改LLM参数来高效植入后门。BadEdit的优势在于：仅需要极少的样本（15个）进行注入，大幅减少调整参数的时间消耗，确保模型性能不受影响，并且在后续的微调或指令调整后后门依然稳定。实验显示，BadEdit能以100%的成功率高效攻击预训练的LLMs，同时保持对正常输入的处理性能。

链接：

https://arxiv.org/pdf/2403.13355.pdf

编辑：Fancy