大语言模型越狱攻击与防御 | CCCF精选 - 新鲜讯息

本文详细分析了大模型遭受的越狱攻击安全风险，对当前大模型越狱攻击防御方法进行了梳理，并且探讨了防御方法面临的主要挑战以及未来的可能解决方案。

引言

近年来，以OpenAI的GPT系列和深度求索的DeepSeek-R1为代表的大语言模型(large language models, LLMs)发展浪潮席卷全球，已成为世界各国新一轮技术竞争的焦点，受到广泛关注。然而，基于海量数据进行训练的LLMs不可避免地会记忆数据中存在的偏见、毒害和敏感信息，导致其回复存在安全性风险。尤其是在面临精心构造的越狱攻击提示时，LLMs易被诱导生成有毒有害内容，对LLMs的价值观安全构成严峻挑战，引发了学术界和工业界的深入研究。因此，为了深入分析LLMs越狱攻击带来的风险，本文聚焦于主流LLMs越狱攻击及其防御的研究现状，同时探讨了防御方法所面临的主要挑战，提供我们对该领域的见解。

大语言模型越狱攻击

LLMs越狱攻击是指攻击者为了达到非法目的，通过设计特定输入，诱导模型违反自身安全政策输出不安全内容。主流的LLMs（如GPT-4、LLaMA等）由于在训练过程中进行了安全对齐，在面临违反价值观的问题时会拒绝回复。然而，如图1所示，攻击者为了诱导模型回答有害问题，使用提示词技巧或优化算法（即“越狱策略”）修改该有害问题，生成能够绕过LLMs安全机制的“越狱提示”，从而导致模型生成有毒或有害的回复。面向LLMs的越狱攻击方法主要分为3类：1）基于手工制作的越狱攻击方法；2）基于梯度优化的越狱攻击方法；3）基于红队模型的越狱攻击方法。

图1 大语言模型越狱攻击示意

基于手工制作的越狱攻击方法

在LLMs发布后不久，数以千计的启发式手工越狱提示在FlowGPT、JailbreakChat等131个社区中广泛传播。这些越狱提示使用启发式越狱策略（如角色扮演）编写，绕过模型的安全机制。一些研究将模型拒绝回复的有害目标问题翻译成不常见的自然语言或转换为ASCII码等编码形式，避开模型的过滤机制。Zeng等基于40种语言学技巧，提出了40种越狱模板，用于改写有害目标问题，诱导模型生成越狱回复。

上述方法已被验证在主流LLMs上具有较好的越狱效果。例如，广泛传播的“Do Anything Now（DAN）”越狱提示在GPT-3.5和GPT-4上的攻击成功率高达95%。这些手工越狱攻击方法虽然能够实现较高精度的攻击，但其自动化程度较低，无法进行大规模的测试以及广泛应用。

基于梯度优化的越狱攻击方法

梯度优化越狱攻击方法旨在利用模型内部梯度信息来生成越狱提示。在这种攻击方式中，攻击者拥有模型的完全访问权限，包括其参数、架构。在这种情况下，攻击者通过计算损失函数来优化提示，最大化模型生成有害输出的概率。目前，大部分研究集中在通过选择单个令牌替换降低最大化损失来优化输入。Zou等提出贪婪坐标梯度方法(greedy coordinate gradient, GCG)攻击算法，该算法利用贪婪坐标梯度方法自动生成对抗性后缀，诱导LLMs输出不当内容。为了加速GCG算法，Zhao等提出探测采样算法，通过引入参数量较小的草稿模型，利用其快速计算能力进行初步筛选，动态调整策略，提高整体优化效率。

然而，上述方法存在若干缺陷。首先，对抗后缀的引入导致句子困惑度显著增加，易因困惑度检测异常而被过滤。其次，该方法需要频繁利用梯度信息优化对抗后缀，计算开销大。再者，这种方法在模型权重不可知的黑盒场景下无法实现。

基于红队模型的越狱攻击方法

基于红队模型(RedAgent)的越狱攻击方法利用红队LLMs来生成和优化越狱提示，从而提升攻击的自动化程度和有效性。Yu等提出GPTFuzzer，利用LLMs的改写能力对手工制作的越狱提示模板进行自动化修改。Chao等提出Prompt Automatic Iterative Refinement（PAIR）攻击方法，采用红队攻击模型，基于目标模型的文本反馈迭代改进越狱提示，以提高攻击成功率。此外，Mehrotra等提出Tree of Attacks with Pruning（TAP），通过构建推理树并过滤掉不相关和低评分的提示，显著减少了越狱成功所需的平均查询次数。

这些基于红队模型的方法展示了在自动化生成和优化越狱提示方面的显著优势，但其采用的迭代方法单一机械，仅对原始提示进行词汇替换或句式调整，缺乏在语义重构、攻击策略转换及语言风格等方面的调整，因此生成提示的多样性有限。

综上，现有越狱攻击方法的攻击目标关注在通用LLMs上，并在通用问答任务上取得了较好的越狱攻击效果。然而，随着LLMs应用的不断涌现，确保LLMs在个性化的上下文中仍然免受越狱攻击至关重要，现有工作在生成越狱提示时，由于未考虑在目标应用的上下文中进行提示优化，难以挖掘目标应用在特定上下文的越狱风险。

为了解决上述问题，我们提出了上下文感知的RedAgent，其核心思想是在利用红队模型生成越狱攻击的同时感知目标应用的上下文，并基于上下文信息优化生成的越狱提示，从而提升越狱提示与目标应用上下文的相关性与有效性。为系统提升越狱提示与目标应用上下文之间的匹配程度，如图2所示，RedAgent通过3个模块协同工作：首先，结构化红队知识构建模块将零散的越狱提示总结为紧凑、可复用更新的越狱策略；其次，上下文感知的越狱提示生成模块结合目标应用的上下文信息检索最相关的策略，以引导红队模型生成更具针对性的提示；最后，自适应路由模块基于模型响应反馈，智能选择多样化的优化路径迭代提示内容，从而有效提高越狱提示的上下文相关性与攻击成功率。

图2 上下文感知的模型红队方法

结构化红队知识构建 RedAgent首先使用红队模型将收集到的越狱提示模板抽象总结为不同类别的越狱策略，并构建结构化文本来管理这些策略及其对应的提示，形成越狱策略池，从而将海量越狱提示总结为紧凑的结构化策略，减少了在使用红队知识过程中可能出现的冗余信息。与此同时，为了高效更新红队知识以提升有效性，我们利用红队LLMs观察测试过程中产生的新记录，总结其中的关键特征（如上下文信息和威胁类别）作为标签，将新生成的越狱提示结构化以更新越狱策略池。

上下文感知的越狱提示生成为了从红队知识中挖掘目标上下文的有效策略以提升越狱提示的场景适应性，RedAgent利用关键标签从红队知识中搜索与目标问题相关的知识，然后利用检索到的越狱策略作为生成条件，驱动红队LLMs生成相应的越狱提示。在使用越狱提示对目标模型进行查询后，RedAgent收集目标应用的反馈，并从中提取上下文信息以生成策略偏好，作为额外的生成条件指导下一次越狱提示的生成，以提高越狱提示与目标应用上下文的相关性。

自适应路由为了提升红队模型迭代操作的多样性，RedAgent分析越狱结果以从预定义的迭代空间（包含调整策略、调整目标问题、添加上下文信息、重新尝试）中选择合适的迭代操作，并根据决策结果跳转至相应的步骤，执行下一次的迭代优化，通过扩展迭代空间，显著提升了越狱提示的多样性和攻击的有效性。

相较于现有主流的基于梯度优化的越狱攻击方法，RedAgent不依赖目标模型的内部梯度信息，能够在黑盒环境中高效运行，适用于更广泛的真实场景。与现有的基于红队模型的越狱攻击方法相比，RedAgent能够主动感知目标应用的语境特征，并据此调整攻击路径，生成与具体应用场景高度契合的越狱提示，从而显著提升越狱提示的上下文相关性与攻击有效性。

LLMs越狱攻击的防御

当前大语言模型面临着严重的越狱攻击风险。为了使大语言模型能够抵御越狱攻击，不输出违法违规内容，研究人员开发了一系列防御技术与方法，这些方法依据模型参数是否改变可以分类为模型自身安全对齐和模型外部安全增强2种类型。图3为模型自身安全对齐和模型外部安全增强两类大语言模型越狱攻击防御方法概览。

图3 大语言模型越狱攻击防御方法概览

LLMs自身安全对齐

LLMs自身安全对齐指的是通过模型训练与微调的方法修改模型参数，使其输出内容更加符合人类的预期。这种调整常常通过有监督微调、强化学习反馈等机制进行，将人类价值观引入到演示数据或者强化学习的奖励函数设计中，以提升模型生成结果的可信性以及实用性。在LLMs训练的周期内各阶段都涉及模型价值观对齐，包括数据清洗、演示学习阶段价值观数据微调、人类反馈学习阶段价值观微调，下面将分别介绍这些方法。

数据清洗是模型训练周期的前置步骤，通过数据清洗，模型开发者可以去除数据中包含的有毒元素，例如偏见内容、错误信息以及有害描述等。数据清洗可以防止这些内容进入到训练流程，被模型记忆。在实际的模型训练中，数据清洗贯穿每个训练阶段。特别是当前大语言模型训练依赖互联网内容，这些内容来源多样、构成复杂，可信度较低，数据清洗成为这些数据进入训练流程必不可少的处理步骤。然而，数据清洗作为一种数据价值倾向的消除手段，由于过滤标准不一、价值观难以统一，数据清洗操作也可能引入新的倾向，以致成为新的价值观风险。

大模型在部署之前一般需要经历数个阶段的训练和微调。目前公认的大模型训练不可或缺的步骤包括预训练阶段、演示学习阶段、人类反馈对齐阶段。在这些不同的阶段中，开发人员使用不同的训练方法来调整大模型的推理规范。其中预训练阶段耗时最长，一般使用自监督的方法，微调模型记忆文本之间的条件概率依赖关系；而演示学习阶段使用的微调数据具有更明确的模式，例如使用问答对或者指令语句来教会模型基本的推理以及行为模式；人类价值观对齐阶段消耗的计算资源最少，大模型在这一阶段通过一些偏好数据来学会行为边界，防止出现价值观风险。在以上的3个训练阶段中，演示学习和人类价值观微调对于大模型价值观的规范确立帮助最大。

然而SFT阶段的模型训练只包含输入输出对，本质上仍然是模型下一个词符预测的训练模式，难以对整个语句的好坏、回答语气等偏好进行学习。价值观作为一种复杂的人类偏好，如何全面地在LLMs中复刻成为重要的研究问题。为了解决上述问题，研究人员提出了人类反馈强化学习(reinforcement learning with human feedback, RLHF)方法，通过训练奖励模型对LLMs的输出进行评价，通过反馈帮助模型识别优质响应和不理想响应，从而逐渐优化模型的生成质量。RLHF最初由OpenAI采用一种近端策略优化(proximal policy optimization, PPO)的方法实现模型的训练，但是这一方法需要对模型的训练结果进行奖励，之后再将奖励模型嵌入到强化学习的流程中实现模型的价值观对齐微调，流程繁琐，并且在强化学习训练阶段存在稳定度不高、学习效率低下的问题。

为了解决上述问题，斯坦福大学提出一种人类偏好直接优化(direct preference optimization, DPO)方法，通过直接优化偏好数据而不是奖励模型来实现对齐，大大省略了以往方法中需要重新训练奖励模型的做法，简化了训练的流程。DPO将人类偏好数据直接映射为模型的生成策略，不再依赖复杂的奖励函数，从而在一定程度上降低了计算成本并提高了效率，在多种测试环境中相比RLHF获得了更好的性能。在DPO之后，研究者进一步优化标签方法，不再依赖标签对的方法，设计了新的KTO优化(Kahneman-Tversky optimization)方法，通过二值反馈（即“好”或“坏”）来优化大型语言模型的响应，使其更符合人类偏好。该方法在各种数据集和模型配置中表现出色，尤其在处理数据不平衡任务时具有较好的对齐效果和稳定性。以上方法的简化概览见图4。

图4 大语言模型主流对齐方法概览

除了以上方法，研究人员还提出了其他的优化对齐方法，例如统计拒绝采样优化(statistical rejection sampling optimization, RSO)、赔率比偏好优化(odds ratio preference optimization, ORPO)等方法。这些方法旨在提升模型的对齐效率，实现更好的LLMs价值观安全效果。

大语言模型外部安全增强

LLMs在经过SFT和RLHF训练之后，其价值观对齐水平已经达到了实用程度，但是仍然会出现部分回答违反安全规则的情况，特别是面对主动攻击时。模型会被精心设计的提示所误导，导致输出的回答带有违反安全规定的内容。在实际的运营中，由于监管部门的合规要求、企业声誉等影响，LLMs服务提供商对于LLMs价值观输出容错率极低。某些极端情况下，LLMs价值观输出错误甚至会导致公司巨额损失，例如国内某AI公司的产品输出不符合社会主义核心价值观的回答之后，经过媒体报道，公司股票当天跌停。类似的严重后果迫使LLMs服务商不得不尽最大努力降低出错的可能性。因此LLMs的外部安全增强技术成为LLMs服务商的价值观安全防御机制的必选项。

LLMs存在输入与输出2个风险面，首先模型的输入需要接收不同客户的服务请求，客户的输入具有不确定性，因此精心构造的越狱提示会被提交到LLMs，导致LLMs存在被攻击的风险以及输出内容不合规的风险。其次由于输出的不可预测性，模型在正常与异常的服务请求之下均有可能输出不合规内容。因此，在LLMs的输入端与输出端都存在安全加固的需求。实际的LLMs部署中，输入与输出端安全过滤也是国内外LLMs服务商的常规做法。图5为ChatGPT在应对GCG生成的越狱提示时，提示异常并拒绝服务。

图5 ChatGPT在面对GCG攻击方法时的输入过滤防御

输入层面的防御输入层面的防御主要针对用户输入进行预处理，通过过滤或修改潜在的有害或对抗性提示，防止模型接收到恶意指令。输入层面的防御方法包含指令检测以及改写等。Markov等基于开源大语言模型训练构建了指令分析与审核系统。Li等使用掩码技术，对输入中的敏感词汇或短语进行掩盖，然后利用另一个模型来预测这些被掩盖的部分，从而生成一个净化后的指令。

输出层面的防御输出层面的防御主要针对模型的输出进行检查和处理，确保最终为用户展示内容是安全合规的。Phute等使用LLMs来检测自身输出是否有害。Rebedea等开发了NeMo Guardrails工具包，使用可编程护栏增强LLMs对话系统的安全性。

大模型安全防御面临的挑战

大语言模型服务供应商以及学术界开发了众多方法来保障其输出的安全与合规。然而，相关安全事件仍层出不穷，在新闻报道以及学术研究中不断出现。究其原因，是因为大语言模型自身存在固有安全缺陷，输出行为难以解释。例如Claude所属的Anthropic公司发现，当前流行的大语言模型在接收重复内容的提示词时会表现出越狱行为。Anthropic表示这类越狱行为的成因难以解释，这一新出现的越狱现象使得越狱问题变得更加复杂。综合来看，尽管学术界和工业界不断推出新的技术措施来满足大模型监管合规要求，但仍然难以完全杜绝越狱现象的发生，其中面临的挑战包括大模型输入输出状态空间缺乏安全证明，LLMs上下文学习的方式存在被诱导利用的风险，大模型价值观存在标准不统一的问题等。

挑战1 LLMs状态空间庞大，难以从数学理论层面证明其输出的安全性，始终存在安全隐忧。大语言模型缩放法则（scaling law）下通过不断提升参数规模来增强自身性能，然而，更大的参数规模也同样带来了更高的状态空间复杂度，难以针对内部参数变化与结果传递进行建模，这使得对其进行全面的安全性分析非常困难，想要从数学角度证明大模型输出的安全性以目前的技术水平难以实现。这意味着即使经过安全性与价值观微调，模型也可能存在未被发现的安全隐患，这些隐患在特定条件下存在被触发的可能性。缺乏数学理论基础成为LLMs输出安全的重要挑战之一。

挑战2 LLMs的输出范式依赖上下文学习，存在被诱导的安全风险，且这种风险始终存在。LLMs的上下文学习能力与指令遵循能力使其能够根据前置的词符输出后续的词符，后续的词符依靠前置词符的条件概率关系输出。这种灵活性带来了极大的安全隐患，恶意用户可以精心构造输入词符，利用条件概率原理诱导模型生成有毒、有害或带有偏见的内容，例如仇恨言论、虚假信息或恶意代码。并且，由于上下文学习是大模型主要的使用方式，使得此类攻击面始终存在。这样的原理性安全缺陷也是当前LLMs越狱攻击发生的基础原因之一。

挑战3 通用LLMs价值观对齐标准不统一，通用化服务与差异化对齐标准存在矛盾。LLMs服务根植于特定的国家与社会形态，目前国际研究社区缺乏统一的、全球认可的价值观对齐标准。这导致通用LLMs在服务不同用户群体时可能表现出不同的价值观倾向。面向广泛用户进行服务的通用性与用户价值观之间的差异化存在明显的矛盾。大语言模型如何在通用性和差异化之间取得平衡是其对齐的一个重要挑战。

要解决上述大模型安全对齐的挑战，亟须研究社区、人工智能公司以及监管机构加强合作，从以下几个方面探索可能的技术路径。1）研究大模型的底层理论框架，针对大模型输出字符的行为进行数学建模，计算大模型的行为安全边界，实现大模型的可证明安全；2）分析大模型内部行为机理，设计带有安全考量的词符输出机制，提升大模型行为的可控性与可解释性；3）明确大模型价值观安全标准，开展跨文化、跨领域的合作研究，制定更具包容性和适应性的价值观对齐框架，并开发相应的评估指标和方法。通过以上措施，实现大模型的可证明安全，确保大模型技术落地于更广泛的实践场景。

总结与展望

大语言模型技术无疑是人工智能发展历程中的重要里程碑，其在通用任务解决、自然语言处理、自适应场景学习等方面展现出巨大发展潜力以及广泛应用前景。然而，越狱攻击揭示了当前大语言模型所存在的深层次安全缺陷，这些缺陷并非仅仅是表面的技术问题，而是深嵌于模型架构和训练范式中的本质性难题。亟须学术界、产业界和技术社区共同努力消除安全缺陷，构建安全、可靠的大语言模型，通过基础理论创新以及跨学科的合作研究，逐步完善模型安全防御机制，推动人工智能技术落地于更广泛的现实场景。

任奎

CCF会士、数据治理与发展技术委员会副主任。浙江大学求是讲席教授。主要研究方向为人工智能安全、数据安全与隐私保护。[email protected]

王志波

CCF杰出会员。浙江大学教授。主要研究方向为人工智能安全、智能物联网、数据安全与隐私保护。[email protected]

秦湛

CCF专业会员。浙江大学长聘副教授。主要研究方向为人工智能安全、数据安全。[email protected]

郑锐

CCF专业会员。浙江大学网络空间安全学院博士后，信息工程大学讲师。主要研究方向为人工智能安全、大模型系统安全。[email protected]

徐晖宇

浙江大学博士研究生。主要研究方向为人工智能安全、数据安全与隐私保护。[email protected]

本文发表于2025年第7期《计算》。

点击“阅读原文”，加入CCF。