基本信息
原文标题:PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization
原文作者:Yang Jiao, Xiaodong Wang, Kai Yang
作者单位:同济大学,哥伦比亚大学
关键词:Retrieval-Augmented Generation, Large Language Models, Bilevel Optimization
原文链接:https://arxiv.org/pdf/2504.07717
开源代码:暂无
论文要点
论文简介:本文提出了一种新型攻击方式——PR-Attack,旨在针对基于RAG(检索增强生成)的LLM进行高效、隐蔽的攻击。该方法通过在知识库中插入少量“中毒文本”,并在Prompt中嵌入“后门触发词”,实现攻击者在关键时刻操控LLM输出预设答案。通过双层优化框架联合设计Prompt与检索内容,使得攻击既精准又难以察觉。大量实验表明,PR-Attack在多种LLM和数据集上均表现出极高的攻击成功率与隐蔽性,远优于现有攻击方式。
研究目的:当前RAG架构尽管提升了大模型在事实性回答方面的能力,但也引入了新的攻击面。传统的中毒攻击存在三大短板:中毒文本数量限制时攻击效果显著下降、隐蔽性差易被检测、依赖启发式方法缺乏理论保障。本文旨在解决这些挑战,通过提出一个优化驱动的、联合Prompt与知识库内容的攻击框架,使攻击在维持高成功率的同时具有更强的隐蔽性和理论支撑。
研究贡献:
1. 在这项研究工作中,提出了一种新的攻击范式,即提示与知识数据库协同攻击(PR-attack)。与现有的针对基于检索增强生成(RAG)的大语言模型(LLM)的攻击相比,所提出的攻击在保持高度隐蔽性的同时,能够实现更出色的攻击效果。据研究者所知,这是首次设计出一种能同时操控知识数据库和提示词,以使攻击成功率最大化的攻击方式。
2. 研究者将所提出的提示与知识数据库协同攻击(PR-attack)构建为一个双层优化问题。此外,还引入了一种具有理论复杂度保证的交替优化方法。这是首次从双层优化的角度研究针对基于检索增强生成(RAG)的大语言模型(LLM)的攻击,并提供理论复杂度保证的研究。
3. 在多种大语言模型和数据集上进行的大量实验表明,即使在投毒文本数量有限的情况下,所提出的方法也能实现显著的攻击效果,同时保持较高的隐蔽性。
引言
大语言模型(LLMs)近年来在医疗问答、数学推理、代码生成等领域展现出强大的能力,而Prompt Learning技术也进一步提升了其对多样化任务的适应能力。然而,LLMs普遍存在两个核心问题:一是因训练数据静态而导致知识滞后,无法应对时效性强的查询;二是容易生成“幻觉”内容,即缺乏事实依据的错误回答。为解决这些问题,检索增强生成(Retrieval-Augmented Generation, RAG)成为一种有效架构,通过外部检索系统引入最新的知识内容,提升输出的真实性与可靠性。
尽管RAG在提升LLMs表现方面取得成效,但也引入了新的攻击面。已有工作尝试通过向知识库注入中毒文本或扰动Prompt,引导模型生成攻击者设定的答案。然而,这些方法普遍存在三个关键问题:攻击效果依赖大量中毒文本、缺乏隐蔽性容易被检测、生成方式多为启发式缺乏理论支持。为此,本文提出一种创新性的联合攻击方式——PR-Attack。该方法通过少量中毒文本结合Prompt中的后门触发词,实现对LLM生成行为的精准操控。模型在未触发状态下行为正常,在特定条件下则输出攻击性内容,从而兼顾效果与隐蔽性。作者进一步将攻击过程建模为双层优化问题,全面挖掘Prompt与检索内容间的协同潜力,展现出更强的攻击能力和实用性。
相关工作
当前关于大语言模型(LLMs)安全性的研究主要集中在两类攻击:Prompt篡改和对抗样本攻击。其中,Prompt篡改包括Prompt注入与越狱攻击,前者通过插入特定文本干扰模型行为,后者则绕过安全限制,诱导模型生成敏感或违规内容。对抗样本攻击则涵盖数据中毒和后门攻击,前者通过在训练数据中加入恶意样本改变模型行为,后者则在模型中植入后门,在特定输入下触发异常响应。
在RAG架构中,攻击研究尚属新兴方向。PoisonedRAG方法通过在知识库中注入中毒文本,使模型在面对特定问题时输出预设答案;GGPP则在Prompt中添加前缀,引导Retriever选取攻击者希望的文段。然而,这些方法往往依赖大量中毒内容,并缺乏隐蔽性,容易被检测。
此外,双层优化(bilevel optimization)近年来在元学习、超参数调优和架构搜索等领域被广泛应用。其思想是将优化问题分为上下两层,使上层任务的目标依赖于下层任务的解。本文首次将双层优化引入RAG攻击场景,构建系统性、高效且隐蔽的攻击方法PR-Attack,填补了现有方法在理论与实用性上的空白。
研究方法
本文提出的PR-Attack是一种针对RAG架构的联合攻击方法,旨在同时操控Prompt与知识库,提升攻击效果与隐蔽性。其核心在于将攻击任务建模为一个双层优化问题(bilevel optimization)。上层目标是优化Prompt,使模型在触发特定词(如后门词)时输出攻击者预设的答案,而在未触发时生成正常答案;下层则模拟Retriever行为,从包含中毒文本的知识库中检索与问题最相关的内容,形成输入上下文。
由于该优化问题涉及不可导的指示函数和离散变量(如中毒文本内容),直接求解较为困难。为此,作者引入了三项关键改进:
中毒文本以概率分布形式建模,通过词向量采样生成具体文本;
采用软Prompt参数化触发器部分,实现可微优化;
使用自回归损失替代指标函数,便于梯度计算与训练。
在算法实现上,PR-Attack采用交替优化策略(alternating optimization),轮流更新中毒文本的词分布与软Prompt参数。在每轮迭代中,先优化检索文本的生成使其能被高概率选中,再优化Prompt参数以强化生成目标。该方法不仅提升了攻击的精准度,也确保了在限制条件下的高度隐蔽性和稳定性。
研究实验
实验设置:为了全面评估PR-Attack的攻击效果与隐蔽性,作者在多个主流问答数据集和大语言模型上开展了系统实验。所使用的数据集包括 Natural Questions (NQ)、HotpotQA 和 MS-MARCO,分别涵盖开放式问答、多跳推理以及基于网络的文档检索任务。其中,NQ与HotpotQA的知识库来自Wikipedia,MS-MARCO则使用Bing搜索引擎获取的网页文档构建知识库。
在语言模型方面,实验选取了六种主流LLM,包括 Vicuna、LLaMA-2、LLaMA-3.2、GPT-J、Phi-3.5 与 Gemma-2,覆盖从轻量级到大型模型的多个范围。检索器统一采用Contriever模型,使用点积计算相似度,并设定每次检索返回top-5个相关文档(即k=5)。
PR-Attack中,每条中毒文本长度设为20个token(b=20),软Prompt则包含15个可训练token(n=15)。触发器选用不常见词“cf”,确保其不会影响正常问答。为了模拟现实攻击情境,作者限制每个目标问题只能注入一条中毒文本,以评估在高度受限条件下的攻击效率与隐蔽性。
整体实验流程参考已有RAG安全研究设定,统一使用“子串匹配”方式计算攻击成功率(ASR),确保可复现性与公平性。此外,还测量在不激活后门时模型的正常回答准确率(ACC),用于评估攻击隐蔽性。
实验结果:实验结果显示,PR-Attack在多个大语言模型和数据集上均展现出卓越的攻击性能和高度隐蔽性。在**攻击成功率(ASR)**方面,PR-Attack在Vicuna、LLaMA-2、GPT-J、Phi-3.5、Gemma-2和LLaMA-3.2等六种模型中,针对NQ、HotpotQA和MS-MARCO三个数据集的攻击成功率均超过90%,部分组合甚至达到100%。与现有方法如GGPP、PoisonedRAG和Prompt Poisoning相比,PR-Attack在几乎所有测试场景中取得了最高ASR,充分证明其更强的攻击有效性。
在隐蔽性评估方面,作者考察了模型在未激活后门的情况下对问题的正常回答准确率(ACC)。结果显示,PR-Attack在大多数模型与数据集上均超过90%的ACC,显著优于未使用RAG或采用普通RAG机制的对照组。这表明PR-Attack可在非攻击状态下保持模型行为正常,降低被检测的风险,隐蔽性表现出色。
此外,作者进一步评估了PR-Attack对参数设置的敏感性。实验表明,无论是中毒文本长度(b)还是软Prompt长度(n),对攻击成功率的影响均较小,说明该方法具有良好的稳定性和鲁棒性。这种稳定的跨模型与跨任务适应能力,凸显了PR-Attack的广泛适用性与实际威胁程度。
研究结论
大语言模型(LLMs)的漏洞已受到广泛关注。现有的针对基于检索增强生成(RAG)的大语言模型的攻击往往隐蔽性有限,并且在受污染文本数量受到限制时效果不佳。在这项研究中,研究者提出了一种全新的攻击范式,即提示与检索增强生成协同攻击(PR-attack)。即使受污染文本数量很少,这一框架也能实现出色的攻击效果,同时隐蔽性得到了提升。在多种大语言模型和数据集上开展的大量实验证明了所提出框架的优越性能。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...