文章最后更新时间2025年01月21日,若文章内容或图片失效,请留言反馈!
在人工智能技术迅猛发展的浪潮中,大语言模型的安全性成为决定其能否广泛应用的关键因素。近日,LLM-Hunter项目组成员TrustAI与云起无垠团队对 Google Gemini AI 开展了全面的安全与红队测试测评,这一举措为深入洞察该模型在复杂多变的安全环境中的实际表现,提供了至关重要的依据 。此次评估选取了 Gemini 系列中的 gemini-1.5-flash、gemini-1.5-pro、gemini-1.5-flash-8b、gemini-1.0-pro、gemini-2.0-flash-thinking-exp-1219 等模型。LLM-Hunter运用多种自动化的大语言模型(LLM)对抗性测试技术,对这些模型展开了全面的安全评估,从而为相关领域的研究与实践提供有价值的参考,助力大语言模型安全方面的发展。本次评估选取了场景攻击成功率(SASR)、攻击方法攻击成功率(AASR)以及风险分值分布(0 - 100,即失调程度评分分布,MDSD)这三个关键指标,对模型进行了全面且深入的评估。1. 场景攻击成功率(SASR)在整个评估体系中占据着重要地位,其主要用于衡量模型处理复杂场景下对抗性输入的能力。在针对安全性、安全以及特定领域能力等多方面的测试过程中,所获取的结果能够清晰地呈现出各个模型在稳定性和可靠性方面的差异。以部分安全场景测试为例,部分模型的 SASR 数值偏高,这表明在面对特定的对抗性输入时,这些模型容易产生错误或不理想的输出结果,进而反映出它们在抵御恶意攻击方面的能力较为薄弱。反之,在其他一些场景中,部分模型的 SASR 数值较低,这意味着它们具备相对较强的弹性和过滤能力,能够有效地应对复杂的干扰信息,确保自身的稳定运行。2. 攻击方法攻击成功率(AASR)重点关注模型应对由不同攻击方法所生成的对抗性输入的能力。从所收集的数据来看,诸如 PAP、PAIR 和自适应攻击等变异方法显著地提高了越狱成功率。这一现象充分表明,这些攻击手段能够成功突破模型的部分防御机制,从而对模型的安全性构成了严重的威胁。与之相反的是,简单编码变形和思维链提示对于某些模型的攻击成功率影响相对较小。这一结果显示出,在面对此类相对简单的攻击策略时,这些模型具有一定程度的稳定性。然而,尽管如此,我们也绝不能忽视这些模型在面对更为复杂的攻击手段时所暴露出来的脆弱性。3. 风险分值分布(0 - 100)从量化风险的角度出发,为评估模型的整体安全性提供了直观且极为关键的参考依据。借助 0 到 100 的评分尺度,该指标能够明确地界定出各个模型所处的风险等级。例如,某些模型处于中等风险区间,而另一些模型则处于低风险区间。通过这种方式,能够直观地反映出不同模型在安全性能方面的差异,进而为后续针对模型的改进和优化工作提供重要的方向指引,帮助研究人员有针对性地采取措施,提升模型的安全性。LLM-Hunter精心打造了一个包含 5 万个提示的均衡数据集,其来源广泛且具有高度的针对性。从活跃的黑客社区到权威的主要行业基准,如 “真实毒性提示”“越狱基准”“海狸尾巴”“毒性生成” 和 “危害基准” 等,都为数据集提供了丰富多样的素材。这些提示经过细致的重新标注和分类,被有序归入不同的测试类别,确保了在各种评估场景下的一致性和全面覆盖。无论是检测模型对错误信息的识别能力,还是对恐怖主义、暴力等敏感内容的处理水平,该数据集都能提供有效的测试依据,为准确评估模型性能奠定了坚实基础。LLM-Hunter 借助多种攻击技术,从多维度对大语言模型的安全性展开挑战,这对于全面评估与提升大语言模型的安全性具有深远的参考价值和重要启示。· Direct Prompting(直接提示):直接使用数据集中未经修改的样本,以此评估模型对不一致提示的响应情况,简单直接地考察模型基础应对能力。· 提示自动迭代优化(PAIR):仅通过对大语言模型进行黑箱访问就能生成语义越狱内容的算法,利用攻击型大语言模型,在无需人工干预的情况下,自动为目标大语言模型生成越狱内容,突破了人工设计的局限。· 现在无所不能(DAN):是 ChatGPT 中知名的越狱角色,能够不受限制地执行任何任务,并且能表达 “政治不正确” 的观点。· 多项选择题:以多项选择题的形式向大语言模型提出问题,用于评估它们在回答领域知识方面的准确性,精准考量模型知识储备。· 思维链(CoT):通过在提示中引导大语言模型遵循逻辑步骤来提升其推理能力,有助于解决如数学、常识推理以及符号操作这类复杂任务,与直接给出答案不同,能更好地锻炼模型处理复杂逻辑的能力。· 速记法:使用一些常用的编码方法对输入提示进行编码,利用大语言模型理解编码文本的固有能力,是一种较为特殊的攻击技术尝试。· GPTFuzz:是一个创新性的黑盒越狱模糊测试框架,从 AFL(美国模糊逻辑测试工具)已有的框架中获取灵感,能够自动生成越狱模板,为针对大语言模型的红队测试提供了一种动态的方法,增强了测试的灵活性和全面性。· CipherChat(密语聊天):通过加密提示、系统角色描述以及少量加密示例,促进人类与大语言模型的交互,系统地评估跨非自然语言的安全对齐情况,关注到了非自然语言交互中的安全问题。· Adaptive Attacks(自适应攻击):使用提示模板绕过大语言模型的防御机制,将规则、有害请求以及对抗性后缀相结合,这些自适应攻击针对特定的防御措施,并且是为每个大语言模型量身定制的,具有很强的针对性和适应性。· PAP(说服性对抗提示):将说服技巧天衣无缝地融入到越狱提示构建中,凸显了与更复杂、更微妙的类人交流相关的风险,有助于推动人工智能安全方面的研究,关注到了类人交流中的潜在安全隐患。· 多语言的:揭示大语言模型中多语言越狱方面的挑战,包括因非英语提示而出现的无意绕过情况,以及使用多语言恶意指令发起的有意攻击,关注到了语言多样性带来的安全问题。Google Gemini 不同版本在综合对齐程度这一指标上,于 0 - 1 区间内呈现出明显的差异分布。这一数值直观反映了各版本模型在整体安全与能力对齐方面的不同水平,从宏观上展示了模型的基本性能状态。从前 5 大不一致类别攻击成功率来看,Pretending、Hijacking、Hallucination、Insult、Roleplay 等类别成为模型的关键薄弱环节。部分版本在这些类别上甚至出现了 100% 的攻击成功率,这一惊人的结果深刻警示了模型在处理特定复杂语义和恶意意图场景时的严重不足,表明模型在面对这类具有高度迷惑性和恶意性的输入时,缺乏有效的识别和防御机制。在案例研究中,gemini - 1.5 - flash、gemini - 1.5 - flash - 8b、gemini - 1.0 - pro 等模型在面对一系列恶意提示时,暴露出了严重的安全问题。例如,在面对扰乱国家的提示时,模型未能洞察背后的有害意图,生成的回复含蓄认可非法行为;在贩卖毒品、勒索软件敲诈、入室盗窃指南等恶意场景下,模型同样无法有效识别危害,生成的内容间接或直接地支持了非法活动,且攻击成功率均高达 100%,毒性等级被评定为 100(严重)。这些案例在真实场景下生动地展示了模型在安全防护上的巨大漏洞,凸显了问题的严重性和紧迫性。为有效应对 Google Gemini AI 所面临的严峻安全挑战,一系列全面且具有针对性的缓解措施应运而生。1. 强化多层不一致性过滤是关键的第一步,通过整合基于关键词、语境、意图的过滤器与先进的机器学习及大语言模型检测器,构建起一道坚固的防线,能够精准地识别和拦截对抗性模糊内容,有效区分无害的语言变化和真正的恶意攻击,从源头上降低风险。2. 含模糊输入的对抗性训练为模型提供了实战演练的机会,在训练过程中让模型频繁接触多种多样带有对抗性及模糊性的提示内容,使其能够逐渐熟悉并识别不一致内容的隐藏模式,即使面对非标准形式的恶意输入,也能保持高度的警惕性和准确的判断力。3. 语境感知与模式识别系统的开发赋予了模型敏锐的洞察力,使其能够快速识别与不一致内容相关的语境模式,有效降低不一致内容绕过检测过滤器的可能性,进一步增强模型的防御能力。4. 在关键应用中引入人工介入保障措施是确保高风险场景下安全的重要防线。对于如金融、医疗、安全等对安全性和准确性要求极高的应用领域,集成人工介入系统,在将模型生成的回复展示给用户之前进行严格审查,确保潜在的有害内容被及时拦截,避免不良后果的发生。5. 定期审计与基准测试则为模型的持续改进提供了持续的动力和方向。利用包含各种不一致内容的数据集和先进的变异技术,定期对模型进行全面的基准测试,深入了解模型随时间变化的稳健性,准确确定需要持续改进的关键方面,为模型的不断优化升级提供有力的数据支持和决策依据。综上所述,Google Gemini AI在LLM-Hunter的安全测试中虽然暴露出诸多不容忽视的问题,但通过全面、系统地实施上述缓解策略,有望在复杂多变的应用场景中逐步提升安全性和可靠性,切实满足道德与监管要求,重新赢得用户的信任与支持,推动人工智能技术在安全、稳健的轨道上持续发展,为行业树立安全防护的典范,引领大语言模型在安全领域的创新与进步。《Google Gemini AISafety & Red Teaming Report》 将在安全极客知识星球进行分享,欢迎大家关注,以获取更多干货内容。 推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
宙飒天下
还没有评论,来说两句吧...