此篇文章发布距今已超过18天,您需要注意文章的内容或图片是否可用!
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。1. 利用索引梯度对大语言模型进行基于优化的越狱攻击简介:尽管目前通过对齐技术训练大语言模型(LLMs)以提升生成内容的安全性取得了一定进展,但这些模型仍难以避免越狱攻击,这是一种能够暴露其安全漏洞的对抗性攻击手段。其中,贪婪坐标梯度(GCG)方法已被证实可以自动生成能使先进的大语言模型越狱的对抗性后缀,然而其优化过程非常耗时,导致越狱流程效率很低。为此,研究者对 GCG 过程展开深入探究,发现了间接效应这一关键瓶颈问题。基于此,研究者提出了模型攻击梯度索引 GCG(MAGIC)方法。该方法通过利用后缀标记的梯度信息解决间接效应问题,从而减少计算量和迭代次数,加快越狱流程。在 AdvBench 上的实验显示,MAGIC 实现了高达 1.5 倍的加速,并且攻击成功率(ASR)与其他基准方法相当甚至更高。具体而言,MAGIC 在 Llama - 2 上达到了 74% 的攻击成功率,对 GPT - 3.5 进行迁移攻击时也实现了 54% 的攻击成功率。链接:
https://arxiv.org/abs/2412.086152. Mobilizing Waldo: 评估用于公众动员的多模态人工智能简介:多模态大语言模型(LLM)的发展,例如 OpenAI 的 GPT-4o,为在各种情境下调节人际互动提供了巨大的潜力。然而,它们在说服、影响和招募等领域的使用引发了伦理和安全方面的担忧。为了在公共影响力和说服场景中从伦理角度评估这些模型,研究者制定了一种提示策略,利用 “寻找Waldo”(Where's Waldo? )图像作为复杂、拥挤集会的替代物。这种方法提供了一个可控、可复制的环境,用于评估模型处理复杂视觉信息、解读社会动态以及提出参与策略的能力,同时还能避免隐私问题。通过将Waldo设定为一个承担面对面动员任务的假想主体,研究者分析了模型在识别关键人物以及制定动员策略方面的表现。研究者的研究结果显示,尽管该模型能生成生动的描述和富有创意的策略,但在这些场景中它无法准确识别个体,也不能可靠地评估社会动态。不过,这一方法为在社会情境中测试和衡量多模态大语言模型不断发展的能力提供了一个有价值的框架。链接:
https://arxiv.org/abs/2412.142103. SpearBot:在生成 - 评判框架下利用大语言模型生成鱼叉式网络钓鱼邮件简介:大语言模型(LLMs)的能力日益强大,可辅助诸如内容生成等任务,但它们也带来了风险,尤其在生成有害的鱼叉式网络钓鱼邮件方面。这些邮件旨在诱使收件人点击恶意链接,对个人信息安全构成威胁。本文提出了一种对抗性框架 ——SpearBot(鱼叉机器人),它利用大语言模型通过各种钓鱼策略来生成鱼叉式网络钓鱼邮件。通过精心设计的越狱提示语,SpearBot 可绕过安全策略,并引入其他大语言模型实例作为评判者。当评判者识别出一封钓鱼邮件时,SpearBot 会根据评判反馈对已生成的邮件进行优化,直至其不再能被识别为钓鱼邮件,从而提高其欺骗性。为评估 SpearBot 的有效性,研究者部署了多种基于机器的防御手段,并评估所生成的钓鱼邮件能在多大程度上骗过它们。结果显示,这些邮件往往能在很大程度上避开检测,凸显了它们的欺骗性。此外,还通过调查问卷的方式对邮件的可读性和欺骗性进行了人工评估,证实了它们具有令人信服的特性以及所生成的钓鱼邮件存在的重大潜在危害。链接:
https://arxiv.org/abs/2412.111094. 在漏洞检测中,大语言模型(LLM)的提示功能能否作为静态分析的替代手段?简介:尽管大语言模型(LLMs)取得了显著的成功,但在漏洞检测等应用任务中,它们表现出的能力有限。研究者研究了多种用于漏洞检测的提示策略,并在这项探索中提出了一种提示策略,该策略将漏洞的自然语言描述与对比式思维链推理方法相结合,同时利用来自合成数据集的对比样本进行增强。研究者的研究凸显了大语言模型通过将自然语言描述、对比推理以及合成示例整合到一个综合性提示框架中,来检测漏洞的潜力。研究者的研究结果表明,这种方法能够增强大语言模型对漏洞的理解。在诸如 SVEN 这类高质量的漏洞检测数据集上,研究者的提示策略能够分别将准确率、F1 分数以及成对准确率提高 23%、11% 和 14%。链接:
https://arxiv.org/abs/2412.120395. SafeAgentBench:具身大语言模型智能体安全任务规划的基准测试简介:随着大语言模型(LLMs)的融入,具身智能体具备了强大的能力,能够执行自然语言表述的复杂指令,这为具身机器人的潜在部署铺平了道路。然而,一个可以预见的问题是,这些具身智能体同样能够完美地执行一些危险任务,有可能在现实世界中造成损害。为了研究这一问题,研究者推出了 “安全智能体基准(SafeAgentBench)”—— 一个针对具身大语言模型智能体的安全任务规划的新基准测试。安全智能体基准包含以下内容:(1)一个包含 750 项任务的新数据集,涵盖了 10 种潜在危险以及 3 种任务类型;(2)安全智能体环境(SafeAgentEnv),这是一个带有底层控制器的通用具身环境,支持多智能体执行,为 8 个最先进的基准模型提供 17 种高级动作;(3)从执行和语义角度出发的可靠评估方法。实验结果显示,表现最佳的基准模型在安全任务上的成功率为 69%,但在危险任务上的拒绝率仅为 5%,这表明存在重大的安全风险。链接:
https://arxiv.org/abs/2412.131786. 利用测试和静态分析的反馈助力大语言模型(LLMs)改进代码生成简介:大语言模型(LLMs)是人工智能领域最具发展前景的成果之一,软件工程领域也很快注意到了它们在软件开发生命周期中潜在的作用。开发人员经常会要求大语言模型生成代码片段,这虽然提高了工作效率,但也可能引发归属权、隐私、正确性以及安全等方面的问题。此前的研究已经强调过,主流商业大语言模型生成的代码往往并不安全,其中存在漏洞、错误以及代码异味等情况。在本文中,研究者提出了一个框架,该框架利用测试和静态分析来评估通用开源大语言模型所生成代码的质量,并引导其进行自我改进。首先,研究者让大语言模型生成 C 语言代码来解决一系列编程任务。然后,研究者运用真实测试来评估所生成代码的(不)正确性,并使用静态分析工具来检测潜在的安全漏洞。接下来,研究者通过让这些模型检测错误和漏洞,来评估它们对所生成代码进行评估的能力。最后,研究者测试这些模型修复所生成代码的能力,将静态分析以及正确性评估阶段生成的报告作为反馈提供给它们。研究者的研究结果显示,这些模型经常会生成不正确的代码,而且生成的代码可能包含安全问题。此外,它们在检测这两类问题时的表现都非常差。从积极的方面来看,研究者发现当向它们提供测试失败或潜在漏洞等相关信息时,它们具备相当强的修复有缺陷代码的能力,这表明了一种有望提升基于大语言模型的代码生成工具安全性的途径。链接:
https://arxiv.org/abs/2412.14841 推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
宙飒天下网-ZhouSa.com
还没有评论,来说两句吧...