GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
1. LLM驱动的AI智能体通信综述:协议、安全风险和防御对策
简介:在当今时代,大语言模型驱动的人工智能智能体凭借其卓越的智能水平与强大的适应性,正深刻变革着人类的生产与生活模式。当下,智能体领域正迎来新一轮的重要演进。与以往大语言模型(LLM)各自为战的孤立状态不同,如今的智能体开始积极与其他智能体、工具等多样化外部实体展开通信交流,以此协同完成更为复杂艰巨的任务。在此发展态势下,智能体通信已然成为未来人工智能生态系统的核心基础支柱。近几个月,众多组织纷纷投身其中,积极设计各类智能体通信协议,例如Anthropic推出的MCP以及谷歌提出的A2A等。
然而,这一新兴领域在蓬勃发展的同时,也暴露出一系列严峻的安全隐患,这些隐患一旦爆发,极有可能对现实世界的各类场景造成难以估量的严重破坏。为助力研究人员迅速深入理解这一充满潜力与挑战的课题,并进一步推动未来智能体通信的稳健发展,本文对智能体通信安全性展开了全面且深入的综述研究。
具体而言,研究者首先对智能体通信予以了清晰明确的定义,并将智能体通信的完整生命周期细致划分为三个关键阶段,分别是用户 - 智能体交互阶段、智能体 - 智能体通信阶段以及智能体 - 环境通信阶段。紧接着,针对每个通信阶段,研究者深入剖析相关协议内容,并依据通信特性深入分析其中潜藏的安全风险。随后,研究者系统总结并前瞻性展望了针对各类风险的可能防御策略。此外,研究者还借助MCP和A2A展开实验研究,旨在帮助读者更为直观、深入地理解智能体通信所衍生的全新安全漏洞。文章的结尾部分,研究者探讨了这一前景广阔的研究领域中尚未解决的关键问题,并对未来发展方向进行了合理展望。
链接:
https://arxiv.org/abs/2506.19676
2. STACK:针对 LLM 保障管道的对抗性攻击
简介:前沿人工智能开发者正依赖层层防护措施来防止人工智能系统遭受灾难性滥用。Anthropic使用一种这样的防御流程来保护其最新的Claude 4 Opus模型,而包括谷歌DeepMind和OpenAI在内的其他前沿开发者也承诺很快将部署类似的防御措施。然而,此类流程的安全性尚不明确,此前评估或攻击此类流程的研究有限。研究者通过开发和红队测试开源防御流程来弥补这一缺陷。首先,研究者发现一种新型的少样本提示输入输出分类器在三次攻击和两个数据集中的表现优于最先进的开放权重防护模型ShieldGemma,将灾难性滥用数据集ClearHarm上的攻击成功率 (ASR) 降至0%。其次,研究者引入了一种分阶段攻击 (STaged AttaCK, STACK) 程序,在针对少样本提示分类器流程的黑盒攻击中,该程序在ClearHarm上实现了71%的ASR。最后,研究者还在传输环境中评估了STACK,其 ASR达到了33%,这初步证明了设计无需访问目标管道的攻击是可行的。最后,研究者提出了一些具体的缓解措施,供开发人员用来阻止分阶段攻击。
链接:
https://arxiv.org/abs/2506.24068
3. 大语言模型在渗透测试中的惊人有效性研究
简介:本文围绕大语言模型(LLM)在渗透测试中的有效性展开批判性分析。文章先全面回顾LLM的发展历程及其功能的快速拓展,正是这些不断增强的能力,让LLM在复杂渗透测试中越来越有用武之地。接着,系统梳理LLM在学术研究与工业实践中的历史应用,展示其在各类攻击性安全任务中的表现,覆盖网络杀伤链的多个阶段。尤为重要的是,文章还关注到恶意行为者对LLM的利用,凸显该技术在安全领域存在的 “双刃剑” 特性。
LLM在渗透测试中展现出意外有效性,主要归因于几个关键因素:渗透测试对模式匹配的需求与LLM的核心优势高度契合;LLM具备管理动态环境不确定性的能力;通过LLM提供商,能够以较低成本获取高性能的预训练模型。
当前,LLM辅助渗透测试主要呈现交互式 “氛围攻击” 和完全自主系统兴起两种态势。然而,其广泛应用与安全部署仍面临诸多阻碍,涵盖模型可靠性和稳定性、安全保障、资金与生态成本、隐私和数字主权、问责机制以及伦理道德等方面的问题。本文通过全面综述与分析,为探索未来研究方向、在人工智能与安全交叉领域构建有效保障机制提供参考。
链接:
https://arxiv.org/abs/2507.00829
4. ICLShield:探索和缓解上下文学习后门攻击
简介:上下文学习 (ICL) 因其适应性强且无需参数的特性,在大语言模型 (LLM) 中取得了显著成功。然而,它也带来了一个严重的后门攻击漏洞,攻击者只需对少量ICL演示进行毒害即可操纵LLM的行为。本文首次提出了双重学习假设,该假设认为LLM同时学习与任务相关的潜在概念和中毒演示中的后门潜在概念,共同影响模型输出的概率。通过理论分析,研究者推导出ICL后门效应的上限,表明该漏洞主要受任务和后门之间的概念偏好比的影响。基于这些发现,研究者提出了ICLShield,一种动态调整概念偏好比的防御机制。研究者的方法通过利用置信度和相似度得分,鼓励LLM在ICL阶段选择干净的演示,从而有效降低对后门攻击的敏感性。针对多个LLM和任务的大量实验表明,研究者的方法达到了最佳的防御效果,显著优于现有方法(平均提升26.02%)。此外,即使对于闭源模型(例如GPT-4),研究者的方法也展现出卓越的适应性和防御性能。
链接:
https://arxiv.org/abs/2507.01321
5. CyberRAG:智能体 RAG 网络攻击分类和报告工具
简介:大型企业中的入侵检测与防御系统 (IDS/IPS) 每小时可生成数十万条警报,安全分析师面对海量日志,这些日志需要深度且快速发展的领域专业知识。传统的机器学习检测器虽然能够减少警报量,但仍然会产生较高的误报率,而标准的单通道检索增强生成 (RAG) 流程通常会检索不相关的上下文,从而无法验证其预测的合理性。
为了克服这些缺陷,研究者提出了CyberRAG,这是一个基于智能体的模块化RAG框架,可为网络攻击提供实时分类、解释和结构化报告。中央LLM智能体负责协调 (i) 一组经过微调的专用分类器池,每个分类器都针对不同的攻击类型进行定制;(ii) 用于丰富和警报的工具适配器;以及 (iii) 一个迭代检索与推理循环,该循环不断查询特定领域的知识库,直到证据既相关又自洽。
与传统的RAG系统不同,CyberRAG采用智能体设计,支持动态控制流和自适应推理。这种以智能体为中心的架构能够自主优化其威胁标签和自然语言推理,从而减少误报并增强可解释性。该框架完全可扩展:只需添加分类器即可支持新的攻击类型,无需重新训练核心智能体。经评估,CyberRAG的每类准确率超过94%,并通过语义编排将最终分类准确率提升至94.92%。生成的解释在BERTScore中得分高达0.94,在基于GPT-4的专家评估中得分高达 4.9/5。这些结果表明,面向专家的智能体式RAG能够将高检测准确率与值得信赖、支持SOC的语句相结合,为实现半自主网络防御工作流程提供了一条实用且可扩展的途径。
链接:
https://arxiv.org/abs/2507.02424
6. Meta SecAlign:一个针对即时注入攻击的安全基础大语言模型
简介:即时注入攻击对集成LLM的应用程序构成了重大的安全威胁。模型级防御措施已展现出强大的有效性,但目前以闭源方式部署到商业级模型中。研究者相信,人工智能安全社区需要开源模型,通过开放研究共同开发攻击和防御措施,推动缓解即时注入攻击的科学进步。为此,研究者开发了Meta SecAlign,这是首个内置模型级防御措施的开源、开放权重LLM,其性能已达到商业级模型水平。研究者提供了完整的训练方案细节,该方案采用了SOTA SecAlign防御措施的改进版本。对9个实用程序基准测试和 7 个安全基准测试的评估表明,尽管Meta SecAlign是在通用指令调优数据集上训练的,但它能够在未知的下游任务中提供安全性,包括工具调用、智能体Web导航以及一般的指令跟踪。研究者最好的模型——Meta-SecAlign-70B——实现了对即时注入攻击的最先进的稳健性,并且具有与具有模型级防御的闭源商业LLM相当的实用性。
链接:
https://arxiv.org/abs/2507.02735
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...