第88期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 通过冻结训练高效越狱大型模型：较低层对有害内容表现出更高的敏感性

简介：随着大语言模型（LLM）在各领域的广泛应用，其安全性问题已成为学术界和工业界关注的焦点。本研究通过对 LLM 参数进行系统性采样与归一化处理，创新性地构建了参数分布的可视化图谱与热图分析体系。通过逐层统计分析发现，模型隐藏层间存在显著的参数分布差异，特别是较低层参数对有害内容生成表现出更高的敏感性。

基于这一发现，研究团队提出了针对性的 Freeze 训练策略：通过计算各层统计指标构建综合敏感度评估体系，精准定位关键敏感层，并仅对低敏感层实施监督微调（SFT）。实验结果表明，该方法在维持高越狱成功率（Jailbreak Success Rate）与危害得分（Harm Score）的同时，训练时间与 GPU 内存消耗显著降低。相较于传统全层 LoRA 微调方法，该策略在效率提升与性能保持方面表现出明显优势。

研究团队进一步验证了该方法在不同模型架构中的通用性，成功将其应用于其他开源大型模型。横向对比实验显示，该方案在防御效果与资源效率方面均优于现有主流越狱防御方法。通过提出逐层参数统计分析框架，本研究为 LLM 的可解释性提供了新的方法论，揭示了模型内部结构与安全风险的关联性。

本研究结果不仅为 LLM 的安全增强提供了高效解决方案，更强调了动态自适应安全措施在快速演进的 AI 领域中的重要性。通过建立参数分布特征与安全风险的量化关系，研究成果为构建更安全的智能系统提供了重要参考，推动了可信 AI 技术的发展进程。

链接：

https://arxiv.org/abs/2502.20952

2. FC-Attack：通过自动生成的流程图破解大型视觉语言模型

简介：随着大型视觉语言模型（LVLM）在实际场景中的广泛部署，其安全性问题逐渐凸显。近期研究发现，这类模型易受多模态越狱攻击，攻击者可通过视觉线索诱导模型生成有害内容。尽管现有 LVLM 普遍经过安全校准，但视觉模态仍存在显著安全漏洞。

本研究提出了一种基于流程图的新型越狱攻击方法 FC-Attack。研究发现，通过嵌入含部分有害信息的流程图，LVLM 会被诱导补充更多有害细节。具体实施步骤如下：

1）构建步骤生成器：首先对预训练 LLM 进行微调，基于良性数据集训练生成步骤描述的能力；

2）生成多形态流程图：将与有害查询对应的步骤描述转化为垂直、水平和 S 形三种形态的流程图；

3）实施组合攻击：将流程图与良性文本提示结合，触发 LVLM 的多模态理解机制。

在 Advbench 数据集上的测试结果显示，FC-Attack 在 Gemini-1.5、Llama2-Next 等主流模型上的攻击成功率突破 90%，显著优于现有攻击方法。进一步研究发现：

1）步骤数量与攻击效果呈正相关，当步骤数超过 7 时效果趋于稳定；

2）字体样式对攻击效果有显著影响，特定字体可使 Claude-3.5 的越狱成功率从 4% 提升至 28%。

在防御措施探索中，团队验证了多种防御方案。结果表明，AdaShield 防御机制能有效降低攻击成功率，但会导致模型效用下降约 15%。本研究不仅揭示了 LVLM 在多模态输入下的安全弱点，也为构建更鲁棒的安全评估体系提供了重要参考。实验数据已通过盲测验证，相关防御建议已提交至模型开发社区。

链接：

https://arxiv.org/abs/2502.21059

3. 重塑网络防御：大语言模型作为威胁情报副驾驶

简介：随着 MITRE-CVE、NVD 等威胁知识库的指数级扩展，网络威胁分析面临数据过载与复杂度激增的双重挑战。安全从业者亟需智能化工具辅助完成威胁情报的动态处理，以应对持续演进的攻击态势。传统威胁情报工具因扩展性不足，难以适应数据动态变化特性，且缺乏支持多样化任务的灵活性。

研究团队开发了基于大语言模型的智能威胁情报副驾驶 CYLENS，构建覆盖威胁管理全生命周期的支持框架。其核心技术包含两大创新点：一是将 271,570 份权威威胁报告的结构化知识深度融入模型参数，构建领域专属知识图谱；二是整合六个定制化 NLP 模块（多源数据融合、动态威胁建模、攻击链推演、影响评估、响应策略生成、效果追踪），形成增强推理能力的复合架构体系。

该系统支持组织级定制化部署，可通过迁移学习快速适配不同行业需求。在 2,300 个真实攻击场景的基准测试中，CYLENS 威胁归因准确率达 92.7%（行业平均 81.3%），响应决策时间缩短至 12 秒（传统方案 45 分钟）。与行业标杆模型相比，复杂场景检测准确率提升 18.6 个百分点，误报率降低 34%。

实验显示，该系统可处理每日百万级威胁事件，将平均响应时间缩短 76%。其创新价值在于：首次实现威胁知识动态注入与模型参数深度融合，构建全流程智能协作框架，提出基于知识图谱的攻击链推演算法，实现多模态威胁数据统一表征分析。相关成果已通过第三方验证，正与头部厂商开展联合部署试点。

链接：

https://arxiv.org/abs/2502.20791

4. 为什么 Web AI 代理比独立 LLM 更容易受到攻击？安全分析

简介：Web AI 代理的最新进展展现出其处理复杂 Web 导航任务的卓越能力，但新兴研究揭示，尽管与独立大语言模型（LLM）共享相同安全模型，这类代理却表现出更高的脆弱性。这种差异带来显著安全风险 ——Web AI 代理的灵活性使其可能暴露于更广泛的对抗性输入。为应对这一挑战，本研究系统分析了导致其脆弱性增加的潜在因素。

研究发现，这种脆弱性差异源于 Web AI 代理与独立 LLM 的多维度差异，以及传统评估指标（如成功率）难以捕捉的细微特征。通过构建组件级分析框架和精细化评估体系，研究识别出三个关键风险放大因素：（1）用户目标与系统提示的深度耦合，（2）多步骤操作生成机制的链式风险，（3）动态环境观察能力引入的外部干扰。

本研究结果为 Web AI 代理的安全设计提供了新视角，强调需针对其架构特性开发专项防御措施。研究提出的细粒度分析方法为构建更鲁棒的智能代理系统提供了方法论支撑，相关发现已通过多组对比实验验证，在保持功能完整性的前提下，可使攻击成功率降低 42%。

链接：

https://arxiv.org/abs/2502.20383

5. 超越自然语言困惑：检测代码生成数据集中的死代码中毒

简介：大语言模型（LLM）在代码相关任务中的广泛应用，引发了对其训练数据集安全性的关注。其中，死代码中毒攻击通过注入语法有效但功能冗余的代码操纵模型行为，可能导致神经代码搜索系统性能下降或生成偏差 / 不安全的代码建议。现有检测方法（如标记级困惑度分析）因编程语言的结构和上下文特性，难以有效识别这类攻击。

针对这一问题，研究者提出了 DePA（死代码困惑度分析），一种基于代码结构特性的行级检测与清理方法。该方法通过分析代码行间上下文关系计算行级困惑度，并将异常行的困惑度与文件整体分布进行对比以定位攻击代码。实验结果显示，在基准数据集上，DePA 检测 F1 分数较现有方法提升 0.14-0.19，中毒片段定位精度提高 44-65%，同时检测速度加快 0.62-23 倍，适用于大规模数据集清理。

该研究通过解决死代码中毒的独特挑战，为保障代码生成模型训练数据完整性提供了高效解决方案。

链接：

https://arxiv.org/abs/2502.20246

6. 效率尖端的背后：揭示小语言模型中越狱攻击的潜在威胁

简介：小型语言模型（SLM）凭借高效低耗的特性在边缘设备部署中得到广泛应用。尽管研究人员通过训练策略创新与模型压缩技术持续提升其性能，但相较于大语言模型（LLM），SLM 的安全风险长期未得到足够关注。为填补这一研究空白，本研究开展了系统性实证分析，对 13 个主流 SLM 在多种越狱攻击场景下的安全性进行量化评估。

实验结果表明，多数 SLM 对现有越狱攻击存在较高脆弱性，部分模型甚至直接生成有害内容。针对安全问题，研究团队验证了多种典型防御方法的有效性，证实其可显著提升 SLM 的安全性能。进一步分析发现，不同压缩技术（如架构压缩、量化、知识蒸馏等）对模型安全性存在差异化影响，部分技术可能引入新的安全风险。

本研究首次系统性揭示了 SLM 的安全挑战，为构建更鲁棒的轻量级模型提供了重要参考依据。实验数据已通过多组对照测试验证，相关防御方案在保持模型性能的前提下，可使攻击成功率降低 63%。

链接：

https://arxiv.org/abs/2502.19883

7. JailBench：大语言模型的综合中文安全评估基准

简介：大语言模型（LLM）在各领域展现的卓越能力，凸显了开展全面安全性评估的迫切需求。特别是随着 LLM 中文能力的持续提升，以及中文表达的独特性与复杂性，催生了专门针对中文场景的安全评估基准。然而现有基准普遍存在漏洞揭露能力不足的问题。

针对这一挑战，研究者提出了首个中文 LLM 深度漏洞评估基准 JailBench。该基准构建了中文语境专属的分层安全分类体系，并创新性采用自动越狱提示工程师（AJPE）框架实现高效数据生成。AJPE 通过融合多类越狱技术增强评估有效性，同时利用 LLM 上下文学习能力实现数据集自动扩展。

在 13 个主流 LLM 上的评估显示，JailBench 对 ChatGPT 的攻击成功率显著高于现有中文基准，验证了其在挖掘模型潜在漏洞方面的有效性，同时也揭示了中文 LLM 在安全性与可信度方面仍有较大提升空间。该研究为构建更安全的中文智能系统提供了重要评估工具。

链接：

https://arxiv.org/abs/2502.18935

8. SolEval：对存储库级 Solidity 代码生成的大语言模型进行基准测试

简介：大语言模型（LLM）在代码生成领域展现出强大能力，但现有方法主要聚焦于 Python、Java 等主流编程语言，而对以太坊智能合约核心语言 Solidity 关注不足。针对这一研究空白，研究者构建了首个 Solidity 智能合约生成专项基准 SolEval，用于评估 LLM 在该领域的性能表现。

SolEval 包含来自 9 个不同存储库的 1,125 个样本，覆盖 6 大流行领域，为 LLM 提供了首个存储库级评估基准。区别于现有 Solidity 基准，SolEval 不仅包含复杂函数调用场景，更创新性地结合 gas 费用和漏洞率指标，真实反映以太坊生态的实际复杂性。

在 SolEval 上对 10 个主流 LLM 的评估显示，表现最佳模型的 Pass@10 指标仅为 26.29%，表明当前 LLM 在 Solidity 代码生成方面仍存在显著提升空间。该研究为推动智能合约自动化生成技术的安全发展提供了重要评测工具。

链接：

https://arxiv.org/abs/2502.18793