第112期 | GPTSecurity周报 - 新鲜讯息

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 使用 LLM 预测网络安全漏洞影响的系统方法

简介：漏洞数据库（如国家漏洞数据库 NVD）虽提供常见漏洞和暴露（CVE）的详细描述，但往往缺乏其实际影响相关信息，例如攻击者可能用于利用漏洞的策略、技术与程序（TTP）。手动将 CVE 与对应 TTP 关联是艰巨且耗时的任务，而每年大量新漏洞的发布，使得自动化支持变得必不可少。

本文介绍了一种双管齐下的自动化方法 TRIAGE，它利用大型语言模型（LLM）将 CVE 映射到 ATT&CK 知识库中的相关技术。研究者首先依据 MITRE 的 CVE 映射方法向 LLM 下达指令，预测初始技术列表；随后将该列表与第二个基于 LLM 的模块结果相结合，此模块通过上下文学习实现 CVE 与相关技术的映射。这种混合方法战略性融合了基于规则的推理与数据驱动的推理。

评估结果显示，上下文学习的效果优于单独的映射方法，而混合方法则提升了漏洞利用技术的召回率；同时发现，GPT-4o-mini 在此任务上的表现优于 Llama3.3-70B。总体而言，研究结果表明，LLM 可用于自动预测网络安全漏洞的影响，而 TRIAGE 则让 CVE 到 ATT&CK 的映射过程更高效。

链接：

https://arxiv.org/abs/2508.18439

2. 协作智能：大语言模型在实时网络安全行动中的主题建模

简介：本研究旨在描述安全运营中心（SOC）在实际安全运营过程中，运用大语言模型（LLM）开展主题建模的具体情况，核心目标是深入了解 SOC 专家群体如何主动使用该工具以辅助工作。

在研究背景方面，人机协作团队的相关课题已得到广泛研究，而基于 Transformer 架构的语言模型则掀起了新一轮人机协作浪潮。当前，某大型网络安全提供商的 SOC 人员已将 LLM 应用于实际安全运营场景，本研究正是围绕这些专家如何将 LLM 融入日常工作流程展开探索。

研究方法上，数据集来源于 SOC 操作员在 10 个月内，通过内部部署的 HTTP 协议聊天应用程序访问 GPT-4 所产生的交互记录。基于该数据集，研究团队开展了两次主题建模实践：第一次采用已相对成熟的 BERTopic 模型（Grootendorst, 2022），第二次则运用了一种创新性的主题建模工作流程。

从研究结果来看，无论是 BERTopic 模型分析，还是新颖的建模方法，均显示出一致结论：SOC 操作员使用 LLM 的核心场景是辅助自身理解复杂文本字符串，这一用例及其变体在 SOC 的 LLM 总使用量中占比约 40%。

据此可得出研究结论：SOC 操作员在工作中需快速解读复杂命令及同类信息，而他们会自然倾向于借助 LLM 支持这项关键任务。这一发现表明，通过设计面向 SOC 场景的协作式 LLM 工具，能够有效支持并进一步优化 SOC 人员的工作流程。

在实际应用层面，本研究成果可为安全运营中心下一代工具的研发提供重要参考。通过明确 LLM 在 SOC 中的常见用例，研发者可针对性开发契合 SOC 任务流的功能，例如在 SOC 操作环境中设置右键单击上下文菜单，支持用户直接调用 LLM 进行命令行分析。

链接：

https://arxiv.org/abs/2508.18488

3. FALCON：利用 LLM 进行自主网络威胁情报挖掘，用于 IDS 规则生成

简介：基于签名的入侵检测系统 (IDS) 通过将网络或主机活动与预定义规则进行匹配来检测恶意活动。这些规则源自广泛的网络威胁情报 (CTI)，其中包括通过自动化工具和手动威胁分析（例如沙盒）获得的攻击签名和行为模式。CTI 随后被转换为 IDS 引擎可操作的规则，从而实现实时检测和预防。然而，网络威胁的不断演变需要频繁更新规则，这会延迟部署时间并削弱整体安全准备度。基于大语言模型 (LLM) 的代理系统的最新进展为自主生成具有内部评估的 IDS 规则提供了潜力。研究者引入了 FALCON，这是一个自主代理框架，它可以根据 CTI 数据实时生成可部署的 IDS 规则，并使用内置的多阶段验证器对其进行评估。为了展示其多功能性，研究者以网络（Snort）和基于主机（YARA）的介质为目标，构建了一个包含 IDS 规则及其对应 CTI 的综合数据集。研究者的评估表明，FALCON 在自动规则生成方面表现出色，经定性评估验证，其平均准确率高达 95%，多名网络安全分析师在所有指标上的评分一致性达到 84%。这些结果凸显了 LLM 驱动的数据挖掘在实时网络威胁缓解方面的可行性和有效性。

链接：

https://arxiv.org/abs/2508.18684

4. 基于LLM的数据重建的双刃剑：理解和缓解词级差异隐私文本清理中的上下文漏洞

简介：差分隐私文本净化，指在差分隐私（DP）框架下对文本实施隐私保护的过程，它既能提供可证明的隐私保障，又可通过实证研究抵御隐私侵犯行为。尽管 DP 文本净化方法操作简便，但在词级操作中仍存缺陷，例如净化过程的随机化易留存原始文本的上下文线索，研究者将此现象称为 “contextual vulnerability”（上下文漏洞）。鉴于大语言模型（LLM）具备强大的上下文理解与推理能力，本研究探索了利用 LLM 挖掘 DP 净化文本上下文漏洞的可行性。研究不仅在高级 LLM 的应用层面拓展了现有成果，还在不同隐私级别下测试了更广泛的净化机制。实验结果表明，基于 LLM 的数据重建攻击对隐私与实用性存在 “双刃剑” 效应：一方面，LLM 确实能推断原始语义，有时会削弱实证隐私保护效果；另一方面，它也可发挥积极作用，提升 DP 净化文本的质量与隐私安全性。基于上述发现，研究者建议将 LLM 数据重建作为后处理步骤，通过对抗性思维进一步强化隐私保护。

链接：

https://arxiv.org/abs/2508.18976

5. CyberSleuth：用于 Web 攻击取证的自主蓝队 LLM 代理

简介：大语言模型（LLM）代理是自动化复杂任务的强大工具。在网络安全领域，研究人员多聚焦于其在红队行动（如漏洞发现、渗透测试）中的应用，而在事件响应与取证这类防御性场景的应用，却较少受到关注且仍处于早期阶段。本研究系统探究了面向现实 Web 应用程序攻击取证调查的 LLM 代理设计，提出自主代理 CyberSleuth—— 它可处理数据包级跟踪与应用程序日志，以识别目标服务、被利用的漏洞（CVE）及攻击成功率。研究者评估了核心设计决策（包括工具集成与代理架构）的影响，为从业者提供可解释的指导；同时在 20 个复杂程度递增的事件场景中，对四种代理架构与六种 LLM 后端开展基准测试，结果显示 CyberSleuth 是性能最优的设计。在 2025 年发生的 10 起事件中，CyberSleuth 在 80% 的案例里能准确识别 CVE。此外，研究者还与 22 位专家开展人工测试，专家对 CyberSleuth 报告的完整性、实用性与连贯性进行评级，且表示略微偏爱 DeepSeek R1—— 这对开源 LLM 而言是积极信号。为推动防御性 LLM 研究发展，研究者发布了基准测试与 CyberSleuth 平台，作为对取证代理进行公平、可重复评估的基础。

链接：

https://arxiv.org/abs/2508.20643

6. RepoMark：面向代码大语言模型的代码使用情况审计框架

简介：用于代码生成的大语言模型（LLM）发展迅速，以前所未有的效率实现了编码任务自动化，深刻改变了软件开发模式。

然而，这类模型多在 GitHub 等开源代码库上训练，这引发了严重的伦理与法律问题，尤其体现在数据授权和开源许可证合规性方面。开发人员愈发质疑：模型训练者在使用代码库训练前是否获得恰当授权，尤其是在数据收集缺乏透明度的情况下。

为解决这些问题，研究者提出新颖的数据标记框架 RepoMark，用于审核代码 LLM 的数据使用情况。该方法既让代码库所有者能验证自身代码是否被用于训练，又可确保语义保存、不可感知性及理论上的错误检测率（FDR）。RepoMark 通过生成多个语义等效的代码变体，将数据标记嵌入代码文件；检测阶段则借助新颖的基于排名的假设检验，识别模型中的记忆行为。相较于以往数据审计方法，RepoMark 的样本效率显著提升 —— 即使用户存储库仅包含少量代码文件，也能实现有效审计。

实验显示，在严格保证 5% 误报率（FDR）的前提下，RepoMark 对小型代码存储库的检测成功率超 90%。这相较现有数据标记技术有显著进步，后者在相同设置下准确率均低于 55%。这一结果进一步证明，RepoMark 是稳健、理论完善且前景广阔的解决方案，能提升代码 LLM 训练的透明度，进而维护存储库所有者的权益。

链接：

https://arxiv.org/abs/2508.21432

7. SoK：大语言模型生成的文本网络钓鱼活动的生成、特征和检测的端到端分析

简介：网络钓鱼是一种常见的社会工程学攻击手段，攻击者通过冒充可信实体，窃取目标信息或诱导其执行恶意行为。其中，基于文本的网络钓鱼凭借低成本、高扩展性及强隐蔽性占据主导地位，而大语言模型（LLM）的优势进一步放大了这一威胁 —— 借助 LLM，攻击者可在几分钟内发起大规模 “网络钓鱼即服务” 攻击。

尽管针对 LLM 辅助网络钓鱼攻击的研究不断增多，但关于网络钓鱼攻击生命周期的系统性综合研究仍较为匮乏。为此，本文首次提出 LLM 生成式网络钓鱼的知识系统化（SoK）研究，提供涵盖生成技术、攻击特征与缓解策略的端到端分析。研究者引入 “生成 - 特征 - 防御（GenCharDef）” 模型，从方法论、安全视角、数据依赖关系及评估实践四个维度，系统阐述 LLM 生成式网络钓鱼与传统网络钓鱼的差异。该框架明确了 LLM 驱动型网络钓鱼的独特挑战，为理解不断演变的威胁态势、指导设计更具韧性的防御措施提供了连贯的理论基础。

链接：

https://arxiv.org/abs/2508.21457

-End-