GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. 使用 LLM 预测网络安全漏洞影响的系统方法
简介:漏洞数据库(如国家漏洞数据库 NVD)虽提供常见漏洞和暴露(CVE)的详细描述,但往往缺乏其实际影响相关信息,例如攻击者可能用于利用漏洞的策略、技术与程序(TTP)。手动将 CVE 与对应 TTP 关联是艰巨且耗时的任务,而每年大量新漏洞的发布,使得自动化支持变得必不可少。
本文介绍了一种双管齐下的自动化方法 TRIAGE,它利用大型语言模型(LLM)将 CVE 映射到 ATT&CK 知识库中的相关技术。研究者首先依据 MITRE 的 CVE 映射方法向 LLM 下达指令,预测初始技术列表;随后将该列表与第二个基于 LLM 的模块结果相结合,此模块通过上下文学习实现 CVE 与相关技术的映射。这种混合方法战略性融合了基于规则的推理与数据驱动的推理。
评估结果显示,上下文学习的效果优于单独的映射方法,而混合方法则提升了漏洞利用技术的召回率;同时发现,GPT-4o-mini 在此任务上的表现优于 Llama3.3-70B。总体而言,研究结果表明,LLM 可用于自动预测网络安全漏洞的影响,而 TRIAGE 则让 CVE 到 ATT&CK 的映射过程更高效。
链接:
https://arxiv.org/abs/2508.18439
2. 协作智能:大语言模型在实时网络安全行动中的主题建模
简介:本研究旨在描述安全运营中心(SOC)在实际安全运营过程中,运用大语言模型(LLM)开展主题建模的具体情况,核心目标是深入了解 SOC 专家群体如何主动使用该工具以辅助工作。
在研究背景方面,人机协作团队的相关课题已得到广泛研究,而基于 Transformer 架构的语言模型则掀起了新一轮人机协作浪潮。当前,某大型网络安全提供商的 SOC 人员已将 LLM 应用于实际安全运营场景,本研究正是围绕这些专家如何将 LLM 融入日常工作流程展开探索。
研究方法上,数据集来源于 SOC 操作员在 10 个月内,通过内部部署的 HTTP 协议聊天应用程序访问 GPT-4 所产生的交互记录。基于该数据集,研究团队开展了两次主题建模实践:第一次采用已相对成熟的 BERTopic 模型(Grootendorst, 2022),第二次则运用了一种创新性的主题建模工作流程。
从研究结果来看,无论是 BERTopic 模型分析,还是新颖的建模方法,均显示出一致结论:SOC 操作员使用 LLM 的核心场景是辅助自身理解复杂文本字符串,这一用例及其变体在 SOC 的 LLM 总使用量中占比约 40%。
据此可得出研究结论:SOC 操作员在工作中需快速解读复杂命令及同类信息,而他们会自然倾向于借助 LLM 支持这项关键任务。这一发现表明,通过设计面向 SOC 场景的协作式 LLM 工具,能够有效支持并进一步优化 SOC 人员的工作流程。
在实际应用层面,本研究成果可为安全运营中心下一代工具的研发提供重要参考。通过明确 LLM 在 SOC 中的常见用例,研发者可针对性开发契合 SOC 任务流的功能,例如在 SOC 操作环境中设置右键单击上下文菜单,支持用户直接调用 LLM 进行命令行分析。
链接:
https://arxiv.org/abs/2508.18488
3. FALCON:利用 LLM 进行自主网络威胁情报挖掘,用于 IDS 规则生成
简介:基于签名的入侵检测系统 (IDS) 通过将网络或主机活动与预定义规则进行匹配来检测恶意活动。这些规则源自广泛的网络威胁情报 (CTI),其中包括通过自动化工具和手动威胁分析(例如沙盒)获得的攻击签名和行为模式。CTI 随后被转换为 IDS 引擎可操作的规则,从而实现实时检测和预防。然而,网络威胁的不断演变需要频繁更新规则,这会延迟部署时间并削弱整体安全准备度。基于大语言模型 (LLM) 的代理系统的最新进展为自主生成具有内部评估的 IDS 规则提供了潜力。研究者引入了 FALCON,这是一个自主代理框架,它可以根据 CTI 数据实时生成可部署的 IDS 规则,并使用内置的多阶段验证器对其进行评估。为了展示其多功能性,研究者以网络(Snort)和基于主机(YARA)的介质为目标,构建了一个包含 IDS 规则及其对应 CTI 的综合数据集。研究者的评估表明,FALCON 在自动规则生成方面表现出色,经定性评估验证,其平均准确率高达 95%,多名网络安全分析师在所有指标上的评分一致性达到 84%。这些结果凸显了 LLM 驱动的数据挖掘在实时网络威胁缓解方面的可行性和有效性。
链接:
https://arxiv.org/abs/2508.18684
4. 基于LLM的数据重建的双刃剑:理解和缓解词级差异隐私文本清理中的上下文漏洞
简介:差分隐私文本净化,指在差分隐私(DP)框架下对文本实施隐私保护的过程,它既能提供可证明的隐私保障,又可通过实证研究抵御隐私侵犯行为。尽管 DP 文本净化方法操作简便,但在词级操作中仍存缺陷,例如净化过程的随机化易留存原始文本的上下文线索,研究者将此现象称为 “contextual vulnerability”(上下文漏洞)。鉴于大语言模型(LLM)具备强大的上下文理解与推理能力,本研究探索了利用 LLM 挖掘 DP 净化文本上下文漏洞的可行性。研究不仅在高级 LLM 的应用层面拓展了现有成果,还在不同隐私级别下测试了更广泛的净化机制。实验结果表明,基于 LLM 的数据重建攻击对隐私与实用性存在 “双刃剑” 效应:一方面,LLM 确实能推断原始语义,有时会削弱实证隐私保护效果;另一方面,它也可发挥积极作用,提升 DP 净化文本的质量与隐私安全性。基于上述发现,研究者建议将 LLM 数据重建作为后处理步骤,通过对抗性思维进一步强化隐私保护。
链接:
https://arxiv.org/abs/2508.18976
5. CyberSleuth:用于 Web 攻击取证的自主蓝队 LLM 代理
简介:大语言模型(LLM)代理是自动化复杂任务的强大工具。在网络安全领域,研究人员多聚焦于其在红队行动(如漏洞发现、渗透测试)中的应用,而在事件响应与取证这类防御性场景的应用,却较少受到关注且仍处于早期阶段。本研究系统探究了面向现实 Web 应用程序攻击取证调查的 LLM 代理设计,提出自主代理 CyberSleuth—— 它可处理数据包级跟踪与应用程序日志,以识别目标服务、被利用的漏洞(CVE)及攻击成功率。研究者评估了核心设计决策(包括工具集成与代理架构)的影响,为从业者提供可解释的指导;同时在 20 个复杂程度递增的事件场景中,对四种代理架构与六种 LLM 后端开展基准测试,结果显示 CyberSleuth 是性能最优的设计。在 2025 年发生的 10 起事件中,CyberSleuth 在 80% 的案例里能准确识别 CVE。此外,研究者还与 22 位专家开展人工测试,专家对 CyberSleuth 报告的完整性、实用性与连贯性进行评级,且表示略微偏爱 DeepSeek R1—— 这对开源 LLM 而言是积极信号。为推动防御性 LLM 研究发展,研究者发布了基准测试与 CyberSleuth 平台,作为对取证代理进行公平、可重复评估的基础。
链接:
https://arxiv.org/abs/2508.20643
6. RepoMark:面向代码大语言模型的代码使用情况审计框架
简介:用于代码生成的大语言模型(LLM)发展迅速,以前所未有的效率实现了编码任务自动化,深刻改变了软件开发模式。
然而,这类模型多在 GitHub 等开源代码库上训练,这引发了严重的伦理与法律问题,尤其体现在数据授权和开源许可证合规性方面。开发人员愈发质疑:模型训练者在使用代码库训练前是否获得恰当授权,尤其是在数据收集缺乏透明度的情况下。
为解决这些问题,研究者提出新颖的数据标记框架 RepoMark,用于审核代码 LLM 的数据使用情况。该方法既让代码库所有者能验证自身代码是否被用于训练,又可确保语义保存、不可感知性及理论上的错误检测率(FDR)。RepoMark 通过生成多个语义等效的代码变体,将数据标记嵌入代码文件;检测阶段则借助新颖的基于排名的假设检验,识别模型中的记忆行为。相较于以往数据审计方法,RepoMark 的样本效率显著提升 —— 即使用户存储库仅包含少量代码文件,也能实现有效审计。
实验显示,在严格保证 5% 误报率(FDR)的前提下,RepoMark 对小型代码存储库的检测成功率超 90%。这相较现有数据标记技术有显著进步,后者在相同设置下准确率均低于 55%。这一结果进一步证明,RepoMark 是稳健、理论完善且前景广阔的解决方案,能提升代码 LLM 训练的透明度,进而维护存储库所有者的权益。
链接:
https://arxiv.org/abs/2508.21432
7. SoK:大语言模型生成的文本网络钓鱼活动的生成、特征和检测的端到端分析
简介:网络钓鱼是一种常见的社会工程学攻击手段,攻击者通过冒充可信实体,窃取目标信息或诱导其执行恶意行为。其中,基于文本的网络钓鱼凭借低成本、高扩展性及强隐蔽性占据主导地位,而大语言模型(LLM)的优势进一步放大了这一威胁 —— 借助 LLM,攻击者可在几分钟内发起大规模 “网络钓鱼即服务” 攻击。
尽管针对 LLM 辅助网络钓鱼攻击的研究不断增多,但关于网络钓鱼攻击生命周期的系统性综合研究仍较为匮乏。为此,本文首次提出 LLM 生成式网络钓鱼的知识系统化(SoK)研究,提供涵盖生成技术、攻击特征与缓解策略的端到端分析。研究者引入 “生成 - 特征 - 防御(GenCharDef)” 模型,从方法论、安全视角、数据依赖关系及评估实践四个维度,系统阐述 LLM 生成式网络钓鱼与传统网络钓鱼的差异。该框架明确了 LLM 驱动型网络钓鱼的独特挑战,为理解不断演变的威胁态势、指导设计更具韧性的防御措施提供了连贯的理论基础。
链接:
https://arxiv.org/abs/2508.21457
-End-
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...