清华大学NASP实验室在网络空间安全领域的大语言模型评测方向的研究成果,被IEEE S&P 2025录用。论文第一作者是中关村实验室王大为博士,论文完成单位包括中关村实验室、清华大学。论文提出了一种基于认知科学的大语言模型安全知识评测框架CSEBenchmark。
1. 首个安全专家知识模型,涵盖345个细分知识点,并按认知科学分类以区分掌握程度。
2. 发现GPT-4o/Deepseek等主流大模型在专业工具使用等方面存在知识盲区。
3. 发现主流大模型对某些知识点的掌握程度甚至不如小模型。
4. 针对性修复知识盲区后,大模型的安全任务性能提升高达84%。
CSEBenchmark评测框架以知名网络安全专家的路线图为蓝本,构建了包含345个细粒度知识点的网络安全专家知识模型,并依据认知科学理论,将这些知识点细分为事实性知识、概念性知识和操作性知识三大类别,从而根据不同知识点的掌握程度要求,实现对安全知识的全面且精准评测。运用该框架对12个主流大语言模型进行评估后发现,表现最优的闭源模型(GPT-4o)与开源模型(Deepseek-V3)整体准确率仅为85.42%与84.92%,且在专业工具使用和冷门命令掌握方面存在明显知识盲区。值得注意的是,饱受关注的推理模型Deepseek-R1(80.62%)并没有在知识任务上取得亮眼表现,甚至远弱于其基座模型Deepseek-V3(84.92%)。同时,不同模型各自呈现出独特的知识薄弱点,某些知识点上甚至出现大模型性能不如小模型的情况。通过针对性地修复这些知识盲区,该研究在漏洞检测与威胁情报分析任务的三个第三方数据集上显著提升了大语言模型的性能,性能提升幅度高达84%。
论文题目:The Digital Cybersecurity Expert: How Far Have We Come?
作者列表:Dawei Wang, Geng Zhou, Xianglong Li, Yu Bai, Li Chen, Ting Qin, Jian Sun, Dan Li
会议名称:IEEE S&P 2025
开源链接:https://github.com/NASP-THU/CSEBenchmark
随着大语言模型(LLMs)的快速发展,“数字化网络安全专家”的概念逐渐受到关注。得益于这些模型日益增强的能力,人们开始探索它们在网络安全领域中辅助甚至替代人类专家的可能性。如今,业界已经开始尝试将LLMs应用于实际安全场景中,这些进展带来了一个关键问题:我们距离实现真正意义上的“数字网络安全专家”还有多远?回答这个问题对于理解当前LLMs在网络安全领域的能力与局限性至关重要,同时也对该领域的未来发展具有重要意义。随着越来越多的组织依赖这些模型来辅助或替代人类专家,我们必须深入了解它们的优劣势,以确保LLMs在网络安全岗位上的高效与负责任的部署。
近期已有一些研究尝试评估LLMs在网络安全方面的能力,主要聚焦于两个方向:一是模型在具体安全任务中的表现,二是其对网络安全知识的理解。这些研究揭示了LLMs在网络安全应用中的一些局限性,同时也为学术界和工业界提供了有价值的启示。然而,现有工作在全面评估LLMs网络安全知识方面仍存在以下不足:
1. 缺乏全面的网络安全知识框架:目前的评估方法往往只关注某些具体技能或任务,而忽略了对“网络安全专家应掌握哪些知识”这一根本问题的回答。因此,评估内容缺乏系统性与全面性,某些知识领域被过度强调,而其他同样重要的领域则被忽视,导致评估结果片面、不平衡。
2. 无法识别LLMs的具体知识盲区:现有基于知识的评估多为粗粒度,难以判断模型在具体知识点上的掌握情况,也难以揭示其真正的知识短板。尽管部分研究尝试将网络安全划分为不同子领域,但这些分类在实际评估中仍不够细致,难以为模型改进提供有针对性的建议。在基于任务的评估中,虽然能观察到模型在某些任务上的失败,但由于缺乏对任务所需知识的明确定义,难以找出失败的具体原因。这表明我们亟需更精细的评估数据集,以获取可操作的改进方向。
3. 问题设计与知识掌握要求不匹配:不同类型的网络安全知识点对应着不同层次的掌握要求。例如,HTTP 状态码只需记忆即可,而 SSL 则要求理解其内部机制,Wireshark 更需要实际操作能力。因此,每种知识类型应采用不同的评估方式。但现有评估常采用统一的问题设计,忽略了知识掌握层次的差异,造成部分内容被过度评估,而另一部分则评估不足,难以真实反映LLMs在不同类型知识上的掌握情况。
针对上述挑战,本文设计了一种基于认知科学的网络安全细粒度知识评估框架——CSEBenchmark。该框架采用单选题的形式对大语言模型进行评估。其构建流程如图1所示。
图1 CSEBenchmark构建流程图
知识模型构建:为系统性地评估大语言模型在网络安全领域的知识掌握情况,本文首先依据主流网络安全专家路线图构建统一的知识模型,这些路线图标注了网络安全专家应具备的详细知识点。通过对路线图内容的深入解析与整合,本文构建了一个包含七个子领域的分层知识树:基础IT技能(FIS)、操作系统(OS)、网络知识(NK)、Web知识(WK)、安全技能与知识(SSK)、云技能与知识(CSK)和编程技能与知识(PSK)。该知识树共包含345个叶子节点,每个节点代表一个细粒度的知识点。
知识标注与分类:为了进一步提升知识模型的实用性与评估精度,本文引入了认知科学中的知识分类理论,对每个知识点进行了知识类型标注。具体分为三类:事实性知识(Factual),指需记忆的静态信息,如协议端口号、安全工具名称等;概念性知识(Conceptual),指需理解的原理性内容,如加密机制、访问控制模型等;程序性知识(Procedural),指需实际操作掌握的技能,如使用Nmap扫描端口、编写攻击脚本等。最终,共获得121个事实性知识点、136个概念性知识点以及88个程序性知识点。
最终构建完成的 CSEBenchmark 数据集共包含 11,050 道高质量的多项选择题,覆盖七个知识子领域。各类题型与数量的分布如表1所示。
表1 知识点与题目分布
本文共选取了12个最先进的大语言模型进行评估,如表2所示。所选模型涵盖了当前主流的开源模型与多个闭源商用模型,参数规模从3B到671B不等,能够全面反映不同规模模型在网络安全知识掌握方面的能力。
表2 评测模型信息
评测方法:为降低大语言模型输出中的随机性对评估结果的影响,本文对每道题进行5次独立推理,只有在5次推理结果均正确的情况下,才将该题视为模型答对。此外,为消除模型可能对特定选项(如A、B、C、D)存在的偏好,本文对每道题的正确答案在四个选项中进行系统性轮换,并分别评估每种排列组合的表现。仅当模型在所有四种排列中均作出正确回答时,才认为其真正掌握了该知识点,从而避免“蒙对”带来的误判。同时,本文使用了xFinder-llama38it进行答案提取,该模型在泛化测试集上达到了95.47%的识别准确率,保障了本研究所采用评估流程的有效性与可靠性。
评测结果如表3所示。总体来看,GPT-4o以85.42%的准确率排名第一,其次是Deepseek-V3(84.92%)和Qwen-2.5-72B(84.40%),三者之间的差距不足1.2%。值得注意的是,GPT-4o不仅准确率领先,其使用成本仅为GPT-4-Turbo的30%,在闭源模型中展现出极高的性价比,适合用于网络安全专家场景。Deepseek-V3作为开源模型中表现最好的模型,与GPT-4o的差距非常小,且具有更强的可扩展性和实际应用价值。尽管Qwen-2.5-72B的准确率略低于Deepseek-V3(差距为0.6%),但其模型规模仅为72B,相比后者的671B,成本更低、部署更轻量,因而更具现实意义。此外,本文也观察到,尽管Deepseek-R1具有较强的推理能力,但在网络安全知识评估任务中并未展现出优势,其准确率甚至低于训练基础模型Deepseek-V3。这表明,在知识密集型任务中,推理能力的提升未必能够弥补对知识的精准记忆和检索能力的不足,反而可能因过度推理带来信息偏差或误判。
表3 评测结果
在所有子领域中,GPT-4o在操作系统(OS,82.67%)、Web知识(WK,86.15%)、安全技能(SSK,80.26%)、云安全(CSK,97.26%)和编程技能(PSK,89.04%)五个领域中表现最优;而Deepseek-V3在CSK(97.72%)和PSK(89.87%)两个领域中略胜一筹;Qwen-2.5-72B则在基础IT技能(FIS,96.27%)和网络知识(NK,92.58%)方面排名第一。整体看来,在FIS、NK和CSK三个子领域中,顶尖模型的准确率已突破90%,说明它们在这些领域的知识掌握已接近人类专家水平。
图2 子领域准确率箱型图
图2展示了各子领域下各模型准确率的箱线图。在FIS与CSK两个领域中,所有模型的准确率均在80%以上,中位数达91%,表明主流LLM在这些基础与云安全领域整体表现良好,接近专家水平。而在NK领域,模型表现差异较大,最低仅71%,中位数为88%;虽然表现最好的模型准确率超过90%,但多数模型在知识覆盖上仍有明显提升空间。在OS、WK、SSK与PSK四个子领域中,各模型的准确率波动更为显著,最低准确率甚至低于51%,中位数略高于72%,反映出当前LLM在这些相对复杂或实践性更强的子领域仍存在明显知识短板。
本文还对测试的LLM在三类知识类别中的准确率进行了评估,结果如图 3所示。GPT-4o在所有三类知识中均表现最佳,准确率分别为94.85%、94.84%和81.83%,其他模型的排名与其整体表现大致一致。在事实性知识(Factual)和概念性知识(Conceptual)类别中,LLM的准确率相对集中,几乎所有模型的准确率都接近80%,中位数接近92%,表明LLM在掌握这些知识类型上表现优异。这可能是因为事实性和概念性知识通常以直接陈述或解释的形式出现在训练语料中,使得模型能更有效地从上下文中提取和保留信息。相比之下,程序性知识(Procedural)的准确率显著下降,最低仅为43.09%,中位数为71.86%。这种差异可能是因为LLM的预训练并未专门强化现实世界中的网络安全操作或程序性任务,这使得模型难以仅凭语料库深入理解并灵活应用复杂操作。鉴于网络安全领域对实际操作技能的高度依赖,这一限制对LLM成为网络安全专家构成了重大障碍。
图3 知识类型准确率箱型图
本文对LLM在345个知识点上的表现进行了细粒度评估,结果以热图的形式展示在图4中。在该热图中,每一行代表不同LLM在同一知识点上的准确率,而每一列则展示同一LLM在多个知识点上的表现,从左到右分别为GPT-4o, Deepseek-V3, Qwen-2.5-72B, GPT-4-Turbo, Deepseek-R1, Llama-3.1-70B, Qwen-2.5-7B, Mixtral-8x7B, GPT-3.5-Turbo, Llama-3.1-8B, Qwen-2.5-3B, Llama-3.2-3B。在这345个知识点中,某些LLM在276个知识点上的准确率超过了90%,说明它们在这些领域接近专家级别的知识水平。然而,LLM在剩余的69个知识点上仍存在明显的知识差距。有40个的最高准确率在80%至90%之间,表明模型对这些内容有部分掌握,但尚未完全理解。与此同时,还有29个知识点的所有模型准确率均低于80%,显示出更大的改进空间。这些知识点主要涉及大量网络安全与数字取证工具的操作使用(如Autopsy),与常见命令如cat、grep相比,这些工具更加专业,应用场景更为复杂和特殊,因而在预训练语料中出现频率较低,导致LLMs难以有效学习和掌握这些操作流程,成为模型能力进一步提升的瓶颈。具体模型盲区分析可参考论文原文。
图4 被测模型在345个知识点上的准确率热力图
本文观察到同一系列中不同规模的LLM在知识盲区方面也存在差异,这表明小模型的知识盲区并非仅是大模型盲区的子集。事实上,大模型在某些小模型表现良好的知识点上反而可能出现失误。例如,Llama-3.1-70B在使用 tcpdump 这一知识点上的表现不如Llama-3.1-8B,后者在该题上达到了100%的准确率。这一现象说明,在选择LLM时,不能仅依据模型规模来判断其适用性,而应结合具体任务与知识盲区分布,做出更有针对性的模型选择。
表4 知识盲区修复前后错误实例数
在利用CSEBenchmark识别出各大语言模型的知识盲区后,本文尝试基于这些盲区提升模型在实际任务中的表现。首先,本文在三个第三方数据集上对四个原始模型进行初始评估,记录每个模型的错误预测实例。接着从CSEBenchmark中提取每个模型准确率低于90%的知识点作为知识盲区,并将其相关的问题-答案对以RAG的方式作为补全内容提供给模型,重新对错误样本进行推理。模型修正错误的比例即为知识补全带来的性能提升。表4的结果表明,知识注入后所有模型在三个任务数据集上的表现均有提升,最大提升幅度达 84%,验证了 CSEBenchmark 所识别知识盲区在提升模型性能方面的实际价值。值得一提的是,本研究中采用的 RAG 方法实现较为简单,若在未来进一步优化其设计和策略,有望进一步提升 LLM 的实际应用能力。
图5 被测模型在6个现实安全岗位的知识匹配热力图
尽管本研究对所选LLM在CSEBenchmark的345个知识点上进行了系统评估,但现实中的网络安全岗位并不要求掌握所有这些知识点(尽管覆盖越广越好)。为了评估各LLM在实际岗位需求中的匹配程度,本文收集了来自亚马逊、谷歌和微软等公司的真实岗位招聘信息,并根据职位描述将其需求手动映射至CSEBenchmark中的相关知识点。通过将每个岗位对应的知识点准确率加权计算,得出该模型在对应岗位上的知识匹配度得分,结果如图5所示。从结果来看,各模型在岗位匹配度上的排名与其在CSEBenchmark中的整体表现高度一致。值得注意的是,即便是排名最靠前的模型,在所有岗位上的知识匹配度均未超过90%,这表明当前LLM尚未完全满足真实网络安全岗位的知识需求,仍需进一步增强对实际岗位能力结构的覆盖与理解。此外,本文根据各职位的招聘描述,将所需能力划分为若干核心能力类别,并使用雷达图(如图6所示)直观呈现LLM在各岗位上的当前能力缺口。这些结果清晰地揭示了当前LLM在实际岗位能力结构中的薄弱环节,为未来的模型优化与定向训练提供了重要参考。
图6 被测模型与六个网络安全岗位的匹配雷达图
展望未来,CSEBenchmark 有望在更多网络安全应用场景中发挥作用。当前框架已覆盖七大核心子领域的345个细粒度知识点,为评估LLM的安全知识掌握能力提供了系统化基础。未来,本文团队计划进一步拓展知识点范围,涵盖如硬件安全、移动安全等更具专业性的方向,以适应不断演进的行业需求。借助持续更新的知识库与更丰富的材料支持,该基准有望成为推动数字安全专家智能化发展的关键工具,助力提升LLM在实际安全环境中的可用性与可信度。
· end ·
来源 | NASP网络实验室
责任编辑 | 赫敏
声明:本文由工业安全产业联盟平台微信公众号(微信号:ICSISIA)转发,如有版权问题,请联系删除。
如需合作或咨询,请联系工业安全产业联盟平台小秘书微信号:ICSISIA20140417
往期荐读
重磅 |
2025两会必看丨
工信部丨
干货丨
DeepSeek分析丨
白皮书丨
荐读丨
干货丨
荐读 |
工信部丨
关注丨
电力安全|
工信部等十三部门丨
关注丨
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...