终于有人把安全知识图谱技术讲明白了（上篇）

全文共5684字，阅读大约需11分钟。

知识图谱是下一代可信人工智能领域的关键技术组成之一。围绕知识的归纳抽取、演绎推理等处理与分析过程，诸多关键问题逐步被攻克，大幅推动了机器认知技术的发展。在网络空间安全领域，防御技术的智能化升级也亟需成熟、有效的网络空间安全领域知识图谱（以下简称：安全知识图谱）技术体系，为应对强对抗、高动态环境下的攻防博弈提供知识要素与推理智能支撑。为了归纳总结安全知识图谱的关键技术研究进展，本文将分上下两篇，通过技术概述的方式，尝试回答以下几个问题，期望为读者提供较成体系化的安全知识图谱研究现状总结。

Q1：什么是安全知识图谱，有哪些类别的安全知识图谱？

Q2：安全知识图谱的技术栈包括什么？

Q3：安全知识图谱有哪些典型技术研究与应用场景？

Q4：安全知识图谱应用中的技术挑战与研究趋势有哪些？

一、网络安全智能化发展趋势

随着云计算、5G、物联网、工业互联网等信息基础设施关联技术的发展，网络空间已串联起工业物理系统、人类社会系统以及网络信息系统，成为社会数字经济发展的基石。与此同时，网络空间攻击面随之延伸和拓展，网络空间攻防双方信息的不对称性现象愈发明显。伴随着攻防对抗态势的升级，自动化、智能化技术与攻防技术的融合已成为网络安全技术发展的必然趋势之一。

图1 网络安全智能化发展趋势

回顾网络空间安全智能化发展历程，我们可以将智能驱动的安全防御技术发展大致划分为四个阶段，如图1所示，包括专家系统阶段、感知智能阶段、认知智能阶段以及决策智能阶段。以下分别进行简要介绍：

专家系统阶段。在该阶段，防护设备与系统的自动化和智能化，主要基于专家经验与知识驱动的专家系统。面向不同的应用场景，需要专家编写指定的检测规则系统、响应规则系统等。这些以列表结构、树结构、图结构简单组织的规则逻辑结构，能够有效自动化响应特定分析场景下的攻击行为。从专家系统的外部来看，该系统确实能够表现出智能分析的效果。然而，随着攻防技术的快速迭代和升级，攻防场景与流程的更细，此类专家系统一方面，系统分析逻辑的完备性在大数据场景下迎来关键挑战，针对攻击的误报率、漏报率和整体准确性性能衰减很快；另一方面难以有效自适应演化，过度依赖专家资源，可维护性低，能够支撑的场景愈发受限。

感知智能阶段。随着机器学习、深度学习技术的研究开展，网络安全防御中面临的诸多检测和分类问题，也迎来新的解决方案——智能感知，即从大规模数据中，进行识别、检测和分类，挖掘出异常的、恶意的攻击行为。例如，识别恶意流量、恶意样本、恶意邮件、异常业务识别等场景，通过数据驱动的算法能够实现高效的实现数据统计规律建模，挖掘恶意行为/样本与正常行为/样本之间的关键区分性特征。虽然在诸多威胁感知场景下，基于统计机器学习的智能分析方法取得了重要的突破，但在面对高度动态复杂的网络行为分析时，感知层输入往往缺乏有安全语义的规范化建模，数据层次异常而非真实恶意攻击的误报情况难以避免。此外，多维度单点的感知分析结果，仍需要深度的专家参与的研判与关联分析，才能完整还原攻击行为全貌，限制了APT等高级复杂攻击技战术的分析的自动化水平的提升。

认知智能阶段。面向复杂网络环境、复杂攻击技战术组合以及多层次多源异构的数据融合，网络空间安全防御亟需具有能够实现深度理解分析能力的认知智能技术方案。不限于感知层的孤立的识别范围和分析深度，认知层主要负责实现数据、情报、知识、环境等多维度数据的自动关联、语义消歧，构建更完整、更丰富的数据湖基础设施，进而基于数据湖，实现威胁溯源归因、攻击意图识别与行动预测等与安全专家相媲美的自动化分析能力。在认知智能阶段，自然语言处理技术、知识图谱、因果推理、意图理解等认知层次的智能技术与安全场景、安全数据的融合水平，成为认知智能技术发展的关键因素。

决策智能阶段。网络安全防御系统的决策效果，将影响到信息业务系统、物理设备甚至社会组织的稳定运行状态，是经济、安全、政治攸关的。因此，在感知和认知的基础上，只有具备决策智能的网络安全防御系统，才能够进一步在安全防御策略自主构建、自适应脆弱性修复、攻击事件响应与缓解等传统完全依赖系统负责人与安全专家部署的策略制定过程中实现自动化。决策的过程受到诸多方面的影响，包括信息收集的精确性评估、策略知识的完备性识别、系统风险的整体量化以及决策系统的效果预测等等。这些关键能力的构建，都依赖于负责、鲁棒、透明的可信任安全智能技术基础设施。

网络安全智能化的发展，正随着多维度感知智能技术的演进，向认知智能和决策智能化方向演进。在这个过程中，安全知识图谱技术，已成为整个技术体系的基础性核心工作。安全知识图谱技术，一方面，通过本体建模、实体对齐、链接构建等方式，为认知、决策过程提供超融合的数据基础设施，是大规模异构数据源统一分析的基础；另一方面，基于知识图谱的推理，包括表示学习、关联分析、事件溯源、行为预测等能力，是认知智能的主要组成部分；最后，围绕知识图谱构建的逐层推理与分析，为指定场景下决策智能的达成提供了关键输入要素和策略构建框架。

推进网络空间安全知识图谱的构建与基于知识图谱的推理技术成熟，已成为网络安全智能从专家系统、感知智能，迈向认知智能、决策智能的必由之路，亦是应对网络空间高级、持续、复杂威胁与风险不可或缺的技术基础。

二、安全知识图谱技术内涵

围绕知识的识别、抽取，图谱的构建、推理及应用，知识图谱技术体系能够在、知识归纳推理知识固化、人机协同等多个方面促进网络空间安全检测、溯源、预测、响应等关键能力的智能化与自动化水平。本部分将首先介绍网络空间安全知识图谱的技术的核心内涵、技术优势与技术框架。

概念内涵

知识图谱是是通用人工智能与专用人工智能领域的关键技术组成之一。通过语义化的知识组织结构，知识图谱将机器算法与领域知识充分融合，极大的促进了知识工程方向智能化的发展速度。在智能推荐、智能搜索、通用认知推理、人机交互问答、智能决策支持等应用场景中，知识图谱得到的广泛的应用与实践。知识图谱本质是由实体（概念）及实体（概念）间关系，以及关联属性组成的一种语义网络，通过结构化的数据组织结构，以有效地表示实体（概念）之间的语义关联关系，可形式化表示为：

其中每个三元组代表一个知识单元，表示了源实体Subject与目的实体Object之间，具有关系Relation。一个典型的知识图谱中，主要可划分为模式层与数据层。模式层是整个知识图谱构建的基础，是数据组织的范式，一般通过本体库的设计实现。本体，是结构化知识库的概念模板，描述了数据的元信息与元结构。数据层，是根据模式层本体模板范式生成的实体、关系及属性的实例集合，这些实例描述某一类或某一个概念的知识事实。

从知识范畴、应用场景来看，知识图谱可划分为通用知识图谱和领域专用知识图谱。通用知识图谱，例如Freebase、Wikidata、DBpedia等大规模知识库，主要应用于普适性的智能搜索、推荐场景中，提供具有广度的、基本的知识关联基础设施。领域专用知识图谱，则基于某知识子领域，构建具有深度的知识空间，服务于该知识领域内特定的查询、推理分析需求。

安全知识图谱是面向网络安全空间的威胁建模、风险分析、攻击推理等攻防需求，基于网络和安全知识库、情报库、资产库、行为日志中关键实体（概念）及关系构建的大规模语义网络，是网络安全领域专用知识图谱。

图2 基于恶意软件知识图谱的分类可解释性示例

安全知识图谱作为网络安全的领域知识图谱，能够充分发挥安全知识与经验与数据的融合下，人工智能技术的巨大潜在价值，加速网络安全技术领域的智能化与自动化。这是因为，网络环境本身具有典型的图结构，网络安全知识、信息、数据依照知识图谱的形式组织起来，首先，能够充分发挥图数据的结构优势，将基于图的统计、分析、推理方法融入到知识挖掘的过程当中来。其次，知识图谱中的各类实体（概念）之间的关系，保留了明确的语义信息，即各类型的上下游信息依赖关系。基于语义信息的关联与推理技术，是认知智能与决策智能技术的关键步骤。此外，网络安全场景下的推理分析结果将最终指导安全团队的应急与响应工作，需要推理的过程的透明度与可解释性，来提升人类对机器推理的可信任程度。知识图谱正是可解释人工智能技术的重要组成。通过前述结构与语义的关联网络，知识图谱能够辅助给与运营团队符合安全领域知识框架的分析结果，支撑威胁的研判、取证与响应任务的开展。例如，通过恶意软件知识图谱，来解释针对恶意文档的机器学习分类器分类的关键特征结果，能够通过关联的知识，而非孤立的特征数值，来反映恶意文档的与正常文档之间的关键特征差别。

图谱分类

从学术研究和工业应用语境来看，狭义的安全知识图谱一般特指基于安全知识库，如ATT&CK、DE3FEND、CAPEC等构建的图谱化知识库及相关分析技术，而广义的安全知识图谱泛指通过属性图、RDF等类型图形式组织起来的图谱化网络安全数据基础设施及相关分析技术。本文将以广义的安全知识图谱技术作为安全知识图谱的定义。

在不同的应用场景下、在不同的数据源构成下，安全知识图谱可以有多种不同的类型。以下介绍几类较为常见的安全知识图谱类型及其分类原则。值得注意的是，以下划分方法从知识的采集源、知识的应用目标出发，不同类型知识图谱之间可能存在数据层次的交叉。

环境知识图谱

“环境”可以定义为防护网络空间内的各类实体和实体的属性（基本信息、脆弱性、合规信息等），以及实体之间的关联关系。环境数据图的构建，需要资产管理、脆弱性管理、风险评估等工具和服务的支撑，也需要类似企业组织信息、IT系统架构信息、人力资源信息等业务数据来支持环境实体的丰富和关系建立。环境知识图谱是高度动态的知识图谱。

图3 Cauldron基于图的漏洞分析[1]

安全防护不仅仅是构建更厚的防火墙，制定更多预算抵御可能随时发生的DDoS攻击，对资产、资产脆弱性、用户信息、IT架构信息等自身攻击面信息的掌控程度，往往决定了网络空间防御能力的上限。特别是在云、物联网、移动互联网迅速发展的时代背景下，资产数量剧增，类型更加丰富，脆弱性暴露的形势也更加严峻。“知己”比“知彼”显得更加关键，无论是暴露在公网的资产还是边界内未纳入管理的“黑资产”，都将大幅增加安全防护风险。为应对无孔不入的威胁，需要发现安全防护的关键实体、关键关系，在威胁事件发生的前后，对威胁的潜在影响范围、影响深度进行全面地评估，以保证攻击面的准确识别。

行为知识图谱

“行为”可以定义为可收集的、可检测的所防护网络空间内实体的动作，可以是DIKW数据层的各类原始日志，也可以是信息层的各类检测告警日志、聚合的推断告警日志。UEBA和SIEM的综合方案能够满足行为数据收集的需求。

图4 终端溯源图谱[2]

行为数据图的重要性不言而喻，从端点到网络，从主动到被动，从边界到内部，从规则到统计机器学习，等等多维度的行为收集，能够全面刻画网络空间实体的行动踪迹，是识别、归类、响应、溯源任务的基本前提。通过多行为序列的聚合规则，生成新的告警事件的推理方法已在多种场景中应用起来。不过，行为的关联不应止于针对单个实体的行为聚合，多实体长时间区间的行为关联，才是行为数据分析的目标。从处理和存储效率上来看，将多实体的行为向量组织成图模型结构是行为关联的必由之路。行为采集的粒度很大程度上由已有的采集和检测能力决定，在这一点上，在保证归一化和体系化的基础上，“来者不拒”应该是行为收集的一个特点。行为知识图谱与环境知识图谱和知识情报知识图谱的主要特性差异，是行为知识图谱的时效性更短，更新和新增频率更高。合理的构造行为数据的本体模型、实体关系，设计行为与环境、情报、知识的互动能力，并管理行为知识图谱数据的生命周期，是行为知识图谱发挥最大价值的关键所在。

情报知识图谱

不同类型的“威胁情报”，可能会造成对情报概念的不同解读。在此，对情报的定义可参考2014年Gartner的《安全威胁情报服务市场指南》：“威胁情报是一种基于证据的知识，包括情境、机制、指标、影响和操作建议。威胁情报描述了现存的或者是即将出现的针对资产的威胁或危险，并可以用于通知主体针对相关威胁或危险采取某种响应。”以此定义为基础，可以说威胁情报与各类知识库各有侧重又相互交叉。一个典型的安全知识图谱模式层本体结构如图5所示。STIX（Exchange Cyber Threat Intelligence）是网络空间威胁情报的一种描述语言与信息组织结构。STIX 2.0版本的本体（在STIX中称为STIX Domain Objects, SDO）主要包括如图所示的多种实体（概念）及其之间的语义交互关系。该本体结构，即给定了描述威胁情报信息与知识的一种语义结构范本。

图5 STIX2.0的模式层

威胁情报，能够扩展安全团队的威胁视野，通过更多威胁上下文提升安全事件研判能力。现阶段，威胁情报已经成为重要的战略和商业资源，广泛地应用于安全运营、态势感知、威胁分析、风险评估、攻击溯源等多个领域。值得注意的是，不同的威胁情报提供商本身对威胁情报理解的维度和深度不同，构建可用的情报数据图，威胁情报胜在丰富、准确和时效性，选择符合特定业务场景的威胁情报源构建专用的情报知识图谱，是提升效率和可用性的关键。

知识库知识图谱

知识与情报在不同的情景内常常出现概念的交叉。在这里，我们将归纳的、可用于推理的、与时间弱相关的安全数据称为知识数据，包括各类知识库，如ATT&CK[3]、CAPEC[4]，以及各类枚举库，如CWE[5]、CNNVD等等。知识库的构建往往依赖于专家经验、威胁情报的收集、验证和凝练，所抽象的概念和关系是通用的建模基础。当前，知识库的构建和共享已成为安全行业的共识，知识数据图能够提供特定环境和场景下威胁行为的关联知识，评估威胁行为的影响范围和深度，对潜在威胁做出预警，并给出合理的应对方案。

图6 ATT&CK与CAPEC的知识关联

知识库知识图谱赋能下的威胁事件分析，能够拓展行为、环境、情报知识图谱关联实体的概念和数据上下文，以支持推理的语义富化关联。相对于更商业化的威胁情报，知识库可以基于公开或开源的项目数据，国内外许多机构也正致力于建设更广泛、更专业的威胁关联知识库，如CAPEC、CWE、CNNVD、ATT&CK等等，也可以通过知识图谱、自然语言处理技术，从多源数据中自动化抽取和构建知识图，并通过关系推理等方式对知识图进行拓展。