近日,渊亭科技在人工智能领域再添一项由国家知识产权局授权的重要发明专利。该专利提出“一种情报知识图谱的质量优化方法、装置以及设备”,通过引入机器学习、大型语言模型等技术,旨在解决传统知识图谱质量优化方法在应对动态、多源、高时效性情报数据时,普遍存在的环境感知差、决策僵化及效率低下等瓶颈问题,从而显著提升情报知识图谱的质量与情报分析的可靠性。
在情报分析领域,知识图谱作为核心分析工具,通过结构化地呈现实体及其相互关系,为智能检索、威胁关联分析以及事件推理等关键任务提供了坚实支撑。
然而,在当今复杂多变的信息环境中,依赖固化规则引擎、传统统计模型和大量人工审核的知识图谱质量优化方法,已难以满足处理海量、异构且瞬息万变情报数据时所需的高时效与高准确性要求。其痛点日益凸显:
● 感知“迟钝”:传统系统难以实时感知数据分布的动态变化,面对突发事件或新型实体时响应迟钝。
● 决策“僵化”:固定的规则系统缺乏自适应调整的灵活性,导致误判率高。
● 效率“低下”:在处理大规模、高吞吐量的情报数据时,传统方法速度缓慢,力不从心。
为攻克上述难题,该发明利用先进的机器学习和大型语言模型等技术,构建了一套从数据获取、异常检测、决策优化到异常修正的全流程智能化处理方法。
该方法主要包括以下几个关键步骤:
1
多源数据获取与预处理
● 系统首先从多个来源接入情报数据,并进行清洗和标准化,形成初始的三元组数据。
2
初步异常检测
● 初始三元组数据会经过双重筛选,以识别潜在问题。
● 系统使用Prophet算法进行时序特征异常检测(如事件频率突增);
● 以及通过计算语义特征与存量数据的余弦相似度来确定语义特征异常(如实体间的逻辑关系错误),提高了异常检测的准确性和可靠性。
3
动态决策引擎
● 在此关键步骤中,系统会为标记的异常数据计算两种不同的置信度:规则置信度与模型置信度。
● 通过比较这两种置信度的高低,这个“智能调度中心”能够智能选择最优的二次检测路径——是调用更稳健的规则库,还是调用更灵活的模型库——兼顾了规则的稳定性与模型的灵活性,使整体方案更加高效智能。
4
二次异常检测
● 根据动态决策引擎的指令,系统会调用相应的工具库进行二次检测。
● 若规则置信度更高,则启用基于SHACL的规则库进行匹配;
● 若模型置信度更高,则调用预训练的XGBoost分类器和GAT(图注意力网络)模型,深度挖掘隐藏在数据中的复杂关系异常。
● 两种方式相互补充,在保证检测全面性的同时,进一步提升了效率与准度。
5
大模型修正与迭代
● 对于最终确认的异常数据,系统会提交给大模型生成多个候选修正建议。这些建议还将经由领域专用的SecurityBert模型进行验证,以确保其在上下文中的合理性,最终完成知识图谱的更新。
● 此外,修正后的正确数据会被反馈至训练数据集中,用于GAT模型的增量更新和迭代,从而创建一个能够持续学习和自我演进的闭环系统 。
此项专利技术的落地应用,其核心价值在于:
● 提升质量与准确性
通过多层检测和智能修正,显著提升了情报知识图谱的数据质量,为后续的情报分析提供了高可信度的数据基础,从而增强分析结果的准确性与可靠性。
● 增强时效性与适应性
能够快速响应情报数据的动态变化,适应高时效性的需求,并通过持续学习机制,不断提升模型对新威胁和新场景的适应能力 。
● 提高效率与降低成本
大幅减少了对人工审核的依赖,将分析人员从繁琐的数据清洗和校验工作中解放出来,使其能专注于更高价值的分析与决策,显著提高了整体处理效率 。
未来,渊亭科技将继续致力于人工智能核心技术的研发与应用,推动更多专利技术的转化与落地,为国防、金融、政企等领域的客户提供更高效、更精准的智能化解决方案。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...