在数字经济时代,数据作为关键的生产要素,成为企业和社会的核心战略资产。然而,海量的原始数据如同散落的拼图,必须经过有效的组织与关联才能释放其价值。
知识图谱正是实现这一转化的核心工具,它通过揭示数据间的深层联系,将原始信息提炼为高质量的结构化知识,进而驱动深度洞察,赋能科学决策。
近日,渊亭科技在知识图谱技术领域再结硕果,其自主研发的“多模型协同知识图谱构建方法、系统、设备及存储介质”荣获国家知识产权局发明专利授权。该专利为行业提供了一种更高效、智能且具扩展性的知识图谱自动化构建方案。
近年来,以BERT、GPT等为代表的预训练大模型通过海量无监督学习显著提升了语义理解能力,为知识抽取提供了新思路。但在实际应用中,其高昂的计算成本、高部署门槛及动态更新困难等特性,成为了规模化、高时效性知识图谱构建的掣肘。
另一方面,专注于特定领域的“小模型”虽轻量高效,但在处理复杂语境、挖掘隐含关系时却能力受限,导致知识图谱的广度和深度不足。
如何打破“鱼与熊掌不可兼得”的局面,在“效率与成本”和“质量与深度”之间找到最优解?渊亭科技此项专利正是为了解决上述技术缺陷而提出。
该专利的核心在于构建了一个由路由引擎、调度引擎和执行引擎协同工作的自动化流程,智能地调度不同规模的模型资源,以实现最优的知识抽取效果。其主要步骤包括:
流程始于路由引擎接收构建请求,它会根据目标领域(如金融、医疗)和处理模式(如速度优先、质量优先)等参数,从预置规则库中智能匹配并生成最优的组件调用序列。
随后,“调度引擎”将该路径转化为一个清晰、有序的任务执行有向无环图(DAG),为后续自动化处理提供明确指引。
在“执行引擎”的主导下,系统优先调用“小模型资源池”中的轻量化模型,对原始文档进行初步的实体与关系抽取。
这些小模型经过特定领域数据训练,能够快速、精准地识别核心知识,显著降低了对昂贵计算资源的依赖,平衡了处理效率与经济性。
对于小模型难以处理的复杂语义、隐含关系以及长尾知识,系统会依据预设条件调用大模型进行深度加工。
大模型凭借其强大的泛化与推理能力,对初步抽取的知识进行属性补全、实体对齐、关系推理和冲突消解,从而大幅提升知识图谱的召回率与知识的丰富度。
最后,经过大小模型协同处理后生成的实体与关系集合将被进行融合,并最终存入知识图谱数据库,形成一个结构化、高质量的知识体系。
该专利技术展现了广阔的应用前景,其兼顾了效率、成本、准确性与领域适应性,能够快速响应不同行业的知识图谱构建需求。通过高度自动化的流程,它能够将企业内部海量的非结构化数据,转化为结构清晰、关系明确的知识资产。
无论是在金融领域的智能风控与投研分析,在医疗领域的辅助诊疗与药物研发,还是在法律、能源等专业场景中,该技术都能快速构建出高质量的领域知识图谱,为智能搜索、决策推理、智能问答等上层应用提供坚实的知识基础,帮助企业从数据中挖掘深层价值,驱动从数据到智能决策的价值跃迁。
此次发明专利的获得,是渊亭科技长期坚持核心技术自主研发、深度聚焦行业应用场景的又一硕果。未来,公司将继续致力于核心技术的创新与应用落地,通过先进的知识图谱技术,帮助更多企业与机构盘活数据资产,赋能智能决策。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...