本文对开放域知识图谱问答模型的研究进展进行了概要描述,包括基于语义解析、基于检索排序、基于预训练模型的知识图谱问答方法,并探讨了大型模型在知识图谱问答中的应用。最后,讨论了大模型时代下知识图谱问答领域的发展和挑战。
关键词:
开放域 知识图谱 问答
知识图谱问答
知识图谱是人类对客观世界认知所形成知识的一种表现形式,通过特定结构和分类方式组织并储存人们解决现实问题时使用的知识。在大数据时代,知识图谱规模不断扩展,如何从中有效地检索所需知识,已成为重要的研究课题。作为连接用户和知识库的接口,知识图谱问答技术已成为一种解析用户问题,并在知识图谱中检索相关知识以自动回答所询问题的有效途径。
根据包含知识类型的不同,知识图谱问答可以被划分为开放域和封闭域两种场景。在开放域知识图谱问答中,问题以及知识图谱中的知识可涉及任何主题、领域或话题,这要求问答模型具备广泛的实体识别和复杂的自然语言处理能力,通常应用于新闻检索、数字百科全书、通用搜索引擎等。封闭域问答则将知识交互的范围限定在特定领域或主题,通常应用于医疗诊断、法律咨询等,问答模型只需要掌握指定领域相关的问题,其问题和答案的上下文更为受限,自然语言处理层面的难度相对较低。本文主要关注开放域知识图谱问答的研究进展。
如图1所示,传统知识图谱问答方法以自然语言问题为输入,以知识图谱中的答案或指向答案的形式化查询为输出,根据技术路线的不同通常可以划分为基于语义解析和基于检索排序两类方法,二者的基本流程如图2所示。
图1 基于知识图谱的问答过程示例
图2 传统知识图谱问答方法的基本流程
基于语义解析的方法旨在将输入的自然语言问题转译为形式化查询语言。早期方法主要使用归纳逻辑编程、同步上下文无关语法、句法成分解析和依存组合语义等方法解析语义[1~4],深度学习兴起后,则能通过神经网络直接训练输入问题到目标形式化查询的映射。
基于检索排序的方法把知识库问答看作是一个语义匹配的过程,依赖表示学习模型将自然语言问题转换为低维空间中的数值向量,而知识图谱中的实体、概念、关系等也能被表示为同一语义空间的数值向量,从而将问答过程转换为语义相似性匹配过程。
近年来,预训练模型(Pre-trained Language Model,PLM)被广泛应用到知识图谱问答任务[5-9]。根据使用PLM方式的不同,可将其分为表示学习阶段(representation learning)和提示学习阶段(prompt learning)。在表示学习阶段,人们关注到PLM(例如BERT、BART等)从文本语料中学习到强大的表示能力,可以将输入问题与知识图谱信息编码到统一的向量空间,提升传统方法的语义解析和检索匹配性能。到了提示学习阶段,人们发现PLM无须进一步微调就能够通过提示完成下游任务。一些基于提示工程(prompt engineering)的无监督知识图谱问答方法[9,10]也相继出现。
随着以ChatGPT为代表的大语言模型(Large Language Model,LLM,简称大模型)在自然语言处理领域取得成功,其展现出的自然语言理解、对话,以及调用自身知识的能力令人印象深刻。因此,大模型在知识图谱问答领域的应用逐渐脱离PLM成为一个独立的研究热点。现有知识图谱问答研究对大模型的探索[11,12]主要关注以下思路:(1)将大模型自身视作知识图谱,探索其调用自身知识回答问题的能力;(2)使用知识图谱增强基于大模型的知识问答。
开放域知识图谱问答模型
基于语义解析的知识图谱问答方法
语义解析的目标是将输入问题转换为形式化的、计算机可理解的表示(例如SPARQL查询语句)。在早期研究中,研究人员使用语言学归纳各种语义解析规则,对问题的句法范畴与逻辑关联进行判定。深度学习模型兴起后,则通过模型训练自然语言到结构化查询的转换。
基于组合范畴语法 组合范畴语法使用句法范畴组合语义,在语言学研究中有很深的历史渊源,这种方式可以有效处理长距离依赖[1]等自然语言处理的难点,被很多语义解析工作[2,3]采用。此外,使用现成的句法解析结果作为语义解析的输入[4]也是研究热点之一,有助于在低资源语言上实现语义解析。
基于深度学习 这类方法使用经过训练的神经网络,以黑盒方式直接将用户问句输入映射为目标形式化语言。为保证形式化语言的合法性,文献[4, 11, 12]为神经网络添加不同的语法约束、语义约束。但面对更加复杂的问题时,其包含的多种组合推理难以直接转换为目标语言。为了解决这个问题,在形式化语言和自然语言问题之间建立一个结构化的中间媒介成为一种可行策略,其中,文献[15]运用基于转移的方法构造语义查询图,通过子图匹配或生成SPARQL的方法从知识图谱上获取答案。使用模板作为中间媒介在研究早期也是一种流行的方法,包括手工设计模板[16]、动态生成模板[17]以及用持续学习的方法适应并获取无标注领域的新模板[18]等。另一方面,识别输入问题的语义组合本身也是一个具有挑战的任务,文献[19]使用依存句法分析结果用于语义子图的消歧,从而增强问题的语义表示。文献[20]则定义了一种骨架依存语法解决依存语义可能带来噪声的问题,通过建立标注数据,以大规模预训练模型的方式实现了该语法的分析过程。更进一步,文献[21]使用结构敏感的编码器表征目标实体以强化它与问句的联系。文献[22]则考察了优先完成问句的抽象分析,然后约束形式语言生成的策略。文献[23]使用抽象语义表示(Abstract Meaning Representation,AMR)和一阶逻辑表示分别处理目标问句和目标形式化语言,AMR的领域无关特性使它能够通过实体链接、关系链接及基于路径的图转换得到逻辑表示,并最终形成SPARQL形式化查询。文献[24]则另辟蹊径,通过从训练集中检索出有用的问句及其对应的SPARQL语句,使用基于案例的推理方法,在处理更加复杂的问题上取得了较好的结果,其方法还可以泛化到未训练的实体和关系上。
基于检索排序的知识图谱问答方法
基于检索排序的知识库问答方法最初于2014年在文献[25]中提出,此后得到了持续和广泛的关注和研究。该方法的基本流程是,先识别出问题中的实体并链接到知识图谱,获取相关实体和边形成的知识子图作为候选答案的范围,检索模型则将输入问题和候选答案的特征表示进行打分排序,并将得分高的候选答案作为预测答案输出。这种方法不再依赖复杂语义解析规则,但是其缺点是可解释性较差[26]。基于检索排序的方法核心在于问题和候选答案的表示,以及排序打分模块的设计。为此,一种思路是利用问题和知识库中实体之间的交互信息来增强表示,例如,文献[27]利用多列卷积神经网络,文献[28]利用问题和候选答案之间的交互注意力,改进问题和实体的表示。另一种思路是引入外部信息作为补充证据,增强知识库中的实体表示,例如,文献[29]将检索到的文本信息融合到知识图谱实体表示中,以缓解知识图谱不完整的问题。文献[30]则提出利用预训练知识库表示增强实体表示。为了回答更加复杂的问题,文献[31]提出一种教师-学生模型解决多跳推理缺少中间监督的问题,其中的学生模型用于预测答案,教师模型用于提供中间步骤监督信号,这一做法显著提升了模型对多跳类型复杂问题的回答能力。
基于预训练模型的知识图谱问答方法
表示学习方法 PLM能够将非结构化文本和结构化知识图谱信息编码进统一的语义空间中,这种通用表示对前文提到的两类传统问答方法都具有良好的效果。在基于语义解析的知识图谱问答方法中,PLM能够提升模型对问题的理解。文献[5]的研究表明,引入PLM作为关系预测模块后,预测效果得到显著提升,并且模型在有限训练数据的情况下依旧能够保持性能优势。对于基于检索的方法,PLM则带来了更多的帮助。例如,文献[6]训练了一个基于PLM的路径检索器,逐跳检索与问题相关的关系。在每个步骤中,检索器基于问题和前一步选择的关系对前k个关系进行排名。文献[7]利用PLM的统一语义空间,提出一种逐步推理的方法将问题和图谱路径对齐,从而获取答案,其过程同时考虑了文本语义匹配和知识图谱结构匹配。文献[8]提出了一个基于BERT的模型,以保留原始问题-事实交互信息,并减小语义差距。
提示学习方法 PLM展现出的自然语言补全与生成能力让一部分研究者相信,在PLM上利用提示可以将自然语言转换为形式化查询。例如图3(a)中,文献[9]考虑到形式化查询语句的关键字与自然语言问题中的元素存在对应关联,以此为基础建立了一种基于串行多轮提示模板的形式化查询生成模型SEQZERO,该模型首先将问题分解为多个子问题,而后迭代地利用双向自回归转换器(Bidirectional and Auto-Regressive Transformers,BART)预测各关键字对应的问题元素,最后通过规则将获取的元素和关键字组合起来得到对应的SQL语句。如图3(b)所示,虽然同样采用将问题分解为子问题的建模思路,文献[10]则是选择设计对话提示使PLM自动将原始问题分解为子问题,而后有序地向GPT-3提出子问题和原始问题。与SEQZERO相比,文献[10]使用了更简单的提示,将子问题分解的主动权交给了GPT-3,体现出大模型比传统PLM更强的自然语言解析和生成能力。
图3 (a)文献[9]基于BART设计的子问题分解提示;(b)文献[10]基于GPT-3设计的子问题分解提示
探索大模型在知识图谱问答的应用
大模型自身作为知识库的问答 以ChatGPT为例,许多大模型的训练语料包含了维基(Wikipedia)等百科知识资源,使这类大模型看上去像是一个自带自然语言交互能力的大型知识库。因此,大模型是否能够取代传统知识图谱成为一个值得讨论的问题。文献[11, 12]在开放域知识问答任务上对ChatGPT以及GPT家族进行了评估,从问答准确性、稳定性(一致性)、鲁棒性等多个测试角度进行了考察。性能评估结果如表1所示,大模型在一些问题多样性和复杂度较低的问答数据集上(例如LC-quad2、WQSP、GraphQ、MKQA等)已经追上或超越了传统模型。但进一步的面向功能的测试表明,大模型作为一个问答模型并不能为输入问题稳定地提供准确的答案,并且在处理涉及日期、数值计算等问题时表现糟糕。这意味着现阶段大模型还无法直接替代传统知识图谱处理问答任务。文献[12]也发现,引入提示或思维链提示(chain-of-thought prompting),可以使大模型在原本不擅长领域回答问题的能力得到显著改善。这表明,后续围绕提示的研究可能是一个能使大模型有效应用于知识图谱问答的方向。
表1 使用自身知识的大模型与传统知识图谱问答模型的性能对比
知识图谱增强的大模型问答 研究者们已经发现大模型的内部知识存在不足或不正确的情况,但是微调大模型以更新内部知识所需的成本过于高昂。因此,将已有的、可靠的知识加入大模型是一个值得探索的方向。一些研究者探索了如何在问答交互中添加知识图谱中与问题相关的知识作为提示。如图4所示,文献[32]的做法是从已有的知识图谱中检索出与问题相关的事实(包括实体和三元组),并将这些事实作为提示添加到输入问题之前。在相似的思路下,文献[33]则使用一个知识图谱问答(Knowledge Graph Question Answering,KGQA)模型从知识图谱中挖掘作为提示信息的三元组。二者的实验结果都证明了这种方式能有效地将目标知识传递给大模型,并且显著提升了问答性能。
图4 大模型知识问答中一种知识增强提示的构建和使用示例
大模型时代知识图谱问答的发展和挑战
更加复杂多样的问题 目前,简单事实型问答已经取得明显进展,例如,最新方法在每个问题“仅需利用一个事实”的SimpleQuestions数据集上已经取得95.7%的准确率;基于大规模预训练的问答模型在“文本抽取型”简单问答数据集SQuAD中已能超越人类水平。但是,在需要多个事实、涉及组合推理的复杂问题上,已有方法性能不佳。例如,在典型复杂问答数据集CWQ上,最新的使用结构化知识库和非结构化文本的问答模型只能分别取得70.4%和34.2%的准确率,离人类水平还有非常大的距离。为提升问答系统的服务范围,研究者开始更多地关注涉及复杂事实的问题类型,包括多事实问答、路径类问答、时间推理类问答、数值计算类问答等。这些问题的多样性更高、组合推理更复杂且更接近真实应用场景。例如,SimpleQuestions是关注简单事实型问答的数据集,后续提出的WQSP、CWQ、LC-QuAD2、KQA Pro等问答数据集开始关注包含多个事实的复杂问题;2020年提出的DuSQL和2021年提出的CRONQUESTIONS数据集分别关注数值计算类和时间推理类问题。
面向多源异构知识的问答 随着问答研究的深入,人们愈发意识到问答已经不再局限于某个单一的知识来源,因此,面向多源异构知识的问答近年来受到了更多关注,包括多知识库问答,混合了文本、表格和知识图谱的异构知识问答,以及需求跨语言知识融合的多语言知识问答等任务。因此许多新的任务和数据集类型被相继提出,文献[34]提出了文本、表格混合数据集HybridQA,包含了13000个表格和293269篇文章,其中表格和文章的对应关系是已知的,要求问答模型同时具有理解表格和文本信息的能力。有的工作则关注需要在异构数据之间多跳推理才能回答的问题,其中具有代表性的工作是文献[35]提出的OTT-QA,该工作以HybridQA数据集为基础,隐藏了数据集中表格与文本问题之间的对齐关系,转而要求问答模型自行获取这些信息,这种设定进一步提高了对模型检索和理解能力的要求。在跨语言知识的利用方面,文献[36]提出基于跨语言知识图谱的多跳问答数据集MLPQ,要求问答模型通过发现和融合不同语言知识图谱中的证据回答输入问题。在方法层面,为了组合和使用异构知识,Hybrider模型[34]在处理表格特征时,先将各单元格与对应文本信息融合,再将表格线性序列化,从而将表格与问题的相关性计算转换为序列之间的相关性匹配。OTT-QA模型[35]分为检索器(retriever)和阅读器(reader)两部分。模型首先对每个表格检索相关的文章,然后将文章和表格拼接在一起形成一个块,作为检索的基本单位。阅读器将所有检索到的块拼接起来,使不同块之间的信息可以相互补充,最后送入模型中得到结果。DuRePa[35]模型将表格和文章分开处理,可以在某些问题上利用生成的SQL语句,更好地利用表格信息中的结构化信息。为了提升组合跨语言知识的质量,文献[38]提出一种迭代的实体对齐-问答联合框架,通过问答模型在跨语言图谱上挖掘伪对齐路径以扩展实体对齐模型的种子对齐标注,后者则进一步提升问答模型获取路径的正确性,实现两者的相互增强。
更高效的大模型知识增强 现有知识增强方法表明,将知识图谱中与问题相关的信息作为提示能够提升大模型的问答效果,但依然存在一些问题需要在未来的研究中予以验证和解决。首先,在目前的知识增强方法中,不同主题的问题从知识图谱中能够获取的提示信息的规模可能存在差异,需要研究验证这种差异是否会影响大模型回答同类型问题的一致性。其次,在现有知识增强大模型的问答工作中[32,33],每一次问答需要重复从知识图谱中抽取提示,效率较低,需要继续探索批量知识增强的可行性。另一方面,文献[39]提出了针对大模型的知识编辑方法,在不依赖微调的情况下定位并精确修改小范围的模型参数以修正内部过时或错误的知识。这类工作的出现使得利用知识图谱对大模型进行批量知识编辑具有一定的技术可行性,其效果和可靠性则需要在未来的研究中探索和验证。
谭亦鸣
东南大学网络空间安全学院博士生。主要研究方向为知识图谱问答、自然语言处理。
吴天星
CCF专业会员,CCF信息系统专委会执行委员,YOCSEF南京AC副主席。东南大学计算机科学与工程学院副教授。主要研究方向为知识图谱、知识表示与推理、数据挖掘、语义网、人工智能应用。
漆桂林
CCF专业会员,CCF自然语言处理专委会执行委员。东南大学教授、博士生导师。主要研究方向为人工智能、知识图谱、数据挖掘、大数据分析。
特别声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任
CCF推荐
【精品文章】
点击“阅读原文”,查看更多CCCF文章。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...