WO2020244023A1

WO2020244023A1 - 基于知识图谱的信息汇聚方法、装置和设备

Info

Publication number: WO2020244023A1
Application number: PCT/CN2019/095563
Authority: WO
Inventors: 盛寅; 莫海健; 毛亿; 刘岩; 田云钢
Original assignee: 中国电子科技集团公司第二十八研究所
Priority date: 2019-06-06
Filing date: 2019-07-11
Publication date: 2020-12-10
Also published as: GB2589431A; CN110222127A; CN110222127B; GB202013426D0

Abstract

一种基于知识图谱的信息汇聚方法、装置和设备，所述方法包括：在知识图谱中加入Web服务描述信息(S10)；基于知识图谱进行信息查询，并根据输入的查询语句获取关联的Web服务信息(S20)；对知识图谱查询结果和返回的Web服务查询结果进行融合(S30)。所述方法通过在知识图谱中加入Web服务描述信息，并面向不同的数据源提供了相应的检索方案，在用户查询时能够同时提供知识图谱的查询结果和基于Web服务的查询结果，根据多样的数据来源能够获得更丰富的查询结果。同时还提供了对不同数据源的检索结果进行数据融合的方案，以及知识图谱数据更新方案，使得信息的查询可以更精确，具有良好的可操作性和可扩展性。

Description

基于知识图谱的信息汇聚方法、装置和设备

技术领域

本发明属于信息搜索技术领域，具体涉及一种基于知识图谱的信息汇聚方法、装置和设备。

背景技术

知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力，同时也在智能问答中显示出强大威力，已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起，成为推动互联网和人工智能发展的核心驱动力之一。

然而，当前基于知识图谱的搜索过于依赖于知识图谱的信息完整程度，当知识图谱中某些信息缺失时或者更新不及时，会影响搜索效果。此外，当前很多信息在网络上采用分布式存储，很难完全存放到知识图谱中。因此，如何在知识图谱信息不完整时提升查询的满意度具有重要意义。同时，如何利用网络上分布式数据也是目前知识发现领域亟待解决的问题。

发明内容

发明目的：针对现有技术的问题，本发明提出一种基于知识图谱的信息汇聚方法，能够从知识图谱及Web服务共同获取信息，利用网络上分布式数据提升知识图谱信息不完整时的查询效果。

本发明的另一目的在于提供一种基于知识图谱的信息汇聚装置和计算机设备。

技术方案：根据本发明的第一方面，提供一种基于知识图谱的信息汇聚方法，包括以下步骤：

在知识图谱中加入Web服务描述信息；

基于知识图谱进行信息查询，并根据输入的查询语句获取关联的Web服务信息；

对知识图谱查询结果和返回的Web服务查询结果进行融合。

进一步地，所述在知识图谱中加入Web服务描述信息包括：

在知识图谱中为每个Web服务创建描述实体，实体的属性包括服务发布者提供的服务ID、服务名称和WSDL地址；

为Web服务实体增加与其它实体的关系，用于描述Web服务能提供的数据。

进一步地，所述基于知识图谱进行信息查询包括：

利用分词工具对用户查询的语句进行分词；

在分词结果中增加类型描述，并根据增加描述后的结果构建知识图谱查询语句，在知识图谱中查询相关的信息。

进一步地，所述根据输入的查询语句获取关联的Web服务信息包括：

根据分词结果计算输入的查询语句与Web服务描述的相似度；

按Web服务的相似度排名，返回若干个Web服务查询结果。

进一步地，所述对知识图谱查询结果和返回的Web服务查询结果进行融合包括：

若仅有知识图谱或仅有一个Web服务返回查询结果，则最终查询结果不需要数据融合；

若知识图谱与Web服务返回查询结果不一致，则采用真值发现算法返回可信度最高的结果。

所述真值发现算法针对各返回的结果，依据所有数据源的可靠性、被请求次数指标，通过对指标设定权重，计算数据源对结果的投票值，并将得票数最高的结果返回。

进一步地，所述方法还包括：当知识图谱与Web服务返回查询结果不一致时，将最可信的结果同步返回给其它数据源，为数据源的管理者提供修改的参考。

根据本发明的第二方面，提供一种基于信息图谱的信息汇聚装置，所述装置包括：知识图谱构建模块、查询模块、信息融合模块，其中，所述知识图谱构建模块用于在知识图谱中加入Web服务描述信息；所述查询模块用于基于知识图谱进行信息查询，并根据输入的查询语句获取关联的Web服务信息；所述信息融合模块用于对知识图谱查询结果和返回的Web服务查询结果进行融合。

进一步地，所述知识图谱构建模块在知识图谱中加入Web服务描述信息包括：在知识图谱中为每个Web服务创建描述实体，实体的属性包括服务ID、服务名称和WSDL地址；为Web服务实体增加与其它实体的关系，用于描述Web服务能提供的数据。

进一步地，所述装置还包括更新模块，用于当知识图谱与Web服务返回查询结果不一致，且Web服务提供的信息为最新信息时，对知识图谱进行更新。

根据本发明的第三方面，提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如本发明第一方面所述的步骤。

有益效果：本发明通过在知识图谱中加入Web服务描述信息，并面向不同的数据源提供了相应的检索方案，在用户查询时能够同时提供知识图谱的查询结果和基于Web服务的查询结果，根据多样的数据来源能够获得更丰富的查询结果。同时还提供了对不同数据源的检索结果提供数据融合方案，以及知识图谱数据更新方案，使得信息的查询可以更精确。方法具有良好的可操作性和可扩展性。

附图说明

图1是根据本发明的基于知识图谱的信息汇聚方法流程图；

图2是根据本发明实施例的知识图谱实体构建过程图；

图3是根据本发明实施例的知识图谱实体构建结果示意图；

图4是根据本发明实施例的知识图谱关系构建结果示意图；

图5是根据本发明实施例的知识图谱Web服务构建结果示意图；

图6是根据本发明实施例的基于知识图谱进行信息查询与汇聚的过程示意图；

图7是根据本发明实施例的基于知识图谱的信息汇聚装置结构框图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。应当了解，以下提供的实施例仅是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的技术构思，本发明还可以用许多不同的形式来实施，并且不局限于此处描述的实施例。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。

参照图1，在一个实施例中，基于知识图谱的信息汇聚方法，包括以下步骤：

步骤S10，在知识图谱中加入Web服务描述信息。

本发明的方法可以在现有的知识图谱中加入Web服务描述信息，也可以先构建一个本地知识图谱然后在此基础上添加Web服务描述信息。现有的知识图谱例如当前具有代表性的大规模网络知识库包括DBpedia，Freebase，YAGO等，也可以是用户自行构建的知识图谱。参照图2，在一个实施例中，以空中交通管理领域知识图谱的构建为例，空管信息中有大量结构化数据，例如飞行计划、机场信息、地理信息、航空公司、气象信息等。这些结构化数据可作为实体加入知识图谱。每个实体的属性值可以是简单类型的数值/字符串等，也可以是其它实体。

对于简单类型的属性，在创建实体时直接作为实体自身的属性。以表1中机场信息为例，基于neo4j创建首都国际机场实体的方法：CREATE(n:Airport{ICAOID:”ZBAA”,IATAID:”PEK”,name:”北京首都国际机场”})。其它实体可按照类似的方法创建。由于neo4j提供了JAVA接口，上述过程可通过程序自动化执行。创建完成后的实体如图3所示。

表1机场信息

机场名	IATA代码	ICAO代码
首都国际机场	PEK	ZBAA
浦东国际机场	PVG	ZSPD
……

对于实体的属性值是其它实体的情况，则需要构建实体间的关系。关系名称一般跟其它实体的数据类型相关。以表2的飞行计划信息为例，某一飞行计划包含起飞机场：北京首都国际机场，降落机场：上海虹桥机场，则该飞行计划通过DepartFrom关联北京首都国际机场实体，通过ArriveAt关联上海虹桥机场。基于neo4j的构建语句为：MATCH(n:FlightPlan{ID:”MU564”}),(m:Airport{ICAOID:”ZBAA”})CREATE(n-[r:ArriveAt]->m)RETURN r。创建结果如图4所示。图4中包含的其它气象、跑道等信息此处不再以表格形式详细列举。

表2飞行计划信息

Web服务发布者将Web服务加入知识图谱时，实际上是加入Web服务的描述信息，并不是Web所有能提供的信息。用户在需要查询相关的数据时，找到合适的Web服务并向其发送请求。加入Web服务描述信息的方法为：首先在知识图谱中为每个Web服务创建描述实体，实体的属性包括服务ID、服务名称和WSDL地址；然后为Web服务实体增加与其它实体的关系，用于描述Web服务能提供的数据。在实施例中，基于neo4j构建服务实体，构建语句为：CREATE(n:WebService{ID:”华北Metar”,name:”华北气象查询服务”,wsdl:”http://WebServiceURL/NorthChinaMetar？wsdl”})。

Web服务实体创建完成后，需要加入与其它实体的关系，用于支持更精确的服务发现。Web服务与其它实体的关系名一般用hasDescription。对于华北气象服务，可创建描述MATCH(n:WebService{ID:”华北Metar”}),(m:Metar{ID:”气象信息”})CREATE(n-[r:hasDescription]->m)RETURN r。由于涉及到的Web服务主要为数据服务，不是计算服务，因此不需要描述计算功能。Web服务增加描述信息后如图5所示。

步骤S20，基于知识图谱进行信息查询，并根据输入的查询语句获取关联的Web服务信息。

参照图6，示出了基于步骤S10构建的知识图谱进行信息查询与汇聚的过程。当用户提交查询请求时，首先利用分词工具对用户查询的语句进行分词。当前可用的分词工具有多种，如jieba，HanLP等，可根据具体的业务需求选择。

分词完成后，在分词结果中增加必要的数据类型描述，并根据增加描述后的结果构建知识图谱查询语句。查询语句的构建方式也有多种，较为容易实现的是基于模板匹配的方法。表3为用户查询语句模板与知识图谱查询语句之间的对应关系。当用户输入查询语句后，将其与用户查询语句模板对比，计算相似度。当前分词软件一般可直接支持语句相似度计算。选择最相似的语句模板，将对应的知识图谱查询语句中的关键词替换为用户查询语句中的关键词。例如，用户查询语句为“MU5183的降落机场是什么”，根据该句与航班降落机场模板最相似，根据分词结果，MU5183符合飞行计划编号。这里飞行计划编号可用正则表达式实现，满足前两位字母后4位数字则可认为是飞行计划号。分词结果为“飞行计划MU5183的降落机场是什么”。将知识图谱查询语句中FlightPlanNo替换为MU5183，则可构建查询语句MATCH(n:FlightPlan{ID:”MU5183”})-[r:DepartFrom]->(m:Airport)RETURN m获得结果。

表3知识图谱查询语句

Web服务发现过程与模板匹配方法相似，找出与用户查询语句最相似的Web服务，并返回服务信息。当用户搜索“MU5183的降落机场是什么”时，最相似的服务为飞行数据查询服务，用户依据表4的模板匹配最相关的服务查询语句查询MU5183的降落机场。根据表5，最匹配的是航班起飞降落机场查询服务。用户根据该服务发布时自动生成的WSDL(Web Service Description Language)文件调用服务。WSDL包含服务的消息、功能等要素，描述了服务如何被调用。

表4 Web服务查询语句

表5Web服务列表

步骤S30，对知识图谱查询结果和返回的Web服务查询结果进行融合。

若仅有知识图谱或一个Web服务返回查询结果，则最终查询结果仅有一个，此时不需要进行数据融合；若知识图谱与所有Web服务返回查询结果一致，也不产生数据冲突，亦无需进行融合；若不一致，则采用真值发现算法返回可信度最高的结果。真值发现算法针对各返回的结果，依据所有数据源(知识图谱、各Web服务)的可靠性、被请求次数等指标，计算数据源对结果的投票值，并将得票数最高的结果返回。

以查询北京首都国际机场第二天的天气为例，知识图谱中查询结果为小雨，机场天气查询服务结果为中雨，华北气象服务查询结果为小雨。返回的结果为两类：小雨和中雨。针对两类结果各数据源进行投票。

依据表6，并对可靠性和被请求次数分别设置权重100和0.5，采用加权和计算各数据源票数，分别为230，175和128。最终小雨为358，中雨为175。可信的结果为小雨。

表6数据源的可靠性与被请求次数

数据源	可靠性	被请求次数
知识图谱	80％	300
机场天气查询服务	85％	180
华北气象服务	78％	100
……	……

步骤S40，更新知识图谱。

当知识图谱与Web服务返回查询结果不一致时，依据数据融合的结果，向各数据源(知识图谱或Web服务)返回最可信的结果，为数据的发布者修改数据提供修改建议。

参照图7，在另一个实施例中，提供一种基于知识图谱的信息汇聚装置，包括：知识图谱构建模块、查询模块、信息融合模块以及更新模块。其中，知识图谱构建模块用于在知识图谱中加入Web服务描述信息；查询模块用于基于知识图谱进行信息查询，并根据输入的查询语句获取关联的Web服务信息；信息融合模块用于对知识图谱查询结果和返回的Web服务查询结果进行融合；更新模块用于对知识图谱进行更新。

知识图谱构建模块可以在现有的知识图谱中加入Web服务描述信息。加入Web服务描述信息的方法为：首先在知识图谱中为每个Web服务创建描述实体，实体的属性包括服务ID、服务名称和WSDL地址；然后为Web服务实体增加与其它实体的关系，用于描述Web服务能提供的数据。

另选地或可选地，知识图谱构建模块可以构建一个本地知识图谱然后在此基础上添加Web服务描述信息。以空中交通管理领域知识图谱的构建为例，空管信息中有大量结构化数据，例如飞行计划、机场信息、地理信息、航空公司、气象信息等。这些结构化数据可作为实体加入知识图谱。每个实体的属性值可以是简单类型的数值/字符串等，也可以是其它实体。对于简单类型的属性，在创建实体时直接作为实体自身的属性。对于实体的属性值是其它实体的情况，则需要构建实体间的关系。关系名称一般跟其它实体的数据类型相关。具体的创建实例可以参照上述方法实施例中的描述，此处不再赘述。

查询模块利用分词工具对用户查询的语句进行分词，在分词结果中增加必要的数据类型描述，并根据增加描述后的结果构建知识图谱查询语句，在知识图谱中查询相关信息。查询语句的构建方式也有多种，较为容易实现的是基于模板匹配的方法。当用户输入查询语句后，将其与用户查询语句模板对比，计算相似度。当前分词软件一般可直接支持语句相似度计算。查询模块会选择最相似的语句模板，将对应的知识图谱查询语句中的关键词替换为用户查询语句中的关键词。Web服务发现过程与模板匹配方法相似，查询模块找出与用户查询语句最相似的Web服务，并返回服务信息。用户根据wsdl地址调用服务。

信息融合模块的融合方式如下：若仅有知识图谱或Web服务返回查询结果，则最终查询结果仅有一个，无需融合；若知识图谱与Web服务返回查询结果一致，也不产生数据冲突，亦无需进行融合；若不一致，则采用真值发现算法返回可信度最高的结果。真值发现算法针对各返回的结果，依据所有数据源(知识图谱、各Web服务)的可靠性、被请求次数等指标，计算数据源对结果的投票值，并将得票数最高的结果返回。

当知识图谱与Web服务返回查询结果不一致时，更新模块依据数据融合的结果，向各数据源返回最可信的结果，为数据的发布者修改数据提供修改建议。

基于与方法实施例相同的技术构思，根据本发明的另一实施例，提供一种计算机设备，所述设备包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现方法实施例中的各步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

一种基于知识图谱的信息汇聚方法，其特征在于，所述方法包括以下步骤：

在知识图谱中加入Web服务描述信息；

基于知识图谱进行信息查询，并根据输入的查询语句获取关联的Web服务信息；

对知识图谱查询结果和返回的Web服务查询结果进行融合。
根据权利要求1所述的基于知识图谱的信息汇聚方法，其特征在于，所述在知识图谱中加入Web服务描述信息包括：

在知识图谱中为每个Web服务创建描述实体，实体的属性包括服务发布者提供的服务ID、服务名称和WSDL地址；

为Web服务实体增加与其它实体的关系，用于描述Web服务能提供的数据。
根据权利要求1所述的基于知识图谱的信息汇聚方法，其特征在于，所述基于知识图谱进行信息查询包括：

利用分词工具对用户查询的语句进行分词；

在分词结果中增加类型描述，并根据增加描述后的结果构建知识图谱查询语句，在知识图谱中查询相关的信息。
根据权利要求3所述的基于知识图谱的信息汇聚方法，其特征在于，所述根据输入的查询语句获取关联的Web服务信息包括：

根据分词结果计算输入的查询语句与Web服务描述的相似度；

按Web服务的相似度排名，返回若干个Web服务查询结果。
根据权利要求1所述的基于知识图谱的信息汇聚方法，其特征在于，所述对知识图谱查询结果和返回的Web服务查询结果进行融合包括：

若仅有知识图谱或仅有一个Web服务返回查询结果，则不进行数据融合；

若知识图谱与Web服务返回查询结果不一致，则采用真值发现算法返回可信度最高的结果。
根据权利要求5所述的基于知识图谱的信息汇聚方法，其特征在于，所述真值发现算法针对各返回的结果，依据所有数据源的可靠性、被请求次数指标，通过对指标设定权重，计算数据源对结果的投票值，并将得票数最高的结果返回。
根据权利要求1所述的基于知识图谱的信息汇聚方法，其特征在于，所述方法还包括：当知识图谱与Web服务返回查询结果不一致时，将最可信的结果同步返回给其它数据源，为数据源的管理者提供修改的参考。
一种基于知识图谱的信息汇聚装置，其特征在于，所述装置包括：知识图谱构建模块、查询模块、信息融合模块，其中，所述知识图谱构建模块用于在知识图谱中加入Web服务描述信息；所述查询模块用于基于知识图谱进行信息查询，并根据输入的查询语句获取关联的Web服务信息；所述信息融合模块用于对知识图谱查询结果和返回的Web服务查询结果进行融合。
根据权利要求8所述的基于知识图谱的信息汇聚装置，其特征在于，所述知识图谱构建模块在知识图谱中加入Web服务描述信息包括：在知识图谱中为每个Web服务创建描述实体，实体的属性包括服务ID、服务名称和WSDL地址；为Web服务实体增加与其它实体的关系，用于描述Web服务能提供的数据。
根据权利要求8所述的基于知识图谱的信息汇聚装置，其特征在于，所述装置还包括更新模块，用于当知识图谱与Web服务返回查询结果不一致时，将最可信的结果同步返回给其它数据源，为数据源的管理者提供修改的参考。
一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现如权利要求1-7中的任一项所述的步骤。