WO2023077731A1

WO2023077731A1 - 基于科技咨询大规模图数据的查询任务优化方法

Info

Publication number: WO2023077731A1
Application number: PCT/CN2022/087215
Authority: WO
Inventors: 鄂海红; 宋美娜; 梁静茹; 刘雨薇; 魏秋实
Original assignee: 北京邮电大学
Priority date: 2021-11-08
Filing date: 2022-04-15
Publication date: 2023-05-11
Also published as: CN114020781A; CN114020781B

Abstract

本公开提供的基于科技咨询大规模图数据的查询任务优化方法、系统及存储介质中，获取查询任务的标识，并根据查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图，然后利用查询优化方法对图数据库进行查询，输出查询结果。

Description

基于科技咨询大规模图数据的查询任务优化方法

相关申请的交叉引用

本申请基于申请号为202111316037.1、申请日为2021年11月08日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及大规模图数据查询领域，尤其涉及一种基于科技咨询大规模图数据的查询任务优化方法、装置及存储介质。

背景技术

图数据上的查询任务是知识图谱领域最基础的问题之一，因此通常需要在大规模图数据上进行高效的查询处理，以使得用户可以快速得到查询结果。

目前，图查询优化的图分区技术，可以将图数据拆分到多个服务器，但是服务器的通信成本和处理开销较高等。并且，大部分查询优化技术中是基于社交网络的图数据进行查询优化，并不适用科技咨询场景的复杂拓扑结构的图数据。因此，需要进一步优化基于科技咨询大规模图数据的查询任务。

发明内容

本申请提供一种基于科技咨询大规模图数据的查询任务优化方法、系统及存储介质。

本申请第一方面实施例提出一种基于科技咨询大规模图数据的查询任务优化方法，包括：

获取查询任务的标识；

根据所述查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图；

利用所述查询优化方法对图数据库进行查询，输出查询结果。

本申请第二方面实施例提出一种基于科技咨询大规模图数据的查询任务优化系统，包括：

获取模块，用于获取查询任务的标识；

选择模块，用于根据所述查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图；

显示模块，用于利用所述查询优化方法对图数据库进行查询，输出查询结果。

本申请第三方面实施例提出的计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现如上第一方面所述的方法。

本申请第四方面实施例提出的计算机设备，其中，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时，能够实现如上第一方面所述的方法。

本申请第五方面实施例提供的计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上第一方面所述的方法。

本公开提供的基于科技咨询大规模图数据的查询任务优化方法、系统及存储介质中，获取查询任务的标识，并根据查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图，然后利用查询优化方法对图数据库进行查询，输出查询结果。由此可知，本公开提出的方法中，可以根据查询任务的标识选择对应的查询优化方法，提高了查询方法的灵活性。同时，本公开提出的方法中，查询优化方法提高了科技咨询大规模图数据不同场景下查询任务的查询效率，降低了查询计算的复杂度，缩短了查询所花费的时间。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请一个实施例提供的基于科技咨询大规模图数据的查询任务优化方法的流程示意图；

图2为根据本申请一个实施例提供的基于科技咨询大规模图数据的查询任务优化系统的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于科技咨询大规模图数据的查询任务优化方法及系统。

图一为根据本申请一个实施例提供的基于科技咨询大规模图数据的查询任务优化方法的流程示意图，如图1所示，所述方法可以包括步骤101至步骤103。

步骤101、获取查询任务的标识。

需要说明的是，本公开的实施例中，查询任务可以包括机构、人才、产业链。其中，本公开的实施例中，机构可以是公司的ID，人才可以是人员

其中，本公开的实施例中，可以根据查询任务的内容获取该查询任务的标识。示例的，本公开的实施例中，假设查询任务是查看某人员关联的公司、专利情况，则获取该查询任务的标识。

步骤102、根据查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图。

其中，本公开的实施例中，不同的标识对应不同的查询优化方法，可以根据查询任务的标识，选择对应的查询方法。

以及，本公开的实施例中查询优化防范可以包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图。

进一步地，本公开的实施例中，调整图遍历展开顺序策略结合科技咨询实际查询场景，设计双向BFS的图遍历展开顺序，同时从起点和终点两个方向开始搜索，一旦搜索到另一个方向已经搜索过的位置(或者出现某个状态被两个方向均访问了)，则找到了一条连通起点和终点的最短路径。然后向最短路中间的某一点汇集，在路径中点相遇，因此双向BFS的节点数是2 ^*nm/2+1数量级。

具体的，本公开的实施例中，调整图遍历展开顺序策略可以包括以下步骤：

S11、输入源实体节点和目标实体节点，并输入中间实体节点类型mtype，和路径模式pattern；

S12、初始化s1、s2两个节点集合，其中s1初始化为输入的源实体节点，s2初始化为输入的目标实体节点；

S13、利用pattern和mtype计算双向BFS的展开顺序，并用pattern1表示左端展开顺序，pattern2表示右端展开顺序；

S14、若s1或s2不为空，则继续执行步骤S15；否则，执行步骤S111；

S15、s为本层扩展节点的集合；

S16、交换s1和s2，交替从左端扩展和从右端扩展；

S17、对s1集合里的每个节点node，按照模式扩展node的下一层邻居节点，并用next_nodes表示；

S18、对每个next_nodes里的节点进行判断，如果节点在s集合中，即找到一条路径，进行步骤S111；

S19、将本层扩展的所有节点next_nodes加入集合s中，并将集合s复制给s1，存储路径；

S110、重复步骤S14；

S111、结束。

示例的，本公开的实施例中，查询任务给定了产业链标签tag和人员信息person，从tag出发查询其子产业链标签，以及属于该子产业链标签的专利，及专利所属的公司，公司的任职/投资等关联人员。在已经构建好的科技咨询知识图谱中，产业链-子产业链标签-专利这条路径上会生成146284个专利中间节点，若使用单向BFS再对146284个专利进行扩展将会产生爆炸性中间结果，严重影响查询性能。

若使用本公开实施例中的双向BFS的图遍历展开顺序优化策略，从起点和终点进行双向搜索，即产业链标签-子产业链标签-专利和人员-公司-专利两条方向遍历，将产业链标签-子产业链标签-专利生成的146284个专利中间节点处理成哈希表，再反向从人员节点开始，将人员-公司-专利这条路径生成一组结果，最终将这组结果与哈希表做交集，找到符合条件的连通起点和终点的路径，且时间复杂度也仅需要o(n)。

进一步地，本公开的实施例中，Cardinality表示去重后唯一值的数量，比如Columns Cardinality(列基数)指列包含的不重复值的个数。这个数量对于直接影响模型压缩的效果和引擎扫描时的性能。因此需要尽量将Cardinality减少到最低，以缩短查询需要的时间。

其中，本公开的实施例中，Cardinality减少可以包括以下步骤：

S21、输入源实体节点和路径模式pattern；

S22、next_nodes为扩展下一层的节点集合，并初始化为按照模式扩展的源实体节点的下一层邻居节点；

S23、对next_nodes节点去重；

S24、q为节点队列，初始化为next_nodes；

S25、若q不为空，继续执行步骤S26；否则执行步骤S212；

S26、size为当前队列数量；

S27、若size不为空，继续执行步骤S28；否则执行步骤S211；

S28、弹出当前队列node节点；

S29、按照模式扩展node的下一层邻居节点next_nodes；

S210、将next_nodes加入队列q；

S211、若当前遍历完模式pattern，则继续执行步骤S212，否则执行步骤S25；

S212、结束。

示例的，本公开的实施例中，在科技咨询实际场景下的知识图谱中，两点之间可能会有重边或不同类型的边，比如“公司”节点与“人员”节点存在着“公司-投资人”/“公司-公示股东-人”/“公司-任职人员”三种关系。因此，从某一公司出发寻找与其相邻的“人员”节点，可能会从上述三种关系定位到某些相同的“人员”节点，从而产生重复的节点。而重复冗余的节点会增加Cardinality，当重复的“人员”节点继续寻找相邻节点时，就会重复的进行遍历，从而会增加中间节点数量，进行增加了查询时间。因此，本公开的实施例中，使用distinct提前优化策略来减少cardinality。

具体的，本公开的实施例中，在科技咨询场景下的查询任务是给定了人员person，从给定的person查询寻找其关联的公司，以及该公司拥有的专利，及专利所属的产业链标签，输出符合路径的无重复的公司、专利、产业链标签元组。本公开实施例使用distinct提前减少Cardinality的优化策略，将去重操作提前至重复节点产生之后，即在“人员”节点遍历到“公司”节点后立刻进行去重操作，将201个有重复的公司中间节点减少至无重复的公司节点131个，从而减少了中间节点的产生，降低后续遍历时间。

进一步地，本公开的实施例中，需要根据业务条件获取并筛选出目标数据，这个过程为数据查询的过滤。在大规模图查询任务中会存在大量的过滤操作，而过滤过程中使用的各种过滤条件是获取精准数据的必要步骤，例如，基本运算法(<、>、＝、！＝)、逻辑运算(AND、OR、NOT)和模式匹配。

其中，本公开的实施例中，模式提前可以包括以下步骤：

S31、输入源实体节点、路径模式pattern、过滤模式filter_pattern；

S32、初始化模式提前集合filter_nodeset；

S33、q为节点队列，初始化为为输入的源实体节点；

S34、若q不为空，则继续执行步骤S35；否则执行步骤S313；

S35、初始化当前队列数量size；

S36、若size不为空，则继续进行步骤S37；否则执行步骤S312；

S37、弹出当前队列node节点；

S38、按照模式扩展node的下一层邻居节点next_nodes；

S39、判断当前next_nodes节点类型是否为filter_nodeset的节点类型，若是，则继续执行步骤S310；否则执行步骤S311；

S310、遍历next_nodes集合的节点next_node，若节点next_node在filter_nodeset集合中，则过滤掉该节点；

S311、将next_nodes加入队列q；

S312、若当前遍历完模式pattern，则继续执行步骤S313，否则执行步骤S35；

S313、结束。

示例的，本公开的实施例中，在科技咨询场景下的查询任务是给定产业链标签信息tag，从tag出发查询其关联的公司，以及该公司拥有的专利，存在一个过滤条件为：公司不能有经营异常，即不存在公司-经营异常的模式，输出无重复的公司、专利元组。

具体的，本公开的实施例中的模式提前是利用集合的高效查找代替模式里的遍历操作。将公司-经营异常这个模式提前做，将与“经营异常”节点关联的公司ID信息放入一个哈希表中，然后过滤条件会判断“公司”节点是否存在哈希表中，若“公司”节点不存在哈希表中，则表示该公司无经营异常，则仅需要3292次o(1)的时间复杂度进行集合查找，从而提高了查询效率。

进一步地，本公开的实施例中，主要是利用物化视图预先计算并保存表连接或聚集等耗时较多的操作的结果，以便在后续执行查询任务时，可以避免进行耗时较多的操作，从而可以快速得到查询结果。在科技咨询场景下，物化视图对于那些经常重复使用相同的查询结果的热点问题查询性能大幅提升，从而快速地从物化视图中读取数据。

示例的，本公开的实施例中，在科技咨询场景下的查询任务给定产业链标签信息tag，从tag出发查询其子产业链标签，以及属于该子产业链标签的公司，然后查询以子产业链标签为起始节点，途径专利最终遍历到达公司节点的路径，统计符合该模式的公司信息和专利数量。若对每个公司都单独进行查询，耗时非常严重。但是，本公开实施例中的物化视图方法可以提前获取每个公司所拥有的专利，对每个专利判断其所属的产业链标签并聚合，得到产业链标签下的专利数量录入到“公司-产业链标签”边的属性之中，预计算的物化视图提高了查询效率。

步骤103、利用查询优化方法对图数据库进行查询，输出查询结果。

其中，本公开的实施例中，利用上述步骤102中的查询优化方法对图数据库进行查询，并输出查询的结果。以及，本公开的实施例中，查询结果可以包括节点之间在图数据库中的关联关系。

本公开提供的基于科技咨询大规模图数据的查询任务优化方法中，获取查询任务的标识，并根据查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图，然后利用查询优化方法对图数据库进行查询，输出查询结果。由此可知，本公开提出的方法中，可以根据查询任务的标识选择对应的查询优化方法，提高了查询方法的灵活性。同时，本公开提出的方法中，查询优化方法提高了科技咨询大规模图数据不同场景下查询任务的查询效率，降低了查询计算的复杂度，缩短了查询所花费的时间。

图二为根据本申请一个实施例提供的基于科技咨询大规模图数据的查询任务优化系统的结构示意图，如图2所示，所述系统可以包括：

获取模块201，用于获取查询任务的标识；

选择模块202，用于根据查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图；

显示模块203，用于利用查询优化方法对图数据库进行查询，输出查询结果。

其中，本公开的实施例中，查询任务可以包括机构、人才、产业链。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种基于科技咨询大规模图数据的查询任务优化方法，其特征在于，所述方法包括：

获取查询任务的标识；

根据所述查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图；

利用所述查询优化方法对图数据库进行查询，输出查询结果。
根据权利要求1所述的查询任务优化方法，其特征在于，所述查询任务包括机构、人才、产业链。
根据权利要求1所述的查询任务优化方法，其特征在于，所述调整图遍历展开顺序策略，包括：

S11、输入源实体节点和目标实体节点，并输入中间实体节点类型mtype，和路径模式pattern；

S12、初始化s1、s2两个节点集合，其中s1初始化为输入的源实体节点，s2初始化为输入的目标实体节点；

S13、利用pattern和mtype计算双向BFS的展开顺序，并用pattern1表示左端展开顺序，pattern2表示右端展开顺序；

S14、若s1或s2不为空，则继续执行步骤S15；否则，执行步骤S111；

S15、s为本层扩展节点的集合；

S16、交换s1和s2，交替从左端扩展和从右端扩展；

S17、对s1集合里的每个节点node，按照模式扩展node的下一层邻居节点，并用next_nodes表示；

S18、对每个next_nodes里的节点进行判断，如果节点在s集合中，即找到一条路径，进行步骤S111；

S19、将本层扩展的所有节点next_nodes加入集合s中，并将集合s复制给s1，存储路径；

S110、重复步骤S14；

S111、结束。
根据权利要求1所述的查询任务优化方法，其特征在于，所述Cardinality减少，包括：

S21、输入源实体节点和路径模式pattern；

S22、next_nodes为扩展下一层的节点集合，并初始化为按照模式扩展的源实体节点的下一层邻居节点；

S23、对next_nodes节点去重；

S24、q为节点队列，初始化为next_nodes；

S25、若q不为空，继续执行步骤S26；否则执行步骤S212；

S26、size为当前队列数量；

S27、若size不为空，继续执行步骤S28；否则执行步骤S211；

S28、弹出当前队列node节点；

S29、按照模式扩展node的下一层邻居节点next_nodes；

S210、将next_nodes加入队列q；

S211、若当前遍历完模式pattern，则继续执行步骤S212，否则执行步骤S25；

S212、结束。
根据权利要求1所述的查询任务优化方法，其特征在于，所述模式提前，包括：

S31、输入源实体节点、路径模式pattern、过滤模式filter_pattern；

S32、初始化模式提前集合filter_nodeset；

S33、q为节点队列，初始化为为输入的源实体节点；

S34、若q不为空，则继续执行步骤S35；否则执行步骤S313；

S35、初始化当前队列数量size；

S36、若size不为空，则继续进行步骤S37；否则执行步骤S312；

S37、弹出当前队列node节点；

S38、按照模式扩展node的下一层邻居节点next_nodes；

S39、判断当前next_nodes节点类型是否为filter_nodeset的节点类型，若是，则继续执行步骤S310；否则执行步骤S311；

S310、遍历next_nodes集合的节点next_node，若节点next_node在filter_nodeset集合中，则过滤掉该节点；

S311、将next_nodes加入队列q；

S312、若当前遍历完模式pattern，则继续执行步骤S313，否则执行步骤S35；

S313、结束。
一种基于科技咨询大规模图数据的查询任务优化系统，其特征在于，所述系统包括：

获取模块，用于获取查询任务的标识；

选择模块，用于根据所述查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图；

显示模块，用于利用所述查询优化方法对图数据库进行查询，输出查询结果。
根据权利要求6所述的查询任务优化系统，其特征在于，所述查询任务包括机构、人才、产业链。
一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令；所述计算机可执行指令被处理器执行后，能够实现以下步骤：

获取查询任务的标识；

根据所述查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图；

利用所述查询优化方法对图数据库进行查询，输出查询结果。
一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现以下步骤：

获取查询任务的标识；

根据所述查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图；

利用所述查询优化方法对图数据库进行查询，输出查询结果。
一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现以下步骤：

获取查询任务的标识；

根据所述查询任务的标识，选择对应的查询优化方法，其中，查询优化方法包括调整图遍历展开顺序策略、Cardinality减少、模式提前、物化视图；

利用所述查询优化方法对图数据库进行查询，输出查询结果。