WO2022142027A1

WO2022142027A1 - 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质

Info

Publication number: WO2022142027A1
Application number: PCT/CN2021/091060
Authority: WO
Inventors: 王昊; 张乐情; 罗水权; 刘剑; 李燕婷
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-31
Filing date: 2021-04-29
Publication date: 2022-07-07
Also published as: CN112732883A

Abstract

本申请为一种基于知识图谱的模糊匹配方法，涉及人工智能中的知识图谱技术领域，包括：接收携带检索句的检索请求，对检索句进行分词，得到包括查询关键字的查询词袋；根据查询词袋，查询已构建的知识图谱，得到包含查询关键字的知识图谱节点文本；根据知识图谱节点文本，查询已构建的知识图谱，得到与知识图谱节点文本对应的相似文本集合；根据预设特征词得分表，获取与查询关键字对应的关键字得分，根据关键字得分以及节点连接关系，得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分；根据第一检索得分以及第二检索得分，得到检索结果。

Description

基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2020年12月31日提交中国专利局，申请号为2020116336520，申请名称为“基于知识图谱的模糊匹配方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了模糊匹配技术，模糊匹配技术是指根据查询关键字，返回与查询关键字相关的描述。比如，常见的模糊匹配方法有搜索引擎根据查询关键字返回相关的网页链接。

传统技术中，在进行模糊匹配时，常采用的方法为基于统计的倒排索引以及基于神经网络的计算。其中，基于统计的倒排索引的查询方式为：将文本做分词处理后，通过关键字做倒排索引，根据倒排索引将文本数据库分桶或者做哈希运算。基于神经网络的计算的查询方式为：通过人工或者半人工标注的方式准备训练语料，监督训练一个相似度模型，通过该模型可以输入一个文本，输出一个隐藏向量，或者输入两个文本，直接输出相似度得分。

然而，发明人意识到，传统方法都存在模糊匹配不准确的问题。

发明内容

根据本申请公开的各种实施例，提供一种基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质。

一种基于知识图谱的模糊匹配方法包括：

接收携带检索句的检索请求，对检索句进行分词，得到包括查询关键字的查询词袋；

根据查询词袋，查询已构建的知识图谱，得到包含查询关键字的知识图谱节点文本，已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系；

根据知识图谱节点文本，查询已构建的知识图谱，根据节点连接关系得到与知识图谱节点文本对应的相似文本集合；

根据预设特征词得分表，获取与查询关键字对应的关键字得分，根据关键字得分以及节点连接关系，得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分；及

根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序，得到与检索句对应的检索结果。

一种基于知识图谱的模糊匹配装置包括：

接收模块，用于接收携带检索句的检索请求，对检索句进行分词，得到包括查询关键字的查询词袋；

第一查询模块，用于根据查询词袋，查询已构建的知识图谱，得到包含查询关键字的知识图谱节点文本，已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系；

第二查询模块，用于根据知识图谱节点文本，查询已构建的知识图谱，根据节点连接关系得到与知识图谱节点文本对应的相似文本集合；

处理模块，用于根据预设特征词得分表，获取与查询关键字对应的关键字得分，根据关键字得分以及节点连接关系，得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分；及

排序模块，用于根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序，得到与检索句对应的检索结果。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

一个或多个存储有计算机可读指令的计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

上述基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质，通过对检索句进行分词得到包括查询关键字的查询词袋，根据查询词袋查询已构建的知识图谱，能够得到包含查询关键字的知识图谱节点文本，进而可以进一步根据知识图谱节点文本，查询已构建的知识图谱，根据节点连接关系得到与知识图谱节点文本对应的相似文本集合，最后通过利用关键字得分以及知识图谱中各节点之间的节点连接关系，计算得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分，根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序，能够得到与检索句对应的检索结果，实现准确模糊匹配，提高了模糊匹配准确度。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中基于知识图谱的模糊匹配方法的应用场景图；

图2为根据一个或多个实施例中基于知识图谱的模糊匹配方法的流程示意图；

图3为另一个实施例中基于知识图谱的模糊匹配方法的流程示意图；

图4为根据一个或多个实施例中基于知识图谱的模糊匹配装置的框图；

图5为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于知识图谱的模糊匹配方法，可以应用于如图1所示的应用环境中。终端102与服务器104通过网络进行通信。当使用终端102的用户需要进行模糊匹配查询时，通过终端102发送携带检索句的检索请求至服务器104，服务器104接收携带检索句的检索请求，对检索句进行分词，得到包括查询关键字的查询词袋，根据查询词袋，查询已构建的知识图谱，得到包含查询关键字的知识图谱节点文本，已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系，根据知识图谱节点文本，查询已构建的知识图谱，根据节点连接关系得到与知识图谱节点文本对应的相似文本集合，根据预设特征词得分表，获取与查询关键字对应的关键字得分，根据关键字得分以及节点连接关系，得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分，根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序，得到与检索句对应的检索结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种基于知识图谱的模糊匹配方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，接收携带检索句的检索请求，对检索句进行分词，得到包括查询关键字的查询词袋。

具体的，当用户需要进行模糊匹配查询时，会通过终端发送携带检索句的检索请求至服务器，服务器在接收到携带检索句的检索请求后，会利用预设分词算法对检索句进行分词，并去掉分词后的停用词，得到包含查询关键字的查询词袋。其中，预设分词算法具体可以为jieba分词等，本实施例在此处不做具体限定。

步骤204，根据查询词袋，查询已构建的知识图谱，得到包含查询关键字的知识图谱节点文本，已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系。

其中，知识图谱是图书情报学领域的概念，用于绘制、分析和显示学科或学术研究主体之间的相互联系，是揭示显示科学知识发展进程与结构关系的可视化工具。在多数情况下，知识图谱采用图结构进行可视化表示，使用节点代表作者、学术机构、科学文献或关键词，使用连线代表节点间关系。在本实施例中，所构建的知识图谱是文本知识图谱，即使用节点代表文本数据，以文本相似度为连线代表节点连接关系，实现相似的文本数据之间的连接。

具体的，服务器会根据查询词袋中的查询关键字，通过文本特征词倒排索引查询已构建的知识图谱，得到包含查询关键字的知识图谱节点文本。

步骤206，根据知识图谱节点文本，查询已构建的知识图谱，根据节点连接关系得到与知识图谱节点文本对应的相似文本集合。

具体的，在得到知识图谱节点文本后，服务器会进一步根据知识图谱节点文本，查询已构建的知识图谱，根据节点连接关系确定在知识图谱中知识图谱节点文本的邻居节点，得到与知识图谱节点文本对应的相似文本集合。

步骤208，根据预设特征词得分表，获取与查询关键字对应的关键字得分，根据关键字得分以及节点连接关系，得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分。

其中，预设特征词得分表中存储有各查询关键字所对应的关键字得分。

具体的，服务器会根据预设特征词得分表，获取与查询关键字对应的关键字得分，根据关键字得分，计算知识图谱节点文本的第一检索得分，并根据关键字得分以及节点连接关系，计算相似文本集合中相似节点文本的第二检索得分。

步骤210，根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序，得到与检索句对应的检索结果。

具体的，服务器通过根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序，可以得到知识图谱中与检索句最相关的模糊匹配文本数据，根据预设检索文本阈值对排序结果进行截取，即可得到与检索句对应的检索结果。进一步的，当一个文本同时为知识图谱节点文本和相似节点文本时，其会同时存在第一检索得分和第二检索得分，此时会将第二检索得分作为该文本的最终得分。

上述基于知识图谱的模糊匹配方法，通过对检索句进行分词得到包括查询关键字的查询词袋，根据查询词袋查询已构建的知识图谱，能够得到包含查询关键字的知识图谱节点文本，进而可以进一步根据知识图谱节点文本，查询已构建的知识图谱，根据节点连接关系得到与知识图谱节点文本对应的相似文本集合，最后通过利用关键字得分以及知识图谱中各节点之间的节点连接关系，计算得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分，根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序，能够得到与检索句对应的检索结果，实现准确模糊匹配，提高了模糊匹配准确度。

在其中一个实施例中，根据关键字得分以及节点连接关系，得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分包括：

根据关键字得分，计算知识图谱节点文本的第一检索得分，并根据知识图谱节点文本，确定与相似文本集合中相似节点文本对应的目标节点文本；及

根据目标节点文本以及节点连接关系，计算相似节点文本的第二检索得分。

具体的，服务器会根据关键字得分以及各查询关键字在知识图谱节点文本中出现的情况，加权计算知识图谱节点文本的第一检索得分，并根据知识图谱节点文本，确定与相似文本集合中相似节点文本对应的目标节点文本，即与相似节点文本为邻居节点的知识图谱节点文本。在确定目标节点文本后，服务器可将目标节点文本的第一检索得分以及已构建的知识图谱中该目标节点文本与相似节点文本的节点连接关系(即文本相似度)进行加权，计算相似节点文本的第二检索得分。进一步的，若某文本同时为知识图谱节点文本和相似节点文本，则在计算第二检索得分时，可认为节点连接关系为1。

举例说明，关键字得分具体可以是指IDF值，则知识图谱节点文本的第一检索得分为所包含的查询关键字的IDF值的总和。如查找到了带“A”或“B”的文档共10篇，其中三篇只带“A”的文档score为5.1、5.1、5.1，三篇只带“B”的得分为1.2、1.2、1.2，四篇同时带“A”和“B”两个词的得分为6.3、6.3、6.3、6.3。相似节点文本的第二检索分数的计算公式为：

其中，score _i表示与相似节点文本对应的目标节点文本的检索得分，即与相似节点文本为邻居节点的知识图谱节点文本的第一检索得分，w _ij表示相似节点与邻居节点的节点连接关系，即在构造知识图谱时的文本相似度，当相似节点文本本身就是知识图谱文本节点时，可得到w _ij为1。

本实施例中，通过根据关键字得分，计算知识图谱节点文本的第一检索得分，并根据知识图谱节点文本，确定与相似文本集合中相似节点文本对应的目标节点文本，根据目标节点文本以及节点连接关系，计算相似节点文本的第二检索得分，能够实现对第一检索得分和第二检索得分的计算。

在其中一个实施例中，在根据查询词袋，查询已构建的知识图谱，得到包含查询关键字的知识图谱节点文本之前，方法还包括：

获取文本数据集，对文本数据集中文本数据进行分词，得到与文本数据对应的词语集合；

将词语集合输入已训练的词向量模型，得到与词语集合对应的词向量集合，根据词向量集合，得到与文本数据对应的文本向量；

根据文本向量、词语集合以及预设词频统计算法，计算文本数据集中文本数据之间的文本相似度，确定与文本数据对应的目标相似文本；及

根据目标相似文本，以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系，构建知识图谱。

其中，文本数据集是指由所有可用于模糊匹配的文本数据构成的集合，可用于模糊匹配的文本数据具体可以是文章、句子以及实体等。分词是指对文本数据进行词语拆分，将文本数据拆分为多个词语。已训练的词向量模型用于得到与词语对应的词向量，即输入词语，得到词向量的模型。举例说明，词向量模型具体可以是word2vec模型或bert等其他神经网络。文本向量是指与词向量集合中各词向量的向量维度相同的向量，用于表征文本数据的特征。

其中，预设词频统计算法是指用于对词语出现频率进行统计的算法，举例说明，词频统计算法具体可以是IF-IDF算法、bm25算法等。文本相似度用于表征两个文本数据的相似程度，文本相似度越大，两个文本数据越相似，这里的相似具体可以是指文本数据所描述的内容接近或者有关联。目标相似文本是指筛选出的与文本数据相似的文本。

具体的，服务器会从预设文本数据库中获取文本数据集，对文本数据集中文本数据进行分词，将文本数据拆分为多个词语，得到与文本数据对应的词语集合。其中，进行分词的方式具体可以为jieba分词等，本实施例在此处不做具体限定。在得到词语集合后，服务器会将词语集合中各词语输入已训练的词向量模型，得到各词语对应的词向量，根据各词语对应的词向量，得到与词语集合对应的词向量集合，通过计算词向量集合中各词向量的相同维度平均值，得到与文本数据对应的文本向量。

进一步的，在将词语集合中各词语输入已训练的词向量模型，得到各词语对应的词向量之前，服务器会从预设文本数据库中获取样本文本数据，利用样本文本数据对初始词向量模型进行训练，得到已训练的词向量模型。如前面举例说明，这里的词向量模型具体可以是word2vec模型或bert等其他神经网络，本实施例在此处不对词向量模型做具体限定。

具体的，服务器在利用根据文本向量、词语集合以及预设词频统计算法，确定与文本数据对应的目标相似文本时，采用的是二重相似比对的方式，即先通过词语集合以及预设词频统计算法，从文本数据集中筛选出一部分与文本数据相关的相似文本，再利用文本向量进一步从这些筛选出的与文本数据相关的相似文本中筛选出目标相似文本。

具体的，服务器会以文本数据为节点，以与文本数据对应的目标相似文本作为其邻居节点，并以与目标相似文本对应的文本相似度为节点与邻居节点之间的节点连接关系，构建知识图谱。进一步的，服务器会给每个文本数据设置文本编号，生成文本编号表，以文本编号为节点构建知识图谱，当在查询知识图谱时，先确定对应的文本编号，再根据文本编号查询所生成的文本编号表，以反馈对应的文本数据。

本实施例中，通过对文本数据进行分词，利用分词后的词语集合所对应的词向量，得到与文本数据对应的文本向量，根据文本向量、词语集合以及预设词频统计算法，计算文本数据集中文本数据之间的文本相似度，可以利用文本相似度实现对与文本数据对应的目标相似文本的确定，进而可以根据目标相似文本，以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系，构建知识图谱，从而可以利用所构建的知识图谱实现准确模糊匹配，能够提高模糊匹配准确度。

在其中一个实施例中，根据词向量集合，得到与文本数据对应的文本向量包括：

根据词向量集合，计算词向量集合中各词向量的相同维度平均值；及

归集相同维度平均值，得到与文本数据对应的文本向量。

其中，词向量是多维度向量，相同维度平均值是指词向量中各相同维度的平均值。举例说明，词向量具体可以为M维向量，则相同维度平均值是指词向量中第一维度的维度值平均值、第二维度的维度值平均值…第M维度的维度值平均值等。文本向量是指与词向量集合中各词向量的向量维度相同的向量，用于表征文本数据的特征。举例说明，当词向量为M维向量时，文本向量也为M维向量，文本向量中的每一维度的维度值根据与文本数据对应的词向量集合的相同维度平均值得到，即每一维度的维度值为同维度所对应的相同维度平均值。举例说明，文本向量中的第一维度的维度值为与文本数据对应的词向量的第一维度的维度平均值。

具体的，服务器会根据词向量集合，计算词向量集合中各词向量的相同维度平均值，归集相同维度平均值，将相同维度平均值，作为与词向量集合对应的文本数据对应的文本向量的各相同维度的维度值。

举例说明，将文本数据中所有词向量按维度求平均后得到的文本向量为

其中V _m为文本向量，T为该文本中所有词语数，x _k,m为该文本中第k个词向量的第m维数值)，作为该文本数据的文本向量由词向量得到，因此维度也是M。

本实施例中，通过根据词向量集合，计算词向量集合中各词向量的相同维度平均值，归集相同维度平均值，得到与文本数据对应的文本向量，能够实现对文本数据的文本向量的构建。

在其中一个实施例中，根据文本向量、词语集合以及预设词频统计算法，计算文本数据集中文本数据之间的文本相似度，确定与文本数据对应的目标相似文本包括：

根据词语集合以及预设词频统计算法，得到文本数据集中与文本数据相关的预设数量相似文本；

根据文本向量，计算文本数据与预设数量相似文本中相似文本的文本相似度；及

根据文本相似度，选取出与文本数据对应的目标相似文本。

具体的，服务器会先根据词语集合以及预设词频统计算法，确定词语集合中的文本特征词，再根据文本特征词构建每个文本数据的词频矩阵，利用文本数据的词频矩阵确定文本数据集中与文本数据相关的预设数量相似文本，再根据文本向量，计算文本数据与预设数量相似文本中相似文本之间的文本相似度，根据文本相似度，选取出与文本数据对应的预设目标数量目标相似文本。其中，预设数量和预设目标数量可按照需要自行设置，但是需满足预设数量大于预设目标数量，优选的，可设置预设数量远远大于预设目标数量。

进一步的，在利用文本向量，计算文本数据与预设数量相似文本中相似文本的文本相似度时，可以采用余弦相似度等相似度计算方式进行计算，本实施例在此处不做具体限定。举例说明，若采用余弦相似度计算，则对应的计算公式可以为：

其中r _i,j代表文本数据i和文本数据j的相似度，V _i,m代表文本数据i的文本向量的第m维的数值。

本实施例中，通过利用词语集合、预设词频统计算法以及文本向量进行两次文本相似度筛选，能够选取出准确的与文本数据对应的目标相似文本。

在其中一个实施例中，根据词语集合以及预设词频统计算法，得到文本数据集中与文本数据相关的预设数量相似文本包括：

根据词语集合以及预设词频统计算法进行词频统计，得到文本特征词；

根据文本特征词遍历词语集合，得到与文本数据对应的词频矩阵；

根据词频矩阵，计算两两文本数据之间的词频相似度；及

根据词频相似度，得到文本数据集中与文本数据相关的预设数量相似文本。

其中，词频矩阵用于表示各文本特征词在文本数据中出现的词频。比如，这里的词频具体可以是指各文本特征词的IF-IDF值。比如，当文本特征词A、B、C在文本数据1中出现的次数分别为0、3、4时，可根据该出现次数以及文本特征词A、B、C的IDF值，计算文本特征词A、B、C与文本数据1所对应的IF-IDF值，根据该IF-IDF值得到词频矩阵。词频相似度用于表征文本数据之间的词频的相似程度，这里的词频的相似程度具体可以是指文本数据所包含的词语的重复度。

具体的，服务器会根据词语集合以及预设词频统计算法进行词频统计，从词语集合中筛选出词频最高的预设特征词数量个文本特征词，根据文本特征词遍历词语集合，统计文本特征词在文本数据中出现的情况，得到与文本数据对应的词频矩阵。在得到词频矩阵后，服务器会根据词频矩阵，计算两两文本数据之间的词频相似度，根据词频相似度对文本数据集中文本数据的相关程度进行排序，得到与每个文本数据相关的预设数量相似文本。其中，预设特征词数量可按照需要自行设置。

本实施例中，通过先得到文本特征词，再根据文本特征词得到与文本数据对应的词频矩阵，最后根据词频矩阵，计算两两文本数据之间的词频相似度，能够利用词频相似度实现文本相似度比对，确定与文本数据相关的预设数量相似文本。

在其中一个实施例中，预设词频统计算法为IF-IDF算法，根据词语集合以及预设词频统计算法进行词频统计，得到文本特征词包括：

利用IF-IDF算法计算出词语集合中每个词语对应的IF-IDF值；及

根据IF-IDF值对词语进行排序，从中筛选出IF-IDF值最高的预设特征词数量个文本特征词。

在其中一个实施例中，根据文本特征词遍历词语集合，得到与文本数据对应的词频矩阵包括：

根据文本特征词遍历词语集合，得到每个文本特征词与文本数据对应的IF值；

获取文本特征词的IDF值，根据IF值和文本特征词的IDF值，得到每个文本特征词与文本数据对应的IF-IDF值；及

根据每个文本特征词与文本数据对应的IF-IDF值，得到与文本数据对应的词频矩阵，在词频矩阵中同一位置的元素值表示同一个文本特征词在各文本数据中出现的词频。

具体的，服务器先利用IF-IDF算法计算出词语集合中每个词语的IF-IDF值，利用每个词语的IF-IDF值对词语进行排序，从中筛选出IF-IDF值最高的预设特征词数量个文本特征词，再根据文本特征词遍历各文本数据的词语集合，统计文本特征词在文本数据中出现的情况，即针对每个文本数据而言每个文本特征词的IF值，最后根据该IF值，和文本特征词的IDF值，得到针对每个文本数据而言每个文本特征词的IF-IDF值，根据该IF-IDF值得到文本数据的词频矩阵，在词频矩阵中同一位置的元素值表示同一个文本特征词在各文本数据中出现的词频。

在其中一个实施例中，在根据文本特征词遍历词语集合，得到与文本数据对应的词频矩阵之后，方法还包括：

根据词频矩阵，得到文本特征词的特征词得分；及

在根据目标相似文本，以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系，构建知识图谱之后，方法还包括：

根据知识图谱的节点构造文本特征词倒排索引，并记录文本特征词的特征词得分，得到特征词得分表。

其中，文本特征词的特征词得分用于表征文本特征词在文本数据集中的词频。比如，特征词得分具体可以是文本特征词针对文本数据集而言的IDF值。

具体的，服务器会根据词频矩阵，计算文本特征词的特征词得分，并在构建知识图谱之后，根据知识图谱的节点构造以文本特征词为依据的倒排索引，并记录文本特征词的特征词得分，得到特征词得分表并存储。

本实施例中，通过根据词频矩阵，得到文本特征词的特征词得分，记录文本特征词的特征词得分，得到特征词得分表，能够实现对特征词得分表的获取，同时通过根据知识图谱的节点构造文本特征词倒排索引，能够提高检索效率。

在其中一个实施例中，如图3所示，通过一个流程示意图来说明本申请的基于知识图谱的模糊匹配方法，该基于知识图谱的模糊匹配方法包括以下步骤：

步骤S302，获取文本数据集，对文本数据集中文本数据进行分词，得到与文本数据对应的词语集合；

步骤S304，将词语集合输入已训练的词向量模型，得到与词语集合对应的词向量集合，根据词向量集合，得到与文本数据对应的文本向量；

步骤S306，根据文本向量、词语集合以及预设词频统计算法，计算文本数据集中文本数据之间的文本相似度，确定与文本数据对应的目标相似文本；

步骤S308，根据目标相似文本，以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系，构建知识图谱；

步骤S310，接收携带检索句的检索请求，对检索句进行分词，得到包括查询关键字的查询词袋；

步骤S312，根据查询词袋，查询已构建的知识图谱，得到包含查询关键字的知识图谱节点文本；

步骤S314，根据知识图谱节点文本，查询已构建的知识图谱，根据节点连接关系得到与知识图谱节点文本对应的相似文本集合；

步骤S316，根据预设特征词得分表，获取与查询关键字对应的关键字得分，根据关键字得分以及节点连接关系，得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分；及

步骤S318，根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序，得到与检索句对应的检索结果。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图4所示，提供了一种基于知识图谱的模糊匹配装置，包括：接收模块402、第一查询模块404、第二查询模块406、处理模块408和排序模块410，其中：

接收模块402，用于接收携带检索句的检索请求，对检索句进行分词，得到包括查询关键字的查询词袋；

第一查询模块404，用于根据查询词袋，查询已构建的知识图谱，得到包含查询关键字的知识图谱节点文本，已构建的知识图谱以文本数据为节点、并以与文本数据对应的文本相似度为节点连接关系；

第二查询模块406，用于根据知识图谱节点文本，查询已构建的知识图谱，根据节点连接关系得到与知识图谱节点文本对应的相似文本集合；

处理模块408，用于根据预设特征词得分表，获取与查询关键字对应的关键字得分，根据关键字得分以及节点连接关系，得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分；及

排序模块410，用于根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序，得到与检索句对应的检索结果。

上述基于知识图谱的模糊匹配装置，通过对检索句进行分词得到包括查询关键字的查询词袋，根据查询词袋查询已构建的知识图谱，能够得到包含查询关键字的知识图谱节点文本，进而可以进一步根据知识图谱节点文本，查询已构建的知识图谱，得到与知识图谱节点文本对应的相似文本集合，最后通过利用关键字得分以及知识图谱中各节点之间的节点连接关系，计算得到知识图谱节点文本的第一检索得分以及相似文本集合中相似节点文本的第二检索得分，根据第一检索得分以及第二检索得分对知识图谱节点文本以及相似节点文本进行排序，能够得到与检索句对应的检索结果，实现准确模糊匹配，提高了模糊匹配准确度。

在其中一个实施例中，处理模块还用于根据关键字得分，计算知识图谱节点文本的第一检索得分，并根据知识图谱节点文本，确定与相似文本集合中相似节点文本对应的目标节点文本，根据目标节点文本以及节点连接关系，计算相似节点文本的第二检索得分。

在其中一个实施例中，基于知识图谱的模糊匹配装置还包括知识图谱构建模块，知识图谱构建模块用于获取文本数据集，对文本数据集中文本数据进行分词，得到与文本数据对应的词语集合，将词语集合输入已训练的词向量模型，得到与词语集合对应的词向量集合，根据词向量集合，得到与文本数据对应的文本向量，根据文本向量、词语集合以及预设词频统计算法，计算文本数据集中文本数据之间的文本相似度，确定与文本数据对应的目标相似文本，根据目标相似文本，以文本数据为节点并以与目标相似文本对应的文本相似度为节点连接关系，构建知识图谱。

在其中一个实施例中，知识图谱构建模块还用于根据词向量集合，计算词向量集合中各词向量的相同维度平均值，归集相同维度平均值，得到与文本数据对应的文本向量。

在其中一个实施例中，知识图谱构建模块还用于根据词语集合以及预设词频统计算法，得到文本数据集中与文本数据相关的预设数量相似文本，根据文本向量，计算文本数据与预设数量相似文本中相似文本的文本相似度，根据文本相似度，选取出与文本数据对应的目标相似文本。

在其中一个实施例中，知识图谱构建模块还用于根据词语集合以及预设词频统计算法进行词频统计，得到文本特征词，根据文本特征词遍历词语集合，得到与文本数据对应的词频矩阵，根据词频矩阵，计算两两文本数据之间的词频相似度，根据词频相似度，得到文本数据集中与文本数据相关的预设数量相似文本。

在其中一个实施例中，知识图谱构建模块还用于利用IF-IDF算法计算出词语集合中每个词语对应的IF-IDF值，根据IF-IDF值对词语进行排序，从中筛选出IF-IDF值最高的预设特征词数量个文本特征词。

在其中一个实施例中，知识图谱构建模块还用于根据文本特征词遍历词语集合，得到每个文本特征词与文本数据对应的IF值，获取文本特征词的IDF值，根据IF值和文本特征词的IDF值，得到每个文本特征词与文本数据对应的IF-IDF值，根据每个文本特征词与文本数据对应的IF-IDF值，得到与文本数据对应的词频矩阵，在词频矩阵中同一位置的元素值表示同一个文本特征词在各文本数据中出现的词频。

在其中一个实施例中，知识图谱构建模块还用于根据词频矩阵，得到文本特征词的特征词得分，以及根据知识图谱的节点构造文本特征词倒排索引，并记录文本特征词的特征词得分，得到特征词得分表。

关于基于知识图谱的模糊匹配装置的具体限定可以参见上文中对于基于知识图谱的模糊匹配方法的限定，在此不再赘述。上述基于知识图谱的模糊匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性或易失性存储介质、内存储器。该非易失性或易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储文本数据集等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于知识图谱的模糊匹配方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，提供了一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：

归集相同维度平均值，得到与文本数据对应的文本向量。

根据文本相似度，选取出与文本数据对应的目标相似文本。

根据词频矩阵，计算两两文本数据之间的词频相似度；及

利用IF-IDF算法计算出词语集合中每个词语对应的IF-IDF值；及

根据词频矩阵，得到文本特征词的特征词得分。

在其中一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种基于知识图谱的模糊匹配方法，包括：

接收携带检索句的检索请求，对所述检索句进行分词，得到包括查询关键字的查询词袋；

根据所述查询词袋，查询已构建的知识图谱，得到包含所述查询关键字的知识图谱节点文本，所述已构建的知识图谱以文本数据为节点、并以与所述文本数据对应的文本相似度为节点连接关系；

根据所述知识图谱节点文本，查询所述已构建的知识图谱，根据所述节点连接关系得到与所述知识图谱节点文本对应的相似文本集合；

根据预设特征词得分表，获取与所述查询关键字对应的关键字得分，根据所述关键字得分以及所述节点连接关系，得到所述知识图谱节点文本的第一检索得分以及所述相似文本集合中相似节点文本的第二检索得分；及

根据所述第一检索得分以及所述第二检索得分对所述知识图谱节点文本以及所述相似节点文本进行排序，得到与所述检索句对应的检索结果。
根据权利要求1所述的方法，其中，所述根据所述关键字得分以及所述节点连接关系，得到所述知识图谱节点文本的第一检索得分以及所述相似文本集合中相似节点文本的第二检索得分，包括：

根据所述关键字得分，计算所述知识图谱节点文本的第一检索得分，并根据所述知识图谱节点文本，确定与所述相似文本集合中相似节点文本对应的目标节点文本；及

根据所述目标节点文本以及所述节点连接关系，计算所述相似节点文本的第二检索得分。
根据权利要求1所述的方法，其中，在所述根据所述查询词袋，查询已构建的知识图谱，得到包含所述查询关键字的知识图谱节点文本之前，所述方法还包括：

获取文本数据集，对所述文本数据集中文本数据进行分词，得到与所述文本数据对应的词语集合；

将所述词语集合输入已训练的词向量模型，得到与所述词语集合对应的词向量集合，根据所述词向量集合，得到与所述文本数据对应的文本向量；

根据所述文本向量、所述词语集合以及预设词频统计算法，计算所述文本数据集中文本数据之间的文本相似度，确定与所述文本数据对应的目标相似文本；及

根据所述目标相似文本，以所述文本数据为节点、并以与所述目标相似文本对应的文本相似度为节点连接关系，构建知识图谱。
根据权利要求3所述的方法，其中，所述根据所述词向量集合，得到与所述文本数据对应的文本向量，包括：

根据所述词向量集合，计算所述词向量集合中各词向量的相同维度平均值；及

归集所述相同维度平均值，得到与所述文本数据对应的文本向量。
根据权利要求3所述的方法，其中，所述根据所述文本向量、所述词语集合以及预设词频统计算法，计算所述文本数据集中文本数据之间的文本相似度，确定与所述文本数据对应的目标相似文本，包括：

根据所述词语集合以及预设词频统计算法，得到所述文本数据集中与所述文本数据相关的预设数量相似文本；

根据所述文本向量，计算所述文本数据与所述预设数量相似文本中相似文本的文本相似度；及

根据所述文本相似度，选取出与所述文本数据对应的目标相似文本。
根据权利要求5所述的方法，其中，所述根据所述词语集合以及预设词频统计算法，得到所述文本数据集中与所述文本数据相关的预设数量相似文本，包括：

根据所述词语集合以及预设词频统计算法进行词频统计，得到文本特征词；

根据文本特征词遍历所述词语集合，得到与所述文本数据对应的词频矩阵；

根据所述词频矩阵，计算两两文本数据之间的词频相似度；及

根据所述词频相似度，得到所述文本数据集中与所述文本数据相关的预设数量相似文本。
根据权利要求6所述的方法，其中，所述预设词频统计算法为IF-IDF算法，所述根据所述词语集合以及预设词频统计算法进行词频统计，得到文本特征词，包括：

利用IF-IDF算法计算出词语集合中每个词语对应的IF-IDF值；及

根据所述IF-IDF值对词语进行排序，从中筛选出IF-IDF值最高的预设特征词数量个文本特征词。
根据权利要求6所述的方法，其中，所述根据文本特征词遍历所述词语集合，得到与所述文本数据对应的词频矩阵，包括：

根据文本特征词遍历所述词语集合，得到每个文本特征词与文本数据对应的IF值；

获取文本特征词的IDF值，根据所述IF值和所述文本特征词的IDF值，得到每个文本特征词与文本数据对应的IF-IDF值；及

根据每个文本特征词与文本数据对应的IF-IDF值，得到与所述文本数据对应的词频矩阵，在所述词频矩阵中同一位置的元素值表示同一个文本特征词在各文本数据中出现的词频。
根据权利要求6所述的方法，其中，在所述根据文本特征词遍历所述词语集合，得到与所述文本数据对应的词频矩阵之后，所述方法还包括：

根据所述词频矩阵，得到文本特征词的特征词得分；及

所述根据所述目标相似文本，以所述文本数据为节点并以与所述目标相似文本对应的文本相似度为节点连接关系，构建知识图谱之后，还包括：

根据所述知识图谱的节点构造文本特征词倒排索引，并记录所述文本特征词的特征词得分，得到特征词得分表。
一种基于知识图谱的模糊匹配装置，包括：

接收模块，用于接收携带检索句的检索请求，对所述检索句进行分词，得到包括查询关键字的查询词袋；

第一查询模块，用于根据所述查询词袋，查询已构建的知识图谱，得到包含所述查询关键字的知识图谱节点文本，所述已构建的知识图谱以文本数据为节点、并以与所述文本数据对应的文本相似度为节点连接关系；

第二查询模块，用于根据所述知识图谱节点文本，查询所述已构建的知识图谱，根据所述节点连接关系得到与所述知识图谱节点文本对应的相似文本集合；

处理模块，用于根据预设特征词得分表，获取与所述查询关键字对应的关键字得分，根据所述关键字得分以及所述节点连接关系，得到所述知识图谱节点文本的第一检索得分以及所述相似文本集合中相似节点文本的第二检索得分；及

排序模块，用于根据所述第一检索得分以及所述第二检索得分对所述知识图谱节点文本以及所述相似节点文本进行排序，得到与所述检索句对应的检索结果。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收携带检索句的检索请求，对所述检索句进行分词，得到包括查询关键字的查询词袋；

根据所述查询词袋，查询已构建的知识图谱，得到包含所述查询关键字的知识图谱节点文本，所述已构建的知识图谱以文本数据为节点、并以与所述文本数据对应的文本相似度为节点连接关系；

根据所述知识图谱节点文本，查询所述已构建的知识图谱，根据所述节点连接关系得到与所述知识图谱节点文本对应的相似文本集合；

根据预设特征词得分表，获取与所述查询关键字对应的关键字得分，根据所述关键字得分以及所述节点连接关系，得到所述知识图谱节点文本的第一检索得分以及所述相似文本集合中相似节点文本的第二检索得分；及

根据所述第一检索得分以及所述第二检索得分对所述知识图谱节点文本以及所述相似节点文本进行排序，得到与所述检索句对应的检索结果。
根据权利要求11所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据所述关键字得分，计算所述知识图谱节点文本的第一检索得分，并根据所述知识图谱节点文本，确定与所述相似文本集合中相似节点文本对应的目标节点文本；及

根据所述目标节点文本以及所述节点连接关系，计算所述相似节点文本的第二检索得分。
根据权利要求11所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取文本数据集，对所述文本数据集中文本数据进行分词，得到与所述文本数据对应的词语集合；

将所述词语集合输入已训练的词向量模型，得到与所述词语集合对应的词向量集合，根据所述词向量集合，得到与所述文本数据对应的文本向量；

根据所述文本向量、所述词语集合以及预设词频统计算法，计算所述文本数据集中文本数据之间的文本相似度，确定与所述文本数据对应的目标相似文本；及

根据所述目标相似文本，以所述文本数据为节点、并以与所述目标相似文本对应的文本相似度为节点连接关系，构建知识图谱。
根据权利要求13所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据所述词向量集合，计算所述词向量集合中各词向量的相同维度平均值；及

归集所述相同维度平均值，得到与所述文本数据对应的文本向量。
根据权利要求13所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据所述词语集合以及预设词频统计算法，得到所述文本数据集中与所述文本数据相关的预设数量相似文本；

根据所述文本向量，计算所述文本数据与所述预设数量相似文本中相似文本的文本相似度；及

根据所述文本相似度，选取出与所述文本数据对应的目标相似文本。
一个或多个存储有计算机可读指令的计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

接收携带检索句的检索请求，对所述检索句进行分词，得到包括查询关键字的查询词袋；

根据所述查询词袋，查询已构建的知识图谱，得到包含所述查询关键字的知识图谱节点文本，所述已构建的知识图谱以文本数据为节点、并以与所述文本数据对应的文本相似度为节点连接关系；

根据所述知识图谱节点文本，查询所述已构建的知识图谱，根据所述节点连接关系得到与所述知识图谱节点文本对应的相似文本集合；

根据预设特征词得分表，获取与所述查询关键字对应的关键字得分，根据所述关键字得分以及所述节点连接关系，得到所述知识图谱节点文本的第一检索得分以及所述相似文本集合中相似节点文本的第二检索得分；及

根据所述第一检索得分以及所述第二检索得分对所述知识图谱节点文本以及所述相似节点文本进行排序，得到与所述检索句对应的检索结果。
根据权利要求16所述的存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

根据所述关键字得分，计算所述知识图谱节点文本的第一检索得分，并根据所述知识图谱节点文本，确定与所述相似文本集合中相似节点文本对应的目标节点文本；及

根据所述目标节点文本以及所述节点连接关系，计算所述相似节点文本的第二检索得分。
根据权利要求16所述的存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取文本数据集，对所述文本数据集中文本数据进行分词，得到与所述文本数据对应的词语集合；

将所述词语集合输入已训练的词向量模型，得到与所述词语集合对应的词向量集合，根据所述词向量集合，得到与所述文本数据对应的文本向量；

根据所述文本向量、所述词语集合以及预设词频统计算法，计算所述文本数据集中文本数据之间的文本相似度，确定与所述文本数据对应的目标相似文本；及

根据所述目标相似文本，以所述文本数据为节点、并以与所述目标相似文本对应的文本相似度为节点连接关系，构建知识图谱。
根据权利要求18所述的存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

根据所述词向量集合，计算所述词向量集合中各词向量的相同维度平均值；及

归集所述相同维度平均值，得到与所述文本数据对应的文本向量。
根据权利要求18所述的存储介质，其中，所述计算机可读指令被所述处理器执行时还执行以下步骤：

根据所述词语集合以及预设词频统计算法，得到所述文本数据集中与所述文本数据相关的预设数量相似文本；

根据所述文本向量，计算所述文本数据与所述预设数量相似文本中相似文本的文本相似度；及

根据所述文本相似度，选取出与所述文本数据对应的目标相似文本。