WO2021120627A1

WO2021120627A1 - 数据搜索匹配方法、装置、计算机设备和存储介质

Info

Publication number: WO2021120627A1
Application number: PCT/CN2020/105007
Authority: WO
Inventors: 董润华; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-12-18
Filing date: 2020-07-28
Publication date: 2021-06-24
Also published as: CN111177405A

Abstract

一种数据搜索匹配方法、装置、计算机设备和计算机可读存储介质，涉及大数据技术领域中的数据挖掘，数据搜索匹配方法包括：获取待搜索的关键词以及关键词对应的事件图谱；根据事件图谱中各节点之间的关系，计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词；根据目标百科图谱中各节点之间的关系，计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词；将关键词、第一拓展关键词以及第二拓展关键词合并，获得关键词集合，基于关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。

Description

数据搜索匹配方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2019年12月18日提交中国专利局，申请号为201911311777.9，申请名称为“数据搜索匹配方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，特别是涉及一种数据搜索匹配方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，搜索引擎作为基于互联网数据检索的主要手段，用户可通过搜索引擎获取搜索结果。搜索引擎根据用户输入的关键词检索得到相关信息，并将检索获得的相关信息作为搜索结果展示给用户。

传统的搜索引擎大多采用通用搜索引擎，通用搜索引擎通过对输入的检索内容进行分词处理，然后再根据分词处理得到的关键词进行匹配。然而，发明人意识到，发明人意识到，这种将分词结果作为关键词的搜索方法，无法对检索内容进行解析，实现搜索其中隐含内容相关的信息，比如搜索获得的结果中排在前面的搜索结果未必与用户搜索主题匹配，导致搜索的匹配结果精准度不高。

发明内容

根据本申请公开的各种实施例，提供一种数据搜索匹配方法、装置、计算机设备和存储介质。

一种数据搜索匹配方法包括：

获取待搜索的关键词以及所述关键词对应的事件图谱；

根据所述事件图谱中各节点之间的关系，计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词；

根据所述目标百科图谱中各节点之间的关系，计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词，所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱；

将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并，获得关键词集合；及

基于所述关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。

一种数据搜索匹配装置包括：

获取模块，用于获取待搜索的关键词以及所述关键词对应的事件图谱；

第一拓展模块，用于根据所述事件图谱中各节点之间的关系，计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词；

第二拓展模块，用于根据所述目标百科图谱中各节点之间的关系，计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词，所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱；及

搜索结果获取模块，用于将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并，获得关键词集合，基于所述关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待搜索的关键词以及所述关键词对应的事件图谱；

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现数据搜索匹配方法，其中，所述数据搜索匹配方法包括以下步骤：

获取待搜索的关键词以及所述关键词对应的事件图谱；

上述数据搜索匹配方法、装置、计算机设备和计算机可读存储介质，根据待搜索的关键词在事件图谱中所属节点与图谱中节点间的距离进行拓展，获得第一拓展关键词，基于关键词所属搜索领域对应的目标百科图谱，根据关键词在目标百科图谱中所属节点与图谱中节点间的距离进行拓展，获得第二拓展关键词，将关键词以及拓展后的关键词合并，获得关键词集合，根据关键词集合进行搜索，获得搜索结果，通过上述方式进行搜索能够更加精准的匹配搜索主体的搜索，从而提高搜索匹配结果的精确度。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中数据搜索匹配方法的应用场景图；

图2为根据一个或多个实施例中数据搜索匹配方法的流程示意图；

图3为根据一个或多个实施例中目标百科图谱构建步骤的流程示意图；

图4为另一个实施例中数据搜索匹配方法的流程示意图；

图5为根据一个或多个实施例中数据搜索匹配装置的框图；

图6为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据搜索匹配方法，可以应用于如图1所示的应用环境中。搜索主体在搜索框内输入关键词，数据处理终端获取待搜索的关键词以及关键词对应的事件图谱，根据事件图谱中各节点之间的关系，计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词；根据目标百科图谱中各节点之间的关系，计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词，其中，目标百科图谱为关键词所属搜索领域对应的百科图谱；将关键词、第一拓展关键词以及第二拓展关键词合并，获得关键词集合，基于关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。其中，数据处理终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑。

在其中一个实施例中，如图2所示，提供了一种数据搜索匹配方法，以该方法应用于图1中的数据处理终端为例进行说明，包括以下步骤：

步骤202，获取待搜索的关键词以及关键词对应的事件图谱。

搜索主体可以在搜索框中输入关键词进行搜索，比如，用户可以在搜索框中输入中美贸易战进行搜索。获取某个领域的资讯数据，根据该领域的资讯数据抽取出事件图谱，事件图谱中包括大量不同的词和事件。比如，用户输入某个待搜索的关键词，在预设的事件图谱中查找，获得关键词对应的事件图谱。再根据该关键词在该事件图谱的节点中进行搜索，获取该关键词所属节点。事件是指特定时间、特定地点发生的事情，事件抽取具体可以是元事件抽取。其中，元事件表示一个动作的发生或状态的变化，由表示动作的动词或名词来驱动，包括参与该动作行为的主要成分，比如时间、地点、人物等。事件由事件触发和描述事件结构的元素组成，事件触发词是指用来表示事件发生的核心词，如动词或名词。元素指表示事件的参与者、时间、地点等属性信息。事件抽取包括事件识别和事件元素识别，事件元素识别即根据预先设定的事件模板，抽取相应的元素。可以基于模式匹配、基于机器学习、基于神经网络等事件抽取方法实现元事件抽取，其中，基于神经网络的事件抽取方法是指将事件抽取转换成一个有监督的多元分类任务，包括句子篇章级事件抽取、基于联合模型、融合外部资源的神经网络事件抽取方法等。事件图谱是以事件为基础信息的结构化表示方式，图谱中的节点表示事件提及，节点之间的边表示事件提及之间的时间关系和指代关系。

步骤204，根据事件图谱中各节点之间的关系，计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词。

可以通过BP算法计算词距离，首先获得语料库的词列表，对词列表中的每个词构建单位向量，计算全连接前向神经网络输出值，根据误差由后向反馈网络修正权值，循环上述步骤直至满足终止条件。

以养猪业事件图谱作为预设的事件图谱为例，比如，用户输入的关键词为中美贸易战，将中美贸易战在预先已构建的养猪业事件图谱中查询距离中美贸易战节点最近的相关事件节点，返回事件类型和关联的节点，比如查询得到的相关事件结果为：金融事件对应的节点是“金融危机”以及冲突事件对应的节点是“贸易摩擦”，此时，第一拓展关键词包括金融危机和贸易摩擦。

步骤206，根据目标百科图谱中各节点之间的关系，计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词，目标百科图谱为关键词所属搜索领域对应的百科图谱。

比如，图谱中的一个节点A，A的下级节点为a1。与a1节点同级存在一个a2节点， a1节点的下级存在一个a11节点。距离小于第二预设阈值的节点具体可以是与关键词节点距离中最近的三个节点，比如，与关键词节点a1距离最近的三个节点可以是其上级节点A、同级节点a2以及下级节点a11。一般而言，通过设置预设阈值获取到的节点为与关键词节点距离最近的三个节点，这样可以保证关键词集合的质量。

以养猪业作为搜索领域为例，将a1在预先已构建的养猪业百科图谱中查询直接关联的节点，比如查询的结果为：猪肉价格和种猪疫苗，此时，第二拓展关键词包括猪肉价格和种猪疫苗。

步骤208，将关键词、第一拓展关键词以及第二拓展关键词合并，获得关键词集合。

具体可以按照事件类型将第一拓展关键词和第二拓展关键词及输入的关键词分别合并，比如事件图谱返回的事件类型包括金融事件和冲突事件，对应的，关键词集合包括金融事件关键词集合以及冲突时间关键词集合。

步骤210，基于关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。

预设的搜索与分析引擎可以是ElasticSearch搜索与分析引擎，具体可以通过合并后的关键词集合在基于ElasticSearch搜索与分析引擎已构建的养猪业资讯库中搜索最相关的前50条新闻。比如搜索出两个事件类型：金融事件和冲突事件，则对应的搜索结果为两个50条新闻集合结果。

上述数据搜索匹配方法，根据待搜索的关键词在事件图谱中所属节点与图谱中节点间的距离进行拓展，获得第一拓展关键词，基于关键词所属搜索领域对应的目标百科图谱，根据关键词在目标百科图谱中所属节点与图谱中节点间的距离进行拓展，获得第二拓展关键词，将关键词以及拓展后的关键词合并，获得关键词集合，根据关键词集合进行搜索，获得搜索结果，通过上述方式进行搜索能够更加精准的匹配搜索主体的搜索，从而提高搜索匹配结果的精确度。

在其中一个实施例中，数据搜索匹配方法还包括：获取数据库数据，对数据库数据进行自然语言处理，提取事件图谱中节点词以及节点关系词，节点关系词表征各节点之间的连接关系；及根据节点词以及节点关系词生成预设的事件图谱。其中，获取数据库数据之前，还包括：获取数据源地址列表、开始页码、结束页码以及采集时间；根据采集时间，提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据；及解析新闻数据中的标题和正文数据，并将解析结果存储至预设数据库，生成数据库数据。比如，当需要构建金融事件图谱时，可以设置采集金融财经类的新闻数据。这样可以自动采集数据，节省时间，提高效率。具体地，对数据库数据进行自然语言处理，提取节点以及节点之间的关系包括：通过自然语言处理模型从数据库数据中提取数据关键词；将词频-逆向文件频率高于预设值的数据关键词作为节点词，并通过自然语言处理模型从数据库数据中提取节点关系词。可以通过自然语言处理模型对新闻数据中的文本基于语义进行分割，得到分割后的多个词语，对每个词语进行词性标注，比如人名、地名、数字等标注，获取所需的标注实体。自然语言处理模型可以通过TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆向文件频率)算法计算数据关键词的词频-逆向文件频率，将词频-逆向文件频率高于预设值的数据关键词作为节点。TF(Term Frequency，词频)表示词语在文件中出现的频率，IDF(Inverse Document Frequency，逆向文件频率)是一个词语普遍重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，通过TF-IDF可以过滤掉常见的词语，保留重要的词语。

在其中一个实施例中，如图3所示，数据搜索匹配方法还包括：步骤302，从预设的百科图谱中，获取与关键词所属搜索领域相关联的多个条目；步骤304，以多个条目作为目标百科图谱的节点，获取各节点之间的关系，并以各节点之间的关系作为目标百科图谱的边，构建搜索领域对应的目标百科图谱。具体地，获取各节点之间的关系，并以多个条目作为目标百科图谱的节点，以各节点之间的关系作为目标百科图谱的边，构建搜索领域对应的目标百科图谱之前，还包括：分别计算多个条目中每个条目到搜索领域的置信度，删除置信度低于预设置信度阈值的条目，得到更新后的多个条目。这样可以过滤非搜索领域的条目，在维基百科中很多类别和条目都属于多个父类别，为了提高搜索领域的条目的准确性，需要消除无效的、与搜索领域关联较小的分类及条目。

获取指定搜索领域下的所有条目及分类结构，以及所有条目对应的出度，比如定义V为维基百科公开数据集page表养猪业下的所有条目及分类，定义E为维基百科公开数据集categorylinks和redirect获取到养猪业下的分类结构链接，通过V表示节点的集合，E表示边的集合，E的方向是从子类别或者条目指向父类别。假设节点v是待建立的养猪业百科图谱的节点之一，C是养猪业的顶级父类别，需要计算v到C的所属度。定义b为节点v的链接权重，其取值是v对应的出度的倒数，c为v到C的权重，其值等于这条路径上所有权重的乘积，对于v到C的所属度为连通v到C路径权重的和；设置所属度阈值比如0.1，用于过滤无效的分类和条目，将过滤后的条目通过爬虫技术获取条目的关系节点及属性，如：大白猪的别名为大约克夏，原产地为英国等相关信息。将所有数据入图数据库形成知识图谱，图谱具体可以通过Neo4j图数据库进行构建。

在其中一个实施例中，如图4所示，数据搜索匹配方法还包括：步骤406，获取搜索主体对应的指标数据以及指标数据的时间顺序，将搜索结果按照时间顺序与指标数据进行关联处理，得到关联后的数据；步骤407，向搜索主体推送关联后的数据。以股票数据作为指标数据为例，比如可以使用爬虫技术将东方财富网上的所有上市公司股票数据爬取下来，再通过行业分类筛选出养猪业上市公司的股票数据；将所有事件类型关联集合查出的每50条新闻通过时间顺序插入至养猪业上市公司的股票数据时间轴上，这样搜索主体可以通过关联后的数据分析输入的关键词给行业的某条指标带来的影响。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图5所示，提供了一种数据搜索匹配装置，包括：获取模块502、第一拓展模块504、第二拓展模块506和搜索结果获取模块508。获取模块，用于获取待搜索的关键词以及关键词对应的事件图谱。第一拓展模块，用于根据事件图谱中各节点之间的关系，计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词。第二拓展模块，用于根据目标百科图谱中各节点之间的关系，计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词，目标百科图谱为关键词所属搜索领域对应的百科图谱。搜索结果获取模块，用于将关键词、第一拓展关键词以及第二拓展关键词合并，获得关键词集合，基于关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。

在其中一个实施例中，数据搜索匹配装置还包括事件图谱构建模块，用于获取数据库数据，对数据库数据进行自然语言处理，提取事件图谱中节点词以及节点关系词，节点关系词表征各节点之间的连接关系；根据节点词以及节点关系词生成预设的事件图谱。

在其中一个实施例中，数据搜索匹配装置还包括数据库数据生成模块，用于获取数据源地址列表、开始页码、结束页码以及采集时间；根据采集时间，提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据；解析新闻数据中的标题和正文数据，并将解析结果存储至预设数据库，生成数据库数据。

在其中一个实施例中，事件图谱构建模块还用于通过自然语言处理模型从数据库数据中提取数据关键词；将词频-逆向文件频率高于预设值的数据关键词作为节点词，并通过自然语言处理模型从数据库数据中提取节点关系词。

在其中一个实施例中，数据搜索匹配装置还包括目标百科图谱构建模块，用于从预设的百科图谱中，获取与关键词所属搜索领域相关联的多个条目；以多个条目作为目标百科图谱的节点，获取各节点之间的关系，并以各节点之间的关系作为目标百科图谱的边，构建搜索领域对应的目标百科图谱。

在其中一个实施例中，数据搜索匹配装置还包括条目删除模块，用于分别计算多个条目中每个条目到搜索领域的置信度，删除置信度低于预设置信度阈值的条目，得到更新后的多个条目。

在其中一个实施例中，数据搜索匹配装置还包括数据推送模块，用于获取搜索主体对应的指标数据以及指标数据的时间顺序，将搜索结果按照时间顺序与指标数据进行关联处理，得到关联后的数据；向搜索主体推送关联后的数据。

关于数据搜索匹配装置的具体限定可以参见上文中对于数据搜索匹配方法的限定，在此不再赘述。上述数据搜索匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性或易失性存储介质、内存储器。该非易失性或易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储事件图谱、搜索领域百科图谱等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种数据搜索匹配方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：

获取待搜索的关键词以及关键词对应的事件图谱；

根据事件图谱中各节点之间的关系，计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词；

根据目标百科图谱中各节点之间的关系，计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词，目标百科图谱为关键词所属搜索领域对应的百科图谱；

将关键词、第一拓展关键词以及第二拓展关键词合并，获得关键词集合；及

基于关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。

在其中一个实施例中，处理器执行计算机可读指令时还实现以下步骤：

获取数据库数据，对数据库数据进行自然语言处理，提取节点词以及节点关系词；及

根据节点词以及节点关系词生成预设的事件图谱。

获取数据源地址列表、开始页码、结束页码以及采集时间；

根据采集时间，提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据；及

解析新闻数据中的标题和正文数据，并将解析结果存储至预设数据库，生成数据库数据。

通过自然语言处理模型从数据库数据中提取数据关键词；及

将词频-逆向文件频率高于预设值的数据关键词作为节点词，并通过自然语言处理模型从数据库数据中提取节点关系词。

从预设的百科图谱中，获取与关键词所属搜索领域相关联的多个条目；及

以多个条目作为目标百科图谱的节点，获取各节点之间的关系，并以各节点之间的关系作为目标百科图谱的边，构建搜索领域对应的目标百科图谱。

分别计算多个条目中每个条目到搜索领域的置信度，删除置信度低于预设置信度阈值的条目，得到更新后的多个条目。

获取搜索主体对应的指标数据以及指标数据的时间顺序，将搜索结果按照时间顺序与指标数据进行关联处理，得到关联后的数据；及

向搜索主体推送关联后的数据。

获取待搜索的关键词以及关键词对应的事件图谱；

其中，该计算机可读存储介质可以是非易失性，也可以是易失性的。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据节点词以及节点关系词生成预设的事件图谱。

获取数据源地址列表、开始页码、结束页码以及采集时间；

通过自然语言处理模型从数据库数据中提取数据关键词；及

向搜索主体推送关联后的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种数据搜索匹配方法，包括：

获取待搜索的关键词以及所述关键词对应的事件图谱；

根据所述事件图谱中各节点之间的关系，计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词；

根据目标百科图谱中各节点之间的关系，计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词，所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱；

将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并，获得关键词集合；及

基于所述关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。
根据权利要求1所述的方法，其中，所述方法还包括：

获取数据库数据，对所述数据库数据进行自然语言处理，提取事件图谱中节点词以及节点关系词，所述节点关系词表征各节点之间的连接关系；及

根据所述节点词以及所述节点关系词生成预设的事件图谱。
根据权利要求2所述的方法，其中，所述获取数据库数据之前，还包括：

获取数据源地址列表、开始页码、结束页码以及采集时间；

根据所述采集时间，提取基于所述数据源地址列表、所述开始页码、所述结束页码所确定的新闻数据；及

解析所述新闻数据中的标题和正文数据，并将解析结果存储至预设数据库，生成数据库数据。
根据权利要求2所述的方法，其中，所述对所述数据库数据进行自然语言处理，提取事件图谱中节点词以及节点关系词，包括：

通过自然语言处理模型从所述数据库数据中提取数据关键词；及

将词频-逆向文件频率高于预设值的数据关键词作为节点词，并通过所述自然语言处理模型从所述数据库数据中提取节点关系词。
根据权利要求1所述的方法，其中，所述方法还包括：

从预设的百科图谱中，获取与所述关键词所属搜索领域相关联的多个条目；及

以所述多个条目作为目标百科图谱的节点，获取各节点之间的关系，并以各节点之间的关系作为目标百科图谱的边，构建所述搜索领域对应的目标百科图谱。
根据权利要求5所述的方法，其中，所述获取各节点之间的关系，并以所述多个条目作为目标百科图谱的节点，以各节点之间的关系作为目标百科图谱的边，构建所述搜索领域对应的目标百科图谱之前，还包括：

分别计算所述多个条目中每个条目到所述搜索领域的置信度，删除置信度低于预设置信度阈值的条目，得到更新后的多个条目。
根据权利要求1所述的方法，其中，所述方法还包括：

获取搜索主体对应的指标数据以及所述指标数据的时间顺序，将所述搜索结果按照所述时间顺序与所述指标数据进行关联处理，得到关联后的数据；及

向所述搜索主体推送所述关联后的数据。
一种数据搜索匹配装置，其中，所述装置包括：

获取模块，用于获取待搜索的关键词以及所述关键词对应的事件图谱；

第一拓展模块，用于根据所述事件图谱中各节点之间的关系，计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词；

第二拓展模块，用于根据所述目标百科图谱中各节点之间的关系，计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词，所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱；及

搜索结果获取模块，用于将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并，获得关键词集合，基于所述关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取待搜索的关键词以及所述关键词对应的事件图谱；

根据所述事件图谱中各节点之间的关系，计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词；

根据目标百科图谱中各节点之间的关系，计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词，所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱；

将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并，获得关键词集合；及

基于所述关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取数据库数据，对所述数据库数据进行自然语言处理，提取事件图谱中节点词以及节点关系词，所述节点关系词表征各节点之间的连接关系；及

根据所述节点词以及所述节点关系词生成预设的事件图谱。
根据权利要求10所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取数据源地址列表、开始页码、结束页码以及采集时间；

根据所述采集时间，提取基于所述数据源地址列表、所述开始页码、所述结束页码所确定的新闻数据；及

解析所述新闻数据中的标题和正文数据，并将解析结果存储至预设数据库，生成数据库数据。
根据权利要求10所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

通过自然语言处理模型从所述数据库数据中提取数据关键词；及

将词频-逆向文件频率高于预设值的数据关键词作为节点词，并通过所述自然语言处理模型从所述数据库数据中提取节点关系词。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

从预设的百科图谱中，获取与所述关键词所属搜索领域相关联的多个条目；及

以所述多个条目作为目标百科图谱的节点，获取各节点之间的关系，并以各节点之间的关系作为目标百科图谱的边，构建所述搜索领域对应的目标百科图谱。
根据权利要求13所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还执行以下步骤：

分别计算所述多个条目中每个条目到所述搜索领域的置信度，删除置信度低于预设置信度阈值的条目，得到更新后的多个条目。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现数据搜索匹配方法，其中，所述数据搜索匹配方法包括以下步骤：

获取待搜索的关键词以及所述关键词对应的事件图谱；

根据所述事件图谱中各节点之间的关系，计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离，提取距离小于第一预设阈值的节点，获得第一拓展关键词；

根据目标百科图谱中各节点之间的关系，计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离，提取距离小于第二预设阈值的节点，获得第二拓展关键词，所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱；

将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并，获得关键词集合；及

基于所述关键词集合以及预设的搜索与分析引擎进行搜索，获得搜索结果。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机程序被所述处理器执行时还执行以下步骤：

获取数据库数据，对所述数据库数据进行自然语言处理，提取事件图谱中节点词以及节点关系词，所述节点关系词表征各节点之间的连接关系；及

根据所述节点词以及所述节点关系词生成预设的事件图谱。
根据权利要求16所述的计算机可读存储介质，其中，所述计算机程序被所述处理器执行时还执行以下步骤：

获取数据源地址列表、开始页码、结束页码以及采集时间；

根据所述采集时间，提取基于所述数据源地址列表、所述开始页码、所述结束页码所确定的新闻数据；及

解析所述新闻数据中的标题和正文数据，并将解析结果存储至预设数据库，生成数据库数据。
根据权利要求16所述的计算机可读存储介质，其中，所述计算机程序被所述处理器执行时还执行以下步骤：

通过自然语言处理模型从所述数据库数据中提取数据关键词；及

将词频-逆向文件频率高于预设值的数据关键词作为节点词，并通过所述自然语言处理模型从所述数据库数据中提取节点关系词。
根据权利要求15所述的计算机可读存储介质，其中，所述计算机程序被所述处理器执行时还执行以下步骤：

从预设的百科图谱中，获取与所述关键词所属搜索领域相关联的多个条目；及

以所述多个条目作为目标百科图谱的节点，获取各节点之间的关系，并以各节点之间的关系作为目标百科图谱的边，构建所述搜索领域对应的目标百科图谱。
根据权利要求19所述的计算机可读存储介质，其中，所述计算机程序被所述处理器执行时还执行以下步骤：

分别计算所述多个条目中每个条目到所述搜索领域的置信度，删除置信度低于预设置信度阈值的条目，得到更新后的多个条目。