WO2019214679A1

WO2019214679A1 - 实体搜索方法、相关设备及计算机存储介质

Info

Publication number: WO2019214679A1
Application number: PCT/CN2019/086197
Authority: WO
Inventors: 徐传飞; 常毅; 夏命榛; 陈跃国; 马登豪; 张凯文
Original assignee: 华为技术有限公司; 伊利诺伊大学董事会
Priority date: 2018-05-09
Filing date: 2019-05-09
Publication date: 2019-11-14
Also published as: US20210056130A1; CN110472058A; CN110472058B; US11636143B2

Abstract

实体搜索方法、相关设备及计算机存储介质，其中所述方法包括：确定查询信息中所包括的第一分类词和第二分类词（S102）；根据第一实体库以及所述查询信息中所包括的第一分类词和第二分类词，确定w个候选实体各自对应的s个相关度，所述候选实体的信息中包括有第三分类词和第四分类词，所述相关度用于指示所述查询信息中的分类词和所述候选实体中的分类词之间的相关度；根据所述w个候选实体各自对应的s个相关度，确定所述查询信息对应的目标实体的信息（S108），所述目标实体为所述w个候选实体中的实体。所述方法能够解决现有技术中由于表述差异导致结果搜索的匹配率较低或者准确率较低等问题，从而提高了搜索的准确率。

Description

实体搜索方法、相关设备及计算机存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及实体搜索方法、相关设备及计算机存储介质。

背景技术

随着互联网的发展，文本数据的规模越来越大，早期的搜索引擎主要是基于文本的搜索。特别是基于关键词的匹配搜索方法，但该搜索方法缺乏对词义的深层理解，匹配度较低，且反馈结果以文本形式展示，用户需从反馈的文本中查找答案，用户体验差。

为解决上述问题，目前提出实体搜索方法，旨在寻找用户查询的实体(结果答案)并展示给用户。在实践中发现，当前的实体搜索方法主要也采用基于关键词的匹配搜索方法。由于关键词匹配方案中，需保证查询关键词和实体关键词一致时才能匹配成功，这样对大多数同义词或近义词都无法匹配成功，即具有相同或相似表述的词语均无法匹配成功。可见，实际搜索过程中由于不同用户对相同事物的表述存在差异，也称为表述差异(conceptual gap)，这将导致搜索的匹配率较低或者准确率较低。

发明内容

本发明实施例公开了实体搜索方法、相关设备及计算机存储介质，能够解决现有技术中由于表述差异导致结果搜索中存在匹配率较低或者准确率较低等问题。

第一方面，本发明实施例公开提供了一种实体搜索方法，所述方法包括：

终端设备确定查询信息中所包括的第一分类词和第二分类词，所述第一分类词为所述查询信息中表述查询结果的类型的词语，所述第二分类词为所述查询信息中除所述第一分类词之外的词语；

根据第一实体库以及所述查询信息中所包括的第一分类词和第二分类词，确定w个候选实体各自对应的s个相关度；其中，所述第一实体库包括所述w个候选实体中每个候选实体的信息，所述候选实体的信息中包括有第三分类词和第四分类词，所述第三分类词和所述第一分类词属于同一分类，所述第四分类词和所述第二分类词属于同一分类；所述相关度用于指示所述查询信息中的分类词和所述候选实体中的分类词之间的相关度，w和s均为正整数，且s为小于等于4；

根据所述w个候选实体各自对应的s个相关度，确定所述查询信息对应的目标实体的信息，所述目标实体为所述w个候选实体中的实体。

在一些可能的实施例中，所述第一分类词包括所述查询信息中表述查询结果的类型所对应的核心词，所述第二分类词包括所述查询信息中除所述第一分类词和停用词之外的修饰词。

在一些可能的实施例中，所述s个相关度包括第一相关度，用于指示所述查询信息中的第一分类词和所述候选实体中的第三分类词之间的相关度，

所述根据第一实体库以及所述查询信息中所包括的第一分类词和第二分类词，确定w个候选实体各自对应的s个相关度包括：

将所述第一实体库中的w个候选实体进行分类处理，得到处理后的候选实体；所述分类处理为将表述相同或相似词义的第三分类词所对应的候选实体合并为一个处理后的候选实体；

根据所述查询信息中的第一分类词和所述处理后的候选实体中的第三分类词，确定所述w个候选实体各自对应的第一相关度。

在一些可能的实施例中，所述s个相关度包括第二相关度，用于指示所述查询信息中的第一分类词和所述候选实体中的第四分类词之间的相关度，

所述根据第一实体库以及所述查询信息中所包括的第一分类词和第二分类词，确定w个候选实体各自对应的s个相关度包括以下中的任一项：

根据所述查询信息中处理后的第一分类词和所述w个候选实体中各自所包括的第四分类词，确定所述w个候选实体各自对应的相关度a，并作为所述w个候选实体各自对应的第二相关度；

根据所述查询信息中的第一分类词和所述w个候选实体中各自所包括的处理后的第四分类词，确定所述w个候选实体各自所对应的相关度b，并作为所述w个候选实体各自对应的第二相关度；

根据所述w个候选实体各自对应的相关度a以及所述w个候选实体各自对应的相关度b，确定所述w个候选实体各自对应的第二相关度；

其中，所述处理后的第一分类词为根据第一预存文档对所述查询信息中的第一分类词进行上下文关联处理后得到的，所述处理后的第四分类词为根据第一预存文档对所述候选实体中所包括的第四分类词进行上下文关联处理后得到的，所述上下文关联处理为在所述第一预存文档中提取临近所述第一分类词或者所述第四分类词的前i个词语和/或后j个词语，其中，i和j均为正整数。

在一些可能的实施例中，所述相关度a或者所述相关度b是根据相关度平滑算法确定的，所述相关度平滑算法用于缓减所述查询信息中的第一分类词或者所述候选实体中的第四分类词在所述第一预存文档中的偏差度。

在一些可能的实施例中，所述s个相关度包括第三相关度，用于指示所述查询信息中的第二分类词和所述候选实体中的第三分类词之间的相关度，

根据所述查询信息中处理后的第二分类词和所述w个候选实体中各自所包括的第三分类词，确定所述w个候选实体各自对应的相关度c，并作为所述w个候选实体各自对应的第三相关度；

根据所述查询信息中的第二分类词和所述w个候选实体中各自所包括的处理后的第三分类词，确定所述w个候选实体各自对应的相关度d，并作为所述w个候选实体各自对应的第三相关度；

根据所述w个候选实体各自对应的相关度c以及所述w个候选实体各自对应的相关度d，确定所述w个候选实体各自对应的第三相关度；

其中，所述处理后的第二分类词为根据第二预存文档对所述查询信息中的第二分类词进行上下文关联处理后得到的，所述处理后的第三分类词为根据第二预存文档对所述候选实体中所包括的第三分类词进行上下文关联处理后得到的，所述上下文关联处理为在所述第二预存文档中提取临近所述第二分类词或者所述第三分类词的前k个词语和/或后l个词语，其中，k和l均为正整数。

在一些可能的实施例中，所述相关度c或者所述相关度d是根据相关度平滑算法确定的，所述相关度平滑算法用于缓减所述查询信息中的第二分类词或者所述候选实体中的第三分类词在所述第二预存文档中的偏差度。

在一些可能的实施例中，所述s个相关度包括第四相关度，用于指示所述查询信息中的第二分类词和所述候选实体中的第四分类词之间的相关度，

根据所述查询信息中拓展后的第二分类词和所述w个候选实体中各自所包括的第四分类词，确定所述w个候选实体各自对应的相关度e，并作为所述w个候选实体各自对应的第四相关度；

根据所述查询信息中的第二分类词和所述w个候选实体中各自所包括的拓展后的第四分类词，确定所述w个候选实体各自对应的相关度f，并作为所述w个候选实体各自对应的第四相关度；

根据所述w个候选实体各自对应的相关度e和所述w个候选实体各自对应的相关度f，确定所述w个候选实体各自对应的第四相关度；

其中，所述拓展后的第二分类词为将所述查询信息中的第二分类词进行属性词语的拓展后得到的，所述拓展后的第四分类词为将所述候选实体中的第四分类词进行属性词语的拓展后得到的。

在一些可能的实施例中，所述根据所述w个候选实体各自对应的s个相关度，确定所述查询信息对应的目标实体的信息包括：

根据所述w个候选实体各自对应的s个相关度，确定所述w个候选实体各自对应的目标相关度；

根据所述w个候选实体各自对应的目标相关度，确定所述查询信息对应的目标实体的信息，所述目标实体为所述w个候选实体中目标相关度大于或等于第一阈值所对应的实体。

第二方面，本发明实施例提供一种终端设备，包括用于执行上述第一方面所描述的方法所对应的功能单元。

第三方面，本发明实施例提供了又一种终端设备，包括存储器及与所述存储器耦合的处理器；所述存储器用于存储指令，所述处理器用于执行所述指令，并与所述第一摄像头和所述第二摄像头进行通信；其中，所述处理器执行所述指令时执行上述第一方面所描述的方法。

在一些可能的实施例中，所述终端设备还包括与所述处理器耦合的显示器，所述显示器用于在所述处理器的控制下显示目标实体的信息(搜索结果)。

在一些可能的实施例中，所述终端设备还包括通信接口，所述通信接口与所述处理器通信，所述通信接口用于在所述处理器的控制下与其他设备(如网络设备等)进行通信。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储了用于实体搜索的程序代码。所述程序代码包括用于执行上述第一方面所描述的方法的指令。

通过实施本发明实施例，能够解决现有技术中由于表述差异导致结果搜索中存在匹配率较低或者准确率较低等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种网络框架示意图。

图2是本发明实施例提供的一种实体搜索方法的流程示意图。

图3A-图3B是本发明实施例提供的两种第一实体库的结构示意图。

图4是本发明实施例提供的一种终端设备的结构示意图。

图5是本发明实施例提供的另一种终端设备的结构示意图。

具体实施方式

下面将结合本发明的附图，对本发明实施例中的技术方案进行详细描述。

首先介绍本申请适用的网络框架示意图。请参见图1是本发明实施例提供的一种网络框架示意图。如图1，所述网络框架100包括实体搜索组件12以及应用服务组件14。可选的，还可包括文档搜索组件16。其中：

所述实体搜索组件12包括实体库120以及匹配器122。所述实体库120中包括有一个或多个实体的信息，所述实体的信息为用于描述该实体的描述信息，例如该实体的名称、标识以及属性信息等等。可选的，还可包括任意两个实体之间的关系信息等，具体将在下文进行详细阐述。所述匹配器122包括一个或多个匹配器。所述匹配器可用于计算用户输入的查询信息和所述实体库中实体的信息之间的相关度(即匹配度)。可选的，还可将计算的相关度反馈给应用服务组件14，便于后续根据该相关度确定该实体的信息是否为所述查询信息对应的搜索结果(结果答案)。

具体的，本申请中所述匹配器122可设计包括有三个匹配器，分别为：第一匹配器、第二匹配器以及第三匹配器。其中，所述第一匹配器用于计算查询信息中包括的第一分类词(如核心词)和实体库中实体的信息所包括的第三分类词(如核心词)之间的相关度(即匹配度)。第二匹配器用于计算查询信息中包括的第二分类词(如修饰词)和实体库中实体的信息所包括的第三分类词(如核心词)之间的相关度，可选的，还可用于计算查询信息中包括的第一分类词(如核心词)和实体库中实体的信息所包括的第四分类词(如修饰词)之间的相关度。第三匹配器用于计算查询信息中包括的第二分类词(如修饰词)和实体库中实体的信息所包括的第四分类词(如修饰词)之间的相关度。所述查询信息中的第一分类词和所述实体的信息中第三分类词属于同一类型/分类，例如均为用于表述查询结果的类型所对应的核心词等。所述查询信息中的第二分类词和所述实体的信息中第四分类词属于同一类型/分类，例如均为用于修饰查询结果的类型所对应的修饰词等。关于所述查询信息中的分类词(具体为第一分类词和第二分类词)、所述实体的信息中的分类词(具体为第三分类词和第四分类词)以及上述三个匹配器各自的功能(即如何计算获得相应的相关度) 将在本申请的下文进行详细阐述，这里不做详述。

需要说明的是，上述三个匹配器仅为示例，并不构成限定。在实际应用中，也可将三个匹配器的功能集成到一个匹配器实现，也可将三个匹配器的功能拆分到多个匹配器中协作完成，例如上述第二匹配器中涉及的两个功能也可拆分到两个匹配器中实现等等，本申请这里不做详述和限定。

所述文档搜索组件16包括文档库160以及搜索服务162。其中，所述文档库160包括一个或多个文档，该文档包括有待查询信息对应的搜索结果。所述搜索服务162用于根据用户输入的查询信息从所述文档库中查询出对应的搜索结果，并将所述搜索结果反馈给应用服务组件14。或者，所述搜索服务162可用于计算用户输入的查询信息和文档库中各文档之间的相关度(匹配度)，将该相关度反馈给应用服务组件14，便于该组件14根据该相关度确定该文档是否为所述查询信息对应的搜索结果。

所述应用服务组件14用于展示所述查询信息所对应的搜索结果(结果答案)，便于用户查看。具体的，所述应用服务组件14可包括展示模块140。可选的，还可包括排序模块142以及反馈模型模块144。其中，所述展示模块140用于向用户展示所述查询信息对应的搜索结果。所述排序模块142用于对接收的相关度进行设定顺序的排序，例如按照相关度从大到小依次排序等等，便于所述展示模块根据所述排序模块中确定出所需展示的搜索结果。可选的，所述排序模块142还可对接收的相关度进行筛选/过滤，例如过滤掉低于一定阈值(如40％)的相关度等等。

以实体搜索组件反馈的相关度为例，所述实体搜索组件14可向所述应用服务组件14(具体为排序模块142)反馈所述查询信息与实体库中每个实体的信息之间的关联度。相应地，排序模块可将超过一定阈值的这些关联度，按照从大到小的顺序进行排序。进一步地，所述展示模块142可根据所述排序模块的排列顺序依次展示该相关度对应的实体的信息(即搜索结果)给用户，这样便于用户更为直观、有效地查看到查询信息对应的搜索结果。

所述反馈模型模块144可用于收集用户的反馈信息，该反馈信息可用于对上述实体搜索组件或文档搜索组件中搜索到的候选结果(具体为候选实体的信息或文档)进行再过滤或排序等等。例如去除用户反馈不好或用户点击率(查看率)较低的候选结果等。所述反馈信息具体可为用户以文档形式反馈的信息，例如查询信息对应的搜索结果是否合适、解决了相关的问题等；也可是用户的点击信息，例如用户是否点击查看该查询信息对应的搜索结果等。

在产品实现过程中，本申请提出的所述网络框架具体可通过创建web服务(Rest)的方式或者应用程序编程接口(application programming interface，API)的方式来提供上述的功能服务。所述网络框架可部署到相应地终端设备中。所述终端设备包括但不限于用户设备(user equipment，UE)、服务器、手机、平板电脑(table personal computer)、个人数字助理(personal digital assistant，PDA)、移动上网装置(mobile internet device，MID)或可穿戴式设备(wearable device)等具备网络通信功能的设备。

基于图1所示的网络框架示意图，下面介绍本申请涉及的实体搜索方法的相关实施例。参见图2，是本发明实施例提供的一种实体搜索方法的流程示意图。如图2所示的实体搜索方法包括如下实施步骤：

步骤S102、终端设备确定查询信息中所包括的第一分类词和第二分类词，其中，所述第一分类词为所述查询信息中表述查询结果的类型的词语，所述第二分类词为除所述第一分类词之外的词语。

本申请中，终端设备可确定查询信息中包括的查询二元结构。该查询二元结构是由两个(种)分类词构成的。具体的，所述查询二元结构包括第一分类词和第二分类词，所述第一分类词可为用户输入的查询信息中用于表述查询结果的类型的词语，例如可为核心词或关键词。所述第二类词语可为查询信息中除用于表述查询结果的类型之外的其他词语，例如可为用于修饰/限定所述第一分类词的修饰词等。所述第一分类词和所述第二分类词中各自所包括的词语数量本申请不做限定，例如一个或多个等。为方便描述，本申请下文以所述第一分类词为核心词、所述第二分类词为修饰词为例，进行相关内容的阐述。

例如，用户输入的查询信息为“某电视剧中的A场景篇在哪里取景”。可知，该查询信息中的第一分类词为“哪里”，第二分类词为“某电视剧”、“A场景篇”以及“取景”。

步骤S104、所述终端设备确定第一实体库中w个候选实体各自所包括的第三分类词和第四分类词，其中，所述第三分类词和所述第一分类词属于同一分类，所述第四分类词和所述第二分类词属于同一分类，w为正整数。

具体的，第一实体库包括有w个候选实体中每个候选实体的信息，w为正整数。所述候选实体的信息为用于描述所述候选实体的描述信息，例如该候选实体的名称、标识以及属性等等。例如实体为“姚明”，则该实体的信息可包括有姚明的身高、体重、出生日期以及户籍所在地等属性信息。可选的，所述第一实体库中还可包括有关系信息，该关系信息为用于描述任意两个候选实体之间的关系的信息，例如第一候选实体为第二候选实体的父节点或子节点等关系。

所述候选实体的信息中包括有该候选实体的实体二元结构，该实体二元结构是由两个(种)分类词构成的。具体的，所述实体二元结构包括第三分类词和第四分类词。所述第三分类词为所述候选实体的信息中用于表述搜索结果的类型的词语，所述第四分类词为所述候选信息的信息中除所述第三分类词之外的词语，即除用于描述搜索结果的类型之外的其他词语。即是，所述第三分类词和上述第一分类词对应，均为属于同一类型/分类的词语；所述第四分类词和上述第二分类词对应，均为属于同一类型/分类的词语。

步骤S106、所述终端设备根据所述查询信息中的第一分类词和第二分类词以及所述w个候选实体各自所包括的第三分类词和第四分类词，确定所述w个候选实体各自对应的s个相关度，其中，所述相关度用于指示所述查询信息中的分类词和所述候选实体中的分类词之间的相关度，s为小于等于4的正整数。

终端设备可根据每个候选实体的实体二元结构中所包括的第三分类词和第四分类词以及所述查询信息的查询二元结构中所包括的第一分类词和第二分类词，计算得到该候选实体的信息与该查询信息之间存在的s个相关度，s为正整数。其中，所述相关度用于指示该候选实体中的第一目标分类词和该查询信息中的第二目标分类词之间的相关度。其中，所述第一目标分类词为所述第一分类词或者第二分类词，所述第二目标分类词为所述候选实体中的第三分类词或者第四分类词。

以所述第一分类词和所述第三分类词为核心词，所述第二分类词和所述第四分类词为修饰词为例，s为小于等于4的正整数。所述s个相关度包括第一相关度至第四相关度中的任一个或多个。其中，第一相关度用于指示所述查询信息中的核心词和所述候选实体中的核心词之间的相关度。第二相关度用于指示所述查询信息中的核心词和所述候选实体中的修饰词之间的相关度。第三相关度用于指示所述查询信息中的修饰词和所述候选实体中的核心词之间的相关度。第四相关度用于指示所述查询信息中的修饰词和所述候选实体中的修饰词之间的相关度。关于上述四个相关度如何计算获得，将在下文进行详细阐述。

步骤S108、所述终端设备根据所述w个候选实体各自对应的s个相关度，确定所述查询信息对应的目标实体的信息，所述目标实体为所述w个候选实体中的实体。

终端设备可根据每个候选实体对应的s个相关度，计算到该候选实体对应的目标相关度。相应地，可计算得到w个候选实体各自对应的目标相关度。进一步地，根据所述w个目标相关度，从所述w个目标相关度对应的w个候选实体中，选择出目标相关度超过一定阈值(如80％)所对应的候选实体，作为目标实体。进而将所述目标实体的信息作为所述查询信息对应的搜索结果。可选的，还可将该目标实体的信息展示给用户查看等。其中，所述目标实体的数量本申请不做限定，可为一个或多个。关于所述目标相关度如何计算将在下文进行详述。

下面介绍本申请涉及的一些具体实施例和可选实施例。

步骤S102中，终端设备获取用户输入的查询信息。接着，可利用开源工具对所述查询信息进行预处理，以获得所述查询信息中包括的查询二元结构。即通过开源工具提取所述查询信息中所包括的第一分类词和第二分类词。关于所述第一分类词和所述第二分类词可参见前述实施例中的相关阐述，这里不再赘述。

所述预处理包括有二元结构识别处理(即对第一分类词和第二分类词的识别处理)。可选的，所述预处理还可包括但不限于以下处理中的任一项或多项的组合：分词处理(词语划分处理)、去停用词处理以及语义拓展处理等等，关于所述预处理这里不做详述。

步骤S104中，终端设备可获取第一实体库。其中，所述第一实体库可为用户侧或系统侧预先定义好的数据库，该数据库中包括有一个或多个候选实体的信息。关于所述候选实体的类型以及相关信息，本申请不做限定。例如所述数据库中包括有电影类型的实体，服装类型的实体以及其他领域或类型的实体等。

在可选实施例中，所述第一实体库与所述查询信息中的第一分类词关联，即所述第一实体库是根据所述查询信息中的第一分类词确定的。具体的，终端设备可根据所述查询信息中的第一分类词确定与之对应的第一实体库，该第一实体库中包括的所有候选实体所属的类型(即分类)和所述查询信息中第一分类词对应表述的类型相同。例如，所述第一分类词为用于表示地址的“哪里”，则所述第一实体库中包括的所有候选实体均为表示地址的实体，或者与表示地址的实体存在关联的其他实体。本申请下文以所述第一实体库包括w个候选实体的信息为例，进行相关内容的阐述。w为正整数。

进一步地，终端设备可利用开源工具对所述第一实体库中的每个候选实体的信息进行预处理，从而获得所述第一实体库中每个候选实体各自所包括的第三分类词和第四分类词。关于所述预处理、所述第三分类词以及所述第四分类词具体可参见前文实施例中的相关阐述，这里不再赘述。

步骤S106中，终端设备可根据每个候选实体的信息所包括的第三分类词和第四分类词以及所述查询信息中所包括的第一分类词和第二分类词，计算/确定该候选实体的信息与所述查询信息之间存在关联的s个相关度。其中，s为小于等于4的正整数。

即，终端设备可根据所述w个候选实体各自所包括的第三分类词和第四分类词以及所述查询信息中所包括的第一分类词和第二分类词，确定所述w个候选实体各自对应的s个相关度。

下面本申请以一个候选实体包括第三分类词和第四分类词为例，所述第一分类词和所述第三分类词为核心词，所述第二分类词和所述第四分类词为修饰词，具体阐述S106(根据所述候选实体的信息所包括的第三分类词和第四分类词以及所述查询信息中所包括的第一分类词和第二分类词确定所述候选实体对应的s个相关度)的实施方式。

在一些实施方式中，所述s个相关度包括第一相关度，该第一相关度p(h _t|h _q)用于指示所述查询信息中的第一分类词和所述候选实体中的第三分类词之间的相关度。即第一相关度用于指示查询中的核心词和所述候选实体中的核心词之间的相关度。

由于第一实体库中包括的候选实体的信息过于细化或具体，导致在利用查询信息中的第一分类词(即核心词)进行词语匹配时，匹配的成功率较低。因此，本申请可先对第一实体库中候选实体的信息进行泛化，再利用泛化后的第一实体库中候选实体的第一分类词(即核心词)和查询信息中的第三分类词(核心词)进行匹配，从而可提升搜索匹配的成功率或者准确率。

具体的，终端设备(具体可为设备中的第一匹配器)可先将所述第一实体库中包括的w个候选实体的信息进行分类(归类)处理，得到第一实体库中w’个处理后的候选实体。其中，所述分类处理为将表述相同或相似词义的第三分类词所对应的候选实体合并为一个处理后的候选实体，即将具有相同或相似核心词的候选实体合并为一个处理后的候选实体。

进一步地，再利用所述第一实体库中w’个处理后的候选实体中的第三分类词(核心词)和所述查询信息中的第一分类词(核心词)，计算所述第一相关度。具体可采用如下公式(1)计算所述第一相关度p(h _t|h _q)。

其中，q表示查询信息，t表示候选实体的信息(这里也是指处理后的候选实体的信息)。h _i表示i的核心词(即第一分类词或第三分类词)。M _i表示i的修饰词(即第二分类词或第四分类词)。i＝q或t。|H(h _t)|表示h _t的子节点的数量。|S(h _t)|表示h _t的所有后继节点(包括子节点以及子孙节点)的数量。关于父节点、子节点、祖父节点以及子孙节点均为所述第一实体库中任意两个候选实体之间的关系信息，本申请下文将以一个例子进行详细说明。

举例来说，如图3A示出一种建筑物类型的第一实体库。该第一实体库中包括三层节点信息，每层中包括有一个或多个节点(即一个或多个候选实体的信息)。如图3A中，第一层中包括有两个候选实体的信息，分别为：苏格兰人的作品(works by Scottish people)以及苏格兰建筑物(Scottish architecture)。第二层中包括有一个候选实体的信息，为苏格兰建造师设计的建筑物(structures by Scottish architects)。第三层中包括有四个候选实体的信息，分别为罗伯特.罗安德.安德森的楼房(Robert Roward Anderson buildings)、威廉.富勒的火车站(William Fowler railway stations)、查尔斯.仑尼.麦金托什的楼房(Charles Rennie Mackintosh buildings)以及约瑟夫.米切尔的楼房(Joseph Mitchell buildings)。其中，图示还表述/包括有实体间的关系信息。具体的，上一层中的节点(即候选实体的信息)为下一层节点(候选实体的信息)的父节点。反之，下一层中的节点为上一层节点的子节点。例如，第一层中的works by Scottish people为第二层中structures by Scottish architects的父节点。此外，父节点以上的节点可称为下一层节点的祖父节点，子节点以下的节点可称为上一层节点的子孙节点。例如图示中，第一层中的works by Scottish people为第三层中Robert Roward Anderson buildings的祖父节点等。

相应地，终端设备可利用第一匹配器(header-header)从所述第一实体库中提取出与所述查询信息中的核心词存在关联的相关节点进行合并，假设这里的相关节点为图3A中的所有节点。为实现所述第一实体库的在线构建，可采用随机游走(random walk)方法提取相关节点以及相关节点间的关系(图示可为节点之间存在的线条)，进而再将这些节点中具有相同核心词的节点进行合并(即合并具有相同核心词的候选实体)，从而得到泛化后的第一实体库。具体如图3B示出泛化后的第一实体库。如图3B该第一实体库同样包括三层节点信息。其中，第一层所包括的处理后的候选实体(即该候选实体的核心词)分别为：著作(works)以及建筑物(architecture)。第二层包括处理后的候选实体为建筑物(structures)。第三层包括处理后的候选实体分别为：楼房(buildings)以及站点(stations)。

进一步地，可利用泛化后所述第一实体库中处理后的候选实体的核心词和查询信息中的核心词来计算获得第一相关度。具体的，可采用上述公式(1)来计算所述第一相关度P(h _t|h _q)。

例如，用户输入的查询信息为查尔斯的著作(Works by Charles)。由上述S102可知，查询信息中的核心词为：著作(Works)，修饰词为：查尔斯(Charles)。引用上述图3A和3B例子，假设依据所述查询信息中的核心词选定到图3A所示的第一实体库，且选定图3A中的候选实体的信息为约瑟夫.米切尔的楼房(Joseph Mitchell buildings)来计算它们之间的第一相关度。其中，该候选实体的信息中的核心词为楼房(buildings)，修饰词为约瑟夫(Joseph)和米切尔(Mitchell)。相应地，如上所述对图3A所示的第一实体库中候选实体的信息进行泛化，得到如图3B中泛化后第一实体库中处理后的候选实体的信息(具体为候选实体的核心词)。

由上图3B可知，Joseph Mitchell buildings对应在图3B中的候选实体的核心词为楼房 (buildings)。进一步利用上述公式(1)来计算查询信息中的核心词和候选实体中的核心词之间的第一相关度。由上述公式(1)以及图3B可知，候选实体中的核心词buildings(h _t)是查询信息中的核心词Works(h _q)的子孙节点，则它们之间的第一相关度P(h _t|h _q)＝P(buildings|Works)＝1。

在又一些可能的实施方式中，所述s个相关度包括第二相关度，该第二相关度p(M _t|h _q)用于指示所述查询信息中的第一分类词和所述候选实体中的第四分类词之间的相关度，即指示所述查询信息中的核心词和所述候选实体中的修饰词之间的相关度。具体存在如下三种实现方式。

第一种方式中，终端设备(具体可为设备中的第二匹配器header-modifier)可根据第一预存文档对所述候选实体的信息中的第四分类词(修饰词)进行上下文关联，得到该候选实体的信息中处理后的第四分类词(即处理后的修饰词)。进一步，再根据所述查询信息中的第一分类词(即核心词)和所述候选实体中处理后的第四分类词(即处理后的修饰词)，计算获得相关度a。可选的，可将该相关度a作为所述第二相关度。

所述上下文关联可以是指在所述第一预存文档中提取临近所述候选实体的信息中的第四分类词(修饰词)的前i个词语和/或后j个词语，以对应得到该候选实体的信息中的处理后的第四分类词。其中，i和j为用户侧或系统侧自定义设置的正整数，它们可以相同，也可不同，本申请不做限定。所述第一预存文档可为用户侧或系统侧预先存储在所述终端设备中的文档，也可为从服务器侧获取的文档。该文档可为与所述查询信息相关的说明文档等，也可为对所述候选实体或所述候选实体对应的第一实体库进行相关说明的文档等等，本申请不做详述和限定。相应地，所述第一预存文档的数量本申请也不做限定。

在可选实施例中，由于第一预存文档存在的差异性较大，例如某些文档中第一分类词(即查询信息中的核心词)出现的次数较多，另一些文档中第一分类词出现的次数较少，这样容易导致相关度a的计算准确度不高。因此本申请还可采用相关度平滑算法，来计算所述查询信息中的第一分类词(核心词)和所述候选实体中处理后的第四分类词(即处理后的修饰词)之间的相关度a(或第二相关度)。具体的，可采用如下公式(2)计算获得相关度a(p _a(M _t|h _q))。

其中，λ是指相关度平滑算法中所采用的概率平滑因子，m是指候选实体中的某个修饰词(即某个第四分类词)，M _t是指候选实体中所有的修饰词(或它们组成的集合)。D是指第一预存文档。∏是指累乘。n(h _q,m)是指h _q和修饰词m同时出现的数量。w为ctx(m)中的任意词语。ctx(m)是指对修饰词m进行上下文关联后所获得的处理后的修饰词，或者由处理后的修饰词所组成的集合。h _i表示i的核心词(第一分类词或第三分类词)。M _i表示i的修饰词(第二分类词或第四分类词)。i＝q或t。q表示查询信息，t表示候选实体的信息。

举例来说，引用上述用户输入的查询信息为查尔斯的著作(Works by Charles)以及图3A的例子。候选实体的信息为约瑟夫.米切尔的楼房(Joseph Mitchell buildings)。这里假设利用该候选实体的修饰词(即该候选实体中的某个第四分类词)为米切尔(Mitchell)，来计算查询信息中的核心词(Works，即查询信息中的第一分类词)与候选实体中的修饰词(Mitchell)之间的第二相关度。

具体的，假设第一预存文档有如下三份，d1：Mitchell is work by Charles…,d2：Joseph Mitchell building…,d3：Mitchell Work…。则利用第一预存文档对候选实体中的修饰词(Mitchell)进行上下文关联后，获得处理后的修饰词ctx(Mitchell)＝{work,building,work…}。为减小第一预存文档的选文偏差度，本申请可采用相关度平滑算法(也可称为概率平滑算法)，计算出查询信息中的核心词和候选实体的实体二元结构中处理后的修饰词之间的第二相关度，具体可如上述公式(2)所示。

假设该例中，λ＝0.5，利用上述公式(2)可获得n(h _q,m)＝n(work,Mitchell)＝2。Σ _wn(w,m)表示处理后的修饰词中的所有词与修饰词m同时出现的次数，该例中是3，即修饰词m和查询信息中的核心词在第一预存文档中共同出现的概率n(h _q,m)/Σ _wn(w,m)＝2/3。p(h _q|D)表示h _q在第一预存文档中出现的概率，例子中work出现的概率为2/3。相应地，相关度a：p(m|h _q)＝p(Mitchell|work)＝(1-λ)n(h _q,m)/Σ _wn(w,m)+λp(h _q|D)＝(1-0.5)x2/3+0.5x2/3＝1/3。

第二种方式中，终端设备(具体可为设备中的第二匹配器)可根据第一预存文档对查询信息中的第一分类词(即核心词)进行上下文关联，得到该查询信息中处理后的第一分类词(即处理后的核心词)。进一步地，再利用所述查询信息中处理后的第一分类词(即处理后的核心词)和所述候选实体的信息中的第四分类词，计算获得相关度b。可选的，可将关联度b作为第二关联度。关于所述上下文关联可参照前述实施例中的相关阐述，这里不再赘述。

在可选实施例中，为减小第一预存文档的选文偏差度(即提高相关度b的计算准确度)，本申请同样可采用相关度平滑算法来计算相关度b。具体的，可采用如下公式(3)计算获得相关度b(p _b(M _t|h _q))。

其中，ctx(h _q)是指对核心词h _q进行上下文关联后所获得的处理后的核心词，或者由处理后的核心词所组成的集合。关于公式(3)中涉及的其他参数含义可参见前述公式(2) 中的相关阐述，这里不再赘述。

举例来说，引用上述第一种实施方式所示例子，利用第一预存文档对查询信息中的核心词(Work，即查询信息中的第一分类词)进行上下文关联后，获得处理后的核心词ctx(Work)＝{Mitchell,Charles，Mitchell}。则相关度b可为p(m|h _q)＝p(Mitchell|work)＝(1-λ)n(h _q,m)/Σ _w∈ctx(hq)n(w,m)+λp(h _q|D)＝(1-0.5)x2/3+0.5x2/3＝1/3。

第三种实现方式，终端设备在利用上述第一种以及第二种实现方式，计算获得相关度a和相关度b后，可按照设定运算规则，对所述相关度a和相关度b进行处理以得到所述第二相关度。所述设定运算规则为用户侧或系统侧自定义设置的运算法则，例如加法、减法、除法、乘法、数值取最大等等，本申请不做限定。以设定运算规则为数值取最大的运算法则为例，则第二相关度＝相关度a∨相关度b＝p _a(M _t|h _q)∨p _b(M _t|h _q)。

在又一些可能的实施例中，所述s个相关度包括第三相关度，该第三相关度p(h _t|M _q)用于指示所述查询信息中的第二分类词(修饰词)和所述候选实体的信息中的第三分类词(核心词)之间的相关度，即指示所述查询信息中的修饰词和所述候选实体的信息中的核心词之间的相关度。具体存在如下三种实施方式。

第一种实施方式中，终端设备(具体可为设备中的第二匹配器)根据第二预存文档对查询信息中的第二分类词(修饰词)进行上下文关联后，得到该查询信息中处理后的第三分类词(即处理后的修饰词)。进一步，再利用所述查询信息中处理后的第二分类词(即处理后的修饰词)和所述候选实体的信息中的第三分类词(核心词)，计算获得相关度c。可选的，可将该相关度c作为所述第三相关度。

所述上下文关联可以是指在所述第二预存文档中提取临近所述查询信息中第二分类词的前k个词语和/或后l个词语。其中，k和l可为用户侧或系统侧自定义设置的正整数。本申请中，所述第一预存文档和所述第二预存文档均为用户侧或系统侧自定义的文档，它们可以相同，也可不同。i，j，k以及l可为用户侧或系统侧自定义设置的正整数，它们可以相同，也可不同，本申请不做限定。关于所述上下文关联以及所述第二预存文档可参见前述实施例中的相关阐述，这里不做赘述。

在可选实施例中，为减小第二预存文档的选文偏差度(即提高相关度c的计算准确度)，本申请同样可采用相关度平滑算法来计算相关度c。具体的，可采用如下公式(4)计算获得相关度c(p _c(h _t|M _q))。

其中，λ是指相关度平滑算法中所采用的概率平滑因子，m是指查询信息中的某个修饰词(即某个第二分类词)，M _q是指查询信息中所有的修饰词(或它们组成的集合)。D是指第二预存文档。∏是指累乘。n(h _t,m)是指h _t和修饰词m同时出现的数量。w为ctx(m)中的任意词语。ctx(m)是指对修饰词m进行上下文关联后所获得的处理后的修饰词，或者由处理后的修饰词所组成的集合。h _i表示i的核心词(第一分类词或第三分类词)。M _i表示i的修饰词(第二分类词或第四分类词)。i＝q或t。q表示查询信息，t表示候选实体的信息。∝表示正比关系。可选的，本申请中p(h _t|M _q)也可视为和p(M _q|h _t)相同，本申请不做限定。

举例来说，引用上述公式(2)的例子，对查询信息中的修饰词Charles进行上下文关联后，得到的ctx(Charles)＝{work}。相应地，相关度c可为：

p ₁(h _t|M _q)∝p ₁(M _q|h _t)＝p(m|h _t)

＝p(Charles|building)

＝(1-λ)n(h _t,m)/Σ _wn(w,m)+λp(h _t|D)

＝(1-0.5)x0+0.5x0

＝0

第二种实施方式中，终端设备(具体可为设备中的第二匹配器)根据第二预存文档对候选实体的信息中的第三分类词(核心词)进行上下文关联，得到该候选实体的信息中处理后的第三分类词(即处理后的核心词)。进一步，再利用所述查询信息中的第二分类词(修饰词)和所述候选实体的信息中处理后的第三分类词，计算获得相关度d。可选的，可将相关度d作为第三相关度。

在可选实施例中，为减小第二预存文档的选文偏差度(即提高相关度c的计算准确度)，本申请同样可采用相关度平滑算法来计算相关度d。具体的，可采用如下公式(5)计算获得相关度d(p _d(h _t|M _q))。

其中，ctx(h _t)是指对核心词h _t进行上下文关联后所获得的处理后的核心词，或者由处理后的核心词所组成的集合。关于公式(5)中涉及的其他参数含义可参见前述公式(4)中的相关阐述，这里不再赘述。

举例来说，引用上述第一种实施方式所示例子，利用第二预存文档对候选实体的信息中的核心词(buildings，即第三分类词)进行上下文关联后，获得处理后的核心词ctx(buildings)＝{Mitchell}。则相关度d为：p _d(h _t|M _q)∝p(M _q|h _t)＝p(m|h _t)＝p(Charles|building)＝(1-λ)n(h _t,m)/Σ _wn(w,m)+λp(h _t|D)＝(1-0.5)x0+0.5x0＝0。

第三种实现方式，终端设备在利用上述第一种以及第二种实现方式，计算获得相关度c和相关度d后，可按照设定运算规则，对所述相关度c和相关度d进行处理以得到所述第三相关度。所述设定运算规则为用户侧或系统侧自定义设置的运算法则，例如加法、减法、除法、乘法、数值取最大等等，本申请不做限定。以设定运算规则为数值取最大的运算法则为例，则第三相关度＝相关度c∨相关度d＝p _c(h _t|M _q)∨p _d(h _t|M _q)。

在又一些实施例中，所述s个相关度包括第四相关度，该第四相关度p(M _t|M _q)用于指示所述查询信息中的第二分类词(修饰词)与所述候选实体的信息中的第四分类词(修饰词)之间的相关度，即指示所述查询信息中的修饰词和所述候选实体中的修饰词之间的相关度。具体存在以下三种实施方式。

第一种实施方式中，终端设备(具体可为设备中的第三匹配器)可对所述查询信息中的第二分类词(修饰词)进行拓展，例如针对该第二分类词进行属性词语的拓展等，以得到该查询信息中处理后的第二分类词(即处理后的修饰词)。然后，再利用所述查询信息中处理后的第二分类词(处理后的修饰词)和所述候选实体的信息中的第四分类词(修饰词)，计算获得相关度e。可选的，可将相关度e作为所述第四相关度。具体的，可采用如下公式(6)计算获得相关度e(p _e(M _t|M _q))。

其中，w和w _i属于M _q中的任意词语。w _j属于M _t中的任意词语。M _e是指候选实体的信息中拓展后的所有修饰词(即它们组成的集合)。m为M _e中的任意词。M _q是指查询信息中所有的修饰词(或它们组成的集合，这里也视为M _e)。M _t是指候选实体的信息中所有的修饰词(或它们组成的集合)。n(m,w)是指修饰词m和w同时出现的数量，且修饰词m和w相同。n(w _i,w _j)是指修饰词w _i以及w _j同时出现的数量。h _i表示i的核心词(第一分类词或第三分类词)。M _i表示i的修饰词(第二分类词或第四分类词)。i＝q或t。q表示查询信息，t表示候选实体的信息。

举例来说，引用上述查询信息为查尔斯的著作(Works by Charles)的例子。查询信息中的修饰词为查尔斯(Charles)。则终端设备可通过第三匹配器对该查询信息中的修饰词Charles进行属性词语的拓展，得到查询信息中拓展后的修饰词。例如这里第一实体库中包括有关于Charles的属性信息的描述，如苏格兰男性建筑师Scottish male architect以及米切尔楼房的建筑师(Mitchell building’s architect)。相应的，这里针对Charles拓展后的修饰词Me＝{Scottish,male,Mitchell}。

进一步地，基于Me以及候选实体中的修饰词Mitchell，计算它们之间的相关度e。具体为：p _e(M _t|M _q)可以用p(M _t|M _e)表示，即p({Joseph,Mitchell}|{Scottish,male,Mitchell})＝n(Mitchell,Mitchell)/Σn(w _i,w _j)＝1/6。

第二种实现方式中，终端设备(具体可为设备中的第三匹配器)可对所述候选实体的信息中的第四分类词(修饰词)进行拓展，例如针对所述第四分类词进行属性词语的拓展等，以对应得到所述候选实体中处理后的第四分类词(即处理后的修饰词)。进一步，再利用所述查询信息中的第二分类词(修饰词)和所述候选实体中处理后的第四分类词(处理后的修饰词)，计算获得相关度f。可选的，可将相关度f作为所述第四相关度。

具体的，可采用如下公式(7)计算获得相关度f(p _f(M _t|M _q))。

其中，w和w _i属于M _q中的任意词语。w _j属于M _t中的任意词语。M _e是指候选实体的信息中拓展后的所有修饰词(即它们组成的集合)。m为M _e中的任意词。M _q是指查询信息中所有的修饰词(或它们组成的集合)。M _t是指候选实体的信息中所有的修饰词(或它们组成的集合，这里也可视为M _e)。n(m,w)是指修饰词m和w同时出现的数量，且修饰词m和w相同。n(w _i,w _j)是指修饰词w _i以及w _j同时出现的数量。h _i表示i的核心词(第一分类词或第三分类词)。M _i表示i的修饰词(第二分类词或第四分类词)。i＝q或t。q表示查询信息，t表示候选实体的信息。

举例来说，上述公式(6)的例子，候选实体的信息为约瑟夫.米切尔的楼房(Joseph Mitchell buildings)。这里假设利用该候选实体的修饰词(即该候选实体中的某个第四分类词)为米切尔(Mitchell)，来计算查询信息中的修饰词(Charles，即查询信息中的第二分类词)与候选实体中的修饰词(Mitchell)之间的第四相关度。具体的，本例中针对Mitchell拓展后的修饰词M _e＝{Joseph}。则相关度f为p _f(M _t|M _q)，可用p(M _e|M _q)表示：p({Joseph}|{Joseph,Mitchell})＝n(Joseph,Joseph)/Σn(w _i,w _j)＝1/2。

第三种实现方式，终端设备在利用上述第一种以及第二种实现方式，计算获得相关度e和相关度f后，可按照设定运算规则，对所述相关度e和相关度f进行处理以得到所述第二相关度。所述设定运算规则为用户侧或系统侧自定义设置的运算法则，例如加法、减法、除法、乘法、数值取最大等等，本申请不做限定。以设定运算规则为数值取最大的运算法则为例，则第二相关度＝相关度e∨相关度f＝p _e(M _t|M _q)∨p _f(M _t|M _q)。

需要说明的是，按照上述S106具体实施方式的阐述原理，终端设备可根据每个候选实体中的第三分类词和第四分类词以及所述查询信息中的第一分类词和第二分类词，计算出每个候选实体各自对应的s个相关度，这里不再赘述。

相应地步骤S108中，终端设备在获得每个候选实体对应的s个相关度后，可按照设定运算规则该候选实体对应的s个相关度进行处理，得到该候选实体对应的目标相关度。所述设定运算规则为用户侧或系统侧自定义设置的运算法则，例如乘法、加法、幂次乘法运算等等。又如，可从s个相关度中选择一个数值最大的相关度作为目标相关度等，本申请不做限定。

其中，该目标相关度p(q|t)用于指示所述候选实体的信息t与所述查询信息q之间的相关度。α _j(j＝1,2,3或者4)的取值在0-1之间，其表示在候选实体中第j相关度占整体(s个相关度)中的比重。α _j取值越大，表示比重越重。当某部分分类词的相关度不考虑，则对应的α _j取值为0，本申请不做详述。

进一步地，在终端设备计算获得w个候选实体各自对应的目标相关度后，可根据w个目标相关度选择到目标实体的信息，作为所述查询信息对应的搜索结果。其中，该目标相关度用于指示候选实体(即候选实体的信息)和查询信息之间的相关度。该目标实体为所述w个候选实体中的一个或多个实体。

在可选实施例中，所述目标实体为所述w个候选实体中目标相关度超过预设第一阈值所对应的实体。具体实现中，所述终端设备可直接根据所述w个候选实体对应的w个目标相关度，从中选择出目标相关度超过预设第一阈值所对应的候选实体，作为所述目标实体。或者，所述终端设备可按照预设顺序对所述w个候选实体对应的w个目标相关度进行排序，例如按照目标相关度从大到小排序，进而选择出目标相关度最大的前m个目标相关度，将该m个目标相关度对应的m个候选实体作为所述目标候选实体。m为用户侧或系统侧自定义设置的正整数，例如1、5等等。

相应地，终端设备可将选取出的候选实体的信息(即目标实体的信息)作为所述查询信息对应的搜索结果。可选的，还可将所述目标实体的信息展示给用户查看。

通过实施本发明实施例，能够解决现有技术中由于表述差异导致搜索匹配率较低、准确率较低等问题，从而提升了搜索匹配的成功率以及准确率。

上述主要从终端设备的角度出发对本发明实施例提供的方案进行了介绍。可以理解的是，终端设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本发明中所公开的实施例描述的各示例的单元及算法步骤，本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的技术方案的范围。

本发明实施例可以根据上述方法示例对设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本发明实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用集成的单元的情况下，图4示出了上述实施例中所涉及的终端设备的一种可能的结构示意图。终端设备700包括：处理单元702和通信单元703。处理单元702用于对终端设备700的动作进行控制管理。处理单元702用于支持终端设备700执行图2中步骤S102-S108，和/或用于执行本文所描述的技术的其它步骤。通信单元703用于支持终端设备700与其它设备的通信，例如支持和服务器通信以获取第一实体库中包括的w个个候选实体的信息，和/或用于执行本文所描述的技术的其它步骤。

终端设备700还可以包括存储单元701，用于存储终端设备700的程序代码和数据。

其中，处理单元702可以是处理器或控制器，例如可以是中央处理器(英文：Central Processing Unit，CPU)，通用处理器，数字信号处理器(英文：Digital Signal Processor，DSP)，专用集成电路(英文：Application-Specific Integrated Circuit，ASIC)，现场可编程门阵列(英文：Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信单元703可以是通信接口、收发器、收发电路等，其中，通信接口是统称，可以包括一个或多个接口，例如终端设备与其他设备之间的接口。存储单元701可以是存储器。

当处理单元702为处理器，通信单元703为通信接口，存储单元701为存储器时，本发明实施例所涉及的终端设备可以为图5所示的终端设备。

参阅图5所示，该终端设备710包括：处理器712、通信接口713、存储器77。可选地，终端设备710还可以包括总线714。其中，通信接口713、处理器712以及存储器77可以通过总线714相互连接；总线714可以是外设部件互连标准(英文：Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(英文：Extended Industry Standard Architecture，简称EISA)总线等。所述总线714可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，如图4和5所示的终端设备还可包括显示单元，所述显示单元具体可为显示屏，图未示。所述显示屏用于显示搜索结果(目标实体的信息)。

上述图4或图5所示的终端设备的具体实现还可以对应参照前述方法实施例的相应描述，此处不再赘述。

结合本发明实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(英文：Random Access Memory，RAM)、闪存、只读存储器(英文：Read Only Memory，ROM)、可擦除可编程只读存储器(英文：Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(英文：Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于网络设备中。当然，处理器和存储介质也可以作为分立组件存在于终端设备中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种实体搜索方法，其特征在于，所述方法包括：

确定查询信息中所包括的第一分类词和第二分类词，所述第一分类词为所述查询信息中表述查询结果的类型的词语，所述第二分类词为所述查询信息中除所述第一分类词之外的词语；

根据第一实体库以及所述查询信息中所包括的第一分类词和第二分类词，确定w个候选实体各自对应的s个相关度；其中，所述第一实体库包括所述w个候选实体中每个候选实体的信息，所述候选实体的信息中包括有第三分类词和第四分类词，所述第三分类词和所述第一分类词属于同一分类，所述第四分类词和所述第二分类词属于同一分类；所述相关度用于指示所述查询信息中的分类词和所述候选实体中的分类词之间的相关度，w和s均为正整数，且s小于等于4；

根据所述w个候选实体各自对应的s个相关度，确定所述查询信息对应的目标实体的信息，所述目标实体为所述w个候选实体中的实体。
根据权利要求1所述的方法，其特征在于，所述第一分类词包括所述查询信息中表述查询结果的类型所对应的核心词，所述第二分类词包括所述查询信息中除所述第一分类词和停用词之外的修饰词。
根据权利要求1或2所述的方法，其特征在于，所述s个相关度包括第一相关度，用于指示所述查询信息中的第一分类词和所述候选实体中的第三分类词之间的相关度，

所述根据第一实体库以及所述查询信息中所包括的第一分类词和第二分类词，确定w个候选实体各自对应的s个相关度包括：

将所述第一实体库中的w个候选实体进行分类处理，得到处理后的候选实体；所述分类处理为将表述相同或相似词义的第三分类词所对应的候选实体合并为一个处理后的候选实体；

根据所述查询信息中的第一分类词和所述处理后的候选实体中的第三分类词，确定所述w个候选实体各自对应的第一相关度。
根据权利要求1-3中任一项所述的方法，其特征在于，所述s个相关度包括第二相关度，用于指示所述查询信息中的第一分类词和所述候选实体中的第四分类词之间的相关度，

所述根据第一实体库以及所述查询信息中所包括的第一分类词和第二分类词，确定w个候选实体各自对应的s个相关度包括以下中的任一项：

根据所述查询信息中处理后的第一分类词和所述w个候选实体中各自所包括的第四分类词，确定所述w个候选实体各自对应的相关度a，并作为所述w个候选实体各自对应的第二相关度；

根据所述查询信息中的第一分类词和所述w个候选实体中各自所包括的处理后的第四分类词，确定所述w个候选实体各自所对应的相关度b，并作为所述w个候选实体各自对应的第二相关度；

根据所述w个候选实体各自对应的相关度a以及所述w个候选实体各自对应的相关度b，确定所述w个候选实体各自对应的第二相关度；

其中，所述处理后的第一分类词为根据第一预存文档对所述查询信息中的第一分类词进行上下文关联处理后得到的，所述处理后的第四分类词为根据第一预存文档对所述候选实体中所包括的第四分类词进行上下文关联处理后得到的，所述上下文关联处理为在所述第一预存文档中提取临近所述第一分类词或者所述第四分类词的前i个词语和/或后j个词语，其中，i和j均为正整数。
根据权利要求4所述的方法，其特征在于，所述相关度a或者所述相关度b是根据相关度平滑算法确定的，所述相关度平滑算法用于缓减所述查询信息中的第一分类词或者所述候选实体中的第四分类词在所述第一预存文档中的偏差度。
根据权利要求1-5中任一项所述的方法，其特征在于，所述s个相关度包括第三相关度，用于指示所述查询信息中的第二分类词和所述候选实体中的第三分类词之间的相关度，

所述根据第一实体库以及所述查询信息中所包括的第一分类词和第二分类词，确定w个候选实体各自对应的s个相关度包括以下中的任一项：

根据所述查询信息中处理后的第二分类词和所述w个候选实体中各自所包括的第三分类词，确定所述w个候选实体各自对应的相关度c，并作为所述w个候选实体各自对应的第三相关度；

根据所述查询信息中的第二分类词和所述w个候选实体中各自所包括的处理后的第三分类词，确定所述w个候选实体各自对应的相关度d，并作为所述w个候选实体各自对应的第三相关度；

根据所述w个候选实体各自对应的相关度c以及所述w个候选实体各自对应的相关度d，确定所述w个候选实体各自对应的第三相关度；

其中，所述处理后的第二分类词为根据第二预存文档对所述查询信息中的第二分类词进行上下文关联处理后得到的，所述处理后的第三分类词为根据第二预存文档对所述候选实体中所包括的第三分类词进行上下文关联处理后得到的，所述上下文关联处理为在所述第二预存文档中提取临近所述第二分类词或者所述第三分类词的前k个词语和/或后l个词语，其中，k和l均为正整数。
根据权利要求6所述的方法，其特征在于，所述相关度c或者所述相关度d是根据相关度平滑算法确定的，所述相关度平滑算法用于缓减所述查询信息中的第二分类词或者所述候选实体中的第三分类词在所述第二预存文档中的偏差度。
根据权利要求1-7中任一项所述的方法，其特征在于，所述s个相关度包括第四相关度，用于指示所述查询信息中的第二分类词和所述候选实体中的第四分类词之间的相关度，

所述根据第一实体库以及所述查询信息中所包括的第一分类词和第二分类词，确定w个候选实体各自对应的s个相关度包括以下中的任一项：

根据所述查询信息中拓展后的第二分类词和所述w个候选实体中各自所包括的第四分类词，确定所述w个候选实体各自对应的相关度e，并作为所述w个候选实体各自对应的第四相关度；

根据所述查询信息中的第二分类词和所述w个候选实体中各自所包括的拓展后的第四分类词，确定所述w个候选实体各自对应的相关度f，并作为所述w个候选实体各自对应的第四相关度；

根据所述w个候选实体各自对应的相关度e和所述w个候选实体各自对应的相关度f，确定所述w个候选实体各自对应的第四相关度；

其中，所述拓展后的第二分类词为将所述查询信息中的第二分类词进行属性词语的拓展后得到的，所述拓展后的第四分类词为将所述候选实体中的第四分类词进行属性词语的拓展后得到的。
根据权利要求1-8中任一项所述的方法，其特征在于，所述根据所述w个候选实体各自对应的s个相关度，确定所述查询信息对应的目标实体的信息包括：

根据所述w个候选实体各自对应的s个相关度，确定所述w个候选实体各自对应的目标相关度；

根据所述w个候选实体各自对应的目标相关度，确定所述查询信息对应的目标实体的信息，所述目标实体为所述w个候选实体中目标相关度大于或等于第一阈值所对应的实体。
一种终端设备，其特征在于，包括存储器及与所述存储器耦合的处理器；所述存储器用于存储指令，所述处理器用于执行所述指令；其中，所述处理器执行所述指令时执行如上权利要求1-9中任一项所述的方法。
根据权利要求10所述的终端设备，其特征在于，所述终端设备还包括与所述处理器耦合的显示器，所述显示器用于在所述处理器的控制下显示目标实体的信息。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述方法。