WO2018171499A1

WO2018171499A1 - 一种信息检测方法、设备及存储介质

Info

Publication number: WO2018171499A1
Application number: PCT/CN2018/079111
Authority: WO
Inventors: 李潇; 张锋; 王策
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-03-21
Filing date: 2018-03-15
Publication date: 2018-09-27
Also published as: CN108304366B; CN108304366A

Abstract

本发明实施例公开了一种信息检测方法、设备及存储介质，其方法包括：从预存句子集合中选取包含目标候选对的候选句子，根据选取的候选句子生成候选句子集合，目标候选对包括目标实体词和目标实体词对应的候选上位词；根据候选句子集合中的每个候选句子和预存的词向量集合，确定候选句子集合对应的句子集合向量；从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量；及，根据所述第一词向量、所述第二词向量以及所述句子集合向量，检测候选上位词是否为目标实体词的上位词。

Description

一种信息检测方法、设备及存储介质

本申请要求于2017年3月21日提交中国专利局、申请号为201710172589.7、申请名称为“一种上位词检测方法及设备”的中国专利申请的优先权。

技术领域

本发明涉及计算机技术领域，尤其涉及一种信息检测方法、设备及存储介质。

发明背景

随着网络技术的发展，网络搜索技术得到了不断的完善，通过网络搜索技术可以从互联网上获取各种信息。例如，用户提交一个查询关键词，网站向用户返回一个与该关键词相关的搜索结果。其中，搜索结果中可以包含该关键词对应的上位词的结果，或者该关键词对应的下位词的结果，若关键词是老虎，其上位词为动物；若关键词是动物，该关键词对应的下位词可以是老虎或者其他。因此，如何确定某一个词对应的上位词是一个重要的环节。

发明内容

本发明实施例提供一种信息检测方法、设备及存储介质，通过将包含候选对的句子和候选对中的实体词、候选上位词一并分析，实现对候选上位词是否为实体词的上位词的检测，提高了上位词的检测效率。

第一方面，本发明实施例提供了一种信息检测方法，应用于信息检测设备，所述方法包括：

从预存句子集合中选取包含目标候选对的候选句子，根据选取的候选句子生成候选句子集合，所述目标候选对包括目标实体词和目标实体词对应的候选上位词；

根据所述候选句子集合中的每个候选句子和预存的词向量集合，确定所述候选句子集合对应的句子集合向量；

从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量；及，

根据所述第一词向量、所述第二词向量以及所述句子集合向量，检测所述候选上位词是否为所述目标实体词的上位词。

第二方面，本发明实施例还提供了一种信息检测设备，所述设备包括处理器和存储器，所述存储器中存储可被所述处理器执行的指令，当执行所述指令时，所述处理器用于：

本发明实施例第三方面提供了一种计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如上所述的方法。

附图简要说明

为了更清楚的说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。其中，

图1a为本发明一实施例所涉及的实施环境的结构示意图；

图1b是本发明实施例中的一种信息检测方法的流程示意图；

图2是本发明实施例中的另一种信息检测方法的流程示意图；

图3是本发明实施例提供的步骤205的一种流程示意图；

图4是本发明实施例提供的步骤206的一种流程示意图；

图5是本发明实施例提供的一种信息检测方法的示例图；

图6是本发明实施例提供的一种信息检测设备的结构示意图；

图7是本发明实施例提供的一种确定模块的结构示意图；

图8是本发明实施例提供的一种矩阵确定单元的结构示意图；

图9是本发明实施例提供的一种向量生成单元的结构示意图；

图10是本发明实施例提供的一种检测模块的结构示意图；

图11是本发明实施例提供的另一种信息检测设备的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在现有的技术方案中，对于包含实体词和实体词对应的候选上位词的候选对而言，是通过手动整理和提取能够成为上位词的特征，来确定该候选对中的候选上位词是否为该实体词的上位词，这样需要较多的领域知识和人力，降低了上位词的检测效率。

图1a为本发明一实施例所涉及的实施环境的结构示意图。如图1a所示，信息检测系统100包括服务器110、网络120、终端设备130以及用户140。其中，服务器110包括处理器和存储器，本发明中的方法实施例由处理器执行存储在存储器中的指令来执行。具体地，服务器110包括句子数据库111、词向量数据库112和上位词检测单元113。终端设备130上安装有客户端130-1。客户端130-1向用户提供搜索窗口，供用户输入待查询的实体词。

在本发明的实施例中，句子数据库111中存储有大量的句子，形成句子集合；词向量数据库112中存储有每个词对应的词向量，形成词向量集合。上位词检测单元113用于从句子数据库111中预存的句子集合中选取包含目标候选对的候选句子，生成候选句子集合，目标候选对包括目标实体词和目标实体词对应的候选上位词；根据候选句子集合中的每个候选句子和预存的词向量集合，确定候选句子集合对应的句子集合向量；从词向量数据库112中存储的词向量集合中获取目标实体词对应的第一词向量和候选上位词对应的第二词向量，根据第一词向量、第二词向量以及句子集合向量，检测候选上位词是否为目标实体词的上位词。然后，服务器110将确定的上位词作为搜索结果的一部分发送给终端设备130中的客户端130-1，客户端130-1向用户展示该搜索结果。

其中，服务器110可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。网络120可以为无线或有线的形式将服务器110和终端设备130进行相连。终端设备130可以为智能终端，包括智能手机、平板电脑、膝上型便携计算机等。

下面将结合附图1b-附图5，对本发明实施例提供的信息检测方法进行详细介绍。

请参见图1b，为本发明实施例提供了一种信息检测方法的流程示意图。如图1b所示，本发明实施例的所述方法，应用于信息检测设备，可以包括以下步骤101-步骤103。

101，从预存句子集合中选取包含目标候选对的候选句子，根据选取的候选句子生成候选句子集合。

具体的，信息检测设备从预存句子集合中选取包含目标候选对的候选句子。其中，预存句子集合可以是由可供提取候选对的语料集组成的。所述目标候选对是多个候选对中的任意一个，每个候选对都可以通过本发明实施例所介绍的方案来实现对上位词的检测。所述目标候选对包括目标实体词和目标实体词对应的候选上位词。

所述信息检测设备先从预存句子集合中选择既包含目标实体词又包含候选上位词的候选句子，在将所选择的候选句子组合为候选句子集合，该候选句子集合是用于检测所述目标候选对中候选上位词是否为目标实体词的上位词的。

进一步的，在本发明实施例中，如果实体词和候选上位词存在上下位关系，则确定候选上位词为实体词的上位词，例如，实体词为老虎，候选上位词为动物，可以认为老虎是动物，因此动物是老虎的上位词。这样，目标候选对可以表示为(老虎，动物)。

在本发明实施例中，实体词包括名词和代词等。所谓的上位词是相对实体词而言的，指概念上外延更广的词语。一个实体词所表达概念的任何一种属性、任何一种归类方式，都可以是它的上位词。例如，实体词“鲜花快递”的候选上位词可以是“鲜花”、“快递”、“网上购物”、“鲜花礼仪”、“鲜花店”、“礼品公司”。又如，实体词“王菲”的候选上位词可以是“歌星”、“女人”、“妈咪”、“女儿”、“香港”、“狮子座”。

可选的，所述目标候选对包含的目标实体词和候选上位词是所述信息检测设备从实体词集合和候选上位词集合中分别随机选择一个而组合的。其中，实体词集合是包含至少一个实体词的集合，候选上位词集合包含至少一个候选上位词的集合。可以看出，在组合之前并未确定候选上位词是否为所述目标实体词的上位词，在本发明实施例中，通过以下执行动作可以实现上位词的检测功能。

102，根据所述候选句子集合中的每个候选句子和预存的词向量集合，确定所述候选句子集合对应的句子集合向量。

具体的，所述信息检测设备根据所述候选句子集合中的每个候选句子和预存的词向量集合，确定所述候选句子集合对应的句子集合向量。

本发明实施例中，通过机器学习的方式对实体词的候选上位词进行检测，需要将自然语言中的实体词数学化，这里预先设置并存储每个实体词的词向量。可选的，词向量是将一个词用向量的方式表示。

可选的，所述信息检测设备可以通过时间递归神经网络(Long Short-Term Memory，LSTM)将每个候选句子的句子矩阵压缩为H维向量，其中，H是LSTM网络中隐藏层数量。在本发明实施例中能够通过句子集合向量来体现与目标候选对相关的候选句子的句子信息，以提高上位词检测的准确性。

103，从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量。

104，根据所述第一词向量、所述第二词向量以及所述句子集合向量，检测所述候选上位词是否为所述目标实体词的上位词。

具体的，所述信息检测设备从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量，并根据所述第一词向量、所述第二词向量和确定的所述候选句子集合对应的句子集合向量，检测所述候选上位词是否为所述目标实体词的上位词。这样既结合了目标实体词和候选上位词的信息，又考虑了包含目标实体词和候选上位词的候选句子的信息，进而能够更加准确地确定所述候选上位词是否为所述目标实体词的上位词。

其中，所述第一词向量和所述第二词向量是用于区分目标实体词和候选上位词对应的词向量的，可选的，词向量是将一个词用向量的方式表示，向量的每个元素可以为数字，举个例子，“话筒”表示为词向量[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0……]；“麦克”表示为词向量[0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0……]；或者，词向量可以表示为[0.792,-0.177,-0.107,0.109,-0.542,……]。

可选的，所述信息检测设备可以利用分类器对包含所述第一词向量、第二词向量和所述句子集合向量的数据进行分类，类别可以划分为表示所述候选上位词为所述目标实体词的上位词的第一分类，以及表示所述候选上位词不是所述目标实体词的上位词的第二分类，根据第一分类和第二分类的分类值确定所述候选上位词是否为所述目标实体词的上位词。

在本发明实施例中，首先从预存句子集合中选取包含目标候选对的候选句子，根据选取的候选句子生成候选句子集合，目标候选对包括目标实体词和目标实体词对应的候选上位词；根据候选句子集合中的每个候选句子和预存的词向量集合，确定候选句子集合对应的句子集合向量；从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量；及，根据所述第一词向量、所述第二词向量以及所述句子集合向量，检测候选上位词是否为目标实体词的上位词。通过将包含候选对的句子和候选对中的实体词、候选上位词一并分析，进而实现对候选上位词是否为实体词的上位词的检测，并避免了人工提取上位词特征，提高了上位词的检测效率。

当信息检测设备为服务器时，通过上述实施例的技术方案，使得服务器的搜索准确率提升，最终的搜索结果将更加符合用户的查询需求，避免了用户多次输入实体词以获得期望的搜索结果，因此，提升了服务器的资源利用率。

请参见图2，为本发明实施例提供了另一种信息检测方法的流程示意图。如图2所示，本发明实施例的所述方法可以包括以下步骤201-步骤209。

201，从预存句子集合中提取多个实体词，并生成包含所述多个实体词的实体词集合。

具体的，信息检测设备从预存句子集合中提取多个实体词，并将提取到的多个实体词组成实体词集合。其中，预存句子集合可以用于提取多个实体词。可选的，所述信息检测设备可以采用命名实体识别(Named Entity Recognition，NER)技术从预存句子集合中获取多个实体词，其中，NER能够识别预存句子集合中的人名、动物名、地名、组织机构名等实体词，例如，老虎、狮子、深圳等。

202，采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词，并生成包含所述多个候选上位词的候选上位词集合。

具体的，所述信息检测设备采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词。可选的，所述信息检测设备可以根据当前的词汇字典，对所述预存句子集合中的每个句子进行分词，例如，所述信息检测设备可以采用但不限定于基于字符串匹配的分词方法、基于统计的分词方法等进行分词，以获得几十、几千甚至更多的词。其中，所述词汇字典是为分词准备的，所述词条词典中包含多个单词、词语和短语，进一步可选的，可以对词汇字典进行实时更新，这样能够将新的词汇更新到词汇字典中，使得预存句子集合中的新词汇不会被分开，保证了分词的准确性。

进一步可选的，所述预设词性可以包括名词和名词短语中的至少一项。另外，在本发明实施例中，如果实体词和候选上位词存在上下位关系，则确定候选上位词为实体词的上位词，例如，实体词为老虎，候选上位词为动物，可以认为老虎是动物，因此动物是老虎的上位词。

在本发明实施例中，从提取出的多个实体词中删除不满足所述预设词性的实体词，将删除后的多个实体词组合成所述实体词集合。具体地，由于介词、形容词、副词等词性的实体词无法确定相对应的上位词，因此可以通过预设词性的方式将无法找到上位词的实体词进行排除，以减少上位词检测的计算量和复杂度。

进一步的，在所述信息检测设备提取到多个候选上位词之后，所述信息检测设备将提取到的多个候选上位词组成候选上位词集合。

203，将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合，生成至少一个候选对，从生成的至少一个候选对中选择一个确定为目标候选对。

具体的，所述信息检测设备将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合，生成候选对。举例来说，如表一所示的实体词集合，该实体词集合中包含实体词A1、A2、A3、A4、A5；再如表二所示的候选上位词集合，该候选上位词集合中包含候选上位词B1、B2、B3。

表一

实体词集合

A1

A2

A3

A4

A5

表二

候选上位词集合

B1

B2

B3

由表一和表二组成的候选对包括A1-B1，A1-B2，A1-B3，A2-B1，A2-B2，A2-B3，A3-B1，A3-B2，A3-B3，A4-B1，A4-B2，A4-B3，A5-B1，A5-B2，A5-B3。可以看出，实体词集合中的每个实体词都可以与候选上位词集合中的每个候选上位词组合为一个候选对，以保证候选对的完整性。

204，从预存句子集合中选取包含目标候选对的候选句子，根据选取的候选句子生成候选句子集合。

具体的，所述目标候选对包括目标实体词和目标实体词对应的候选上位词。所述信息检测设备先从预存句子集合中选择既包含目标实体词又包含候选上位词的候选句子，在将所选择的候选句子组合为候选句子集合，该候选句子集合是用于检测所述目标候选对中候选上位词是否为目标实体词的上位词的。

205，根据预存的词向量集合，确定所述候选句子集合中每个候选句子对应的句子矩阵。

具体的，所述信息检测设备根据预存的词向量集合，确定所述候选句子集合中每个候选句子对应的句子矩阵。请一并参见图3，为本发明实施例提供了一种步骤205的流程示意图，如图3所示，所述步骤205包括步骤2051和步骤2052。

2051，对所述候选句子集合中的每个候选句子进行分词，以提取所述每个候选句子中包含的至少一个分词，并根据预存的词向量集合确定所述至少一个分词中每个分词对应的词向量。

具体的，所述信息检测设备对所述候选句子集合中的每个候选句子进行分词，进而提取到所述每个候选句子中包含的至少一个分词，并根据预存的词向量集合确定所述至少一个分词中每个分词对应的词向量。可选的，所述信息检测设备可以按照包含多个单词、词语和短语的词条字典对每个候选句子进行划分以得到至少一个分词，并将该候选句子中的每个分词转变为词向量。

可选的，词向量是将一个词用向量的方式表示，所述信息检测设备可以从预存的词向量集合中分别查找该候选句子中每个分词对应的词向量。举例来说，预存的词向量集合可以是通过词转化为向量的工具(如，word2vec方法)实现将一个词转化为词向量。

2052，按照所述每个分词在所述每个候选句子中的排列顺序，将所述每个分词对应的词向量进行组合，生成所述每个候选句子对应的句子矩阵。

具体的，所述信息检测设备按照所述每个分词在所述每个候选句子中的排列顺序，将所述每个分词对应的词向量进行组合，生成所述每个候选句子对应的句子矩阵。其中，句子矩阵是一个L*N维的二维矩阵，L为分词的数量，N为词向量的长度。

对于候选句子集合中的每个候选句子都可以按照步骤2051和步骤2052来确定每个候选句子对应的句子矩阵。以一个候选句子为例进行说明。

如，候选句子为“abc”；对该候选句子分词后得到“word1word2word3”，word1＝a、word2＝b、word3＝c；接着在词向量集合中查找到分词对应的词向量，word1＝word embedding1、word2＝word embedding2、 word3＝word embedding3；最后按照各分词在该候选句子中的顺序构造该候选句子对应的句子矩阵，句子矩阵如下所示，其中，由于候选句子中分词的数量L为3，若每个分词对应的词向量为1*N维，则该句子矩阵为3*N。

206，根据所述候选句子集合中所述每个候选句子对应的句子矩阵，生成所述候选句子集合对应的句子集合向量。

具体的，所述信息检测设备根据所述候选句子集合中所述每个候选句子对应的句子矩阵，生成所述候选句子集合对应的句子集合向量。请一并参见图4，为本发明实施例提供了一种步骤206的流程示意图，如图4所示，所述步骤206包括步骤2061和步骤2062。

2061，基于时间递归神经网络，根据所述候选句子集合中所述每个候选句子对应的句子矩阵，确定所述每个候选句子对应的句子向量。

具体的，所述信息检测设备通过LSTM进行训练和预测，将所述候选句子集合中所述每个候选句子对应的句子矩阵压缩成该候选句子对应的句子向量。其中，本发明实施例中的LSTM是用于上位词检测的。所述信息检测设备可以通过LSTM将每个候选句子的L*N维句子矩阵压缩为一个H维的句子向量，其中，H是LSTM网络中预设的隐藏层数量。

在具体应用时，构建海量的正负候选对，根据这些正负候选对包含的候选句子集合，对LSTM进行训练，这样LSTM能够学习得到正负候选对所包含的一些语义特征，例如，句式的隐含信息、全局状态等特征。基于已经获得的正负候选对所包含的语义特征，能够实现对目标候选对的检测。

可选的，所述LSTM学习正负候选对所包含的一些语义特征的具体过程为：以正候选对为例，输入海量的正候选对中每个正候选对，获取包含正候选对的候选句子集合，从候选句子集合中提取多类语义特征及各个特征对应的特征值；同样，对于负候选对也执行相同的操作，并以大多数正候选对的特征值接近与预设标准值、大多数负候选对的特征值远离预设标准值的原则，确定用于上位词检测的LSTM中所需的各个参数。

需要说明的是，构建海量的正负候选对时，正候选对、负候选与本发明实施例中目标候选对所包含的信息的类型相同。正候选对包括一实体词和与该实体词对应的候选上位词，对于正候选对而言，候选上位词是该实体词的上位词。负候选对包括一实体词和与该实体词对应的候选上位词，对于负候选对而言，候选上位词不是该实体词的上位词。

2062，对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均，生成所述候选句子集合对应的句子集合向量。

具体的，所述信息检测设备对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均，生成所述候选句子集合对应的句子集合向量。这样能够通过一句子集合向量来表示包含该目标候选对的全部候选句子的句子信息。

其中，各个句子分量对应的加权值可以由所述信息检测设备自由设定，还可以根据各个候选句子对应的等级进行设定，例如等级高的设定较大的加权值，等级低的设备较小的加权值。进一步可选的，每个候选句子的等级可以根据但不限定于候选句子的长度、包含的目标候选对中目标实体词和/或候选上位词的数量而确定。

举例来说，若所述候选句子集合中包含4个候选句子，且通过步骤 2061确定的每个候选句子对应的句子向量分别为H1、H2、H3和H4；且各个句子分量的加权值均为1，则该候选句子集合对应的句子集合向量为：

207，从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词的第二词向量。

具体的，所述信息检测设备从所述词向量集合中获取所述目标实体词对应的第一词向量，以及所述候选上位词的第二词向量。可选的，所述词向量集合中包含多个词对应的词向量。

208，将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并，生成目标向量。

具体的，所述信息检测设备将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并，生成目标向量。其中，所述第一词向量和所述第二词向量是用于区分目标实体词和候选上位词对应的词向量的。

进一步的，将获取到的第一词向量、第二词向量以及步骤206中生成的句子集合向量进行合并，生成目标向量。举例来说，若第一词向量为N1，第二词向量为N2，句子集合词向量为H _avg；则目标向量T为：

T＝[N ₁,N ₂,H _avg]

209，采用预设分类器根据所述目标向量检测所述候选上位词是否为所述目标实体词的上位词。

具体的，所述信息检测设备采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词。可选的方案中，由于本发明实施例是为了检测候选上位词是否为所述目标实体词的上位词，因此，将分类器设定为两个分类，分别是第一分类和第二分类，其中，所述第一分类表示所述候选上位词是所述目标实体词的上位词；所述第二分类表示所述候选上位词不是所述目标实体词的上位词。通过预设分类器可以根据所述目标向量计算得到每个分类对应的分类值，并按照分类值确定检测结果。

举例来说，若任意一个词向量的维度为1*N维，句子集合向量的维度为1*H维，则在步骤208中确定的目标向量为1*(N+N+H)维，预设分类器包含第一分类和第二分类，该预设分类器可以通过一个(N+N+H)行*2列的参数矩阵，对目标向量进行计算，进而获得每个分类的分类值。其中，(N+N+H)行*2列的参数矩阵是所述信息检测设备通过多个训练候选对训练获得的。

可选的，若采用预设分类器计算的所述第一分类对应的分类值大于所述第二分类对应的分类值，则确定所述候选上位词是所述目标实体词的上位词；若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第二分类对应的分类值，则确定所述候选上位词不是所述目标实体词的上位词。举例来说，(N+N+H)行*2列的参数矩阵是通过正负候选对进行训练获得，使得大多数正候选对的第一分类对应的分类值较大，且大多数负候选对的第二分类对应的分类值较小。

可选的，所述预设分类器可以包括但不限定于softmax分类器。以softmax分类器举例来说，每个分类对应的分类值表示该分类可能出现的概率，且各个分类的可能出现的概率之和为1。若第一分类的概率为0.8，第二分类的概率为0.2；则由于第一分类的概率大于第二分类的概率，因此确定所述候选上位词是所述目标实体词的上位词。

除了采用上述通过第一分类对应的分类值与第二分类对应的分类值进行比较的方式来确定检测结果之外，还可以通过对第一分类对应的分类值进行判断以确定检测结果。例如，若采用预设分类器计算的所述第一分类对应的分类值大于第一阈值，则确定所述候选上位词是所述目标实体词的上位词；若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第一阈值，则确定所述候选上位词不是所述目标实体词的上位词。举例来说，(N+N+H)行*2列的参数矩阵是通过正负候选对进行训练获得，使得大多数正候选对的第一分类对应的分类值大于第一阈值，且大多数负候选对的第一分类对应的分类值不大于所述第一阈值。

以及，还可以通过对第二分类对应的分类值进行判断以确定检测结果。例如，若采用预设分类器计算的所述第二分类对应的分类值大于第二阈值，则确定所述候选上位词不是所述目标实体词的上位词；若采用所述预设分类器计算的所述第二分类对应的分类值不大于所述第二阈值，则确定所述候选上位词是所述目标实体词的上位词。举例来说，(N+N+H)行*2列的参数矩阵是通过正负候选对进行训练获得，使得大多数正候选对的第二分类对应的分类值不大于所述第二阈值，且大多数负候选对的第二分类对应的分类值大于第二阈值。

为了更好的理解本发明实施例，请一并参见图5，为本发明实施例提供了一种信息检测方法的示例图。如图5所示，在信息检测设备中包括预存句子集合存储模块、词向量存储模块、LSTM模块、预设分类器模块。

其中，所述预存句子集合存储模块，用于存储大量的语料数据，可以用于提取多个实体词、多个候选上位词，以及选取包含目标候选对的候选句子，根据选取的候选句子生成候选句子集合。

所述词向量存储模块可以用于存储由训练候选对生成的各个词对应的词向量，可以用于确定实体词、候选上位词、句子中的分词等的词向量。

所述LSTM模块可以将每个候选句子的句子矩阵压缩为句子向量，并生成所述候选句子集合对应的句子集合向量。

预设分类器模块可以用于将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并，生成目标向量，并检测候选上位词是否为实体词的上位词。

基于图5的具体实现过程为，首先，获取输入的目标候选对，从信息检测设备中的预存句子集合存储模块中获取包含目标候选对的候选句子，并将包含目标候选对的候选句子组合为候选句子集合；接着，通过对候选句子集合中的每个候选句子进行分词，以提取每个候选句子中包含的至少一个分词，并从词向量存储模块中确定至少一个分词中每个分词对应的词向量，按照每个分词在该候选句子中的排列顺序，将每个分词对应的词向量进行组合，生成该候选句子对应的句子矩阵；然后，基于LSTM模块，将候选句子集合中每个候选句子对应的句子矩阵压缩成该候选句子对应的句子向量；对候选句子集合中每个候选句子对应的句子向量进行加权平均，生成候选句子集合对应的句子集合向量；以及从词向量存储模块中获取目标实体词对应的第一词向量和候选上位词的第二词向量；最后，通过预设分类器模块根据目标实体词对应的第一词向量、候选上位词的第二词向量和句子集合向量，确定检测结果，其中检测结果为候选上位词是否为目标实体词的上位词。

请参见图6，为本发明实施例提供了一种信息检测设备的结构示意图。如图6所示，本发明实施例的所述信息检测设备1可以包括：生成模块11、确定模块12、检测模块13。

生成模块11，用于从预存句子集合中选取包含目标候选对的候选句子，根据选取的候选句子生成候选句子集合，所述目标候选对包括目标实体词和目标实体词对应的候选上位词。

确定模块12，用于根据所述候选句子集合中的每个候选句子和预存的词向量集合，确定所述候选句子集合对应的句子集合向量。

具体的，请一并请参见图7，为本发明实施例提供了一种确定模块的结构示意图，如图7所示，所述确定模块12包括：矩阵确定单元121、向量生成单元122。

矩阵确定单元121，用于根据预存的词向量集合，生成所述候选句子集合中每个候选句子对应的句子矩阵。

具体的，请一并请参见图8，为本发明实施例提供了一种矩阵确定单元的结构示意图，如图8所示，所述矩阵确定单元121包括：词向量确定子单元1211、句子矩阵生成子单元1212。

其中，针对所述候选句子集合中的每个候选句子，执行如下处理：

词向量确定子单元1211，用于对该候选句子进行分词，提取出该候选句子中包含的至少一个分词，并根据所述词向量集合确定所述至少一个分词中每个分词对应的词向量。

句子矩阵生成子单元1212，用于按照所述每个分词在该候选句子中的排列顺序，将所述每个分词对应的词向量进行组合，生成该候选句子对应的句子矩阵。

对于候选句子集合中的每个候选句子都可以按照词向量确定子单元1211、句子矩阵生成子单元1212来确定每个候选句子对应的句子矩阵。

向量生成单元122，用于根据所述候选句子集合中所述每个候选句子对应的句子矩阵，生成所述候选句子集合对应的句子集合向量。

具体的，请一并请参见图9，为本发明实施例提供了一种向量生成单元的结构示意图，如图9所示，所述向量生成单元122包括：句子向量确定单元1221、数量确定单元1222。

句子向量确定子单元1221，用于基于时间递归神经网络，将所述候选句子集合中所述每个候选句子对应的句子矩阵压缩成该候选句子对应的句子向量。

向量生成子单元1222，用于对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均，生成所述候选句子集合对应的句子集合向量。

具体的，所述向量生成子单元1222对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均，生成所述候选句子集合对应的句子集合向量。这样能够通过一句子集合向量上来表示包含该目标候选对的全部候选句子的句子信息。

检测模块13，用于从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量；根据所述第一词向量、所述第二词向量以及所述句子集合向量，检测所述候选上位词是否为所述目标实体词的上位词。

具体的，请一并请参见图10，为本发明实施例提供了一种检测模块的结构示意图，如图10所示，所述检测模块13包括：词向量获取单元131、目标向量生成单元132、上位词检测单元133。

词向量获取单元131，用于从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词的第二词向量。

目标向量生成单元132，用于将所述第一词向量、所述第二词向量和所述句子集合向量进行合并，生成目标向量。

上位词检测单元133，用于采用预设分类器根据所述目标向量检测所述候选上位词是否为所述目标实体词的上位词。

可选的，所述预设分类器包含第一分类和第二分类，所述第一分类表示所述候选上位词是所述目标实体词的上位词。所述第二分类表示所述候选上位词不是所述目标实体词的上位词。

所述上位词检测单元133，具体用于：采用所述预设分类器根据所述目标向量计算得到所述第一分类对应的分类值和所述第二分类对应的分类值。若所述第一分类对应的分类值大于所述第二分类对应的分类值，则确定所述候选上位词是所述目标实体词的上位词。若所述第一分类对应的分类值不大于所述第二分类对应的分类值，则确定所述候选上位词不是所述目标实体词的上位词。

可选的，所述信息检测设备1的生成模块11在执行从预存句子集合中选取包含目标候选对的候选句子，根据选取的候选句子生成候选句子集合之前，还用于：从预存句子集合中提取多个实体词，并生成包含所述多个实体词的实体词集合；采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词，并生成包含所述多个候选上位词的候选上位词集合；将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合，生成至少一个候选对；从生成的至少一个候选对中选择一个确定为所述目标候选对。

可选的，生成模块11还用于：从提取出的多个实体词中删除不满足所述预设词性的实体词，以生成所述实体词集合。

另外，在本发明实施例中，如果实体词和候选上位词存在上下位关系，则确定候选上位词为实体词的上位词，例如，实体词为老虎，候选上位词为动物，可以认为老虎是动物，因此动物是老虎的上位词。由于介词、形容词、副词等词性的词语无法确定相对应的上位词，因此可以通过预设词性的方式将无法找到上位词的词性进行排除，以减少上位词检测的计算量和复杂度。

请参见图11，为本发明实施例提供了另一种信息检测设备的结构示意图。如图11所示，所述信息检测设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及上位词检测应用程序。

在图11所示的信息检测设备1000中，处理器1001可以用于调用存储器1005中存储的上位词检测应用程序，并具体执行以下操作：

在一个实施例中，所述处理器1001还执行：

从预存句子集合中提取多个实体词，并生成包含所述多个实体词的实体词集合；

采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词，并生成包含所述多个候选上位词的候选上位词集合；

将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合，生成至少一个候选对；

从生成的至少一个候选对中选择一个确定为所述目标候选对。

在一个实施例中，所述处理器1001还执行：从提取出的多个实体词中删除不满足所述预设词性的实体词，以生成所述实体词集合。

在一个实施例中，所述处理器1001在执行根据所述候选句子集合中的每个候选句子和预存的词向量集合，确定所述候选句子集合对应的句子集合向量，具体执行：

根据预存的词向量集合，生成所述候选句子集合中每个候选句子对应的句子矩阵；

根据所述候选句子集合中所述每个候选句子对应的句子矩阵，生成所述候选句子集合对应的句子集合向量。

在一个实施例中，所述处理器1001在执行根据预存的词向量集合，生成所述候选句子集合中每个候选句子对应的句子矩阵，具体执行：

针对所述候选句子集合中的每个候选句子，执行如下处理：

对该候选句子进行分词，提取出该候选句子中包含的至少一个分词，并根据所述词向量集合确定所述至少一个分词中每个分词对应的词向量；

按照所述每个分词在该候选句子中的排列顺序，将所述每个分词对应的词向量进行组合，生成该候选句子对应的句子矩阵。

在一个实施例中，所述处理器1001在执行根据所述候选句子集合中所述每个候选句子对应的句子矩阵，生成所述候选句子集合对应的句子集合向量，具体执行：

基于时间递归神经网络，将所述候选句子集合中所述每个候选句子对应的句子矩阵压缩成该候选句子对应的句子向量；

对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均，生成所述候选句子集合对应的句子集合向量。

在一个实施例中，所述处理器1001在执行根据所述第一词向量、所述第二词向量以及所述句子集合向量，检测所述候选上位词是否为所述目标实体词的上位词，具体执行：

将所述第一词向量、所述第二词向量和所述句子集合向量进行合并，生成目标向量；

采用预设分类器根据所述目标向量检测所述候选上位词是否为所述目标实体词的上位词。

在一个实施例中，所述预设分类器包含第一分类和第二分类，所述第一分类表示所述候选上位词是所述目标实体词的上位词；所述第二分类表示所述候选上位词不是所述目标实体词的上位词；

所述处理器1001在执行采用预设分类器根据所述目标向量检测所述候选上位词是否为所述目标实体词的上位词，具体执行：

采用所述预设分类器根据所述目标向量计算得到所述第一分类对应的分类值和所述第二分类对应的分类值；

若所述第一分类对应的分类值大于所述第二分类对应的分类值，则确定所述候选上位词是所述目标实体词的上位词；

若所述第一分类对应的分类值不大于所述第二分类对应的分类值，则确定所述候选上位词不是所述目标实体词的上位词。

需要说明的是，本发明实施例所描述的处理器1001所执行的动作可根据上述图1b至图5所示方法实施例中的方法具体实现，此处不再赘述。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例终端中的模块或单元可以根据实际需要进行合并、划分和删减。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

一种信息检测方法，其特征在于，应用于信息检测设备，所述方法包括：

从预存句子集合中选取包含目标候选对的候选句子，根据选取的候选句子生成候选句子集合，所述目标候选对包括目标实体词和目标实体词对应的候选上位词；

根据所述候选句子集合中的每个候选句子和预存的词向量集合，确定所述候选句子集合对应的句子集合向量；

从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量；及，

根据所述第一词向量、所述第二词向量以及所述句子集合向量，检测所述候选上位词是否为所述目标实体词的上位词。
根据权利要求1所述的方法，其特征在于，还包括：

从预存句子集合中提取多个实体词，并生成包含所述多个实体词的实体词集合；

采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词，并生成包含所述多个候选上位词的候选上位词集合；

将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合，生成至少一个候选对；

从生成的至少一个候选对中选择一个确定为所述目标候选对。
根据权利要求2所述的方法，其特征在于，还包括：

从提取出的多个实体词中删除不满足所述预设词性的实体词，以生成所述实体词集合。
根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述候选句子集合中的每个候选句子和预存的词向量集合，确定所述候选句子集合对应的句子集合向量，包括：

根据预存的词向量集合，生成所述候选句子集合中每个候选句子对应的句子矩阵；

根据所述候选句子集合中所述每个候选句子对应的句子矩阵，生成所述候选句子集合对应的句子集合向量。
根据权利要求4所述的方法，其特征在于，所述根据预存的词向量集合，生成所述候选句子集合中每个候选句子对应的句子矩阵，包括：

针对所述候选句子集合中的每个候选句子，执行如下处理：

对该候选句子进行分词，提取出该候选句子中包含的至少一个分词，并根据所述词向量集合确定所述至少一个分词中每个分词对应的词向量；

按照所述每个分词在该候选句子中的排列顺序，将所述每个分词对应的词向量进行组合，生成该候选句子对应的句子矩阵。
根据权利要求4所述的方法，其特征在于，所述根据所述候选句子集合中所述每个候选句子对应的句子矩阵，生成所述候选句子集合对应的句子集合向量，包括：

基于时间递归神经网络，将所述候选句子集合中所述每个候选句子对应的句子矩阵压缩成该候选句子对应的句子向量；

对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均，生成所述候选句子集合对应的句子集合向量。
根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述第一词向量、所述第二词向量以及所述句子集合向量，检测所述候选上位词是否为所述目标实体词的上位词，包括：

将所述第一词向量、所述第二词向量和所述句子集合向量进行合并，生成目标向量；

采用预设分类器根据所述目标向量检测所述候选上位词是否为所述目标实体词的上位词。
根据权利要求7所述的方法，其特征在于，所述预设分类器包含第一分类和第二分类，所述第一分类表示所述候选上位词是所述目标实体词的上位词；所述第二分类表示所述候选上位词不是所述目标实体词的上位词；

所述采用预设分类器根据所述目标向量检测所述候选上位词是否为所述目标实体词的上位词，包括：

采用所述预设分类器根据所述目标向量计算得到所述第一分类对应的分类值和所述第二分类对应的分类值；

若所述第一分类对应的分类值大于所述第二分类对应的分类值，则确定所述候选上位词是所述目标实体词的上位词；

若所述第一分类对应的分类值不大于所述第二分类对应的分类值，则确定所述候选上位词不是所述目标实体词的上位词。
一种信息检测设备，其特征在于，包括处理器和存储器，所述存储器中存储可被所述处理器执行的指令，当执行所述指令时，所述处理器用于：

从预存句子集合中选取包含目标候选对的候选句子，根据选取的候选句子生成候选句子集合，所述目标候选对包括目标实体词和目标实体词对应的候选上位词；

根据所述候选句子集合中的每个候选句子和预存的词向量集合，确定所述候选句子集合对应的句子集合向量；

从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量；及，

根据所述第一词向量、所述第二词向量以及所述句子集合向量，检测所述候选上位词是否为所述目标实体词的上位词。
根据权利要求9所述的设备，其特征在于，当执行所述指令时，所述处理器进一步用于：

从预存句子集合中提取多个实体词，并生成包含所述多个实体词的实体词集合；

采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词，并生成包含所述多个候选上位词的候选上位词集合；

将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合，生成至少一个候选对；

从生成的至少一个候选对中选择一个确定为所述目标候选对。
根据权利要求10所述的设备，其特征在于，当执行所述指令时，所述处理器进一步用于：

从提取出的多个实体词中删除不满足所述预设词性的实体词，以生成所述实体词集合。
根据权利要求9-11中任一项所述的设备，其特征在于，当执行所述指令时，所述处理器进一步用于：

根据预存的词向量集合，生成所述候选句子集合中每个候选句子对应的句子矩阵；

根据所述候选句子集合中所述每个候选句子对应的句子矩阵，生成所述候选句子集合对应的句子集合向量。
根据权利要求12所述的设备，其特征在于，当执行所述指令时，所述处理器进一步用于：

针对所述候选句子集合中的每个候选句子，执行如下处理：

对该候选句子进行分词，提取出该候选句子中包含的至少一个分词，并根据所述词向量集合确定所述至少一个分词中每个分词对应的词向量；

按照所述每个分词在该候选句子中的排列顺序，将所述每个分词对应的词向量进行组合，生成该候选句子对应的句子矩阵。
根据权利要求12所述的设备，其特征在于，当执行所述指令时，所述处理器进一步用于：

基于时间递归神经网络，将所述候选句子集合中所述每个候选句子对应的句子矩阵压缩成该候选句子对应的句子向量；

对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均，生成所述候选句子集合对应的句子集合向量。
根据权利要求9-11中任一项所述的设备，其特征在于，当执行所述指令时，所述处理器进一步用于：

从所述词向量集合中获取所述第一词向量和所述第二词向量；

将所述第一词向量、所述二词向量和所述句子集合向量进行合并，生成目标向量；

采用预设分类器根据所述目标向量检测所述候选上位词是否为所述目标实体词的上位词。
根据权利要求15所述的设备，其特征在于，所述预设分类器包含第一分类和第二分类，所述第一分类表示所述候选上位词是所述目标实体词的上位词；所述第二分类表示所述候选上位词不是所述目标实体词的上位词；

当执行所述指令时，所述处理器进一步用于：

采用所述预设分类器根据所述目标向量计算得到所述第一分类对应的分类值和所述第二分类对应的分类值；

若所述第一分类对应的分类值大于所述第二分类对应的分类值，则确定所述候选上位词是所述目标实体词的上位词；

若所述第一分类对应的分类值不大于所述第二分类对应的分类值，则确定所述候选上位词不是所述目标实体词的上位词。
一种计算机可读存储介质，其特征在于，存储有计算机可读指令，可以使至少一个处理器执行如权利要求1至8中任一项所述的方法。