WO2018171515A1

WO2018171515A1 - 一种词汇挖掘方法、装置及设备

Info

Publication number: WO2018171515A1
Application number: PCT/CN2018/079259
Authority: WO
Inventors: 李潇; 张锋; 王策
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-03-21
Filing date: 2018-03-16
Publication date: 2018-09-27
Also published as: CN108628821A; CN108628821B

Abstract

一种词汇挖掘方法、装置及设备，在语料句子中确定所包含的实体词集合和候选上位词集合，将两个集合中的词两两组合，得到候选词对，进一步确定候选词对中实体词和候选上位词各自的词向量，并根据词向量对来确定候选词对是否为词汇挖掘结果，确定候选词对是否为上位词对。不需要人工整理语料，通过机器学习方式实现了上位词对的自动挖掘，其上位词对挖掘效率大大提升，降低了挖掘成本。

Description

一种词汇挖掘方法、装置及设备

本申请要求于2017年3月21日提交中国国家知识产权局、申请号为201710169796.7、发明名称为“一种词汇挖掘方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据挖掘技术领域，更具体地说，涉及一种词汇挖掘方法、装置及设备。

背景技术

上位词的含义是，如果一个实体词A和一个词B构成上下位关系，实体词A属于词B的下位，则词B就是实体词A的上位词。例如，“动物”是“老虎”的上位词。在此基础上，由构成上下位关系的实体词A和词B组成的词对称之为上位词对。如，《老虎、动物》构成一个上位词对。

在大量的语料中挖掘出上位词对，能够帮助进行篇章分析等工作。现有的上位词对挖掘方法一般是人工对语料进行语义分析，从中确定上位词对。显然，人工挖掘的方式效率低下，并且需要挖掘人员具备一定的领域知识，人工成本高。

发明内容

有鉴于此，本申请提供了一种词汇挖掘方法、装置及设备，可用于实现低成本、高效率地挖掘上位词对。

为了实现上述目的，现提出的方案如下：

一种词汇挖掘方法，包括：

针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；

根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。

一种词汇挖掘装置，包括：

集合确定单元，用于针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

候选词对确定单元，用于将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

词向量确定单元，用于确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；

上位词确定单元，用于根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。

一种计算机设备，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述词汇挖掘方法。

一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述词汇挖掘方法。

一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述词汇挖掘方法。

本申请实施例提供的词汇挖掘方法，针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。本申请在语料句子中确定所包含的实体词集合和候选上位词集合，将两个集合中的词两两组合，得到候选词对，进一步确定候选词对中实体词和候选上位词各自的词向量，并根据词向量对来确定候选词对是否为词汇挖掘结果，示例如，确定候选词对是否为上位词对。本申请不需要人工整理语料，实现了上位词对的自动挖掘，其上位词对挖掘效率大大提升，降低了挖掘成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种服务器硬件结构示意图；

图2为本申请实施例公开的一种词汇挖掘方法流程图；

图3为本申请实施例公开的另一种词汇挖掘方法流程图；

图4示例了一种双向循环神经网络模型架构图；

图5为本申请示例的一种上位词对挖掘流程示意图；

图6为本申请实施例公开的一种词汇挖掘装置结构示意图；

图7为本申请实施例公开的一种词向量确定单元结构示意图；

图8为本申请实施例公开的一种挖掘结果确定单元结构示意图；

图9为本申请实施例公开的一种初始词向量确定单元结构示意图；

图10为本申请实施例公开的另一种初始词向量确定单元结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种词汇的自动挖掘方案，可以用于挖掘上位词对，该挖掘方案基于服务器实现，所述服务器也可以称为计算机设备。该服务器的硬件结构可以是电脑、笔记本等处理设备，在介绍本申请的词汇挖掘方法之前，首先介绍一下服务器的硬件结构。如图1所示，该服务器可以包括：处理器1，通信接口2，存储器3，通信总线4和显示屏5。

处理器1可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1可以是一个中央处理器(Central Processing Unit，CPU)，或者是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器3还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器3中的非暂态的计算机可读存储介质用于存储至少一个指令、至少一段程序、代码集或指令集，该至少一个指令、至少一段程序、代码集或指令集用于被处理器1所执行以实现下述方法实施例提供的方法。

通信接口2可以包括一个或多个接口，例如服务器与其它外围设备之间的接口，用于实现服务器与其它外围设备之间的通信。

显示屏5用于显示用户界面(User Interface，UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。

处理器1、通信接口2、存储器3和显示屏5通过通信总线4完成相互间的通信。总线4可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。

接下来，我们结合服务器硬件结构，对本申请的词汇挖掘方法进行介绍，如图2所示，该方法可以包括：

步骤S200、针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

具体地，待挖掘语料由众多的语句构成。针对待挖掘语料中每一句子，确定句子中所包含的实体词集合，以及句子所包含的名词及名词短语，由名词及名词短语作为候选上位词，组成候选上位词集合。

其中，实体词可以是人名、地名、组织机构名等命名实体，命名实体通常指的是文本中具有特别意义或者指代性非常强的实体。由于这些命名实体数量不断增加，通常不可能在词典中穷尽列出，且其构成方法具有各自的一些规律性。因此，本步骤在确定句子所包含的实体词时，可以采用命名实体识别(Named Entities Recognition，NER)方法，识别句子所包含的实体词，各实体词组成实体词集合。

而对于候选上位词，其一般是由名词和名词短语构成。其中，名词表示人、事物、地点或抽象概念的名称，名词分为专有名词和普通名词。名词短语也称为名词性短语(Noun phrase)，是指语法功能相当于名词的一类短语。名词短语可以包括以名词为中心词的偏正短语(如“伟大的祖国”，“这些孩子”)、用名词构成的联合短语(如“工人农民”)、复指短语(如“首都北京”)、方位短语(如“桌面上”，“大楼前面”)、“的”字短语(如“打更的”)等，某些中心词是动词、形容词的偏正短语，其定语是代词、名词或其他名词短语，也属于名词短语，如“他的离开”，“中国的解放”，“他态度的诚恳”等。本步骤在确定句子所包含的候选上位词时，可以首先对句子进行分词，进而识别每一分词的词性，将词性为名词和名词短语的分词作为候选上位词，组成候选上位词集合。

具体实施时，可以预先通过通信接口2，将待挖掘语料存储至存储器3中。在挖掘时，由处理器1通过通信总线4在存储器存储的待挖掘语料句子中，确定句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合。

步骤S210、将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

其中，假设实体词集合中存在N个实体词，候选上位词集合中存在M个候选上位词，则两个集合中的词两两组合的组合方式一共有N*M种。实体词和候选上位词组合后构成的词对，作为候选词对。

具体实施时，可以由处理器1将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合。

步骤S220、确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；

具体地，词向量(word embedding)是在自然语言处理过程中，将自然语言中的词数学化的过程，具体为将词以数学向量的形式来表示。

本步骤中确定所述候选词对中，实体词的词向量以及候选上位词的词向量。由实体词的词向量以及候选上位词的词向量组成候选词向量对，该候选词向量对与候选词对相互对应。

具体实施时，可以由处理器1来确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对。

步骤S230、根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。

具体地，在确定了候选词对对应的候选词向量对之后，可以使用预先训练好的分类模型，将候选词向量对输入至分类模型中，进而得到分类模型输出的分类结果。该分类结果表明所述候选词对是否为词汇挖掘结果，如表明所述候选词是否为上位词对。

分类模型可以使用softmax分类模型。利用预先标记有分类结果的训练词向量对，对分类模型进行训练。将所述候选词向量对输入至训练好的分类模型中，根据分类模型的输出结果来确定候选词对是否为上位词对。

具体实施时，可以由处理器1根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果，并通过显示屏5输出显示。

在本申请的另一个实施例中，公开了另一种词汇挖掘方法，以词汇挖掘结果为上位词对为例，如图3所示，该方法包括：

步骤S300、针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

步骤S310、将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

具体地，步骤S300-S310与上述步骤S200-S210一一对应，此处不再赘述。

步骤S320、确定所述句子所包含的各词的初始词向量，各词的初始词向量组成初始词向量矩阵；

具体地，本申请可以采用随机数确定所述句子所包含的各词的初始词向量。

除此之外，本申请还可以采用word2vec方法在全部待挖掘语料上进行训练，将全部待挖掘语料所包含的各词转换成向量形式。进一步，在待挖掘语料所包含各词的词向量中，查找所述句子中各词对应的词向量，作为各词的初始词向量。

其中，word2vec是一个将单词转换成向量形式的工具，由google开源。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

假设句子包含L个词，词向量为N维，则由句子所包含各词的初始词向量组成的初始词向量矩阵为L*N的矩阵。

举例如：

原始句子“abc”

对句子分词后“word1 word2 word3”，word1＝a、word2＝b、word3＝c

确定各分词的初始词向量word embedding，word1＝word embedding1、word2＝word embedding2、word3＝word embedding3。

构造3*N的矩阵如下表1(句子长度为3)：

初始词向量
Word embedding1
Word embedding2
Word embedding3

表1

步骤S330、利用循环神经网络模型对所述初始词向量矩阵进行调整，得到由各词的调整后词向量组成的调整后词向量矩阵；

其中，循环神经网络(Recurrent Neural Network，RNN)的优点是，其能够在输入和输出序列之间的映射过程中利用上下文相关信息。针对初始词向量矩阵中每个词对应的初始词向量，在经过循环神经网络调整后，能够综合考虑每一词前后各词的关联关系，进而对词的初始词向量进行调整，使得输出的各词的调整后词向量更加准确。

具体地，调整后词向量的维度为H，H与循环神经网络中隐藏层的个数相同。因此，由各词的调整后词向量组成的调整后词向量矩阵为L*H的矩阵。

步骤S340、在所述调整后词向量矩阵中查找所述候选词对中实体词和候选上位词各自对应的调整后词向量，由各自对应的调整后词向量组成候选词向量对；

具体地，根据候选词对中实体词和候选上位词在句子中的位置，在调整后词向量矩阵中查找对应位置的调整后词向量，确定实体词对应的调整后词向量，以及候选上位词对应的调整后词向量。

假设上表1示例的初始词向量矩阵在经过循环神经网络模型调整后输出结果如下表2所示：

初始词向量	调整后词向量
Word embedding1	Word embedding11
Word embedding2	Word embedding21
Word embedding3	Word embedding31

表2

仍以句子为“abc”为例，假设候选词向量中实体词为b，候选上位词为c。则可以确定实体词b位于句子中第二个分词，候选上位词c位于句子中第三个分词，因此查询上表2可以确定实体词b对应的调整后词向量为Word embedding21，候选上位词c对应的调整后词向量为Word embedding31。

步骤S350、根据所述候选词向量对，确定所述候选词对是否为上位词对。

本实施例的方法中，详细介绍了确定候选词对中实体词和候选上位词各自的词向量的过程。在确定了各自的初始词向量之后，通过使用循环神经网络模型对初始词向量进行调整，使得调整后词向量更加考虑词的上下文相关信息，确定的实体词和候选上位词的词向量更加准确。

可选的，上述循环神经网络模型可以是双向循环神经网络模型，如长短期记忆人工神经网络模型(Long Short-Term Memory，LSTM)。

标准的循环神经网络能够存取的上下文信息范围很有限。这个问题就使得隐含层的输入对于网络输出的影响随着网络环路的不断递归而衰退，而双向长短期记忆人工神经网络模型LSTM恰好能够解决这个问题。

参照图4，图4示例了一种双向循环神经网络模型架构图。

其中，模型共包含输入层input layer、前向隐含层forward layer、后向隐含层backward layer和输出层output layer。

在前向隐含层forward layer中，词向量调整过程会考虑前文信息，而在后向隐含层backward layer中，词向量调整过程会考虑后文信息，最终输出结果会同时考虑前向隐含层forward layer及后向隐含层backward layer的调整结果，使得分词的词向量调整结果同时考虑分词的上下文信息，

参照图5，图5为本申请示例的一种上位词对挖掘流程示意图。

结合图5对方案整体流程进行介绍：

S1、针对句子进行分词后得到句子所包含的各词，并确定各词的初始词向量。

S2、将各词的初始词向量输入至双向长短期记忆人工神经网络模型LSTM模型中，对各词的初始词向量进行调整，得到各词的调整后的词向量。

S3、根据从句子中确定的候选词对所包含的实体词和候选上位词，确定实体词调整后词向量以及候选上位词调整后词向量。

S4、将实体词调整后词向量以及候选上位词调整后词向量合并为一个词向量矩阵，并输入至分类器中，得到分类器的分类结果，分类结果表明候选词对是否为上位词对。

其中，分类器可以选用softmax分类器。

下面对本申请实施例提供的词汇挖掘装置进行描述，下文描述的词汇挖掘装置与上文描述的词汇挖掘方法可相互对应参照。

参见图6，图6为本申请实施例公开的一种词汇挖掘装置结构示意图。该装置具有实现上述词汇挖掘方法的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。

如图6所示，该装置可以包括：

集合确定单元11，用于针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

具体地，集合确定单元确定所述句子所包含的实体词集合的过程，具体可以采用命名实体识别方法，识别所述句子所包含的实体词，各实体词组成实体词集合。

候选词对确定单元12，用于将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

词向量确定单元13，用于确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；

挖掘结果确定单元14，用于根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。

本申请实施例提供的词汇挖掘装置，针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。本申请在语料句子中确定所包含的实体词集合和候选上位词集合，将两个集合中的词两两组合，得到候选词对，进一步确定候选词对中实体词和候选上位词各自的词向量，并根据词向量对来确定候选词对是否为词汇挖掘结果，示例如，确定候选词对是否为上位词对。本申请不需要人工整理语料，实现了上位词对的自动挖掘，其上位词对挖掘效率大大提升，降低了挖掘成本。

可选的，本申请实施例示例了上述词向量确定单元13的一种可选结构，参见图7可知，词向量确定单元13可以包括：

初始词向量确定单元131，用于确定所述句子所包含的各词的初始词向量，各词的初始词向量组成初始词向量矩阵；

初始词向量矩阵调整单元132，用于利用循环神经网络模型对所述初始词向量矩阵进行调整，得到由各词的调整后词向量组成的调整后词向量矩阵；

可选的，所述循环神经网络模型可以包括：双向长短期记忆人工神经网络模型。

调整后词向量查找单元133，用于在所述调整后词向量矩阵中查找所述候选词对中实体词和候选上位词各自对应的调整后词向量。

可选的，本申请实施例示例了上述上位词确定单元14的一种可选结构，所述词汇可以为上位词对，参见图8可知，挖掘结果确定单元14可以包括：

分类确定单元141，用于将所述候选词向量对输入至预训练的分类模型，得到所述分类模型输出的分类结果，所述分类结果表明所述候选词对是否为上位词对。

可选的，本申请实施例示例了上述初始词向量确定单元131的两种可选结构，分别如图9和图10所示：

第一种，初始词向量确定单元131可以包括：

第一初始词向量确定子单元1311，用于采用随机数确定所述句子所包含的各词的初始词向量。

第二种，初始词向量确定单元131可以包括：

第二初始词向量确定子单元1312，用于采用word2vec方法确定所述句子所包含的每一词对应的词向量，作为初始词向量。

需要说明的是：上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由计算机设备的处理器加载并执行以实现上述方法实施例中的各个步骤。

可选地，上述计算机可读存储介质可以是只读存储器ROM(Read Only Memory)、随机存取存储器RAM(Random Access Memory)、只读光盘CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述方法实施例中的各个步骤的功能。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种词汇挖掘方法，其特征在于，所述方法包括：

针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；

根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。
根据权利要求1所述的方法，其特征在于，所述确定所述候选词对中实体词和候选上位词各自的词向量，包括：

确定所述句子所包含的各词的初始词向量，各词的初始词向量组成初始词向量矩阵；

利用循环神经网络模型对所述初始词向量矩阵进行调整，得到由各词的调整后词向量组成的调整后词向量矩阵；

在所述调整后词向量矩阵中查找所述候选词对中实体词和候选上位词各自对应的调整后词向量。
根据权利要求1或2所述的方法，其特征在于，所述词汇挖掘结果为上位词对，所述根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果，包括：

将所述候选词向量对输入至预训练的分类模型，得到所述分类模型输出的分类结果，所述分类结果表明所述候选词对是否为所述上位词对。
根据权利要求2所述的方法，其特征在于，所述确定所述句子所包含的各词的初始词向量，包括：

采用随机数确定所述句子所包含的各词的初始词向量；

或，

采用word2vec方法确定所述句子所包含的每一词对应的词向量，作为初始词向量。
根据权利要求1所述的方法，其特征在于，所述确定所述句子所包含的实体词集合，包括：

采用命名实体识别方法，识别所述句子所包含的实体词，各实体词组成所述实体词集合。
根据权利要求2所述的方法，其特征在于，所述循环神经网络模型包括：

双向长短期记忆人工神经网络模型。
一种词汇挖掘装置，其特征在于，所述装置包括：

集合确定单元，用于针对待挖掘语料所包含的每一句子，确定所述句子所包含的实体词集合，以及由所述句子所包含的名词及名词短语组成的候选上位词集合；

候选词对确定单元，用于将所述实体词集合中的实体词和所述候选上位词集合中的候选上位词两两组合，实体词和候选上位词组合后的词对作为候选词对；

词向量确定单元，用于确定所述候选词对中实体词和候选上位词各自的词向量，由所述各自的词向量组成候选词向量对；

挖掘结果确定单元，用于根据所述候选词向量对，确定所述候选词对是否为词汇挖掘结果。
根据权利要求7所述的装置，其特征在于，所述词向量确定单元包括：

初始词向量确定单元，用于确定所述句子所包含的各词的初始词向量，各词的初始词向量组成初始词向量矩阵；

初始词向量矩阵调整单元，用于利用循环神经网络模型对所述初始词向量矩阵进行调整，得到由各词的调整后词向量组成的调整后词向量矩阵；

调整后词向量查找单元，用于在所述调整后词向量矩阵中查找所述候选词对中实体词和候选上位词各自对应的调整后词向量。
根据权利要求7或8所述的装置，其特征在于，所述词汇挖掘结果为上位词对，所述挖掘结果确定单元包括：

分类确定单元，用于将所述候选词向量对输入至预训练的分类模型，得到所述分类模型输出的分类结果，所述分类结果表明所述候选词对是否为上位词对。
根据权利要求8所述的装置，其特征在于，所述初始词向量确定单元包括：

第一初始词向量确定子单元，用于采用随机数确定所述句子所包含的各词的初始词向量；

或，

第二初始词向量确定子单元，用于采用word2vec方法确定所述句子所包含的每一词对应的词向量，作为初始词向量。
根据权利要求7所述的装置，其特征在于，所述集合确定单元确定所述句子所包含的实体词集合的过程，具体包括：

采用命名实体识别方法，识别所述句子所包含的实体词，各实体词组成实体词集合。
根据权利要求8所述的装置，其特征在于，所述循环神经网络模型包括：

双向长短期记忆人工神经网络模型。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一项所述的词汇挖掘方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一项所述的词汇挖掘方法。