WO2020143163A1

WO2020143163A1 - 基于注意力机制的命名实体识别方法、装置和计算机设备

Info

Publication number: WO2020143163A1
Application number: PCT/CN2019/091305
Authority: WO
Inventors: 丁程丹; 许开河; 王少军
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-01-07
Filing date: 2019-06-14
Publication date: 2020-07-16
Also published as: CN109885825A

Abstract

本申请提出了一种基于注意力机制的命名实体识别方法、装置和计算机设备，上述基于注意力机制的命名实体识别方法包括：对待识别文本进行分词，并将所述待识别文本的分词映射为向量，得到所述待识别文本的词向量；将所述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得所述待识别文本的命名实体识别结果；其中，所述命名实体识别模型包括至少两层隐藏层，通过所述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层。本申请可以实现通过注意力机制对命名实体进行识别，提高命名实体的识别准确率。

Description

基于注意力机制的命名实体识别方法、装置和计算机设备

本申请要求于2019年01月07日提交中国专利局、申请号为201910012152.6、申请名称为“基于注意力机制的命名实体识别方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于注意力机制的命名实体识别方法、装置和计算机设备。

背景技术

命名实体识别(Named Entity Recognition；以下简称：NER)是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名和/或专有名词等。自然语言处理和机器学习是人工智能的一个重要方向，在语言文本处理中，命名实体识别是语言文本处理的一个前提工作，识别的质量直接影响到后续的工作，因此命名实体识别是信息处理的前提和重要任务。

现有相关技术中，命名实体的识别方式主要有两种，第一种，基于正则规则的方式；第二种，基于深度学习的方式。然而，第一种实现方式虽然实现简单，但识别效果不是很好；第二种实现方式，由于深度学习模型的隐藏层的运算能力有限，也即隐藏层只能对长度不大于长度阈值的隐藏节点进行运算。当输入隐藏层的隐藏节点的长度不大于长度阈值时，隐藏层能够对输入的全部隐藏节点进行运算，这对最后的命名实体的识别结果没有影响。但是，当输入隐藏层输入隐藏节点的长度大于长度阈值时，隐藏层只好舍弃部分隐藏节点。如此，被舍弃的隐藏节点很有可能包含文本的命名实体信息，这样会造成对命名实体识别的不准确。

因此，如何提高对文本中命名实体识别的准确率，成为目前亟待解决的技术问题。

申请内容

有鉴于此，本申请的目的在于提供一种基于注意力机制的命名实体识别方法、装置和计算机设备，以实现通过注意力机制对命名实体进行识别，提高命名实体的识别准确率。

第一方面，本申请实施例提供一种基于注意力机制的命名实体识别方法，包括：对待识别文本进行分词，并将所述待识别文本的分词映射为向量，得到所述待识别文本的词向量；将所述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得所述待识别文本的命名实体识别结果；其中，所述命名实体识别模型包括至少两层隐藏层，通过所述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层。

第二方面，本申请实施例提供一种基于注意力机制的命名实体识别装置，包括：分词模块，用于对待识别文本进行分词；映射模块，用于将所述分词模块获得的所述待识别文本的分词映射为向量，得到所述待识别文本的词向量；识别模块，用于将所述映射模块得到的所述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得所述待识别文本的命名实体识别结果；其中，所述命名实体识别模型包括至少两层隐藏层，通过所述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层。

第三方面，本申请实施例提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的方法。

第四方面，本申请实施例一种计算机非易失性可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

以上技术方案中，对待识别文本进行分词之后，将上述待识别文本的分词映射为向量，得到上述待识别文本的词向量，然后将上述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得上述待识别文本的命名实体识别结果；其中，上述命名实体识别模型包括至少两层隐藏层，通过上述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层，由于各隐藏层输入的隐藏节点均被赋予了注意力权重，各隐藏层根据隐藏节点的注意力权重，对隐藏节点进行运算，可以实现通过注意力机制对命名实体进行识别，提高命名实体的识别准确率，进而可以避免由于隐藏层节点的长度超出隐藏层的长度阈值，而造成的隐藏节点的损失。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请基于注意力机制的命名实体识别方法一个实施例的流程图；

图2为本申请基于注意力机制的命名实体识别方法另一个实施例的流程图；

图3为本申请基于注意力机制的命名实体识别方法再一个实施例的流程图；

图4为本申请基于注意力机制的命名实体识别方法再一个实施例的流程图；

图5为本申请基于注意力机制的命名实体识别装置一个实施例的结构示意图；

图6为本申请基于注意力机制的命名实体识别装置另一个实施例的结构示意图；

图7为本申请计算机设备一个实施例的结构示意图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

图1为本申请基于注意力机制的命名实体识别方法一个实施例的流程图，如图1所示，上述基于注意力机制的命名实体识别方法可以包括：

步骤101，对待识别文本进行分词，并将待识别文本的分词映射为向量，得到待识别文本的词向量。

其中，待识别文本可以是一句话，这句话里可以包括字以及标点符号。对待识别文本进行分词可以是将待识别文本这句话中的每一个字、标点符号都分离出来。例如，“中国女排赢得了小组赛第一，并且进入了决赛。”对这句话分词的结果可以是：“/中/国/女/排/赢/得/了/小/组/赛/第/一/，/并/且/进/入/了/决/赛/。/”将待识别文本的分词映射为向量，可以是将待识别文本中分离出来的每一个字、标点符号通过查找分词向量映射表得到对应的词向量。这里的分词向量映射表可以是预先存储或加载的分词向量映射表。

步骤102，将待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得待识别文本的命名实体识别结果。其中，命名实体识别模型包括至少两层隐藏层，通过命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层。

进一步地，步骤102之前，还可以包括：根据上述待识别文本的上下文语义，获取上述待识别文本的词向量的注意力权重。

其中，待识别文本的各词向量被输入命名实体识别模型时，待识别文本的各词向量的注意力权重可以是相同或不同的。在命名实体识别模型对待识别文本的词向量进行逐层运算过程中，根据待识别文本的上、下文语义，各隐藏层输入的各隐藏节点可以被赋予不同或相同的注意力权重。本实施例对此不作限定。

本实施例中，命名实体识别模型对输入的词向量进行逐层运算的方式可以是采用以下算法之一或组合：双向长短期记忆神经网络(Bi-directional Long Short-Term Memory；以下简称：Bi-LSTM)、条件随机场(Conditional Random Fields；以下简称：CRF)和卷积神经网络(Convolutional Neural Network；以下简称：CNN)。

上述基于注意力机制的命名实体识别方法中，对待识别文本进行分词之后，将上述待识别文本的分词映射为向量，得到上述待识别文本的词向量，然后将上述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得上述待识别文本的命名实体识别结果；其中，上述命名实体识别模型包括至少两层隐藏层，通过上述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层，由于各隐藏层输入的隐藏节点均被赋予了注意力权重，各隐藏层根据隐藏节点的注意力权重，对隐藏节点进行运算，可以实现通过注意力机制对命名实体进行识别，提高命名实体的识别准确率，进而可以避免由于隐藏层节点的长度超出隐藏层的长度阈值，而造成的隐藏节点的损失。

图2为本申请基于注意力机制的命名实体识别方法另一个实施例的流程图，如图2所示，本申请图1所示实施例中，以命名实体识别模型有一初始层以及初始以下的两层隐藏层三层运算层为例，步骤102可以包括：

步骤201，将待识别文本的词向量输入命名实体识别模型的初始层，初始层经运算后输出隐藏节点。

其中，待识别文本的词向量进行拼接一个向量串输入命名实体识别模型进行逐层运算。上述的隐藏节点相当于表示待识别文本特征的特征向量。命名实体识别模型的隐藏层能够处理的向量长度可以是该隐层输入的隐藏节点相互拼接后形成的向量串的长度。

步骤202，对初始层输出的各隐藏节点，根据待识别文本的上、下文语义赋予注意力权重。

本实施例中，输入各隐藏层的隐藏节点在被输入隐藏层之前，都要根据待识别文本的上、下文语义被赋予了注意力权重。该注意力权重可以实现：如果输入该隐藏层的隐藏节点的长度超出了该隐藏层能够处理的长度阈值，此时会根据隐藏层节点被赋予的注意力权重，优先运算注意力权重高的隐藏层节点，将那些注意力权重低的隐藏节点舍弃。

具体地，根据待识别文本的上、下文语义对输入各隐藏层的隐藏节点赋予注意力权重。例如，“高小红在故宫博物馆看到了明朝的瓷器”，由这句话得到的分词向量输入命名实体识别模型的初始层，初始层输出的隐藏节点可以为：h11、h21、h31……hn1。这些初始层输出的隐藏节点输入第一层隐藏层，由于是由待识别文本的词向量计算得到的，初始层输出的隐藏节点会带有待识别文本的上、下文语义特征。如果h11是由“高”、“小”这个两个字的词向量运算得来的，h21是由“红”这个字的词向量得来的，虽然“高”、“小”、“红”这三个字单独拆分出来不是命名实体，但是根据“高小红”这个三个字的上、下文语义判断“高小红”是命名实体，因此，隐藏节点h11、h21可以被赋予较高一些的注意力权重。

再例如，“故”“宫”这两个字单独拆分出来都不是命名实体。但是根据上、下文语义“故宫”合在一起是命名实体，隐藏节点h31由“故”的词向量运算得到，隐藏节点h41由“宫”的词向量运算得到，因此，隐藏节点h31、h41也可以被赋予较高一些的注意力权重。

步骤203，将被赋予了注意力权重的初始层输出的隐藏节点输入第一层隐藏层，第一层隐藏层经运算后输出隐藏节点。

步骤204，对第一层隐藏层输出的各隐藏节点，根据待识别文本的上、下文语义赋予注意力权重。

虽然第一层隐藏层的运算的隐藏节点不是待识别文本的词向量，但是输入第一隐藏层的隐藏节点h11、h21、h31……hn1也是带有待识别文本的上、下文语义信息的特征向量。因此，同理，输入各隐藏层的隐藏节点均可以根据待识别文本的上、下文语义确定各隐藏节点的注意力权重。

“高小红在故宫博物馆看到了明朝的瓷器”这句话在命名实体识别运算过程中，如果初始层输出的隐藏节点的长度大于第一层隐藏层的长度阈值，则与“在”、“看”“到”“了”“的”这些字有关的隐藏节点可以被赋予较低的注意力权重，这样隐藏层的运算资源可以更多的来对比较可能是命名实体的一些词进行运算。

步骤205，将被赋予了注意力权重的第一层隐藏层输出的隐藏节点输入第二层隐藏层，第二层隐藏层经运算后输出待识别文本的识别结果。

上述实施例，仅仅列举了命名实体识别模型有三层运算层的情况，当然，命名实体识别模型的运算层数也可以是2层、4层、5层、6层……，具体层数可以根据实际需要设置，但是命名实体识别模型对待识别文本的进行命名实体的识别方法与上述实施例相似，都可以包括：对各隐藏层的各待输入的隐藏节点赋予注意力权重之后，再将被赋予了注意力权重的隐藏节点输入相应的隐藏层进行运算。

进一步的，对隐藏层输入的隐藏节点赋予注意力权重，可以是根据上、下文语义判断那些更可能是命名实体，对可能是命名实体的输入向量赋予更高的权重，也就是说在对命名实体进行识别过程中可以将上、下文语义作为了一个辅助判断条件。

图3为本申请基于注意力机制的命名实体识别方法再一个实施例的流程图，如图3所示，本申请图1所示实施例中，步骤102之前，还可以包括：

步骤301，获取训练文本，并对训练文本进行分词。

步骤302，对进行分词后的训练文本中的命名实体进行标注。

具体地，对进行分词后的训练文本中的命名实体进行标注可以为：对上述训练文本的分词是否属于命名实体、上述训练文本的分词在其所属命名实体中的位置和/或上述训练文本的分词所属命名实体的类型进行标注。

在具体实现时，可以采用BIO标注和/或IOBES标注的方式对训练文本中的命名实体进行标注。

举例来说，命名实体识别模型是Bi-LSTM模型，对训练文本可以按照IOBES(Inside、Other、Begin、End、Single)的方式进行标注。如果对一个分词是一个单独的实体，则标记为(tag S-…)；如果一个分词是一个实体开始，则标记为(tag B-…)；如果一个分词是一个实体中间词汇，则标记为(tag I-…)；如果一个分词是一个实体的结束，则标记为(tag E-…)；如果一个分词不是一个实体，则标记为(tag O)。人名(PER)、地名(LOC)和机构名(ORG)为例，“王明出生在北京，现在在中国河北省唐山市创利工作。”标注的结果为：王(B-PER)、明(E-PER)、出(O)、生(O)、在(O)、北(B-LOC)、京(S-LOC)，(O)、现(O)、在(O)、在(O)、河(B-LOC)、北(I-LOC)、省(E-LOC)、唐(B-LOC)、山(I-LOC)、市(E-LOC)、创(B-ORG)、利(E-ORG)、工(O)、作(O)。(O)。

再例如，命名实体识别模型是Bi-LSTM+CRF模型，对训练文本可以按照BIO的方式进行标注，即B-PER、I-PER代表人名首字、人名非首字，B-LOC、I-LOC代表地名首字、地名非首字，B-ORG、I-ORG代表组织机构名首字、组织机构名非首字，O代表该字不属于命名实体的一部分。“高小明帮助中国队获胜”的标注的结果为：高(B-PER)、小(I-PER)、明(I-PER)、帮(O)、助(O)、中(B-ORG)、国(I-ORG)、队(I-ORG)、获(O)、胜(O)。

步骤303，将训练文本的分词映射为向量，得到训练文本的词向量。

其中，将训练文本分离出来的每一个字、字符通过查找分词向量映射表得到对应的词向量。这里的分词向量映射表是预先存储或加载的分词向量映射表。

步骤304，将训练文本的词向量输入待训练的命名实体识别模型进行逐层运算，以对待训练的命名实体模型进行训练。

其中，具体地，步骤304的具体实施方式可以和上述的命名实体识别模型对待识别文本的识别过程是相同的，不同之处在于，这里的待训练命名实体识别模型是没有经过训练的，因此待训练的命名实体模型输出的训练文本的命名实体的识别结果与步骤302中标注的命名实体之间可能存在误差。

本实施例中，待训练的命名实体识别模型进行逐层运算可以是采用以下算法之一或组合：Bi-LSTM、CRF和CNN。对待训练的命名实体模型进行训练，也就是对待训练的命名实体识别模型逐层运算的参数以及各隐藏层的隐藏节点被赋予的注意力权重进行训练。

图4为本申请基于注意力机制的命名实体识别方法再一个实施例的流程图，如图4所示，本申请图3所示实施例中，步骤304之后，还可以包括：

步骤401，在本次训练过程结束之后，获得待训练的命名实体模型输出的训练文本的命名实体识别结果。

步骤402，将训练文本的命名实体识别结果与训练文本中标注的命名实体进行对比。

具体地，比对方式可以是，根据训练文本的命名实体识别结果和训练文本的词向量，构造反映训练文本的命名实体识别结果准确度的损失函数。构造的损失函数可以是命名实体识别结果和训练文本的词向量的平方差。

步骤403，根据对比结果，调整下次训练过程中赋予词向量的注意力权重。

具体地，可以利用梯度下降算法求解损失函数的最小值，梯度下降算法可以利用负梯度方向来决定每次迭代的损失函数的参数调整方向，因此，可以得到待训练命名实体识别模型进行训练文本的词向量逐层运算的参数以及各隐藏层的隐藏节点被赋予的注意力权重的调整方向。损失函数的逐步减小意味着待训练命名实体识别模型进行训练文本的词向量逐层运算的参数以及各隐藏层的隐藏节点被赋予的注意力权重越来越精确。

步骤404，如果训练文本的命名实体识别结果与训练文本中标注的命名实体的误差小于预定的误差阈值，获得训练好的命名实体识别模型。

其中，上述预定的误差阈值可以在具体实现时，根据系统性能和/或实现需求等自行设定，本实施例对上述预定的误差阈值的大小不作限定。

图5为本申请基于注意力机制的命名实体识别装置一个实施例的结构示意图，本实施例提供的基于注意力机制的命名实体识别装置可以实现本申请提供的基于注意力机制的命名实体识别方法。如图5所示，上述基于注意力机制的命名实体识别装置可以包括：分词模块51、映射模块52和识别模块53；

其中，分词模块51，用于对待识别文本进行分词；其中，待识别文本可以是一句话，这句话里可以包括字以及标点符号。分词模块51对待识别文本进行分词可以是将待识别文本这句话中的每一个字、标点符号都分离出来。例如，“中国女排赢得了小组赛第一，并且进入了决赛。”对这句话分词的结果可以是：“/中/国/女/排/赢/得/了/小/组/赛/第/一/，/并/且/进/入/了/决/赛/。/”

映射模块52，用于将分词模块51获得的上述待识别文本的分词映射为向量，得到上述待识别文本的词向量；具体地，映射模块52将待识别文本的分词映射为向量，可以是将待识别文本中分离出来的每一个字、标点符号通过查找分词向量映射表得到对应的词向量。这里的分词向量映射表可以是预先存储或加载的分词向量映射表。

识别模块53，用于将映射模块52得到的上述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得上述待识别文本的命名实体识别结果；其中，上述命名实体识别模型包括至少两层隐藏层，通过上述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层。

本实施例中，命名实体识别模型对输入的词向量进行逐层运算的方式可以是采用以下算法之一或组合：Bi-LSTM、CRF和CNN。

上述基于注意力机制的命名实体识别装置中，分词模块51对待识别文本进行分词之后，映射模块52将上述待识别文本的分词映射为向量，得到上述待识别文本的词向量，然后识别模块53将上述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得上述待识别文本的命名实体识别结果；其中，上述命名实体识别模型包括至少两层隐藏层，通过上述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层，由于各隐藏层输入的隐藏节点均被赋予了注意力权重，各隐藏层根据隐藏节点的注意力权重，对隐藏节点进行运算，可以实现通过注意力机制对命名实体进行识别，提高命名实体的识别准确率，进而可以避免由于隐藏层节点的长度超出隐藏层的长度阈值，而造成的隐藏节点的损失。

图6为本申请基于注意力机制的命名实体识别装置另一个实施例的结构示意图，与图5所示的基于注意力机制的命名实体识别装置相比，不同之处在于，图6所示的基于注意力机制的命名实体识别装置还可以包括：获取模块54；

其中，获取模块54，用于在识别模块53将上述待识别文本的词向量赋予注意力权重之前，根据上述待识别文本的上下文语义，获取上述待识别文本的词向量的注意力权重。

具体地，待识别文本的各词向量被输入命名实体识别模型时，待识别文本的各词向量的注意力权重可以是相同或不同的。在命名实体识别模型对待识别文本的词向量进行逐层运算过程中，根据待识别文本的上、下文语义，各隐藏层输入的各隐藏节点可以被赋予相同或不同的注意力权重。本实施例对此不作限定。

进一步地，上述基于注意力机制的命名实体识别装置还可以包括：标注模块55和训练模块56；

分词模块51，还用于在识别模块53将上述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算之前，获取训练文本，并对上述训练文本进行分词；

标注模块55，用于对分词模块51进行分词后的训练文本中的命名实体进行标注；本实施例中，标注模块55，具体用于对训练文本的分词是否属于命名实体、训练文本的分词在其所属命名实体中的位置和/或训练文本的分词所属命名实体的类型进行标注。

在具体实现时，标注模块55可以采用BIO标注和/或IOBES标注的方式对训练文本中的命名实体进行标注。

再例如，命名实体识别模型是Bi-LSTM+CRF模型，对训练文本可以按照BIO的方式进行标注，即B-PER、I-PER代表人名首字、人名非首字，B-LOC、I-LOC代表地名首字、地名非首字，B-ORG、I-ORG代表组织机构名首字、组织机构名非首字，O代表该字不属于命名实体的一部分。“高小明帮助中国队获胜”的标注的结果为：高(B-PER)、小(I-PER)、明(I-PER)、帮(O)、助(O)、中(B-ORG)、国(I-ORG)、队(I-ORG)、获(O)、胜 (O)。

映射模块52，还用于将上述训练文本的分词映射为向量，得到上述训练文本的词向量；其中，映射模块52可以将训练文本分离出来的每一个字、字符通过查找分词向量映射表得到对应的词向量。这里的分词向量映射表是预先存储或加载的分词向量映射表。

训练模块56，用于将映射模块52得到的上述训练文本的词向量输入待训练的命名实体识别模型进行逐层运算，以对上述待训练的命名实体模型进行训练。

具体地，训练模块56对上述待训练的命名实体模型进行训练之后，还可以在本次训练过程结束之后，获得上述待训练的命名实体模型输出的训练文本的命名实体识别结果；将上述训练文本的命名实体识别结果与上述训练文本中标注的命名实体进行对比；根据对比结果，调整下次训练过程中赋予词向量的注意力权重；如果训练文本的命名实体识别结果与上述训练文本中标注的命名实体的误差小于预定的误差阈值，获得训练好的命名实体识别模型。其中，上述预定的误差阈值可以在具体实现时，根据系统性能和/或实现需求等自行设定，本实施例对上述预定的误差阈值的大小不作限定。

图7为本申请计算机设备一个实施例的结构示意图，上述计算机设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时，可以实现本申请实施例提供的基于注意力机制的命名实体识别方法。

图7示出了适于用来实现本申请实施方式的示例性计算机设备12的框图。图7显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。计算机设备12典型地包括多种计算机系统可读介质。系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器20通过总线18与计算机设备12的其它模块通信。处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例提供的基于注意力机制的命名实体识别方法。

本申请实施例还提供一种计算机非易失性可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时可以实现本申请实施例提供的基于注意力机制的命名实体识别方法。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种基于注意力机制的命名实体识别方法，其特征在于，包括：

对待识别文本进行分词，并将所述待识别文本的分词映射为向量，得到所述待识别文本的词向量；

将所述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得所述待识别文本的命名实体识别结果；其中，所述命名实体识别模型包括至少两层隐藏层，通过所述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层。
根据权利要求1所述的方法，其特征在于，所述将所述待识别文本的词向量赋予注意力权重之前，还包括：

根据所述待识别文本的上下文语义，获取所述待识别文本的词向量的注意力权重。
根据权利要求1所述的方法，其特征在于，所述将所述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算之前，还包括：

获取训练文本，并对所述训练文本进行分词；

对进行分词后的训练文本中的命名实体进行标注；

将所述训练文本的分词映射为向量，得到所述训练文本的词向量；

将所述训练文本的词向量输入待训练的命名实体识别模型进行逐层运算，以对所述待训练的命名实体模型进行训练。
根据权利要求3所述的方法，其特征在于，所述将所述训练文本的词向量输入待训练的命名实体识别模型进行逐层运算，以对所述待训练的命名实体模型进行训练之后，还包括：

在本次训练过程结束之后，获得所述待训练的命名实体模型输出的训练文本的命名实体识别结果；

将所述训练文本的命名实体识别结果与所述训练文本中标注的命名实体进行对比；

根据对比结果，调整下次训练过程中赋予词向量的注意力权重；

如果训练文本的命名实体识别结果与所述训练文本中标注的命名实体的误差小于预定的误差阈值，获得训练好的命名实体识别模型。
根据权利要求3所述的方法，其特征在于，所述对进行分词后的训练文本中的命名实体进行标注包括：

对所述训练文本的分词是否属于命名实体、所述训练文本的分词在其所属命名实体中的位置和/或所述训练文本的分词所属命名实体的类型进行标注。
一种基于注意力机制的命名实体识别装置，其特征在于，包括：

分词模块，用于对待识别文本进行分词；

映射模块，用于将所述分词模块获得的所述待识别文本的分词映射为向量，得到所述待识别文本的词向量；

识别模块，用于将所述映射模块得到的所述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得所述待识别文本的命名实体识别结果；其中，所述命名实体识别模型包括至少两层隐藏层，通过所述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层。
根据权利要求6所述的装置，其特征在于，还包括：

获取模块，用于在所述识别模块将所述待识别文本的词向量赋予注意力权重之前，根据所述待识别文本的上下文语义，获取所述待识别文本的词向量的注意力权重。
根据权利要求6所述的装置，其特征在于，还包括：标注模块和训练模块；

所述分词模块，还用于在所述识别模块将所述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算之前，获取训练文本，并对所述训练文本进行分词；

所述标注模块，用于对所述分词模块进行分词后的训练文本中的命名实体进行标注；

所述映射模块，还用于将所述训练文本的分词映射为向量，得到所述训练文本的词向量；

所述训练模块，用于将所述映射模块得到的所述训练文本的词向量输入待训练的命名实体识别模型进行逐层运算，以对所述待训练的命名实体模型进行训练。
根据权利要求6所述的装置，其特征在于，

所述训练模块还用于获得上述待训练的命名实体模型输出的训练文本的命名实体识别结果；将上述训练文本的命名实体识别结果与上述训练文本中标注的命名实体进行对比；根据对比结果，调整下次训练过程中赋予词向量的注意力权重；如果训练文本的命名实体识别结果与上述训练文本中标注的命名实体的误差小于预定的误差阈值，获得训练好的命名实体识别模型。
根据权利要求8所述的装置，其特征在于，

所述标注模块具体用于对所述训练文本的分词是否属于命名实体、所述训练文本的分词在其所属命名实体中的位置和/或所述训练文本的分词所属命名实体的类型进行标注。
一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现以下步骤：

对待识别文本进行分词，并将所述待识别文本的分词映射为向量，得到所述待识别文本的词向量；

将所述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得所述待识别文本的命名实体识别结果；其中，所述命名实体识别模型包括至少两层隐藏层，通过所述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时，还实现以下步骤：

根据所述待识别文本的上下文语义，获取所述待识别文本的词向量的注意力权重。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时，还实现以下步骤：

获取训练文本，并对所述训练文本进行分词；

对进行分词后的训练文本中的命名实体进行标注；

将所述训练文本的分词映射为向量，得到所述训练文本的词向量；

将所述训练文本的词向量输入待训练的命名实体识别模型进行逐层运算，以对所述待训练的命名实体模型进行训练。
根据权利要求13所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时，还实现以下步骤：

在本次训练过程结束之后，获得所述待训练的命名实体模型输出的训练文本的命名实体识别结果；

将所述训练文本的命名实体识别结果与所述训练文本中标注的命名实体进行对比；

根据对比结果，调整下次训练过程中赋予词向量的注意力权重；

如果训练文本的命名实体识别结果与所述训练文本中标注的命名实体的误差小于预定的误差阈值，获得训练好的命名实体识别模型。
根据权利要求13所述的计算机设备，其特征在于，所述处理器执行所述计算机程序时，还实现以下步骤：

对所述训练文本的分词是否属于命名实体、所述训练文本的分词在其所属命名实体中的位置和/或所述训练文本的分词所属命名实体的类型进行标注。
一种计算机非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以下步骤：

对待识别文本进行分词，并将所述待识别文本的分词映射为向量，得到所述待识别文本的词向量；

将所述待识别文本的词向量赋予注意力权重，并将赋予注意力权重的词向量输入命名实体识别模型进行逐层运算，获得所述待识别文本的命名实体识别结果；其中，所述命名实体识别模型包括至少两层隐藏层，通过所述命名实体识别模型进行逐层运算时，将上一层隐藏层输出的隐藏节点输入下一层隐藏层。
根据权利要求16所述的计算机非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时还实现以下步骤：

根据所述待识别文本的上下文语义，获取所述待识别文本的词向量的注意力权重。
根据权利要求16所述的计算机非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时还实现以下步骤：

获取训练文本，并对所述训练文本进行分词；

对进行分词后的训练文本中的命名实体进行标注；

将所述训练文本的分词映射为向量，得到所述训练文本的词向量；

将所述训练文本的词向量输入待训练的命名实体识别模型进行逐层运算，以对所述待训练的命名实体模型进行训练。
根据权利要求18所述的计算机非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时还实现以下步骤：

在本次训练过程结束之后，获得所述待训练的命名实体模型输出的训练文本的命名实体识别结果；

将所述训练文本的命名实体识别结果与所述训练文本中标注的命名实体进行对比；

根据对比结果，调整下次训练过程中赋予词向量的注意力权重；

如果训练文本的命名实体识别结果与所述训练文本中标注的命名实体的误差小于预定的误差阈值，获得训练好的命名实体识别模型。
根据权利要求18所述的计算机非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时还实现以下步骤：

对所述训练文本的分词是否属于命名实体、所述训练文本的分词在其所属命名实体中的位置和/或所述训练文本的分词所属命名实体的类型进行标注。