WO2023109436A1

WO2023109436A1 - 词性感知嵌套命名实体识别方法、系统、设备和存储介质

Info

Publication number: WO2023109436A1
Application number: PCT/CN2022/133113
Authority: WO
Inventors: 仇晶; 周玲; 郭晨; 陈豪; 林杨; 顾钊铨; 田志宏; 贾焰; 方滨兴
Original assignee: 广州大学
Priority date: 2021-12-13
Filing date: 2022-11-21
Publication date: 2023-06-22
Also published as: CN114330343A; CN114330343B; US20240111956A1

Abstract

一种词性感知嵌套命名实体识别方法、系统、设备和存储介质，通过获取待识别文本的文本词数据后，采用BiLSTM模型对文本词数据进行特征提取得到文本词深度特征，并根据文本词深度特征将待识别文本的各个文本词初始化为对应的图节点，根据预设词性路径构建待识别文本的文本异构图，通过注意力机制更新图节点的文本词数据，再采用BiLSTM模型对文本异构图的所有图节点进行特征提取，得到待解码文本词向量表示后，采用条件随机场进行解码和标注，得到嵌套命名实体识别结果的方法，能够对普通实体和嵌套实体进行精准有效的识别处理，提高嵌套命名实体识别效率的同时，进一步提升嵌套命名实体识别模型的性能优势。

Description

词性感知嵌套命名实体识别方法、系统、设备和存储介质

技术领域

本发明涉及自然语言处理及知识图谱构建技术领域，特别是涉及一种基于异构图注意力神经网络的词性感知嵌套命名实体识别方法、系统、计算机设备和存储介质。

背景技术

命名实体识别(NER，Named Entity Recognition)是自然语言处理领域构造知识图谱过程中的基本任务之一，其主要用于对构成知识图谱中具有特定意义的实体进行抽取，是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要的地位。实际的自然语言序列中存在一个实体包含一个或多个实体的嵌套实体现象，如文本“Activation of the cd28 surface receptor provides”，“cd28 surface”是一个Protein类型的实体，而“cd28 sur face receptor”也是一个Protein类型的实体，嵌套命名实体识别(Nested NER)也是命名实体识别任务中重难点问题，其作用在于识别出文本中的嵌套实体，对应识别的关键在于如何确定实体的边界和预测实体的类别。

现有嵌套实体识别方法主要分为三类：(1)通过设计文本匹配规则来抽取自然语言中的实体，如通过领域专家手工编写规则来匹配文本中的实体；(2)基于特征工程的有监督学习方法，如通过设计特征模板、结合维特比算法来对文本序列中的文本类别进行预测；(3)基于实体跨度的深度学习的方法，如利用神经网络来提取文本的字符级特征的深度学习，以及直接枚举出可能为实体的子序列，然后对子序列进行预测的穷举候选实体方法。现有技术虽然能够在一定程度上解决嵌套实体识别问题，但也存在着显而易见的缺陷，如第一类方法中领域语言专家手工编写规则，非常耗时耗力，且领域间可迁移性差；第二类方法属于统计机器学习方法易受文本语料分布情况的影响，泛化能力较差；第三类方法中的深度学习法虽然能够抽取文本的字符和单词特征，但学习参数多，计算复杂度较高，而穷举候选实体法更是增加了模型的时间复杂度，且简单的枚举文本子序列不利于提升模型性能。

发明内容

本发明的目的是提供一种词性感知嵌套命名实体识别方法、系统、设备和存储介质，通过将异构图表示学习用于嵌套实体识别，引入词性知识对文本特征进行初始化，结合设计的一种采样获取更多邻居节点信息的基于词性路径的空洞随机游走算法，依托DGL(Deep Graph Library)框架，通过异构图对普通实体和嵌套实体进行有效识别处理，提高嵌套命名实体识别的精准性和学习效率的同时，进一步提升嵌套命名实体识别模型的性能优势。

为了实现上述目的，有必要针对上述技术问题，提供了一种词性感知嵌套命名实体识别方法、系统、计算机设备和存储介质。

第一方面，本发明实施例提供了一种词性感知嵌套命名实体识别方法，所述方法包括以下步骤：

获取待识别文本的文本词数据；所述文本词数据包括文本序列ID、词性类别、词频和词向量表示；

采用BiLSTM模型对所述文本词数据进行特征提取，得到对应的文本词深度特征，并根据所述文本词深度特征，将所述待识别文本的各个文本词初始化为对应的图节点；

根据各个图节点间的转移关系，构建所述待识别文本的文本异构图；

根据所述文本异构图和预设词性路径，通过注意力机制更新所述文本异构图中图节点的文本词深度特征；

采用BiLSTM模型对更新后的文本异构图内所有图节点进行特征提取，得到待解码文本词向量表示；

对所述待解码文本词向量表示进行解码和标注，得到嵌套命名实体识别结果。

进一步地，所述获取待识别文本的文本词数据的步骤包括：

按照所述待识别文本内各个文本词的位置顺序，给各个文本词设置对应的文本序列ID；

对所述待识别文本进行词性标注，并根据词性标注结果，对所述待识别文本中的各个文本词进行词性分类和词频统计，得到对应的词性类别和词频；

通过BERT模型，生成所述待识别文本内各个文本词的词向量表示。

进一步地，所述采用BiLSTM模型对所述文本词数据进行特征提取，得到对应的文本词深度特征的步骤包括：

将各个文本词数据的文本序列ID、词性、词频和词向量表示进行拼接整合，得到文本词初始特征；

采用BiLSTM模型对所述文本词初始特征进行特征提取，得到所述文本词深度特征；所述文本词深度特征表示为：

h(x _i)＝BiLSTM(F(x _i))

式中，

其中，x _i、F(x _i)和h(x _i)分别表示第i个文本词的文本词数据、文本词初始特征和文本词深度特征；

和

分别表示第i个文本词数据内的文本序列ID、词性类别、词频和词向量表示。

进一步地，所述待识别文本的文本异构图表示为：

G＝(V,E,Ov,Path)

其中，V表示由不同词性文本词构成的节点集合，且各个节点的取值为文本词深度特征；E表示以节点构成的边集合；Ov表示节点的词性类型集合；Path表示预设词性路径，且包括动词与名词路径、名词修饰词与名词路径、连接词与名词路径、以及动词修饰词与动词路径。

进一步地，所述根据所述文本异构图和预设词性路径，通过注意力机制更新所述文本异构图中图节点的文本词深度特征的步骤包括：

根据各个预设词性路径，对所述文本异构图进行深度优先遍历，得到对应的图节点序列；

根据所述图节点序列，对各个预设词性路径中的各个图节点进行邻居节点采样，得到对应的邻居节点集合；

通过注意力机制，对各个预设词性路径中的各个图节点的邻居节点集合进行节点信息整合，得到对应的图节点表示；所述图节点表示为：

式中，

其中，v表示第i条预设词性路径中的图节点，且取值为对应的文本词深度特征；

表示第i条预设词性路径Path _i中图节点对应的邻居节点集合；

表示第i条词性路径Path _i中图节点v的第j个邻居节点；k表示注意力头数；

表示第i条词性路径Path _i中图节点v的第j个邻居节点的权重系数；

表示图节点v经过k个注意头的注意力计算得到的图节点表示；exp(·)表示以e为底的指数函数；LeakyReLU(·)表示激活函数；u ^T为边的权重矩阵；

根据所述图节点表示，更新所述文本异构图中对应图节点的词频和词向量表示。

进一步地，所述根据所述图节点序列，对各个预设词性路径中的各个图节点进行邻居节点采样，得到对应的邻居节点集合的步骤包括：

获取所述预设词性路径的节点数目，并根据所述节点数目确定基础采样间隔；

根据预设采样概率和采样停止条件，在所述图节点序列中，以基础采样间隔的整数倍为移动步长，随机获取预设词性路径中各个图节点对应的若干邻居节点，得到对应的所述邻居节点集合；所述采样停止条件为采样得到的邻居节点总数满足预设数目要求，且邻居节点中各个词性类别对应的节点数目满足预设比例要求。

进一步地，所述对所述待解码文本词向量表示进行解码和标注，得到嵌套命名实体识别结果的步骤包括：

采用条件随机场对所述待解码文本词向量表示进行解码和标注，得到命名实体识别结果和第一标注文本词向量表示；

采用改进的LSTM单元对所述第一标注文本词向量表示进行边界检测，判断所述第一标注文本词向量表示是否存在实体边界词；所述改进的LSTM单元通过在LSTM单元的输出隐藏层上增加多层感知机MLP得到；

若所述第一标注文本词向量表示存在实体边界词，则将相邻所述实体边界词之间的所述第一标注文本词向量表示进行合并，得到第二标注文本词向量表示，并对所述第二标注文本词向量表示进行解码标注和边界检测，开始下一轮实体识别迭代，反之，则停止迭代，将所述命名实体识别结果作为正向命名实体识别结果；

根据所述正向实体识别结果对应的文本词向量表示进行逆向填充，得到第三标注文本词向量表示，并将所述第三文本词向量表示与上一轮实体识别迭代对应的文本词向量表示进行合并，得到第四标注文本词向量表示；

采用条件随机场对所述第四标注文本词向量表示进行解码和标注，得到所述嵌套命名实体识别结果。

第二方面，本发明实施例提供了一种词性感知嵌套命名实体识别系统，所述系统包括：

预处理模块，用于获取待识别文本的文本词数据；所述文本词数据包括文本序列ID、词性类别、词频和词向量表示；

节点初始化模块，用于采用BiLSTM模型对所述文本词数据进行特征提取，得到对应的文本词深度特征，并根据所述文本词深度特征，将所述待识别文本的各个文本词初始化为对应的图节点；

图构建模块，用于根据各个图节点间的转移关系，构建所述待识别文本的文本异构图；

节点更新模块，用于根据所述文本异构图和预设词性路径，通过注意力机制更新所述文本异构图中图节点的文本词深度特征；

特征优化模块，用于采用BiLSTM模型对更新后的文本异构图内所有图节点进行特征提取，得到待解码文本词向量表示；

结果生成模块，用于对所述待解码文本词向量表示进行解码和标注，得到嵌套命名实体识别结果。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述本申请提供了一种词性感知嵌套命名实体识别方法、系统、计算机设备及存储介质，通过所述方法，实现了获取待识别文本的文本词数据后，采用BiLSTM模型对文本词数据进行特征提取得到文本词深度特征，并根据文本词深度特征将待识别文本的各个文本词初始化为对应的图节点，根据预设词性路径构建待识别文本的文本异构图，通过注意力机制更新图节点的文本词数据，再采用BiLSTM模型对文本异构图的所有图节点进行特征提取，得到待解码文本词向量表示后，采用条件随机场进行解码和标注，得到嵌套命名实体识别结果的技术方案。与现有技术相比，该词性感知嵌套命名实体识别方法通过将异构图表示学习用于嵌套实体识别，引入词性知识对文本特征进行初始化，结合设计的一种采样获取更多邻居节点信息的基于词性路径的空洞随机游走算法，依托DGL(Deep Graph Library)框架，对普通实体和嵌套实体进行有效识别处理，提高嵌套命名实体识别的精准性和学习效率的同时，进一步提升嵌套命名实体识别模型的性能优势。

附图说明

图1是本发明实施例中词性感知嵌套命名实体识别方法的应用场景示意图；

图2是本发明实施例中词性感知嵌套命名实体识别模型PANNER的结构示意图；

图3是本发明实施例中词性感知嵌套命名实体识别方法的流程示意图；

图4是包括多种不同词性节点的文本异构图；

图5是本发明实施例中自下而上的正向解码和自上而下的逆向解码的示例图；

图6是本发明实施例中用于边界检测改进的LSTM单元的结构示意图；

图7是不同采样算法的性能和同样采样节点数耗时对比结果图；

图8是本发明实施例中采样节点数目对PANNER模型性能和时间消耗影响的示意图；

图9是本发明实施例中词向量维度对PANNER模型性能和时间消耗影响的示意图；

图10是本发明实施例中词性感知嵌套命名实体识别系统的结构示意图；

图11是本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案和有益效果更加清楚明白，下面结合附图及实施例，对本发明作进一步详细说明，显然，以下所描述的实施例是本发明实施例的一部分，仅用于说明本发明，但不用来限制本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的嵌套命名实体识别方法可以应用于如图1所示的终端或服务器上。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可以基于待识别英文文本语料，采用本发明提供的词性感知嵌套命名实体识别方法按照图2所示的词性感知嵌套实体识别模型完成对相应文本语料中的普通命名实体和嵌套命名实体的精准有效识别，并将最终得到的普通命名实体和嵌套命名实体识别结果应用于服务器上其他学习任务，或者将其传送至终端，以供终端使用者接收使用。

在一个实施例中，如图3所示，提供了一种词性感知嵌套命名实体识别方法，包括以下步骤：

S11、获取待识别文本的文本词数据；所述文本词数据包括文本序列ID、词性类别、词频和词向量表示；其中，待识别文件语料为任一需要进行嵌套命名实体识别的英文文本序列，对应的文本词数据是对待识别文本中的每个文本词预处理后得到的数据，即为后续嵌套命名实体识别所需的数据特征，对应的文本词数据的文本序列ID和词性类别在后续的训练学习中不会变化，而词频和词向量表示会不断更新。具体地，所述获取待识别文本的文本词数据的步骤包括：

对所述待识别文本进行词性标注，并根据词性标注结果，对所述待识别文本中的各个文本词进行词性分类和词频统计，得到对应的词性类别和词频；其中，词性标注采用现有的英文文本词性标注工具，如nltk或Stanfordnlp均可实现对待识别文本的词性标注，此处不作具体限制；词性类别原则上可按照英文单词的现有词性类别进行划分，但考虑到中性词太多，为了提供后续的学习效率，本实施例对英文单词的词性进行分类得到的如表1所示类别；词频表示各个文本词出现的频率；假设待识别文本中共N个不同的词，共C种不同类别，待识别文本的长度为T，其中，第t个文本词出现了f次，其词性分类为c，其中t∈T，c∈C，则该词的文本序列ID：id＝t；词性类别cat＝c；词频freq＝f/T，比如待识别文本为“Guangzhou University is located in Guangzhou,the capital of Guangdong”，则采用词性标注工具获取文本的词性，得到如表2所示的文本序列id、词性、词性类别和词频信息。

表1词性分类表

表1中：第一组为所有名词的集合，包括名词和专有名词的单复数；第二组为动词集合，包括其基本形式、第三人称单数、过去式等；第三组为名词的修饰词，包括基数词、形容词、形容词的比较级、最高级等；第四组为动词的修饰词，包括副词、限定词等，第五组为关系词，包括情态动词、连词、介词等；第六组为文章标识符，包括逗号、句号和段落分隔符等，这一组在实际应用中将被移除不用。

表2语料的id、词性、词性类别和词频信息

语料	Guangzhou	University	is	located	in	the	capital	of	Guangdong
Id	0	1	2	3	4	5	6	7	8
词性	Noun	Noun	VBS	VBP	IN	DT	Noun	CC	Noun
分组	Noun	Noun	Verbs	Verbs	Relations	Noun modifier	Noun	Noun modifier	Noun
词频	2/10	1/10	1/10	1/10	1/10	1/10	1/10	1/10	1/10

通过BERT模型，生成所述待识别文本内各个文本词的词向量表示。其中，BERT(Bidirectional Encoder Representation from Transformers)模型是一种NLP预训练技术，即双向Transformer的Encoder，其可以用来对文本序列的向量表示进行训练，也可以对文本序列中的每个单词的向量表示进行训练。本实施例中，考虑到待识别文本中文本词的位置与语义是强相关的，并且为了便于后续进行邻居节点采样对应的随机批次训练，选用BERT模型对待识别文本中每个单词的词向量进行有效训练，进而得到文本词数据里的词向量表示，该词向量表示在后续邻居节点采样随机批次训练中会进行相应的更新处理。

S12、采用BiLSTM模型对所述文本词数据进行特征提取，得到对应的文本词深度特征，并根据所述文本词深度特征，将所述待识别文本的各个文本词初始化为对应的图节点；其中，BiLSTM模型为双向LSTM网络编码器，本实施例通过该模型对文本词数据进行正向特征提取和逆向特征提取，并将得到的正向特征和逆向特征拼接得到对应的文本词深度特征，具体步骤如下：

将各个文本词数据的文本序列ID、词性、词频和词向量表示进行拼接整合，得到文本词初始特征；其中，文本词初始特征为文本序列id、词性类别、词频和词向量表示拼接后的d维词向量，其中，文本序列ID和词性各占1维，词频和词向量表示合占d-2维，对应表示为：

其中，x _i和F(x _i)分别表示第i个文本词的文本词数据和文本词初始特征；

和

h(x _i)＝BiLSTM(F(x _i))

其中，h(x _i)分别表示第i个文本词x _i对应的文本词深度特征，即文本词x _i的预处理文本词被BiLSTM编码后的隐藏层向量，对应的BiLSTM模型的实施过程如下：

采用BiLSTM网络编码器按正序输入待识别文本编码各个文本词，依照下述公式得到该待识别文本内各个文本词的正向特征

f _i＝σ(w _f·[h _i-1,F(x _i)]+b _f)

i _i＝σ(w _i·[h _i-1,F(x _i)]+b _i)

o _i＝σ(w _o·[h _i-1,F(x _i)]+b _o)

其中，F(x _i)表示待识别文本中第i个文本词；h _i-1、f _i、i _i、

C _i和o _i

分别表示待识别文本中第i个文本词的前一时刻细胞状态、遗忘门输出、记忆门输出、临时细胞状态、当前细胞状态和输出门；w和b分别为三个门和三个状态的权重和偏置项。

同上所述，再采用BiLSTM网络编码器按逆序输入待识别文本编码各个文本词，得到该待识别文本内各个文本词的逆向特征

在采用上述步骤得到文本词的正向特征

和逆向特征

后，将二者拼接得到文本词深度特征h _i：

式中，Concat(·)表示将两个向量按行横向拼接的函数。为了保证后续使用文本词深度特征处理的高效性，可以进一步对上述得到的文本词深度特征h _i进行归一化处理。

S13、根据各个图节点间的转移关系，构建所述待识别文本的文本异构图；其中，异构图如图4所示，由节点(Vertex)和边(Edge)来构成，且存在不同类型的节点和边(节点和边至少有一个具有多种类型)，常见于知识图谱的场景，且最简单的处理异构信息的方式是使用独热编码类型信息并拼接在节点的原有表示上。本实施例中，根据由文本词深度特征h _i初始化得到的各个图节点所构成的待识别文本的文本异构图表示为：

G＝(V,E,Ov,Path)

其中，V表示由不同词性文本词构成的节点集合，且各个节点的取值为文本词深度特征；E表示以节点构成的边集合，且以边上节点的词共现频率与词频之积的比值的对数作为边的权重；Ov表示节点的词性类型集合；Path表示预设词性路径，且包括动词与名词路径、名词修饰词与名词路径、连接词与名词路径、以及动词修饰词与动词路径。需要说明的是，预设词性路径可根据实际识别的文本内容按照步骤：统计语料库中词性类别中单词的比例，选择单词比例最高且与命名实体重合度较高的词性类别，作为中心合理设计对应的词性路径，从而引入语法知识，依托Deep Graph Library(DGL)创建异构图，方便后续进行异构图的计算。本实施例选用的是GENIA数据集中的文本序列，考虑到该数据集中名词占比最高，且名词与命名实体的重合度较高，以名词为中心设计得到表3所示的预设词性路径。

表3以名词为中心设计的预设词性路径

Path_id	Path	Path_node
1	Verbs-Nouns	2-1
2	Noun modifier-Nouns	3-1
3	Verbs modifier-Verbs	4-2

4

Relations-Nouns

5-1

表3中的4条路径均以名词为中心，包括：预设词性路径1(动词与名词间的关系)、预设词性路径2(名词修饰词与名词的关系)、预设词性路径3(动词修饰词与动词的关系)和预设词性路径4(连接词与名词的关系)，在之后的邻居节点采样过程中，需要更新的节点为词性路径上的节点。

异构图的构建依托Deep Graph Library框架，原始数据格式为<src,edg,dst>，其中src为源节点、edg为边、dst为目的节点。节点初始文本词特征包括节点类型(词性类别)、节点位置编号(文本序列ID)、节点出现频率(词频)、以及BERT预训练得到的词向量表示，节点将在之后的训练当中不断更新；边的初始特征包括边的权重(边上节点的词共现频率与词频之积的比值的对数)，其也会在之后的训练当中不断更新。

S14、根据所述文本异构图和预设词性路径，通过注意力机制更新所述文本异构图中图节点的文本词深度特征；其中，图节点的文本词深度特征的更新可以理解为更新所有预设词性路径上的节点的文本词深度特征中的词频和词向量表示。为了获取了更多的邻居节点信息，更可靠有效地更新各个预设词性路径上的节点特征，本实施例设计了一种基于词性路径的空洞随机游走算法对各个预设词性路径上的图节点的邻居节点进行采样，并根据采样得到的邻居节点集合，采用注意力机制计算对应图节点的节点表示以更新文本词深度特征。具体地所述根据所述文本异构图和预设词性路径，通过注意力机制更新所述文本异构图中图节点的文本词深度特征的步骤包括：

根据所述图节点序列，对各个预设词性路径中的各个图节点进行邻居节点采样，得到对应的邻居节点集合；其中，所述根据所述图节点序列，对各个预设词性路径中的各个图节点进行邻居节点采样，得到对应的邻居节点集合的步骤包括：

获取所述预设词性路径的节点数目，并根据所述节点数目确定基础采样间隔；其中，基础采样间隔即为上述空洞随机游走算法中的空洞，表示在采样时会有一个长度等于预设词性路径上节点数的间隔，随机性是指节点采样选取具有随机性。

具体地，假设文本异构图为G＝(V,E,Ov,Path)，V为节点集合，E为边集，Ov为节点类型，Path为预设词性路径，且预设词性路径包括2-1、3-1、4-2、5-1；下面以预设词性路径2-1为示例对邻居节点采样过程进行说明：以预设词性路径2-1上的节点为起点对图进行深度优先遍历(Depth First Search，DFS)，得到的对应的图节点序列为{2、1、0、4、3、5、6、7、8}；得到预设词性路径2-1的长度(节点数目)为2，则确定2为基础采样间隔，对预设词性路径2-1上的节点2的2阶邻居节点(指与节点2相隔节点数为2的整数倍的节点)进行采样，以预设概率p选择节点2的2阶邻居作为节点2的邻居节点，以概率1-p舍弃其2阶邻居，依次为0、3、6和8；对词性路径2-1上的节点1的2阶邻居节点(指与节点1相隔节点数为2的整数倍的节点)进行采样，以概率p选择节点1的2阶邻居作为节点1的邻居节点，以概率1-p舍弃其2阶邻居，依次为4、5、7。需要说明的是，每个预设路径节点中图节点的邻居采样过程停止条件为：得到的邻居节点总数目达到预设的数目，且其他各类邻居节点数目也达到特定比例。为了保证模型的泛化能力，本实施例中采样的预设概率p为随机产生，且邻居节点不同词性类别的节点占比为原始语料库中各词性类别的比例。

通过上述步骤得到各个预设词性路径中各个图节点的邻居节点集合后，考虑到不同类别的邻居节点词对图节点的影响不一样，故通过下述采用注意力机制来确定邻居节点对当前节点的重要性的方法对各个图节点进行合理有效的更新。

式中，

表示图节点v经过k个注意头的注意力计算得到的图节点表示；exp(·)表示以e为底的指数函数；LeakyReLU(·)表示激活函数；u ^T为边的权重矩阵，该权重矩阵随着边节点词频和词共现频率的变化，在采样过程中会不断更新；

上述空洞随机游走算法DilatedRandomWalk的实现方式如下：

S15、采用BiLSTM模型对更新后的文本异构图内所有图节点进行特征提取，得到待解码文本词向量表示；其中，待解码文本词向量表示可理解为通过BiLSTM对所有预设词性路径中的图节点

和不在预设词性路径中的图节点node _P进行特征提取得到，可表示为：

其中，v ^f为异构图中所有节点的集合，包括词性路径上的节点和不在词性路径上的节点node _P；BiLSTM模型对图节点进行特征提取的过程可参见前文中获取各个文本词的文本词深度特征的过程，此处不再赘述；

S16、对所述待解码文本词向量表示进行解码和标注，得到嵌套命名实体识别结果。其中，嵌套命名实体识别结果，如图5所示，通过逐层解码，结合自下而上和自上而下的方式对命名实体进行联合解码得到。具体地，所述对所述待解码文本词向量表示进行解码和标注，得到嵌套命名实体识别结果的步骤包括：

采用条件随机场对所述待解码文本词向量表示进行解码和标注，得到命名实体识别结果和第一标注文本词向量表示；其中，条件随机场CRF模型如下所示：

式中，y表示标签；f _j表示特征函数；λ表示特征函数的权重；

表示归一化因子。

采用改进的LSTM单元对所述第一标注文本词向量表示进行边界检测，判断所述第一标注文本词向量表示是否存在实体边界词；所述改进的LSTM单元通过在LSTM单元的输出隐藏层上增加多层感知机MLP得到；其中，改进的LSTM单元如图6所示，相比于LSTM单元，在输出隐藏层的基础上增加了两个非线性激活层和一个softmax全连接层分类器。本实施例中，使用引入多层感知机MLP的LSTM单元进行对文本进行边界词识别，以及将边界信息融入到隐藏层向量中，为后续的普通实体识别和嵌套实体识别提供了可靠且有效的依据。

若所述第一标注文本词向量表示存在实体边界词，则将相邻所述实体边界词之间的所述第一标注文本词向量表示进行合并，得到第二标注文本词向量表示，并对所述第二标注文本词向量表示进行解码标注和边界检测，开始下一轮实体识别迭代，反之，则停止迭代，将所述命名实体识别结果作为正向命名实体识别结果；其中，将相邻所述实体边界词之间的所述第一标注文本词向量表示的合并方法可以根据实际应用需求进行选择，本实施例优选的采用卷积核为2的一维卷积神经网络Conv1d实现，其滑窗大小n可根据实际检测到的实体边界词之间的文本词数目而定，即使用一维卷积神经网络将实体边界词及其中间的序列进行合并，得到的若干个词构成的序列对应的第二标注文本词向量表示对应的文本区域起始范围为[t，t+n]，且该一维卷积神经网络表示为：

式中，

和

分别为第l次命名实体识别迭代对应的合并前第t个词第一标注文本词向量表示、第t+n个词第一标注文本词向量表示，以及合并后第t个词第二标注文本词向量表示；Conv1d(·)为一维卷积神经网络。

通过上述步骤得到的正向命名实体识别结果的过程简称为自下而上的解码过程，为了减少识别误差，在完成自下而上的正向解码后，添加了下述的自上而下的逆向解码过程，用于纠偏。

根据所述正向实体识别结果对应的文本词向量表示进行逆向填充，得到第三标注文本词向量表示，并将所述第三文本词向量表示与上一轮实体识别迭代对应的文本词向量表示进行合并，得到第四标注文本词向量表示；其中，逆向填充为采用一维卷积神经网络Conv1d将当前解码后的序列重新进行填充，使得总的序列长度跟上一层一致，进而得到与上一轮实体识别迭代对应的文本词向量表示的长度相同的第三标注文本词向量表示。此处逆向填充再解码的过程可简称为自上而下解码过程。

采用条件随机场对所述第四标注文本词向量表示进行解码和标注，得到所述嵌套命名实体识别结果。本实施例通过逐层解码，结合自下而上和自上而下联合解码的方式，有效保证了嵌套命名实体识别的精准性。

本申请词性感知嵌套命名实体识别法对应的PANNER模型实现流程如下所示：

本申请实施例通过引入词性知识对文本词数据进行初始化，并采用BiLSTM模型基于文本词数据提取文本词深度特征后，将其初始化为图节点，并基于语法关系构建待识别文本对应的文本异构图，结合设计的一种采样获取更多邻居节点信息的基于词性路径的空洞随机游走算法，依托DGL(Deep Graph Library)框架，对普通实体和嵌套实体进行有效识别处理，提高嵌套命名实体识别的精准性和学习效率的同时，进一步提升嵌套命名实体识别模型的性能优势。

为了验证本发明词性感知嵌套命名实体识别法的技术效果，将上述方法对应的PANNER模型采用负对数似然函数和随机梯度下降(SGD)法对获取的英文文本语料进行训练优化后，基于GENIA数据集进行嵌套命名实体的识别验证，分别进行了与其他不同模型识别结果的比对，本申请PANNER模型在不同实体层上的比对，以及本申请PANNER模型以不同词性为中心的预设词性路径上的对比，得到的结果分别如表4-6所示，从给出的精确度、召回率和F1分数可见本发明的嵌套命名实体识别方法应用于GENIA数据集对应的综合效果都比同类命名体识别模型的有所提升。此外，还对本申请邻居节点采样的空洞随机游走算法及整个嵌套命名实体识别模型PANNER的运行性能和时间消耗作了验证，并得到如图7-9所示的结果，进一步验证了本发明嵌套命名实体识别方法具有较高精准性基础上，模型的学习效率和运行性能与现有模型相比都有较大优势。

表4基于GENIA数据集的实验结果比对

Model	HMM	CRF	LSTM	LSTM-CRF	BENSC	Hypergraph	CGN	HAN	PANNER
Precision(％)	82.15	86.13	84.25	82.46	78.9	74.42	82.18	85.18	84.18
Recall(％)	56.73	58.39	64.29	65.39	72.7	67.58	67.81	70.53	73.98
F1-score(％)	67.74	69.60	72.93	72.94	75.67	70.84	74.31	77.17	78.75

表5本申请PANNER模型基于GENIA数据集在不同实体层上的表现

Layers	1	2	3	4	ALLLayers
Precision(％)	84.13	84.91	84.37	82.46	84.18
Recall(％)	72.23	76.87	73.18	68.39	73.98
F1-score(％)	78.30	80.69	78.38	74.77	78.75

表6本申请PANNER模型以不同词性为中心的预设词性路径上的对比结果

需要说明的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。

在一个实施例中，如图10所示，提供了一种词性感知嵌套命名实体识别系统，所述系统包括：

预处理模块1，用于获取待识别文本的文本词数据；所述文本词数据包括文本序列ID、词性类别、词频和词向量表示；

节点初始化模块2，用于采用BiLSTM模型对所述文本词数据进行特征提取，得到对应的文本词深度特征，并根据所述文本词深度特征，将所述待识别文本的各个文本词初始化为对应的图节点；

图构建模块3，用于根据各个图节点间的转移关系，构建所述待识别文本的文本异构图；

节点更新模块4，用于根据所述文本异构图和预设词性路径，通过注意力机制更新所述文本异构图中图节点的文本词深度特征；

特征优化模块5，用于采用BiLSTM模型对更新后的文本异构图内所有图节点进行特征提取，得到待解码文本词向量表示；

结果生成模块6，用于对所述待解码文本词向量表示进行解码和标注，得到嵌套命名实体识别结果。

关于一种词性感知嵌套命名实体识别系统的具体限定可以参见上文中对于一种词性感知嵌套命名实体识别方法的限定，在此不再赘述。上述一种词性感知嵌套命名实体识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图11示出一个实施例中计算机设备的内部结构图，该计算机设备具体可以是终端或服务器。如图11所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种词性感知嵌套命名实体识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域普通技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

综上，本发明实施例提供的一种词性感知嵌套命名实体识别方法、系统、计算机设备及存储介质，其词性感知嵌套命名实体识别方法实现了获取待识别文本的文本词数据后，采用BiLSTM模型对文本词数据进行特征提取得到文本词深度特征，并根据文本词深度特征将待识别文本的各个文本词初始化为对应的图节点，根据预设词性路径构建待识别文本的文本异构图，通过注意力机制更新图节点的文本词数据，再采用BiLSTM模型对文本异构图的所有图节点进行特征提取，得到待解码文本词向量表示后，采用条件随机场进行解码和标注，得到嵌套命名实体识别结果的技术方案，通过将异构图表示学习用于嵌套实体识别，引入词性知识对文本特征进行初始化，结合设计的一种采样获取更多邻居节点信息的基于词性路径的空洞随机游走算法，依托DGL(Deep Graph Library)框架，对普通实体和嵌套实体进行有效识别处理，提高嵌套命名实体识别的精准性和学习效率的同时，进一步提升嵌套命名实体识别模型的性能优势。

本说明书中的各个实施例均采用递进的方式描述，各个实施例直接相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims

一种词性感知嵌套命名实体识别方法，其特征在于，所述方法包括以下步骤：

获取待识别文本的文本词数据；所述文本词数据包括文本序列ID、词性类别、词频和词向量表示；

采用BiLSTM模型对所述文本词数据进行特征提取，得到对应的文本词深度特征，并根据所述文本词深度特征，将所述待识别文本的各个文本词初始化为对应的图节点；

根据各个图节点间的转移关系，构建所述待识别文本的文本异构图；

根据所述文本异构图和预设词性路径，通过注意力机制更新所述文本异构图中图节点的文本词深度特征；

采用BiLSTM模型对更新后的文本异构图内所有图节点进行特征提取，得到待解码文本词向量表示；

对所述待解码文本词向量表示进行解码和标注，得到嵌套命名实体识别结果。
如权利要求1所述的词性感知嵌套命名实体识别方法，其特征在于，所述获取待识别文本的文本词数据的步骤包括：

按照所述待识别文本内各个文本词的位置顺序，给各个文本词设置对应的文本序列ID；

对所述待识别文本进行词性标注，并根据词性标注结果，对所述待识别文本中的各个文本词进行词性分类和词频统计，得到对应的词性类别和词频；

通过BERT模型，生成所述待识别文本内各个文本词的词向量表示。
如权利要求1所述的词性感知嵌套命名实体识别方法，其特征在于，所述采用BiLSTM模型对所述文本词数据进行特征提取，得到对应的文本词深度特征的步骤包括：

将各个文本词数据的文本序列ID、词性、词频和词向量表示进行拼接整合，得到文本词初始特征；

采用BiLSTM模型对所述文本词初始特征进行特征提取，得到所述文本词深度特征；所述文本词深度特征表示为：

h(x _i)＝BiLSTM(F(x _i))

式中，

其中，x _i、F(x _i)和h(x _i)分别表示第i个文本词的文本词数据、文本词初始特征和文本词深度特征；
和
分别表示第i个文本词数据内的文本序列ID、词性类别、词频和词向量表示。
如权利要求1所述的词性感知嵌套命名实体识别方法，其特征在于，所述待识别文本的文本异构图表示为：

G＝(V,E,Ov,Path)

其中，V表示由不同词性文本词构成的节点集合，且各个节点的取值为文本词深度特征；E表示以节点构成的边集合；Ov表示节点的词性类型集合；Path表示预设词性路径，且包括动词与名词路径、名词修饰词与名词路径、连接词与名词路径、以及动词修饰词与动词路径。
如权利要求1所述的词性感知嵌套命名实体识别方法，其特征在于，所述根据所述文本异构图和预设词性路径，通过注意力机制更新所述文本异构图中图节点的文本词深度特征的步骤包括：

根据各个预设词性路径，对所述文本异构图进行深度优先遍历，得到对应的图节点序列；

根据所述图节点序列，对各个预设词性路径中的各个图节点进行邻居节点采样，得到对应的邻居节点集合；

通过注意力机制，对各个预设词性路径中的各个图节点的邻居节点集合进行节点信息整合，得到对应的图节点表示；所述图节点表示为：

式中，

其中，v表示第i条预设词性路径中的图节点，且取值为对应的文本词深度特征；
表示第i条预设词性路径Path _i中图节点对应的邻居节点集合；
表示第i条词性路径Path _i中图节点v的第j个邻居节点；k表示注意力头数；
表示第i条词性路径Path _i中图节点v的第j个邻居节点的权重系数；
表示图节点v经过k个注意头的注意力计算得到的图节点表示；exp(·)表示以e为底的指数函数；LeakyReLU(·)表示激活函数；u ^T为边的权重矩阵；

根据所述图节点表示，更新所述文本异构图中对应图节点的词频和词向量表示。
如权利要求5所述的词性感知嵌套命名实体识别方法，其特征在于，所述根据所述图节点序列，对各个预设词性路径中的各个图节点进行邻居节点采样，得到对应的邻居节点集合的步骤包括：

获取所述预设词性路径的节点数目，并根据所述节点数目确定基础采样间隔；

根据预设采样概率和采样停止条件，在所述图节点序列中，以基础采样间隔的整数倍为移动步长，随机获取预设词性路径中各个图节点对应的若干邻居节点，得到对应的所述邻居节点集合；所述采样停止条件为采样得到的邻居节点总数满足预设数目要求，且邻居节点中各个词性类别对应的节点数目满足预设比例要求。
如权利要求1所述的词性感知嵌套命名实体识别方法，其特征在于，所述对所述待解码文本词向量表示进行解码和标注，得到嵌套命名实体识别结果的步骤包括：

采用条件随机场对所述待解码文本词向量表示进行解码和标注，得到命名实体识别结果和对应的第一标注文本词向量表示；

采用改进的LSTM单元对所述第一标注文本词向量表示进行边界检测，判断所述第一标注文本词向量表示是否存在实体边界词；所述改进的LSTM单元通过在LSTM单元的输出隐藏层上增加多层感知机MLP得到；

若所述第一标注文本词向量表示存在实体边界词，则将相邻所述实体边界词之间的所述第一标注文本词向量表示进行合并，得到第二标注文本词向量表示，并对所述第二标注文本词向量表示进行解码标注和边界检测，开始下一轮实体识别迭代，反之，则停止迭代，将所述命名实体识别结果作为正向命名实体识别结果；

根据所述正向实体识别结果对应的文本词向量表示进行逆向填充，得到第三标注文本词向量表示，并将所述第三文本词向量表示与上一轮实体识别迭代对应的文本词向量表示进行合并，得到第四标注文本词向量表示；

采用条件随机场对所述第四标注文本词向量表示进行解码和标注，得到所述嵌套命名实体识别结果。
一种词性感知嵌套命名实体识别系统，其特征在于，所述系统包括：

预处理模块，用于获取待识别文本的文本词数据；所述文本词数据包括文本序列ID、词性类别、词频和词向量表示；

节点初始化模块，用于采用BiLSTM模型对所述文本词数据进行特征提取，得到对应的文本词深度特征，并根据所述文本词深度特征，将所述待识别文本的各个文本词初始化为对应的图节点；

图构建模块，用于根据各个图节点间的转移关系，构建所述待识别文本的文本异构图；

节点更新模块，用于根据所述文本异构图和预设词性路径，通过注意力机制更新所述文本异构图中图节点的文本词深度特征；

特征优化模块，用于采用BiLSTM模型对更新后的文本异构图内所有图节点进行特征提取，得到待解码文本词向量表示；

结果生成模块，用于对所述待解码文本词向量表示进行解码和标注，得到嵌套命名实体识别结果。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一所述方法的步骤。