WO2022001333A1

WO2022001333A1 - 基于双曲空间表示和标签文本互动的细粒度实体识别方法

Info

Publication number: WO2022001333A1
Application number: PCT/CN2021/090507
Authority: WO
Inventors: 刘杰
Original assignee: 首都师范大学
Priority date: 2020-06-30
Filing date: 2021-04-28
Publication date: 2022-01-06
Also published as: CN111782768A; CN111782768B

Abstract

提供了一种基于双曲空间表示和标签文本互动的细粒度实体识别方法。包括步骤：S1、基于数据集中已标注的实体和上下文，并对实体和上下文进行交互，得到实体-上下文表示；S2、在双曲空间下，基于数据集中的标签，并结合预先训练的图卷积神经网络模型，得到词级标签关系矩阵；S3、将实体-上下文表示和词级标签关系矩阵输入预先训练的基于双曲空间的标签文本互动机制模型，输出实体最终的标签分类结果。解决了现有技术中共现关系含噪、双曲空间文本标签映射匹配差的技术问题。

Description

基于双曲空间表示和标签文本互动的细粒度实体识别方法

技术领域

本申请属于细粒度实体识别领域，具体涉及一种基于双曲空间表示和标签文本互动的细粒度实体识别方法。

背景技术

命名实体识别一直以来都是信息抽取、问答系统、机器翻译等自然语言处理领域中重要的研究任务的基础。其目的是识别出文本中表示命名实体的成分并进行分类。

细粒度实体识别与一般的实体识别相比，不仅包含简单的标签分类(例如人名、地名)，还按照实体粒度不同进行更加细致、更加复杂的识别分类(例如职业、公司)。对于其它的自然语言处理任务，细粒度命名实体识别往往蕴含更多信息，可以提供宝贵的先验知识信息，更加有效地为下游任务提供更多的知识，比如关系抽取、事件抽取、指代消解和问答系统。

细粒度实体识别可以提供更加精细化、层次性、不同粒度的实体信息，更适应于实际复杂场景的应用。一般通过标签的层级关系来体现出实体的层次、粒度，如何通过建模的方法来表示更好的标签的层级关系是研究的重点。现有方法中，有为了获取适用于更加开放、实际应用的标签层级关系，采用基于标签共现信息的图神经网络的方法；也有使用双曲空间来获取标签层级关系的方法。

但是基于标签本身的共现信息会含有一定噪音，共现关系只能体现部分相关性；双曲空间方法只对于精细粒度的实体更有效果，对于粗粒度的实体表现不足，在标签和文本的对应上固定的映射方法导致标签预测数量固定，获得标签的层次关系和对于文本模型更好的建模表示两个工作往往是分割独立的，在标签关系的构建过程中缺失文本信息的指导，通常是独自构建完再去和文本做简单的交互，忽略了文本与标签之间的关系。

发明内容

本申请提供一种基于双曲空间表示和标签文本互动的细粒度实体识别方法，能够解决上述技术问题之一。

为了达到上述的目的，本申请采用的主要技术方案如下。

本申请提供一种基于双曲空间表示和标签文本互动的细粒度实体识别方法，包括以下步骤：

S1、基于数据集中的实体和上下文，对实体和上下文进行交互，得到实体-上下文表示；

S2、在双曲空间下，基于数据集中对实体进行标注的标签，结合预先训练的图卷积神经网络模型，得到与标签对应的词级标签关系矩阵；

预先训练的图卷积神经网络模型是基于训练集中的标签和对应的标签关联矩阵，进行训练得到的模型；

S3、将实体-上下文表示和词级标签关系矩阵输入预先训练的基于双曲空间的标签文本互动机制模型，输出实体最终的标签分类结果；

预先训练的基于双曲空间的标签文本互动机制模型是基于训练集中实体-上下文表示、词级标签关系矩阵和对应的标签分类结果，进行训练得到的模型。

本申请实施例提出的基于双曲空间表示和标签文本互动的细粒度实体识别方法，基于标签文本互动机制，并利用细粒度实体识别任务中数据具有层次性的特性，在双曲空间这样天然契合的空间中加强这种层级关系，使得标签和文本的匹配效果更好。

可选地，步骤S1包括：

S11、基于数据集中的实体和上下文，在学习模型上对实体和上下文进行编码；

采用基于字符的卷积神经网络模型对实体编码；采用Bi-LSTM模型对上下文编码，输出每一个时刻的隐含状态，然后将隐含状态在顶层进行自注意力机制层的交互获得上下文特征；

S12、将编码后的实体和上下文特征进行拼接，得到实体-上下文表示。

可选地，步骤S12包括：

S121、通过映射函数对编码后的实体进行矩阵变换，使得编码后的实体的矩阵空间与上下文特征的矩阵空间维度对应一致；

S122、通过Attention模型生成编码后的实体与上下文特征的关联矩阵；

S123、根据关联矩阵，得到编码后的实体与上下文特征的初步交互后的回馈信息；

S124、基于编码后的实体与上下文特征的初步交互后的回馈信息，得到实体与上下文交互的信息；

S125、将实体与上下文交互的信息与上下文特征进行左右拼接，得到实体-上下文表示。

可选地，步骤S121中，经过连接层W _m∈R ^hm×hc的线性变换和tanh函数操作，hm和hc均为特征维度，满足以下关系：

式中，m _proj为映射函数，tanh为长短期记忆网络模型LSTM的内置函数，

为连接层，M为实体。

可选地，步骤S122中的关联矩阵满足以下公式：

A＝m _proj×W _a×C，A∈R ^1×lc

式中，A为关联矩阵，W _a为可习得矩阵，用于获取实体提及与上下文特征相关部分交互的回馈，C为上下文特征，lc为上下文标注的数量。

可选地，步骤S123中包括：

将关联矩阵标准化，满足以下公式：

式中，

为关联矩阵的标准化结果；

再基于关联矩阵的标准化结果和上下文特征得到编码后的实体与上下文特征的初步交互后的回馈信息，满足以下公式：

式中，r _c为编码后的实体与上下文特征的初步交互后的回馈信息。

可选地，步骤S124中实体与上下文交互的信息，满足以下公式：

r＝ρ(W _r[r _c；m _proj；r _c-m _proj])

g＝σ(W _g[r _c；m _proj；r _c-m _proj])

o＝g*r+(1-g)*m _proj

式中，r为实体上下文混合特征，g为高斯误差线性单元，o为为实体与上下文交互的信息，W _r为实体上下文混合特征对应的可学习矩阵，W _g为高斯误差线性单元对应的可学习矩阵。

可选地，图卷积神经网络模型的训练过程包括：

101、在双曲空间下，基于数据集中的标签，得到标签的共现信息；

102、将标签作为图卷积神经网络模型中图的结点，标签的共现信息作为边，获取标签关联矩阵；

103、将标签关联矩阵输入到预先训练的图卷积神经网络模型中，得到与标签对应的词级标签关系矩阵。

可选地，词级标签关系矩阵在图卷积神经网络模型中遵循以下传播规则：

式中，W' _O为词级标签关系矩阵，

为对角矩阵，

为标签关联矩阵经过操作的输出，A' _word为词级关联矩阵，W _O为随机初始化的参数矩阵，T为转换矩阵；

A' _word满足以下公式：

式中，A _word为词级标签关联矩阵。

可选地，基于双曲空间的标签文本互动机制模型的训练过程包括：

基于标签-文本注意力机制，将实体-上下文表示和标签关系矩阵输入基于双曲空间的标签文本互动机制模型，输出实体最终的标签分类结果，满足以下公式：

式中，p为实体最终的标签分类结果，σ为sigmoid标准化函数，f为矩阵拼接函数，N为标签数量，d _f为拼接后的矩阵维度。

本申请的有益效果是：

本申请的基于双曲空间表示和标签文本互动的细粒度实体识别方法，提出了一种基于双曲空间的标签文本交互机制，通过一个注意力模块来获取上下文和标签相关性，然后在标签关系生成过程中起到帮助。与此同时，利用细粒度实体识别任务中数据具有层次性的特性，在双曲空间这样天然契合的空间中加强这种层级关系，用庞加莱距离替代原有的余弦相似度方式进行计算，使得标签和文本的匹配效果更好。

附图说明

图1为本申请提供的基于双曲空间表示和标签文本互动的细粒度实体识别方法的流程图；

图2为本申请实施例1中的标签数据的层次结构示意图；

图3为本申请实施例1中双曲空间的结构图；

图4为本申请提供的模型框架的示意图；

图5为本申请实施例2中Ultra-Fine数据集和OntoNotes数据集的标签分布比例图；

图6为本申请实施例2中本申请中标签文本互动机制模型与对比实验中模型的精确率-召回率示意图。

具体实施方式

为了更好地解释本申请，以便于理解，下面结合附图，通过具体实施方式，对本申请作详细描述。

细粒度实体识别可以提供更加精细化、层次性、不同粒度的实体信息，更适应于实际复杂场景的应用。一般通过标签的层级关系来体现出实体的层次、粒度，如何通过建模的方法来表示更好的标签的层级关系是研究的重点。

在本申请的第一相关实施例中，提出通过给定的标签层次结构来设计hierarchy-aware loss的方法。在本申请的第二相关实施例中，提出将word与type在欧式空间进行联合表示的方法。这些方法都基于实体类型数据集事先预定义好标签类型结构。然而，知识库在实际应用场景中，无法包含所有类型在其中，比如预先设定好person/female/teacher，没有person/female/nurse形式，那么对于不在知识库的nurse类别则无法有效识别。因此，对于大量的未知未定义的新类型，基于这些知识库训练的模型很难有效去学习识别。在本申请的第三相关实施例中，提出在包含超过10,000未知类型的数据集的更加开放的场景中进行实体识别。在本申请的第四相关实施例中，提出引入一个图传播层，利用标签的共现信息生成标签的邻接矩阵来捕获深层次的潜在标签关系。但是单独考虑标签的共现信息，可能会因为忽略上下文语境而产生的一定的噪声影响结果。

细粒度命名实体识别经常随着语境不同产生不同的结果，同时又具有一定的逻辑规律性。如何根据文本语境的不同建立合乎语境逻辑、关系逻辑的表示，是关键挑战。比如在同一个语境下，一个实体如果是“法官”，那么同时是“被告人”的可能性很低，这符合我们的逻辑性，因为这两个身份跨度确实很大又在同一个语境中。但随着语境的不同，对于跨度不大的身份，简单的认为一个实体是“老师”的同时是“学生”的可能性很低就存在一定的问题。因为一个人在学校的时候是一名老师，在健身房的时候又是一名学员是可以成立的。因此逻辑性是建立在语境关系的基础上，当我们忽略上下文文本和标签的关系时，模型的效果是受到影响的。

在本申请的第五相关实施例中，提出一种基于欧式空间的联合嵌入学习的编码方法。然而，对于欧式空间来说不可能将任意的层次信息在嵌入的时候进行表示，对于具有层次信息的数据来说会造成信息丢失。在本申请的第六相关实施例中，提出双曲空间比欧式空间更适合层次信息的嵌入编码。因为在双曲空间中从源点中心到边缘的距离是指数型增长的，对于每层包含的类型数量也会随着层数增加呈指数增长，两者有天然的结构契合。在本申请的第七相关实施例中，提出双曲空间对于非常细粒度的数据的效果要比欧式空间更好。但是，细粒度实体任务不仅仅只有超精细粒度的实体也包含粗粒度的实体，仅仅是某一粒度的表现好是不够的。同时，在双曲空间中文本实体不具有层次结构，如何在双曲空间中和层次性的标签进行更好的匹配也是需要解决的问题。

基于上述，本申请实施例提出的基于双曲空间表示和标签文本互动的细粒度实体识别方法，提出了一种基于双曲空间的标签文本交互机制，通过一个注意力模块来获取上下文和标签相关性，然后在标签关系生成过程中起到帮助。与此同时，利用细粒度实体识别任务中数据具有层次性的特性，在双曲空间这样天然契合的空间中加强这种层级关系，用庞加莱距离替代原有的余弦相似度方式进行计算，使得标签和文本的匹配效果更好。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

实施例1

如图1所示，为本实施例提供的基于双曲空间表示和标签文本互动的细粒度实体识别方法的流程图，包括以下步骤：

S1、基于数据集中的实体和上下文，对实体和上下文进行交互，得到实体-上下文表示。

具体包括以下步骤：

S11、基于数据集中的实体和上下文，在学习模型上对实体和上下文进行编码：采用基于字符的卷积神经网络(Convolutional Neural Networks，CNN)模型对实体编码；采用Bi-LSTM模型对上下文编码，输出每一个时刻的隐含状态，然后将隐含状态在顶层进行自注意力机制层的交互获得上下文特征。

实体表示为M∈R ^hm，上下文特征表示为C∈R ^lc×hc，hm和hc均为特征维度，lc为上下文标注的数量。

进一步地，在步骤S12中具体包括：

S121、通过映射函数对编码后的实体进行矩阵变换，使得编码后的实体的矩阵空间与上下文特征的矩阵空间维度对应一致。具体地，经过连接层W _m∈R ^hm×hc的线性变换和tanh函数操作，满足以下关系：

式中，m _proj为映射函数，tanh为长短期记忆网络(Long Short-Term Memory，LSTM)模型的内置函数，

为连接层，M为实体。

S122、通过Attention模型生成编码后的实体与上下文特征的关联矩阵，满足以下公式：

A＝m _proj×W _a×C，A∈R ^1×lc (2)

式中，A为关联矩阵，W _a为可习得矩阵，用于获取实体提及与上下文特征相关部分交互的回馈，C为上下文特征。

S123、根据关联矩阵，得到编码后的实体与上下文特征的初步交互后的回馈信息。

其中，将关联矩阵标准化，满足以下公式：

式中，

为关联矩阵的标准化结果。

基于关联矩阵的标准化结果和上下文特征得到编码后的实体与上下文特征的初步交互后的回馈信息，满足以下公式：

S124、基于编码后的实体与上下文特征的初步交互后的回馈信息，得到实体与上下文交互的信息，满足以下公式：

r＝ρ(W _r[r _c；m _proj；r _c-m _proj]) (5)

g＝σ(W _g[r _c；m _proj；r _c-m _proj]) (6)

o＝g*r+(1-g)*m _proj (7)

式中，r为实体上下文混合特征，g为高斯误差线性单元，o为输出，即为实体与上下文交互的信息，W _r为实体上下文混合特征对应的可学习矩阵，W _g为高斯误差线性单元对应的可学习矩阵。

S125、将实体与上下文交互的信息与上下文特征进行左右拼接f[o；C]，得到实体-上下文表示。

S2、在双曲空间下，基于数据集中对实体进行标注的标签，结合预先训练的图卷积神经网络模型，得到与标签对应的词级标签关系矩阵。其中，预先训练的图卷积神经网络模型是基于训练集中的标签和对应的标签关联矩阵，进行训练得到的模型。

图卷积神经网络模型的训练过程包括：

在双曲空间下，基于数据集中的标签，得到标签的共现信息。具体地，将数据集中的标签的向量嵌入到双曲空间之中，根据余弦相似度计算邻点，生成相关性矩阵，作为共现信息的依据。

双曲结构是针对具有常负曲率的非欧空间的研究。在二维空间里，双曲空间可以被认为是一个开放的没有边界的圆盘，也就是所谓的庞加莱圆盘，其表达的圆盘是无穷大的。当一个点在双曲空间中趋近于无穷时，可以等同于庞加莱圆盘中趋近于无穷的一个点。推广到n维的情况，庞加莱圆盘的模型就会变成一个庞加莱球。在庞加莱球上，u、v两个点的距离满足以下公式：

式中，d _H(u,v)为庞加莱球上，u、v两个点的距离。

如果用源点O和空间中的两个点x ₁、x ₂来举例，那么当两个点x ₁、x ₂向庞加莱球边缘进行移动的时候，两个点之间的路径都收敛于源点O，可以看做是对树状层次结构的连续模拟，兄弟结点之间最短的路径一定经过他们的祖先。与此同时，越靠近空间边缘的点到源点O的距离是呈指数增长的。具有树状层次结构的细粒度标签同样随着深度的增加，标签数量呈指数增长。因此，在结构上双曲空间与层次性的数据具有天然的适应性。如图2所示，为标签数据的层次结构示意图。

如图3所示为双曲空间的结构图，通过在庞加莱球中嵌入层次结构，使得层次结构顶部的项被放置在原点附近，而底部的项被放置在无穷大附近。当使用向量相似度来表示类型关系时，可以提高准确性。在非常细粒度的数据集上，层次结构反映了带注释的类型分布，在这方面双曲空间优于欧几里德空间。

将标签作为图卷积神经网络模型中图的结点，标签的共现信息作为边，获取标签关联矩阵。

在细粒度实体识别任务中，实体类型通常表示为一个树状的结构。在图表示的模型中，图中的结点一般直接表示为实体类型，而结点之间的边是比较模糊的，并且哪些结点需要用边来连接也是未知的。需要通过一种类型共现矩阵(即标签关联矩阵)：这里有两个类型t ₁、t ₂两个都是关于实体的真实类型，如果两个类型之间有依赖关系，那么就通过边来连接两个结点。通过标签的共现信息来建立这样的共现矩阵作为共现关系图的邻接矩阵。

103、将标签关联矩阵输入到图卷积神经网络模型中，得到与标签对应的词级标签关系矩阵。在双曲空间中，这种成对的依赖关系可以由庞加莱距离来计算。为了编码这种邻点信息，本申请遵循图卷积神经网络的传播规则，具体地：

词级标签关系矩阵在图卷积神经网络模型中遵循以下传播规则：

式中，W' _O为词级标签关系矩阵，

为对角矩阵，

为标签关联矩阵经过操作的输出，A' _word为词级关联矩阵，W _O为随机初始化的参数矩阵，T为转换矩阵。

其中，

满足以下公式：

式中，A _L为标签关联矩阵，即邻接矩阵，I _N为特征矩阵用来添加自相关的边的信息。

A' _word满足以下公式：

式中，A _word为词级标签关联矩阵。

综合上述，通过词级标签关联矩阵获取词级标签关系矩阵。通过上述公式，可以看出对于实体的真实类型t _i的预测依赖于其最近的邻点。所以，本申请中采用1跳传播信息，忽略图卷积神经网络的非线性激活，因为会在标签的权重矩阵的尺度上引入不必要的约束。

S3、将实体-上下文表示和词级标签关系矩阵输入预先训练的基于双曲空间的标签文本互动机制模型，输出实体最终的标签分类结果。其中，预先训练的基于双曲空间的标签文本互动机制模型是基于训练集中实体-上下文表示、词级标签关系矩阵和对应的标签分类结果，进行训练得到的模型。

基于双曲空间的标签文本互动机制模型的训练过程包括：

式中，p为当前标签的概率，即实体最终的标签分类结果，σ为sigmoid标准化函数，f为矩阵拼接函数，N为标签数量，d _f为拼接后的矩阵维度。

进一步地，如图4所示，为本申请中模型框架的示意图，将实体和上下文进行编码后，基于Attention模型进行交互，得到实体-上下文表示；在双曲空间下，基于数据集中的标签，结图卷积神经网络模型，得到标签关系矩阵；基于实体-上下文表示和标签关系矩阵，并结合双曲空间的标签文本互动机制模型，得到实体最终的标签分类结果。

进一步地，与实体、上下文交互相似，标签、上下文交互同样基于一个注意层。将词级标签关系矩阵作为目标，上下文作为存储器，则可以利用Attention机制进行交互。

实施例2

本实施例中将本申请提供的基于双曲空间表示和标签文本互动的细粒度实体识别方法与其他模型进行对比实验。为遵循对比一致的原则，采用和基线模型一样的公开数据集进行实验。如表1所示，为实验的部分参数。

表1实验的部分参数

Learning rate	0.001
Batch size	1000
Position embedding size	50
Dropout on context C	0.3
Dropout on mention M	0.4
Hidden dimension of LSTM	100
Dropout on fused featuref(Ultra-Fine)	0.2
Dropout on fused featuref(OntoNotes)	0.3

主要的实验数据集为Ultra-Fine数据集，包含10331个标签并且大多数被定义为自由形式的未知的短语。训练集通过远程监督的方法进行注释，主要根据KB，Wikipedia和基于头字的关系依赖树来作为注释源，最终形成一个25.4M的训练样本，另外还包括大概6000个众包样本，平均每个样本都包含5个真实标签。

为了更好地体现实验的延展性、可迁移性，本实施例中还在常用的OntoNotes数据集上进行实验。与Ultra-Fine数据集不同，OntoNotes是一个数据量更小并且复杂度不高的一个数据集。主要为了体现我们模型的一种延展性：不仅对于含有大量超精细粒度实体与共现信息丰富的数据集有效，同时对于OntoNotes这样小体量的数据集有效。OntoNotes数据集平均每个样本大约只包含1.5个标签。

以上两个数据集既可以体现复杂的情景又能表明在相对简单的场景模型的性能。如图5所示，为Ultra-Fine数据集和OntoNotes数据集的标签分布比例图。

(一)Ultra-Fine数据集

对于Ultra-Fine数据集，本实施例中选取基线模型(AttentiveNER模型、MultiTask模型、LabelGCN模型和FREQ模型)进行对比。

如表2所示，为Ultra-Fine数据集上，本申请提供的模型与各个基线模型的比较结果和消融实验结果。

表2 Ultra-Fine数据集上本申请提供的模型与各个基线模型的比较结果和消融实验结果

注：P-精确率，R-召回率，F1-深度学习的评价指标。

由表2可知，本申请提供的模型结果几乎在各项评价指标上都取得了当前最好的效果，尤其是在召回率上。在决策阈值上，为了公平所有模型采取同样的0.5进行比较。与AttentiveNER模型相比，本申请的模型F1值有明显提高，但准确率略低，这是因为二分类交叉熵(BCE)作为模型训练的损失函数的时候往往更容易预测到相关性最高的那一个，但是对于其它的不那么敏感导致，导致准确率高但是召回率低的问题。本申请的模型在二者的平衡上与性能上要优于它。与MultiTask模型相比，本申请的模型全部评价指标都优于前者。与LabelGCN模型相比，这个任务和我们的方法比较类似使用了GCN来进行标签关系的捕获，但是本质的区别在于我们不仅考虑了标签本身的相互关系，还加入了文本的上下文信息与标签进行一个交互机制提高性能并且引入了双曲空间增强标签之间的关系表示。因此，我们同样在性能表现上更好并且因为有了文本信息的加入，召回率提升很明显。与FREQ模型相比，本申请的模型采用了双曲空间来加强标签关系的表示。但是FREQ任务主要是提高了超精细粒度实体的准确率，对于粗细粒度与细粒度的实体提升并不明显导致整体效果不好。就像该模型作者在文中所说，双曲空间比欧式空间更适合复杂性的数据任务，对于粗粒度的反而效果不好。我们的模型虽然使用了双曲空间作为嵌入，但是同时也保留了欧式空间的嵌入信息，所以整体性能上取得了不错的效果。

通过消融实验可知：没有标签文本互动模块的条件下，与最好的效果相差了0.9％；没有双曲空间模块的条件下，与最好的效果相差0.5％。由此，可以分析出对于实验效果提升最明显的是标签文本交互模块，这也符合我们实现对于模型设计的初衷。确实引入文本信息来和标签进行关系建立，提升标签的关系表示可以取得更好的效果。双曲空间虽然单独使用提升效果并不明显，但对最终的效果仍然有帮助。最后，在标签文本交互和双曲空间共同作用下模型取得了最好的效果，一方面说明标签关系建立过程中文本信息起了很大的作用，另一方面也说明将标签文本交互来获得关系表示引入到双曲空间中可以再次提升效果。

进一步地，如图6所示为模型的精确率-召回率示意图，采用和LabelGCN模型一致的实验设定和评测方式，用于评价模型的整体性能。从图6可知，本申请提供的模型(用Ours表示)在平衡点上的效果是最好的。

如表3所示，为本申请模型与LabelGCN模型的评价对比。

表3本申请模型与LabelGCN模型的评价对比

	Mi-P	Mi-R	Mi-F	Ma-F
LabelGCN	50.2	25.3	33.7	36.6
Ours	46.2	28.1	34.9	37.8(↑1.2)

(二)OntoNotes数据集

对于OntoNotes数据集，本实施例中选取基线模型(AttentiveNER模型、AFET模型、LNR模型、NFETC模型、MultiTask模型和LabelGCN模型)进行对比。

如表4所示，为OntoNotes数据集上，本申请提供的模型与各个基线模型的比较结果。

表4OntoNotes数据集上本申请提供的模型与各个基线模型的比较结果

Model	Accuracy	Macro-F1	Micro-F1
AttentiveNER	51.7	71.0	64.9
AFET	55.1	71.1	64.7

LNR	57.2	71.5	66.1
NFETC	60.2	76.4	70.2
MultiTask	59.5	76.8	71.8
LabelGCN	59.6	77.8	72.2
OurModel	60.5	79.0	72.7

注：Accuracy-准确率，Macro-F1-宏平均F1值，Micro-F1-微平均F1值。

由表4可知，本申请的模型在各项评价指标中均高于其他模型。在OntoNotes数据集同样采用和LabelGCN模型一致的实验设定和评测标准。因为加入了标签文本互动信息，在标签本身共现信息不丰富的情境下还可以依据上下文来建立标签关系，所以在性能上还是获得了提升。同时，准确率也取得了最好的效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本申请的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种修改和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也应该包含这些修改和变型在内。

Claims

一种基于双曲空间表示和标签文本互动的细粒度实体识别方法，其特征在于，包括以下步骤：

S1、基于数据集中的实体和上下文，对实体和上下文进行交互，得到实体-上下文表示；

S2、在双曲空间下，基于数据集中对实体进行标注的标签，结合预先训练的图卷积神经网络模型，得到与标签对应的词级标签关系矩阵；

预先训练的图卷积神经网络模型是基于训练集中的标签和对应的标签关联矩阵，进行训练得到的模型；

S3、将实体-上下文表示和词级标签关系矩阵输入预先训练的基于双曲空间的标签文本互动机制模型，输出实体最终的标签分类结果；

预先训练的基于双曲空间的标签文本互动机制模型是基于训练集中实体-上下文表示、词级标签关系矩阵和对应的标签分类结果，进行训练得到的模型。
如权利要求1所述的细粒度实体识别方法，其特征在于，步骤S1包括：

S11、基于数据集中的实体和上下文，在学习模型上对实体和上下文进行编码；

采用基于字符的卷积神经网络模型对实体编码；采用Bi-LSTM模型对上下文编码，输出每一个时刻的隐含状态，然后将隐含状态在顶层进行自注意力机制层的交互获得上下文特征；

S12、将编码后的实体和上下文特征进行拼接，得到实体-上下文表示。
如权利要求2所述的细粒度实体识别方法，其特征在于，步骤S12包括：

S121、通过映射函数对编码后的实体进行矩阵变换，使得编码后的实体的矩阵空间与上下文特征的矩阵空间维度对应一致；

S122、通过Attention模型生成编码后的实体与上下文特征的关联矩阵；

S123、根据关联矩阵，得到编码后的实体与上下文特征的初步交互后的回馈信息；

S124、基于编码后的实体与上下文特征的初步交互后的回馈信息，得到实体与上下文交互的信息；

S125、将实体与上下文交互的信息与上下文特征进行左右拼接，得到实体-上下文表示。
如权利要求3所述的细粒度实体识别方法，其特征在于，步骤S121中，经过连接层W _m∈R ^hm×hc的线性变换和tanh函数操作，hm和hc均为特征维度，满足以下关系：

式中，m _proj为映射函数，tanh为长短期记忆网络模型LSTM的内置函数，
为连接层，M为实体。
如权利要求4所述的细粒度实体识别方法，其特征在于，步骤S122中的关联矩阵满足以下公式：

A＝m _proj×W _a×C，A∈R ^1×lc

式中，A为关联矩阵，W _a为可习得矩阵，用于获取实体提及与上下文特征相关部分交互的回馈，C为上下文特征，lc为上下文标注的数量。
如权利要求5所述的细粒度实体识别方法，其特征在于，步骤S123中包括：

将关联矩阵标准化，满足以下公式：

式中，
为关联矩阵的标准化结果；

再基于关联矩阵的标准化结果和上下文特征得到编码后的实体与上下文特征的初步交互后的回馈信息，满足以下公式：

式中，r _c为编码后的实体与上下文特征的初步交互后的回馈信息。
如权利要求6所述的细粒度实体识别方法，其特征在于，步骤S124中实体与上下文交互的信息，满足以下公式：

r＝ρ(W _r[r _c；m _proj；r _c-m _proj])

g＝σ(W _g[r _c；m _proj；r _c-m _proj])

o＝g*r+(1-g)*m _proj

式中，r为实体上下文混合特征，g为高斯误差线性单元，o为实体与上下文交互的信息，W _r为实体上下文混合特征对应的可学习矩阵，W _g为高斯误差线性单元对应的可学习矩阵。
如权利要求7所述的细粒度实体识别方法，其特征在于，图卷积神经网络模型的训练过程包括：

101、在双曲空间下，基于数据集中的标签，得到标签的共现信息；

102、将标签作为图卷积神经网络模型中图的结点，标签的共现信息作为边，获取标签关联矩阵；

103、将标签关联矩阵输入到预先训练的图卷积神经网络模型中，得到与标签对应的词级标签关系矩阵。
如权利要求8所述的细粒度实体识别方法，其特征在于，词级标签关系矩阵在图卷积神经网络模型中遵循以下传播规则：

式中，W' _O为词级标签关系矩阵，
为对角矩阵，
为标签关联矩阵经过操作的输出，A' _word为词级关联矩阵，W _O为随机初始化的参数矩阵，T为转换矩阵；

A' _word满足以下公式：

式中，A _word为词级标签关联矩阵。
如权利要求9所述的细粒度实体识别方法，其特征在于，基于双曲空间的标签文本互动机制模型的训练过程包括：

基于标签-文本注意力机制，将实体-上下文表示和词级标签关系矩阵输入基于双曲空间的标签文本互动机制模型，输出实体最终的标签分类结果，满足以下公式：

式中，p为实体最终的标签分类结果，σ为sigmoid标准化函数，f为矩阵拼接函数，N为标签数量，d _f为拼接后的矩阵维度。