WO2023060633A1

WO2023060633A1 - 增强语义的关系抽取方法、装置、计算机设备及存储介质

Info

Publication number: WO2023060633A1
Application number: PCT/CN2021/124642
Authority: WO
Inventors: 陈永红; 张日; 张军涛
Original assignee: 深圳前海环融联易信息科技服务有限公司
Priority date: 2021-10-12
Filing date: 2021-10-19
Publication date: 2023-04-20
Also published as: CN113626608B; CN113626608A

Abstract

一种增强语义的关系抽取方法、装置、计算机设备及存储介质。该方法包括：将句子的原向量矩阵输入transformer模型的最底层中进行词性分类，输出包含有词性信息的第一向量矩阵（S101）；将第一向量矩阵输入transformer模型的中间层进行实体分类，输出包含有实体类别信息的第二向量矩阵（S102）；将第二向量矩阵输入transformer模型的最高层进行依存关系解析，输出包含有句子结构信息和词语间依存关系的第三向量矩阵（S103）。上述方法在transformer模型的不同阶段加入了不同的学习任务，使得transformer模型的输出蕴含了词性信息、实体类别信息、句子结构信息和词语间依存关系，具有在关系抽取任务上取得的效果更好的优点。

Description

增强语义的关系抽取方法、装置、计算机设备及存储介质

本申请是以申请号为202111188258.5、申请日为2021年10月12日的中国专利申请为基础，并主张其优先权，该申请的全部内容在此作为整体引入本申请中。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种增强语义的关系抽取方法、装置、计算机设备及存储介质。

背景技术

在关系抽取任务中，现有的方法大多都是直接使用实体对的embedding(用一个低维的向量表示一个物体)信息结合句子的embedding信息做分类，这些embedding信息非常有限，忽略了实体对本身的所属类型信息、句子的词性信息以及依存关系树的结构信息，这些信息对于实体对的关系指向有着很重要的作用，但仅仅依靠模型很难学习到。

申请内容

本申请的目的是提供一种增强语义的关系抽取方法、装置、计算机设备及存储介质，旨在解决现有关系抽取任务中的参数学习不足，导致关系抽取的效果还有待提高的问题。

为解决上述技术问题，本申请的目的是通过以下技术方案实现的：提供一种增强语义的关系抽取方法，其包括：

将句子的原向量矩阵输入transformer模型的最底层中进行词性分类，输出包含有词性信息的第一向量矩阵；

将所述第一向量矩阵输入transformer模型的中间层进行实体分类，输出包含有实体类别信息的第二向量矩阵；

将所述第二向量矩阵输入transformer模型的最高层进行依存关系解析，输出包含有句子结构信息和词语间依存关系的第三向量矩阵；

将所述第三向量矩阵中的词向量和该词向量对应在所述原向量矩阵中的词位置向量进行拼接，对拼接后的向量进行卷积并输出句子的关系预测值。

另外，本申请要解决的技术问题是还在于提供一种增强语义的关系抽取装置，其特征在于，包括：

词性分类单元，用于将句子的原向量矩阵输入transformer模型的最底层中进行词性分类，输出包含有词性信息的第一向量矩阵；

实体分类单元，用于将所述第一向量矩阵输入transformer模型的中间层进行实体分类，输出包含有实体类别信息的第二向量矩阵；

依存关系解析单元，用于将所述第二向量矩阵输入transformer模型的最高层进行依存关系解析，输出包含有句子结构信息和词语间依存关系的第三向量矩阵；

卷积单元，用于将所述第三向量矩阵中的词向量和该词向量对应在所述原向量矩阵中的词位置向量进行拼接，对拼接后的向量进行卷积并输出句子的关系预测值。

另外，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的增强语义的关系抽取方法。

另外，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的增强语义的关系抽取方法。

本申请实施例公开了一种增强语义的关系抽取方法、装置、计算机设备及存储介质。该方法包括：将句子的原向量矩阵输入transformer模型的最底层中进行词性分类，输出包含有词性信息的第一向量矩阵；将第一向量矩阵输入transformer模型的中间层进行实体分类，输出包含有实体类别信息的第二向量矩阵；将第二向量矩阵输入transformer模型的最高层进行依存关系解析，输出包含有句子结构信息和词语间依存关系的第三向量矩阵。本申请实施例在transformer模型的不同阶段加入了不同的学习任务，使得transformer模型的输出蕴含了词性信息、实体类别信息、句子结构信息和词语间依存关系，具有在关系抽取任务上取得的效果更好的优点。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的增强语义的关系抽取的流程示意图；

图2为本申请实施例提供的增强语义的关系抽取的子流程示意图；

图3为本申请实施例提供的增强语义的关系抽取的又一子流程示意图；

图4为本申请实施例提供的增强语义的关系抽取的又一子流程示意图；

图5为本申请实施例提供的增强语义的关系装置的示意性框图；

图6为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的增强语义的关系抽取方法的流程示意图；

如图1所示，该方法包括步骤S101～S104。

S101、将句子的原向量矩阵输入transformer模型的最底层中进行词性分类，输出包含有词性信息的第一向量矩阵。

该步骤中，在transformer模型的最底层学习句子的词性信息，专注于句子最细粒度结构信息的学习，能有效提高transformer模型对全局信息的抽取。

S102、将所述第一向量矩阵输入transformer模型的中间层进行实体分类，输出包含有实体类别信息的第二向量矩阵。

该步骤中，在transformer模型的中间层学习句子中实体的类别信息，实体的类别信息对于解析出实体关系有着很大的促进作用。

S103、将所述第二向量矩阵输入transformer模型的最高层进行依存关系解析，输出包含有句子结构信息和词语间依存关系的第三向量矩阵。

该步骤中，在transformer模型的最高层学习句子的结构信息以及词语间的依存关系，还能帮助句子对无关信息做进一步的过滤，获取更精准的上下文信息。

S104、将所述第三向量矩阵中的词向量和该词向量对应在所述原向量矩阵中的词位置向量进行拼接，对拼接后的向量进行卷积并输出句子的关系预测值。

该步骤中采用CNN卷积神经网络对经过不同层学习后的句子的向量做卷积，实现局部和全局相结合，能更好的提取实体间的关系。

本实施例在transformer模型的不同阶段加入了不同的学习任务，使得transformer模型的输出蕴含了词性信息、实体类别信息、句子结构信息和词语间依存关系，具有在关系抽取任务上取得的效果更好的优点。

在一实施例中，如图2所示，所述步骤S101包括：

S201、根据所述句子的原向量矩阵对句子进行分词得到每个词语的词性向量信息；

S202、对每个词语进行词性分类得到每个词语的词性类别信息；

S203、根据所述每个词语的词性向量信息和每个词语的词性类别信息得到包含有词性信息的第一向量矩阵。

本实施例中，句子中每个词语都有词性，比如名词、动词、形容词、副词等，词语之间的词性也有着相互影响的关系，如名词前面一般接形容词、动词前面一般是副词等等；在transformer模型的最底层中，对句子进行分词后，输出每个词语的词性向量信息，同时根据预先设置的多分类任务对每个词语进行词性分类，给每个词语打上词性的标签，举例来说，如句子：people have travelled into space,but not the deep ocean；词语{people，travelled，space}的标签为{NNS，VBN，NNP}；最终得到包含有词性信息的第一向量矩阵并作为后续transformer模型的中间层的输入。

具体的，所述步骤S202中预测每个词语的词性类别的计算公式为：

其中，

为第i个词性类别，

为第i个词语为第i个词性类别的概率，W _pos和b _pos为线性分类器的参数，Z _i为原向量矩阵中第i个词语的词性向量信息。

将Z _i、W _pos和b _pos的带入上述公式，计算并得到第i个词语为各种词性类别的概率，选取最高概率值对应的词性类别作为第i个词语的词性类别。

在一实施例中，所述步骤S102包括：

根据所述第一向量矩阵对句子进行实体抽取并得到多个实体对；

按如下公式计算实体对的实体类别：

其中，

为第i个实体类别，

为第i个实体对为第i个实体类别的概率，W _ent和b _ent为线性分类器的参数，Z′ _i为第一向量矩阵中第i个实体对的向量信息；

根据所述实体对的实体类别得到包含实体类别信息的第二向量矩阵。

本实施例在transformer模型的中间层中，经过该层多头的self-attention(自注意力机制)，将句子中两个实体单独抽出来做一个实体分类，判断其是否是人名、地名、机构名或者其他实体类别。以前述句子：people have travelled into space,but not the deep ocean为例；实体对{people，space}的实体类型为{Group，Location}；具体的判断方式按上述实体对的实体类别的计算公式，将Z′ _i、W _ent和b _ent带入该计算公式，计算并得到第i个词语为各种实体类别的概率，选取最高概率值对应的实体类别作为第i个词语的实体类别。最终得到包含有实体类别信息的第二向量矩阵并作为后续transformer模型的最高层的输入。

在一实施例中，如图3所示，所述步骤S103包括：

S301、根据所述第二向量矩阵对句子结构进行解析，得到每个词语对应的语法关系；

S302、根据所述第二向量矩阵对词语间的依存关系进行解析，得到词语间的最小依存路径；

S303、根据所述每个词语对应的语法关系和词语间的最小依存路径，得到包含有句子结构信息和词语间依存关系的第三向量矩阵。

本实施例中，在transformer模型的最高层中，使用Bi-affine方法(双仿射注意力机制)学习对句子的依存关系树进行学习，使transformer模型能很好的学习到句子的结构信息以及词语间的依存关系，以前述句子：people have travelled into space,but not the deep ocean为例，两个实体间的最小依存路径为{people←travelled→into→space}，获取了更多相关的信息，而后半句“but not the deep ocean”，则对于关系的解析帮助较小。由此可见，关系依存树的建立能帮助句子对无关信息做进一步的过滤，获取更精准的上下文信息。

所述步骤S301中每个词语对应的语法关系的计算公式为：

其中，

为第i个语法关系，

为第i个词语为第i个语法关系的概率，W _par和b _par为线性分类器的参数，Z″ _i为第二向量矩阵中第i个词语的向量信息，

为Z″ _i经过Bi-affine操作后的向量信息。

将Z″ _i、W _par和b _par带入上述语法关系的计算公式，计算并得到第i个词语为各种语法关系的概率，选取最高概率值对应的语法关系作为第i个词语的语法关系。

所述步骤S302中，按如下公式计算所述第二向量矩阵中每个词语的依存路径中的父节点：

其中，

为第i个父节点，

为第i个词语为第i个父节点的概率，B _GR和W _GR和为线性分类器的参数，Z″′ _i为第三向量矩阵中第i个词语的向量信息，

为Z″′ _i经过Bi-affine操作后的向量信息。

将Z″′ _i、

b _GR和W _GR带入上述计算公式，计算并得到第i个词语的依存路径中的各个父节点的概率，选取最高概率值对应的父节点作为第i个词语的父节点。最终得到包含有句子结构信息和词语间依存关系的第三向量矩阵作为transformer模型的最终输出。

transformer模型的每一层的结构都是由多头self-attention(自注意机制)组成，self-attention在学习词语之间的权重时与词间距离无关，每一个词语都能获取到句子全局的信息。

在一实施例中，如图4所示，所述步骤S104包括：

S401、将所述第三向量矩阵中的词向量和该词向量对应在所述原向量矩阵中的词位置向量进行拼接；

S402、对拼接后的向量进行卷积操作后输入最大值池化层进行池化；

S403、将池化后的向量输入softmax函数，输出句子的关系预测值。

本实施例中，按如下公式将所述第三向量矩阵中的词向量和该词向量对应在所述原向量矩阵中的词位置向量进行拼接：

其中，

为第i个词向量的和其对应词位置向量的拼接向量，

为第三向量矩阵中第i词语的词向量，

表示原向量矩阵中第i个词语的词位置向量，⊕表示对两个向量进行拼接，

为整个句子的拼接向量，len为句子的长度。

拼接后的向量增加句子的空间位置信息，对拼接后的向量进行CNN卷积，CNN卷积操作使用卷积核对滑动窗口内的信息进行融合，即只对相邻词语的信息做聚合，局部和全局相结合，能更好的提取实体间的关系；卷积操作后输入最大值池化层进行池化，将池化后的向量输入softmax函数，输出句子的关系预测值。

本申请实施例还提供一种增强语义的关系抽取装置，该增强语义的关系抽取装置用于执行前述增强语义的关系抽取法的任一实施例。具体地，请参阅图5，图5是本申请实施例提供的增强语义的关系抽取装置的示意性框图。

如图5所示，增强语义的关系抽取装置500，包括：词性分类单元501、实体分类单元502、依存关系解析单元503以及卷积单元504。

词性分类单元501，用于将句子的原向量矩阵输入transformer模型的最底层中进行词性分类，输出包含有词性信息的第一向量矩阵；

实体分类单元502，用于将所述第一向量矩阵输入transformer模型的中间层进行实体分类，输出包含有实体类别信息的第二向量矩阵；

依存关系解析单元503，用于将所述第二向量矩阵输入transformer模型的最高层进行依存关系解析，输出包含有句子结构信息和词语间依存关系的第三向量矩阵；

卷积单元504，用于将所述第三向量矩阵中的词向量和该词向量对应在所述原向量矩阵中的词位置向量进行拼接，对拼接后的向量进行卷积并输出句子的关系预测值。

该装置在transformer模型的不同阶段加入了不同的学习任务，使得 transformer模型的输出蕴含了词性信息、实体类别信息句子结构信息和词语间依存关系，具有在关系抽取任务上取得的效果更好的优点。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述增强语义的关系抽取装置可以实现为计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本申请实施例提供的计算机设备的示意性框图。该计算机设备600是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图6，该计算机设备600包括通过系统总线601连接的处理器602、存储器和网络接口605，其中，存储器可以包括非易失性存储介质603和内存储器604。

该非易失性存储介质603可存储操作系统6031和计算机程序6032。该计算机程序6032被执行时，可使得处理器602执行增强语义的关系抽取方法。

该处理器602用于提供计算和控制能力，支撑整个计算机设备600的运行。

该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境，该计算机程序6032被处理器602执行时，可使得处理器602执行增强语义的关系抽取方法。

该网络接口605用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备600的限定，具体的计算机设备600可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域技术人员可以理解，图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图6所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器602可以是中央处理单元(Central Processing Unit，CPU)，该处理器602还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例的增强语义的关系抽取方法。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种增强语义的关系抽取方法，其特征在于，包括：

将句子的原向量矩阵输入transformer模型的最底层中进行词性分类，输出包含有词性信息的第一向量矩阵；

将所述第一向量矩阵输入transformer模型的中间层进行实体分类，输出包含有实体类别信息的第二向量矩阵；

将所述第二向量矩阵输入transformer模型的最高层进行依存关系解析，输出包含有句子结构信息和词语间依存关系的第三向量矩阵；

将所述第三向量矩阵中的词向量和该词向量对应在所述原向量矩阵中的词位置向量进行拼接，对拼接后的向量进行卷积并输出句子的关系预测值。
根据权利要求1所述的增强语义的关系抽取方法，其特征在于，所述将句子的原向量矩阵输入transformer模型的最底层中进行词性分类，输出包含有词性信息的第一向量矩阵，包括：

根据所述句子的原向量矩阵对句子进行分词得到每个词语的词性向量信息；

对每个词语进行词性分类得到每个词语的词性类别信息；

根据所述每个词语的词性向量信息和每个词语的词性类别信息得到包含有词性信息的第一向量矩阵。
根据权利要求2所述的增强语义的关系抽取方法，其特征在于，所述对每个词语进行词性分类得到每个词语的词性类别信息，包括：

按如下公式预测每个词语的词性类别：

其中，
为第i个词性类别，
为第i个词语为第i个词性类别的概率，W _pos和b _pos为线性分类器的参数，Z _i为原向量矩阵中第i个词语的词性向量信息。
根据权利要求1所述的增强语义的关系抽取方法，其特征在于，所述将所述第一向量矩阵输入transformer模型的中间层进行实体分类，输出包含有实体类别信息的第二向量矩阵，包括：

根据所述第一向量矩阵对句子进行实体抽取并得到多个实体对；

按如下公式计算每一实体对的实体类别：

其中，
为第i个实体类别，
为第i个实体对为第i个实体类别的概率，W _ent和b _ent为线性分类器的参数，Z′ _i为第一向量矩阵中第i个实体对的向量信息；

根据所述实体对的实体类别得到包含实体类别信息的第二向量矩阵。
根据权利要求1所述的增强语义的关系抽取方法，其特征在于，所述将所述第二向量矩阵输入transformer模型的最高层进行依存关系解析，输出包含有句子结构信息和词语间依存关系的第三向量矩阵，包括：

根据所述第二向量矩阵对句子结构进行解析，得到每个词语对应的语法关系；

根据所述第二向量矩阵对词语间的依存关系进行解析，得到词语间的最小依存路径；

根据所述每个词语对应的语法关系和词语间的最小依存路径，得到包含有句子结构信息和词语间依存关系的第三向量矩阵。
根据权利要求5所述的增强语义的关系抽取方法，其特征在于，所述根据所述第二向量矩阵对句子结构进行解析，得到每个词语对应的语法关系，包括：

按如下公式计算所述第二向量矩阵中每个词语的语法关系：

其中，
为第i个语法关系，
为第i个词语为第i个语法关系的概率，W _par和b _par为线性分类器的参数，Z″ _i为第二向量矩阵中第i个词语的向量信息，
为Z″ _i经过Bi-affine操作后的向量信息；

按如下公式计算所述第二向量矩阵中每个词语的依存路径中的父节点：

其中，
为第i个父节点，
为第i个词语为第i个父节点的概率，b _GR和W _GR和为线性分类器的参数，Z″′ _i为第三向量矩阵中第i个词语的向量信息，
为Z″′ _i经过Bi-affine操作后的向量信息。
根据权利要求1所述的增强语义的关系抽取方法，其特征在于，所述将所述第三向量矩阵中的词向量和该词向量对应在所述原向量矩阵中的词位置向量进行拼接，对拼接后的向量进行卷积并输出句子的关系预测值，包括：

将所述第三向量矩阵中的词向量和该词向量对应在所述原向量矩阵中的词位置向量进行拼接；

对拼接后的向量进行卷积操作后输入最大值池化层进行池化；

将池化后的向量输入softmax函数，输出句子的关系预测值。
一种增强语义的关系抽取装置，其特征在于，包括：

词性分类单元，用于将句子的原向量矩阵输入transformer模型的最底层中进行词性分类，输出包含有词性信息的第一向量矩阵；

实体分类单元，用于将所述第一向量矩阵输入transformer模型的中间层进行实体分类，输出包含有实体类别信息的第二向量矩阵；

依存关系解析单元，用于将所述第二向量矩阵输入transformer模型的最高层进行依存关系解析，输出包含有句子结构信息和词语间依存关系的第三向量矩阵；

卷积单元，用于将所述第三向量矩阵中的词向量和该词向量对应在所述原向量矩阵中的词位置向量进行拼接，对拼接后的向量进行卷积并输出句子的关系预测值。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的增强语义的关系抽取的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的增强语义的关系抽取的方法。