WO2022057669A1

WO2022057669A1 - 基于结构化上下文信息的知识图谱预训练方法

Info

Publication number: WO2022057669A1
Application number: PCT/CN2021/116769
Authority: WO
Inventors: 陈华钧; 叶橄强; 张文
Original assignee: 浙江大学
Priority date: 2020-09-16
Filing date: 2021-09-06
Publication date: 2022-03-24
Also published as: CN112100404A; US20240177047A1; CN112100404B

Abstract

本发明公开了一种基于结构化上下文信息的知识图谱预训练方法，包括：针对目标三元组，构建由上下文三元组组成的实例，采用三元组整合模块对实例的每个上下文三元组进行编码，得到整合向量；将针对实例的所有上下文三元组的整合向量组成上下文向量序列，采用结构化信息模块对上下文向量序列进行编码得到三元组的结构表示向量；采用通用任务模块对三元组的结构表示向量进行计算，得到三元组的标签预测值，基于三元组的标签预测值与标签真值的交叉熵损失来更新三元组的结构表示向量，直到训练结束为止，得到目标三元组的优化后结构表示向量。该方法获得的三元组的结构表示向量结合了上下文信息。

Description

基于结构化上下文信息的知识图谱预训练方法

技术领域

本发明属于数据存储与处理技术领域，具体涉及一种基于结构化上下文信息的知识图谱预训练方法。

背景技术

知识图谱(Knowledge Graph)可以看作是有向标记图，而图中的事实以(头实体、关系、尾实体)的形式表示为三元组，按照英文首字母简写为(h,r,t)。近年来，知识图谱在构建和应用方面都得到了迅速的发展，在语义搜索、信息抽取和问答等人工智能领域有着广泛的应用前景。

由于知识图谱中的图结构包含了大量有价值的信息，因此对于各种知识图谱任务，如实体类型化、链接预测、实体对齐等，提取深层的结构信息至关重要。表示学习方法将实体和关系嵌入到连续向量空间中，能自动提取结构特征，并通过代数运算推导出新的三元组，该方法由TransE模型首先提出，有效简化了知识图谱中的数学运算。之后，TransH模型提出一个实体在不同关系下有不同的表示，以克服多关系问题的局限性；TransR模型引入了关系专用空间来解决多关系问题。TransD模型将投影矩阵分解为两个向量的乘积，进一步提升了知识图谱各项任务的效果。

针对实体分类、实体对齐、链接预测和推荐等多种不同的知识图谱特定任务，之前的研究中提出了不同的表示学习方法，以适应不同的知识图谱训练任务。

在自然语言处理领域，Bert等预训练语言模型在多种自然语言处理下游任务中都取得了显著的改进。预训练语言模型与知识图谱表示学习模型的主要区别在于以下两点：一是语言表示为序列数据，以词上下文为关键信息检测词和句子的语义，而知识图谱表示为结构化图数据。二是预训练语言模型的下游任务的输入可以统一为两个句子，而知识图谱的输入是三元组。因此，适应不同任务的训练前知识图表示学习模型面临的主要挑战是：(1)无论具体的知识图谱下游任务如何，预训练模型都应该能够自动捕获给定三元组的深层结构上下文信息；(2)实体和关系的表示需要根据不同的下游任务，以及下游任务输入数据的不同结构特征进行不同方式的训练，以提高其鲁棒性。

知识图谱与预训练语言模型的结合越来越受到研究者的关注。K-Bert模型将知识图谱中的知识注入句子中，生成知识丰富的语言表示。KG-Bert模型使用预训练的语言模型来补全知识图谱，ERNIE模型将知识模块中的实体表示集成到语义模块中，以增强文本表示能力。KEPLER在实体的文本表示向量中，融入了知识图谱的结构信息。KnowBert模型提出了知识增强表示模方法，将句子中的实体和知识图谱中的实体对齐，融合两者的向量表示来提升预测任务的效果。

发明内容

本发明的目的就是提供一种基于结构化上下文信息的知识图谱预训练方法，该知识图谱预训练方法获得的三元组的结构表示向量结合了上下文信息，且只需要在预训练阶段训练一次，即可在微调阶段在多种知识图谱下游任务中，更快速地完成训练，并取得更好的实验效果。

为实现上述发明目的，本发明提供以下技术方案：

一种基于结构化上下文信息的知识图谱预训练方法，采用包含三元组整合模块、结构化信息模块以及通用任务模块的预训练模型对知识图谱中的三元组进行训练，具体训练过程包括：

针对目标三元组，构建由上下文三元组组成的实例，采用三元组整合模块对实例的每个上下文三元组进行编码，得到整合向量；

将针对实例的所有上下文三元组的整合向量组成上下文向量序列，采用结构化信息模块对上下文向量序列进行编码得到三元组的结构表示向量；

采用通用任务模块对三元组的结构表示向量进行计算，得到三元组的标签预测值，基于三元组的标签预测值与标签真值的交叉熵损失来更新三元组整合模块参数、结构化信息模块参数、通用任务模块参数以及三元组的结构表示向量，直到训练结束为止，得到目标三元组的优化后结构表示向量。

优选地，所述三元组整合模块采用Transformer模型，为上下文三元组分配一个三元组标记[TRI]，三元组标记表示k _[TRI]与上下文三元组的头实体表示h′、尾实体表示r′、关系表示t′组成表示序列<k _[TRI],h′,r′,t′>作为三元组整合模块的输入，经三元组整合模块计算，将三元组标记k _[TRI]对应的输出为整合向量。

优选地，所述结构化信息模块采用Transformer模型，上下文向量序列表示为<seq _h,seq _r,seq _t>，其中，seq _h,seq _r,seq _t分别是头实体h,关系r,尾实体t的上下文三元组的序列，具体形式为：

其中，

表示头实体h的第i个整合向量，类似地，

表示关系r的第i个整合向量，

表示尾实体t的第i个整合向量。

为seq _h,seq _r,seq _t分配一个头实体标记[HEA]、关系标记[REL]、尾实体标记[TAI]，该seq _h,seq _r,seq _t与头实体标记向量k _[HEA]、关系标记向量k _[REL]、尾实体标记向量k _[TAI]组成序列<k _[HEA],seq _h,k _[REL],seq _r,k _[TAI],seq _t>作为结构化信息模块的输入。

优选地，为每个上下文三元组的整合向量添加所属的段表示类型，即：

其中，s _h表示头实体的段向量，类似地，s _r表示关系的段向量，s _t表示尾实体的段向量；

则添加有段表示类型的上下文三元组的序列

表示为：

则输入结构化信息模块的序列为：

优选地，所述通用任务模块包括至少1个全连接层和softmax层，利用全连接层对输入序列进行全连接结算，获得目标三元组的深层上下文信息，利用softmax层计算深层上下文信息的标签预测值。

其中，目标三元组的实例包括正实例和负实例，且保证正实例和负实例数量相同，构建方法为：基于目标三元组的上下文三元组序列构造正实例，通过替换目标三元组的头实体、关系或尾实体得到了新三元组，利用新三元组的上下文三元组序列构造负实例，目标三元组的标签真值为1，新三元组的标签真值为0。

优选地，限定目标三元组的实例大小固定为n，即每个实例包含n个上下文三元组，在构建时，若上下文三元组的数目大于n，则从上下文三元组中随机抽取n个上下文三元组组成实例，否则在所有上下文三元组后直接填充零以补足到n个。

当针对特定任务训练时，将三元组的优化后结构表示向量作为特定任务模块的输入，利用三元组的优化后结构表示向量对特定任务模块进行参数微调。

与现有技术相比，本发明具有的有益效果至少包括：

本发明能够利用结构上下文三元组对深度图结构进行自动编码，动态地获取实体和关系的结构信息；同时针对多种知识图谱下游任务都有较好的实验效果；再者经过一次预训练后，能够快速达到多种知识图谱下游任务较好的试验指标。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的预训练模型的结构示意图；

图2是实施例提供的三元组整合模块的结构示意图；

图3是实施例提供的结构化信息模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

实施例提供的基于结构化上下文信息的知识图谱预训练采用包含三元组整合模块、结构化信息模块以及通用任务模块的预训练模型对知识图谱中的三元组进行训练，具体训练过程为：

步骤1，采用三元组整合模块对每个上下文三元组进行编码，得到整合向量。

由于预训练模型需要捕获整合知识图谱中的各种深层次结构化信息，因此模型的输入不仅包括目标三元组(h,r,t)，而且还包括这些目标三元组的结构化上下文三元组序列，即h,r和t的邻居三元组序列，表示为C(h)，C(r)和C(t)。

针对给定目标三元组τ＝(h,r,t)，三元组整合模块(Triple Module,T-Mod)首先将每个上下文三元组c＝(h′,r′,t′)∈{C(h),C(h),C(h)}编码为向量c，因此有

c＝T_Mod(<h′,r′,t′>)

其中<h′,r′,t′>表示向量h′,r′,t′的序列，T_Mod()表示三元组整合模块对输入的数据的编码结果，具体采用基于Transformer模型的三元组整合模块，由于其良好的性能和并行计算架构而得到了广泛的应用。

如图2所示，在将三元组<h′,r′,t′>输入到Transformer模型之前，需要在<h′,r′,t′>前面引入了一个用于整合三元组的三元组标记[TRI]，整合后即为向量c。为这个三元组标记[TRI]分配了一个三元组标记向量，表示为

因此，组合后的序列<k _[TRI],h′,r′,t′>被输入到多层双向Transformer编码器中，经过多层双向Transformer编码器的编码，将三元组标记[TRI]对应的输出作为整合向量。

本实施例中，所有的上下文三元组都由统一的三元组整合模块编码并行计算得到整合向量。

步骤2，采用结构化信息模块对由所有上下文三元组的整合向量组成上下文向量序列进行编码得到三元组的结构表示向量。

如图3所示，结构化信息模块(Structure Module,S-Mod)以h,r,t的上下文三元组表示作为输入，对应的输出可以分别用h _s,r _s和t _s表示，因此S-Mod的框架可以表示为：

h _s,r _s,t _s＝S_Mod(<seq _h,seq _r,seq _t>)

其中seq _h,seq _r,seq _t是h,r,t的上下文三元组的序列，具体形式如下：

其中，

表示头实体h的第i个整合向量，类似地，

表示关系r的第i个整合向量，

表示尾实体t的第i个整合向量。

为了增强目标三元组τ中用于训练的不同元素的独立性，在每个三元表示中添加一个所属的段表示类型，指示它是属于头实体h、关系r还是尾实体t，相应地分别表示为s _h，s _r和s _t，则添加有所属的段表示类型的整合向量表示为：

则添加有段表示类型的上下文三元组的序列

表示为：

在添加段向量之后，为了进一步区分当前上下文三元组所属的元素，引入了三种类似于三元组整合模块的三元组标记[HEA]、[REL]和[TAI]。在第一个头实体上下文三元组前面添加[HEA]，第一个关系上下文三元组前面添加[REL]，第一个尾实体上下文三元组前面添加[TAI]，那么它们对应的向量表示形为k _[HEA]、k _[REL]和k _[TAI]。因此，输入序列的格式也可以表示为：

结构化信息模块使用不同于三元组整合模块设置的多层双向Transformer编码器，对输入序列i进行编码。从最后一层Transformer中，将位置[HEA]、[REL]和[TAI]相对应的输出h _s,r _s和t _s分别表示为头实体h、关系r和尾实体t的结构表示向量，组成三元组的结构表示向量。

为了使模型具有动态地生成实体和关系的上下文表示的能力，模型中的结构化向量h _s不仅依赖于其自身的结构上下文三元组，而且还依赖于r和t的上下文三元组。同理，结构化向量r _s和t _s也是如此。因此，即使对于输入时不同目标三元组中的同一实体或者同一关系，经过结构化信息模块之后，得到结构化向量也是是不同的。

步骤3，采用通用任务模块对三元组的结构表示向量进行计算，得到三元组的标签预测值。

将h _s,r _s和t _s这三种结构表示向量输入到通用任务模块(tasK Module，K-Mod)中，并通过一个简单的全连接的神经网络来集成目标三元组τ＝(h,r,t)的深层上下文信息v _τ：

v _τ＝[h _s；r _s；t _s]W _int+b

其中[h _s；r _s；t _s]表示h _s,r _s,t _s拼接后的向量，

是权重，而

是偏差向量。

采用softmax层基于深层上下文信息v _τ获得标签预测值s _τ：

s _τ＝f(h,r,t)＝softmax(v _τW _cls)

其中，

是分类向量权重，

是二维实向量，经过softmax操作之后，存在

的关系，τ ₀表示标签为正确的三元组，而τ ₁表示标签为错误的三元组。

步骤4，基于三元组的标签预测值与标签真值的交叉熵损失来更新三元组整合模块参数、结构化信息模块参数、通用任务模块参数以及三元组的结构表示向量，直到训练结束为止，得到目标三元组的优化后结构表示向量。

给定相应构造的三元组正样例集合

和三元组负样例集合

于是结合s _τ和三元组标签可以计算交叉熵损失：

其中，y _τ∈{0,1}是三元组τ的标签，当

时，标签y _τ是1时，而当

时，标签y _τ是0时。三元组负样例集合

是由头实体h或尾实体t替换为另一个随机实体e∈ε，或将关系r替换为另一个随机关系

而生成得到的。

在为每个目标三元组生成训练实例时，需要保持正实例和负实例的数量相同。基于当前目标三元组的上下文三元组序列可以构造正实例，而通过替换目标三元组的头实体、关系或尾实体得到了新三元组，利用这些新三元组的上下文三元组构造负实例。

本实施例中定义了以下规则来替换目标三元组的一个元素：对于头实体h或尾实体t，它们被替换为一个随机的实体e∈ε，类似地，关系r替换为一个随机关系

或与h或t连接的关系r′，并设置替换这两种关系的概率相等。

以上基于结构化上下文信息的知识图谱预训练方法中，需要固定实例中上下文三元组序列的长度。基于头实体h、关系r或尾实体t的上下文三元组的数目有很大的差异，从零到数百。也就是说，有的实体邻居三元组非常丰富，而有的几乎没有相邻的邻居三元组。因此，在生成实体时，必须将序列长度与指定的大小n统一，以确保模型正常工作。为此，规则定义如下：如果上下文三元组的数目大于指定的大小n，从上下文三元组中随机抽取具有固定序列长度的上下文序列，否则上下文三元组后将直接填充零以满足上述要求。

以上基于结构化上下文信息的知识图谱预训练方法中，为了使上下文三元组尽可能全面地包含知识图谱的深层结构信息，应尽可能地设置上下文三元组的序列长度更长。然而，因为Transformer模型的训练时间和空间复杂度是序列的二次方，越长的序列训练起来越耗时，训练成本更高。

为了平衡二者之间的冲突，分析了实体和关系的上下文三元组长度的分布。具体来说，在WN18RR中，20个上下文三元组就能覆盖96.28％的实体和关系，而如果要覆盖99％，则需要115个上下文三元组，边际效益快速递减。因此，将为h、r或t的上下文三元组的长度设置为20即可，再加上考虑到额外的标记[HEA]、[REL]和[TAI]，预训练模型的输入序列的长度设置为64。同理，在数据集FB15k-237中，选择128作为输入序列的长度。

为了简单起见，将Transformer模型中Self-Attention的层数和头数目分别表示为L和A，将表示向量的隐藏维数表示为H。在三元组整合模块(T-Mod)中，有以下配置：L＝6，A＝3和H＝768，在结构化信息模块(S-Mod)中，L＝12，A＝12和H＝768。我们将学习率设置为2e ^-4，Batch大小设置为64。

当针对特定任务训练时，在下游任务中，会针对不同的下游任务适当调整模型输入和中间处理过程。例如，针对实体对齐任务，只需输入两个实体及这两个实体的结构化三元组序列信息，利用实体对齐的数据集对各个模块的部分参数进行训练微调，最终得到适配于实体对齐任务的整套模型。使得模型在各个不同的下游任务上都有非常好的实验效果。

知识图谱的预训练模型主要着眼于知识图谱领域，借鉴了预训练语言模型的思想，只需要对完整的知识图谱训练一次并从中提取结构化上下文信息，就能够在微调阶段，提升包括链接预测、实体对齐等在内的多种知识图谱下游任务效果，还能够在部分结合自然语言处理数据集的下游任务中有更优异的表现，包括关系抽取、实体链接、知识问答等。除此以外，相比于其他特定的下游任务模型，能够在这些任务的训练时间和训练参数量等方面更有竞争力，也正是如此，整个知识图谱预训练模型具有更强的通用性、健壮性和泛化能力。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

一种基于结构化上下文信息的知识图谱预训练方法，其特征在于，采用包含三元组整合模块、结构化信息模块以及通用任务模块的预训练模型对知识图谱中的三元组进行训练，具体训练过程包括：

针对目标三元组，从知识图谱中构建由上下文三元组组成的实例，采用三元组整合模块对实例的每个上下文三元组进行编码，得到整合向量；

将针对实例的所有上下文三元组的整合向量组成上下文向量序列，采用结构化信息模块对上下文向量序列进行编码得到三元组的结构表示向量；

采用通用任务模块对三元组的结构表示向量进行计算，得到三元组的标签预测值，基于三元组的标签预测值与标签真值的交叉熵损失来更新三元组整合模块参数、结构化信息模块参数、通用任务模块参数以及三元组的结构表示向量，直到训练结束为止，得到目标三元组的优化后结构表示向量；

为上下文三元组分配一个三元组标记[TRI]，三元组标记表示k _[TRI]与上下文三元组的头实体表示h′、尾实体表示r′、关系表示t′组成表示序列<k _[TRI],h′,r′,t′>作为三元组整合模块的输入，经三元组整合模块计算，将三元组标记k _[TRI]对应的输出为整合向量；

上下文向量序列表示为<seq _h,seq _r,seq _t>，其中，seq _h,seq _r,seq _t分别是头实体h,关系r,尾实体t的上下文三元组的序列，具体形式为：

其中，
表示头实体h的第i个整合向量，
表示关系r的第i个整合向量，
表示尾实体t的第i个整合向量。

为seq _h,seq _r,seq _t分配一个头实体标记[HEA]、关系标记[REL]、尾实体标记[TAI]，该seq _h,seq _r,seq _t与头实体标记向量k _[HEA]、关系标记向量k _[REL]、尾实体标记向量k _[TAI]组成序列<k _[HEA],seq _h,k _[REL],seq _r,k _[TAI],seq _t>作为结构化信息模块的输入。
如权利要求1所述的基于结构化上下文信息的知识图谱预训练方法，其特征在于，所述三元组整合模块采用Transformer模型。
如权利要求1所述的基于结构化上下文信息的知识图谱预训练方法，其特征在于，为每个上下文三元组的整合向量添加所属的段表示类型，即：

其中，s _h表示头实体的段向量，s _r表示关系的段向量，s _t表示尾实体的段向量；

则添加有段表示类型的上下文三元组的序列
表示为：

则输入结构化信息模块的序列为：
如权利要求1所述的基于结构化上下文信息的知识图谱预训练方法，其特征在于，所述结构化信息模块采用Transformer模型。
如权利要求1所述的基于结构化上下文信息的知识图谱预训练方法，其特征在于，所述通用任务模块包括至少1个全连接层和softmax层，利用全连接层对输入序列进行全连接结算，获得目标三元组的深层上下文信息，利用softmax层计算深层上下文信息的标签预测值。
如权利要求1所述的基于结构化上下文信息的知识图谱预训练方法，其特征在于，目标三元组的实例包括正实例和负实例，且保证正实例和负实例数量相同，构建方法为：基于目标三元组的上下文三元组序列构造正实例，通过替换目标三元组的头实体、关系或尾实体得到了新三元组，利用新三元组的上下文三元组序列构造负实例，目标三元组的标签真值为1，新三元组的标签真值为0。
如权利要求1所述的基于结构化上下文信息的知识图谱预训练方法，其特征在于，限定目标三元组的实例大小固定为n，即每个实例包含n个上下文三元组，在构建时，若上下文三元组的数目大于n，则从上下文三元组中随机抽取n个上下文三元组组成实例，否则在所有上下文三元组后直接填充零以补足到n个。
如权利要求1所述的基于结构化上下文信息的知识图谱预训练方法，其特征在于，当针对特定任务训练时，将三元组的优化后结构表示向量作为特定任务模块的输入，利用三元组的优化后结构表示向量对特定任务模块进行参数微调。