WO2022011681A1

WO2022011681A1 - 一种基于迭代补全的知识图谱融合方法

Info

Publication number: WO2022011681A1
Application number: PCT/CN2020/102683
Authority: WO
Inventors: 赵翔; 曾维新; 唐九阳; 李欣奕; 谭真; 郭得科; 罗来龙
Original assignee: 国防科技大学
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2022-01-20
Also published as: US20230206127A1

Abstract

一种基于迭代补全的知识图谱融合方法，包括以下步骤：获取多个知识图谱数据，识别知识图谱中的所有实体；获得每一个实体的结构向量和实体名向量；计算实体间的结构相似度和实体名相似度；建立基于度感知的互注意力网络，计算融合后实体间的实体相似度；根据所述的实体相似度选择高置信度实体对，并采用迭代训练进行知识图谱补全，获得融合后的知识图谱。本发明方法提出了度感知的互注意力网络以融合实体名向量和结构向量，使得对齐效果更好；提出了使用拼接幂平均词向量表征实体名，能够捕捉实体名的更多信息；提出了一种基于知识图谱补全的迭代训练算法，迭代式地提升实体对齐效果，使得长尾实体更容易对齐。

Description

一种基于迭代补全的知识图谱融合方法

技术领域

本发明属于自然语言处理技术领域，涉及知识图谱生成与融合，具体涉及一种基于迭代补全的知识图谱融合方法。

背景技术

近年来，涌现出一大批知识图谱(knowledge graph,KG)，诸如YAGO，DBpedia，Knowledge Vault等。这些大规模知识图谱在问答系统、个性化推荐等智能服务中起到重要作用。此外，为满足特定领域相关需求，衍生出越来越多的领域知识图谱，如学术知识图谱。但任何一个知识图谱，都无法达到完备或者完全正确。

为提升知识图谱的覆盖率及正确率，一种可行方法是从其它知识图谱中引入相关知识，因为以不同方式构建得到的知识图谱间存在知识的冗余以及互补。例如，从网页上抽取构建的通用知识图谱中可能仅包含科学家的名字，而更多的信息可在基于学术数据构建的学术知识图谱中找到。为将外部知识图谱中的知识整合到目标知识图谱中，最重要的一步是对齐不同的知识图谱。为此，实体对齐(entity alignment,EA)任务被提出并受到广泛关注。该任务旨在找到不同知识图谱中表达同一含义的实体对。而这些实体对则作为链接不同知识图谱的枢纽，服务于后续任务。

目前，主流实体对齐方法主要借助知识图谱结构特征判断两实体是否指向同一事物。这类方法假设不同知识图谱中表达同一含义的实体具有类似的邻接信息。Lingbing Guo等人提出的实体生成结构向量，进而实现实体对的识别取得了一定的效果(参考文献：Lingbing Guo,Zequn Sun,and Wei Hu.2019.Learning to Exploit Long-term Relational Dependencies in Knowledge Graphs.In Proceedings of the 36th International Conference on Machine Learning,ICML 2019,9-15 June 2019,Long Beach,California,USA.2505–2514)，在人工构建的数据集上，这类方法取得了最好的实验结果。但最近一项工作指出，这些人工构建的数据集中的知识图谱比真实世界的知识图谱更加稠密，而基于结构特征的实体对齐方法在具有正常分布的知识图谱上效果大打折扣。

事实上，通过分析真实世界知识图谱中的实体分布可知，超过半数的实体只与一两个其它实体相连。这些实体被称为长尾实体(long-tail entities)，占据了知识图谱实体的大部分，使得图谱整体呈现较高的稀疏性。这也符合对真实世界知识图谱的认知：只有很少一部分实体被经常使用并具有丰富的邻接信息；绝大部分实体很少被提及，包含微少的结构信息。因此，当前基于结构信息的实体对齐方法和知识图谱融合方法在真实世界数据集上的表现不尽人意。

发明内容

有鉴于此，本发明的目的在于提出一种基于迭代补全的知识图谱融合方法，所述方法克服现有技术的不足，用于从多个知识图谱中进行相同或者相似实体识别和对齐，进而实现多个知识图谱的知识融合，提高知识图谱的覆盖率及正确率。

基于上述目的，一种基于迭代补全的知识图谱融合方法，包括以下步骤：

步骤1，获取多个知识图谱数据，识别知识图谱中的所有实体；

步骤2，对所有实体进行结构向量表示学习，获得每一个实体的结构向量；对所有实体进行实体名向量表示学习，获得每一个实体的实体名向量；

步骤3，根据所述的结构向量计算实体间的结构相似度，根据所述的实体名向量计算实体间的实体名相似度；

步骤4，建立基于度感知的互注意力网络，计算融合后实体间的实体相似度；

步骤5，根据所述的实体相似度选择高置信度实体对，并采用迭代训练进行知识图谱补全，获得融合后的知识图谱。

所述的互注意力网络的计算过程包括以下步骤：

步骤401，构建特征矩阵：为每个实体构建一个特征矩阵，由所述实体的实体名向量

结构向量

以及实体度向量

组成，实体度向量为

其中，

是所述实体度数的one-hot向量，

是全连接参数矩阵，d _g是度向量的维度，对于实体e ₁，其特征矩阵进一步表示为：

其中；代表沿着列的拼接，d _m＝max{d _n,d _s,d _g}，d _n表示实体名向量的维度，d _s表示结构向量的维度；

步骤402，计算互注意力相似度矩阵：为动态刻画实体e ₁的特征矩阵

和实体e ₂的特征矩阵

之间的关联，构建一个互注意力相似度矩阵

其中e ₁的第i个特征和e ₂的第j个特征之间的相似度为：

其中，

是特征矩阵

第i个行向量，

是特征矩阵

第j个列向量，i＝1,2,3；j＝1,2,3，

是一个用于生成相似度的可训练标量函数，

是参数向量，

代表沿着行的拼接操作，ο代表点乘；

步骤403，分配权重，计算实体相似度：利用互注意力相似度矩阵

生成注意力向量

和

先将

送入softmax层，再送入平均化层，进而生成注意力向量，其中

表征e ₁特征与e ₂特征的相关程度，而

代表e ₂特征与e ₁特征的相关程度，最后，通过将不同特征的相似度值与其权重相乘，得到融合后的实体相似度值：

其中，

和

为注意力向量

的第1个和第2个值，分别代表结构相似度Sim _s(e ₁,e ₂)和实体名相似度Sim _t(e ₁,e ₂)所对应的权重。

具体地，所述的实体名向量为幂平均词向量，对于某一实体的实体名s，构成该实体名的所有词的词向量用矩阵形式表示为

其中l代表词的数目，d代表嵌入的维度，对

进行幂平均操作，即可生成的幂平均词向量，

幂平均操作公式为：

表示将

处理后生成的幂平均词向量。

更进一步地，所述的实体名向量采用拼接K次幂平均词向量，对于某一实体的实体名s，构成该实体名的所有词的词向量用矩阵形式表示为

其中l代表词的数目，d代表嵌入的维度，先对实体名的词向量计算K次幂平均词向量，然后将这K次幂平均词向量拼接后，生成实体名向量

即：

其中

代表沿着行的拼接操作，而p ₁,...,p _K代表K个不同的幂平均的具体数值。

更进一步地，K个不同的幂平均的具体数值分别取1,负无穷和正无穷三个数值。

具体地，所述的结构相似度Sim _s(e ₁,e ₂)为两个实体的结构向量

和

的余弦相似度，所述的实体名相似度Sim _t(e ₁,e ₂)为两个实体的实体名向量

和

的余弦相似度。

具体地，所述选择高置信度实体对的步骤为：对于原有知识图谱中每一个实体e ₁，假定其在外部知识图谱中最相似的实体是e ₂，第二相似的实体是e′ ₂，相似度差值为

若对于外部知识图谱中的e ₂，其在原有知识图谱中最相似的实体正好是e ₁，第二相似的实体是e′ ₁，并且相似度差值为

若相似度差值Δ ₁,Δ ₂均高于某一预设值的话，则认为(e ₁,e ₂)是一个高置信度实体对；

所述知识图谱补全的迭代训练过程是多轮的，对于外部知识图谱中的每一个三元组，如果其头实体和尾实体均在原有知识图谱中，则将外部知识图谱中的实体换成原有知识图谱中对应的实体，并将其添入到原有知识图谱中；接着利用添入后的知识图谱重新学习结构向量、计算实体相似度，生成新的高置信度实体对，继续进行知识图谱添入补全，直到满足停止条件，停止迭代训练。

与现有技术相比，本发明以下优点和有益效果：

(1)提出了度感知的互注意力网络以融合实体名信息和结构信息，使得对齐效果更好；

(2)提出了使用拼接幂平均词向量表征实体名，与平均词向量相比，拼接幂平均词向量更够捕捉实体名的更多信息，并减少向量表示的不确定性；

(3)提出了一种基于知识图谱补全的迭代训练算法，在补充知识图谱结构信息的同时，迭代式地提升实体对齐效果，使得长尾实体更容易对齐。

附图说明

图1为本发明实施例的整体流程示意图；

图2为本发明实施例的互注意力网络结构图；

图3为本发明实施例的整体流程框架图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

如图1所示，一种基于迭代补全的知识图谱融合方法，包括以下步骤：

所述的结构向量的学习可以采用背景技术中已有的方法生成结构向量，结构矩阵表示为

其中n代表实体个数，d _s代表结构向量维度。

给定两个实体e ₁和e ₂，它们的结构相似度Sim _s(e ₁,e ₂)为

和

的余弦相似度，其中，

代表e ₁的结构向量，

代表e ₂的结构向量。

所述的实体名向量可以采用幂平均词向量，对于某一实体的实体名s，构成该实体名的所有词的词向量用矩阵形式表示为

其中l代表词的数目，d代表嵌入的维度，对

进行幂平均操作，即可生成的幂平均词向量，

幂平均操作公式为：

表示将

处理后生成的幂平均词向量。

更进一步地，为了捕捉更多的实体名特征，所述的实体名向量可以采用拼接K次幂平均词向量，先对实体名的词向量计算K次幂平均词向量，然后将这K次幂平均词向量拼接后，生成实体名向量

即：

其中

代表沿着行的拼接操作，而p ₁,...,p _K代表K个不同的幂平均的具体数值。本实施例中，K个不同的幂平均的具体数值分别取1,负无穷和正无穷三个数值。

将所有实体的名字向量表示为矩阵

其中d _n＝d×K表示实体名向量的维度。给定两个实体e ₁和e ₂，它们的实体名相似度Sim _t(e ₁,e ₂)为实体名向量

和实体名向量

的余弦相似度。

与平均词向量相比，拼接幂平均词向量更够捕捉实体名的更多信息，并减少向量表示的不确定性。

不同的信息从不同的方面刻画实体。因此，需要通过特征融合有效结合多方面信息。对于不同度数的实体，各种信息的重要度是不同的。对于只具有少许结构信息的长尾实体来说，实体名信息更加重要；相反的，对于常出现的实体，结构信息更为重要。为刻画这种动态变化，设计一个度感知的互注意力网络，如图2所示。

所述的互注意力网络的输入为两个实体间的结构相似度Sim _s(e ₁,e ₂)、实体名相似度Sim _t(e ₁,e ₂)和实体的度数，计算过程包括以下步骤：

结构向量

以及实体度向量

组成，实体度向量为

其中，

是所述实体度数的one-hot向量，

其中；代表沿着列的拼接，d _m＝max{d _n,d _s,d _g}；

和实体e ₂的特征矩阵

之间的关联，构建一个互注意力相似度矩阵

其中e ₁的第i个特征和e ₂的第j个特征之间的相似度为：

其中，

是特征矩阵

第i个行向量，

是特征矩阵

第j个列向量，i＝1,2,3；j＝1,2,3，

是一个用于生成相似度的可训练标量函数，

是参数向量，

代表沿着行的拼接操作，°代表点乘。

生成注意力向量

和

先将

送入softmax层，再送入平均化层，进而生成注意力向量，其中

表征e ₁特征与e ₂特征的相关程度，而

其中，

和

为注意力向量

要注意到，Sim(e ₁,e ₂)≠Sim(e ₂,e ₁)。该网络通过最大化正负例相似度的差值进行训练。得到实体相似度值后，对于每一个待对齐实体，可选取与其相似度最大的外部知识图谱中的实体作为其的对应实体，实现实体对齐。

长尾实体可能在原有知识图谱中具有很少的结构信息，但在外部知识图谱中具有较为丰富的结构信息。若能将外部知识图谱中的结构信息引入，补充原有知识图谱中长尾实体的结构信息，能够在一定程度上缓解长尾问题，提升知识图谱的覆盖程度。而扩增后的知识图谱则能生成更精准的结构向量，提升实体对齐的效果。

所述选择高置信度实体对的步骤为：对于原有知识图谱中每一个实体e ₁，假定其在外部知识图谱中最相似的实体是e ₂，第二相似的实体是e′ ₂，相似度差值为

从发明内容和实施例内容可知，为了解决结构信息不足情况下的实体对齐问题，本发明方法提出新的实体对齐框架，如图3所示，从而较好地实现了知识图谱的融合。本发明主要的技术效果如下：

在预对齐阶段，本发明方法将实体名作为一种新的对齐信息。区别于现有将实体名向量作为初始特征用于学习结构表示的实体对齐工作，本发明方法将实体名作为单独的特征，通过拼接幂平均词向量来表征实体名，能够捕捉实体名的更多信息，并减少向量表示的不确定性；在对齐阶段，观察到对于不同度数的实体，结构信息和实体名信息的重要度也是不同的，设计了一个互注意力网络，在度数的引导下确定不同特征的权重，并有效融合多源信息；在对齐后处理阶段，提出一种基于知识图谱补全的迭代训练算法，在补充知识图谱结构信息的同时，迭代式地提升实体对齐效果，进而使得长尾实体更容易对齐。

上述实施例为本发明方法用于知识图谱融合的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

一种基于迭代补全的知识图谱融合方法，其特征在于，包括以下步骤：

步骤1，获取多个知识图谱数据，识别知识图谱中的所有实体；

步骤2，对所有实体进行结构向量表示学习，获得每一个实体的结构向量；对所有实体进行实体名向量表示学习，获得每一个实体的实体名向量；

步骤3，根据所述的结构向量计算实体间的结构相似度，根据所述的实体名向量计算实体间的实体名相似度；

步骤4，建立基于度感知的互注意力网络，计算融合后实体间的实体相似度；

步骤5，根据所述的实体相似度选择高置信度实体对，并采用迭代训练进行知识图谱补全，获得融合后的知识图谱。
根据权利要求1所述的知识图谱融合方法，其特征在于，所述的互注意力网络的计算过程包括以下步骤：

步骤401，构建特征矩阵：为每个实体构建一个特征矩阵，由所述实体的实体名向量
结构向量
以及实体度向量
组成，实体度向量为
其中，
是所述实体度数的one-hot向量，
是全连接参数矩阵，d _g是度向量的维度，对于实体e ₁，其特征矩阵进一步表示为：

其中；代表沿着列的拼接，d _m＝max{d _n,d _s,d _g}，d _n表示实体名向量的维度，d _s表示结构向量的维度；

步骤402，计算互注意力相似度矩阵：为动态刻画实体e ₁的特征矩阵
和实体e ₂的特征矩阵
之间的关联，构建一个互注意力相似度矩阵
其中实体e ₁的第i个特征和实体e ₂的第j个特征之间的相似度为：

其中，
是特征矩阵
第i个行向量，
是特征矩阵
第j个列向量， i＝1,2,3；j＝1,2,3，
是一个用于生成相似度的可训练标量函数，
是参数向量，
代表沿着行的拼接操作，ο代表点乘；

步骤403，分配权重，计算实体相似度：利用互注意力相似度矩阵
生成注意力向量
和
先将
送入softmax层，再送入平均化层，进而生成注意力向量，其中
表征e ₁特征与e ₂特征的相关程度，而
代表e ₂特征与e ₁特征的相关程度，最后，通过将不同特征的相似度值与其权重相乘，得到融合后的实体相似度值：

其中，
和
为注意力向量
的第1个和第2个值，分别代表结构相似度Sim _s(e ₁,e ₂)和实体名相似度Sim _t(e ₁,e ₂)所对应的权重。
根据权利要求1或2所述的知识图谱融合方法，其特征在于，所述的实体名向量为幂平均词向量，对于某一实体的实体名s，构成该实体名的所有词的词向量用矩阵形式表示为
其中l代表词的数目，d代表嵌入的维度，对
进行幂平均操作，即可生成的幂平均词向量，
幂平均操作公式为：

表示将
处理后生成的幂平均词向量。
根据权利要求1或2所述的知识图谱融合方法，其特征在于，所述的实体名向量采用拼接K次幂平均词向量，对于某一实体的实体名s，构成该实体名的所有词的词向量用矩阵形式表示为
其中l代表词的数目，d代表嵌入的维度，先对实体名的词向量计算K次幂平均词向量，然后将这K次幂平均词向量拼接后，生成实体名向量
即：

其中，
代表沿着行的拼接操作，而p ₁,...,p _K代表K个不同的幂平均的具体数值。
根据权利要求4所述的知识图谱融合方法，其特征在于，K个不同的幂平均的具体数值分别取1,负无穷和正无穷三个数值。
根据权利要求1或5所述的知识图谱融合方法，其特征在于，所述的结构相似度Sim _s(e ₁,e ₂)为两个实体的结构向量
和
的余弦相似度，所述的实体名相似度Sim _t(e ₁,e ₂)为两个实体的实体名向量
和
的余弦相似度。
根据权利要求1所述的知识图谱融合方法，其特征在于，所述选择高置信度实体对的步骤为：对于原有知识图谱中每一个实体e ₁，假定其在外部知识图谱中最相似的实体是e ₂，第二相似的实体是e′ ₂，相似度差值为
若对于外部知识图谱中的e ₂，其在原有知识图谱中最相似的实体正好是e ₁，第二相似的实体是e′ ₁，并且相似度差值为
若相似度差值Δ ₁,Δ ₂均高于某一预设值的话，则认为(e ₁,e ₂)是一个高置信度实体对；

所述知识图谱补全的迭代训练过程是多轮的，对于外部知识图谱中的每一个三元组，如果其头实体和尾实体均在原有知识图谱中，则将外部知识图谱中的实体换成原有知识图谱中对应的实体，并将其添入到原有知识图谱中；接着利用添入后的知识图谱重新学习结构向量、计算实体相似度，生成新的高置信度实体对，继续进行知识图谱添入补全，直到满足停止条件，停止迭代训练。