WO2021128158A1

WO2021128158A1 - 一种基于网络表征和语义表征的同名作者消歧方法

Info

Publication number: WO2021128158A1
Application number: PCT/CN2019/128642
Authority: WO
Inventors: 杜一; 王寒雪; 乔子越; 周园春
Original assignee: 中国科学院计算机网络信息中心
Priority date: 2019-12-25
Filing date: 2019-12-26
Publication date: 2021-07-01
Also published as: EP3940582A1; US20220318317A1; US11775594B2; CN111191466A; EP3940582A4; CN111191466B

Abstract

一种基于网络表征和语义表征的同名作者消歧方法。该方法为：1)提取目标论文库中各论文的语义特征和离散特征；2)基于离散特征计算各论文间的相似度，得到论文的关系相似性矩阵；如果一论文与其他论文没有共同作者或机构，则将其加入一离群论文集中；3)基于各论文的所述语义特征计算论文的语义相似度矩阵；将目标论文库中不包含语义特征的论文加入离群论文集中；4)将关系相似性矩阵和语义相似度矩阵加权求和，获得论文相似度矩阵并对其进行聚类；将不属于任何簇的论文加入离群论文集中；5)利用基于相似度阈值匹配的方法将离群论文集中的论文分配到对应的簇中。实现了高准确率的论文同名作者的消歧。

Description

一种基于网络表征和语义表征的同名作者消歧方法

技术领域

本发明主要涉及实体消歧，异质网络嵌入技术领域，词向量嵌入技术领域，具体是一种基于网络表征和语义表征的论文同名作者消歧技术。

背景技术

在许多领域中，同名消歧一直被视为一个很有意义但具有挑战性的问题，如文献管理，社交网络分析等。在学术网络领域，各种学术搜索系统的出现，如Google Scholar，Aminer等，为论文的搜索和学术交流提供了极大的便利。但由于论文数量的巨大，以及论文信息的复杂和多样，存在大量的论文被分配错误的问题，其中同名作者歧义问题就是一个比较重要但棘手的问题。对论文同名作者的消歧是指利用论文的信息，如标题，作者，作者机构，摘要，关键词等，通过一些方法将论文分配到正确的作者档案中。目前已经有很多研究者针对同名作者消歧问题提出了解决方法，这些方法主要包括利用论文信息进行基于规则的匹配，或者利用表示学习方法，对论文信息进行表征，然后利用聚类方法，如层次聚类，DBSCAN等对这些表征信息进行聚类，使得相似的论文聚成一簇，不相似的论文被分到不同的簇中。语义表征学习是一种将原始数据转换成能够被机器学习有效开发的形式的一种技术，利用论文的表征学习，可以将论文的语义信息映射到隐层，用于进行聚类。随着DeepWalk，LINE等网络表征学习方法的提出，基于网络表征学习的同名作者消歧方法被提出，它通过构建论文网络，将论文的特征映射到新的空间中，从而使相似的论文在空间上距离较近，不相似的论文在空间上的分布较远，进而对论文进行聚类，实现同名作者消歧。

发明内容

本发明的目的是提供了一种基于论文的网络表征和语义表征来进行论文同名作者消歧的方法，该方法利用论文的相关信息，包括论文的题目，摘要，作者，机构，期刊等，能够有效的挖掘出论文之间的关系信息和论文文本的语义信息，进而求出论文表征向量和论文相似度矩阵，并对相似度矩阵通过聚类的方法将不同作者的论文集划分到不同的簇中，实现对同名的作者进行消歧，此外本方法还利用基于相似度阈值匹配的方法对上述过程中出现的一些离群论文进行进一步处理，进而实现高准确率的论文同名作者的消歧。

本发明具体包括以下步骤：

步骤一：对论文库中论文的相关信息进行特征分析，将这些特征分为语义特征和离散特征。

步骤二：基于步骤一的离散特征，构建基于论文和论文关系的异质网络，并基于元路径的随机游走方法生成包含论文id的路径集，并利用word2vec模型训练论文的关系表征向量，得到论文的关系相似性矩阵。

步骤三：基于步骤一的语义特征，利用word2vec训练词向量，并获得论文的语义表征向量，从而得到论文的语义相似度矩阵。

步骤四：基于步骤二和步骤三生成的相似性矩阵，利用DBSCAN算法进行聚类，聚类后的簇代表真实的作者所包含的论文集合。

步骤五：利用基于相似度阈值匹配的方法对上述步骤二，步骤三，步骤四产生的离群论文集进行处理，将离群论文集中的论文分配到正确的簇中。

本发明的技术方案为：

一种基于网络表征和语义表征的同名作者消歧方法，其步骤包括：

1)提取目标论文库中各论文的语义特征和离散特征；其中，目标论文库为根据待消歧作者获取的论文库；

2)基于各论文的所述离散特征构建论文的异质网络，然后基于所述异质网络生成路径集并将其作为训练语料训练一模型，然后利用该模型生成目标论文库中论文的关系表征向量，然后根据所述关系表征向量计算各论文间的相似度，得到论文的关系相似性矩阵；对于目标论文库中一论文a，如果该论文a与其他论文没有共同作者或机构，则将其加入一离群论文集中；

3)基于各论文的所述语义特征生成论文的语义表征向量，然后根据所述语义表征向量计算各论文的相似度，得到论文的语义相似度矩阵；将目标论文库中不包含语义特征的论文加入所述离群论文集中；

4)将所述关系相似性矩阵和所述语义相似度矩阵进行加权求和，获得论文相似度矩阵并对其进行聚类，聚类后的每一簇代表一作者所包含的论文集合；将不属于任何簇的论文加入所述离群论文集中；

5)利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中。

进一步的，利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中的方法为：

11)从所述离群论文集中任选一论文p _i，对于各簇中每一论文p _j；初始化论文p _i与论文p _j的相似度s(pi,pj)为0；

12)计算s(p _i,p _j)＝s(p _i,p _j)+(p _i和p _j的共同作者数)×N；N为一设定经验值；

13)计算s(p _i,p _j)＝s(p _i,p _j)+tanimoto(p _i的期刊名，p _j的期刊名)；其中，函数tanimoto(p,q)用于计算两个集合p,q的tanimoto相似度；

14)计算s(p _i,p _j)＝s(p _i,p _j)+tanimoto(p _i中待消歧作者的机构，p _j中待消歧作者的机构)；

15)计算s(p _i,p _j)＝s(p _i,p _j)+(p _i和p _j中主题、关键词的共词数)/M；M为一设定经验值；

16)如果步骤15)计算得到的s(p _i,p _j)大于设定阈值α，则将论文p _i分配到论文p _j所在簇中，否则将论文p _i单独分配到一个新簇中。

进一步的，函数

进一步的，对所述离群论文集中的论文，两两计算相似度，如果相似度大于设定阈值则将二者分别所在的簇进行合并。

进一步的，构建所述异质网络的方法为：将目标论文库中每一篇论文作为异质网络中的一节点，并设置若干关系；如果两论文之间存在某一设置的关系，则在两论文对应的节点之间构建一条边，并设置该边的权值，得到所述异质网络。

进一步的，所述设定关系包括具有共同作者、具有共同机构。

进一步的，通过基于元路径随机游走策略生成所述路径集。

进一步的，所述离散特征包括作者和机构；所述语义特征包括标题、期刊、机构、发表年份和关键词。

进一步的，所述模型为word2vec模型。

一种计算机可读存储介质，其特征在于，存储一计算机程序，所述计算机程序包括用于执行上述方法中各步骤的指令。

与现有技术相比，本发明的积极效果为：

本发明能够同时利用论文之间的关系特征以及论文的语义特征得到论文的表征向量，进而对论文进行聚类实现消歧。与此同时，本发明还充分考虑到了可能存在一些论文的特征不够明显，与其他论文的相似度比较小的情况，提出了一种基于相似度阈值匹配的方法对这些离群论文进行进一步处理，从而提高了消歧的准确率。

附图说明

图1为本发明的模型架构图；

图2为异质网络示意图；

图3为基于元路径的随机游走路径生成示意图。

具体实施方式

下面将结合附图及实施例对本发明做进一步的阐述说明。

本发明以解决论文中存在的同名作者歧义问题为目标，使用论文的一些主要信息，如标题，摘要，作者，期刊，作者机构，发表年份，关键词，通过对论文关系表征和语义表征进行学习并使用聚类方法对其进行聚类，同时并对过程中产生的离群论文使用基于相似度阈值匹配的方法进行处理，从而得到最终的论文划分结果，即真实的同一作者的论文被划分到一个簇中，不同作者的论文在不同的簇中。图1为本发明的模型架构图。

首先对这些特征进行分析，根据特征所包含的信息类型不同，把特征划分成两种类型，一种为语义特征，一种为离散特征。语义特征指的是具有文本信息的特征，例如标题,摘要,关键词，这些特征可以使用语义表征学习模型，如word2vec等，将其转化为文本向量。离散特征指特征本身没有很大价值，但可以用其表示论文之间的关系，如作者，机构等。其中有些特征既可以当作离散特征，也可以当作语义特征。在具体实施中，本发明定义作者，机构为离散特征；定义标题，期刊，机构，发表年份，关键词为语义特征。

步骤二：基于步骤一的离散特征，构建基于论文和论文关系的异质网络，并基于元路径的随机游走策略生成包含论文id的路径集，并利用word2vec模型训练论文的关系表征向量，具体使用python中gensim库中的word2vec模型，得到论文的关系相似性矩阵。

此部分主要通过网络嵌入的方法从论文的离散特征中提取出论文的关系信息，实现对论文关系的表征学习。

首先，先搭建论文的异质网络。对于每一个需要消歧的名字，将其对应的所有的论文之间的关系抽取出来，构建出一个论文异质网络，如图2所示。该网络主要包含一种类型的节点：论文，两种类型的边：CoAuthor，CoOrg。

CoAuthor代表两个论文之间有共同作者(不包含需要消歧的名字)，边上的权值代表拥有共同作者的个数。如果两篇论文之间有共同作者，就根据其共同作者的数量搭建相应权值大小的边，如果两篇论文之间无共同作者，则不搭建此边。

CoOrg代表两个论文中待消歧名字的机构的相似性关系。在构建论文的CoOrg关系时，将两篇论文的待消歧名字的作者机构当作去掉停用词后的词的集合，机构的相似性关系依据两个机构词的集合的交集数量，即如果两篇论文的作者机构有共现词，则为其搭建相应共现词数量为权值的边，如果两篇论文的作者机构交集大小为0，即两个机构之间无共现词，则不搭建这条边。

在搭建完论文的异质网络后，我们使用基于p1→CoAuthor→p2→CoOrg→p3这样的元路径进行随机游走，生成由论文id组成的路径集。具体过程为轮流选择论文异质网络中的每一个论文节点作为初始节点，并按照上述元路径进行随机游走，每一次游走即为根据当前元路径规定的某种类型的边，按照边的权值，以一定的概率选择通过该类型的边相连的下一节点作为下一个游走节点，并将该节点保存到路径集中。其中规定随机游走的转移概率与边的权值成正比。通过重复进行若干次这样的游走，直至达到规定的路径长度，得到一条论文id路径。然后通过重新选择异质网络中的另一个节点作为初始节点，进行相同操作得到相应的论文id路径。通过对上述过程迭代N次，获得论文id路径集，作为关系表征学习的训练语料库。随机游走过程示意图如图3所示。

通过上述随机游走过程可以获得论文id路径集，并把该路径集当成训练语料库，利用word2vec中的skip-gram模型进行训练，从而获得论文的关系表征向量。word2vec是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。这里通过词向量嵌入技术，具有相似关系的论文也将在嵌入空间具有较近的距离。

在获得了论文的关系表征向量后，利用余弦相似度的计算方法可以获得论文的关系相似度矩阵。此外本发明利用了bagging的思想，对上述过程重复进行若干次，获得多个论文关系相似性矩阵，并对它们进行加和求平均获得一个最终的论文关系相似性矩阵。

其中，对于与其他论文均无以上定义的两种关系的论文，我们将其加入离群论文集中，后续单独对其处理。

在论文语义表征学习中，我们首先将所有的论文数据中具有语义信息的特征合并到一起，当作语料集，其主要包括论文的题目，摘要，期刊，所有作者的机构。通过对其进行数据清洗，分词，去停用词等操作后，对这个语料集使用word2vec模型进行词向量训练，获得词向量预训练模型，用于构建论文的语义表征向量。

对于每一篇论文，我们利用语义特征通过上述词向量预训练模型获得论文的语义表征向量。这些语义特征包括论文的标题，期刊，机构，发表年份，关键词等，通过对这些语义特征进行数据清洗，字母小写化，分词，去停用词等操作后，可以获得每一篇论文对应的文本信息。利用先前预训练好的词向量，可以对每一篇文本的文本信息求得其对应的文本向量，其中文本向量由词向量求平均获得。这些文本向量即组成了论文的语义表征向量。

在获得论文的语义表征向量后，同样利用余弦相似度计算方法获得论文的语义相似度矩阵。

其中，对于不包含语义特征的论文，我们将其加入离群论文集中，后续单独进行处理。

对于上述过程中获得的论文关系相似性矩阵和论文语义相似性矩阵，对两种相似度矩阵进行加权求和，获得最终的论文相似度矩阵，通过实验，此处设置论文关系相似性矩阵和论文语义相似性矩阵的权重均为0.5。然后使用聚类算法中的DBScan算法对其进行聚类，具体使用python中sklearn.cluster库内的DBSCAN方法。该方法不需要预先确定簇的数目(K值)，我们的参数设置如下表

参数	值
Eps	0.2
Min_samples	4
metric	precomputed

在聚类过程中，设置最小样本数为4，即一个簇中最少论文数为4，这样对于一些与其他论文均不相似的论文，将不属于任何簇，我们将其加入离群论文集，并单独进行处理。

对于以上三个步骤中产生的离群论文集，我们使用基于相似度阈值匹配的方法对其进行处理。

首先，我们定义了如下的相似度规则，其中s(p _i,p _j)表示论文p _i和论文p _j的相似度。

1.初始s(p _i,p _j)为0；

2.s(p _i,p _j)＝s(p _i,p _j)+(p _i和p _j的共同作者数)×1.5；

3.s(p _i,p _j)＝s(p _i,p _j)+tanimoto(p _i的期刊名，p _j的期刊名)；

4.s(p _i,p _j)＝s(p _i,p _j)+tanimoto(p _i中待消歧作者的机构，p _j中待消歧作者的机构)；

5.s(p _i,p _j)＝s(p _i,p _j)+(p _i和p _j中主题、关键词的共词数)/3.0；

6.输出s(p _i,p _j)。

其中，tanimoto(p,q)指两个字符串集合的tanimoto相似度，p、q为相应字符串：

tanimoto(p,q)＝ (1)

对于离群论文集中的每一篇论文，先比较它与已经聚好类的论文的相似度，若它与其相似度最高的论文的相似度大于阈值α，就把它分配给该聚好类的论文所在的簇中，否则将它单独分配给一个新的簇中。其次，对离群论文集中的每一篇论文，比较它与其他离群论文集中的论文的相似度，如果两者的相似度大于阈值α，则将两者所在的簇进行合并。在这里，定义的阈值α为1.5。

通过以上基于相似度阈值的匹配方法，能够对那些特征不够明显的论文(离群论文)进行处理，并通过将该处理结果与之前的预聚类结果进行合并，得到最终的论文聚类结果，实现同名作者的消歧。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

一种基于网络表征和语义表征的同名作者消歧方法，其步骤包括：

6)提取目标论文库中各论文的语义特征和离散特征；其中，目标论文库为根据待消歧作者获取的论文库；

7)基于各论文的所述离散特征构建论文的异质网络，然后基于所述异质网络生成路径集并将其作为训练语料训练一模型，然后利用该模型生成目标论文库中论文的关系表征向量，然后根据所述关系表征向量计算各论文间的相似度，得到论文的关系相似性矩阵；对于目标论文库中一论文a，如果该论文a与其他论文没有共同作者或机构，则将其加入一离群论文集中；

8)基于各论文的所述语义特征生成论文的语义表征向量，然后根据所述语义表征向量计算各论文的相似度，得到论文的语义相似度矩阵；将目标论文库中不包含语义特征的论文加入所述离群论文集中；

9)将所述关系相似性矩阵和所述语义相似度矩阵进行加权求和，获得论文相似度矩阵并对其进行聚类，聚类后的每一簇代表一作者所包含的论文集合；将不属于任何簇的论文加入所述离群论文集中；

10)利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中。
如权利要求1所述的方法，其特征在于，利用基于相似度阈值匹配的方法将所述离群论文集中的论文分配到对应的簇中的方法为：

11)从所述离群论文集中任选一论文p _i，对于各簇中每一论文p _j；初始化论文p _i与论文p _j的相似度s(pi,pj)为0；

12)计算s(p _i,p _j)＝s(p _i,p _j)+(p _i和p _j的共同作者数)×N；N为一设定经验值；

13)计算s(p _i,p _j)＝s(p _i,p _j)+tanimoto(p _i的期刊名，p _j的期刊名)；其中，函数tanimoto(p,q)用于计算两个集合p,q的tanimoto相似度；

14)计算s(p _i,p _j)＝s(p _i,p _j)+tanimoto(p _i中待消歧作者的机构，p _j中待消歧作者的机构)；

15)计算s(p _i,p _j)＝s(p _i,p _j)+(p _i和p _j中主题、关键词的共词数)/M；M为一设定经验值；

16)如果步骤15)计算得到的s(p _i,p _j)大于设定阈值α，则将论文p _i分配到论文p _j所在簇中，否则将论文p _i单独分配到一个新簇中。
如权利要求2所述的方法，其特征在于，函数
如权利要求1或2所述的方法，其特征在于，对所述离群论文集中的论文，两两计算相似度，如果相似度大于设定阈值则将二者分别所在的簇进行合并。
如权利要求1所述的方法，其特征在于，构建所述异质网络的方法为：将目标论文库中每一篇论文作为异质网络中的一节点，并设置若干关系；如果两论文之间存在某一设置的关系，则在两论文对应的节点之间构建一条边，并设置该边的权值，得到所述异质网络。
如权利要求5所述的方法，其特征在于，所述设定关系包括具有共同作者、具有共同机构。
如权利要求1所述的方法，其特征在于，通过基于元路径随机游走策略生成所述路径集。
如权利要求1所述的方法，其特征在于，所述离散特征包括作者和机构；所述语义特征包括标题、期刊、机构、发表年份和关键词。
如权利要求1所述的方法，其特征在于，所述模型为word2vec模型。
一种计算机可读存储介质，其特征在于，存储一计算机程序，所述计算机程序包括用于执行权利要求1至9任一所述方法中各步骤的指令。