WO2017193685A1

WO2017193685A1 - 社交网络中数据的处理方法和装置

Info

Publication number: WO2017193685A1
Application number: PCT/CN2017/075931
Authority: WO
Inventors: 赵志洪; 唐杰; 朱梦娇
Original assignee: 华为技术有限公司
Priority date: 2016-05-11
Filing date: 2017-03-08
Publication date: 2017-11-16
Also published as: CN107369098A; CN107369098B

Abstract

一种社交网络中数据处理的方法和装置，该方法包括：确定D个弱监督信息（S110），所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点d _i和与所述网络节点d _i相关的M _i个知识概念，所述弱监督信息表示网络节点和知识概念的交互信息；根据所述D个弱监督信息，生成异构贝叶斯模型（S120），所述异构贝叶斯模型表示社交网络和知识图谱之间的连接模型；根据所述异构贝叶斯模型，确定第一网络节点和第一知识概念的有效联系（S130）。可以方便地区分与社交网络中每个网络节点相关的核心知识概念和边缘知识概念。

Description

社交网络中数据的处理方法和装置

本申请要求于2016年05月11日提交中国专利局、申请号为201610311864.4、发明名称为“社交网络中数据的处理方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请本申请涉及计算机领域，更具体的，涉及计算机领域中社交网络中数据处理的方法和装置。

背景技术

社交网络可以是拥有巨大用户群体的在线社交平台，比如脸书(Facebook)，推特(Twitter)，新浪微博和微信等，也可以是不以在线平台为依托的社交网络，比如学术社交网络和线下人际关系网络。

社交网络数据挖掘的一个重要研究课题就是如何理解海量用户的行为，挖掘海量用户的兴趣和关注点。比如，在在线社交网络中，我们希望挖掘每个用户的兴趣和关注点，从而更精准地投放广告和进行个性化用户推荐。就学术社交网络而言，每一位研究者都是这个学术社交网络中的一个节点，他们之间存在的学术合作关系组成了一张庞大的学术社交网络，我们希望挖掘每个研究者的研究兴趣，从而能够更有效地帮助科研人员找到某一个研究方向的其他研究人员，进行学术合作推荐，增强以知识为基础的学术搜索功能。

此外，群体智能的兴起诞生了一些大规模知识图谱，这些知识图谱上有丰富的语料，大规模的知识概念，以及知识概念之间的关系。对于大规模知识图谱的应用将有助于人们对海量的互联网数据进行语义理解。

但是目前大规模社交网络和大规模知识图谱之间普遍缺乏联系，不能方便地通过社交网络使用知识图谱。

发明内容

本申请实施例提供了社交网络中数据处理的方法和装置，能够在社交网络和知识图谱之间建立有效的联系。

第一方面，本申请实施例提供了一种社交网络中数据处理的方法，该方法包括：

确定D个弱监督信息，所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点d_i和与所述网络节点d_i相关的M_i个知识概念，其中，所述网络节点d_i表示为嵌入式向量，所述M_i个知识概念分别表示为嵌入式向量，D和M_i分别为大于1的正整数，i为取值范围为1至D的正整数；

根据所述D个弱监督信息，生成异构贝叶斯模型，所述异构贝叶斯模型包括T个话题和D个文档，所述T个话题中的第j个话题包括参数μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k，所述D个文档中的第i个文档包括所述网络节点d_i和所述M_i个知识概念，所述第i个文档还包括与所述M_i个知识概念一一对应的M_i个第一话题隐变量、与所述网络节点d_i一一对应的第二话题隐变量和参数θ，所述网络节点d_i对应的第二话题隐变量可以为一个。

其中，μ_j ^r表示所述第j个话题对应的所述网络节点d_i的高斯分布的均值，λ_j ^r表示所述第j个话题对应的所述网络节点d_i的高斯分布的精度，μ_jm ^k表示所述第j个话题对应的所述M_i个知识概念中的第m个知识概念的高斯分布的均值，λ_jm ^k表示所述第j个话题对应的所述M_i个知识概念中的m个知识概念的高斯分布的精度，θ表示所述网络节点d_i的话题多项分布，T为大于1的正整数，j为取值范围为1至T的正整数，m为取值范围为1至M_i的正整数；

根据所述异构贝叶斯模型，确定第一网络节点与第一知识概念连接之间的有效联系，其中，所述第一网络节点为所述D个弱监督信息中的所有网络节点之中的一个，所述第一知识概念为所述D个弱监督信息中的所有知识概念之中的一个。

本申请实施例的社交网络中数据处理的方法，通过确定一系列弱监督信息，该弱监督信息表示网络节点和知识概念的交互信息，并根据该弱监督信息，生成异构贝叶斯模型，该异构贝叶斯模型表示社交网络和知识图谱之间的连接模型，然后根据该异构贝叶斯模型，能够确定给定的网络节点和给定的知识概念之间的有效联系。

可选的，本申请实施例中，第一网络节点与第一知识概念成为邻居的概率可以通过下式计算：

其中，

表示该第一网络节点的嵌入式向量，

表示该第一知识概念的嵌入式向量。

本申请实施例中，给定的网络节点a和给定的知识概念1的成为邻居的概率即为该网络节点a和知识概念1的条件概率。当该条件概率的值比较大时，表示该知识概念1为该网络节点a的核心知识概念。反之，当该条件概率的值比较小时，表示该知识概念为该网络节点a的边缘知识概念。因此，本申请实施例可以方便地区分与社交网络中每个网络节点相关的核心知识概念和边缘知识概念。

可选的，本申请实施例中，所述根据所述D个弱监督信息，生成所述异构贝叶斯模型，包括：

随机确定所述M_i个第一话题隐变量的初始值和所述第二话题隐变量的初始值，这里，第二话题隐变量的数量与网络节点的数量相同。

根据所述第二话题隐变量的初始值、所述第i个弱监督信息和所述网络节点d_i的话题的条件概率，对所述第二话题隐变量进行t_b次抽样更新，其中，所述网络节点d_i的话题的条件概率表示所述网络节点d_i的第二话题隐变量在给定除所述网络节点d_i的第二话题隐变量之外的其他话题隐变量、所述第二话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点d_i的嵌入式向量的情况下的条件概率。

对于文档d，在给定文档-d的第二话题隐变量y_-d和第一话题隐变量z、网络节点的嵌入式表示和知识概念的嵌入式表示的情况下，网络节点的话题y_d＝t的条件概率可以写成：

其中，文档-d表示除文档d之外的其他文档，y_-d表示文档-d的第二话题隐变量，

表示文档d中话题为t的知识概念的数目。函数G'(·)定义为：

其中，n是所有y＝t对应的f的数目。假设x是所有y＝t的对应的嵌入式向量f的第e维组成的向量。n'＝n-n_d，n_d是文档中y＝t对应的f的数目。

根据所述M_i个第一话题隐变量的初始值、所述第i个弱监督信息和所述M_i个知识概念的话题的条件概率，对所述M_i个第一话题隐变量进行t_b次抽样更新，其中，所述M_i个知识概念的话题的条件概率中的每个知识概念的话题的条件概率表示所述每个知识概念的第一话题隐变量在给定除所述每个知识概念的第一话题隐变量之外的其他话题隐变量、所述M_i个第一话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点d_i的嵌入式向量的情况下的条件概率。

本申请实施例中，在给定话题隐变量z_-dm、y、网络节点的嵌入式表示和知识概念的嵌入式表示的情况下，文档d中的知识概念m的话题z_dm＝t的条件概率可以写成：

其中，z_-dm表示除了文档d中的知识概念m之外的第一话题隐变量。

在对所述M_i个第一话题隐变量和所述第二话题隐变量分别进行t_b次抽样更新之后，分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行抽样更新，以生成所述异构贝叶斯模型。

可选的，本申请实施例中，所述在对所述M_i个第一话题隐变量和所述第二话题隐变量分别进行t_b次抽样更新之后，分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行更新，包括：

根据所述更新后的M_i个第一话题隐变量、所述第i个弱监督信息和所述所述M_i个知识概念的话题的条件概率，对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新；

根据所述更新后的第二话题隐变量、所述第i个弱监督信息和所述网络节点d_i的话题的条件概率，对所述更新后的第二话题隐变量进行t_p次抽样更新。

这里，所述网络节点d_i的话题的条件概率和所述M_i个知识概念的话题的条件概率分别为上述公式(1)和公式(2)。

在对所述更新后的M_i个第一话题隐变量和所述更新后的第二话题隐变量分别进行t_p次抽样更新之后，分别对θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行更新。

本申请实施例中，对于文档d，话题分布参数θ_d更新如下：

对于话题t，假设n是所有z＝t的知识概念的数目，x是所有z＝t的知识概念对应的嵌入表示组成的向量，则对于嵌入表示的每一维，参数

和

更新如下:

对于话题t，假设n是所有y＝t的网络节点的数目，x是所有的网络节点y＝t对应的嵌入式向量组成的向量，则对于嵌入式向量的每一维，参数

和

更新如下:

可选的，本申请实施例中，所述分别对θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行更新包括：分别对所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行N次抽样更新，其中，所述N次更新中的每次更新均执行对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新，对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新和分别对θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行更新，得到N次更新后的θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k；

对所述N次更新后的θ累加求平均值，将θ累加求得的平均值作为更新后的所述异构贝叶斯模型的θ参数；

对所述N次更新后的μ_j ^r累加求平均值，将μ_j ^r累加求得的平均值作为更新后的所述异构贝叶斯模型的μ_j ^r参数；

对所述N次更新后的λ_j ^r累加求平均值，将λ_j ^r累加求得的平均值作为更新后的所述异构贝叶斯模型的λ_j ^r参数；

对所述N次更新后的μ_jm ^k累加求平均值，将μ_jm ^k累加求得的平均值作为更新后的所述异构贝叶斯模型的μ_jm ^k参数；

对所述N次更新后的λ_jm ^k累加求平均值，将λ_jm ^k累加求得的平均值作为更新后的所述异构贝叶斯模型的λ_jm ^k参数。

可选的，本申请实施例中，所述分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行更新之后，还包括：

根据所述网络节点d_i的嵌入式向量和所述M_i个知识概念的嵌入式向量，确定在给定所述M_i个第一隐变量和所述第二隐变量的情况下的初始对数似然。

给定第一话题隐变量和第二话题隐变量情况下的嵌入表示的对数似然的计算公式，如下：

其中

表示所有文档中话题为t的知识概念数目。

这里，将没有更新的网络节点d_i的嵌入式向量和没有更新的M_i个知识概念的嵌入式向量的对数似然称为初始对数似然。

根据所述初始对数似然，确定所述网络节点d_i更新后的嵌入式向量；

根据所述初始对数似然，分别确定所述M_i个知识概念更新后的嵌入式向量。

可选的，本申请实施例中，所述根据所述初始对数似然，确定所述网络节点d_i更新后的嵌入式向量，包括：

根据所述初始对数似然确定所述网络节点d_i的嵌入式向量的梯度；

具体的，网络节点的嵌入表示的梯度为：

根据所述网络节点d_i的嵌入式向量的梯度、网络节点学习率和所述网络节点d_i的嵌入式向量，确定所述网络节点d_i更新后的嵌入式向量，其中，所述网络节点学习率表示所述所述网络节点d_i的嵌入式向量的梯度下降的学习率。

可选的，本申请实施例中，所述根据所述初始对数似然，分别确定所述M_i个知识概念更新后的嵌入式向量，包括：

根据所述初始对数似然确定所述M_i个知识概念的嵌入式向量的梯度；

具体的，知识概念的嵌入表示的梯度为：

根据所述M_i个知识概念的知识概念的嵌入表示的梯度、M_i个知识概念的知识概念学习率和所述M_i个知识概念的嵌入式向量，分别确定所述更新后的所述M_i个知识概念的嵌入式向量，其中，所述M_i个知识概念中的每个知识概念的知识概念学习率表示所述每个知识概念的嵌入式向量的梯度下降的学习率。

可选的，本申请实施例中，所述方法还包括：

根据所述网络节点d_i的更新后的嵌入式向量和所述M_i个知识概念的更新后的嵌入式向量，确定在给定所述M_i个第一隐变量和所述第二隐变量的情况下的的更新对数似然。

这里，将网络节点d_i的更新之后的嵌入式向量和M_i个知识概念的更新之后的嵌入式向量的对数似然称为更新对数似然。

若所述更新对数似然大于或等于所述初始对数似然，则将所述网络节点d_i的嵌入式向量替换为所述网络节点d_i的更新后的嵌入式向量，将所述M_i个知识概念的嵌入式向量替换为所述M_i个知识概念的更新后的嵌入式向量；

若所述更新对数似然小于所述初始对数似然，则将所述网络节点学习率更新为所述网络节点学习率与第一衰减指数的乘积，将所述M_i个知识概念的知识概念学习率分别更新为所述M_i个知识概念的知识概念学习率与第二衰减指数的乘积，并且保留所述网络节点d_i的嵌入式向量不变，保留所述M_i个知识概念的嵌入式向量不变，其中，所述第一衰减指数表示所述网络节点学习率的衰减程度，所述第二衰减指数表示所述M_i个知识概念学习率中的每个知识概念学习率的衰减程度。

这里，第一衰减指数与第二衰减指数可以相同，也可以不同，本申请对此不作限定。

可选的，本申请实施例中，所述确定D个弱监督信息，包括：

确定D个初始弱监督信息，所述D个初始弱监督信息中的第i个初始弱监督息包括所述网络节点d_i和与所述网络节点di相关的所有知识概念；

根据所述所有知识概念中每个知识概念的分值和无监督生成率r，确定所述M_i个知识概念，其中，所述M_i个知识概念中的每一个知识概念的分值大于所述所有知识概念中除所述M_i个知识概念之外的每一个知识概念的分值，所述每个知识概念的分值表示所述每个知识概念处于所述所有知识概念的中心位置的程度，所述无监督生成率r为确定的知识概念的数量M_i与所述所有知识概念的数量的预设比值，r的取值范围为0至1。

可选的，本申请实施例中，知识概念

的分值可以表示为：

其中，cos(·)表示余弦相似度，

表示知识概念，

表示另一知识概念，n是

出现在所有知识概念D_d中的次数。

可选的，本申请实施例中，在所述确定D个弱监督信息之前，所述方法还包括：

根据知识概念集合、语料的长度和所述语料的最大的N-gram长度，对所述语料进行转换，所述知识概念集合包括所述D个弱监督信息中的所有知识概念；

将转换后的所述语料输入至第一skipgram模型，获取所述知识概念集合中每个知识概念的嵌入式向量。

确定所述社交网络中的每个网络节点的加权概率，其中，所述每个网络节点的加权概率表示所述每个网络节点访问下一个网络节点的概率，所述社交网络中所有网络节点包括所述D个弱监督信息中的所有网络节点；

具体的，网络节点的加权概率可以表示为：

根据所述每个网络节点的加权概率，确定所述每个网络节点的至少一个随机游走序列；

将所述每个网络节点的至少一个随机游走序列输入至第二skipgram模型，获取所述每个网络节点的嵌入式向量。

本申请实施例中，该第一skipgram模型和该第二skipgram模型可以相同，也可以不同，本申请本申请对此不作限定。

第二方面，本申请实施例提供了一种社交网络中数据处理的装置，用于执行上述第一方面或第一方面的任意可能的实现方式中的方法，具体的，该装置包括用于执行上述第一方面或第一方面任意可能的实现方式中的方法的模块。

第三方面，本申请实施例提供了一种社交网络中数据处理的装置，该装置包括：存储器、处理器、收发器和总线系统。其中，该存储器和该处理器通过该总线系统相连，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，该执行使得该处理器执行第一方面或第一方面的任意可能的实现方式中的方法。

第四方面，本申请实施例提供了一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

附图说明

图1是本申请本申请实施例的社交网络中数据处理的方法的应用场景图。

图2是本申请本申请一个实施例的社交网络中数据处理的方法的示意性流程图。

图3是本申请本申请一个实施例的社交网络中数据处理的方法中生成的异构贝叶斯模型的示意性框图。

图4是本申请本申请一个实施例的社交网络中数据处理的装置的示意性框图。

图5是本申请本申请另一个实施例的社交网络中数据处理的装置的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

图1示出了本申请实施例的社交网络中数据处理的方法的应用场景的示意性框图。可以理解，大规模的社交网络中可以具有很多个网络节点，大规模的语料中可以具有很多个知识概念或词条，图1仅仅示意性的示出了社交网络中的部分网络节点和语料中的部分知识概念或词条。

具体的，图1中的社交网络可以包括多个网络节点，该网络节点例如可以为图中的a、b、c、d或e。例如，在学术社会网络系统Aminer中，网络节点a、b、c、d和e可以分别为不同的专家学者、学术机构或者科研团队。在其他社交网络如新浪微博中，网络节点a、b、c、d和e可以分别为不同的博主。

对社交网络的理解，需要对社交网络的网络结构进行刻画。例如，可以根据Deepwalk将分布式向量嵌入的方法应用到社交网络上，为每一个社交网络的网络节点学习得到一个嵌入式向量，即可以完成对社交网络的网络结构进行刻画。本申请实施例中，可以称嵌入式向量为嵌入向量表示。

图1中语料可以为维基百科(Wikipedia)中的所有知识概念或者百度百科内的所有词条，例如，语料中的1、2、3、4、5、6、7或8分别为维基百科中的不同的知识概念，或者语料中的1、2、3、4、5、6、7或8分别为百度百科内的不同的词条，这些知识概念(或词条)例如可以为大数据、智能家居、机器学习、清华大学、光通信、长期演进(Long Term Evolution，LTE)等。

目前主要通过话题模型或嵌入模型对语料中的知识概念(或词条)的文本语义进行建模和分析。

话题模型例如可以为概率潜在语义分析模型(probabilistic Latent Semantic Indexing，pLSI)和潜在狄利克雷分布模型(Latent Dirichlet Allocation，LDA)。

LDA是一种贝叶斯生成模型，通过对每一个文档生成一个话题分布和对每一个话题生成一个词分布来最终生成每一个文档里的每一个词。话题模型的优点是能够通过话题隐变量对不同词的语义进行刻画，并用文档和词的分布进行约束。但是，话题模型只能输出离散的词，不能输出连续的语义表示。

例如，当话题为体育时，该话题对应的词可以为篮球、姚明、世界杯和奥运会等等；当话题为水果时，该话题对应的词可以为苹果、梨和香蕉等等。因为一个文档中可以包括多个话题，一个话题还可以包括多个词，话题模型可以对每个文档生成多个话题分布，对每个话题生成多个词分布，最终生成每个文档中的每个词。

嵌入模型是一种分布式向量嵌入表示的学习方法，例如Word2Vec学习方法。Word2Vec学习方法通过优化给定语境中一个词出现的似然来学习每一个词的连续向量嵌入表示。每一个词在特征空间中的位置表征了这个词的语义。分布式向量嵌入学习的优点是能够对每一个词得到一个在连续特征空间上的表示，并且优化目标可以刻画二阶共现关系。但是，嵌入模型难以理解每个词对应的隐含话题。

图1中社交网络中的网络节点与语料中的知识概念(或词条)连接的直线表示该网络节点与该知识概念(或词条)的有效联系，p_x表示该网络节点与该知识概念(或词条)的条件概率。也就是说，本申请实施例中，该有效联系可以为该网络节点与该知识概念(或词条)的条件概率。大规模的社交网络中的网络节点与语料中的知识概念(或词条)之间的条件概率也可以称为该网络节点与该知识概念(或词条)之间的链接概率，或者成为该网络节点与该知识概念成为邻居的概率。

如图1所示，一个网络节点可以与多个知识概念之间具有有效联系。例如，网络节点b分别与知识概念(或词条)2、知识概念(或词条)4和知识概念(或词条)5具有有效联系。同时，一个知识概念(或词条)也可以同时和多个网络节点之间具有有效联系。例如，知识概念(或词条)6分别与网络节点e和网络节点d具有有效联系。因此，大规模的社交网络和大规模的知识图谱之间可以具有复杂的联系。

但是，社交网络的结构信息和语料中的文本语义信息为两种异构的信息，现有技术中只能够针对其中的一种信息做处理，并没有将两种信息关联起来的处理方法。因此，现有技术中的大规模的社交网络和大规模的知识图谱之间缺乏普遍的联系，并不能方便的通过社交网络使用知识图谱，即现有技术不能够在社交网络和知识图谱之间建立上述有效的联系。

本申请实施例提供的一种社交网络中数据处理的方法，能够在社交网络和知识图谱之间建立有效的联系，进而可以有效地区分与社交网络中每个网络节点相关的核心知识概念和边缘知识概念。

可选的，本申请实施例可以在语料中无监督地学习每个知识概念的嵌入向量表示，嵌入向量表示能够对知识概念的文本语义进行刻画。

本申请实施例的确定每个知识概念的嵌入向量表示的方法可以应用于学术社会网络系统AMiner中，这时语料C即为Wikipedia中的所有知识概念。此外，本申请实施例的确定每个知识概念的嵌入向量表示的方法也可以应用于其他社交网络如在新浪微博中，这时可将百度百科内的所有词条作为语料C。

这里，在语料中无监督地学习每个知识概念的嵌入向量表示时，可以根据知识概念集合、语料的长度和语料中的最大N-gram长度，对语料进行转换，所述知识概念集合包括所述D个弱监督信息中的所有知识概念。

具体的，对于给定语料C和知识概念集合V^k，需要根据该知识概念集合V^k对语料进行转换。在对语料进行转换时，需要确定语料的长度L和最大的N-gram长度。

首先需要确定N-gram的长度。具体的，N表示词的长度，gram表示按长度N切分原词得到的词段。N取最小值规则，如果原词的长度大于5，则N最小值为3，如果原词的长度等于5，则最小值为2，否则最小值为1。

然后按照对N从最大取值到2，分别对语料进行线性扫描，即当N取最大值时，将语料中的所有N-gram和知识概念集合V^k进行匹配，如果该N-gram在知识概念集合V^k中存在，则将语料中的N-gram替换为一个单词。然后N减小1，继续将语料中的所有N-gram和知识概念集合V^k进行匹配，如果该N-gram在知识概念集合V^k中存在，则将语料中的N-gram替换为一个单词。本申请实施例中，N-gram的枚举从最大的N开始，直至N的取值为2。因此，如果一个知识概念是另一个知识概念的字串，则只考虑长度最长的字符串。

本申请实施例中，在对语料进行转换之后，将转换之后的语料输入至skipgram模型，可以获取该知识概念集合中的每个知识概念的嵌入向量表示。

具体的，skipgram模型的目标函数是给定当前考察的单词，计算所有与当前词在上下文中距离小于阈值的条件概率。

在计算条件概率的归一化项时，本申请实施例采用了用hierarchical softmax来加速训练的速度，即根据词频生成采用哈夫曼(Huffmann)贪心算法生成一棵哈夫曼树，在哈夫曼树生成之后，条件概率表示为：

其中，w是要预测的词，w_I是作为上下文的词，L(w)表示从哈夫曼树的根节点到w这个词的路径长度，n(w，j)表示从哈夫曼树的根节点到w这个词的路径上的第j个节点。ch(w)表示哈夫曼树中w节点的一个孩子，由于哈夫曼树是一棵二叉树，所以每个节点有0或2个孩子，ch(w)为非叶子节点的两个孩子中事先任意指定的某一个。

是一个指标函数，如果变量为真那么返回1，否则返回-1。σ(·)是softmax函数。

当n(w,j+1)＝ch(n(w,j))时，指标函数的值为1，上述条件概率可以表示为：

而当n(w,j+1)≠ch(n(w,j))时，指标函数的值为-1，上述条件概率可以表示为：

根据softmax函数的性质，上述两个概率加起来为1。所以hierarchical softmax即是将所有节点组织成一棵二叉树，在每一个非叶子节点存在一个分叉，该概率分成两半，最后到某一个节点的概率就等于路径所有分配的概率的乘积。容易看出，根据这个性质，无需再对概率进行归一化，因为所有叶子节点的概率加起来等于1。

这样，本申请实施例可以通过大量无标注数据得到知识概念的语义，从而可以帮助区分知识概念的不同话题，区分社交网络用户对应的主要知识概念和次要知识概念。

本申请实施例中，上述确定知识概念的嵌入向量表示的方法的时间复杂度从原来的线性级别降低为对数级别，可以适用于大规模语料。可选的，本申请实施例中，可以从大规模社交网络中无监督的学习每个网络节点的嵌入向量表示，该嵌入向量表示能够对社交网络的结构信息进行刻画。

本申请实施例中确定每个网络节点的嵌入向量表示的方法可以应用于学术社会网络系统AMiner中，这时网络节点即为每一位专家学者。本申请实施例中确定每个网络节点的嵌入向量表示的方法还可以应用于在其他社交网络如新浪微博中，这时网络节点是每一个博主。

本申请实施例中，从大规模社交网络中无监督的学习每个网络节点的嵌入向量表示，首先可以确定所述社交网络中的每个网络节点的加权概率，其中，所述每个网络节点的加权概率表示所述每个网络节点访问下一个网络节点的概率，所述社交网络中所有网络节点包括所述D个弱监督信息中的所有网络节点。

具体的，本申请实施例中，可以采用DeepWalk算法学习社交网络中每个节点的嵌入向量表示。DeepWalk算法是从每一个节点开始产生一定数量的随机游走，然后将随机游走得到的节点序列作为语料训练Skipgram模型。

DeepWalk算法是针对无权无向图提出来的，但是在发明实施例中，社交网络上的边应该是有权无向的。因此，DeepWalk算法并不能直接应用。

本申请实施例中在每次进行随机游走时，都使用一个加权概率来选择下一个访问的节点。形式化地，假定当前节点是v，那么我们在选择随机游走的下一个节点u时，采用如下的概率进行抽样：

其中，等号右边第一项表示该节点u必须是v的邻居，n_u,v表示u和v边上的整数权值。

在确定所述社交网络中的每个网络节点的加权概率之后，根据所述每个网络节点的加权概率，确定所述每个网络节点的至少一个随机游走序列，将所述每个网络节点的至少一个随机游走序列输入至skipgram模型，能够获取所述每个网络节点的嵌入向量表示。

具体的，本申请实施例根据上述的概率进行抽样，可以生成带权无向图的随机游走序列。将该带权无向图的随机游走序列输入到skipgram模型，可以学习得到社交网络上每个节点的嵌入表示。在社交网络中无监督学习网络节点的嵌入表示能够有效地解决数据的稀疏性问题，并充分利用网络结构来帮助生成社交知识图谱。通过将每一个网络节点映射到一个连续的特征空间，我们可以从语义上有效的刻画每一个节点。

本申请实施例中，确定知识概念的嵌入向量表示的skipgram模型与确定网络节点的嵌入向量表示的skipgram模型可以相同，也可以不同，本申请实施例对此不作限定。

图2示出了本申请实施例的一种社交网络中数据处理的方法100的示意性流程图。该方法100包括：

S110，确定D个弱监督信息。

所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点d_i和与所述网络节点d_i相关的M_i个知识概念，其中，所述网络节点d_i表示为嵌入向量表示，所述M_i个知识概念分别表示为嵌入向量表示，D和M_i分别为大于1的正整数，i为取值范围为1至D的正整数。

本申请实施例中，需要生成的异构贝叶斯模型的输入是一系列弱监督信息，例如上述D个弱监督信息。该D个弱监督信息中的D个网络节点为实验可获得的大规模社交网络中的部分网络节点。因为弱监督信息包括一系列的网络节点和与每个网络节点交互过的所有知识概念，因此弱监督信息能够表示网络节点与文本的交互信息。这样，本申请实施例能够根据给定的弱监督信息进行异构贝叶斯模型的建立。

本申请实施例的确定弱监督信息的方法可以应用于学术社会网络系统AMiner中，这时弱监督信息即为一个研究者的所有论文中包含的知识概念，即其发表过每篇论文的题目和摘要。本申请实施例的确定弱监督信息的方法还可以应用在其他社交网络如新浪微博中，此时弱监督信息即为每个博主发表过的所有微博。

可选的，本申请实施例中，为了避免由于使用全部弱监督信息而引入噪声，本算法提出了对弱监督信息的无监督生成方法，即本申请实施例能够过滤掉全部弱监督信息中的部分数据，用过滤之后的数据来训练得到表现更好的模型。下面为本申请实施例的过滤数据的方法。

首先，本申请实施例需要确定D个初始弱监督信息，所述D个初始弱监督信息中的第i个初始弱监督息包括所述网络节点d_i和与所述网络节点di相关的所有知识概念。

然后，根据所述所有知识概念中每个知识概念的分值和无监督生成率r，确定所述M_i个知识概念，其中，所述M_i个知识概念中的每一个知识概念的分值大于所述所有知识概念中除所述M_i个知识概念之外的每一个知识概念的分值，所述每个知识概念的分值表示所述每个知识概念处于所述所有知识概念的中心位置的程度，所述无监督生成率r为确定的知识概念的数量M_i与所述所有知识概念的数量的预设比值，r的取值范围为0至1。

具体的，对于一个网络节点d的所有知识概念D_d，根据下面公式计算某一知识概念同其他所有知识概念的余弦相似度的加权和。

其中，cos(·)表示余弦相似度，

表示知识概念，

表示另一知识概念，n是

出现在所有知识概念D_d中的次数。

本申请实施例中，将上述加权和作sw作为该知识概念

的分值。知识概念

分值越高，说明该知识概念处于D_d中知识概念中的越靠中心的位置。上述计算过程中，把知识概念

出现在D_d中的次数作为权重，使得

出现次数越多，对其分值的贡献越大。在计算完分值之后，筛选分值最大的|D_d|×r个知识概念作为D′_d。

S120，根据所述D个弱监督信息，生成异构贝叶斯模型。

所述异构贝叶斯模型包括T个话题和D个文档，所述T个话题中的第j个话题包括参数μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k，所述D个文档中的第i个文档包括所述网络节点d_i和所述M_i个知识概念，所述第i个文档还包括与所述M_i个知识概念一一对应的M_i个第一话题隐变量、与所述网络节点d_i对应的第二话题隐变量和参数θ。这里，上标r表示研究者(researcher)，即多种网络节点类型中的其中一种，上标k表示关键字(keyword)，即多种知识概念类型中的其中一种。

其中，上述μ_j ^r表示所述第j个话题对应的所述网络节点d_i的高斯分布的均值，λ_j ^r表示所述第j个话题对应的所述网络节点d_i的高斯分布的精度，μ_jm ^k表示所述第j个话题对应的所述M_i个知识概念中的第m个知识概念的高斯分布的均值，λ_jm ^k表示所述第j个话题对应的所述M_i个知识概念中的m个知识概念的高斯分布的精度，θ表示所述网络节点d_i的话题多项分布，T为大于1的正整数，j为取值范围为1至T的正整数，m为取值范围为1至M_i的正整数。

本申请实施例中的该异构贝叶斯模型能够在异构的嵌入表示之间通过类似LDA的话题隐变量建立联系。按照话题模型的传统，本申请实施例中，可以将一个弱监督信息条目称为一个文档，因此该异构贝叶斯模型中，每个文档可以包含社交网络节点以及与该社交网络节点交互过的所有知识概念。

可理解，本申请实施例的社交网络中数据处理的方法具有普适性。根据输入的社交网络及语料库不同，可以生成不同的知识图谱。

比如输入是学术社交网络中的学者，对应语料库是学者研究兴趣相关的一些知识概念，交互信息是学者发表的论文，那么就可以生成学者的研究兴趣的知识图谱。如果输入是微博社交网络中影视娱乐方面的博主，语料库是影视娱乐相关的知识概念，交互信息是博主发表的帖子，那么生成的知识图谱就是微博博主最关注的影视娱乐相关的热点。

下文中，将第一话题隐变量称为话题隐变量z，将第二话题隐变量称为y。

图2是本申请实施例的异构贝叶斯模型的图的表示。这里，α是狄利克雷分布的超参数，f^r是社交网络节点的嵌入表示，f^k是知识概念的嵌入表示，τ^k是知识概念嵌入表示的normal Gamma先验的超参数，τ^r是社交网络节点嵌入表示的normal Gamma先验的超参数。

根据上述的异构贝叶斯模型，对于T个话题中的每一个话题t，对于知识概念的嵌入向量表示的每一个维度，从分布NG(τ^k)生成μ^k和λ^k，对于网络节点嵌入表示的每一维度，从分布NG(τ^r)生成μ^r和λ^r。本申请实施例中，嵌入向量表示的维度大概为200。这里，为了简便，省略了μ^k、λ^k、μ^r和λ^r的下标。

本申请实施例中，对于D个文档中的每个文档d，从Dir(α)分布生成话题多项分布θ_d。对于文档d中的每一个知识概念w，可以从多项分布θ_d生成知识概念的话题z，对于每一个知识概念w的每一个维度，从高斯分布N(μ^k _z，λ^k _z)生成嵌入向量表示f^k。本申请实施例中，还可以从文档d中的所有知识概念的话题z中uniform生成网络节点的话题y，对于网络节点的嵌入向量表示的每一个维度，从高斯分布N(μ^r _y，λ^r _y)生成嵌入向量表示f^k。

本申请实施例中的异构贝叶斯模型的联合概率分布可以写成如下形式:

p(θ,μ^r,λ^r,μ^k,λ^k,z,y,f^r,f^k；α,τ^r,τ^k)＝p(θ；θ)p(μ^r,λ^r；τ^r)p(μ^k,λ^k；τ^k)

p(z|θ)p(f^k|y,μ^k,λ^k)p(f^r|y,μ^r,λ^r)p(y|z)

下面对上述等式右边的每一项进行单独展开。

θ的分布服从狄利克雷分布，超参数是α，其概率可以表示为：

其中，下面d表示文档，下标t表示话题。

高斯分布的参数μ和λ由normal Gamma分布生成，超参数是τ^r和τ^k。因此高斯分布参数的概率可以写成如下形式：

其中，下标t表示话题，e表示嵌入向量表示的某一个维度，normal Gamma的超参数τ被展开成四个标量参数{μ₀,λ₀,α₀,β₀}。注意，作为normal Gamma分布超参数的μ₀，λ₀，α₀与模型中的高斯参数μ^k，λ^k，μ^r，λ^r以及狄利克雷超参数α含义不同。

从多项分布生成话题的概率如下：

其中，下标d表示文档，下标m表示知识概念。

从知识概念的话题生成网络节点的话题的概率是一个uniform分布，由于一个知识概念话题可能出现多次，所以该话题被生成的概率正比于出现的次数：

其中，下标d表示文档，下标m表示知识概念。

本申请实施例中，如果采用上述式子作为生成网络节点话题的概率，网络节点的话题必须在知识概念的话题中出现过，因为没有出现过的话题的概率是零。为了使得概率分布更加平滑，采用了拉普拉斯平滑的技巧，所以可以将生成网络节点话题的概率改写为下式：

其中拉普拉斯平滑系数l∈(0,1)。

对于知识概念嵌入表示

的每一个维度，其生成概率是一个单变量高斯分布：

其中，λ^k和μ^k均是在对应话题对应维度下的取值，为了简洁，这里省略了其下标。

对于网络节点嵌入表示

的每个维度，其生成概率是一个单变量高斯分布：

其中，λ^r和μ^r均是在对应话题对应维度下的取值，为了简洁，这里省略了其下标。

这里，可以借鉴吉布斯采样的思想，对模型参数μ^r，λ^r，μ^k，λ^k，θ进行积分，得到变量关于模型超参数的联合概率分布。

对参数θ进行积分，

其中，n_d是一个长度为T的向量，向量中每个元素

表示文档d中被分配到话题t的知识概念的数目。α作为狄利克雷函数的超参数，也是一个长度为T的向量。

对参数μ^k，λ^k进行积分，

其中，函数G(·)定义为：

其中，n是所有y＝t对应的f的数目。假设x是所有y＝t的对应的嵌入向量表示f的第e维组成的向量，则：

α_n＝α₀+n/2

κ_n＝κ₀+n

其中，

表示x中所有元素的均值。

相似地，可以对参数μ^r，λ^r进行积分，

综上，通过对参数μ^r，λ^r，μ^k，λ^k，θ进行积分，可以得到对所有模型参数积分之后所有变量关于模型超参数的联合概率分布，如下：

其中，E^r和E^k分别表示网络节点和知识概念嵌入表示的维度。

本申请实施例中，采用吉布斯采样对模型进行概率推理，为了进行吉布斯采样，需要推导每个变量在给定其他变量情况下的条件概率。

对于文档d，在给定文档-d的话题隐变量y_-d、z、知识概念的嵌入向量表示和网络节点的嵌入向量表示的情况下，网络节点的话题y_d＝t的条件概率可以写成：

其中，文档-d表示除文档d之外的文档，

表示文档d中话题为t的知识概念的数目。函数G'(·)定义为：

其中，n是所有y＝t对应的f的数目。假设x是所有y＝t的对应的嵌入向量表示f的第e维组成的向量。n'＝n-n_d，n_d是文档中y＝t对应的f的数目。

本申请实施例中，在给定话题隐变量z_-dm、y、知识概念的嵌入向量表示和网络节点的嵌入向量表示的情况下，知识概念的话题z_dm＝t的条件概率可以写成：

其中，z_-dm表示除了文档d中的知识概念m之外的话题隐变量。

本申请实施例中，对于文档d，话题分布参数θ_d更新如下：

和

更新如下:

对于话题t，假设n是所有y＝t的网络节点的数目，x是所有的网络节点y＝t对应的嵌入向量表示组成的向量，则对于嵌入向量表示的每一维，参数

和

更新如下:

现有技术在嵌入表示模型和话题模型结合的高斯LDA模型中，并没有对嵌入表示进行更新。在本申请实施例中，提出对网络节点和知识概念的嵌入向量表示也进行更新，这样可以更好地利用弱监督学习纠正非监督学习得到的嵌入表示的不足。

将目标函数定义为给定隐变量z和y的情况下的嵌入表示的对数似然，如下：

其中

表示所有文档中话题为t的知识概念数目。

为了最大化嵌入向量表示的对数似然，本申请实施例直接从上述目标函数得到closed-form的嵌入表示。但是由于每次抽样的话题是具有随机性的，这样得到的嵌入表示容易受到话题的随机性影响，变动太大。因此本申请实施例提出采用梯度下降的方法对嵌入表示进行更新。

知识概念的嵌入表示的梯度为：

网络节点的嵌入表示的梯度为：

在本申请实施例的社交网络中数据处理的方法，可以根据上述D个弱监督信息，学习模型的话题隐变量和模型参数。模型的学习过程分为3个阶段：初始化、burn-in和抽样阶段。

在初始化阶段，可以随机确定所述M_i个第一话题隐变量的初始值和所述第二话题隐变量的初始值。这里，第二话题隐变量的数量与网络节点的数量相同，即该第二话题隐变量与网络节点一一对应。

具体的，可以对话题隐变量y和z进行初始化，每个话题隐变量被uniform随机分配到一个话题。例如，可以初始化z_dm＝t和y_d＝t。应注意，对于包含网络节点d_i的文档，其话题隐变量z也具有M_i个，并且与上述M_i个知识概念一一对应，其话题隐变量y具有一个，即为该网络节点d_i对应的话题隐变量。这里，为了简洁，省略了话题因变量z的下标。

在burn-in阶段，采用collapsed吉布斯采样的方法进行推理。在每一轮迭代中，都固定其他变量的值，计算当前考察的变量在给定其他变量的情况下的条件概率分布，然后从分布中进行抽样。

在模型的学习过程中，设置burn-in的迭代次数为t_b，即burn-in阶段进行t_b次的迭代。

本申请实施例中，可以根据所述M_i个第一话题隐变量的初始值、所述第i个弱监督信息和所述M_i个知识概念的话题的条件概率，对所述M_i个第一话题隐变量进行t_b次抽样更新。根据所述第二话题隐变量的初始值、所述第i个弱监督信息和所述网络节点d_i的话题的条件概率，对所述第二话题隐变量进行t_b次抽样更新。

其中，所述M_i个知识概念的话题的条件概率中的每个知识概念的话题的条件概率表示所述每个知识概念的第一话题隐变量在给定除所述每个知识概念的第一话题隐变量之外的其他话题隐变量、所述第二话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点d_i的嵌入式向量的情况下的条件概率。所述网络节点d_i的话题的条件概率表示所述网络节点d_i的第二话题隐变量在给定除所述网络节点d_i的第二话题隐变量之外的其他话题隐变量、所述M_i个第一话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点d_i的嵌入式向量的情况下的条件概率。

具体的，在第一次迭代时，在初始化后，对模型中的每个知识概念的话题隐变量z，根据上述公式(2)对z进行抽样生成，对模型中的每一个网络节点的话题隐变量，根据上述公式(1)对y进行抽样生成。这里，公式(1)和(2)中的其他变量的值是根据上述D个弱监督信息确定的。

这样，在第一次迭代后，能够对话题隐变量y和z进行抽样更新。这时，为了消除话题隐变量初始值对模型的影响，不对模型参数或嵌入向量表示进行更新。

在第二次进行迭代时，话题隐变量y的初始值为第一次迭代更新之后话题隐变量y的值，话题隐变量z初始值为第一次迭代更新之后话题隐变量z的值。应注意，在burn-in阶段的t_b次迭代中。每一次迭代的话题隐变量y的初始值均为上一次迭代更新之后话题隐变量y的值，话题隐变量z初始值均为上一次迭代更新之后话题隐变量z的值。

在更新后的M_i个第一话题隐变量和更新后的第二话题收敛之后，分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行抽样更新。

具体的，经过t_b次迭代，模型的话题隐变量y和z基本进入稳定状态之后，也就是在模型的话题隐变量y和z基本收敛之后，模型的学习阶段进入了抽样阶段。在抽样阶段，可以分别对话题隐变量y和z、模型参数进行抽样更新。

在模型的学习过程中，设置抽样阶段的最大迭代次数为t_m，即抽样阶段最多进行t_m次迭代。还可以设置模型参数更新周期为t_p。

这样，在抽样阶段，分别对话题隐变量y和z、模型参数进行抽样更新具体可以为根据所述更新后的M_i个第一话题隐变量、所述第i个弱监督信息和所述所述M_i个知识概念的话题的条件概率，对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新；根据所述更新后的第二话题隐变量、所述第i个弱监督信息和所述网络节点d_i的话题的条件概率，对所述更新后的第二话题隐变量进行t_p次抽样更新；在对所述更新后的M_i个第一话题隐变量和所述更新后的第二话题隐变量分别进行t_p次抽样更新之后，分别对θ、μ_j ^r、λ_j ^r、μ_jm ^k、 λ_jm ^k进行更新。

这里，可以在对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新、对所述更新后的第二话题隐变量进行t_p次抽样更新之后，分别对θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行一次更新。

具体的，在抽样阶段的第一次迭代中，在对每个网络节点的话题隐变量和知识概念的话题隐变量进行t_p次抽样更新之后，根据上述公式(3)、(5)、(7)、(4)和(6)获取更新的模型参数θ、λ^k、λ^r、μ^k和μ^r。这里，话题隐变量y和z的更新方法与上述burn-in阶段相同。

可选的，本申请实施例中，所述分别对θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行更新包括：分别对所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行N次抽样更新，其中，N次更新中的每次更新均执行对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新，对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新和分别对θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行更新，得到N次更新后的θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k。

对N次更新后的θ累加求平均值，将θ累加求得的平均值作为更新后的所述异构贝叶斯模型的θ参数；

对N次更新后的μ_j ^r累加求平均值，将μ_j ^r累加求得的平均值作为更新后的所述异构贝叶斯模型的μ_j ^r参数；

对N次更新后的λ_j ^r累加求平均值，将λ_j ^r累加求得的平均值作为更新后的所述异构贝叶斯模型的λ_j ^r参数；

对N次更新后的μ_jm ^k累加求平均值，将μ_jm ^k累加求得的平均值作为更新后的所述异构贝叶斯模型的μ_jm ^k参数；

对N次更新后的λ_jm ^k累加求平均值，将λ_jm ^k累加求得的平均值作为更新后的所述异构贝叶斯模型的λ_jm ^k参数。

具体的，可以对多个周期t_p中计算获得的模型参数进行累加，将抽样阶段所有读取的模型参数的平均值作为最终的模型参数。

这时，可以设置抽样阶段的话题隐变量的迭代次数为t_l。因此，在对话题隐变量进行t_p次抽样更新、对模型参数θ、λ^k、λ^r、μ^k和μ^r进行一次更新之后，可以继续按照上述方式对话题隐变量和模型参数θ、λ^k、λ^r、μ^k和μ^r进行更新。可以理解，这时总共对话题隐变量进行了t_l次抽样更新，对模型参数θ、λ^k、λ^r、μ^k和μ^r进行了(t_l/t_p)次更新。将(t_l/t_p)次更新之后的(t_l/t_p)个θ、λ^k、λ^r、μ^k和μ^r分别进行累加并求取平均值，分别将获得的θ、λ^k、λ^r、μ^k和μ^r的平均值作为θ、λ^k、λ^r、μ^k和μ^r。

可选的，本申请实施例中，分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行抽样更新之后，还可以对网络节点和知识概念的嵌入向量表示进行更新。

具体的，对网络节点和知识概念的嵌入向量表示进行更新，可以包括：根据所述网络节点d_i的嵌入向量表示和所述M_i个知识概念的嵌入向量表示，确定在给定所述M_i个第一隐变量和所述第二隐变量的情况下的初始对数似然；根据所述初始对数似然，确定更新后的所述网络节点d_i的嵌入向量表示；根据所述初始对数似然，分别确定更新后的所述M_i个知识概念的嵌入向量表示。

具体的，在对话题隐变量的迭代次数为t_l之后，可以对每个网络节点和知识概念的嵌入向量表示进行更新。这时，可以设置嵌入向量表示的迭代次数为t_e次，每个网络节点学习初始学习率为lr^r，每个知识概念初始学习率为lr^k。

在嵌入向量表示的第一次迭代中，首先需要确定当前的模型的初始对数似然。具体的，该初始对数似然可以为上述L。

然后，根据所述初始对数似然确定所述网络节点d_i的嵌入向量表示的梯度；根据所述网络节点d_i的嵌入向量表示的梯度、所述网络节点学习率和所述网络节点d_i的嵌入向量表示，确定所述网络节点d_i的更新后的嵌入向量表示，其中，所述网络节点学习率表示所述所述网络节点d_i的嵌入式向量的梯度下降的学习率。

这里，还可以根据所述初始对数似然确定所述M_i个知识概念的嵌入向量表示的梯度；根据所述M_i个知识概念的知识概念的嵌入表示的梯度、所述M_i个知识概念的知识概念学习率和所述M_i个知识概念的嵌入向量表示，分别确定所述M_i个知识概念的更新后的嵌入向量表示，其中，所述M_i个知识概念中的每个知识概念的知识概念学习率表示所述每个知识概念的嵌入式向量的梯度下降的学习率。

具体的，对每一个网络节点的嵌入向量表示f^r，可以根据公式(8)计算每个网络节点的梯度g₁。这时，可以根据f^r+lr^r×g₁确定网络节点的更新后的嵌入向量表示。

对每一个知识概念的嵌入向量表示f^k，可以根据公式(9)计算每个知识概念的梯度g₂。这时，可以根据f^k+lr^k×g₂确定知识概念的更新后的嵌入向量表示。

可选的，本申请实施例中，还可以根据所述网络节点d_i的更新后的嵌入向量表示和所述M_i个知识概念的更新后的嵌入向量表示，确定在给定所述M_i个第一隐变量和所述第二隐变量的情况下的的更新对数似然。

如果所述更新对数似然大于或等于所述初始对数似然，则将所述网络节点d_i的嵌入向量表示替换为所述网络节点d_i的更新后的嵌入向量表示，将所述M_i个知识概念的嵌入向量表示替换为所述M_i个知识概念的更新后的嵌入向量表示。

如果所述更新对数似然小于所述初始对数似然，则将所述网络节点学习率更新为所述网络节点学习率与第一衰减指数的乘积，将所述M_i个知识概念的知识概念学习率分别更新为所述M_i个知识概念的知识概念学习率与第二衰减指数的乘积，保留所述网络节点d_i的嵌入向量表示不变，并且保留所述M_i个知识概念的嵌入向量表示不变，其中，所述第一衰减指数表示所述网络节点学习率的衰减程度，所述第二衰减指数表示所述M_i个知识概念学习率中的每个知识概念学习率的衰减程度。

这里，保留所述网络节点d_i的嵌入向量表示不变，即不将所述网络节点d_i的嵌入向量表示替换为所述网络节点d_i的更新后的嵌入向量表示。保留所述M_i个知识概念的嵌入向量表示不变，即不将所述M_i个知识概念的嵌入向量表示替换为所述M_i个知识概念的更新后的嵌入向量表示。

具体的，本申请实施例中，由于梯度下降的学习率lr^r和lr^k比较难设置，本申请实施例使用了一个动态调整梯度下降学习率的技巧。每次进行梯度下降之前，先计算当前模型的对数似然，然后尝试进行梯度下降，再次计算迭代之后的模型的对数似然。

可以理解，如果对数似然上升，说明当前的学习率合适，本申请实施例采用梯度下降之后的嵌入表示。如果对数似然下降，说明当前的学习率过大，这时，将每个网络节点和指示概念的学习率乘以一个衰减指数，并放弃当前迭代对嵌入表示的更新。

这样，完成了抽样阶段的第一次迭代。因为本申请实施例设置的最大迭代次数为t_m，因此抽样阶段的迭代过程进行t_m次将获得模型的话题隐变量z和y，模型参数θ、λ^k、λ^r、μ^k、μ^r，和更新之后的每个网络节点和知识概念的嵌入向量表示。

S130，根据所述异构贝叶斯模型，确定第一网络节点与第一知识概念的有效联系。

这里，所述第一网络节点为所述D个弱监督信息中的所有网络节点之中的一个，即所述第一网络节点属于所述D个弱监督信息，所述第一知识概念为所述D个弱监督信息中的所有知识概念之中的一个，即所述第一知识概念属于所述D个弱监督信息。

具体的，该第一网络节点可以为给定的一个网络节点d，该第一知识概念可以为给定的一个知识概念w，第一网络节点和第一知识概念两者在上述得到的异构贝叶斯模型(即本申请实施例中生成的社交知识图谱)中成为邻居的概率为下式：

上式中，省略了其他给定的模型变量。这里，将d和w在社交知识图谱中成为邻居的概率定义为y_d通过z_w的话题生成后，再分别生成得到两者嵌入向量表示的概率。这里，对z_w进行枚举求和，就能得到两者在社交知识图谱中匹配的概率。

本申请实施例生成的异构贝叶斯模型具有准确性和普适性。将本申请实施例的社交网络中数据处理的方法与其他基线算法进行多次对比实验，均得到了有效地验证。下面是对试验中基线算法的简单介绍。

a.AM-base是AMiner系统之前的研究兴趣抽取方法。该方法采用基于括词干化，过滤词表，词性标注(POS tagging)，词语边界检测等自然语言处理技术的微软结构化查询语言(Structured Query Language，SQL)服务器(Server)关键词抽取应用程序编程接口(Application Programming Interface，API)。通过该API，可以根据上下文依赖关系从文本中抽取关键词之后，该方法依据关键词的频度对关键词进行排序。

b.CountKG方法直接把弱监督信息中的N-gram与知识图谱中的词表进行匹配，抽出所有匹配成功的N-gram作为关键词，按照词频进行排序。

c.GenVector是本申请实施例提出来的数据处理的方法。GenVector包括异构贝叶斯模型，网络节点和知识概念嵌入表示的学习，以及弱监督信息的无监督生成方法。

d.GenVector-E是在本申请实施例的数据处理的方法的基础上去掉了嵌入表示更新的部分的算法。

e.GenVector-M是在本申请实施例的数据处理的方法的基础上去掉异构贝叶斯模型，直接从弱监督信息中随机生成。

f.GenVector-R是在本申请实施例的数据处理的方法的基础上去掉异构贝叶斯模型，直接根据下式：

对给出的分数对知识概念进行排序。

g.作者-话题模型(Author-Topic model)。

h.张量神经网络(Neural tensor network，NTN)，该算法使用学习得到的网络节点和知识概念的嵌入表示作为NTN的输入，使用弱监督信息作为训练数据。

下面两个实验描述及其结果是在所进行的几个实验中选取的最具代表性的实验。

第一个实验为个人主页的匹配实验。

该实验通过研究者的个人主页来确定某一个知识概念是否是该研究者的主要研究兴趣，即使用AMiner的主页抽取算法从互联网抓取一部分研究者的主页，接着通过与维基百科的知识概念集合进行匹配，得到研究者的研究兴趣，例如该实验的结果为一个包含1874个研究者的数据集，并用这些知识概念作为正确答案来比较不同的社交网络中数据处理的方法的准确率。

对于每一种社交网络中数据处理的方法，选取每一个研究者排名前五的知识概念，然后计算这五个知识概念的准确率。实验结果如下表1所示：

表1

方法	准确率	方法	准确率
GenVector	77.9402％	AM-base	73.8189％
GenVector-E	77.8548％	CountKB	54.4823％
GenVector-M	65.5608％	Author-topic	74.4397％
GenVector-R	72.8495％	NTN	65.8911％

从表1中可以看出，本申请实施例的社交网络中的数据处理的方法的准确率显著地高于基线方法。

具体的，GenVector的准确率相对于AM-base提升了5.58％，说明本申请实施例的社交网络中的数据处理的方法可以较好地更新取代AMiner原有的算法。GenVector的准确率相对于GenVector-E取得提升，说明对于嵌入表示的更新可以得到更好的结果。GenVector的准确率相对于GenVector-M提升了18.88％，GenVector的准确率相对于GenVector-R提升了6.98％，说明异构贝叶斯嵌入模型在算法中发挥了重要作用。GenVector的准确率相对于CountKB提升了43.05％，说明简单的通过知识库匹配统计不能工作，还需要进一步对语义进行理解。GenVector的准确率相对于Author-topic提升了4.70％，说明引入嵌入表示可以增强模型的表达能力。GenVector的准确率相对于NTN提升了18.28％，说明仅仅使用嵌入表示作为分类器的输入不能得到很好的结果。

第二个实验为LinkedIn个人页面的匹配实验。

该实验通过研究者在LinkedIn上的个人页面来确定一个知识概念是否是该研究者的主要研究兴趣，即使用异构网络匹配算法COSNET将AMiner社交网络和LinkedIn网络进行连接，选取连接概率最大的节点，然后将AMiner上的研究者对应到LinkedIn的账号上。接着从LinkedIn上抓取该研究者的个人页面，并从中抽取一栏，作为研究兴趣的标准答案。将COSNET的概率阈值设置得较高，以保证异构网络连接的可靠性，然后选取所有一栏不为空的研究者。经过上述步骤可得到一个包含222个研究者的数据集。

对于每一种社交网络中数据处理的方法，选取每一个研究者排名前五的知识概念，以LinkedIn个人主页上的一栏为正确答案，计算这五个知识概念的准确率。实验结果如下表2所示：

表2

方法	准确率	方法	准确率
GenVector	26.8468％	AM-base	24.5195％
GenVector-E	26.5765％	CountKB	25.4954％
GenVector-M	24.6695％	Author-topic	26.4864％
GenVector-R	26.3063％	NTN	24.3243％

从表2中可以看出，本申请实施例的社交网络中的数据处理的方法的准确率显著地高于基线方法。

具体的，GenVector的准确率相对于GenVector-E，GenVector-M，GenVector-R都有提升，且击败了AM-base，Author-topic，NTN等从不同角度进行建模的方法。

相较于之前的社交网络中数据处理的方法，本申请实施例具有速度快，准确率高的特点。本申请实施例对社交网络中数据处理的方法进行了优化，使计算的速度提升了60倍，单次迭代时间从原来的3小时加快到3分钟。

图4为本申请实施例的社交网络中数据处理的装置300的示意性框图。该装置300包括：

确定单元310，用于确定D个弱监督信息，所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点d_i和与所述网络节点d_i相关的M_i个知识概念，其中，所述网络节点d_i表示为嵌入向量表示，所述M_i个知识概念分别表示为嵌入向量表示，D和M_i分别为大于1的正整数，i为取值范围为1至D的正整数。

生成单元320，用于根据所述D个弱监督信息，生成异构贝叶斯模型，所述异构贝叶斯模型包括T个话题和D个文档，所述T个话题中的第j个话题包括参数μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k，所述D个文档中的第i个文档包括所述网络节点d_i和所述M_i个知识概念，所述第i个文档还包括与所述M_i个知识概念一一对应的M_i个第一话题隐变量、与所述网络节点d_i一一对应的第二话题隐变量和与所述网络节点d_i一一对应的参数θ。

其中，μ_j ^r表示所述第j个话题对应的所述网络节点d_i的高斯分布的均值，λ_j ^r表示所述第j个话题对应的所述网络节点d_i的高斯分布的精度，μ_jm ^k表示所述第j个话题对应的所述M_i个知识概念中的第m个知识概念的高斯分布的均值，λ_jm ^k表示所述第j个话题对应的所述M_i个知识概念中的m个知识概念的高斯分布的精度，θ表示所述网络节点d_i的话题多项分布，T为大于1的正整数，j为取值范围为1至T的正整数，m为取值范围为1至M_i的正整数。

所述确定单元310还用于根据所述异构贝叶斯模型，确定第一网络节点与第一知识概念的有效联系。

其中，

表示该第一网络节点的嵌入向量表示，

表示该第一知识概念的嵌入向量表示。

可选的，本申请实施例中，生成单元320具体用于：

随机确定所述M_i个第一话题隐变量的初始值和所述第二话题隐变量的初始值。

对于文档d，在给定文档-d的第二话题隐变量y_-d、第一话题隐变量z、网络节点的嵌入式表示和知识概念的嵌入式表示的情况下，网络节点的话题y_d＝t的条件概率可以写成：

表示文档d中话题为t的知识概念的数目。函数G'(·)定义为：

可选的，本申请实施例中，所述在所述生成单元320在对所述M_i个第一话题隐变量和所述第二话题隐变量分别进行t_b次抽样更新之后，分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行更新，包括：

根据所述更新后的M_i个第一话题隐变量、所述第i个弱监督信息和所述所述M_i个知识概念的话题的条件概率，对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新。

本申请实施例中，对于文档d，话题分布参数θ_d更新如下：

和

更新如下:

和

更新如下:

可选的，本申请实施例中，所述生成单元320具体用于：分别对所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行N次抽样更新，其中，所述N次更新中的每次更新均执行对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新，对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新和分别对θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行更新，得到N次更新后的θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k，

可选的，本申请实施例中，在分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行抽样更新分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j ^r、λ_j ^r、μ_jm ^k、λ_jm ^k进行抽样更新之后，所述生成单元320还用于：

根据所述网络节点d_i的嵌入向量表示和所述M_i个知识概念的嵌入向量表示，确定在给定所述M_i个第一隐变量和所述第二隐变量的情况下的初始对数似然。

其中

表示所有文档中话题为t的知识概念数目。

这里，将没有更新的网络节点d_i的嵌入向量表示和没有更新的M_i个知识概念的嵌入向量表示的对数似然称为初始对数似然。

根据所述初始对数似然，确定所述网络节点d_i的更新后的嵌入向量表示；

根据所述初始对数似然，分别确定所述M_i个知识概念的更新后的嵌入向量表示。

可选的，本申请实施例中，所述生成单元320根据所述初始对数似然，确定所述网络节点d_i的更新后的嵌入向量表示，包括：

根据所述初始对数似然确定所述网络节点d_i的嵌入向量表示的梯度；

具体的，网络节点的嵌入表示的梯度为：

根据所述网络节点d_i的嵌入向量表示的梯度、网络节点学习率和所述网络节点d_i的嵌入向量表示，确定所述更新后的所述网络节点d_i的嵌入向量表示，其中，所述网络节点学习率表示所述所述网络节点d_i的嵌入式向量的梯度下降的学习率。

可选的，本申请实施例中，所述生成单元根据所述初始对数似然，分别确定所述M_i个知识概念的更新后的嵌入向量表示，包括：

根据所述初始对数似然确定所述M_i个知识概念的嵌入向量表示的梯度；

知识概念的嵌入表示的梯度为：

根据所述M_i个知识概念的知识概念的嵌入表示的梯度、M_i个知识概念的知识概念学习率和所述M_i个知识概念的嵌入向量表示，分别确定所述更新后的所述M_i个知识概念的嵌入向量表示，其中，所述M_i个知识概念中的每个知识概念的知识概念学习率表示所述每个知识概念的嵌入式向量的梯度下降的学习率。

可选的，本申请实施例中，所述生成单元320具体还用于：

根据所述网络节点d_i的更新后的嵌入向量表示和所述M_i个知识概念的更新后的嵌入向量表示，确定在给定所述M_i个第一隐变量和所述第二隐变量的情况下的的更新对数似然。

这里，将网络节点d_i的更新之后的嵌入向量表示和M_i个知识概念的更新之后嵌入向量表示的对数似然称为更新对数似然。

若所述更新对数似然大于或等于所述初始对数似然，则将所述网络节点d_i的嵌入向量表示替换为所述网络节点d_i的更新后的嵌入向量表示，将所述M_i个知识概念的嵌入向量表示替换为所述M_i个知识概念的更新后的嵌入向量表示；

若所述更新对数似然小于所述初始对数似然，则将所述网络节点学习率更新为所述网络节点学习率与第一衰减指数的乘积，将所述M_i个知识概念的知识概念学习率分别更新为所述M_i个知识概念的知识概念学习率与第二衰减指数的乘积，并且保留所述网络节点d_i的嵌入向量表示不变，保留所述M_i个知识概念的嵌入向量表示不变，其中，所述第一衰减指数表示所述网络节点学习率的衰减程度，所述第二衰减指数表示所述M_i个知识概念学习率中的每个知识概念学习率的衰减程度。

可选的，本申请实施例中，所述确定单元310具体用于：

可选的，本申请实施例中，知识概念

的分值可以表示为：

其中，cos(·)表示余弦相似度，

表示知识概念，

表示另一知识概念，n是

出现在所有知识概念D_d中的次数。

可选的，本申请实施例中，所述装置还包括：

转换单元，用于根据知识概念集合、语料的长度和所述语料的最大的N-gram长度，对所述语料进行转换，所述知识概念集合包括所述D个弱监督信息中的所有知识概念；

第一获取单元，用于将转换后的所述语料输入至第一skipgram模型，获取所述知识概念集合中每个知识概念的嵌入向量表示。

可选的，本申请实施例中，所述确定单元310还用于：

具体的，网络节点的加权概率可以表示为：

所述装置还包括第二获取单元，用于将所述每个网络节点的至少一个随机游走序列输入至第二skipgram模型，获取所述每个网络节点的嵌入向量表示。

本申请实施例中，该第一skipgram模型和该第二skipgram模型可以相同，也可以不同，本申请对此不作限定。

应注意，本申请实施例中，确定单元310和生成单元320可以由处理器实现。如图5所示，装置400可以包括处理器410、存储器420和总线系统430。其中，存储器420可以用于存储处理器410执行的代码等。

装置400中的各个组件通过总线系统430耦合在一起，其中总线系统430除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都标为总线系统430。

在实现过程中，上述方法的各步骤可以通过处理器410中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器420，处理器410读取存储器420中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请上述方法实施例可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

图4所示的装置300或图5所示的装置400能够实现前述图2和图3所示的方法实施例对应的各个过程，具体的，该装置300或装置400可以参见上述图2和图3中的描述，为避免重复，这里不再赘述。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例中描述的各方法步骤和单元，能够以电子硬件、计算机软件或者二者的结合来实现。为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

尽管通过参考附图并结合优选实施例的方式对本申请本申请进行了详细描述，但本申请本申请并不限于此。在不脱离本申请本申请的精神和实质的前提下，本领域普通技术人员可以对本申请本申请的实施例进行各种等效的修改或替换，而这些修改或替换都应在本申请本申请的涵盖范围内。

Claims

一种社交网络中数据处理的方法，其特征在于，包括：

确定D个弱监督信息，所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点d_i和与所述网络节点d_i相关的M_i个知识概念，其中，所述网络节点d_i表示为嵌入式向量，所述M_i个知识概念分别表示为嵌入式向量，D和M_i分别为大于1的正整数，i为取值范围为1至D的正整数；

根据所述D个弱监督信息，生成异构贝叶斯模型，所述异构贝叶斯模型包括T个话题和D个文档，所述T个话题中的第j个话题包括参数μ_j、λ_j、μ_jm、λ_jm，所述D个文档中的第i个文档包括所述网络节点d_i和所述M_i个知识概念，所述第i个文档还包括与所述M_i个知识概念一一对应的M_i个第一话题隐变量、与所述网络节点d_i一一对应的第二话题隐变量和与所述网络节点d_i一一对应的参数θ，其中，μ_j表示所述第j个话题对应的所述网络节点d_i的高斯分布的均值，λ_j表示所述第j个话题对应的所述网络节点d_i的高斯分布的精度，μ_jm表示所述第j个话题对应的所述M_i个知识概念中的第m个知识概念的高斯分布的均值，λ_jm表示所述第j个话题对应的所述M_i个知识概念中的m个知识概念的高斯分布的精度，θ表示所述网络节点d_i的话题多项分布，T为大于1的正整数，j为取值范围为1至T的正整数，m为取值范围为1至M_i的正整数；

根据所述异构贝叶斯模型，确定第一网络节点和第一知识概念的有效联系，其中，所述第一网络节点为所述D个弱监督信息中的所有网络节点之一，所述第一知识概念为所述D个弱监督信息中的所有知识概念之一。
根据权利要求1所述的方法，其特征在于，所述根据所述D个弱监督信息，生成异构贝叶斯模型，包括：

随机确定所述M_i个第一话题隐变量的初始值和所述第二话题隐变量的初始值；

根据所述M_i个第一话题隐变量的初始值、所述第i个弱监督信息和所述M_i个知识概念的话题的条件概率，对所述M_i个第一话题隐变量进行t_b次抽样更新，其中，所述M_i个知识概念的话题的条件概率中的每个知识概念的话题的条件概率表示所述每个知识概念的第一话题隐变量在给定除所述每个知识概念的第一话题隐变量之外的其他话题隐变量、所述第二话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点d_i的嵌入式向量的情况下的条件概率；

根据所述第二话题隐变量的初始值、所述第i个弱监督信息和所述网络节点d_i的话题的条件概率，对所述第二话题隐变量进行t_b次抽样更新，其中，所述网络节点d_i的话题的条件概率表示所述网络节点d_i的第二话题隐变量在给定除所述网络节点d_i的第二话题隐变量之外的其他话题隐变量、所述M_i个第一话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点d_i的嵌入式向量的情况下的条件概率；

在对所述M_i个第一话题隐变量和所述第二话题隐变量分别进行t_b次抽样更新之后，分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j、λ_j、μ_jm、λ_jm进行更新，以生成所述异构贝叶斯模型。
根据权利要求2所述的方法，其特征在于，所述在对所述M_i个第一话题隐变量和所述第二话题隐变量分别进行t_b次抽样更新之后，分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j、λ_j、μ_jm、λ_jm进行更新，包括：

根据所述更新后的M_i个第一话题隐变量、所述第i个弱监督信息和所述所述M_i个知识概念的话题的条件概率，对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新；

根据所述更新后的第二话题隐变量、所述第i个弱监督信息和所述网络节点d_i的话题的条件概率，对所述更新后的第二话题隐变量进行t_p次抽样更新；

在对所述更新后的M_i个第一话题隐变量和所述更新后的第二话题隐变量分别进行t_p次抽样更新之后，分别对θ、μ_j、λ_j、μ_jm、λ_jm进行更新。
根据权利要求3所述的方法，其特征在于，所述分别对θ、μ_j、λ_j、μ_jm、λ_jm进行更新包括：分别对所述参数θ、μ_j、λ_j、μ_jm、λ_jm进行N次更新，其中，所述N次更新中的每次更新均执行对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新，对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新和分别对θ、μ_j、λ_j、μ_jm、λ_jm进行更新，得到N次更新后的θ、μ_j、λ_j、μ_jm、λ_jm，

对所述N次更新后的θ累加求平均值，将θ累加求得的平均值作为更新后的所述异构贝叶斯模型的θ参数；

对所述N次更新后的μ_j累加求平均值，将μ_j累加求得的平均值作为更新后的所述异构贝叶斯模型的μ_j参数；

对所述N次更新后的λ_j累加求平均值，将λ_j累加求得的平均值作为更新后的所述异构贝叶斯模型的λ_j参数；

对所述N次更新后的μ_jm累加求平均值，将μ_jm累加求得的平均值作为更新后的所述异构贝叶斯模型的μ_jm参数；

对所述N次更新后的λ_jm累加求平均值，将λ_jm累加求得的平均值作为更新后的所述异构贝叶斯模型的λ_jm参数。
根据权利要求2-4中任一项所述的方法，其特征在于，所述分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j、λ_j、μ_jm、λ_jm进行更新之后，还包括：

根据所述网络节点d_i的嵌入式向量和所述M_i个知识概念的嵌入式向量，确定在给定所述M_i个第一隐变量和所述第二隐变量的情况下的初始对数似然；

根据所述初始对数似然，确定所述网络节点d_i的更新后的嵌入式向量；

根据所述初始对数似然，分别确定所述M_i个知识概念的更新后的嵌入式向量。
根据权利要求5所述的方法，其特征在于，所述根据所述初始对数似然，确定所述网络节点d_i的更新后的嵌入式向量，包括：

根据所述初始对数似然确定所述网络节点d_i的嵌入式向量的梯度；

根据所述网络节点d_i的嵌入式向量的梯度、网络节点学习率和所述网络节点d_i的嵌入式向量，确定所述所述网络节点d_i的更新后的嵌入式向量，其中，所述网络节点学习率表示所述所述网络节点d_i的嵌入式向量的梯度下降的学习率。
根据权利要求5所述的方法，其特征在于，所述根据所述初始对数似然，分别确定所述M_i个知识概念的更新后的嵌入式向量，包括：

根据所述初始对数似然分别确定所述M_i个知识概念的嵌入式向量的梯度；

根据所述M_i个知识概念的知识概念的嵌入表示的梯度、所述M_i个知识概念的知识概念学习率和所述M_i个知识概念的嵌入式向量，分别确定所述所述M_i个知识概念的更新后的嵌入式向量，其中，所述M_i个知识概念中的每个知识概念的知识概念学习率表示所述每个知识概念的嵌入式向量的梯度下降的学习率。
根据权利要求5至7中任一项所述的方法，其特征在于，所述方法还包括：

根据所述网络节点d_i的更新后的嵌入式向量和所述M_i个知识概念的更新后的嵌入式向量，确定在给定所述M_i个第一隐变量和所述第二隐变量的情况下的的更新对数似然；

若所述更新对数似然大于或等于所述初始对数似然，则将所述网络节点d_i的嵌入式向量替换为所述网络节点d_i的更新后的嵌入式向量，将所述M_i个知识概念的嵌入式向量替换为所述M_i个知识概念的更新后的嵌入式向量；

若所述更新对数似然小于所述初始对数似然，则将所述网络节点学习率更新为所述网络节点学习率与第一衰减指数的乘积，将所述M_i个知识概念的知识概念学习率分别更新为所述M_i个知识概念的知识概念学习率与第二衰减指数的乘积，并且保留所述网络节点d_i的嵌入式向量不变，保留所述M_i个知识概念的嵌入式向量不变，其中，所述第一衰减指数表示所述网络节点学习率的衰减程度，所述第二衰减指数表示所述M_i个知识概念学习率中的每个知识概念学习率的衰减程度。
根据权利要求1-8中任一项所述的方法，其特征在于，所述确定D个弱监督信息，包括：

确定D个初始弱监督信息，所述D个初始弱监督信息中的第i个初始弱监督信息包括所述网络节点d_i和与所述网络节点d_i相关的所有知识概念；

根据所述所有知识概念中每个知识概念的分值和无监督生成率r，确定所述M_i个知识概念，其中，所述M_i个知识概念中的每一个知识概念的分值大于所述所有知识概念中除所述M_i个知识概念之外的每一个知识概念的分值，所述每个知识概念的分值表示所述每个知识概念处于所述所有知识概念的中心位置的程度，所述无监督生成率r为确定的知识概念的数量M_i与所述所有知识概念的数量的预设比值，r的取值范围为0至1。
根据权利要求1-9中任一项所述的方法，其特征在于，在所述确定D个弱监督信息之前，所述方法还包括：

根据知识概念集合、语料的长度和所述语料的最大N-gram长度，对所述语料进行转换，所述知识概念集合包括所述D个弱监督信息中的所有知识概念；

将转换后的所述语料输入至skipgram模型，获取所述知识概念集合中每个知识概念的嵌入式向量。
根据权利要求1-9中任一项所述的方法，其特征在于，在所述确定D个弱监督信息之前，所述方法还包括：

确定所述社交网络中的每个网络节点的加权概率，其中，所述每个网络节点的加权概率表示所述每个网络节点访问下一个网络节点的概率，所述社交网络中所有网络节点包括所述D个弱监督信息中的所有网络节点；

根据所述每个网络节点的加权概率，确定所述每个网络节点的至少一个随机游走序列；

将所述每个网络节点的至少一个随机游走序列输入至skipgram模型，获取所述每个网络节点的嵌入式向量。
一种社交网络中数据处理的装置，其特征在于，包括：

确定单元，用于确定D个弱监督信息，所述D个弱监督信息中的第i个弱监督信息包括社交网络中的网络节点d_i和与所述网络节点d_i相关的M_i个知识概念，其中，所述网络节点d_i表示为嵌入式向量，所述M_i个知识概念分别表示为嵌入式向量，D和M_i分别为大于1的正整数，i为取值范围为1至D的正整数；

生成单元，用于根据所述D个弱监督信息，生成异构贝叶斯模型，所述异构贝叶斯模型包括T个话题和D个文档，所述T个话题中的第j个话题包括参数μ_j、λ_j、μ_jm、λ_jm，所述D个文档中的第i个文档包括所述网络节点d_i和所述M_i个知识概念，所述第i个文档还包括与所述M_i个知识概念一一对应的M_i个第一话题隐变量、与所述网络节点d_i一一对应的第二话题隐变量和与所述网络节点d_i一一对应的参数θ，其中，μ_j表示所述第j个话题对应的所述网络节点d_i的高斯分布的均值，λ_j表示所述第j个话题对应的所述网络节点d_i的高斯分布的精度，μ_jm表示所述第j个话题对应的所述M_i个知识概念中的第m个知识概念的高斯分布的均值，λ_jm表示所述第j个话题对应的所述M_i个知识概念中的m个知识概念的高斯分布的精度，θ表示所述网络节点d_i的话题多项分布，T为大于1的正整数，j为取值范围为1至T的正整数，m为取值范围为1至M_i的正整数；

所述确定单元还用于根据所述异构贝叶斯模型，确定第一网络节点与第一知识概念之间的有效联系，其中，所述第一网络节点为所述D个弱监督信息中的所有网络节点之一，所述第一知识概念为所述D个弱监督信息中的所有知识概念之一。
根据权利要求12所述的装置，其特征在于，生成单元具体用于：

随机确定所述M_i个第一话题隐变量的初始值和所述第二话题隐变量的初始值；

根据所述M_i个第一话题隐变量的初始值、所述第i个弱监督信息和所述M_i个知识概念的话题的条件概率，对所述M_i个第一话题隐变量进行t_b次抽样更新，其中，所述M_i个知识概念的话题的条件概率中的每个知识概念的话题的条件概率表示所述每个知识概念的第一话题隐变量在给定除所述每个知识概念的第一话题隐变量之外的其他话题隐变量、所述第二话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点d_i的嵌入式向量的情况下的条件概率；

根据所述第二话题隐变量的初始值、所述第i个弱监督信息和所述网络节点d_i的话题的条件概率，对所述第二话题隐变量进行t_b次抽样更新，其中，所述网络节点d_i的话题的条件概率表示所述网络节点d_i的第二话题隐变量在给定除所述网络节点d_i的第二话题隐变量之外的其他话题隐变量、所述M_i个第一话题隐变量、所述每个知识概念的嵌入式向量和所述网络节点d_i的嵌入式向量的情况下的条件概率；

在对所述M_i个第一话题隐变量和所述第二话题隐变量分别进行t_b次抽样更新之后，分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j、λ_j、μ_jm、λ_jm进行更新，以生成所述异构贝叶斯模型。
根据权利要求13所述的装置，其特征在于，所述在所述生成单元对所述M_i个第一话题隐变量和所述第二话题隐变量分别进行t_b次抽样更新之后，分别对所述更新后的M_i个第一话题隐变量、所述更新后的第二话题隐变量和所述参数θ、μ_j、λ_j、μ_jm、λ_jm进行更新，包括：

根据所述更新后的M_i个第一话题隐变量、所述第i个弱监督信息和所述所述M_i个知识概念的话题的条件概率，对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新；

根据所述更新后的第二话题隐变量、所述第i个弱监督信息和所述网络节点d_i的话题的条件概率，对所述更新后的第二话题隐变量进行t_p次抽样更新；

在对所述更新后的M_i个第一话题隐变量和所述更新后的第二话题隐变量分别进行t_p次抽样更新之后，分别对θ、μ_j、λ_j、μ_jm、λ_jm进行更新。
根据权利要求13所述的装置，其特征在于，所述生成单元具体用于：分别对所述参数θ、μ_j、λ_j、μ_jm、λ_jm进行N次抽样更新，其中，所述N次更新中的每次更新均执行对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新，对所述更新后的M_i个第一话题隐变量进行t_p次抽样更新和分别对θ、μ_j、λ_j、μ_jm、λ_jm进行更新，得到N次更新后的θ、μ_j、λ_j、μ_jm、λ_jm，

对所述N次更新后的θ累加求平均值，将θ累加求得的平均值作为更新后的所述异构贝叶斯模型的θ参数；

对所述N次更新后的μ_j累加求平均值，将μ_j累加求得的平均值作为更新后的所述异构贝叶斯模型的μ_j ^r参数；

对所述N次更新后的λ_j累加求平均值，将λ_j累加求得的平均值作为更新后的所述异构贝叶斯模型的λ_j参数；

对所述N次更新后的μ_jm累加求平均值，将μ_jm累加求得的平均值作为更新后的所述异构贝叶斯模型的μ_jm参数；

对所述N次更新后的λ_jm累加求平均值，将λ_jm累加求得的平均值作为更新后的所述异构贝叶斯模型的λ_jm参数。
根据权利要求13-15中任一项所述的装置，其特征在于，所述生成单元还用于：

根据所述网络节点d_i的嵌入式向量和所述M_i个知识概念的嵌入式向量，确定在给定所述M_i个第一隐变量和所述第二隐变量的情况下的初始对数似然；

根据所述初始对数似然，确定所述网络节点d_i的更新后的嵌入式向量；

根据所述初始对数似然，分别确定所述M_i个知识概念的更新后的嵌入式向量。
根据权利要求16所述的装置，其特征在于，所述生成单元根据所述初始对数似然，确定所述网络节点d_i的更新后的嵌入式向量，包括：

根据所述初始对数似然确定所述网络节点d_i的嵌入式向量的梯度；

根据所述网络节点d_i的嵌入式向量的梯度、所述网络节点学习率和所述网络节点d_i的嵌入式向量，确定所述所述网络节点d_i的更新后的嵌入式向量，其中，所述网络节点学习率表示所述所述网络节点d_i的嵌入式向量的梯度下降的学习率。。
根据权利要求16所述的装置，其特征在于，所述生成单元根据所述初始对数似然，分别确定所述M_i个知识概念的更新后的嵌入式向量，包括：

根据所述初始对数似然分别确定所述M_i个知识概念的嵌入式向量的梯度；

根据所述M_i个知识概念的知识概念的嵌入表示的梯度、所述M_i个知识概念的知识概念学习率和所述M_i个知识概念的嵌入式向量，分别确定所述所述M_i个知识概念的更新后的嵌入式向量，其中，所述M_i个知识概念中的每个知识概念的知识概念学习率表示所述每个知识概念的嵌入式向量的梯度下降的学习率。
根据权利要求16至18中任一项所述的装置，其特征在于，所述生成单元还用于：

根据所述所述网络节点d_i的更新后的嵌入式向量和所述M_i个知识概念的更新后的嵌入式向量，确定在给定所述M_i个第一隐变量和所述第二隐变量的情况下的的更新对数似然；

若所述更新对数似然大于或等于所述初始对数似然，则将所述网络节点d_i的嵌入式向量替换为所述网络节点d_i的更新后的嵌入式向量，将所述M_i个知识概念的嵌入式向量替换为所述M_i个知识概念的更新后的嵌入式向量；

若所述更新对数似然小于所述初始对数似然，则将所述网络节点学习率更新为所述网络节点学习率与第一衰减指数的乘积，将所述M_i个知识概念的知识概念学习率分别更新为所述M_i个知识概念的知识概念学习率与第二衰减指数的乘积，并且保留所述网络节点d_i的嵌入式向量不变，保留所述M_i个知识概念的嵌入式向量不变，其中，所述第一衰减指数表示所述网络节点学习率的衰减程度，所述第二衰减指数表示所述M_i个知识概念学习率中的每个知识概念学习率的衰减程度。
根据权利要求12-19中任一项所述的装置，其特征在于，所述确定单元具体用于：

确定D个初始弱监督信息，所述D个初始弱监督信息中的第i个初始弱监督信息包括所述网络节点d_i和与所述网络节点d_i相关的所有知识概念；

根据所述所有知识概念中每个知识概念的分值和无监督生成率r，确定所述M_i个知识概念，其中，所述M_i个知识概念中的每一个知识概念的分值大于所述所有知识概念中除所述M_i个知识概念之外的每一个知识概念的分值，所述每个知识概念的分值表示所述每个知识概念处于所述所有知识概念的中心位置的程度，所述无监督生成率r为确定的知识概念的数量M_i与所述所有知识概念的数量的预设比值，r的取值范围为0至1。
根据权利要求12-20任一项所述的装置，其特征在于，所述装置还包括：

转换单元，用于根据知识概念集合、语料的长度和所述语料的最大N-gram长度，对所述语料进行转换，所述知识概念集合包括所述D个弱监督信息中的所有知识概念；

第一获取单元，用于将转换后的所述语料输入至skipgram模型，获取所述知识概念集合中每个知识概念的嵌入式向量。
根据权利要求12-20任一项所述的装置，其特征在于，所述确定单元还用于：

确定所述社交网络中的每个网络节点的加权概率，其中，所述每个网络节点的加权概率表示所述每个网络节点访问下一个网络节点的概率，所述社交网络中所有网络节点包括所述D个弱监督信息中的所有网络节点；根据所述每个网络节点的加权概率，确定所述每个网络节点的至少一个随机游走序列；

所述装置还包括第二获取单元，用于将所述每个网络节点的至少一个随机游走序列输入至skipgram模型，获取所述每个网络节点的嵌入式向量。