WO2016041376A1

WO2016041376A1 - 社交网络中预测信息传播的方法及设备

Info

Publication number: WO2016041376A1
Application number: PCT/CN2015/079877
Authority: WO
Inventors: 杨洋; 梁颖琪; 唐杰
Original assignee: 华为技术有限公司
Priority date: 2014-09-18
Filing date: 2015-05-27
Publication date: 2016-03-24

Abstract

一种社交网络中预测信息传播的方法，包括：获取待预测的目标信息并获取K个集群的影响力，其中，目标信息是由第一用户在第一时刻发布或转发的，K为正整数（101）；确定第一用户的角色概率分布，并确定未传播所述目标信息的第二用户，其中，第一用户的角色概率分布用于表示所述第一用户分别属于所述K个集群的概率（102）；根据K个集群的影响力和第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的概率（103）。该预测方法利用K个集群的影响力，能够预测社交网络中目标信息的传播，计算量小，计算效率高，并且能够解决针对新用户的冷启动问题。

Description

社交网络中预测信息传播的方法及设备

本申请要求于2014年9月18日提交中国专利局、申请号为201410478217.3、发明名称为“社交网络中预测信息传播的方法及设备”的中国专利申请的优先权；以及于2015年3月24日提交中国专利局、申请号201510131640.0、发明名称为“社交网络中预测信息传播的方法及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及信息处理领域，并且更具体地，涉及一种社交网络中预测信息传播的方法及设备。

背景技术

信息传播模型通过不同信息在网络上的传播纪录，包括路径、范围及/或速度，计算不同因素对信息传播的帮助或影响，然后对新信息或现有信息的传播路径做出预测。其中，信息传播最重要的因素在于不同网络节点对信息传播过程的影响力，并在社交网络、通讯网络、计算机网络、互联网等不同类型的网络上都有广泛的应用。在社交网络上，信息传播模型中一个最重要的应用在于找出最有价值的用户(网络节点)，例如对其他用户影响力最大的用户、影响范围最广的用户、传播消息最快的用户等等。

目前的信息传播模型一般针对个别用户的影响力建模。以社交网络上的消息转发为例，利用用户的关注者(粉丝)的数量、消息被转发的次数等特征生成用户影响力排名，并将用户之间的边(社交关系)加权，代表一个用户对另一个用户的影响力。但是该信息传播模型需先给定或先学习所有用户之间的边的权重。对于具有庞大用户数据的社交网络来说，学习所有用户之间的边的权重的复杂度大，这样导致该信息传播模型的计算效率低。

发明内容

本发明实施例提供了一种社交网络中预测信息传播的方法，计算效率高。

第一方面，提供了一种社交网络中预测信息传播的方法，所述方法包括：

获取待预测的目标信息并获取K个集群的影响力，其中，所述目标信息是由第一用户发布或转发的，所述K个集群用于表示用户的特征属性的K个分类，所述K个集群的影响力包括所述K个集群的信息传播成功率，K为正整数；

确定所述第一用户的角色概率分布，并确定未传播所述目标信息的第二用户，其中，所述第一用户的角色概率分布用于表示所述第一用户分别属于所述K个集群的概率；

根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的概率。

结合第一方面，在第一方面的第一种可能的实现方式中，所述目标信息是由所述第一用户在初始时刻发布或转发的，所述方法还包括：输出满足预设条件的所述第二用户的账号，

其中，所述预设条件为：所述转发所述目标信息的概率大于预设的概率阈值。

结合第一方面或者第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，在所述获取待预测的目标信息并获取K个集群的影响力之前，所述方法还包括：

从所述社交网络获取信息传播记录、用户关系数据库和用户特征数据库，其中，所述信息传播记录包括已有信息的历史传播记录，所述用户关系数据库包括已有用户之间的关注关系，所述用户特征数据库包括已有用户的特征属性；

根据所述用户特征数据库，采用软聚类算法，得到所述K个集群以及所述K个集群的特征属性，其中，所述K个集群是根据所述已有用户的特征属性所确定的K个分类；

根据所述信息传播记录和所述用户关系数据库，采用学习的方法，得到所述K个集群的影响力。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述确定所述第一用户的角色概率分布，包括：

获取所述第一用户的特征属性；

根据所述第一用户的特征属性与所述K个集群的特征属性，确定所述第一用户的角色概率分布。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述第一用户的特征属性表示为AT，所述K个集群的特征属性表示为KT_j，j＝1,2,...,K；

确定所述第一用户的角色概率分布为与所述K个集群对应的K个值，其中，所述K个值分别为

结合第一方面的第二种可能的实现方式，在第一方面的第五种可能的实现方式中，在所述获取待预测的目标信息并获取K个集群的影响力之前，所述方法还包括：

根据所述用户特征数据库和所述K个集群的特征属性，确定所述已有用户的角色概率分布，其中，所述已有用户的角色概率分布用于表示所述已有用户分别属于所述K个集群的概率。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述第一用户属于所述已有用户，

所述确定所述第一用户的角色概率分布，包括：

从所述已有用户的角色概率分布中，获取所述第一用户的角色概率分布。

结合第一方面的第五种可能的实现方式，在第一方面的第七种可能的实现方式中，所述第一用户不属于所述已有用户，

所述确定所述第一用户的角色概率分布，包括：

获取所述第一用户的特征属性；

根据所述第一用户的特征属性，从所述用户特征数据库中获取N个第三用户的特性属性，其中，所述N个第三用户属于所述已有用户，所述N个第三用户的特性属性与所述第一用户的特征属性之间的距离小于预设的距离阈值，N为正整数；

从所述已有用户的角色概率分布中，获取所述N个第三用户的角色概率分布；

根据所述N个第三用户的角色概率分布，确定所述第一用户的角色概率分布。

结合第一方面的第七种可能的实现方式，在第一方面的第八种可能的实现方式中，所述根据所述N个第三用户的角色概率分布，确定所述第一用户的角色概率分布，包括：

确定所述第一用户的角色概率分布为所述N个第三用户的角色概率分布的算术平均。

结合第一方面的第二种可能的实现方式至第一方面的第八种可能的实现方式中的任一种可能的实现方式，在第一方面的第九种可能的实现方式中，所述学习的方法为机器学习的方法或统计学习的方法。

结合第一方面或者上述第一方面的任一种可能的实现方式，在第一方面的第十种可能的实现方式中，所述根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的概率，包括：

根据所述K个集群的影响力和所述第一用户的角色概率分布，采用统计的方法，计算所述第二用户转发所述目标信息的传播概率的期望值；

将所述传播概率的期望值作为所述第二用户从所述第一用户转发所述目标信息的概率。

结合第一方面或者上述第一方面的任一种可能的实现方式，在第一方面的第十一种可能的实现方式中，所述K个集群的影响力还包括所述K个集群的信息传播时间延迟率，所述方法还包括：

根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的时刻。

结合第一方面或者上述第一方面的任一种可能的实现方式，在第一方面的第十二种可能的实现方式中，所述第二用户为所述第一用户的关注者中未传播所述目标信息的用户。

结合第一方面的第十二种可能的实现方式，在第一方面的第十三种可能的实现方式中，所述确定未传播所述目标信息的第二用户，包括：

根据用户关系数据库，确定所述第一用户的关注者；

从所述第一用户的关注者中确定所述第二用户，其中，所述第二用户未传播所述目标信息。

第二方面，提供了一种社交网络中预测信息传播的设备，所述设备包括：

获取单元，用于获取待预测的目标信息并获取K个集群的影响力，其中，所述目标信息是由第一用户发布或转发的，所述K个集群用于表示用户的特征属性的K个分类，所述K个集群的影响力包括所述K个集群的信息传播成功率，K为正整数；

确定单元，用于确定所述第一用户的角色概率分布，并确定未传播所述获取单元获取的所述目标信息的第二用户，其中，所述第一用户的角色概率分布用于表示所述第一用户分别属于所述K个集群的概率；

所述确定单元，还用于根据所述获取单元获取的所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的概率。

结合第二方面，在第二方面的第一种可能的实现方式中，所述目标信息是由所述第一用户在初始时刻发布或转发的，所述设备还包括：

输出单元，用于输出满足预设条件的所述第二用户的账号，

结合第二方面或者第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述获取单元，还用于从所述社交网络获取信息传播记录、用户关系数据库和用户特征数据库，其中，所述信息传播记录包括已有信息的历史传播记录，所述用户关系数据库包括已有用户之间的关注关系，所述用户特征数据库包括已有用户的特征属性；

所述确定单元，还用于根据所述用户特征数据库，采用软聚类算法，得到所述K个集群以及所述K个集群的特征属性，其中，所述K个集群是根据所述已有用户的特征属性所确定的K个分类；

所述确定单元，还用于根据所述信息传播记录和所述用户关系数据库，采用学习的方法，得到所述K个集群的影响力。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述确定单元，具体用于：

获取所述第一用户的特征属性；

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述第一用户的特征属性表示为AT，所述K个集群的特征属性表示为KT_j，j＝1,2,...,K；

所述确定单元，具体用于：

结合第二方面的第二种可能的实现方式，在第二方面的第五种可能的实现方式中，所述确定单元，还用于：

结合第二方面的第五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述第一用户属于所述已有用户，

所述确定单元，具体用于：

结合第二方面的第五种可能的实现方式，在第二方面的第七种可能的实现方式中，所述第一用户不属于所述已有用户，

所述确定单元，具体用于：

获取所述第一用户的特征属性；

结合第二方面的第七种可能的实现方式，在第二方面的第八种可能的实现方式中，所述确定单元，具体用于：

结合第二方面的第二种可能的实现方式至第二方面的第八种可能的实现方式中的任一种可能的实现方式，在第二方面的第九种可能的实现方式中，所述学习的方法为机器学习的方法或统计学习的方法。

结合第二方面或者上述第二方面的任一种可能的实现方式，在第二方面的第十种可能的实现方式中，所述确定单元，具体用于：

结合第二方面或者上述第二方面的任一种可能的实现方式，在第二方面的第十一种可能的实现方式中，所述K个集群的影响力还包括所述K个集群的信息传播时间延迟率，所述确定单元，还用于：

结合第二方面或者上述第二方面的任一种可能的实现方式，在第二方面的第十二种可能的实现方式中，所述第二用户为所述第一用户的关注者中未传播所述目标信息的用户。

结合第二方面的第十二种可能的实现方式，在第二方面的第十三种可能的实现方式中，所述确定单元，具体用于：

根据用户关系数据库，确定所述第一用户的关注者；

本发明实施例中，利用K个集群的影响力，能够预测社交网络中的目标信息的传播，该预测方法的计算量小，计算效率高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的社交网络中预测信息传播的方法的流程图。

图2是本发明另一个实施例的社交网络中预测信息传播的方法的流程图。

图3是本发明一个实施例的社交网络中预测信息传播的设备的框图。

图4是本发明另一个实施例的社交网络中预测信息传播的设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

社交网络(social network)可以理解为在线社区，社交网络的用户数量巨大，例如用户数量可能为成百上千，也可能为百万千万甚至更多。

例如，比较常用的社交网络有微博(Weibo或MicroBlog)、微信(WeChat)、易信、米聊(MiTalk)、脸书(Facebook)、推特(Twitter)和领英(LinkedIn)等。

社交网络中可以用“用户关系数据库”记录用户之间的关系。“用户关系数据库”包括已有用户之间的关注关系。具体地，用户之间可以通过关注(follow)建立关系。例如，用户A关注了用户B，那么用户A为用户B的关注者(follower)。或者，也可以称为用户A为用户B的粉丝。

应注意，在诸如微博的社交网络中，用户A为用户B的关注者，但是用户B不一定为用户A的关注者。在诸如微信的社交网络中，用户A为用户B的关注者，同时用户B也一定为用户A的关注者，也可以称为用户A和用户B为朋友。

可选地，社交网络中可以用三元组或二元组表示用户之间的关系。

其中，三元组的第一项可以为第一个用户ID，第二项可以为第二个用户ID，第三项可以表示第一个用户是否关注了第二个用户。其中，第三项为1表示关注，第三项为0表示没有关注。例如，在诸如微博的社交网络中，每两个用户之间可以均以两个三元组<A，B，1>和<B，A，0>表示。其中，<A，B，1>表示用户A关注了用户B，<B，A，0>表示用户B没有关注用户A。那么，可理解，假设社交网络有M个用户，那么在诸如微博的社交网络中的“用户关系数据库”可由M×(M-1)个三元组表示。或者，“用户关系数据库”可以只包括第三项为1的三元组，那么所存储的三元组的数量可以远小于M×(M-1)。或者，“用户关系数据库”可以只包括二元组，该二元组可以理解为是前述第三项为1的三元组的前两项，那么所存储的二元组的数量可以远小于M×(M-1)。这样能够节省存储空间。

或者，其中，三元组的第一项可以为第一个用户ID，第二项可以为第二个用户ID，第三项可以表示第一个用户和第二个用户是否为朋友。其中，第三项为1表示是朋友，第三项为0表示不是朋友。例如，在诸如微信的社交网络中，以三元组<A，B，1>表示用户A和用户B是朋友。即用户A为用户B的关注者，同时用户B也为用户A的关注者。那么，可理解，假设社交网络有M个用户，那么在诸如微信的社交网络中的“用户关系数据库”可由M！/2×(M-2)！个三元组表示。或者，“用户关系数据库”可以只包括第三项为1的三元组，那么所存储的三元组的数量可以远小于M！/2×(M-2)！。或者，“用户关系数据库”可以只包括二元组，该二元组可以理解为是前述第三项为1的三元组的前两项，那么所存储的二元组的数量可以远小于M！/2×(M-2)！。这样能够节省存储空间。

可选地，社交网络中可以用四元组表示用户之间的关系。

其中，四元组的第一项可以为第一个用户ID，第二项可以为第二个用户ID，第三项可以表示第一个用户是否关注了第二个用户，第四项可以表示第二个用户是否关注了第一个用户。其中，第三项和第四项可以用0或1表示。例如，<A，B，1，0>表示用户A关注了用户B，但是用户B没有关注用户A。<A，B，1，1>表示用户A关注了用户B，且用户B关注了用户A。那么，可理解，假设社交网络有M个用户，那么在社交网络中的“用户关系数据库”可由M！/2×(M-2)！个四元组表示。或者，“用户关系数据库”可以只包括第三项和第四项至少一项为1的四元组，那么所存储的四元组的数量可以远小于M！/2×(M-2)！。

应注意，本发明实施例对“用户关系数据库”的表示形式不作限定。

社交网络中可以用“信息传播记录”记录已有信息的传播。“信息传播记录”包括已有信息的历史传播记录。历史传播记录可以包括历史传播路径和时间。具体地，可以记录某一用户在某一时刻发布(post或tweet)了某一信息，或者某一用户在某一时刻从另一用户转发(forward或repost或retweet)了某一信息。

可选地，社交网络中可以用四元组表示“信息传播记录”。

其中，四元组的第一项可以为第一个用户ID，第二项可以为第二个用户ID，第三项可以为时刻，第四项可以为信息ID。例如，<A，B，t1，m1>表示用户A在t1时刻从用户B转发了信息ID为m1的信息。

其中，四元组的第一项可以为第一个用户ID，第二项可以为空或负数，第三项可以为时刻，第四项可以为信息ID。例如，<A，，t1，m1>或<A，-100，t1，m1>表示用户A在t1时刻发布了信息ID为m1的信息。

应注意，本发明实施例对“信息传播记录”的表示形式不作限定。

应注意，本发明实施例对信息的形式不作限定。例如，信息可以是文本的形式，或者，信息也可以是音频或视频的形式，或者，信息也可以是网页链接的形式，等等。

社交网络中可以用“用户特征数据库”记录用户的特征属性。“用户特征数据库”包括已有用户的特征属性。其中，特征属性可包括个人属性、网络属性和行为属性。个人属性可以包括用户的基本属性，例如，年龄、性别、出生地、职业等。网络属性可以包括用户在社交网络中的重要性、中心性、结构洞特性等。例如，重要性可以用PageRank值表示，中心性(centrality)可以用出度和入度表示，结构洞(Structural Hole)特性可以用网络约束系数(Network Constraint index)表示。行为属性可以包括用户在社交网络上的行为的活跃度，这里，在社交网络上的行为可包括发布、转发、评论(comment)等。

可理解，网络属性与“用户关系数据库”有关。具体地，可根据“用户关系数据库”计算得到网络属性。其中，在诸如微博的社交网络中，中心性可以用出度和入度两个值表示，且一般地出度不等于入度。在诸如微信的社交网络中，中心性可以用出度或入度一个值表示，且出度等于入度，此时出度、入度均等于朋友数量，也就是说，中心性也可以用朋友数量表示。

可理解，行为属性与“信息传播记录”有关。具体地，可根据“信息传播记录”计算得到行为属性。其中，活跃度与用户在单位时间内的行为的数量有关，且活跃度可以是一个数值，数值越大表示活跃度越高。例如，可以用1至5的5个整数表示活跃度。5表示非常活跃，4表示一般活跃，3表示活跃，2表示不活跃，1表示非常不活跃。或者例如，可以用0至1的百分比数表示活跃度。80％表示活跃，50％表示一般活跃，20％表示不活跃等。

可理解，“用户特征数据库”中每一个用户的特征属性可以用一个H维特征向量表示。假设用户数量为M个，那么用户特征数据库可以包括M个H维的特征向量。或者，可理解，用户特征数据库也可以用一个M×H的矩阵表示。其中，M和H为正整数。举例来说，假设H＝9，且一个用户的H＝9维特征向量的每个分量分别表示年龄、性别、出生地、职业、重要性、中心性、发布的活跃度、转发的活跃度、评论的活跃度。那么，若用户A的特征属性表示为特征向量AT＝{20，F，BJ，Doc，0.65，50，4，2，4}表示用户A的年龄为20岁，性别为女，出生地为北京，职业为医生，重要性为0.65，朋友数量为50，发布的活跃度为4，转发的活跃度为2，评论的活跃度为4。

应注意，“用户特征数据库”中H的值可以更大或更小，也就是说用户的特征属性的维度可以更大或更小，本发明对此不作限定。

图1是本发明一个实施例的社交网络中预测信息传播的方法。该方法包括：

101，获取待预测的目标信息并获取K个集群的影响力，其中，所述目标信息是由第一用户发布或转发的，所述K个集群用于表示用户的特征属性的K个分类，所述K个集群的影响力包括所述K个集群的信息传播成功率，K为正整数。

102，确定所述第一用户的角色概率分布，并确定未传播所述目标信息的第二用户，其中，所述第一用户的角色概率分布用于表示所述第一用户分别属于所述K个集群的概率。

103，根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的概率。

可选地，本发明实施例中，101中的待预测的目标信息可以是所述第一用户在初始时刻发布或转发的，可以以四元组的形式表示，例如，可以将初始时刻标记为第一时刻。那么，<第一用户的ID，，第一时刻，目标信息的ID>表示第一用户在第一时刻发布目标信息。例如，<第一用户的ID，源用户的ID，第一时刻，目标信息的ID>表示第一用户在第一时刻从源用户转发目标信息。

可选地，本发明实施例中，在102中，第二用户可以是待预测的用户。

例如，如果期望获知用户A将会对该目标信息的传播情况，那么第二用户可以是用户A。再例如，如果期望获知年龄为30岁的用户将会对该目标信息的传播情况，那么第二用户可以是特征属性中年龄为30岁的，并且还未传播该目标信息的用户。

或者，可选地，本发明实施例中，在102中，第二用户可以是所述第一用户的关注者中未传播所述目标信息的用户。那么，可以根据所述用户关系数据库确定所述第一用户的关注者；并从所述第一用户的关注者中确定所述第二用户，其中所述第二用户未传播所述目标信息。

可理解，本发明实施例对第二用户的数量不作限定。例如，第二用户可以为一个或多个。

本发明实施例中，K个集群的影响力可以是通过训练得到的。那么，在101中，可以根据训练的结果获取K个集群的影响力。可理解，在101之前，还可包括：从所述社交网络获取信息传播记录、用户关系数据库和用户特征数据库，其中，所述信息传播记录包括已有信息的历史传播记录，所述用户关系数据库包括已有用户之间的关注关系，所述用户特征数据库包括已有用户的特征属性；根据所述用户特征数据库，采用软聚类算法，得到所述K个集群以及所述K个集群的特征属性；根据所述信息传播记录和所述用户关系数据库，采用学习的方法，得到所述K个集群的影响力。其中，所述K个集群是根据所述已有用户的特征属性所确定的K个分类。K为正整数。

其中，信息传播记录、用户关系数据库和用户特征数据库如前所述，为避免重复，这里不再赘述。

其中，软聚类算法也可以称为模糊聚类算法，例如可以为模糊C-均值算法(Fuzzy C-Means Algorithm，FCMA或FCM)和概率混合模型等。其中，K个集群也可以称为K类或K个角色。

假设已有用户的数量为M个，即用户特征数据库包括M个已有用户的特征属性。那么，根据用户特征数据库，采用软聚类算法，得到K个集群，可以是根据M个已有用户的特征属性的相似性，将M个已有用户聚成K个集群。一般地，K远小于M。例如可以是K＝10^-3×M，甚至K＝10^-8×M，本发明对此不作限定。

可见，由于集群的数量K远小于用户的数量M，这样本发明实施例的方法计算量小，因此该方法的计算效率高。

其中，K个集群中的一个集群的特征属性可以为该一个集群的代表特征属性。例如，该一个集群的代表特征属性可以为该一个集群的中心点的特征属性，或者，该一个集群的代表特征属性可以为该一个集群中距离中心点最近的用户的特征属性。其中，该一个集群的中心点可以定义为属于该一个集群的所有用户的特征属性的均值。

具体地，K个集群的特征属性可以用K个H维特征向量表示。或者，可理解，K个集群的特征属性可以用一个K×H的矩阵表示。

这样，102中确定所述第一用户的角色概率分布，可以包括：获取所述第一用户的特征属性；根据所述第一用户的特征属性与所述K个集群的特征属性，确定所述第一用户的角色概率分布。

具体地，可以根据所述第一用户的特征属性与所述K个集群的特征属性之间的距离，确定所述第一用户的角色概率分布。

例如，所述第一用户的特征属性表示为AT，所述K个集群的特征属性表示为KT_j，j＝1,2,...,K；

其中，||·||表示模或范数。

可理解，第一用户的角色概率分布可以由上述K个值组成的一个K维的向量形式来表示。

可选地，作为另一个实施例，在101之前，还可进一步包括：根据所述用户特征数据库和所述K个集群的特征属性，确定所述已有用户的角色概率分布，其中，所述已有用户的角色概率分布用于表示所述已有用户分别属于所述K个集群的概率。

其中，可以根据已有用户的特征属性和K个集群的特征属性，确定已有用户的角色概率分布。其中，K个集群的特征属性可以按照前述实施例的方法得到，为避免重复，这里不再赘述。例如，假设已有用户中的用户B的特征属性为特征向量BT，K个集群的特征属性为K个特征向量，分别为KT_j，j＝1,2,...,K。那么，用户B的角色概率分布可包括K个值，分别为

j＝1,2,...,K。其中，||·||表示模或范数。应注意，||·||可以为无穷范数||·||_∞，或者也可以为2-范数||·||₂，或者也可以为其他形式的范数，本发明对此不作限定。

这样，若第一用户属于所述已有用户，那么，102中确定所述第一用户的角色概率分布，可以包括：从所述已有用户的角色概率分布中，获取所述第一用户的角色概率分布。

这样，若第一用户不属于所述已有用户，那么，102中确定所述第一用户的角色概率分布，可以包括：获取所述第一用户的特征属性；根据所述第一用户的特征属性，从所述用户特征数据库中获取N个第三用户的特性属性，其中，所述N个第三用户属于所述已有用户，所述N个第三用户的特性属性与所述第一用户的特征属性之间的距离小于预设的距离阈值，N为正整数；从所述已有用户的角色概率分布中，获取所述N个第三用户的角色概率分布；根据所述N个第三用户的角色概率分布，确定所述第一用户的角色概率分布。

可理解，N个第三用户是与第一用户的特性属性相似的用户。可选地，根据所述N个第三用户的角色概率分布，确定所述第一用户的角色概率分布，可以包括：确定所述第一用户的角色概率分布为所述N个第三用户的角色概率分布的算术平均。

应注意，本发明实施例中，若第一用户不属于已有用户，可理解，该第一用户为新用户。这样，本发明实施例能够解决冷启动问题。

换个角度，即使在训练过程中，已有用户的数量不够多，也可以在后续实现预测的过程，也就是说，本发明实施例能够解决数据稀疏问题。

可选地，本发明实施例中，通过训练确定K个集群的影响力，即：根据所述信息传播记录和所述用户关系数据库，采用学习的方法，得到所述K个集群的影响力，可以是：根据所述信息传播记录和所述用户关系数据库，结合已有用户的角色概率分布，计算属于每一个集群的已有用户对已有用户的关注者的转发行为的影响，进而可以学习K个集群在信息传播过程中的影响力。

可选地，其中，所述学习的方法可以为机器学习的方法或统计学习的方法，本发明对此不作限定。

可选地，本发明实施例中，所述K个集群的影响力可以包括所述K个集群的信息传播成功率。其中，信息传播成功率可以用影响因子表示，即K个集群的影响力可以包括K个集群的影响因子。其中，K个集群的影响因子可以理解为K个集群在信息传播过程中的成功率。那么，K个集群的影响力可以用一个K维的向量表示。

可选地，本发明实施例中，所述K个集群的影响力可以包括所述K个集群的信息传播成功率和信息传播时间延迟率。可选地，其中，所述影响力包括影响因子和时间延迟。即，K个集群的影响力可以包括K个集群的影响因子和K个集群的时间延迟。其中，K个集群的影响因子可以理解为K个集群在信息传播过程中的成功率，K个集群的时间延迟可以理解为K个集群在信息传播过程中对一个时刻的延迟的概率。那么，K个集群的影响力可以用一个K×2的矩阵表示。

可选地，影响因子和时间延迟可以为0至1之间的数值，数值越大，表示影响力越大。可选地，影响因子和时间延迟可以为1至5之间的整数值，整数值越大，表示影响力越大。本发明对此不作限定。

或者，可选地，也可以是：设定信息传播记录数据的概似函数，根据所述信息传播记录、所述用户关系数据库和所述用户特征数据库，对概似函数进行最优化，从而确定K个集群的影响力。

例如，概似函数可以定义为如下的公式(1)：

其中，I代表信息的总数量，T代表最大的时刻，H代表用户的特征向量的维度。K代表集群的数量，V代表所有用户的集合。

其中，A_it代表在时刻t传播过信息i的用户集，D_iT代表在时刻T传播过信息i的用户集。x_uh代表用户u的特征向量的第h个分量的值。θ_uk代表用户u在信息传播过程中属于第k个集群的概率。ρ_k和λ_k代表第k个集群的影响力，ρ_k代表第k个集群的影响因子(成功率)，λ_k代表第k个集群的时间延迟。μ_kh代表属于第k个集群的所有的用户的特征向量的第h个分量的平均值(mean)，δ_kh代表属于第k个集群的所有的用户的特征向量的第h个分量的精度(precision)。

那么，可理解，logP(v∈A_it)代表用户在时刻t参与传播信息i的概率，

代表用户在时刻T没有参与传播信息i的概率，logP(x_uh)代表用户u的第h个特征向量的概率。

并且，

其中，

进一步地，对概似函数进行最优化，可以通过现有的生成模型参数学习方法确定θ_uk、ρ_k、λ_k、μ_kh和δ_kh。其中，生成模型参数学习方法可以为吉布斯采样(Gibbs Sampling)方法或者变分方法(variational method)。

应注意，本发明实施例中，概似函数也可以为其他的形式，本发明对此不作限定。

可选地，在103中，可以根据所述K个集群的影响力和所述第一用户的角色概率分布，利用贝叶斯理论(Bayesian Theory)，确定所述第二用户从所述第一用户转发所述目标信息的概率。

可选地，在103中，可以根据所述K个集群的影响力和所述第一用户的角色概率，采用统计的方法，计算所述第二用户转发所述目标信息的传播概率的期望值。并将所述传播概率的期望值作为所述第二用户从所述第一用户转发所述目标信息的概率。

可选地，若所述K个集群的影响力还包括所述K个集群的信息传播时间延迟率，也就是说，若所述K个集群的影响力包括所述K个集群的信息传播成功率和信息传播时间延迟率，那么，图1的方法还可以包括：根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的时刻。

具体地，可以根据所述K个集群的影响力和所述第一用户的角色概率分布，利用贝叶斯理论(Bayesian Theory)，确定所述第二用户从所述第一用户转发所述目标信息的时刻。

可选地，可以根据所述K个集群的影响力和所述第一用户的角色概率，采用统计的方法，计算所述第二用户转发所述目标信息的传播时刻的期望值。并将所述传播时刻的期望值作为所述第二用户从所述第一用户转发所述目标信息的时刻。

应注意，确定所述第二用户从所述第一用户转发所述目标信息的时刻的步骤可以在103之前或之后执行，也可以与103同时执行，本发明对此不作限定。

应注意，本发明实施例中，确定第二用户从所述第一用户转发所述目标信息的概率的步骤，与确定第二用户从所述第一用户转发所述目标信息的时刻的步骤，可以分别独立执行；也可以是相互耦合交叉执行。

例如，对用户u的一个特征属性h的潜在变量k，其样本的先验概率可以表示为：

其中，本发明实施例采用Stirling’s公式近似Γ函数。且函数η(·)定义为：

其中，τ₀、τ₁、τ₂和τ₃为常态珈玛事前(Normal-Gamma prior)参数。

对于潜在变量(t,k,z)，有下式：

根据样本结果可以估计模型参数，具体地，模型参数可以更新为：

这样，便可以估计转发目标信息的概率和转发目标信息的时刻：

其中，E(·)表示期望。

可理解，这里的δ_kh为时间间隔，第二用户转发目标信息的时刻为第一用户发布或转发的初始时刻加所述时间间隔δ_kh。

可选地，所述目标信息是由所述第一用户在初始时刻发布或转发的，在图1所示的方法之后，即在103之后，可以包括：输出满足预设条件的所述第二用户的账号，其中，所述预设条件为：所述转发所述目标信息的概率大于预设的概率阈值。

可选地，若所述K个集群的影响力还包括所述K个集群的信息传播时间延迟率，还可以确定所述第二用户从所述第一用户转发所述目标信息的时刻。那么相应地，所述预设条件还可以包括：所述转发所述目标信息的时刻与所述初始时刻之间的时长小于预设的时长阈值。

应注意，本发明实施例对账号的形式不作限定，例如可以为ID，或者也可以为姓名。

应注意，本发明实施例对预设的概率阈值和预设的时长阈值的大小不作限定。例如，预设的概率阈值可以为0.3，预设的时长阈值可以为12小时。

可理解，图1所示的方法针对待预测的目标信息，将第一用户的关注者对该目标信息的传播作出了预测。进一步地，也可以将第一用户的关注者的关注者对该目标信息的传播作出预测，以此类推。如图2所示。

具体地，在图2中，假设用户X在t₀时刻发布了信息m。可以用四元组 <X，，t₀，m>表示。图2所示的方法为在t₀开始的预设的时长阈值内对该信息m的传播进行的预测。图2所示的方法包括：

201，开始。具体地，确定用户X在t₀时刻发布了信息m。且给定n＝1。

202，生成第n次的初始条件。

当n＝1时，该初始条件为第一用户在第一时刻发布/转发了信息m。可以用四元组<X，，t₀，m>表示。

具体地，在201之后，第一用户为用户X，第一时刻为t₀。

203，确定第一用户的角色概率分布，并确定第一用户的关注者中未传播信息m的第二用户。

具体地，203可以参见前述实施例中的102，为避免重复，这里不再赘述。

204，根据K个集群的影响力和第一用户的角色概率分布，确定第二用户从第一用户转发信息m的概率；或者，确定第二用户从第一用户转发信息m的概率和从第一用户转发信息m的第二时刻。

具体地，204可以参见前述实施例中的103，为避免重复，这里不再赘述。

205，判断是否满足预设的停止条件。若是，执行208；若否，执行206和207。

可选地，停止条件可包括：第二用户从第一用户转发信息m的概率小于预设的概率阈值。或者，停止条件可包括：t₀时刻至第二时刻的时长大于时长阈值，且第二用户从第一用户转发信息m的概率小于预设的概率阈值。

以下实施例中，假设停止条件为：t₀时刻至第二时刻的时长大于时长阈值，且第二用户从第一用户转发信息m的概率小于预设的概率阈值。

例如，时长阈值可以等于24小时，概率阈值可以等于0.2。本发明对此不作限定。

可理解，在204中所确定的第二用户为至少一个，假设为M1个。那么，在205中，需对M1个第二用户中的每一个进行判断是否满足预设的停止条件。并且，若对M1个第二用户中的每一个进行判断都满足预设的停止条件，则认为205的判断结果为是。若对M1个第二用户中的每一个进行判断，只要有其中的一个不满足预设的停止条件，则认为205的判断结果为否。进一步地，可理解，对M1个第二用户中不满足预设的停止条件的第二用户执行 206和207。

作为一例，假设用户X的关注者中，Y1和Y2转发m的概率和第二时刻均不满足预设的停止条件。且，Y1从X转发m的概率为P1，Y1从X转发m的第二时刻为t1。Y2从X转发m的概率为P2，Y2从X转发m的第二时刻为t2。

206，输出第二用户。

可理解，206中输出的为在205判断中不满足预设的停止条件的第二用户。

可选地，可以输出第二用户的账号。或者，可选地，还可以输出第二用户转发m的概率；或者输出第二用户转发m的概率和第二时刻。

作为一例，假设用户X的关注者中，Y1和Y2转发m的概率和第二时刻均不满足预设的停止条件。那么，206可以输出Y1和Y2。或者，206可以输出两个向量，分别为(Y1，P1，t1)和(Y2，P2，t2)。可理解，206输出的两个向量包括三个分量，第一个分量代表账号，第二个分量代表转发的概率，第三个分量代表转发的时刻。

207，第二替换第一，n增加1。

具体地，将在205判断中不满足预设的停止条件的第二用户替换为第一用户，将第二用户转发的第二时刻替换为第一时刻。

那么，相应地，在207之后执行的202可以为：第一用户在第一时刻转发了信息m。

作为一例，假设用户X的关注者中，Y1和Y2转发m的概率和第二时刻均不满足预设的停止条件。那么，n＝1时，202生成的初始条件可以用四元组<Y1，X，t1，m>和四元组<Y2，X，t2，m>表示。

208，停止。

具体地，当在205判断中所有的第二用户均满足预设的停止条件时，该预测过程停止。

这样，便可以从206中获取在预设的时长阈值内，传播信息m的概率大于预设的概率阈值的用户。

应注意，本发明实施例对停止条件不作限定。例如，停止条件可以为迭代的次数大于或等于预设的迭代阈值，即n的值大于或等于预设的迭代阈值。例如，停止条件可以为输出的用户的数量大于预设的数量阈值，即206输出的第二用户的数量大于预设的数量阈值。

应注意，本发明实施例对预设的迭代阈值和预设的数量阈值的大小不作限定。例如，预设的迭代阈值的大小可以为10。例如，预设的数量阈值的大小可以为1000。

这样，本发明实施例中，利用K个集群的影响力，能够预测社交网络中的信息的传播，并且，该预测方法的计算量小，计算效率高。

这样，利用本发明所示的实施例，企业可以有效率地进行各种商业决策。举例来说，企业想要达到一定的广告推销效果，例如，企业期望某一条信息在一天的时间内传播到至少一千人。那么，企业可以根据期望设置停止条件，通过图2所示的方法，假设用户X为张三，进行信息传播预测。如果通过预测能够满足企业的期望，那么该企业可以针对张三发布信息。例如，发布的信息可以是新产品的产品介绍信息。

另外，可理解，通过本发明的方法，也可以根据信息传播的预测结果，及时地作出风险管理的决策等。

图3是本发明一个实施例的社交网络中预测信息传播的设备的框图。图3所示的设备300包括获取单元301和确定单元302。

获取单元301，用于获取待预测的目标信息并获取K个集群的影响力，其中，所述目标信息是由第一用户发布或转发的，所述K个集群用于表示用户的特征属性的K个分类，所述K个集群的影响力包括所述K个集群的信息传播成功率，K为正整数。

确定单元302，用于确定所述第一用户的角色概率分布，并确定未传播获取单元301获取的所述目标信息的第二用户，其中，所述第一用户的角色概率分布用于表示所述第一用户分别属于所述K个集群的概率。

确定单元302，还用于根据所述获取单元301获取的所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的概率。

可选地，作为一个实施例，所述目标信息是由所述第一用户在初始时刻发布或转发的，所述设备还包括：输出单元，用于输出满足预设条件的所述第二用户的账号，

可选地，作为另一个实施例，

获取单元301，还用于从所述社交网络获取信息传播记录、用户关系数据库和用户特征数据库，其中，所述信息传播记录包括已有信息的历史传播记录，所述用户关系数据库包括已有用户之间的关注关系，所述用户特征数据库包括已有用户的特征属性。

确定单元302，还用于根据所述用户特征数据库，采用软聚类算法，得到所述K个集群以及所述K个集群的特征属性，其中，所述K个集群是根据所述已有用户的特征属性所确定的K个分类。

确定单元302，还用于根据所述信息传播记录和所述用户关系数据库，采用学习的方法，得到所述K个集群的影响力。

可选地，作为另一个实施例，确定单元302，具体用于：

获取所述第一用户的特征属性；

可选地，作为另一个实施例，所述第一用户的特征属性表示为AT，所述K个集群的特征属性表示为KT_j，j＝1,2,...,K；

所述确定单元，具体用于：

可选地，作为另一个实施例，确定单元302，还用于：

可选地，作为另一个实施例，所述第一用户属于所述已有用户，确定单元302，具体用于：

可选地，作为另一个实施例，所述第一用户不属于所述已有用户，确定单元302，具体用于：

获取所述第一用户的特征属性；

可选地，作为另一个实施例，确定单元302，具体用于：确定所述第一用户的角色概率分布为所述N个第三用户的角色概率分布的算术平均。

可选地，作为另一个实施例，所述学习的方法为机器学习的方法或统计学习的方法。

可选地，作为另一个实施例，确定单元302，具体用于：

可选地，作为另一个实施例，所述K个集群的影响力还包括所述K个集群的信息传播时间延迟率，确定单元302，还用于：根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的时刻。

相应地，前述的预设条件还可以进一步包括：所述转发所述目标信息的时刻与所述初始时刻之间的时长小于预设的时长阈值。

可选地，作为另一个实施例，所述第二用户为所述第一用户的关注者中未传播所述目标信息的用户。

可选地，作为另一个实施例，所述确定单元，具体用于：根据用户关系数据库，确定所述第一用户的关注者；从所述第一用户的关注者中确定所述第二用户，其中，所述第二用户未传播所述目标信息。

可选地，本发明实施例中，图3所示的设备300可以为社交网络的服务器。

图3所示的设备300能够实现图1和图2所示的方法中的各个过程，为避免重复，这里不再赘述。

图4是本发明另一个实施例的社交网络中预测信息传播的设备的框图。图4所示的设备400包括处理器401、接收电路402、发送电路403和存储器404。

接收电路402，用于获取待预测的目标信息并获取K个集群的影响力，其中，所述目标信息是由第一用户发布或转发的，所述K个集群用于表示用户的特征属性的K个分类，所述K个集群的影响力包括所述K个集群的信息传播成功率，K为正整数。

处理器401，用于确定所述第一用户的角色概率分布，并确定未传播所述目标信息的第二用户，其中，所述第一用户的角色概率分布用于表示所述第一用户分别属于所述K个集群的概率。

处理器401，还用于根据获取的所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的概率。

设备400中的各个组件通过总线系统405耦合在一起，其中总线系统405除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统405。

上述本发明实施例揭示的方法可以应用于处理器401中，或者由处理器401实现。处理器401可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器404，处理器401读取存储器404中的信息，结合其硬件完成上述方法的步骤。

可以理解，本发明实施例中的存储器404可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器404旨在包括但不限于这些和任意其它适合类型的存储器。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable Logic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

当在软件、固件、中间件或微码、程序代码或代码段中实现实施例时，它们可存储在例如存储部件的机器可读介质中。代码段可表示过程、函数、子程序、程序、例程、子例程、模块、软件分组、类、或指令、数据结构或程序语句的任意组合。代码段可通过传送和/或接收信息、数据、自变量、参数或存储器内容来稿合至另一代码段或硬件电路。可使用包括存储器共享、消息传递、令牌传递、网络传输等任意适合方式来传递、转发或发送信息、自变量、参数、数据等。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器单元中并通过处理器执行。存储器单元可以在处理器中或在处理器外部实现，在后一种情况下存储器单元可经由本领域己知的各种手段以通信方式耦合至处理器。

可选地，作为一个实施例，所述目标信息是由所述第一用户在初始时刻发布或转发的，所述设备400的发送电路403，用于输出满足预设条件的所述第二用户的账号，其中，所述预设条件为：所述转发所述目标信息的概率大于预设的概率阈值。

可选地，作为另一个实施例，接收电路402，还用于从所述社交网络获取信息传播记录、用户关系数据库和用户特征数据库，其中，所述信息传播记录包括已有信息的历史传播记录，所述用户关系数据库包括已有用户之间的关注关系，所述用户特征数据库包括已有用户的特征属性。

处理器401，还用于根据所述用户特征数据库，采用软聚类算法，得到所述K个集群以及所述K个集群的特征属性，其中，所述K个集群是根据所述已有用户的特征属性所确定的K个分类；处理器401，还用于根据所述信息传播记录和所述用户关系数据库，采用学习的方法，得到所述K个集群的影响力。

可理解，本发明实施例中，存储器404可用于存储信息传播记录、用户关系数据库、用户特征数据库。存储器404还用于存储K个集群的特征属性和K个集群的影响力。

可选地，作为另一个实施例，处理器401，具体用于：

获取所述第一用户的特征属性；

所述确定单元，具体用于：

可选地，作为另一个实施例，处理器401，还用于：

可选地，作为另一个实施例，所述第一用户属于所述已有用户，处理器401，具体用于：从所述已有用户的角色概率分布中，获取所述第一用户的角色概率分布。

可选地，作为另一个实施例，所述第一用户不属于所述已有用户，处理器401，具体用于：

获取所述第一用户的特征属性；

可选地，作为另一个实施例，处理器401，具体用于：确定所述第一用户的角色概率分布为所述N个第三用户的角色概率分布的算术平均。

可选地，作为另一个实施例，所述处理器401具体用于：

可选地，作为另一个实施例，所述K个集群的影响力还包括所述K个集群的信息传播时间延迟率，处理器401还用于：根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的时刻。

可选地，作为另一个实施例，所述处理器401具体用于：根据用户关系数据库，确定所述第一用户的关注者；从所述第一用户的关注者中确定所述第二用户，其中，所述第二用户未传播所述目标信息。

图4所示的设备400能够实现图1和图2所示的方法中的各个过程，为避免重复，这里不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器ROM、RAM、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种社交网络中预测信息传播的方法，其特征在于，所述方法包括：

获取待预测的目标信息并获取K个集群的影响力，其中，所述目标信息是由第一用户发布或转发的，所述K个集群用于表示用户的特征属性的K个分类，所述K个集群的影响力包括所述K个集群的信息传播成功率，K为正整数；

确定所述第一用户的角色概率分布，并确定未传播所述目标信息的第二用户，其中，所述第一用户的角色概率分布用于表示所述第一用户分别属于所述K个集群的概率；

根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的概率。
根据权利要求1所述的方法，其特征在于，所述目标信息是由所述第一用户在初始时刻发布或转发的，所述方法还包括：输出满足预设条件的所述第二用户的账号，

其中，所述预设条件为：所述转发所述目标信息的概率大于预设的概率阈值。
根据权利要求1或2所述的方法，其特征在于，在所述获取待预测的目标信息并获取K个集群的影响力之前，所述方法还包括：

从所述社交网络获取信息传播记录、用户关系数据库和用户特征数据库，其中，所述信息传播记录包括已有信息的历史传播记录，所述用户关系数据库包括已有用户之间的关注关系，所述用户特征数据库包括已有用户的特征属性；

根据所述用户特征数据库，采用软聚类算法，得到所述K个集群以及所述K个集群的特征属性，其中，所述K个集群是根据所述已有用户的特征属性所确定的K个分类；

根据所述信息传播记录和所述用户关系数据库，采用学习的方法，得到所述K个集群的影响力。
根据权利要求3所述的方法，其特征在于，所述确定所述第一用户的角色概率分布，包括：

获取所述第一用户的特征属性；

根据所述第一用户的特征属性与所述K个集群的特征属性，确定所述第一用户的角色概率分布。
根据权利要求4所述的方法，其特征在于，所述第一用户的特征属性表示为AT，所述K个集群的特征属性表示为KT_j，j＝1,2,…,K；

确定所述第一用户的角色概率分布为与所述K个集群对应的K个值，其中，所述K个值分别为
根据权利要求3所述的方法，其特征在于，在所述获取待预测的目标信息并获取K个集群的影响力之前，所述方法还包括：

根据所述用户特征数据库和所述K个集群的特征属性，确定所述已有用户的角色概率分布，其中，所述已有用户的角色概率分布用于表示所述已有用户分别属于所述K个集群的概率。
根据权利要求6所述的方法，其特征在于，所述第一用户属于所述已有用户，

所述确定所述第一用户的角色概率分布，包括：

从所述已有用户的角色概率分布中，获取所述第一用户的角色概率分布。
根据权利要求6所述的方法，其特征在于，所述第一用户不属于所述已有用户，

所述确定所述第一用户的角色概率分布，包括：

获取所述第一用户的特征属性；

根据所述第一用户的特征属性，从所述用户特征数据库中获取N个第三用户的特性属性，其中，所述N个第三用户属于所述已有用户，所述N个第三用户的特性属性与所述第一用户的特征属性之间的距离小于预设的距离阈值，N为正整数；

从所述已有用户的角色概率分布中，获取所述N个第三用户的角色概率分布；

根据所述N个第三用户的角色概率分布，确定所述第一用户的角色概率分布。
根据权利要求8所述的方法，其特征在于，所述根据所述N个第三用户的角色概率分布，确定所述第一用户的角色概率分布，包括：

确定所述第一用户的角色概率分布为所述N个第三用户的角色概率分布的算术平均。
根据权利要求3至9任一项所述的方法，其特征在于，所述学习的方法为机器学习的方法或统计学习的方法。
根据权利要求1至10任一项所述的方法，其特征在于，所述根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的概率，包括：

根据所述K个集群的影响力和所述第一用户的角色概率分布，采用统计的方法，计算所述第二用户转发所述目标信息的传播概率的期望值；

将所述传播概率的期望值作为所述第二用户从所述第一用户转发所述目标信息的概率。
根据权利要求1至11任一项所述的方法，其特征在于，所述K个集群的影响力还包括所述K个集群的信息传播时间延迟率，所述方法还包括：

根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的时刻。
根据权利要求1至12任一项所述的方法，其特征在于，所述第二用户为所述第一用户的关注者中未传播所述目标信息的用户。
根据权利要求13所述的方法，其特征在于，所述确定未传播所述目标信息的第二用户，包括：

根据用户关系数据库，确定所述第一用户的关注者；

从所述第一用户的关注者中确定所述第二用户，其中，所述第二用户未传播所述目标信息。
一种社交网络中预测信息传播的设备，其特征在于，所述设备包括：

获取单元，用于获取待预测的目标信息并获取K个集群的影响力，其中，所述目标信息是由第一用户发布或转发的，所述K个集群用于表示用户的特征属性的K个分类，所述K个集群的影响力包括所述K个集群的信息传播成功率，K为正整数；

确定单元，用于确定所述第一用户的角色概率分布，并确定未传播所述获取单元获取的所述目标信息的第二用户，其中，所述第一用户的角色概率分布用于表示所述第一用户分别属于所述K个集群的概率；

所述确定单元，还用于根据所述获取单元获取的所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的概率。
根据权利要求15所述的设备，其特征在于，所述目标信息是由所述第一用户在初始时刻发布或转发的，所述设备还包括：

输出单元，用于输出满足预设条件的所述第二用户的账号，

其中，所述预设条件为：所述转发所述目标信息的概率大于预设的概率阈值。
根据权利要求15或16所述的设备，其特征在于，

所述获取单元，还用于从所述社交网络获取信息传播记录、用户关系数据库和用户特征数据库，其中，所述信息传播记录包括已有信息的历史传播记录，所述用户关系数据库包括已有用户之间的关注关系，所述用户特征数据库包括已有用户的特征属性；

所述确定单元，还用于根据所述用户特征数据库，采用软聚类算法，得到所述K个集群以及所述K个集群的特征属性，其中，所述K个集群是根据所述已有用户的特征属性所确定的K个分类；

所述确定单元，还用于根据所述信息传播记录和所述用户关系数据库，采用学习的方法，得到所述K个集群的影响力。
根据权利要求17所述的设备，其特征在于，所述确定单元，具体用于：

获取所述第一用户的特征属性；

根据所述第一用户的特征属性与所述K个集群的特征属性，确定所述第一用户的角色概率分布。
根据权利要求18所述的设备，其特征在于，所述第一用户的特征属性表示为AT，所述K个集群的特征属性表示为KT_j，j＝1,2,…,K；

所述确定单元，具体用于：

确定所述第一用户的角色概率分布为与所述K个集群对应的K个值，其中，所述K个值分别为
根据权利要求17所述的设备，其特征在于，所述确定单元，还用于：

根据所述用户特征数据库和所述K个集群的特征属性，确定所述已有用户的角色概率分布，其中，所述已有用户的角色概率分布用于表示所述已有用户分别属于所述K个集群的概率。
根据权利要求20所述的设备，其特征在于，所述第一用户属于所述已有用户，所述确定单元，具体用于：

从所述已有用户的角色概率分布中，获取所述第一用户的角色概率分布。
根据权利要求20所述的设备，其特征在于，所述第一用户不属于所述已有用户，所述确定单元，具体用于：

获取所述第一用户的特征属性；

根据所述第一用户的特征属性，从所述用户特征数据库中获取N个第三用户的特性属性，其中，所述N个第三用户属于所述已有用户，所述N个第三用户的特性属性与所述第一用户的特征属性之间的距离小于预设的距离阈值，N为正整数；

从所述已有用户的角色概率分布中，获取所述N个第三用户的角色概率分布；

根据所述N个第三用户的角色概率分布，确定所述第一用户的角色概率分布。
根据权利要求22所述的设备，其特征在于，所述确定单元，具体用于：

确定所述第一用户的角色概率分布为所述N个第三用户的角色概率分布的算术平均。
根据权利要求17至23任一项所述的设备，其特征在于，所述学习的方法为机器学习的方法或统计学习的方法。
根据权利要求15至24任一项所述的设备，其特征在于，所述确定单元，具体用于：

根据所述K个集群的影响力和所述第一用户的角色概率分布，采用统计的方法，计算所述第二用户转发所述目标信息的传播概率的期望值；

将所述传播概率的期望值作为所述第二用户从所述第一用户转发所述目标信息的概率。
根据权利要求15至25任一项所述的设备，其特征在于，所述K个集群的影响力还包括所述K个集群的信息传播时间延迟率，所述确定单元，还用于：

根据所述K个集群的影响力和所述第一用户的角色概率分布，确定所述第二用户从所述第一用户转发所述目标信息的时刻。
根据权利要求15至26任一项所述的设备，其特征在于，所述第二用户为所述第一用户的关注者中未传播所述目标信息的用户。
根据权利要求27所述的设备，其特征在于，所述确定单元，具体用于：

根据用户关系数据库，确定所述第一用户的关注者；

从所述第一用户的关注者中确定所述第二用户，其中，所述第二用户未传播所述目标信息。