WO2022179384A1

WO2022179384A1 - 一种社交群体的划分方法、划分系统及相关装置

Info

Publication number: WO2022179384A1
Application number: PCT/CN2022/074604
Authority: WO
Inventors: 张灿; 刘伟; 牟奇
Original assignee: 山东英信计算机技术有限公司
Priority date: 2021-02-26
Filing date: 2022-01-28
Publication date: 2022-09-01
Also published as: CN113011471A

Abstract

本申请提供一种社交群体的划分方法，包括：获取社交数据和聚类要求，并确定社交数据对应的网络结构和节点信息（S101）；根据网络结构和节点信息进行随机游走，得到社交网络图（S102）；利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足聚类要求的社交群体（S103）。本申请首先采用简单的随机游走机制，以所有节点作为起始节点进行随机游走，形成新的社交网络图，在一定程度上增加了社交网络可信度，同时有利于划分出影响力较强的群体。本申请简单方便，易于通过软件方式进行模拟并实现不同社交群体的划分，且符合现实生活的社交网络结构。本申请还提供一种社交群体的划分系统、计算机可读存储介质和电子设备，具有上述有益效果。

Description

一种社交群体的划分方法、划分系统及相关装置

本申请要求在2021年2月26日提交中国专利局、申请号为202110218531.8、发明名称为“一种社交群体的划分方法、划分系统及相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理领域，特别涉及一种社交群体的划分方法、划分系统及相关装置。

背景技术

随着互联网技术的发展，在线社交网络呈爆炸式发展，人们的生活已经离不开在线社交网络，也时刻被它影响和改变着。深入研究影响力的传播模式有助于理解人类群体和个体的行为，从而对人们的行为做出预期，为政府、企业等各部门的决策提供可靠的依据和建议。

社交群体中的聚类分析是一个将数据样本划分为由相似对象组成的分组的过程。每一个组称为一个簇，每个簇中的数据对象的相似度大，而不同簇中的对象相似度小。针对实际情况下的社交网络，社交网络聚类可以按照实际情况下网络中节点的具体位置信息将节点分到不同的簇，展现实际情况下社交网络结构中隐藏的不同组织集群，从而改进对社交网络数据的挖掘分析能力。

传统的社交网络划分方法仅仅在一定程度上描述了社交网络中信息的传播和扩散过程，但由于缺乏前期预处理，对于影响力较小的传播路径仍进行了计算，影响了不同社交网络划分的精准性，导致聚类效果不显著。

发明内容

本申请的目的是提供一种社交群体的划分方法、划分系统、计算机可读存储介质和电子设备，通过对随机游走得到的社交网络图进行聚类，提高了社交网络可信度。

为解决上述技术问题，本申请提供一种社交群体的划分方法，具体技术方案如下：

获取社交数据和聚类要求，并确定所述社交数据对应的网络结构和节点信息；

根据所述网络结构和所述节点信息进行随机游走，得到社交网络图；

利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足所述聚类要求的社交群体。

可选的，根据所述网络结构和所述节点信息进行随机游走，得到社交网络图包括：

从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走，并记录随机游走的游走路径；

利用Apriori算法选取所述游走路径中的频繁项集，得到所述社交网络图。

可选的，从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走之前，还包括：

利用概率转移矩阵确定节点的随机游走概率；

所述概率转移矩阵为

W _ij为节点i和节点j之间连边的权重，W _ig为网络权重矩阵的第i行总和；

则从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走包括：

根据所述随机游走概率从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走。

可选的，利用概率转移矩阵确定节点的随机游走概率之前，还包括：

根据所述节点信息和网络结构确定所述社交网络图对应的所述网络权重矩阵。

可选的，利用预设聚类方法对社交网络图中的节点进行二分聚类包括：

利用Kernighan-Lin算法或谱平分法对社交网络图中的节点进行二分聚类。

可选的，若所述预设聚类方法Kernighan-Lin算法，利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足所述聚类要求的社交群体包括：

将所述社交网络图随机划分为两个子图，从两个所述子图中各取一个节点进行交换，计算节点交换前后的增益函数的差值；所述增益函数为两个所述子图内的边数与两个子图之间边数的差值；

将所述增益函数的差值最大时两个节点进行交换，且两个子图中的每个节点在每次迭代过程中最多交换一次；

对剩余节点重复进行交换，直至所述增益函数的差值小于零或存在子图中的所有节点均被交换一次，得到第一次迭代后的两个子图；

判断当前两个子图是否满足所述聚类要求；

若是，将当前两个子图作为满足所述聚类要求的社交群体；

若否，重复迭代，直至得到满足所述聚类要求的两个子图。

本申请还提供一种社交群体的划分系统，包括：

数据获取模块，用于获取社交数据和聚类要求，并确定所述社交数据对应的网络结构和节点信息；

社交网络确认模块，用于根据所述网络结构和所述节点信息进行随机游走，得到社交网络图；

聚类模块，用于利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足所述聚类要求的社交群体。

可选的，社交网络确认模块包括：

游走单元，用于从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走，并记录随机游走的游走路径；

社交网络生成单元，用于利用Apriori算法选取所述游走路径中的频繁项集，得到所述社交网络图。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种电子设备，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种社交群体的划分方法，包括：获取社交数据和聚类要求，并确定所述社交数据对应的网络结构和节点信息；根据所述网络结构和所述节点信息进行随机游走，得到社交网络图；利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足所述聚类要求的社交群体。

本申请首先采用简单的随机游走机制，以所有节点作为起始节点进行随机游走，形成新的社交网络图，在一定程度上增加了社交网络可信度，同时有利于划分出影响力较强的群体。本申请简单方便，在当前大数据技术的支撑下，易于通过软件方式进行模拟并实现不同社交群体的划分，且符合现实生活的社交网络结构，有一定的现实意义。

本申请还提供一种社交群体的划分系统、计算机可读存储介质和电子设备，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种社交群体的划分方法的流程图；

图2为本申请实施例所提供的一种社交群体的划分系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种社交群体的划分方法的流程图，该方法包括：

S101：获取社交数据和聚类要求，并确定所述社交数据对应的网络结构和节点信息；

本步骤旨在获取社交数据和聚类要求，该社交数据指原始的社交网络数据，其可以包含用户信息，以及与用户存在关联的通信信息，其可以以通信记录的形式呈现。而通信信息通常又存在对应的通信目标，以此形成用户与用户之间的通信，在社交网络中表明用户与用户之间存在连接。需要注意的是，用户与用户之间的通信具有方向性，即用户A对用户B的通信，与用户B对用户A的通信过程为两个通信过程，各自包含通信频率等通信属性信息，而通信属性信息可以认为用户对另一用户的影响力。在社交网络中，通常将每个用户视为一个节点，则也可以得到节点对另一节点的影响力关系。

聚类要求指对于社交网络数据的聚类标准，在此对于聚类要求的具体内容不作限定，其可以为社团密度、社团优劣等参数。社团指社交网络中的每一个类。社团划分越好，社团内部的边尽可能地多，社团之间的边尽可能地少，即类与类之间的交集越少说明聚类效果越好。本领域技术人员可以根据实际聚类需求确定聚类要求。当然聚类要求，还可以使用模块度等聚类要求，在此不一一限定。

由于社交数据为社交网络数据，其通常包含点集合和边集合，由点集合和边集合即可确定网络结构。而节点信息指社交数据中每个用户的用户信息。

换句话说，本步骤为根据社交数据，得到带权有向图的过程。若把社交网络表示为一个带权有向图G＝(V,E)，其中v∈V是节点的集合，

是有向边的集合。每一个节点v∈V表示社交网络中的一个用户，每一条边(u,v)∈E表示节点u到节点v的影响力关系。边是有向的，即影响力是有方向的，节点u对节点v有影响力，但节点v对节点u可能没有影响力。边的权重表示影响力的大小。

S102：根据所述网络结构和所述节点信息进行随机游走，得到社交网络图；

本步骤旨在执行随机游走，从而得到社交网络图。随机游走可以从上一步骤确定的网络结构中的任一节点开始。在此对于随机游走的次数和步数均不限定。且随机游走的次数和步数可以在本步骤前预先设定，也可以利用矩阵或者函数等方式在随机游走前进行计算得到。

可选的，本步骤执行时可以包括如下过程：

第一步、从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走，并记录随机游走的游走路径；

第二步、利用Apriori算法选取所述游走路径中的频繁项集，得到所述社交网络图。

Apriori算法是常用的用于挖掘出数据关联规则的算法，它用来找出数据值中频繁出现的数据集合。当然本实施例可选的采用了Apriori算法选取频繁项集，本领域技术人员还可以采用其他算法选取频繁项集，以得到社交网络图。例如Apriori算法的优化算法—AprioriTid算法等。Apriori算法用支持度和置信度来量化频繁项集和关联规则，其通过候选集生成和情节的向下封闭检验检测两个阶段来挖掘频繁项集。Apriori算法的挖掘结果具有普遍性，信服力较强，且算法简单，对于社交数据的数据要求较低。

此外，从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走之前，还可以计算随机游走的概率。具体的，可以利用概率转移矩阵确定节点的随机游走概率。

概率转移矩阵为

W _ij为节点i和节点j之间连边的权重，W _ig为网络权重矩阵的第i行总和。可以先根据所述节点信息和网络结构确定社交网络图对应的网络权重矩阵。网络权重矩阵包含了社交网络图中边的权重，用于指代节点与节点之间的通信状况。

若先计算随机游走的频率，则可以根据所述随机游走概率从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走。需要注意的是，预设次数指每个节点进行随机游走的次数。若记随机游走的次数为m，则如果网络中共有n个节点，经过该步骤形成的所有路径个数为m*n。

S103：利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足所述聚类要求的社交群体。

在得到社交网络图后，即可利用预设聚类方法进行聚类，以得到满足聚类要求的社交群体。

本实施例对于采用何种聚类方法不作限定，可以利用Kernighan-Lin算法或谱平分法对社交网络图中的节点进行二分聚类。而无论采用何种二分聚类方法，由于本实施例以所有节点作为起始节点进行随机游走，形成新的社交网络图，在一定程度上增加了社交网络可信度，同时有利于划分出影响力较强的群体。

下文以预设聚类方法Kernighan-Lin算法为例，对利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足所述聚类要求的社交群体的具体过程进行说明：

第一步、将所述社交网络图随机划分为两个子图，从两个所述子图中各取一个节点进行交换，计算节点交换前后的增益函数的差值；所述增益函数为两个所述子图内的边数与两个子图之间边数的差值；

第二步、将所述增益函数的差值最大时两个节点进行交换，且两个子图中的每个节点在每次迭代过程中最多交换一次；

第三步、对剩余节点重复进行交换，直至所述增益函数的差值小于零或存在子图中的所有节点均被交换一次，得到第一次迭代后的两个子图；

第四步、判断当前两个子图是否满足所述聚类要求；若是，进入第五步；若否，进入第六步；

第五步、将当前两个子图作为满足所述聚类要求的社交群体；

第六步、重复迭代，直至得到满足所述聚类要求的两个子图。

具体的，将社交网络图随机划分为已知大小的两个子图K ₁、K ₂，定义增益函数:Q＝两个社团内的边数-社团之间的边数，此时每个子图相当于一个社团。从两个子图中各取一个节点准备交换，尝试交换并计算ΔQ＝Q交换后-Q交换前，选择使ΔQ最大的一对节点对交换。每个节点只能交换一次。

对剩余节点重复上一步操作,直到ΔQ<0，或者某个子图的所有节点都被交换了一次为止。允许每个节点的第二次交换,开始新一轮迭代,直到没有节点对可以交换。此时原社交网络图被划分为两个子图K' ₁、K' ₂。同一子图中节点之间的相似度大，而不同子图中节点之间的相似度较小。

根据聚类要求使用相同方法继续对子图K' ₁、K' ₂进行聚类划分，直至满足聚类要求。

下面对本申请实施例提供的一种社交群体的划分系统进行介绍，下文描述的划分系统与上文描述的一种社交群体的划分方法可相互对应参照。

图2为本申请实施例所提供的一种社交群体的划分系统结构示意图，本申请还提供一种社交群体的划分系统，包括：

数据获取模块100，用于获取社交数据和聚类要求，并确定所述社交数据对应的网络结构和节点信息；

社交网络确认模块200，用于根据所述网络结构和所述节点信息进行随机游走，得到社交网络图；

聚类模块300，用于利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足所述聚类要求的社交群体。

基于上述实施例，作为可选的实施例，社交网络确认模块200包括：

基于上述实施例，作为可选的实施例，还包括：

概率确认模块，用于利用概率转移矩阵确定节点的随机游走概率；所述概率转移矩阵为

则游走单元为用于根据所述随机游走概率从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走的单元。

基于上述实施例，作为可选的实施例，还包括：

权重确认模块，用于根据所述节点信息和网络结构确定所述社交网络图对应的所述网络权重矩阵。

基于上述实施例，作为可选的实施例，聚类模块300包括：

聚类单元，用于利用Kernighan-Lin算法或谱平分法对社交网络图中的节点进行二分聚类。

基于上述实施例，作为可选的实施例，若所述预设聚类方法Kernighan-Lin算法，聚类模块300为用于执行如下步骤的模块：

将所述社交网络图随机划分为两个子图，从两个所述子图中各取一个节点进行交换，计算节点交换前后的增益函数的差值；所述增益函数为两个所述子图内的边数与两个子图之间边数的差值；将所述增益函数的差值最大时两个节点进行交换，且两个子图中的每个节点在每次迭代过程中最多交换一次；对剩余节点重复进行交换，直至所述增益函数的差值小于零或存在子图中的所有节点均被交换一次，得到第一次迭代后的两个子图；判断当前两个子图是否满足所述聚类要求；若是，将当前两个子图作为满足所述聚类要求的社交群体；若否，重复迭代，直至得到满足所述聚类要求的两个子图。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

一种社交群体的划分方法，其特征在于，包括：

获取社交数据和聚类要求，并确定所述社交数据对应的网络结构和节点信息；

根据所述网络结构和所述节点信息进行随机游走，得到社交网络图；

利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足所述聚类要求的社交群体。
根据权利要求1所述的社交群体的划分方法，其特征在于，根据所述网络结构和所述节点信息进行随机游走，得到社交网络图包括：

从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走，并记录随机游走的游走路径；

利用Apriori算法选取所述游走路径中的频繁项集，得到所述社交网络图。
根据权利要求2所述的社交群体的划分方法，其特征在于，从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走之前，还包括：

利用概率转移矩阵确定节点的随机游走概率；

所述概率转移矩阵为
W _ij为节点i和节点j之间连边的权重，W _ig为网络权重矩阵的第i行总和；

则从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走包括：

根据所述随机游走概率从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走。
根据权利要求3所述的社交群体的划分方法，其特征在于，利用概率转移矩阵确定节点的随机游走概率之前，还包括：

根据所述节点信息和网络结构确定所述社交网络图对应的所述网络权重矩阵。
根据权利要求1所述的社交群体的划分方法，其特征在于，利用预设聚类方法对社交网络图中的节点进行二分聚类包括：

利用Kernighan-Lin算法或谱平分法对社交网络图中的节点进行二分聚类。
根据权利要求1所述的社交群体的划分方法，其特征在于，若所述预设聚类方法Kernighan-Lin算法，利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足所述聚类要求的社交群体包括：

将所述社交网络图随机划分为两个子图，从两个所述子图中各取一个节点进行交换，计算节点交换前后的增益函数的差值；所述增益函数为两个所述子图内的边数与两个子图之间边数的差值；

将所述增益函数的差值最大时两个节点进行交换，且两个子图中的每个节点在每次迭代过程中最多交换一次；

对剩余节点重复进行交换，直至所述增益函数的差值小于零或存在子图中的所有节点均被交换一次，得到第一次迭代后的两个子图；

判断当前两个子图是否满足所述聚类要求；

若是，将当前两个子图作为满足所述聚类要求的社交群体；

若否，重复迭代，直至得到满足所述聚类要求的两个子图。
一种社交群体的划分系统，其特征在于，包括：

数据获取模块，用于获取社交数据和聚类要求，并确定所述社交数据对应的网络结构和节点信息；

社交网络确认模块，用于根据所述网络结构和所述节点信息进行随机游走，得到社交网络图；

聚类模块，用于利用预设聚类方法对社交网络图中的节点进行二分聚类，得到满足所述聚类要求的社交群体。
根据权利要求7所述的社交群体的划分系统，其特征在于，社交网络确认模块包括：

游走单元，用于从所述网络结构中的每个节点出发，进行预设次数和预设步数的随机游走，并记录随机游走的游走路径；

社交网络生成单元，用于利用Apriori算法选取所述游走路径中的频繁项集，得到所述社交网络图。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的社交群体的划分方法的步骤。
一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-6任一项所述的社交群体的划分方法的步骤。