WO2017080398A1

WO2017080398A1 - 一种用户群体的划分方法和装置

Info

Publication number: WO2017080398A1
Application number: PCT/CN2016/104490
Authority: WO
Inventors: 黄光远
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2015-11-12
Filing date: 2016-11-04
Publication date: 2017-05-18
Also published as: CN106708844A

Abstract

一种用户群体的划分方法和装置，该方法包括：抓取用户标识（101）；建立所述用户标识之间的共同行为关系，获得用户节点图（102）；在所述用户节点图中，根据所述共同行为关系识别一个或多个核心用户群体（103）；在所述一个或多个核心用户群体中，根据所述共同行为关系划分一个或多个目标用户群体（104）。一方面，避免人工设定规则，不同的用户群具有不同的分布特征，尽管个体的行为差异较大，但是用户的潜在关系则比较稳定，基于图的用户群体划分方式提高了用户群体的划分精确度；另一方面，通过粗略划分出核心用户群体，大大减少了数据量，进而提高了划分效率，提高了用户群体的划分精确度。

Description

一种用户群体的划分方法和装置

本申请要求2015年11月12日递交的申请号为201510772638.1发明名称为“一种用户群体的划分方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机处理的技术领域，特别是涉及一种用户群体的划分方法和一种用户群体的划分装置。

背景技术

随着互联网的高速发展，网上的信息量急剧增加，过量的信息使得人们无法高效地从中获取自己需要的部分，信息的使用效率反而降低。

因此，各大网站通常将其面向的用户划分为不同的用户群体，提供更精细化的服务。

另外，在某些安全检测情景中，也需要将用户划分不同的用户群体。

例如，在电子商务网站中，不法分子通过虚拟交易等途径恶意增加店铺的积分，俗称“刷钻”，为维持秩序，网站需要将“刷钻”的群体识别出来。

现在，用户群体划分的方式通常有两种，一种是人工设定规则，另一种是社区发现算法。

在人工设定规则的方式中，往往难以覆盖不同群体的不同特性，而且，用户群体的规则繁多、容易发生变化，人工设定的规则难免会有所偏差，从而导致用户群体划分的精确度较低。

以识别“刷钻”群体为例，识别“刷钻”群体常用的规则有“用户购买前浏览的同类商品个数”、“用户浏览到下单的时间长度”、“用户购买多个物品的间隔时间”等。

不同的“刷钻”群体，往往具有不一样的表现。如一个“刷钻”群体接到需求后直接购买指定的商品；另一个“刷钻”群体，会浏览多个同类商品后，再购买指定的商品。

则对于这两个“刷钻”群体，在“用户购买前浏览的同类商品个数”这个规则上的表现不一，难以通过同一个阈值进行识别判断。

在社区发现算法中，容易在结果中引入与具体应用场景不符合的数据，导致数据量过大，划分效率较低，用户群体划分的精确度较低。

以识别“刷钻”群体为例，在建模时首先对用户间的购买关系进行抽象，简单地认为两个用户共同购买过某一件商品即认为他们存在关系，会使得建立的图规模过大，造成划分效率的低下，以及存在将一些购买数量较多的用户误识别为“刷钻”用户的风险。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种用户群体的划分方法和相应的一种用户群体的划分装置。

为了解决上述问题，本申请实施例公开了一种用户群体的划分方法，包括：

抓取用户标识；

建立所述用户标识之间的共同行为关系，获得用户节点图；

在所述用户节点图中，根据所述共同行为关系识别一个或多个核心用户群体；

在所述一个或多个核心用户群体中，根据所述共同行为关系划分一个或多个目标用户群体。

可选地，所述建立所述用户标识之间的共同行为关系，获得用户节点图的步骤包括：

查找所述用户标识的行为数据；

从所述行为数据中识别共同的行为数据；

对所述共同的行为数据所属的用户标识建立共同行为关系。

可选地，所述查找所述用户标识的行为数据的步骤包括：

从预置的数据库中提取在预设时间段内、所述用户标识的行为数据。

可选地，所述对所述共同的行为数据所属的用户标识建立共同行为关系的步骤包括：

按照行为数据的类型对所述共同的行为数据配置权重；

当所述权重之和大于预设的权重阈值时，对所述共同的行为数据所属的用户标识建立共同行为关系。

可选地，所述在所述用户节点图中，根据所述共同行为关系识别一个或多个核心用户群体的步骤包括：

计算所述用户标识在所述用户节点图中的核心程度值；

当所述核心程度值大于预设的核心阈值时，确定所述核心程度值对应的用户标识归属核心用户群体。

可选地，所述计算所述用户标识在所述用户节点图中的核心程度值的步骤包括：

设置当前迭代的全局核心程度值；

在所述用户节点图中，针对每个用户标识统计通过共同行为关系相连的用户标识的数量，获得节点度值；

在所述用户节点图中，判断每个用户标识的节点度值是否小于或等于全局核心程度值；

若是，则去除节点度值小于或等于所述全局核心程度值的用户标识；

将所述全局核心程度值赋值给在先去除的用户标识，作为先去除的用户标识的核心程度值；

在所述用户节点图中，删除与在先去除的用户标识相连的共同行为关系，返回执行所述在所述用户节点图中，判断每个用户标识的节点度值是否小于或等于全局核心程度值的步骤；

若否，则返回执行所述设置当前迭代的全局核心程度值的步骤，直至遍历所述用户节点图完成。

可选地，所述设置当前迭代的全局核心程度值的步骤包括：

在首次迭代时，设置初始的全局核心程度值为1；

或者，

在非首次迭代时，在上一全局核心程度值的基础上加1，作为当前全局核心程度值。

可选地，所述在所述一个或多个核心用户群体中，根据所述共同行为关系划分一个或多个目标用户群体的步骤包括：

在所述一个或多个核心用户群体中，对每个用户标识配置标签，所述标签具有数值；

将每个用户标识的标签传递至相连的用户标识；

从每个用户标识接收到的标签中，按照标签的数值选取一个标签作为所拥有的标签；

判断在所述一个或多个核心用户群体中，用户标识所拥有的标签是否发生变化；

若是，则返回执行所述将每个用户标识的标签传递至相连的用户标识的步骤；

若否，则将拥有相同标签的用户标识划分为目标用户群体。

在所述一个或多个核心用户群体中，对每个用户标识配置标签；

将每个用户标识的标签传递至相连的用户标识；

从每个用户标识接收到的标签中，按照标签的数量选取一个标签作为所拥有的标签；

判断在所述一个或多个核心用户群体中，用户标识所拥有的标签是否发生变化，或者，当前是否小于预设的最大迭代次数；

若否，则将拥有相同标签的用户标识划分为目标用户群体。

本申请实施例还公开了一种用户群体的划分装置，包括：

用户标识获取模块，用于抓取用户标识；

用户节点图构建模块，用于建立所述用户标识之间的共同行为关系，获得用户节点图；

核心用户群体识别模块，用于在所述用户节点图中，根据所述共同行为关系识别一个或多个核心用户群体；

目标用户群体划分模块，用于在所述一个或多个核心用户群体中，根据所述共同行为关系划分一个或多个目标用户群体。

可选地，所述用户节点图构建模块包括：

行为数据查找子模块，用于查找所述用户标识的行为数据；

共同行为数据识别子模块，用于从所述行为数据中识别共同的行为数据；

共同行为关系建立子模块，用于对所述共同的行为数据所属的用户标识建立共同行为关系。

可选地，所述行为数据查找子模块包括：

时间段数据查找单元，用于从预置的数据库中提取在预设时间段内、所述用户标识的行为数据。

可选地，所述共同行为关系建立子模块包括：

权重配置单元，用于按照行为数据的类型对所述共同的行为数据配置权重；

关系建立单元，用于在所述权重之和大于预设的权重阈值时，对所述共同的行为数据所属的用户标识建立共同行为关系。

可选地，所述核心用户群体识别模块包括：

核心程度值计算子模块，用于计算所述用户标识在所述用户节点图中的核心程度值；

核心用户群体确定子模块，用于在所述核心程度值大于预设的核心阈值时，确定所述核心程度值对应的用户标识归属核心用户群体。

可选地，所述核心程度值计算子模块包括：

全局核心程度值设置单元，用于设置当前迭代的全局核心程度值；

节点度值统计单元，用于在所述用户节点图中，针对每个用户标识统计通过共同行为关系相连的用户标识的数量，获得节点度值；

数量比较单元，用于在所述用户节点图中，判断每个用户标识的节点度值是否小于或等于全局核心程度值；若是，则调用用户标识去除单元，若否，则返回调用所述全局核心程度值设置单元，直至遍历所述用户节点图完成；

用户标识去除单元，用于在所述用户节点图中，去除节点度值小于或等于所述全局核心程度值的用户标识；

核心程度值赋值单元，用于将所述全局核心程度值赋值给在先去除的用户标识，作为先去除的用户标识的核心程度值；

共同行为关系删除单元，用于在所述用户节点图中，删除与在先去除的用户标识相连的共同行为关系，返回调用所述数量比较单元。

可选地，所述全局核心程度值设置单元包括：

初始设置子单元，用于在首次迭代时，设置初始的全局核心程度值为1；

或者，

增值子单元，用于在非首次迭代时，在上一全局核心程度值的基础上加1，作为当前全局核心程度值。

可选地，所述目标用户群体划分模块包括：

第一标签配置子模块，用于在所述一个或多个核心用户群体中，对每个用户标识配置标签，所述标签具有数值；

第一标签传递子模块，用于将每个用户标识的标签传递至相连的用户标识；

第一标签选取子模块，用于从每个用户标识接收到的标签中，按照标签的数值选取一个标签作为所拥有的标签；

第一判断子模块，用于判断在所述一个或多个核心用户群体中，用户标识所拥有的标签是否发生变化；若是，则返回调用所述第一标签传递子模块；若否，则调用第一目标用户群体划分子模块；

第一目标用户群体划分子模块，用于将拥有相同标签的用户标识划分为目标用户群体。

可选地，所述目标用户群体划分模块包括：

第二标签配置子模块，用于在所述一个或多个核心用户群体中，对每个用户标识配置标签；

第二标签传递子模块，用于将每个用户标识的标签传递至相连的用户标识；

第二标签选取子模块，用于从每个用户标识接收到的标签中，按照标签的数量选取一个标签作为所拥有的标签；

第二判断子模块，用于判断在所述一个或多个核心用户群体中，用户标识所拥有的标签是否发生变化，或者，当前是否小于预设的最大迭代次数；若是，则返回调用所述第二标签传递子模块；若否，则调用第二目标用户群体划分子模块；

第二目标用户群体划分子模块，用于将拥有相同标签的用户标识划分为目标用户群体。

本申请实施例包括以下优点：

本申请实施例通过用户的共同行为关系构建用户节点图，在用户节点图中粗略划分出核心用户群体，在核心用户群体中精细划分出目标用户群体，一方面，避免人工设定规则，不同的用户群具有不同的分布特征，尽管个体的行为差异较大，但是用户的潜在关系则比较稳定，基于图的用户群体划分方式提高了用户群体的划分精确度，另一方面，通过粗略划分出核心用户群体，大大减少了数据量，进而提高了划分效率，提高了用户群体的划分精确度。

附图说明

图1是本申请的一种用户群体的划分方法实施例的步骤流程图；

图2A-图2C是本申请的一种用户节点图的构建示例图；

图3A-图3D是本申请的一种核心用户群体的识别示例图；

图4是本申请的一种目标用户群体的识别示例图；

图5是本申请的一种用户群体的划分装置实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种用户群体的划分方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，抓取用户标识；

用户标识可以是能够代表一个确定的用户的信息，例如，用户ID(Identity，身份标识号)、cookie、Mac(Media Access Control，媒体访问控制)地址等等。

在本申请实施例中，服务器可以通过网站日志记录用户的数据，存储在数据库中。

在划分用户群体时，可以从数据库中抓取用户标识。

步骤102，建立所述用户标识之间的共同行为关系，获得用户节点图；

共同行为关系，可以指用户(以用户标识表征)之间存在共同的行为。

在用户节点图中，节点代表用户(以用户标识表征)，连线表示节点之间的关系(即共同行为关系)，用户节点图为表示用户间存在共同操作的强关系网络。

在本申请的一个实施例中，步骤102可以包括如下子步骤：

子步骤S11，查找所述用户标识的行为数据；

一般的网站日志可以记录用户电脑的IP地址是什么、在什么时间、用什么操作系统、什么浏览器、什么显示器的情况下访问了网站的哪个页面，是否访问成功。

但是针对用户行为而言，需要的不是用户电脑的IP地址、操作系统、浏览器等机器人数据，而是用户浏览了什么信息、对其喜爱程度的表现行为等可以表征用户兴趣爱好的行为数据。

在具体实现中，可以对网站日志进行过滤，获得结构化的行为数据，例如用户ID，用户访问的商品ID，访问时间，用户行为(例如点击，购买，评价等)。

例如，网站日志可以为：

118.112.27.164---[24/Oct/2012:11:00:00+0800]"GET/b.jpg？cD17Mn0mdT17L2NoaW5hLmFsaWJhYmEuY29tL30mbT17R0VUfSZzPXsyMDB9JnI9e2h0dHA6Ly9mdy50bWFsbC5jb20vP3NwbT0zLjE2OTQwNi4xOTg0MDEufSZhPXtzaWQ9MTdjMDM2MjEtZTk2MC00NDg0LWIwNTYtZDJkMDcwM2NkYmE4fHN0aW1lPTEzNTEwNDc3MDU3OTZ8c2RhdGU9MjR8YWxpX2FwYWNoZV9pZD0xMTguMTEyLjI3LjE2NC43MjU3MzI0NzU5ODMzMS43fGNuYT0tfSZiPXstfSZjPXtjX3NpZ25lZD0wfQ＝＝&pageid＝7f0000017f00000113511803054674156071647816&sys＝ie6.0|windowsXP|1366*768|zh-cn&ver＝43&t＝1351047705828HTTP/1.0"200-"Mozilla/4.0(compatible；MSIE 6.0；Windows NT 5.1；SV1；.NET CLR 2.0.50727)"118.112.27.164.135104760038.61^sid％3D17c03621-e960-4484-b056-d2d0703cdba8％7Cstime％3D1351047705796％7Csdate％3D24|cna＝-^-^aid＝118.112.27.164.72573247598331.7

过滤后获得的结构化的行为数据可以为：

1,b2b-1633112210,1215596848,1,07/Aug/2013:08:27:22

需要说明的是，用户的行为具有时效性，如夏天购买冰棒、冬天购买羽绒等，则共同行为关系的建立一般考虑时间维度。

因此，在本申请实施例中，可以从预置的数据库中提取在预设时间段内、用户标识的行为数据。

子步骤S12，从所述行为数据中识别共同的行为数据；

在实际应用中，共同的行为数据指用户(以用户标识表征)之间相同的行为数据。

在电子商务网站中，可以取一段时间内的购买、收藏、好评、加入购物车等行为数据，统计在一定时间间隔内，两个用户共同购买的商品、共同收藏的商品、共同好评的商品、共同加入购物车的商品等的操作记录数。

例如，取一个月内的购买记录，取时间间隔为一周，若买家A在星期一时在某个店铺发生购买行为，买家B在三天后时在该店铺发生购买行为，则买家A与买家B存在一条共同的行为数据。

需要说明的是，根据不同业务场景的需求，可以采用不同粒度的共同行为数据。

以共同的购买数据为例，根据应用场景、考察对象的不同，“共同”的关系可以有灵活的实现。

若识别单个商品的“刷钻”群体，因为是单品，所以“共同的行为数据”应定义为“两个用户共同购买了同一件商品”。

若处理店铺的群体划分场景时，此时考虑店铺间的关系，所以“共同的行为数据”可定义为“两个用户在同一家店铺购买了任意的商品”。

子步骤S13，对所述共同的行为数据所属的用户标识建立共同行为关系。

在具体实现中，不同的行为表达的用户意图强度不同，例如，用户购买商品意图最强，收藏次之，浏览较弱，因此，可以按照行为数据的类型对所述共同的行为数据配置权重。

另外，预先设置权重阈值，权重阈值的设定与该行为表达的用户意图强弱成正比，一般取0-1之间。

当权重之和大于预设的权重阈值时，对共同的行为数据所属的用户标识建立共同行为关系。

如图2A所示，在构建用户节点图中，若用户A与用户B存在共同的行为数据，则可以对用户A与用户B连接虚线。

如图2B所示，若确定用户A与用户B存在较强的共同行为关系，则可以对用户A与用户B连接一条实线。

如图2C所示，对每一个用户进行相同的操作，则可以构建用户节点图，如用户A-用户Q构建用户节点图。

步骤103，在所述用户节点图中，根据所述共同行为关系识别一个或多个核心用户群体；

核心用户群体，可以指服务器所面向的主要用户所组成的群体，如行为较为活跃、关联较为紧密的用户所组成的群体。

在具体实现中，可以通过图算法Kcore进行边缘节点的过滤，找出用户节点图中相对核心位置的节点(即用户标识)并发现它们的关联。

在本申请的一个实施例中，步骤103可以包括如下子步骤：

子步骤S21，计算所述用户标识在所述用户节点图中的核心程度值；

在本申请实施例中，核心程度值可以表示用户的重要程度，核心程度值越高，则表示该用户越重要。

在本申请的一个实施例中，子步骤S21进一步可以包括如下子步骤：

子步骤S211，设置全局核心程度值；

在具体实现中，在首次迭代时，可以设置初始的全局核心程度值为1，假设设定k为1为k，则初始时k＝1。

在非首次迭代时，可以在上一全局核心程度值的基础上加1，作为当前全局核心程度值，即k＝k+1，第二次迭代k＝2，第三次迭代k＝3，以此类推。

子步骤S212，在所述用户节点图中，针对每个用户标识统计通过共同行为关系相连的用户标识的数量，获得节点度值；

在用户节点图中，某个节点(即用户标识)具有N条边(即共同行为关系)相连的节点(即用户标识)，则其的节点度值为N，N为正整数。

例如，如图2C所示，节点A连接节点B、C、D、E、F、J，则节点A的节点度值为6；而节点J只连接节点A，则节点J的节点度值为1。

子步骤S213，在所述用户节点图中，判断每个用户标识的节点度值是否小于或等于全局核心程度值；若是，则执行子步骤S214，若否，则返回子步骤S211，直至遍历所述用户节点图完成；

子步骤S214，在所述用户节点图中，去除节点度值小于或等于所述全局核心程度值的用户标识；

子步骤S215，将所述全局核心程度值赋值给在先去除的用户标识，作为先去除的用户标识的核心程度值(coreness)；

子步骤S216，在所述用户节点图中，删除与在先去除的用户标识相连的共同行为关系，返回执行子步骤S213，直至遍历所述用户节点图完成。

在本申请实施例中，图算法Kcore支持分布式系统，可以处理海量的数据。

在每次迭代中，都会去除节点及边，形成新的用户节点图，在下一次迭代中，即在新的用户节点图中进行处理。

如图2C所示的用户节点图，在首次迭代时，k＝1，各节点的节点度值如下：

节点度值	节点
1	J、K、L、M、N、O、P、Q
2	E、F
4	B、C、G、H、I
5	D
7	A

在首次迭代中，节点J、K、L、M、N、O、P、Q的节点度值等于k(1)，因此，去除节点J、K、L、M、N、O、P、Q及其相连的边，并赋值k给节点J、K、L、M、N、O、P、Q，则其核心程度值(coreness)为1。

如图3A所示的用户节点图，去除节点J、K、L、M、N、O、P、Q及其相连的边之后，各节点的节点度值发生变化，如节点I的节点度值变为1，各节点的节点度值如下：

节点度值	节点
1	I
2	E、F、G、H
4	B、C
5	D
6	A

节点I的节点度值等于k(1)，因此，去除节点I及其相连的边，并赋值k给节点 I，则其核心程度值(coreness)为1。

如图3B所示的用户节点图，去除节点I及其相连的边之后，各节点的节点度值不再发生变化，并且，所有节点的节点度值均大于或等于当前迭代的全局核心程度值k(1)，各节点的节点度值如下：

节点度值	节点
2	E、F、G、H
4	B、C
5	D
6	A

因此，进入第二轮迭代，k＝k+1＝2。

在第二次迭代中，节点I、E、F、G、H的节点度值小于或等于k(2)，因此，去除节点I、E、F、G、H及其相连的边，并赋值k给节点I、E、F、G、H，则其核心程度值(coreness)为2。

如图3C所示的用户节点图，去除节点I、E、F、G、H及其相连的边之后，各节点的节点度值不再发生变化，并且，所有节点的节点度值均大于或等于当前迭代的全局核心程度值k(2)，各节点的节点度值如下：

节点度值	节点
3	A、B、C、D

因此，进入第三轮迭代，k＝k+1＝3。

在第三次迭代中，节点A、B、C、D的节点度值等于k(3)，因此，去除节点A、B、C、D及其相连的边，并赋值k给节点A、B、C、D，则其核心程度值(coreness)为3，此时，遍历用户节点图完成。

如图3D所示的用户节点图，节点J、K、L、M、N、O、P、Q、I的核心程度值为1(coreness＝1)，在最外层，节点E、F、G、H的核心程度值为2(coreness＝2)，在次外层，节点A、B、C、D的核心程度值为3(coreness＝3)，在中心层。

子步骤S22，当所述核心程度值大于预设的核心阈值时，确定所述核心程度值对应的用户标识归属核心用户群体。

在本申请实施例中，可以取核心程度值(coreness)大于一定核心阈值的节点的集合，对应的用户群体为该用户节点图的核心用户群体。

核心阈值设定与用户节点图的大小规模有关，如对于千万级的用户节点图，核心阈值的范围为100以上。

一般而言，核心用户群体不考虑是否有相连，因为根据图算法KCore的处理过程，核心程度值(coreness)大于一定核心阈值的节点的集合会组成若干个子图，不会存在有孤立的单个节点。

也即，这里会根据核心用户划分了若干个粗范围的用户群体。

当然，除了图算法Kcore之外，还可以采用其他方式识别核心用户群体，如使用度值算法识别核心用户群体，度值计算方法较为简单，度值越高表示该用户与越多的其他用户具有较强的共同操作关系，等等，本申请实施例对此不加以限制。

步骤104，在一个或多个核心用户群体中，根据所述共同行为关系划分一个或多个目标用户群体。

在本申请实施例中，可以在粗范围的用户群体(即核心用户群体)的基础上，进一步进行精细的划分。

在本申请的一个实施例中，若用户节点图的结构较为简单，或者，对用户群体的划分精度要求不高，可以使用连通图算法在核心用户群体的基础上划分目标用户群体。

其中，在一个无向图中，若从顶点vi到顶点vj有路径相连，则称vi和vj是连通的，处于连通图中的所有节点，两两间都是连通的。

如在识别“刷钻”群体的场景中，由于数据建模数据清洗时会使用相对较严格的标准，此时可以连通图算法初步筛序。

在连通图算法中，若两个用户属于不同的用户群体，该两个用户之间不会存在有较强的共同操作关系，即对应用户节点图中两个节点不存在边。

则在本申请实施例中，步骤104可以包括如下子步骤：

子步骤S31，在所述一个或多个核心用户群体中，对每个用户标识配置标签；

在具体实现中，为方便计算，该标签可以为其用户ID，当然，也可以采用其他方式配置标签，如随机配置，只要保持标签的唯一性即可，本申请实施例对此不加以限制。

在本申请实施例中，标签具有数值，如1、2等。

子步骤S32，将每个用户标识的标签传递至相连的用户标识；

在本申请实施例中，可以将每个用户标识的标签传递至其邻居，同样地，该用户标识会接收到其邻居传递的标签。

例如，如图4所示的核心用户群体，节点R将其标签传递至节点S、节点T，接收节点S、节点T传递的标签。

子步骤S33，从每个用户标识接收到的标签中，按照标签的数值选取一个标签作为所拥有的标签；

在具体实现中，可以选取数值最大的标签，也可以选取数值最小的标签，保证更新的策略一致即可，本申请实施例对此不加以限制。

子步骤S34，判断在所述一个或多个核心用户群体中，用户标识所拥有的标签是否发生变化；若是，则返回执行子步骤S32，若否，则执行子步骤S35；

子步骤S35，将拥有相同标签的用户标识划分为目标用户群体。

由于标签具有唯一性，在同一个用户群体中，节点之间是连通的，在不同的用户群体中，节点之间是不连通的，因此在迭代的过程中，标签会在同一个用户群体流动，使得同一个用户群体的标签逐渐趋向稳定，当标签稳定时，具有同样标签的节点属于同一个连通图，即节点对应的用户属于同一个用户群体，节点的标签即可作为该用户群体的识别标签。

例如，如图4所示，假设节点R、S、T、U的标签的数值分别为1、2、3、4，选择数值最小的标签，则其在迭代的过程如下：

在第3轮迭代后，用户标识所拥有的标签都为1，不再发生变化，因此，节点R、S、T、U属于同一个连通图，节点R、S、T、U对应的用户属于同一个用户群体。

在本申请的另一个实施例中，若用户节点图的结构较为复杂，或者，需要较为准确地划分不同的用户群体，可以使用社区发现算法来划分不同的用户群。

如在识别微博群体的场景中，由于涉及的用户量较大，用户节点图比较复杂，此时使用社区发现算法可以获得较高的精确度。

在社区发现算法中，属于同一个用户群体的节点间的连线较为稠密，不同用户群体的节点间的连线较为稀疏，即同一个用户群体内的节点所对应的用户的关系更为紧密，能很好地反映用户群体的“团伙”属性。

在本申请实施例中，社区发现算法支持分布式系统，可以处理海量的数据。

则在本申请实施例中，步骤104可以包括如下子步骤：

子步骤S41，在所述一个或多个核心用户群体中，对每个用户标识配置标签；

子步骤S42，将每个用户标识的标签传递至相连的用户标识；

子步骤S43，从每个用户标识接收到的标签中，按照标签的数量选取一个标签作为所拥有的标签；

在具体实现中，可以选取数量最多的标签，若数量相同，则可以随机选取标签。

子步骤S44，判断在所述一个或多个核心用户群体中，用户标识所拥有的标签是否发生变化，或者，当前是否小于预设的最大迭代次数；若是，则返回执行子步骤S42，若否，则执行子步骤S45；

子步骤S45，将拥有相同标签的用户标识划分为目标用户群体。

在首次迭代中，可以随机选择标签，由于核心的节点连着其他很多外围节点，其标签被随机到的几率较大，在后续的迭代过程中，核心的节点的标签数量会增加，逐步达到稳定。

当标签稳定或到达最大迭代次数时，具有同样标签的节点属于同一个用户群体，节点的标签即可作为该用户群体的识别标签。

例如，如图4所示，以节点的名称作为节点的标签，即节点R、S、T、U的标签分别为R、S、T、U，则其在迭代的过程如下：

在第3轮迭代后，用户标识所拥有的标签都为R，不再发生变化，因此，节点R、S、T、U对应的用户属于同一个用户群体。

当然，除了上述社区发现算法之外，还可以采用其他社区发现算法，如GN算法、Louvain算法等等，本申请实施例对此不加以限制。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图5，示出了本申请的一种用户群体的划分装置实施例的结构框图，具体可以包括如下模块：

用户标识获取模块501，用于抓取用户标识；

用户节点图构建模块502，用于建立所述用户标识之间的共同行为关系，获得用户节点图；

核心用户群体识别模块503，用于在所述用户节点图中，根据所述共同行为关系识别一个或多个核心用户群体；

目标用户群体划分模块504，用于在所述一个或多个核心用户群体中，根据所述共同行为关系划分一个或多个目标用户群体。

在本申请的一个实施例中，所述用户节点图构建模块502可以包括如下子模块：

行为数据查找子模块，用于查找所述用户标识的行为数据；

在本申请实施例的一个示例中，所述行为数据查找子模块可以包括如下单元：

在本申请实施例的一个示例中，所述共同行为关系建立子模块可以包括如下单元：

在本申请的一个实施例中，所述核心用户群体识别模块503可以包括如下子模块：

在本申请的一个实施例中，所述核心程度值计算子模块可以包括如下单元：

在本申请实施例的一个示例中，所述全局核心程度值设置单元可以包括子单元：

或者，

在本申请的一个实施例中，所述目标用户群体划分模块504可以包括如下子模块：

在本申请的另一个实施例中，所述目标用户群体划分模块504可以包括如下子模块：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种用户群体的划分方法和一种用户群体的划分装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种用户群体的划分方法，其特征在于，包括：

抓取用户标识；

建立所述用户标识之间的共同行为关系，获得用户节点图；

在所述用户节点图中，根据所述共同行为关系识别一个或多个核心用户群体；

在所述一个或多个核心用户群体中，根据所述共同行为关系划分一个或多个目标用户群体。
根据权利要求1所述的方法，其特征在于，所述建立所述用户标识之间的共同行为关系，获得用户节点图的步骤包括：

查找所述用户标识的行为数据；

从所述行为数据中识别共同的行为数据；

对所述共同的行为数据所属的用户标识建立共同行为关系。
根据权利要求2所述的方法，其特征在于，所述查找所述用户标识的行为数据的步骤包括：

从预置的数据库中提取在预设时间段内、所述用户标识的行为数据。
根据权利要求2所述的方法，其特征在于，所述对所述共同的行为数据所属的用户标识建立共同行为关系的步骤包括：

按照行为数据的类型对所述共同的行为数据配置权重；

当所述权重之和大于预设的权重阈值时，对所述共同的行为数据所属的用户标识建立共同行为关系。
根据权利要求1或2或3或4所述的方法，其特征在于，所述在所述用户节点图中，根据所述共同行为关系识别一个或多个核心用户群体的步骤包括：

计算所述用户标识在所述用户节点图中的核心程度值；

当所述核心程度值大于预设的核心阈值时，确定所述核心程度值对应的用户标识归属核心用户群体。
根据权利要求5所述的方法，其特征在于，所述计算所述用户标识在所述用户节点图中的核心程度值的步骤包括：

设置当前迭代的全局核心程度值；

在所述用户节点图中，针对每个用户标识统计通过共同行为关系相连的用户标识的数量，获得节点度值；

在所述用户节点图中，判断每个用户标识的节点度值是否小于或等于全局核心程度值；

若是，则去除节点度值小于或等于所述全局核心程度值的用户标识；

将所述全局核心程度值赋值给在先去除的用户标识，作为先去除的用户标识的核心程度值；

在所述用户节点图中，删除与在先去除的用户标识相连的共同行为关系，返回执行所述在所述用户节点图中，判断每个用户标识的节点度值是否小于或等于全局核心程度值的步骤；

若否，则返回执行所述设置当前迭代的全局核心程度值的步骤，直至遍历所述用户节点图完成。
根据权利要求6所述的方法，其特征在于，所述设置当前迭代的全局核心程度值的步骤包括：

在首次迭代时，设置初始的全局核心程度值为1；

或者，

在非首次迭代时，在上一全局核心程度值的基础上加1，作为当前全局核心程度值。
根据权利要求1或2或3或4或6或7所述的方法，其特征在于，所述在所述一个或多个核心用户群体中，根据所述共同行为关系划分一个或多个目标用户群体的步骤包括：

在所述一个或多个核心用户群体中，对每个用户标识配置标签，所述标签具有数值；

将每个用户标识的标签传递至相连的用户标识；

从每个用户标识接收到的标签中，按照标签的数值选取一个标签作为所拥有的标签；

判断在所述一个或多个核心用户群体中，用户标识所拥有的标签是否发生变化；

若是，则返回执行所述将每个用户标识的标签传递至相连的用户标识的步骤；

若否，则将拥有相同标签的用户标识划分为目标用户群体。
根据权利要求1或2或3或4或6或7所述的方法，其特征在于，所述在所述一个或多个核心用户群体中，根据所述共同行为关系划分一个或多个目标用户群体的步骤包括：

在所述一个或多个核心用户群体中，对每个用户标识配置标签；

将每个用户标识的标签传递至相连的用户标识；

从每个用户标识接收到的标签中，按照标签的数量选取一个标签作为所拥有的标签；

判断在所述一个或多个核心用户群体中，用户标识所拥有的标签是否发生变化，或者，当前是否小于预设的最大迭代次数；

若是，则返回执行所述将每个用户标识的标签传递至相连的用户标识的步骤；

若否，则将拥有相同标签的用户标识划分为目标用户群体。
一种用户群体的划分装置，其特征在于，包括：

用户标识获取模块，用于抓取用户标识；

用户节点图构建模块，用于建立所述用户标识之间的共同行为关系，获得用户节点图；

核心用户群体识别模块，用于在所述用户节点图中，根据所述共同行为关系识别一个或多个核心用户群体；

目标用户群体划分模块，用于在所述一个或多个核心用户群体中，根据所述共同行为关系划分一个或多个目标用户群体。
根据权利要求10所述的装置，其特征在于，所述用户节点图构建模块包括：

行为数据查找子模块，用于查找所述用户标识的行为数据；

共同行为数据识别子模块，用于从所述行为数据中识别共同的行为数据；

共同行为关系建立子模块，用于对所述共同的行为数据所属的用户标识建立共同行为关系。
根据权利要求11所述的装置，其特征在于，所述行为数据查找子模块包括：

时间段数据查找单元，用于从预置的数据库中提取在预设时间段内、所述用户标识的行为数据。
根据权利要求11所述的装置，其特征在于，所述共同行为关系建立子模块包括：

权重配置单元，用于按照行为数据的类型对所述共同的行为数据配置权重；

关系建立单元，用于在所述权重之和大于预设的权重阈值时，对所述共同的行为数据所属的用户标识建立共同行为关系。
根据权利要求10或11或12或13所述的装置，其特征在于，所述核心用户群体识别模块包括：

核心程度值计算子模块，用于计算所述用户标识在所述用户节点图中的核心程度值；

核心用户群体确定子模块，用于在所述核心程度值大于预设的核心阈值时，确定所述核心程度值对应的用户标识归属核心用户群体。
根据权利要求14所述的装置，其特征在于，所述核心程度值计算子模块包括：

全局核心程度值设置单元，用于设置当前迭代的全局核心程度值；

节点度值统计单元，用于在所述用户节点图中，针对每个用户标识统计通过共同行为关系相连的用户标识的数量，获得节点度值；

数量比较单元，用于在所述用户节点图中，判断每个用户标识的节点度值是否小于或等于全局核心程度值；若是，则调用用户标识去除单元，若否，则返回调用所述全局核心程度值设置单元，直至遍历所述用户节点图完成；

用户标识去除单元，用于在所述用户节点图中，去除节点度值小于或等于所述全局核心程度值的用户标识；

核心程度值赋值单元，用于将所述全局核心程度值赋值给在先去除的用户标识，作为先去除的用户标识的核心程度值；

共同行为关系删除单元，用于在所述用户节点图中，删除与在先去除的用户标识相连的共同行为关系，返回调用所述数量比较单元。
根据权利要求15所述的装置，其特征在于，所述全局核心程度值设置单元包括：

初始设置子单元，用于在首次迭代时，设置初始的全局核心程度值为1；

或者，

增值子单元，用于在非首次迭代时，在上一全局核心程度值的基础上加1，作为当前全局核心程度值。
根据权利要求10或11或12或13或15或16所述的装置，其特征在于，所述目标用户群体划分模块包括：

第一标签配置子模块，用于在所述一个或多个核心用户群体中，对每个用户标识配置标签，所述标签具有数值；

第一标签传递子模块，用于将每个用户标识的标签传递至相连的用户标识；

第一标签选取子模块，用于从每个用户标识接收到的标签中，按照标签的数值选取一个标签作为所拥有的标签；

第一判断子模块，用于判断在所述一个或多个核心用户群体中，用户标识所拥有的标签是否发生变化；若是，则返回调用所述第一标签传递子模块；若否，则调用第一目标用户群体划分子模块；

第一目标用户群体划分子模块，用于将拥有相同标签的用户标识划分为目标用户群体。
根据权利要求10或11或12或13或15或16所述的装置，其特征在于，所述目标用户群体划分模块包括：

第二标签配置子模块，用于在所述一个或多个核心用户群体中，对每个用户标识配置标签；

第二标签传递子模块，用于将每个用户标识的标签传递至相连的用户标识；

第二标签选取子模块，用于从每个用户标识接收到的标签中，按照标签的数量选取一个标签作为所拥有的标签；

第二判断子模块，用于判断在所述一个或多个核心用户群体中，用户标识所拥有的标签是否发生变化，或者，当前是否小于预设的最大迭代次数；若是，则返回调用所述第二标签传递子模块；若否，则调用第二目标用户群体划分子模块；

第二目标用户群体划分子模块，用于将拥有相同标签的用户标识划分为目标用户群体。