WO2020147488A1

WO2020147488A1 - 异常群体识别方法及装置

Info

Publication number: WO2020147488A1
Application number: PCT/CN2019/126030
Authority: WO
Inventors: 苗加成; 章鹏; 杨程远; 向彪; 严欢
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2019-01-17
Filing date: 2019-12-17
Publication date: 2020-07-23
Also published as: TW202029079A; CN109948641A; CN109948641B; TWI718643B

Abstract

一种异常群体识别方法及装置，所述方法包括：获取多个待分析用户中的各待分析用户的特征值（S102）；确定各待分析用户的特征值中的高频特征值和低频特征值（S104）；根据各待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取最大频繁项集中的低频最大频繁特征值（S106）；根据各待分析用户的特征值中的低频最大频繁特征值和低频特征值构建目标二部图，并定义目标二部图中的边的权重（S108）；根据目标二部图中的边的权重，以及通过对目标二部图进行图聚类所得到的多个待分析用户的聚类结果，确定待分析用户中的异常群体（S110）。该方法提高了异常群体识别的准确率，且步骤简单，易于执行。

Description

异常群体识别方法及装置

技术领域

本说明书涉及计算机技术领域，尤其涉及一种异常群体识别方法及装置。

背景技术

目前，在风控领域中的各种场景(如垃圾注册、营销作弊、盗卡盗账号、骗保等)中，团伙作案的趋势越来越明显，严重的影响了正常的商业秩序，给商家造成了巨大的损失。因此，如何识别团伙(即异常群体)已经成为商家在运营过程中的重要问题之一。

在常用的异常群体的识别方式中，由于标签样本的缺失和异常群体作案方式的多变性，导致异常群体识别准确率较低。

发明内容

本说明书一个或多个实施例的目的是提供一种异常群体识别方法及装置，用以解决异常群体识别准确率较低的问题。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

一方面，本说明书一个或多个实施例提供一种异常群体识别方法，包括：

获取多个待分析用户中的各所述待分析用户的特征值；

确定各所述待分析用户的特征值中的高频特征值和低频特征值；

根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值；

根据各所述待分析用户的特征值中的所述低频最大频繁特征值和所述低频特征值构建目标二部图，并定义所述目标二部图中的边的权重；

根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体。

可选的，所述获取多个待分析用户中的各所述待分析用户的特征值包括：

获取所述多个待分析用户的原始个人数据；

对所述多个待分析用户的原始个人数据进行离散化，以得到各所述待分析用户的特征值。

可选的，所述确定各所述待分析用户的特征值中的高频特征值和低频特征值包括：

根据各所述待分析用户的特征值构建第一二部图，其中，所述第一二部图包括与各所述待分析用户对应的节点、与各所述特征值对应的节点、以及各所述待分析用户对应的节点与其特征值对应的节点之间的边；

在所述第一二部图中获取各所述特征值对应的节点的度，并根据各所述特征值对应的节点的度在所述特征值中确定高频特征值和低频特征值；

根据所述高频特征值和所述低频特征值确定各所述待分析用户的特征值中的高频特征值和低频特征值。

可选的，所述根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值包括：

根据各所述待分析用户的高频特征值并结合FP-Growth方法，挖掘支持度满足预设支持度的频繁多项集，并在所述频繁多项集中确定最大频繁项集；

将各所述待分析用户的特征值与所述最大频繁项集中的最大频繁特征值进行匹配，以得到各所述待分析用户的最大频繁特征值；

在所述待分析用户的最大频繁特征值中确定低频最大频繁特征值。

可选的，所述在所述待分析用户的最大频繁特征值中确定低频最大频繁特征值包括：

根据各所述待分析用户的最大频繁特征值构建第二二部图，其中，所述第二二部图包括与各所述待分析用户对应的节点、与各所述最大频繁特征值对应的节点、以及各所述待分析用户对应的节点与其最大频繁特征值对应的节点之间的边；

在所述第二二部图中获取各所述最大频繁特征值对应的节点的度，并根据各所述最大频繁特征值对应的节点的度在所述最大频繁特征值中确定低频最大频繁特征值。

可选的，所述根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体包括：

在所述目标二部图中删除权重小于第一预设权重的边，以得到待聚类二部图，并对所述待聚类二部图采用联通算法得到至少一个最大连通子图，以及将每个所述最大连通子图中的节点对应的待分析用户确定为一个所述异常群体；或者

在所述目标二部图中删除权重小于第一预设权重的边，以得到待聚类二部图，并通过社区发现算法对所述待聚类二部图中的节点进行划分，以得到多个节点集合，以及将每个所述节点集合中的节点对应的待分析用户确定为一个所述异常群体。

根据所述目标二部图中的边的权重计算任意两个所述待分析用户之间的权重；

将各所述待分析用户转化为节点，并在任意两个节点之间设置边，并将任意两个节点的边的权重设置为对应的任意两个所述待分析用户之间的权重，以构建目标聚类图；

通过对所述目标聚类图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体。

可选的，所述通过对所述目标聚类图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体包括：

在所述目标聚类图中删除权重小于第二预设权重的边，以得到待聚类图，并对所述待聚类图采用联通算法得到至少一个最大连通子图，以及将每个所述最大连通子图中的节点对应的待分析用户分别确定为一个所述异常群体；或者

在所述目标聚类图中删除权重小于第二预设权重的边，以得到待聚类图，并通过社区发现算法对所述待聚类图进行划分，以得到多个节点集合，以及将每个所述节点集合对应的待分析用户分别确定为一个所述异常群体。

另一方面，本说明书一个或多个实施例提供一种异常群体识别装置，包括：

获取模块，用于获取多个待分析用户中的各所述待分析用户的特征值；

确定模块，用于确定各所述待分析用户的特征值中的高频特征值和低频特征值；

挖掘模块，用于根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值；

构建模块，用于根据各所述待分析用户的特征值中的所述低频最大频繁特征值和所述低频特征值构建目标二部图，并定义所述目标二部图中的边的权重；

聚类模块，用于根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体。

可选的，所述获取模块包括：

获取单元，用于获取所述多个待分析用户的原始个人数据；

离散化单元，用于对所述多个待分析用户的原始个人数据进行离散化，以得到各所述待分析用户的特征值。

可选的，所述确定模块包括：

第一构建单元，用于根据各所述待分析用户的特征值构建第一二部图，其中，所述第一二部图包括与各所述待分析用户对应的节点、与各所述特征值对应的节点、以及各所述待分析用户对应的节点与其特征值对应的节点之间的边；

第一确定单元，用于在所述第一二部图中获取各所述特征值对应的节点的度，并根据各所述特征值对应的节点的度在所述特征值中确定高频特征值和低频特征值；

第二确定单元，用于根据所述高频特征值和所述低频特征值确定各所述待分析用户的特征值中的高频特征值和低频特征值。

可选的，所述挖掘模块包括：

挖掘单元，用于根据各所述待分析用户的高频特征值并结合FP-Growth方法，挖掘支持度满足预设支持度的频繁多项集，并在所述频繁多项集中确定最大频繁项集；

匹配单元，用于将各所述待分析用户的特征值与所述最大频繁项集中的最大频繁特征值进行匹配，以得到各所述待分析用户的最大频繁特征值；

第三确定单元，用于在所述待分析用户的最大频繁特征值中确定低频最大频繁特征值。

可选的，所述第三确定单元包括：

构建子单元，用于根据各所述待分析用户的最大频繁特征值构建第二二部图，其中，所述第二二部图包括与各所述待分析用户对应的节点、与各所述最大频繁特征值对应的节点、以及各所述待分析用户对应的节点与其最大频繁特征值对应的节点之间的边；

确定子单元，用于在所述第二二部图中获取各所述最大频繁特征值对应的节点的度，并根据各所述最大频繁特征值对应的节点的度在所述最大频繁特征值中确定低频最大频繁特征值。

可选的，所述聚类模块包括：

第一聚类单元，用于在所述目标二部图中删除权重小于第一预设权重的边，以得到待聚类二部图，并对所述待聚类二部图采用联通算法得到至少一个最大连通子图，以及将每个所述最大连通子图中的节点对应的待分析用户确定为一个所述异常群体；或者

第二聚类单元，用于在所述目标二部图中删除权重小于第一预设权重的边，以得到待聚类二部图，并通过社区发现算法对所述待聚类二部图中的节点进行划分，以得到多个节点集合，以及将每个所述节点集合中的节点对应的待分析用户确定为一个所述异常群体。

可选的，所述聚类模块包括：

计算单元，用于根据所述目标二部图中的边的权重计算任意两个所述待分析用户之间的权重；

第二构建单元，用于将各所述待分析用户转化为节点，并在任意两个节点之间设置边，并将任意两个节点的边的权重设置为对应的任意两个所述待分析用户之间的权重，以构建目标聚类图；

第三聚类单元，用于通过对所述目标聚类图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体。

可选的，所述第三聚类单元包括：

第一聚类子单元，用于在所述目标聚类图中删除权重小于第二预设权重的边，以得到待聚类图，并对所述待聚类图采用联通算法得到至少一个最大连通子图，以及将每个所述最大连通子图中的节点对应的待分析用户分别确定为一个所述异常群体；或者

第二聚类子单元，用于在所述目标聚类图中删除权重小于第二预设权重的边，以得到待聚类图，并通过社区发现算法对所述待聚类图进行划分，以得到多个节点集合，以及将每个所述节点集合对应的待分析用户分别确定为一个所述异常群体。

再一方面，本说明书一个或多个实施例提供一种异常群体识别设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：

获取多个待分析用户中的各所述待分析用户的特征值；

再一方面，本说明书一个或多个实施例提供一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被执行时实现以下流程：

获取多个待分析用户中的各所述待分析用户的特征值；

采用本说明书一个或多个实施例的技术方案，通过确定各待分析用户的特征值中的高频特征值和低频特征值，并通过对各待分析用户的高频特征值进行预设的频繁项集挖掘策略挖掘最大频繁项集，获取最大频繁项集中的低频最大频繁特征值，以及根据各待分析用户的低频特征值和低频最大频繁特征值构建目标二部图，并设置目标二部图中的边的权重，以根据目标二部图中的边的权重以及对目标二部图进行聚类，以确定待分析用户中的异常群体。一方面，通过对各待分析用户的高频特征值进行预设的频繁项集挖掘策略挖掘最大频繁项集，并获取最大频繁项集中的低频最大频繁特征值，以挖掘待分析用户的行为序列，进而使得异常群体的识别更加准确；另一方面，仅通过获取各待分析用户的低频特征值和低频最大频繁特征值，并根据各待分析用户的低频特征值和低频最大频繁特征值构建目标二部图，并定义目标二部图中的边的权重，以及根据目标二部图中的边的权重并对目标二部图进行图聚类，以得到异常群体，步骤简单，且易于执行。

附图说明

为了更清楚地说明本说明书一个或多个实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的异常群体识别方法的流程示意图；

图2为本申请实施例提供的确定各待分析用户的特征值中的高频特征值和低频特征值的流程示意图；

图3为本申请实施例提供的第一二部图的示意图；

图4为本申请实施例提供的获取低频最大频繁特征值的流程示意图一；

图5为本申请实施例提供的获取低频最大频繁特征值的流程示意图二；

图6为本申请实施例提供的确定异常群体的流程示意图；

图7为本申请实施例提供的异常群体识别装置的组成示意图；

图8为本申请实施例提供的异常群体识别设备的结构示意图。

具体实施方式

本说明书一个或多个实施例提供一种异常群体识别方法及装置，用以解决异常群体识别准确率较低的问题。

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书一个或多个实施例保护的范围。

图1为本申请实施例提供的异常群体识别方法的流程示意图，该方法的执行主体例如可以为终端设备或服务器，其中，终端设备例如可以为个人计算机等，服务器例如可以为独立的一个服务器，也可以是由多个服务器组成的服务器集群，本示例性实施例对此不做特殊限定。如图1所示，该方法可以包括以下步骤：

步骤S102、获取多个待分析用户中的各待分析用户的特征值。

在本申请实施例中，可以首先获取多个待分析用户的原始个人数据，然后，对多个待分析用户的原始个人数据进行离散化，以得到各待分析用户的特征值。其中，获取多个待分析用户的原始个人数据包括：可以通过一获取模块获取各待分析用户的原始个人数据，并将各待分析用户的原始个人数据进行集合得到多个待分析用户的原始个人数据。每个待分析用户的原始个人数据均可以包括个人基本数据、行为数据、设备数据等，本示例性实施例对此不做特殊限定。个人基本数据中可以包括年龄、性别、职业、收入、学历、籍贯、联系方式、账号等特征的数据，本示例性实施例对此不做特殊限定。例如，个人基本数据可以包括：女(性别)、18岁(年龄)、本科(学历)、律师(职业)、陕西(籍贯)。行为数据可以包括多个行为特征的数据，具体的，行为数据中包括的行为特征的数据可以根据应用场景的不同进行设置。例如，在保险场景下，行为数据可以包括：2018.10.03号投保(投保时间)、意外险(投保种类)、2019.2.1号出险(出险特征)等。设备数据例如可以包括：设备型号、设备归属地、使用设备的常用地址、更换设备的频率等特征的数据，本示例性实施例对此不做特殊限定。

对多个待分析用户的原始个人数据进行离散化，以得到各待分析用户的特征值可以包括：根据多个待分析用户的原始个人数据中的各特征的数据分析各特征的数据的分布，再根据各特征的数据的分布并结合分箱方式对各特征的数据进行分箱，并将各特征的数据分箱后对应的区间确定为对应的各特征的数据的特征值，以及根据各特征的数据的特征值并结合各待分析用户的原始个人数据确定各待分析用户的特征值。

分箱方式可以根据特征所属的性质进行确定，对于连续型的特征(例如年龄、收入、交易金额等)，可以根据业务经验和数据分布确定采用等频、等宽等分箱方式。对于类别型的特征(例如，性别、学历、职业等)，可以根据特征的具体类别对类型的特征的数据进行分箱。对于文本型的特征(例如地址等)，可以采用将模式一致的文本聚成一类的方式进行分箱。

需要说明的是，可以根据待分析用户的唯一标识对待分析用户进行标记，用以区分待分析用户。唯一标识例如可以为：身份证、军官证、账号id等，本示例性实施例对此不做特殊限定。

步骤S104、确定各待分析用户的特征值中的高频特征值和低频特征值。

在本示例性实施例中，可以通过以下两种方式确定待分析用户的特征值中的高频特征值和低频特征值，其中：

方式一、统计每个特征值在多个待分析用户的特征值中出现的次数，并根据下述确定规则在特征值中确定高频特征值和低频特征值，其中，确定规则为：若特征值在多个待分析用户的特征值中出现的次数符合公式T2 _i≥X _i＞T1 _i，则特征值为低频特征值，其中，X _i为第i个特征值在多个待分析用户的特征值中出现的次数，T2 _i为第i个特征值对应的第二预设出现次数，T1 _i为第i个特征值对应的第一预设出现次数，T2 _i＞T1 _i，且T2 _i和T1 _i的具体数值可以根据第i个特征值所属的特征进行确定，即特征不同，对应的T2 _i和T1 _i的具体数值也不同；若特征值在多个待分析用户的特征值中出现的次数符合公式T3 _i≥X _i＞T2 _i，则特征值为高频特征值，其中，X _i为第i个特征值在多个待分析用户的特征值中出现的次数，T2 _i为第i个特征值对应的第二预设出现次数，T3 _i为第i个特征值对应的第三预设出现次数，T3 _i＞T2 _i，且T2 _i和T3 _i的具体数值可以根据第i个特征值所属的特征进行确定，即特征不同，对应的T2 _i和T3 _i的具体数值也不同。

在确定出高频特征值和低频特征值后，可以通过将高频特征值和低频特征分别与各待分析用户的特征值进行匹配，以得到各待分析用户的高频特征值和低频特征值。例如，高频特征值包括：A、B、D，低频特征值包括C、E，若待分析用户的特征值包括：A、B、C、E，则该待分析用户的高频特征值包括A、B，该待分析用户的低频特征值包括C、E；若待分析用户的特征值包括：A、E、F，则该待分析用户的高频特征值包括A，该待分析用户的低频特征值包括E。

方式二、如图2所示，可以包括以下步骤：

步骤S202、根据各待分析用户的特征值构建第一二部图，其中，第一二部图包括与各待分析用户对应的节点、与各特征值对应的节点、以及各待分析用户对应的节点与其特征值对应的节点之间的边。

在本申请实施例中，将每个待分析用户分别转化为节点，每个待分析用户仅对应一个节点，并将各待分析用户的特征值转化为节点，每个特征值仅对应一个节点，即在转化的过程中，若一个特征值对应的节点已经存在，则复用该节点，无需再设置与该特征值对应的节点，其中，与各待分析用户对应的节点位于第一二部图的一侧，与各特征值对应的节点位于第一二部图的另一侧，且在与各待分析用户对应的节点与其特征值对应的节点之间添加边。例如，待分析用户为5个，分别为第一待分析用户至第五待分析用户，其中，第一待分析用户的特征值包括：A、B、D,第二待分析用户的特征值包括：B、C、F，第三待分析用户的特征值包括：A、C、D、F，第四待分析用户的特征值包括：B、D、F，第五待分析用户的特征值包括：C、D、E、F，基于此，构建的第一二部图如图3所示，其中，第一待分析用户对应的节点1、第二待分析用户对应的节点2、第三待分析用户对应的节点3、第四待分析用户对应的节点4以及第五待分析用户对应的节点5位于图3的左侧，特征值A对应的节点、特征值B对应的节点、特征值C对应的节点、特征值D对应的节点、特征值E对应的节点、特征值F对应的节点位于图3的右侧，且在各待分析用户对应的节点和其特征值对应的节点之间设置边。

步骤S204、在第一二部图中获取各特征值对应的节点的度，并根据各特征值对应的节点的度在特征值中确定高频特征值和低频特征值。

在本申请实施例中，各特征值对应的节点的度指与特征值对应的节点连接的边的数量，例如，在图3中，特征值A对应的节点的度为2、特征值B对应的节点的度为3、特征值C对应的节点的度为3、特征值D对应的节点的度为4、特征值E对应的节点的度为1、特征值F的度为4。

根据各特征值对应的节点的度在特征值中确定高频特征值和低频特征值的过程可以包括：根据各特征值并结合下述确定规则确定高频特征值和低频特征值，其中确定规则可以为：若特征值对应的节点的度满足公式K2 _i≥degree(V _i)＞1,则特征值为低频特征值，其中，degree(V _i)为第i个特征值V _i对应的节点的度，K2 _i为第i个特征值V _i对应的第一预设度，K2 _i＞1，且K2 _i的具体数值可以根据第i个特征值V _i所属的特征进行确定，即特征不同，对应的K2 _i的具体数值也不同；若特征值对应的节点的度满足公式K1 _i≥degree(V _i)＞K2 _i,则特征值为高频特征值，其中，degree(V _i)为第i个特征值V _i对应的节点的度，K2 _i为第i个特征值V _i对应的第一预设度，K1 _i为第i各特征值V _i对应的第二预设度，K1 _i＞K2 _i，且K2 _i和K1 _i的具体数值可以根据第i个特征值V _i所属的特征进行确定，即特征不同，对应的K2 _i和K1 _i的具体数值也不同。

例如，如图3所示，若K2 _i为2，K1 _i为3，则特征值A为低频特征值，特征值B、特征值C为高频特征值。

步骤S206、根据高频特征值和低频特征值确定各待分析用户的特征值中的高频特征值和低频特征值。

在本申请实施例中，将高频特征值分别与各待分析用户的特征值进行匹配，并将各待分析用户中的与高频特征值匹配成功的特征值确定为对应的各待分析用户的高频特征值；将低频特征值分别与各待分析用户中的特征值进行匹配，并将各待分析用户中的与低频特征值匹配成功的特征值确定为对应的各待分析用户的低频特征值。例如，如图3所示，若K2 _i为2，K1 _i为3，则特征值A为低频特征值，特征值B、特征值C为高频特征值。基于此，第一待分析用户的低频特征值包括特征值A、第一待分析用户的高频特征值包括特征值B，第二待分析用户没有低频特征值，第二待分析用户的高频特征值包括：特征值B、特征值C，第三待分析用户的低频特征值包括特征值A，第三待分析用户的高频特征值包括特征值C，第四待分析用户没有低频特征值，第四待分析用户的高频特征值包括特征值B，第五待分析用户没有低频特征值，第五待分析用户的高频特征值包括特征值C。

步骤S106、根据各待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取最大频繁项集中的低频最大频繁特征值。

在本申请实施例中，预设的频繁项集挖掘策略例如可以为Apriori(挖掘关联规则的频繁项集)策略，还可以为FP-Growth等，本示例性实施例对此不做特殊限定。下面，以预设的频繁项集挖掘策略为FP-Growth为例，对上述过程进行说明，其中，如图4所示，可以包括以下步骤：

步骤S402、根据各待分析用户的高频特征值并结合FP-Growth方法，挖掘支持度满足预设支持度的频繁多项集，并在频繁多项集中确定最大频繁项集。

在本申请实施例中，支持度为高频特征值在多个待分析用户中的出现次数，预设支持度的具体数值可以自行设置，例如可以为1、也可以为2等，本示例性实施例对此不做特殊限定。频繁多项集指至少包括两个高频特征值的集合。支持度满足预设支持度的频繁多项集指频繁多项集中的每个高频特征值的支持度均大于预设支持度。

具体的挖掘频繁多项集的过程包括：定义预设支持度，扫描各待分析用户的高频特征值，以得到每个高频特征值在多个待分析用户中的出现次数(即支持度)，并在各待分析用户的高频特征值中筛除支持度小于预设支持度的高频特征值，以及根据各待分析用户中剩余的高频特征值构建FP树，并在FP树中挖掘频繁多项集。在频繁多项集中获取无超集条件的频繁多项集，并将频繁多项集中的无超集条件的频繁多项集确定为最大频繁项集。需要说明的是，每个最大频繁项集中包括多个高频特征值，此处，将最大频繁项集中包括的高频特征值命名为最大频繁特征值，即每个最大频繁项集中包括多个最大频繁特征值。

步骤S404、将各待分析用户的特征值与最大频繁项集中的最大频繁特征值进行匹配，以得到各待分析用户的最大频繁特征值。

在本申请实施例中，将各待分析用户的特征值与最大频繁项集中的最大频繁特征值进行匹配，并将各待分析用户中与最大频繁项集中的最大频繁特征值匹配成功的特征值确定为对应的各待分析用户的最大频繁特征值。

步骤S406、在待分析用户的最大频繁特征值中确定低频最大频繁特征值。

在本申请实施例中，可以通过以下两种方式确定低频最大频繁特征值，其中：

方式一、根据各待分析用户的最大频繁特征值统计各最大频繁特征值在多个待分析用户中的出现次数，并根据各最大频繁特征值在多个待分析用户中的出现次数并结合下述确定规则在最大频繁特征值中确定低频最大频繁特征值，其中，确定规则为：若最大频繁特征值在多个待分析用户中的出现次数符合公式P2 _i≥S _i，则最大频繁特征值为低频最大频繁特征值，其中，P2 _i为第i个最大频繁特征值对应的预设出现次数，且P2 _i的具体数值可以根据第i个最大频繁特征值所属的特征进行确定，即特征不同，对应的P2 _i的具体数值也不同，S _i为第i个最大频繁特征值在多个待分析用户中的出现次数。

方式二、如图5所示，可以包括以下步骤：

步骤S502、根据各待分析用户的最大频繁特征值构建第二二部图，其中，第二二部图包括与各待分析用户对应的节点、与各最大频繁特征值对应的节点、以及各待分析用户对应的节点与其最大频繁特征值对应的节点之间的边。

在本申请实施例中，将每个待分析用户分别转化为节点，每个待分析用户仅对应一个节点，并将各待分析用户的最大频繁特征值转化为节点，每个最大频繁特征值仅对应一个节点，其中，与各待分析用户对应的节点位于第二二部图的一侧，与各最大频繁特征值对应的节点位于第二二部图的另一侧，且在各待分析用户对应的节点与其最大频繁特征值对应的节点之间添加边，以完成对第二二部图的构建。

步骤S504、在第二二部图中获取各最大频繁特征值对应的节点的度，并根据各最大频繁特征值对应的节点的度在最大频繁特征值中确定低频最大频繁特征值。

在本申请实施例中，最大频繁特征值对应的节点的度为二部图中与该最大频繁特征值对应的节点相连的边的数量。确定低频最大频繁特征值的过程可以包括：根据各最大频繁特征值对应的节点的度并结合下述确定规则确定低频最大频繁特征值，其中确定规则可以为：若最大频繁特征值对应的节点的度满足公式L2 _i≥degree(V _i),则最大频繁特征值为低频最大频繁特征值，其中，degree(V _i)为第i个最大频繁特征值对应的节点的度，L2 _i第i个最大频繁特征值V _i对应的预设度，且L2 _i的具体数值可以根据第i个最大频繁特征值V _i所属的特征进行确定，即特征不同，对应的L2 _i的具体数值也不同。

步骤S108、根据各待分析用户的特征值中的低频最大频繁特征值和低频特征值构建目标二部图，并定义目标二部图中的边的权重。

在本申请实施例中，将低频最大频繁特征值与各待分析用户中的特征值进行匹配，并将各待分析用户中与低频最大频繁特征值匹配成功的特征值确定为对应的各待分析用户的低频最大频繁特征值。根据各待分析用户的低频最大频繁特征值以及步骤S104中获取的各待分析用户的低频特征值构建目标二部图的过程可以包括：将各分析用户分别转化为节点，并将各低频特征值转化为节点，将各低频最大频繁特征值转化为节点，以及在各待分析用户对应的节点与其低频特征值对应的节点之间添加边，并在各待分析用户对应的节点与其低频最大频繁特征值对应的节点之间添加边，以完成对目标二部图的构建。

定义目标二部图中的边的权重可以包括：定义目标二部图中各待分析用户的对应的节点与其低频特征值对应的节点之间的边的权重，以及定义目标二部图中各待分析用户对应的节点与其低频最大频繁特征值对应的节点之间的边的权重。其中，定义目标二部图中各待分析用户的对应的节点与其低频特征值对应的节点之间的边的权重可以包括：根据各低频特征值所属的特征确定各低频特征值的权重，具体的，低频特征值的权重越高，同时包括该低频特征值的待分析用户为一个异常群体的概率越高，低频特征值的权重越低，同时包括该低频特征值的待分析用户为一个异常群体的概率越低。在确定各低频特征值的权重后，将与各低频特征值对应的节点连接的边的权重均设置为对应的各低频特征值的权重。例如，若低频特征值包括频繁出险(出险特征)、无业(职业特征)，且频繁出险的权重为0.5、无业的权重为0.1，则，与频繁出险对应的节点连接的边的权重均设置为0.5，与无业对应的节点连接的边的权重均设置为0.1。同理，定义目标二部图中各待分析用户对应的节点与其低频最大频繁特征值对应的节点之间的边的权重可以包括：根据各低频最大频繁特征值所属的特征确定各低频最大频繁特征值的权重，具体的，低频最大频繁特征值的权重越高，同时包括该低频最大频繁特征值的待分析用户为一个异常群体的概率越高，低频最大频繁特征值的权重越低，同时包括该低频最大频繁特征值的待分析用户为一个异常群体的概率越低。将与各低频最大频繁特征值对应的节点连接的边的权重设置为对应的各低频最大频繁特征值的权重。

步骤S110、根据目标二部图中的边的权重，以及通过对目标二部图进行图聚类所得到的多个待分析用户的聚类结果，确定待分析用户中的异常群体。

在本申请实施例中，可以通过以下两种方式确定待分析用户中的异常群体，其中：

方式一、在目标二部图中删除权重小于第一预设权重的边，以得到待聚类二部图，并对待聚类二部图采用联通算法得到至少一个最大连通子图，以及将每个最大连通子图中的节点对应的待分析用户确定为一个异常群体。

在本申请实施例中，第一预设权重的具体数值可以自行设置，本示例性实施例对此不做特殊限定。将目标二部图中的每个边的权重依次与第一预设权重进行比较，若边的权重小于第一预设权重，则在目标二部图中删除该边，若边的权重不小于第一预设权重，则在目标二部图中保留该边，将筛除权重小于预设权重的边的目标二部图确定为待聚类二部图。对待聚类二部图采用联通算法以得到至少一个最大连通子图，在每个最大连通子图中筛除与低频特征值对应的节点和与低频最大频繁特征值对应的节点，并将每个最大连通子图中剩余的节点对应的待分析用户进行集合，以得到每个最大连通子图对应的待分析用户集合，以及将每个最大连通子图对应的待分析用户集合分别确定为一个异常群体。

方式二、在目标二部图中删除权重小于第一预设权重的边，以得到待聚类二部图，并通过社区发现算法对待聚类二部图中的节点进行划分，以得到多个节点集合，以及将每个节点集合中的节点对应的待分析用户确定为一个异常群体。

在本申请实施例中，由于在二部图中删除权重小于第一预设权重的边，以得到待聚类二部图的原理与上述方式一中的原理相同，因此此处不在赘述。社区发现算法例如可以为louvain算法等，本示例性实施例对此不做特殊限定。在通过社区发现算法对待聚类二部图中的节点进行划分得到多个节点集合后，首先在每个节点集合中筛除与低频特征值对应的节点和低频最大频繁特征值对应的节点，并分别将每个节点集合中剩余的节点对应的待分析用户进行集合，以得到每个节点集合对应的待分析用户集合，并将每个节点集合对应的待分析用户集合分别确定为一个异常群体。

进一步的，在得到异常群体之后，为了进一步对异常群体进行验证，进而进一步的提高异常群体识别的准确度，可以获取每个异常群体中的待分析用户的总数量，并在异常群体中筛除待分析用户的总数量少于预设数量的异常群体，并将剩余的异常群体确定为最终识别出的异常群体；还可以计算每个异常群体对应的最大连通子图的模块度，并将每个异常群体对应的最大连通子图的模块度确定为对应的异常群体的模块度，以及在异常群体中筛除模块度小于预设模块度的异常群体，将剩余的异常群体确定为最终识别出的异常群体。需要说明的是，上述两种验证方式仅为示例性的，并不用于限定本发明，其还可以通过分析异常群体中的每个待分析用户的业务特征对异常群体进行验证。

为了更加准确的对待分析用户进行聚类，以得到更加准确的异常群体，如图6所示，根据目标二部图中的边的权重，以及通过对目标二部图进行图聚类所得到的多个待分析用户的聚类结果，确定待分析用户中的异常群体可以包括以下步骤：

步骤S602、根据目标二部图中的边的权重计算任意两个待分析用户之间的权重。

在本申请实施例中，在目标二部图中获取与任意两个待分析用户对应的节点共同连接的与低频特征值对应的节点和与低频最大频繁特征值对应的节点，并将与任意两个待分析用户对应的节点共同连接的与低频特征值对应的节点和与低频最大频繁特征值对应的节点确定为目标节点；根据任意两个待分析用户中的任何一个待分析用户对应的节点与每个目标节点之间的边的权重并结合下述公式计算任意两个待分析用户之间的权重，上述公式为：

其中，weight(e)为任意两个待分析用户之间的权重，j为目标节点的总数量，w(item _i)为第i个目标节点w(item _i)与任意两个待分析用户中的任意一个待分析用户对应的节点之间的边的权重。

步骤S604、将各待分析用户转化为节点，并在任意两个节点之间设置边，并将任意两个节点的边的权重设置为对应的任意两个待分析用户之间的权重，以构建目标聚类图。

在本申请实施例中，将各待分析用户转化为节点，即一个待分析用户对应一个节点，并在任意两个节点之间设置边，以及将任意两个待分析用户之间的权重设置为该任意两个待分析用户对应的两个节点之间的边的权重，以完成目标聚类图的构建。由上可知，通过步骤S602和步骤S604将包括待分析用户对应的节点和低频特征值对应的节点以及低频最大频繁特征值对应的节点的目标二部图转化为仅包括待分析用户对应的节点的目标聚类图。

步骤S606、通过对目标聚类图进行图聚类所得到的多个待分析用户的聚类结果，确定待分析用户中的异常群体。

在本申请实施例中，可以通过以下两种方式确定异常群体，其中：

方式一、在目标聚类图中删除权重小于第二预设权重的边，以得到待聚类图，并对待聚类图采用联通算法得到至少一个最大连通子图，以及将每个最大连通子图中的节点对应的待分析用户分别确定为一个异常群体。

在本申请实施例中，第二预设权重的具体数值可以自行设置，本示例性实施例对此不做特殊限定。将目标聚类图中的每个边的权重分别与第二预设权重进行比较，并在目标聚类图中删除权重小于第二预设权重的边，以将目标聚类图转化为待聚类图。将每个最大连通子图中的节点对应的待分析用户进行集合，以得到每个最大连通子图对应的待分析用户集合，并将每个最大连通子图对应的待分析用户集合分别确定为一个异常群体。

方式二、在目标聚类图中删除权重小于第二预设权重的边，以得到待聚类图，并通过社区发现算法对待聚类图进行划分，以得到多个节点集合，以及将每个节点集合对应的待分析用户分别确定为一个异常群体。

在申请实施例中，第二预设权重已经在上文中进行了说明，因此此处不在赘述。将目标聚类图中的每个边的权重分别与第二预设权重进行比较，并在目标聚类图中删除权重小于第二预设权重的边，以将目标聚类图转化为待聚类图。社区发现算法例如可以为louvain算法等，本示例性实施例对此不做特殊限定。在通过社区发现算法对待聚类图中的节点进行划分得到多个节点集合后，分别将每个节点集合中的节点对应的待分析用户进行集合，以得到每个节点集合对应的待分析用户集合，并将每个节点集合对应的待分析用户集合分别确定为一个异常群体。

由上可知，通过根据目标二部图中的边的权重计算任意两个待分析用户之间的权重，并根据任意两个待分析用户之前的权重构建目标聚类图，以将目标二部图转化为目标聚类图，使得目标聚类图更加准确且更加直观的反应待分析用户之间的关系，进而使得根据目标聚类图得到的异常群体更加准确。

需要说明的是，上述两种确定异常群体的方式进行示例性的，并不用于限定本发明。

综上所述，通过对各待分析用户的高频特征值进行预设的频繁项集挖掘策略挖掘最大频繁项集，并获取最大频繁项集中的低频最大频繁特征值，以挖掘待分析用户的行为序列，进而使得异常群体的识别更加准确；此外，仅通过获取各待分析用户的低频特征值和低频最大频繁特征值，并根据各待分析用户的低频特征值和低频最大频繁特征值构建目标二部图，并定义目标二部图中的边的权重，以及根据目标二部图中的边的权重并对目标二部图进行图聚类，以得到异常群体，步骤简单，且易于执行。

对应上述异常群体识别方法，基于相同的技术构思，本申请实施例还提供了一种异常群体识别装置，图7为本申请实施例提供的异常群体识别装置的组成示意图，该装置用于执行上述异常群体识别方法，如图7所示，该装置700可以包括：获取模块701、确定模块702、挖掘模块703、构建模块704、聚类模块705，其中：

获取模块701，用于获取多个待分析用户中的各所述待分析用户的特征值；

确定模块702，用于确定各所述待分析用户的特征值中的高频特征值和低频特征值；

挖掘模块703，用于根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值；

构建模块704，用于根据各所述待分析用户的特征值中的所述低频最大频繁特征值和所述低频特征值构建目标二部图，并定义所述目标二部图中的边的权重；

聚类模块705，用于根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体。

可选的，所述获取模块701可以包括：

获取单元，用于获取所述多个待分析用户的原始个人数据；

可选的，所述确定模块702可以包括：

可选的，所述挖掘模块703可以包括：

可选的，所述第三确定单元可以包括：

可选的，所述聚类模块705可以包括：

可选的，所述第三聚类单元可以包括：

本申请实施例中的异常群体识别装置，通过对各待分析用户的高频特征值进行预设的频繁项集挖掘策略挖掘最大频繁项集，并获取最大频繁项集中的低频最大频繁特征值，以挖掘待分析用户的行为序列，进而使得异常群体的识别更加准确；此外，仅通过获取各待分析用户的低频特征值和低频最大频繁特征值，并根据各待分析用户的低频特征值和低频最大频繁特征值构建目标二部图，并定义目标二部图中的边的权重，以及根据目标二部图中的边的权重并对目标二部图进行图聚类，以得到异常群体，步骤简单，且易于执行。

应上述异常群体识别方法，基于相同的技术构思，本申请实施例还提供了一种异常群体识别设备，图8为本申请实施例提供的异常群体识别设备的结构示意图，该设备用于执行上述的异常群体识别方法。

如图8所示，异常群体识别设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器801和存储器802，存储器802中可以存储有一个或一个以上存储应用程序或数据。其中，存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对异常群体识别设备中的一系列计算机可执行指令。更进一步地，处理器801可以设置为与存储器802通信，在异常群体识别设备上执行存储器802中的一系列计算机可执行指令。异常群体识别设备还可以包括一个或一个以上电源803，一个或一个以上有线或无线网络接口804，一个或一个以上输入输出接口805，一个或一个以上键盘806等。

在一个具体的实施例中，异常群体识别设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对异常群体识别设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取多个待分析用户中的各所述待分析用户的特征值；

可选的，计算机可执行指令在被执行时，所述获取多个待分析用户中的各所述待分析用户的特征值包括：

获取所述多个待分析用户的原始个人数据；

可选的，计算机可执行指令在被执行时，所述确定各所述待分析用户的特征值中的高频特征值和低频特征值包括：

可选的，计算机可执行指令在被执行时，所述根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值包括：

可选的，计算机可执行指令在被执行时，所述在所述待分析用户的最大频繁特征值中确定低频最大频繁特征值包括：

可选的，计算机可执行指令在被执行时，，所述根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体包括：

可选的，计算机可执行指令在被执行时，所述根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体包括：

可选的，计算机可执行指令在被执行时，所述通过对所述目标聚类图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体包括：

本申请实施例中的异常群体识别设备，通过对各待分析用户的高频特征值进行预设的频繁项集挖掘策略挖掘最大频繁项集，并获取最大频繁项集中的低频最大频繁特征值，以挖掘待分析用户的行为序列，进而使得异常群体的识别更加准确；此外，仅通过获取各待分析用户的低频特征值和低频最大频繁特征值，并根据各待分析用户的低频特征值和低频最大频繁特征值构建目标二部图，并定义目标二部图中的边的权重，以及根据目标二部图中的边的权重并对目标二部图进行图聚类，以得到异常群体，步骤简单，且易于执行。

对应上述异常群体识别方法，基于相同的技术构思，本申请实施例还提供了一种存储介质，用于存储计算机可执行指令，在一个具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

获取多个待分析用户中的各所述待分析用户的特征值；

可选的，该存储介质存储的计算机可执行指令在被处理器执行时，所述获取多个待分析用户中的各所述待分析用户的特征值包括：

获取所述多个待分析用户的原始个人数据；

可选的，该存储介质存储的计算机可执行指令在被处理器执行时，所述确定各所述待分析用户的特征值中的高频特征值和低频特征值包括：

可选的，该存储介质存储的计算机可执行指令在被处理器执行时，所述根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值包括：

可选的，该存储介质存储的计算机可执行指令在被处理器执行时，所述在所述待分析用户的最大频繁特征值中确定低频最大频繁特征值包括：

可选的，该存储介质存储的计算机可执行指令在被处理器执行时，所述根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体包括：

可选的，该存储介质存储的计算机可执行指令在被处理器执行时，所述通过对所述目标聚类图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体包括：

本申请实施例中的存储介质存储的计算机可执行指令在被处理器执行时，通过对各待分析用户的高频特征值进行预设的频繁项集挖掘策略挖掘最大频繁项集，并获取最大频繁项集中的低频最大频繁特征值，以挖掘待分析用户的行为序列，进而使得异常群体的识别更加准确；此外，仅通过获取各待分析用户的低频特征值和低频最大频繁特征值，并根据各待分析用户的低频特征值和低频最大频繁特征值构建目标二部图，并定义目标二部图中的边的权重，以及根据目标二部图中的边的权重并对目标二部图进行图聚类，以得到异常群体，步骤简单，且易于执行。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种异常群体识别方法，其特征在于，包括：

获取多个待分析用户中的各所述待分析用户的特征值；

确定各所述待分析用户的特征值中的高频特征值和低频特征值；

根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值；

根据各所述待分析用户的特征值中的所述低频最大频繁特征值和所述低频特征值构建目标二部图，并定义所述目标二部图中的边的权重；

根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体。
根据权利要求1所述的异常群体识别方法，其特征在于，所述获取多个待分析用户中的各所述待分析用户的特征值包括：

获取所述多个待分析用户的原始个人数据；

对所述多个待分析用户的原始个人数据进行离散化，以得到各所述待分析用户的特征值。
根据权利要求1所述的异常群体识别方法，其特征在于，所述确定各所述待分析用户的特征值中的高频特征值和低频特征值包括：

根据各所述待分析用户的特征值构建第一二部图，其中，所述第一二部图包括与各所述待分析用户对应的节点、与各所述特征值对应的节点、以及各所述待分析用户对应的节点与其特征值对应的节点之间的边；

在所述第一二部图中获取各所述特征值对应的节点的度，并根据各所述特征值对应的节点的度在所述特征值中确定高频特征值和低频特征值；

根据所述高频特征值和所述低频特征值确定各所述待分析用户的特征值中的高频特征值和低频特征值。
根据权利要求1所述的异常群体识别方法，其特征在于，所述根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值包括：

根据各所述待分析用户的高频特征值并结合FP-Growth方法，挖掘支持度满足预设支持度的频繁多项集，并在所述频繁多项集中确定最大频繁项集；

将各所述待分析用户的特征值与所述最大频繁项集中的最大频繁特征值进行匹配，以得到各所述待分析用户的最大频繁特征值；

在所述待分析用户的最大频繁特征值中确定低频最大频繁特征值。
根据权利要求4所述的异常群体识别方法，其特征在于，所述在所述待分析用户的最大频繁特征值中确定低频最大频繁特征值包括：

根据各所述待分析用户的最大频繁特征值构建第二二部图，其中，所述第二二部图包括与各所述待分析用户对应的节点、与各所述最大频繁特征值对应的节点、以及各所述待分析用户对应的节点与其最大频繁特征值对应的节点之间的边；

在所述第二二部图中获取各所述最大频繁特征值对应的节点的度，并根据各所述最大频繁特征值对应的节点的度在所述最大频繁特征值中确定低频最大频繁特征值。
根据权利要求1所述的异常群体识别方法，其特征在于，所述根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体包括：

在所述目标二部图中删除权重小于第一预设权重的边，以得到待聚类二部图，并对所述待聚类二部图采用联通算法得到至少一个最大连通子图，以及将每个所述最大连通子图中的节点对应的待分析用户确定为一个所述异常群体；或者

在所述目标二部图中删除权重小于第一预设权重的边，以得到待聚类二部图，并通过社区发现算法对所述待聚类二部图中的节点进行划分，以得到多个节点集合，以及将每个所述节点集合中的节点对应的待分析用户确定为一个所述异常群体。
根据权利要求1所述的异常群体识别方法，其特征在于，所述根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体包括：

根据所述目标二部图中的边的权重计算任意两个所述待分析用户之间的权重；

将各所述待分析用户转化为节点，并在任意两个节点之间设置边，并将任意两个节点的边的权重设置为对应的任意两个所述待分析用户之间的权重，以构建目标聚类图；

通过对所述目标聚类图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体。
根据权利要求7所述的异常群体识别方法，其特征在于，所述通过对所述目标聚类图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体包括：

在所述目标聚类图中删除权重小于第二预设权重的边，以得到待聚类图，并对所述待聚类图采用联通算法得到至少一个最大连通子图，以及将每个所述最大连通子图中的节点对应的待分析用户分别确定为一个所述异常群体；或者

在所述目标聚类图中删除权重小于第二预设权重的边，以得到待聚类图，并通过社区发现算法对所述待聚类图进行划分，以得到多个节点集合，以及将每个所述节点集合对应的待分析用户分别确定为一个所述异常群体。
一种异常群体识别装置，其特征在于，包括：

获取模块，用于获取多个待分析用户中的各所述待分析用户的特征值；

确定模块，用于确定各所述待分析用户的特征值中的高频特征值和低频特征值；

挖掘模块，用于根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值；

构建模块，用于根据各所述待分析用户的特征值中的所述低频最大频繁特征值和所述低频特征值构建目标二部图，并定义所述目标二部图中的边的权重；

聚类模块，用于根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体。
一种异常群体识别设备，其特征在于，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：

获取多个待分析用户中的各所述待分析用户的特征值；

确定各所述待分析用户的特征值中的高频特征值和低频特征值；

根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值；

根据各所述待分析用户的特征值中的所述低频最大频繁特征值和所述低频特征值构建目标二部图，并定义所述目标二部图中的边的权重；

根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体。
一种存储介质，用于存储计算机可执行指令，其特征在于，所述计算机可执行指令在被执行时实现以下流程：

获取多个待分析用户中的各所述待分析用户的特征值；

确定各所述待分析用户的特征值中的高频特征值和低频特征值；

根据各所述待分析用户的高频特征值和预设的频繁项集挖掘策略挖掘最大频繁项集，获取所述最大频繁项集中的低频最大频繁特征值；

根据各所述待分析用户的特征值中的所述低频最大频繁特征值和所述低频特征值构建目标二部图，并定义所述目标二部图中的边的权重；

根据所述目标二部图中的边的权重，以及通过对所述目标二部图进行图聚类所得到的所述多个待分析用户的聚类结果，确定所述待分析用户中的异常群体。