WO2020062690A1

WO2020062690A1 - 基于大数据分析的非法用户识别方法及装置、电子设备

Info

Publication number: WO2020062690A1
Application number: PCT/CN2018/125248
Authority: WO
Inventors: 孙家棣; 马宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-09-25
Filing date: 2018-12-29
Publication date: 2020-04-02
Also published as: CN109284380A; CN109284380B

Abstract

一种基于大数据分析的非法用户识别方法及装置、电子设备、计算机可读存储介质，涉及大数据技术领域，所述方法包括：获取待识别用户集以及合法用户集的有效特征数据（S310）；将所述合法用户集的有效特征数据进行聚类，确定聚类簇数（S330）；按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类，得到多个聚类簇（S350）；从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户（S370）。采用聚类的方式可以批量识别虚假注册的用户，提高识别效率，由于不再采用行为特征匹配的方式进行虚假注册用户的识别，提高了识别准确性。

Description

基于大数据分析的非法用户识别方法及装置、电子设备

技术领域

本申请要求2018年9月25日递交、发明名称为“基于大数据分析的非法用户识别方法及装置、电子设备”的中国专利申请201811120248.6的优先权，在此通过引用将其全部内容合并于此。

本公开涉及大数据技术领域，特别涉及一种基于大数据分析的非法用户识别方法及装置、电子设备、计算机可读存储介质。

背景技术

目前，智能手机等智能终端的普及为各种类型的APP(Application，应用程序)提供了载体。在各种类型的APP上都充斥着大量的无活动量的僵尸用户，或者大量的专门为刷量而存在的及其活跃的用户，这两类都是虚假注册的用户，虚假注册用户的存在一方面干扰了网络上正常秩序，另一方面导致了浪费资源。

针对现状中存在的虚假注册用户，传统做法是人为判断虚假用户并进行删除，导致工作效率较低。现有做法是分析总结虚假注册用户的行为特征，形成特征库，进而对于未知用户，可以通过行为特征匹配的方式，确定是否属于虚假用户。但是发明人意识到特征库数据量有限，更新缓慢，因此虚假注册用户可能绕开特征库记载的特征，由此无法准确识别出虚假注册的用户。

技术问题

为了解决相关技术中存在的无法准确识别出虚假注册用户的问题，本公开提供了一种基于大数据分析的非法用户识别方法。

技术解决方案

一方面，本发明提供了一种基于大数据分析的非法用户识别方法，包括：

获取待识别用户集以及合法用户集的有效特征数据；

将所述合法用户集的有效特征数据进行聚类，确定聚类簇数；

按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类，得到多个聚类簇；

从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户。

另一方面，本发明还提供了一种基于大数据分析的非法用户识别装置，所述装置包括：

数据获取模块，配置为获取待识别用户集以及合法用户集的有效特征数据；

簇数确定模块，配置为将所述合法用户集的有效特征数据进行聚类，确定聚类簇数；

用户聚类模块，配置为按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类，得到多个聚类簇；

异常簇筛选模块，配置为从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户。

此外，本发明还提供了一种电子设备，所述电子设备包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述基于大数据分析的非法用户识别方法。

此外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可由处理器执行完成上述基于大数据分析的非法用户识别方法。

有益效果

本公开的实施例提供的技术方案可以包括以下有益效果：

本发明提供的技术方案，通过对合法用户集的有效特征数据进行聚类，进而可以确定合适的聚类簇数，按照该聚类簇数将待识别用户集和合法用户集的有效特征数据进行聚类，对于合法用户数量较少的聚类类可以认为是异常簇，进而对于分类至异常簇中的待识别用户集中用户，可以认为是非法用户。本发明提供的技术方案，采用聚类的方式可以批量识别虚假注册的用户，提高识别效率，由于不再采用行为特征匹配的方式进行虚假注册用户的识别，提高了识别准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本公开所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种服务器的框图；

图3是根据一示例性实施例示出的一种基于大数据分析的非法用户识别方法的流程图；

图4是在图3对应实施例的基础上另一示例性实施例示出的一种基于大数据分析的非法用户识别方法的流程图；

图5是图4对应实施例中步骤302的细节流程图；

图6是图4对应实施例中步骤302的细节流程图；

图7是图3对应实施例中步骤370的细节流程图；

图8是注册时间和设备剩余存储空间呈现负相关关系的示意图；

图9是图7对应实施例中步骤373的细节流程图；

图10是4个设备进行批量虚假注册的注册时间和设备剩余存储空间关系示意图；

图11是根据一示例性实施例示出的一种基于大数据分析的非法用户识别装置的框图。

本发明的实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本公开所涉及的实施环境的示意图。该实施环境包括：多个移动终端110和服务器120。

多个移动终端110和服务器120之间采用有线或无线网络连接。每个移动终端110通过运行软件APP向服务器120请求进行用户账号注册。服务器120可以采用本发明提供的方案进行非法用户（包括虚假注册的用户）的识别。

应当说明的是，本发明提供的基于大数据分析的非法用户识别方法，不限于在服务器110中部署相应的处理逻辑，其也可以是部署于其它机器中的处理逻辑。例如，在具备计算能力的终端设备中部署本发明非法用户识别方法的处理逻辑等。

参见图2，图2是本发明实施例提供的一种服务器结构示意图。该服务器200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processing units，CPU）222（例如，一个或一个以上处理器）和存储器232，一个或一个以上存储应用程序242或数据244的存储介质230（例如一个或一个以上海量存储设备）。其中，存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块（图示未示出），每个模块可以包括对服务器200中的一系列指令操作。更进一步地，中央处理器222可以设置为与存储介质230通信，在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括一个或一个以上电源226，一个或一个以上有线或无线网络接口250，一个或一个以上输入输出接口258，和/或，一个或一个以上操作系统241，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。下述图3-图7、图9所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的服务器结构。

本领域普通技术人员可以理解实现下述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

图3是根据一示例性实施例示出的一种基于大数据分析的非法用户识别方法的流程图。该基于大数据分析的非法用户识别方法的适用范围和执行主体可以是服务器，该服务器可以是图1所示实施环境的服务器120。如图3所示，该方法可以包括以下步骤。

在步骤310中，获取待识别用户集以及合法用户集的有效特征数据。

其中，非法用户是指非正常使用APP（如金管家APP）的用户，与合法用户相对。非法用户可以是黑色产业批量虚假注册产生的用户。待识别用户集包括多个用户但其合法性未知，即尚不确定是否属于虚假注册的用户。合法用户集是指确定属于正常注册和使用APP的多个用户。合法用户集可以是正式业务员、寿险内勤人员、保单用户、基金用户等白名单用户集合。有效特征数据用于表征用户的基本信息，例如位置信息、设备信息、注册手机号码、注册时间等。

在步骤330中，将所述合法用户集的有效特征数据进行聚类，确定聚类簇数。

其中，将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。聚类簇数是指由类似对象组成的多个类的数量，也就是分类的类别数。具体的，可以采用k-means聚类算法对合法用户集的有效特征数据进行聚类，通过遍历聚类簇数即尝试聚成2类、3类、4类等，分别计算出不同簇数时，合法用户集的总簇内变差和。其中，计算总簇内变差和公式如下所示：

其中，S表示总簇内变差和；m表示簇个数；p表示合法用户集中样本实例；c_i是簇i的中心；d(x,y)表示两点x和y的欧几里得距离。

取上述S值最小时的簇数，作为最合适的聚类簇数。总簇内变差和用于表征所有簇内的相似度之和，当总簇内变差和最小时，则表示此时所有簇内的相似度之和达到最高，也就是相似的用户被聚类到同一个簇中，不相似的用户在另一个簇中，此时达到的聚类簇数可以认为是最合适的聚类簇数。

在步骤350中，按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类，得到多个聚类簇。

具体的，可以采用k-means聚类算法将待识别用户集和合法用户集的有效特征数据按照步骤330确定的最合适的聚类簇数进行聚类。例如，聚类簇数是4类时，总簇内变差和最小，由此根据待识别用户集的有效特征数据和合法用户集的有效特征数据，可以将所有用户分成4个聚类簇。需要说明的是，由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

在步骤370中，从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户。

需要解释的是，由于簇内用户具有较高相似性，不同簇间用户之间具有较高差异性。所有没有合法用户或者合法用户数非常少（小于某一预设阈值）的簇即为异常簇。也就是说，没有合法用户为这类簇的合法性做担保，认为是异常簇。进而，对于被分类至异常簇中的待识别用户集中用户，可以认为是非法用户。

本发明上述示例性实施例提供的技术方案，通过对合法用户集的有效特征数据进行聚类，进而可以确定合适的聚类簇数，按照该聚类簇数将待识别用户集和合法用户集的有效特征数据进行聚类，对于合法用户数量较少的聚类类可以认为是异常簇，进而对于分类至异常簇中的待识别用户集中用户，可以认为是非法用户。本发明提供的技术方案，采用聚类的方式可以批量识别虚假注册的用户，提高识别效率，由于不再采用行为特征匹配的方式进行虚假注册用户的识别，提高了识别准确性。

在一种示例性实施例中，如图4所示，在上述步骤310之前，本发明提供的基于大数据分析的非法用户识别方法还包括以下步骤：

在步骤301中，获取待识别用户集和合法用户集的业务数据；

其中，业务数据包括注册手机号码、注册时间、sdk（注册使用的设备信息）数据等。Sdk数据包括：接入App的包名、接入App的版本号、操作系统版本号、经纬度信息、SIM（客户识别模块）卡串号、IMSI（国际移动用户识别码）、IMEI（国际移动设备识别码）、设备Mac地址等。进一步，业务数据还可以包括从上述数据中衍生出的数据，例如GPS数据经纬度信息、手机号运营商号段（手机号码前三位），手机号码第4到第7位数字，运营商归属地是否一致，网络类型为wifi但连接的wifi名称是否为空， ip前半部分数据，电池电量位等。根据需要，可以过滤掉异常数据和缺失数据，并将合法用户账号标记为1，否则标记为0。

在步骤302中，对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据。

需要说明的是，业务数据包含的数据类别较多，如上所述业务数据包括注册手机号码、注册时间、sdk（注册使用的设备信息）数据等。但是并非所有业务数据都能用于表征用户是否合法，由此需要从业务数据中提取出可以用于表征用户是否合法的数据类别，作为有效特征数据。

在一种实施例中，所述业务数据包括多个特征变量，步骤302具体包括：从所述待识别用户集和合法用户集的多个特征变量中，去除变量值相同的特征变量，由剩余变量值不同的特征变量构成所述有效特征数据。

其中，特征变量也就是数据类别，接入App的包名可以看成一个特征变量，接入App的版本号可以看成另一特征变量，操作系统版本号也可以看成一个特征变量。服务器可以统计出每个特征变量的类别个数，将类别个数大于1的特征变量标记出来，进而过滤掉变量值相同的特征变量。例如，如果所有用户的接入app的版本号都是相同的，则“接入app版本号”这个特征变量可以去除，因为接入app版本号对于所有用户都是相同的，并不能用于表征用户是否合法。在一种实施例中，剩余的特征变量可以认为是有效特征数据。

在一种实施例中，如图5所示，上述步骤302还可以包括以下步骤：

在步骤501中，统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率；

需要说明的是，如果某个特征变量可以用于表征用户是否合法，那么该特征变量的某个变量值在合法用户集中的出现频率和在待识别用户集中的出现频率应当存在较大差异。其中，第一出现频率是指某一变量值在合法用户集中的出现频数除以其总的数据条数。第二出现频率是指某一变量值在待识别用户集中的出现频数除以其总的数据条数。

在步骤502中，若所述第一出现频率和第二出现频率的差异大于预设范围，则所述特征变量属于有效特征数据。

举例来说，如果注册时间“aaaa”在合法用户集中的第一出现频率与在待识别用户集中的第二出现频率差异较大，则可以认为注册时间这个特征变量属于有效特征数据。其中，第一出现频率与第二出现频率的差值大于预设范围，可以认为出现频率在合法用户集中和待识别用户集中的差异较大，该特征变量属于有效特征变量。

在另一实施例中，如图6所示，上述步骤302可以包括：

在步骤601中，根据所述特征变量的每一变量值在合法用户集中的出现频数，估计所述变量值在待识别用户集中的预测频数；

具体的，统计特征变量的每一变量值在合法用户集中的出现频数，利用以下公式预测该变量值在待识别用户集中的出现频数（即预测频数）：

其中，x表示某一变量值在合法用户集中出现的频数，N表示总体数据条数（待识别用户集和合法用户集的数据条数总和），n表示合法用户集的数据条数，y表示该变量值在待识别用户集中的预测频数。

也就是说，先假设该变量值在合法用户集中的出现频率和在待识别用户集中的出现频率相同，由此根据该变量值在合法用户集中的出现频数，可以预测出该变量值在待识别用户集中的出现频数。

在步骤602中，统计所述变量值在所述待识别用户集中的真实频数，若所述真实频数大于预测频数，且真实频数大于第一预设值，预测频数小于第二预设值，则所述特征变量属于有效特征数据；第一预设值大于第二预设值。

其中，真实频数是指在待识别用户集中统计得到的某变量值的出现次数。可以用z表示。在一个实施例中，第一预设值可以是100，第二预设值可以是10。其中，数值10、100可以根据经验进行调整。定义有效特征的条件是：z/y>1且z>100且x<10。其中，如上所述x表示某一变量值在合法用户集中的出现频数，y表示该变量值在待识别用户集中的预测频数，z表示该变量值在待识别用户集中的真实频数。z/y>1表示真实频数大于预测频数。

也就是说，根据某变量值在合法用户集中的占比，可以预测出该变量值在待识别用户集中的预测频数，如果待识别用户集中该变量值真实的频数与预测频数的比值大于1，且真实频数大于100且该变量值在合法用户集中的频数小于10时，可以认为该变量值所属的特征变量属于有效特征。由此筛选出业务数据中的有效特征数据。

在一种示例性实施例中，如图7所示，上述步骤370具体包括：

在步骤371中，从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇。

在步骤372中，验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系。

在步骤373中，若呈现所述负相关关系，则根据所述异常簇中用户，确定所述待识别用户集中的非法用户。

需要说明的是，正常情况下，一天内设备剩余存储空间是平均分布的，并不会随着时间从早到晚的变化，剩余存储空间逐渐减少。如果存在剩余存储空间逐渐减少的情况，只能说明几个设备在批量虚假注册，因为随着注册账号数量的增加，生成某些文件存储在设备中，所以导致设备剩余存储空间在逐渐减小。

其中，负相关关系是指注册时间和设备剩余存储空间呈现递减和接近递减的关系。即随着注册时间的增长，设备剩余存储空间不断减少。如图8所示，横轴标识一天内账号注册时间，纵轴标识设备剩余存储空间。如果黑产使用几个设备批量注册虚假用户，则可以得到图8所示随着注册时间的增长，设备剩余存储空间逐渐减少的斜线段。由此，本发明在筛选出异常簇之后，通过进一步验证异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系，可以确定异常簇中用户是否属于批量注册的虚假用户，进而可以确定待识别用户集中的虚假注册用户。

在一种实施例中，如图9所示，上述步骤373具体包括：

在步骤901中，根据所述异常簇中用户的设备总存储空间和设备启动时间，将所述设备总存储空间和设备启动时间均相同的用户归为一类；

其中，设备总存储空间是异常簇中用户所使用的设备的总存储空间。设备启动时间是异常簇中用户所使用的设备的开启时间。对于注册时间和设备剩余存储空间呈负相关关系的异常簇，按照设备总存储空间和设备启动时间对异常簇内用户进行分类。将设备总存储空间和设备启动时间均相同的用户归为一类。如图10所示，可以分成4类，代表不法分子可能采用了4个设备进行用户账号的批量注册。

在步骤902中，分别计算每类用户的注册时间和设备剩余存储空间的相关系数，若所述相关系数满足指定范围，则当前类别包含的用户属于非法用户，得到所述待识别用户集中的非法用户。

参照图10所示的斜线段，在经过步骤901的分类后，分别计算每类用户的注册时间和设备剩余存储空间的pearson（皮尔逊）或spearman（斯皮尔曼）相关系数，是否是属于[-1,-0.9]闭区间。如果属于该指定范围，则该类用户属于非法用户。每日生产环境上ios版本设备新注册账号量大约6-8万个，采用本发明提供的方法，可以识别出虚假账号大约2-3万个。

下述为本公开装置实施例，可以用于执行本公开上述服务器120执行的基于大数据分析的非法用户识别方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开基于大数据分析的非法用户识别方法实施例。

图11是根据一示例性实施例示出的一种基于大数据分析的非法用户识别装置的框图，该基于大数据分析的非法用户识别装置可以用于图1所示实施环境的服务器120中，执行图3-图7、图9任一所示的基于大数据分析的非法用户识别方法的全部或者部分步骤。如图11所示，该装置包括但不限于：数据获取模块1110、簇数确定模块1130、用户聚类模块1150以及异常簇筛选模块1170。

数据获取模块1110，配置为获取待识别用户集以及合法用户集的有效特征数据；

簇数确定模块1130，配置为将所述合法用户集的有效特征数据进行聚类，确定聚类簇数；

用户聚类模块1150，配置为按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类，得到多个聚类簇；

异常簇筛选模块1170，配置为从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户。

上述装置中各个模块的功能和作用的实现过程具体详见上述基于大数据分析的非法用户识别方法中对应步骤的实现过程，在此不再赘述。

数据获取模块1110比如可以是图2中的某一个物理结构有线或无线网络接口250。

簇数确定模块1130、用户聚类模块1150以及异常簇筛选模块1170也可以是功能模块，用于执行上述基于大数据分析的非法用户识别方法中的对应步骤。可以理解，这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时，这些模块可以实施为一个或多个硬件模块，例如一个或多个专用集成电路。当以软件方式实现时，这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序，例如图2的中央处理器222所执行的存储在存储器232中的程序。

可选的，所述装置还包括：

业务数据获取模块，配置为在所述获取待识别用户集以及合法用户集的有效特征数据之前，获取待识别用户集和合法用户集的业务数据；

有效特征提取模块，配置为对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据。

可选的，所述业务数据包括多个特征变量，所述有效特征提取模块包括：

特征变量去除单元，配置为从所述待识别用户集和合法用户集的多个特征变量中，去除变量值相同的特征变量，由剩余变量值不同的特征变量构成所述有效特征数据。

可选的，所述业务数据包括多个特征变量，所述有效特征提取模块还包括：

频率统计单元，配置为统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率；

频率判断单元，配置为若所述第一出现频率和第二出现频率的差异大于预设范围，则所述特征变量属于有效特征数据。

频率预测单元，配置为根据所述特征变量的每一变量值在合法用户集中的出现频数，估计所述变量值在待识别用户集中的预测频数；

频数判断单元，配置为统计所述变量值在所述待识别用户集中的真实频数，若所述真实频数大于预测频数，且真实频数大于第一预设值，预测频数小于第二预设值，则所述特征变量属于有效特征数据；其中，所述第一预设值大于第二预设值。

可选的，所述异常簇筛选模块1170包括：

簇筛选单元，配置为从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇；

关系验证单元，配置为验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系；

用户判断单元，配置为若呈现所述负相关关系，则根据所述异常簇中用户，确定所述待识别用户集中的非法用户。

可选的，所述用户判断单元包括：

用户分类器，配置为根据所述异常簇中用户的设备总存储空间和设备启动时间，将所述设备总存储空间和设备启动时间均相同的用户归为一类；

相关性判断器，配置为分别计算每类用户的注册时间和设备剩余存储空间的相关系数，若所述相关系数满足指定范围，则当前类别包含的用户属于非法用户，得到所述待识别用户集中的非法用户。

可选的，本公开还提供一种电子设备，该电子设备可以用于图1所示实施环境的服务器120中，执行图3-图7、图9任一所示的基于大数据分析的非法用户识别方法的全部或者部分步骤。所述电子设备包括：

处理器；配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述示例性实施例所述的基于大数据分析的非法用户识别方法。

该实施例中电子设备的处理器执行操作的具体方式已经在有关该基于大数据分析的非法用户识别方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质存储有计算机程序，该计算机程序可由服务器200的中央处理器222执行以完成上述基于大数据分析的非法用户识别方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

一种基于大数据分析的非法用户识别方法，其中，包括：

获取待识别用户集以及合法用户集的有效特征数据；

将所述合法用户集的有效特征数据进行聚类，确定聚类簇数；

按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类，得到多个聚类簇；

从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户。
根据权利要求1所述的方法，其中，在所述获取待识别用户集以及合法用户集的有效特征数据之前，所述方法还包括：

获取待识别用户集和合法用户集的业务数据；

对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据。
根据权利要求2所述的方法，其中，所述业务数据包括多个特征变量，所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据，包括：

从所述待识别用户集和合法用户集的多个特征变量中，去除变量值相同的特征变量，由剩余变量值不同的特征变量构成所述有效特征数据。
根据权利要求2所述的方法，其中，所述业务数据包括多个特征变量，所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据，还包括：

统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率；

若所述第一出现频率和第二出现频率的差异大于预设范围，则所述特征变量属于有效特征数据。
根据权利要求2所述的方法，其中，所述业务数据包括多个特征变量，所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据，还包括：

根据所述特征变量的每一变量值在合法用户集中的出现频数，估计所述变量值在待识别用户集中的预测频数；

统计所述变量值在所述待识别用户集中的真实频数，若所述真实频数大于预测频数，且真实频数大于第一预设值，预测频数小于第二预设值，则所述特征变量属于有效特征数据；其中，所述第一预设值大于第二预设值。
根据权利要求1-5任意一项所述的方法，其中，从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户，包括：

从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇；

验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系；

若呈现所述负相关关系，则根据所述异常簇中用户，确定所述待识别用户集中的非法用户。
根据权利要求6所述的方法，其中，所述根据所述异常簇中用户，确定所述待识别用户集中的非法用户，包括：

根据所述异常簇中用户的设备总存储空间和设备启动时间，将所述设备总存储空间和设备启动时间均相同的用户归为一类；

分别计算每类用户的注册时间和设备剩余存储空间的相关系数，若所述相关系数满足指定范围，则当前类别包含的用户属于非法用户，得到所述待识别用户集中的非法用户。
一种基于大数据分析的非法用户识别装置，其中，包括：

数据获取模块，配置为获取待识别用户集以及合法用户集的有效特征数据；

簇数确定模块，配置为将所述合法用户集的有效特征数据进行聚类，确定聚类簇数；

用户聚类模块，配置为按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类，得到多个聚类簇；

异常簇筛选模块，配置为从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户。
根据权利要求8所述的装置，其中，所述装置还包括：

业务数据获取模块，配置为在所述获取待识别用户集以及合法用户集的有效特征数据之前，获取待识别用户集和合法用户集的业务数据；

有效特征提取模块，配置为对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据。
根据权利要求9所述的装置，其中，所述业务数据包括多个特征变量，所述有效特征提取模块包括：

特征变量去除单元，配置为从所述待识别用户集和合法用户集的多个特征变量中，去除变量值相同的特征变量，由剩余变量值不同的特征变量构成所述有效特征数据。
根据权利要求9所述的装置，其中，所述业务数据包括多个特征变量，所述有效特征提取模块还包括：

频率统计单元，配置为统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率；

频率判断单元，配置为若所述第一出现频率和第二出现频率的差异大于预设范围，则所述特征变量属于有效特征数据。
根据权利要求9所述的装置，其中，所述业务数据包括多个特征变量，所述有效特征提取模块包括：

频率预测单元，配置为根据所述特征变量的每一变量值在合法用户集中的出现频数，估计所述变量值在待识别用户集中的预测频数；

频数判断单元，配置为统计所述变量值在所述待识别用户集中的真实频数，若所述真实频数大于预测频数，且真实频数大于第一预设值，预测频数小于第二预设值，则所述特征变量属于有效特征数据；其中，所述第一预设值大于第二预设值。
根据权利要求8-12任意一项所述的装置，其中，所述异常簇筛选模块包括：

簇筛选单元，配置为从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇；

关系验证单元，配置为验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系；

用户判断单元，配置为若呈现所述负相关关系，则根据所述异常簇中用户，确定所述待识别用户集中的非法用户。
根据权利要求13所述的装置，其中，所述用户判断单元包括：

用户分类器，配置为根据所述异常簇中用户的设备总存储空间和设备启动时间，将所述设备总存储空间和设备启动时间均相同的用户归为一类；

相关性判断器，配置为分别计算每类用户的注册时间和设备剩余存储空间的相关系数，若所述相关系数满足指定范围，则当前类别包含的用户属于非法用户，得到所述待识别用户集中的非法用户。
一种电子设备，其中，所述电子设备包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行以下步骤：

获取待识别用户集以及合法用户集的有效特征数据；

将所述合法用户集的有效特征数据进行聚类，确定聚类簇数；

按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类，得到多个聚类簇；

从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户。
根据权利要求15所述的电子设备，其中，在所述获取待识别用户集以及合法用户集的有效特征数据之前，所述电子设备还包括：

获取待识别用户集和合法用户集的业务数据；

对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据。
根据权利要求16所述的电子设备，其中，所述业务数据包括多个特征变量，所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据，包括：

从所述待识别用户集和合法用户集的多个特征变量中，去除变量值相同的特征变量，由剩余变量值不同的特征变量构成所述有效特征数据。
根据权利要求16所述的电子设备，其中，所述业务数据包括多个特征变量，所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据，还包括：

统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率；

若所述第一出现频率和第二出现频率的差异大于预设范围，则所述特征变量属于有效特征数据。
根据权利要求16所述的电子设备，其中，所述业务数据包括多个特征变量，所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据，还包括：

根据所述特征变量的每一变量值在合法用户集中的出现频数，估计所述变量值在待识别用户集中的预测频数；

统计所述变量值在所述待识别用户集中的真实频数，若所述真实频数大于预测频数，且真实频数大于第一预设值，预测频数小于第二预设值，则所述特征变量属于有效特征数据；其中，所述第一预设值大于第二预设值。
根据权利要求15-19任意一项所述的电子设备，其中，从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户，包括：

从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇；

验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系；

若呈现所述负相关关系，则根据所述异常簇中用户，确定所述待识别用户集中的非法用户。
根据权利要求20所述的电子设备，其中，所述根据所述异常簇中用户，确定所述待识别用户集中的非法用户，包括：

根据所述异常簇中用户的设备总存储空间和设备启动时间，将所述设备总存储空间和设备启动时间均相同的用户归为一类；

分别计算每类用户的注册时间和设备剩余存储空间的相关系数，若所述相关系数满足指定范围，则当前类别包含的用户属于非法用户，得到所述待识别用户集中的非法用户。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序可由处理器执行完成以下步骤：

获取待识别用户集以及合法用户集的有效特征数据；

将所述合法用户集的有效特征数据进行聚类，确定聚类簇数；

按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类，得到多个聚类簇；

从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户。
根据权利要求22所述的计算机可读存储介质，其中，在所述获取待识别用户集以及合法用户集的有效特征数据之前，所述电子设备还包括：

获取待识别用户集和合法用户集的业务数据；

对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据。
根据权利要求23所述的计算机可读存储介质，其中，所述业务数据包括多个特征变量，所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据，包括：

从所述待识别用户集和合法用户集的多个特征变量中，去除变量值相同的特征变量，由剩余变量值不同的特征变量构成所述有效特征数据。
根据权利要求23所述的计算机可读存储介质，其中，所述业务数据包括多个特征变量，所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据，还包括：

统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率；

若所述第一出现频率和第二出现频率的差异大于预设范围，则所述特征变量属于有效特征数据。
根据权利要求23所述的计算机可读存储介质，其中，所述业务数据包括多个特征变量，所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取，获得所述待识别用户集和合法用户集的有效特征数据，还包括：

根据所述特征变量的每一变量值在合法用户集中的出现频数，估计所述变量值在待识别用户集中的预测频数；

统计所述变量值在所述待识别用户集中的真实频数，若所述真实频数大于预测频数，且真实频数大于第一预设值，预测频数小于第二预设值，则所述特征变量属于有效特征数据；其中，所述第一预设值大于第二预设值。
根据权利要求22-26任意一项所述的计算机可读存储介质，其中，从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇，确认所述待识别用户集中，聚类至所述异常簇的用户为非法用户，包括：

从所述多个聚类簇中筛选出异常簇，所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇；

验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系；

若呈现所述负相关关系，则根据所述异常簇中用户，确定所述待识别用户集中的非法用户。
根据权利要求27所述的计算机可读存储介质，其中，所述根据所述异常簇中用户，确定所述待识别用户集中的非法用户，包括：

根据所述异常簇中用户的设备总存储空间和设备启动时间，将所述设备总存储空间和设备启动时间均相同的用户归为一类；

分别计算每类用户的注册时间和设备剩余存储空间的相关系数，若所述相关系数满足指定范围，则当前类别包含的用户属于非法用户，得到所述待识别用户集中的非法用户。