WO2020062690A1 - 基于大数据分析的非法用户识别方法及装置、电子设备 - Google Patents

基于大数据分析的非法用户识别方法及装置、电子设备 Download PDF

Info

Publication number
WO2020062690A1
WO2020062690A1 PCT/CN2018/125248 CN2018125248W WO2020062690A1 WO 2020062690 A1 WO2020062690 A1 WO 2020062690A1 CN 2018125248 W CN2018125248 W CN 2018125248W WO 2020062690 A1 WO2020062690 A1 WO 2020062690A1
Authority
WO
WIPO (PCT)
Prior art keywords
users
identified
clusters
user
cluster
Prior art date
Application number
PCT/CN2018/125248
Other languages
English (en)
French (fr)
Inventor
孙家棣
马宁
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020062690A1 publication Critical patent/WO2020062690A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • the present disclosure relates to the field of big data technology, and particularly to a method and device for identifying an illegal user based on big data analysis, an electronic device, and a computer-readable storage medium.
  • the traditional method is to artificially determine the false users and delete them, resulting in lower work efficiency.
  • the existing method is to analyze and summarize the behavior characteristics of false registered users to form a feature database, and then for unknown users, it is possible to determine whether they belong to false users by matching behavior characteristics.
  • the inventor realized that the amount of data in the feature database is limited and the update is slow. Therefore, false registered users may bypass the features recorded in the feature database, and thus the false registered users cannot be accurately identified.
  • the present disclosure provides a method for identifying illegal users based on big data analysis.
  • the present invention provides a method for identifying an illegal user based on big data analysis, including:
  • Cluster the valid feature data of the legitimate user set to determine the number of clusters
  • Clustering the effective feature data of the set of users to be identified and the set of valid users according to the number of clustering clusters to obtain multiple clustering clusters;
  • An abnormal cluster is selected from the multiple cluster clusters, and the abnormal clusters are cluster clusters in which the number of legal users in the multiple cluster clusters is less than a preset threshold.
  • the users of the abnormal cluster are illegal users.
  • the present invention also provides an illegal user identification device based on big data analysis.
  • the device includes:
  • a data acquisition module configured to acquire valid feature data of a set of users to be identified and a set of legal users
  • a cluster number determining module configured to cluster valid feature data of the legal user set to determine the number of clusters
  • a user clustering module configured to cluster valid feature data of the set of users to be identified and the set of valid users according to the number of clusters to obtain a plurality of clusters
  • the abnormal cluster screening module is configured to screen abnormal clusters from the multiple cluster clusters, where the abnormal clusters are cluster clusters in which the number of legal users in the multiple cluster clusters is less than a preset threshold, and confirming the waiting A user group is identified, and users clustered into the abnormal cluster are illegal users.
  • the present invention also provides an electronic device.
  • the electronic device includes:
  • Memory configured to store processor-executable instructions
  • the processor is configured to execute the above-mentioned illegal user identification method based on big data analysis.
  • the present invention also provides a computer-readable storage medium.
  • the computer-readable storage medium stores a computer program that can be executed by a processor to complete the foregoing illegal user identification method based on big data analysis.
  • a proper number of clustering clusters can be determined, and the effective feature data of the user set to be identified and the legitimate user set are determined according to the number of clusters.
  • Clustering can be considered as abnormal clusters for clusters with a small number of legitimate users, and can be considered as illegal users for concentrated users to be identified in the abnormal clusters.
  • the technical solution provided by the present invention adopts a clustering method to identify falsely registered users in batches and improve the recognition efficiency. Since behavioral feature matching is no longer used to identify falsely registered users, the recognition accuracy is improved.
  • FIG. 1 is a schematic diagram of an implementation environment according to the present disclosure
  • Fig. 2 is a block diagram of a server according to an exemplary embodiment
  • Fig. 3 is a flowchart illustrating a method for identifying an illegal user based on big data analysis according to an exemplary embodiment
  • Fig. 4 is a flow chart showing a method for identifying an illegal user based on big data analysis according to another exemplary embodiment based on the embodiment shown in Fig. 3;
  • step 302 is a detailed flowchart of step 302 in the embodiment corresponding to FIG. 4;
  • step 302 is a detailed flowchart of step 302 in the embodiment corresponding to FIG. 4;
  • step 370 is a detailed flowchart of step 370 in the embodiment corresponding to FIG. 3;
  • FIG. 8 is a schematic diagram showing a negative correlation between the registration time and the remaining storage space of the device.
  • FIG. 9 is a detailed flowchart of step 373 in the embodiment corresponding to FIG. 7; FIG.
  • FIG. 10 is a schematic diagram showing the relationship between the registration time and the remaining storage space of the devices for the batch of false registrations of the 4 devices;
  • Fig. 11 is a block diagram of a device for identifying an illegal user based on big data analysis according to an exemplary embodiment.
  • FIG. 1 is a schematic diagram of an implementation environment according to the present disclosure.
  • the implementation environment includes a plurality of mobile terminals 110 and a server 120.
  • the plurality of mobile terminals 110 and the server 120 are connected by a wired or wireless network.
  • Each mobile terminal 110 requests the server 120 to perform user account registration by running a software APP.
  • the server 120 may use the solution provided by the present invention to identify illegal users (including users who are falsely registered).
  • the method for identifying illegal users based on big data analysis is not limited to deploying corresponding processing logic in the server 110, and it may also be processing logic deployed in other machines.
  • the processing logic of the illegal user identification method of the present invention is deployed in a terminal device with computing capabilities.
  • FIG. 2 is a schematic structural diagram of a server according to an embodiment of the present invention.
  • the server 200 may have a large difference due to different configurations or performance, and may include one or more central processing units (central processing units (CPU) 222 (eg, one or more processors) and memory 232, one or more storage media 230 (eg, one or more storage devices) storing application programs 242 or data 244.
  • the memory 232 and the storage medium 230 may be temporary storage or persistent storage.
  • the program stored in the storage medium 230 may include one or more modules (not shown in the figure), and each module may include a series of instruction operations on the server 200.
  • the central processing unit 222 may be configured to communicate with the storage medium 230 and execute a series of instruction operations in the storage medium 230 on the server 200.
  • the server 200 may also include one or more power sources 226, one or more wired or wireless network interfaces 250, one or more input / output interfaces 258, and / or, one or more operating systems 241, such as Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM and more.
  • Windows ServerTM Mac OS XTM
  • UnixTM UnixTM
  • LinuxTM FreeBSDTM
  • the steps performed by the server described in the embodiments shown in FIG. 3 to FIG. 7 and FIG. 9 below may be based on the server structure shown in FIG. 2.
  • the program may be stored in a computer-readable storage medium.
  • the aforementioned storage medium may be a read-only memory, a magnetic disk, or an optical disk.
  • Fig. 3 is a flowchart illustrating a method for identifying an illegal user based on big data analysis according to an exemplary embodiment.
  • the application scope and execution subject of the illegal user identification method based on big data analysis may be a server, and the server may be the server 120 of the implementation environment shown in FIG. 1.
  • the method may include the following steps.
  • step 310 valid feature data of a set of users to be identified and a set of valid users is obtained.
  • illegal users refer to users who use APPs (such as the Golden Housekeeper APP) abnormally, as opposed to legitimate users.
  • Illegal users can be users who have been falsely registered in the black industry.
  • the set of users to be identified includes multiple users but their legality is unknown, that is, it is not yet determined whether they are falsely registered users.
  • the legal user set refers to multiple users who are determined to belong to normal registration and use of the APP.
  • the legal user set may be a set of whitelisted users such as formal salespersons, life insurance back-office personnel, policy users, and fund users.
  • the valid feature data is used to characterize the basic information of the user, such as location information, device information, registered mobile phone number, registration time, and so on.
  • step 330 the valid feature data of the legitimate user set is clustered to determine the number of clusters.
  • the number of clusters refers to the number of multiple classes composed of similar objects, that is, the number of categories classified.
  • the k-means clustering algorithm can be used to cluster the valid feature data of the legitimate user set. By traversing the number of clusters, it is attempted to aggregate into 2 types, 3 types, and 4 types. When different numbers of clusters are calculated, respectively The sum of the variation within the total cluster of legitimate user sets. Among them, the calculation of the total cluster variation and the formula are as follows:
  • the number of clusters when the above-mentioned S value is the smallest is taken as the most appropriate number of clusters.
  • step 350 the effective feature data of the set of users to be identified and the set of valid users are clustered according to the number of clusters to obtain a plurality of clusters.
  • the k-means clustering algorithm may be used to cluster the effective feature data of the set of users to be identified and the set of legitimate users according to the most appropriate number of clusters determined in step 330. For example, when the number of clustering clusters is four, the total cluster variation and minimum are the smallest, so all users can be divided into four clustering clusters based on the effective feature data of the user set to be identified and the valid feature data of the legitimate user set. It should be noted that a cluster generated by a cluster is a set of data objects. These objects are similar to each other in the same cluster and different from objects in other clusters.
  • an abnormal cluster is selected from the multiple cluster clusters, and the abnormal clusters are cluster clusters in which the number of legal users in the multiple cluster clusters is less than a preset threshold, and the users to be identified are confirmed. Centrally, users clustered into the abnormal cluster are illegal users.
  • an appropriate number of clustering clusters can be determined, and the to-be-identified user set and the legal user set can be determined according to the number of the clustering clusters.
  • the effective feature data is clustered. For clusters with a small number of legitimate users, they can be considered as abnormal clusters. Further, for users in the cluster of users to be identified that are classified into abnormal clusters, they can be considered as illegal users.
  • the technical solution provided by the present invention adopts a clustering method to identify falsely registered users in batches and improve the recognition efficiency. Since behavioral feature matching is no longer used to identify falsely registered users, the recognition accuracy is improved.
  • the method for identifying an illegal user based on big data analysis further includes the following steps:
  • step 301 business data of a set of users to be identified and a set of legal users is acquired;
  • the service data includes registered mobile phone numbers, registration time, and SDK (device information used for registration) data.
  • Sdk data includes: package name of the connected app, version number of the connected app, operating system version number, latitude and longitude information, SIM (customer identification module) card serial number, IMSI (International Mobile Subscriber Identity), IMEI (International Mobile Equipment) Identification code), device Mac address, etc.
  • the service data may also include data derived from the above data, such as the GPS data latitude and longitude information, the mobile phone number operator number segment (the first three digits of the mobile phone number), the fourth to seventh digits of the mobile phone number, and whether the carrier belongs to Consistent, the network type is wifi but the name of the connected wifi is empty, the first half of the ip data, the battery level, etc. As required, you can filter out abnormal data and missing data, and mark legitimate user accounts as 1, otherwise mark as 0.
  • step 302 effective feature extraction is performed on the service data of the to-be-identified user set and the legitimate user set to obtain valid feature data of the to-be-identified user set and the legitimate user set.
  • the service data contains many types of data. As described above, the service data includes registered mobile phone numbers, registration time, and SDK (device information used for registration) data. However, not all business data can be used to characterize whether a user is legitimate. Therefore, data types that can be used to characterize whether a user is legal need to be extracted from the business data as valid feature data.
  • the service data includes multiple characteristic variables
  • step 302 specifically includes: removing the characteristic variables with the same variable value from the multiple characteristic variables of the set of users to be identified and the set of legal users, and the remaining The characteristic variables having different variable values constitute the effective characteristic data.
  • the characteristic variable is also the data type.
  • the package name of the connected app can be regarded as a characteristic variable
  • the version number of the connected app can be regarded as another characteristic variable
  • the operating system version number can also be regarded as a characteristic variable.
  • the server can count the number of categories of each feature variable, mark out the feature variables with a category number greater than 1, and then filter out the feature variables with the same value. For example, if the version number of the access app is the same for all users, the characteristic variable “version version of the access app” can be removed because the version number of the access app is the same for all users and cannot be used for characterization. Whether the user is legal. In one embodiment, the remaining feature variables may be considered valid feature data.
  • step 302 may further include the following steps:
  • step 501 the first occurrence frequency of each variable value of the feature variable in the legal user set and the second occurrence frequency in the user set to be identified are counted;
  • the first occurrence frequency refers to the frequency of occurrence of a certain variable value in the set of legitimate users divided by the total number of data pieces.
  • the second frequency of occurrence refers to the frequency of occurrence of a variable value in the set of users to be identified divided by the total number of data pieces.
  • step 502 if the difference between the first occurrence frequency and the second occurrence frequency is greater than a preset range, the feature variable belongs to valid feature data.
  • the feature variable of the registration time may be considered to be valid feature data.
  • the difference between the first occurrence frequency and the second occurrence frequency is greater than a preset range, and it can be considered that there is a large difference in the occurrence frequency between the set of legitimate users and the set of users to be identified.
  • the foregoing step 302 may include:
  • step 601 according to the frequency of occurrence of each variable value of the characteristic variable in the set of legitimate users, estimate the predicted frequency of the variable value in the set of users to be identified;
  • the frequency of occurrence of each variable value of the statistical characteristic variable in the set of legitimate users is predicted by the following formula (that is, the predicted frequency) of the value of the variable in the set of users to be identified:
  • x represents the frequency of a certain variable value in the legal user set
  • N represents the total number of data (the sum of the number of data of the user set to be identified and the legal user set)
  • n indicates the number of data of the legal user set
  • y indicates The predicted frequency of the value of this variable in the set of users to be identified.
  • the frequency of occurrence of the variable value in the legal user set is the same as the frequency of occurrence in the user set to be identified. Based on the frequency of occurrence of the variable value in the set of legitimate users, it can be predicted that the value of the variable in the set The frequency of occurrence in the user set.
  • step 602 the real frequency of the variable value in the user set to be identified is counted. If the real frequency is greater than the predicted frequency, and the real frequency is greater than the first preset value, and the predicted frequency is less than the second preset value, then The characteristic variable belongs to valid characteristic data; the first preset value is greater than the second preset value.
  • the real frequency refers to the number of occurrences of a certain variable value that is statistically collected in the set of users to be identified. Can be expressed as z.
  • the first preset value may be 100
  • the second preset value may be 10.
  • the values 10 and 100 can be adjusted based on experience.
  • the conditions for defining valid features are: z / y> 1 and z> 100 and x ⁇ 10.
  • x indicates the frequency of occurrence of a variable value in the set of legitimate users
  • y indicates the predicted frequency of the variable value in the set of users to be identified
  • z indicates the true frequency of the variable value in the set of users to be identified.
  • z / y> 1 means that the real frequency is greater than the predicted frequency.
  • the predicted frequency of the variable value in the set of users to be identified can be predicted. If the ratio of the true frequency of the variable value to the predicted frequency in the set of users to be identified is greater than 1, When the true frequency is greater than 100 and the frequency of the variable value in the legal user set is less than 10, the feature variable to which the variable value belongs can be considered to be a valid feature. This screens out valid feature data in the business data.
  • the foregoing step 370 specifically includes:
  • an abnormal cluster is selected from the multiple cluster clusters, and the abnormal clusters are cluster clusters in which the number of legal users in the multiple cluster clusters is less than a preset threshold.
  • step 372 it is verified whether the registration time of the user in the abnormal cluster and the remaining storage space of the device show a negative correlation.
  • step 373 if the negative correlation is presented, an illegal user in the user group to be identified is determined according to the users in the abnormal cluster.
  • the remaining storage space of the device is evenly distributed throughout the day, and it will not gradually decrease with time from morning to night. If the remaining storage space is gradually decreasing, it can only indicate that a few devices are falsely registered in batches, because as the number of registered accounts increases, some files are generated and stored in the device, which causes the remaining storage space of the device to gradually decrease.
  • the negative correlation relationship refers to the relationship between the registration time and the remaining storage space of the device showing a decreasing and close to decreasing relationship. That is, as the registration time increases, the remaining storage space of the device continues to decrease. As shown in FIG. 8, the horizontal axis indicates the account registration time within one day, and the vertical axis indicates the remaining storage space of the device. If black production uses several devices to register false users in batches, as shown in FIG. 8, as the registration time increases, the remaining storage space of the device gradually decreases.
  • the present invention can further determine whether the registration time of the users in the abnormal clusters and the remaining storage space of the device show a negative correlation, so as to determine whether the users in the abnormal clusters belong to the false users registered in batches, and can further determine False registered users in the set of users to be identified.
  • step 373 specifically includes:
  • step 901 users with the same total device storage space and device startup time are classified into one group according to the total device storage space and device startup time of the users in the abnormal cluster;
  • the total device storage space is the total storage space of the devices used by users in the abnormal cluster.
  • the device startup time is the time when the device used by the user in the abnormal cluster is turned on.
  • users in the abnormal cluster are classified according to the total storage space of the device and the startup time of the device. Group users with the same total device storage space and device startup time. As shown in Figure 10, it can be divided into 4 categories, which means that the criminals may use 4 devices for batch registration of user accounts.
  • step 902 a correlation coefficient between the registration time of each type of users and the remaining storage space of the device is calculated. If the correlation coefficient satisfies a specified range, the users included in the current category belong to illegal users, and the illegal set of users to be identified is obtained user.
  • the Pearson or Spearman correlation coefficients of the registration time of each type of user and the remaining storage space of the device are calculated respectively. -1, -0.9] closed interval. If they belong to the specified range, the users are classified as illegal users. Approximately 60,000 to 80,000 new registered accounts for iOS devices are produced on a daily production environment. Using the method provided by the present invention, approximately 20,000 to 30,000 fake accounts can be identified.
  • the following is a device embodiment of the present disclosure, which can be used to execute the method for identifying an illegal user based on big data analysis performed by the server 120 of the present disclosure.
  • the server 120 of the present disclosure For details not disclosed in the device embodiments of the present disclosure, please refer to the embodiments of the method for identifying illegal users based on big data analysis of the present disclosure.
  • Fig. 11 is a block diagram illustrating an illegal user identification device based on big data analysis according to an exemplary embodiment.
  • the illegal user identification device based on big data analysis may be used in the server 120 of the implementation environment shown in Fig. 1 to execute All or part of the steps of the method for identifying an illegal user based on big data analysis shown in any of FIGS. 3 to 7 and 9.
  • the device includes, but is not limited to, a data acquisition module 1110, a cluster number determination module 1130, a user clustering module 1150, and an abnormal cluster screening module 1170.
  • a data obtaining module 1110 configured to obtain valid feature data of a set of users to be identified and a set of valid users
  • the cluster number determining module 1130 is configured to cluster valid feature data of the legal user set to determine the number of clusters
  • the user clustering module 1150 is configured to cluster the effective feature data of the set of users to be identified and the set of valid users according to the number of clusters to obtain a plurality of clusters;
  • the abnormal cluster screening module 1170 is configured to screen abnormal clusters from the multiple cluster clusters, where the abnormal clusters are cluster clusters in which the number of legal users in the multiple cluster clusters is less than a preset threshold, and confirm the To be identified, the users clustered into the abnormal cluster are illegal users.
  • the data acquisition module 1110 may be, for example, a physical structure wired or wireless network interface 250 in FIG. 2.
  • the cluster number determination module 1130, the user clustering module 1150, and the abnormal cluster screening module 1170 may also be functional modules for performing corresponding steps in the above-mentioned illegal user identification method based on big data analysis. It can be understood that these modules can be implemented by hardware, software, or a combination of both. When implemented in hardware, these modules may be implemented as one or more hardware modules, such as one or more application specific integrated circuits. When implemented in software, these modules may be implemented as one or more computer programs executing on one or more processors, such as programs stored in the memory 232 executed by the central processor 222 of FIG. 2.
  • the device further includes:
  • a business data obtaining module configured to obtain business data of a set of to-be-identified users and a set of legal users before the valid feature data of the set of to-be-identified users and a set of legal users;
  • the effective feature extraction module is configured to perform effective feature extraction on the service data of the to-be-identified user set and the legitimate user set to obtain the effective feature data of the to-be-identified user set and the legitimate user set.
  • the service data includes multiple feature variables
  • the effective feature extraction module includes:
  • the feature variable removing unit is configured to remove feature variables having the same variable value from a plurality of feature variables of the user set to be identified and the set of legitimate users, and the valid feature data is constituted by feature variables having different remaining variable values.
  • the service data includes multiple feature variables
  • the effective feature extraction module further includes:
  • a frequency statistics unit configured to count a first occurrence frequency of each variable value of the characteristic variable in a set of legitimate users and a second occurrence frequency in a set of users to be identified;
  • the frequency judging unit is configured to, if a difference between the first appearance frequency and the second appearance frequency is greater than a preset range, the feature variable belongs to valid feature data.
  • the service data includes multiple feature variables
  • the effective feature extraction module includes:
  • a frequency prediction unit configured to estimate the predicted frequency of the variable value in the set of users to be identified according to the frequency of occurrence of each variable value of the characteristic variable in the set of legitimate users;
  • a frequency judging unit configured to count the true frequency of the variable value in the set of users to be identified, if the true frequency is greater than the predicted frequency, and the true frequency is greater than a first preset value, and the predicted frequency is less than a second preset value, Then the characteristic variable belongs to valid characteristic data; wherein the first preset value is greater than the second preset value.
  • the abnormal cluster screening module 1170 includes:
  • a cluster screening unit configured to screen abnormal clusters from the multiple cluster clusters, where the abnormal clusters are cluster clusters in which the number of legal users in the multiple cluster clusters is less than a preset threshold;
  • a relationship verification unit configured to verify whether the registration time of the users in the abnormal cluster and the remaining storage space of the device show a negative correlation
  • the user judgment unit is configured to, if the negative correlation is presented, determine an illegal user in the user group to be identified according to the users in the abnormal cluster.
  • the user judgment unit includes:
  • a user classifier configured to classify users with the same total device storage space and device startup time according to the total device storage space and device startup time of the users in the abnormal cluster
  • the relevance judger is configured to calculate a correlation coefficient between the registration time of each type of user and the remaining storage space of the device. If the correlation coefficient satisfies a specified range, the users included in the current category are illegal users, and the set of users to be identified is obtained Illegal users.
  • the present disclosure also provides an electronic device that can be used in the server 120 of the implementation environment shown in FIG. 1 to execute any of the illegal data based on big data analysis shown in FIGS. All or part of the steps of the user identification method.
  • the electronic device includes:
  • a processor ; a memory configured to store processor-executable instructions;
  • the processor is configured to execute the illegal user identification method based on big data analysis described in the above exemplary embodiment.
  • a storage medium is also provided, and the storage medium is a computer-readable storage medium, and may be, for example, temporary and non-transitory computer-readable storage media including instructions.
  • the storage medium stores a computer program that can be executed by the central processing unit 222 of the server 200 to complete the above-mentioned illegal user identification method based on big data analysis.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一种基于大数据分析的非法用户识别方法及装置、电子设备、计算机可读存储介质,涉及大数据技术领域,所述方法包括:获取待识别用户集以及合法用户集的有效特征数据(S310);将所述合法用户集的有效特征数据进行聚类,确定聚类簇数(S330);按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇(S350);从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户(S370)。采用聚类的方式可以批量识别虚假注册的用户,提高识别效率,由于不再采用行为特征匹配的方式进行虚假注册用户的识别,提高了识别准确性。

Description

基于大数据分析的非法用户识别方法及装置、电子设备 技术领域
本申请要求2018年9月25日递交、发明名称为“基于大数据分析的非法用户识别方法及装置、电子设备”的中国专利申请201811120248.6的优先权,在此通过引用将其全部内容合并于此。
本公开涉及大数据技术领域,特别涉及一种基于大数据分析的非法用户识别方法及装置、电子设备、计算机可读存储介质。
背景技术
目前,智能手机等智能终端的普及为各种类型的APP(Application,应用程序)提供了载体。在各种类型的APP上都充斥着大量的无活动量的僵尸用户,或者大量的专门为刷量而存在的及其活跃的用户,这两类都是虚假注册的用户,虚假注册用户的存在一方面干扰了网络上正常秩序,另一方面导致了浪费资源。
针对现状中存在的虚假注册用户,传统做法是人为判断虚假用户并进行删除,导致工作效率较低。现有做法是分析总结虚假注册用户的行为特征,形成特征库,进而对于未知用户,可以通过行为特征匹配的方式,确定是否属于虚假用户。但是发明人意识到特征库数据量有限,更新缓慢,因此虚假注册用户可能绕开特征库记载的特征,由此无法准确识别出虚假注册的用户。
技术问题
为了解决相关技术中存在的无法准确识别出虚假注册用户的问题,本公开提供了一种基于大数据分析的非法用户识别方法。
技术解决方案
一方面,本发明提供了一种基于大数据分析的非法用户识别方法,包括:
获取待识别用户集以及合法用户集的有效特征数据;
将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
另一方面,本发明还提供了一种基于大数据分析的非法用户识别装置,所述装置包括:
数据获取模块,配置为获取待识别用户集以及合法用户集的有效特征数据;
簇数确定模块,配置为将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
用户聚类模块,配置为按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
异常簇筛选模块,配置为从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
此外,本发明还提供了一种电子设备,所述电子设备包括:
处理器;
配置为存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述基于大数据分析的非法用户识别方法。
此外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成上述基于大数据分析的非法用户识别方法。
有益效果
本公开的实施例提供的技术方案可以包括以下有益效果:
本发明提供的技术方案,通过对合法用户集的有效特征数据进行聚类,进而可以确定合适的聚类簇数,按照该聚类簇数将待识别用户集和合法用户集的有效特征数据进行聚类,对于合法用户数量较少的聚类类可以认为是异常簇,进而对于分类至异常簇中的待识别用户集中用户,可以认为是非法用户。本发明提供的技术方案,采用聚类的方式可以批量识别虚假注册的用户,提高识别效率,由于不再采用行为特征匹配的方式进行虚假注册用户的识别,提高了识别准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本公开所涉及的实施环境的示意图;
图2是根据一示例性实施例示出的一种服务器的框图;
图3是根据一示例性实施例示出的一种基于大数据分析的非法用户识别方法的流程图;
图4是在图3对应实施例的基础上另一示例性实施例示出的一种基于大数据分析的非法用户识别方法的流程图;
图5是图4对应实施例中步骤302的细节流程图;
图6是图4对应实施例中步骤302的细节流程图;
图7是图3对应实施例中步骤370的细节流程图;
图8是注册时间和设备剩余存储空间呈现负相关关系的示意图;
图9是图7对应实施例中步骤373的细节流程图;
图10是4个设备进行批量虚假注册的注册时间和设备剩余存储空间关系示意图;
图11是根据一示例性实施例示出的一种基于大数据分析的非法用户识别装置的框图。
本发明的实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本公开所涉及的实施环境的示意图。该实施环境包括:多个移动终端110和服务器120。
多个移动终端110和服务器120之间采用有线或无线网络连接。每个移动终端110通过运行软件APP向服务器120请求进行用户账号注册。服务器120可以采用本发明提供的方案进行非法用户(包括虚假注册的用户)的识别。
应当说明的是,本发明提供的基于大数据分析的非法用户识别方法,不限于在服务器110中部署相应的处理逻辑,其也可以是部署于其它机器中的处理逻辑。例如,在具备计算能力的终端设备中部署本发明非法用户识别方法的处理逻辑等。
参见图2,图2是本发明实施例提供的一种服务器结构示意图。该服务器200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器200中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。下述图3-图7、图9所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的服务器结构。
本领域普通技术人员可以理解实现下述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
图3是根据一示例性实施例示出的一种基于大数据分析的非法用户识别方法的流程图。该基于大数据分析的非法用户识别方法的适用范围和执行主体可以是服务器,该服务器可以是图1所示实施环境的服务器120。如图3所示,该方法可以包括以下步骤。
在步骤310中,获取待识别用户集以及合法用户集的有效特征数据。
其中,非法用户是指非正常使用APP(如金管家APP)的用户,与合法用户相对。非法用户可以是黑色产业批量虚假注册产生的用户。待识别用户集包括多个用户但其合法性未知,即尚不确定是否属于虚假注册的用户。合法用户集是指确定属于正常注册和使用APP的多个用户。合法用户集可以是正式业务员、寿险内勤人员、保单用户、基金用户等白名单用户集合。有效特征数据用于表征用户的基本信息,例如位置信息、设备信息、注册手机号码、注册时间等。
在步骤330中,将所述合法用户集的有效特征数据进行聚类,确定聚类簇数。
其中,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。聚类簇数是指由类似对象组成的多个类的数量,也就是分类的类别数。具体的,可以采用k-means聚类算法对合法用户集的有效特征数据进行聚类,通过遍历聚类簇数即尝试聚成2类、3类、4类等,分别计算出不同簇数时,合法用户集的总簇内变差和。其中,计算总簇内变差和公式如下所示:
Figure 971105dest_path_image001
其中,S表示总簇内变差和;m表示簇个数;p表示合法用户集中样本实例;c_i是簇i的中心;d(x,y)表示两点x和y的欧几里得距离。
取上述S值最小时的簇数,作为最合适的聚类簇数。总簇内变差和用于表征所有簇内的相似度之和,当总簇内变差和最小时,则表示此时所有簇内的相似度之和达到最高,也就是相似的用户被聚类到同一个簇中,不相似的用户在另一个簇中,此时达到的聚类簇数可以认为是最合适的聚类簇数。
在步骤350中,按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇。
具体的,可以采用k-means聚类算法将待识别用户集和合法用户集的有效特征数据按照步骤330确定的最合适的聚类簇数进行聚类。例如,聚类簇数是4类时,总簇内变差和最小,由此根据待识别用户集的有效特征数据和合法用户集的有效特征数据,可以将所有用户分成4个聚类簇。需要说明的是,由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
在步骤370中,从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
需要解释的是,由于簇内用户具有较高相似性,不同簇间用户之间具有较高差异性。所有没有合法用户或者合法用户数非常少(小于某一预设阈值)的簇即为异常簇。也就是说,没有合法用户为这类簇的合法性做担保,认为是异常簇。进而,对于被分类至异常簇中的待识别用户集中用户,可以认为是非法用户。
本发明上述示例性实施例提供的技术方案,通过对合法用户集的有效特征数据进行聚类,进而可以确定合适的聚类簇数,按照该聚类簇数将待识别用户集和合法用户集的有效特征数据进行聚类,对于合法用户数量较少的聚类类可以认为是异常簇,进而对于分类至异常簇中的待识别用户集中用户,可以认为是非法用户。本发明提供的技术方案,采用聚类的方式可以批量识别虚假注册的用户,提高识别效率,由于不再采用行为特征匹配的方式进行虚假注册用户的识别,提高了识别准确性。
在一种示例性实施例中,如图4所示,在上述步骤310之前,本发明提供的基于大数据分析的非法用户识别方法还包括以下步骤:
在步骤301中,获取待识别用户集和合法用户集的业务数据;
其中,业务数据包括注册手机号码、注册时间、sdk(注册使用的设备信息)数据等。Sdk数据包括:接入App的包名、接入App的版本号、操作系统版本号、经纬度信息、SIM(客户识别模块)卡串号、IMSI(国际移动用户识别码)、IMEI(国际移动设备识别码)、设备Mac地址等。进一步,业务数据还可以包括从上述数据中衍生出的数据,例如GPS数据经纬度信息、手机号运营商号段(手机号码前三位),手机号码第4到第7位数字,运营商归属地是否一致,网络类型为wifi但连接的wifi名称是否为空, ip前半部分数据,电池电量位等。根据需要,可以过滤掉异常数据和缺失数据,并将合法用户账号标记为1,否则标记为0。
在步骤302中,对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据。
需要说明的是,业务数据包含的数据类别较多,如上所述业务数据包括注册手机号码、注册时间、sdk(注册使用的设备信息)数据等。但是并非所有业务数据都能用于表征用户是否合法,由此需要从业务数据中提取出可以用于表征用户是否合法的数据类别,作为有效特征数据。
在一种实施例中,所述业务数据包括多个特征变量,步骤302具体包括:从所述待识别用户集和合法用户集的多个特征变量中,去除变量值相同的特征变量,由剩余变量值不同的特征变量构成所述有效特征数据。
其中,特征变量也就是数据类别,接入App的包名可以看成一个特征变量,接入App的版本号可以看成另一特征变量,操作系统版本号也可以看成一个特征变量。服务器可以统计出每个特征变量的类别个数,将类别个数大于1的特征变量标记出来,进而过滤掉变量值相同的特征变量。例如,如果所有用户的接入app的版本号都是相同的,则“接入app版本号”这个特征变量可以去除,因为接入app版本号对于所有用户都是相同的,并不能用于表征用户是否合法。在一种实施例中,剩余的特征变量可以认为是有效特征数据。
在一种实施例中,如图5所示,上述步骤302还可以包括以下步骤:
在步骤501中,统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率;
需要说明的是,如果某个特征变量可以用于表征用户是否合法,那么该特征变量的某个变量值在合法用户集中的出现频率和在待识别用户集中的出现频率应当存在较大差异。其中,第一出现频率是指某一变量值在合法用户集中的出现频数除以其总的数据条数。第二出现频率是指某一变量值在待识别用户集中的出现频数除以其总的数据条数。
在步骤502中,若所述第一出现频率和第二出现频率的差异大于预设范围,则所述特征变量属于有效特征数据。
举例来说,如果注册时间“aaaa”在合法用户集中的第一出现频率与在待识别用户集中的第二出现频率差异较大,则可以认为注册时间这个特征变量属于有效特征数据。其中,第一出现频率与第二出现频率的差值大于预设范围,可以认为出现频率在合法用户集中和待识别用户集中的差异较大,该特征变量属于有效特征变量。
在另一实施例中,如图6所示,上述步骤302可以包括:
在步骤601中,根据所述特征变量的每一变量值在合法用户集中的出现频数,估计所述变量值在待识别用户集中的预测频数;
具体的,统计特征变量的每一变量值在合法用户集中的出现频数,利用以下公式预测该变量值在待识别用户集中的出现频数(即预测频数):
Figure 694210dest_path_image002
其中,x表示某一变量值在合法用户集中出现的频数,N表示总体数据条数(待识别用户集和合法用户集的数据条数总和),n表示合法用户集的数据条数,y表示该变量值在待识别用户集中的预测频数。
也就是说,先假设该变量值在合法用户集中的出现频率和在待识别用户集中的出现频率相同,由此根据该变量值在合法用户集中的出现频数,可以预测出该变量值在待识别用户集中的出现频数。
在步骤602中,统计所述变量值在所述待识别用户集中的真实频数,若所述真实频数大于预测频数,且真实频数大于第一预设值,预测频数小于第二预设值,则所述特征变量属于有效特征数据;第一预设值大于第二预设值。
其中,真实频数是指在待识别用户集中统计得到的某变量值的出现次数。可以用z表示。在一个实施例中,第一预设值可以是100,第二预设值可以是10。其中,数值10、100可以根据经验进行调整。定义有效特征的条件是:z/y>1且z>100且x<10。其中,如上所述x表示某一变量值在合法用户集中的出现频数,y表示该变量值在待识别用户集中的预测频数,z表示该变量值在待识别用户集中的真实频数。z/y>1表示真实频数大于预测频数。
也就是说,根据某变量值在合法用户集中的占比,可以预测出该变量值在待识别用户集中的预测频数,如果待识别用户集中该变量值真实的频数与预测频数的比值大于1,且真实频数大于100且该变量值在合法用户集中的频数小于10时,可以认为该变量值所属的特征变量属于有效特征。由此筛选出业务数据中的有效特征数据。
在一种示例性实施例中,如图7所示,上述步骤370具体包括:
在步骤371中,从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇。
在步骤372中,验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系。
在步骤373中,若呈现所述负相关关系,则根据所述异常簇中用户,确定所述待识别用户集中的非法用户。
需要说明的是,正常情况下,一天内设备剩余存储空间是平均分布的,并不会随着时间从早到晚的变化,剩余存储空间逐渐减少。如果存在剩余存储空间逐渐减少的情况,只能说明几个设备在批量虚假注册,因为随着注册账号数量的增加,生成某些文件存储在设备中,所以导致设备剩余存储空间在逐渐减小。
其中,负相关关系是指注册时间和设备剩余存储空间呈现递减和接近递减的关系。即随着注册时间的增长,设备剩余存储空间不断减少。如图8所示,横轴标识一天内账号注册时间,纵轴标识设备剩余存储空间。如果黑产使用几个设备批量注册虚假用户,则可以得到图8所示随着注册时间的增长,设备剩余存储空间逐渐减少的斜线段。由此,本发明在筛选出异常簇之后,通过进一步验证异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系,可以确定异常簇中用户是否属于批量注册的虚假用户,进而可以确定待识别用户集中的虚假注册用户。
在一种实施例中,如图9所示,上述步骤373具体包括:
在步骤901中,根据所述异常簇中用户的设备总存储空间和设备启动时间,将所述设备总存储空间和设备启动时间均相同的用户归为一类;
其中,设备总存储空间是异常簇中用户所使用的设备的总存储空间。设备启动时间是异常簇中用户所使用的设备的开启时间。对于注册时间和设备剩余存储空间呈负相关关系的异常簇,按照设备总存储空间和设备启动时间对异常簇内用户进行分类。将设备总存储空间和设备启动时间均相同的用户归为一类。如图10所示,可以分成4类,代表不法分子可能采用了4个设备进行用户账号的批量注册。
在步骤902中,分别计算每类用户的注册时间和设备剩余存储空间的相关系数,若所述相关系数满足指定范围,则当前类别包含的用户属于非法用户,得到所述待识别用户集中的非法用户。
参照图10所示的斜线段,在经过步骤901的分类后,分别计算每类用户的注册时间和设备剩余存储空间的pearson(皮尔逊)或spearman(斯皮尔曼)相关系数,是否是属于[-1,-0.9]闭区间。如果属于该指定范围,则该类用户属于非法用户。每日生产环境上ios版本设备新注册账号量大约6-8万个,采用本发明提供的方法,可以识别出虚假账号大约2-3万个。
下述为本公开装置实施例,可以用于执行本公开上述服务器120执行的基于大数据分析的非法用户识别方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开基于大数据分析的非法用户识别方法实施例。
图11是根据一示例性实施例示出的一种基于大数据分析的非法用户识别装置的框图,该基于大数据分析的非法用户识别装置可以用于图1所示实施环境的服务器120中,执行图3-图7、图9任一所示的基于大数据分析的非法用户识别方法的全部或者部分步骤。如图11所示,该装置包括但不限于:数据获取模块1110、簇数确定模块1130、用户聚类模块1150以及异常簇筛选模块1170。
数据获取模块1110,配置为获取待识别用户集以及合法用户集的有效特征数据;
簇数确定模块1130,配置为将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
用户聚类模块1150,配置为按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
异常簇筛选模块1170,配置为从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
上述装置中各个模块的功能和作用的实现过程具体详见上述基于大数据分析的非法用户识别方法中对应步骤的实现过程,在此不再赘述。
数据获取模块1110比如可以是图2中的某一个物理结构有线或无线网络接口250。
簇数确定模块1130、用户聚类模块1150以及异常簇筛选模块1170也可以是功能模块,用于执行上述基于大数据分析的非法用户识别方法中的对应步骤。可以理解,这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时,这些模块可以实施为一个或多个硬件模块,例如一个或多个专用集成电路。当以软件方式实现时,这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序,例如图2的中央处理器222所执行的存储在存储器232中的程序。
可选的,所述装置还包括:
业务数据获取模块,配置为在所述获取待识别用户集以及合法用户集的有效特征数据之前,获取待识别用户集和合法用户集的业务数据;
有效特征提取模块,配置为对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据。
可选的,所述业务数据包括多个特征变量,所述有效特征提取模块包括:
特征变量去除单元,配置为从所述待识别用户集和合法用户集的多个特征变量中,去除变量值相同的特征变量,由剩余变量值不同的特征变量构成所述有效特征数据。
可选的,所述业务数据包括多个特征变量,所述有效特征提取模块还包括:
频率统计单元,配置为统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率;
频率判断单元,配置为若所述第一出现频率和第二出现频率的差异大于预设范围,则所述特征变量属于有效特征数据。
可选的,所述业务数据包括多个特征变量,所述有效特征提取模块包括:
频率预测单元,配置为根据所述特征变量的每一变量值在合法用户集中的出现频数,估计所述变量值在待识别用户集中的预测频数;
频数判断单元,配置为统计所述变量值在所述待识别用户集中的真实频数,若所述真实频数大于预测频数,且真实频数大于第一预设值,预测频数小于第二预设值,则所述特征变量属于有效特征数据;其中,所述第一预设值大于第二预设值。
可选的,所述异常簇筛选模块1170包括:
簇筛选单元,配置为从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇;
关系验证单元,配置为验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系;
用户判断单元,配置为若呈现所述负相关关系,则根据所述异常簇中用户,确定所述待识别用户集中的非法用户。
可选的,所述用户判断单元包括:
用户分类器,配置为根据所述异常簇中用户的设备总存储空间和设备启动时间,将所述设备总存储空间和设备启动时间均相同的用户归为一类;
相关性判断器,配置为分别计算每类用户的注册时间和设备剩余存储空间的相关系数,若所述相关系数满足指定范围,则当前类别包含的用户属于非法用户,得到所述待识别用户集中的非法用户。
可选的,本公开还提供一种电子设备,该电子设备可以用于图1所示实施环境的服务器120中,执行图3-图7、图9任一所示的基于大数据分析的非法用户识别方法的全部或者部分步骤。所述电子设备包括:
处理器;配置为存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述示例性实施例所述的基于大数据分析的非法用户识别方法。
该实施例中电子设备的处理器执行操作的具体方式已经在有关该基于大数据分析的非法用户识别方法的实施例中执行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质存储有计算机程序,该计算机程序可由服务器200的中央处理器222执行以完成上述基于大数据分析的非法用户识别方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (28)

  1. 一种基于大数据分析的非法用户识别方法,其中,包括:
    获取待识别用户集以及合法用户集的有效特征数据;
    将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
    按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
    从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
  2. 根据权利要求1所述的方法,其中,在所述获取待识别用户集以及合法用户集的有效特征数据之前,所述方法还包括:
    获取待识别用户集和合法用户集的业务数据;
    对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据。
  3. 根据权利要求2所述的方法,其中,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,包括:
    从所述待识别用户集和合法用户集的多个特征变量中,去除变量值相同的特征变量,由剩余变量值不同的特征变量构成所述有效特征数据。
  4. 根据权利要求2所述的方法,其中,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:
    统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率;
    若所述第一出现频率和第二出现频率的差异大于预设范围,则所述特征变量属于有效特征数据。
  5. 根据权利要求2所述的方法,其中,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:
    根据所述特征变量的每一变量值在合法用户集中的出现频数,估计所述变量值在待识别用户集中的预测频数;
    统计所述变量值在所述待识别用户集中的真实频数,若所述真实频数大于预测频数,且真实频数大于第一预设值,预测频数小于第二预设值,则所述特征变量属于有效特征数据;其中,所述第一预设值大于第二预设值。
  6. 根据权利要求1-5任意一项所述的方法,其中,从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户,包括:
    从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇;
    验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系;
    若呈现所述负相关关系,则根据所述异常簇中用户,确定所述待识别用户集中的非法用户。
  7. 根据权利要求6所述的方法,其中,所述根据所述异常簇中用户,确定所述待识别用户集中的非法用户,包括:
    根据所述异常簇中用户的设备总存储空间和设备启动时间,将所述设备总存储空间和设备启动时间均相同的用户归为一类;
    分别计算每类用户的注册时间和设备剩余存储空间的相关系数,若所述相关系数满足指定范围,则当前类别包含的用户属于非法用户,得到所述待识别用户集中的非法用户。
  8. 一种基于大数据分析的非法用户识别装置,其中,包括:
    数据获取模块,配置为获取待识别用户集以及合法用户集的有效特征数据;
    簇数确定模块,配置为将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
    用户聚类模块,配置为按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
    异常簇筛选模块,配置为从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
  9. 根据权利要求8所述的装置,其中,所述装置还包括:
    业务数据获取模块,配置为在所述获取待识别用户集以及合法用户集的有效特征数据之前,获取待识别用户集和合法用户集的业务数据;
    有效特征提取模块,配置为对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据。
  10. 根据权利要求9所述的装置,其中,所述业务数据包括多个特征变量,所述有效特征提取模块包括:
    特征变量去除单元,配置为从所述待识别用户集和合法用户集的多个特征变量中,去除变量值相同的特征变量,由剩余变量值不同的特征变量构成所述有效特征数据。
  11. 根据权利要求9所述的装置,其中,所述业务数据包括多个特征变量,所述有效特征提取模块还包括:
    频率统计单元,配置为统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率;
    频率判断单元,配置为若所述第一出现频率和第二出现频率的差异大于预设范围,则所述特征变量属于有效特征数据。
  12. 根据权利要求9所述的装置,其中,所述业务数据包括多个特征变量,所述有效特征提取模块包括:
    频率预测单元,配置为根据所述特征变量的每一变量值在合法用户集中的出现频数,估计所述变量值在待识别用户集中的预测频数;
    频数判断单元,配置为统计所述变量值在所述待识别用户集中的真实频数,若所述真实频数大于预测频数,且真实频数大于第一预设值,预测频数小于第二预设值,则所述特征变量属于有效特征数据;其中,所述第一预设值大于第二预设值。
  13. 根据权利要求8-12任意一项所述的装置,其中,所述异常簇筛选模块包括:
    簇筛选单元,配置为从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇;
    关系验证单元,配置为验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系;
    用户判断单元,配置为若呈现所述负相关关系,则根据所述异常簇中用户,确定所述待识别用户集中的非法用户。
  14. 根据权利要求13所述的装置,其中,所述用户判断单元包括:
    用户分类器,配置为根据所述异常簇中用户的设备总存储空间和设备启动时间,将所述设备总存储空间和设备启动时间均相同的用户归为一类;
    相关性判断器,配置为分别计算每类用户的注册时间和设备剩余存储空间的相关系数,若所述相关系数满足指定范围,则当前类别包含的用户属于非法用户,得到所述待识别用户集中的非法用户。
  15. 一种电子设备,其中,所述电子设备包括:
    处理器;
    配置为存储处理器可执行指令的存储器;
    其中,所述处理器被配置为执行以下步骤:
    获取待识别用户集以及合法用户集的有效特征数据;
    将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
    按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
    从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
  16. 根据权利要求15所述的电子设备,其中,在所述获取待识别用户集以及合法用户集的有效特征数据之前,所述电子设备还包括:
    获取待识别用户集和合法用户集的业务数据;
    对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据。
  17. 根据权利要求16所述的电子设备,其中,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,包括:
    从所述待识别用户集和合法用户集的多个特征变量中,去除变量值相同的特征变量,由剩余变量值不同的特征变量构成所述有效特征数据。
  18. 根据权利要求16所述的电子设备,其中,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:
    统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率;
    若所述第一出现频率和第二出现频率的差异大于预设范围,则所述特征变量属于有效特征数据。
  19. 根据权利要求16所述的电子设备,其中,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:
    根据所述特征变量的每一变量值在合法用户集中的出现频数,估计所述变量值在待识别用户集中的预测频数;
    统计所述变量值在所述待识别用户集中的真实频数,若所述真实频数大于预测频数,且真实频数大于第一预设值,预测频数小于第二预设值,则所述特征变量属于有效特征数据;其中,所述第一预设值大于第二预设值。
  20. 根据权利要求15-19任意一项所述的电子设备,其中,从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户,包括:
    从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇;
    验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系;
    若呈现所述负相关关系,则根据所述异常簇中用户,确定所述待识别用户集中的非法用户。
  21. 根据权利要求20所述的电子设备,其中,所述根据所述异常簇中用户,确定所述待识别用户集中的非法用户,包括:
    根据所述异常簇中用户的设备总存储空间和设备启动时间,将所述设备总存储空间和设备启动时间均相同的用户归为一类;
    分别计算每类用户的注册时间和设备剩余存储空间的相关系数,若所述相关系数满足指定范围,则当前类别包含的用户属于非法用户,得到所述待识别用户集中的非法用户。
  22. 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序可由处理器执行完成以下步骤:
    获取待识别用户集以及合法用户集的有效特征数据;
    将所述合法用户集的有效特征数据进行聚类,确定聚类簇数;
    按照所述聚类簇数对所述待识别用户集和合法用户集的有效特征数据进行聚类,得到多个聚类簇;
    从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户。
  23. 根据权利要求22所述的计算机可读存储介质,其中,在所述获取待识别用户集以及合法用户集的有效特征数据之前,所述电子设备还包括:
    获取待识别用户集和合法用户集的业务数据;
    对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据。
  24. 根据权利要求23所述的计算机可读存储介质,其中,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,包括:
    从所述待识别用户集和合法用户集的多个特征变量中,去除变量值相同的特征变量,由剩余变量值不同的特征变量构成所述有效特征数据。
  25. 根据权利要求23所述的计算机可读存储介质,其中,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:
    统计所述特征变量的每一变量值在合法用户集中的第一出现频率以及在待识别用户集中的第二出现频率;
    若所述第一出现频率和第二出现频率的差异大于预设范围,则所述特征变量属于有效特征数据。
  26. 根据权利要求23所述的计算机可读存储介质,其中,所述业务数据包括多个特征变量,所述对所述待识别用户集和合法用户集的业务数据进行有效特征提取,获得所述待识别用户集和合法用户集的有效特征数据,还包括:
    根据所述特征变量的每一变量值在合法用户集中的出现频数,估计所述变量值在待识别用户集中的预测频数;
    统计所述变量值在所述待识别用户集中的真实频数,若所述真实频数大于预测频数,且真实频数大于第一预设值,预测频数小于第二预设值,则所述特征变量属于有效特征数据;其中,所述第一预设值大于第二预设值。
  27. 根据权利要求22-26任意一项所述的计算机可读存储介质,其中,从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇,确认所述待识别用户集中,聚类至所述异常簇的用户为非法用户,包括:
    从所述多个聚类簇中筛选出异常簇,所述异常簇为所述多个聚类簇中合法用户数量小于预设阈值的聚类簇;
    验证所述异常簇中用户的注册时间和设备剩余存储空间是否呈现负相关关系;
    若呈现所述负相关关系,则根据所述异常簇中用户,确定所述待识别用户集中的非法用户。
  28. 根据权利要求27所述的计算机可读存储介质,其中,所述根据所述异常簇中用户,确定所述待识别用户集中的非法用户,包括:
    根据所述异常簇中用户的设备总存储空间和设备启动时间,将所述设备总存储空间和设备启动时间均相同的用户归为一类;
    分别计算每类用户的注册时间和设备剩余存储空间的相关系数,若所述相关系数满足指定范围,则当前类别包含的用户属于非法用户,得到所述待识别用户集中的非法用户。
PCT/CN2018/125248 2018-09-25 2018-12-29 基于大数据分析的非法用户识别方法及装置、电子设备 WO2020062690A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811120248.6 2018-09-25
CN201811120248.6A CN109284380B (zh) 2018-09-25 2018-09-25 基于大数据分析的非法用户识别方法及装置、电子设备

Publications (1)

Publication Number Publication Date
WO2020062690A1 true WO2020062690A1 (zh) 2020-04-02

Family

ID=65182106

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/125248 WO2020062690A1 (zh) 2018-09-25 2018-12-29 基于大数据分析的非法用户识别方法及装置、电子设备

Country Status (2)

Country Link
CN (1) CN109284380B (zh)
WO (1) WO2020062690A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626754A (zh) * 2020-05-28 2020-09-04 中国联合网络通信集团有限公司 养卡用户识别方法及装置
CN112529051A (zh) * 2020-11-25 2021-03-19 微梦创科网络科技(中国)有限公司 一种刷量用户识别方法及装置
CN113779568A (zh) * 2021-09-18 2021-12-10 中国平安人寿保险股份有限公司 异常行为用户识别方法、装置、设备及存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613049B (zh) * 2019-02-26 2022-07-12 北京嘀嘀无限科技发展有限公司 一种道路状态监测方法以及装置
CN109831454B (zh) * 2019-03-13 2022-02-25 北京深演智能科技股份有限公司 虚假流量的识别方法和装置
CN110348526B (zh) * 2019-07-15 2021-05-07 武汉绿色网络信息服务有限责任公司 一种基于半监督聚类算法的设备类型识别方法和装置
CN111046388B (zh) * 2019-12-16 2022-09-13 北京智游网安科技有限公司 识别应用中第三方sdk的方法、智能终端及储存介质
CN113190646B (zh) * 2020-01-14 2024-05-07 北京达佳互联信息技术有限公司 一种用户名样本的标注方法、装置、电子设备及存储介质
CN111260220B (zh) * 2020-01-16 2021-05-14 北京房江湖科技有限公司 群控设备识别方法、装置、电子设备和存储介质
CN113472627B (zh) * 2020-03-31 2023-04-25 阿里巴巴集团控股有限公司 电子邮件处理方法、装置及设备
CN111506615A (zh) * 2020-04-22 2020-08-07 深圳前海微众银行股份有限公司 一种无效用户的占有程度确定方法及装置
CN111814064A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于Neo4j的异常用户处理方法、装置、计算机设备和介质
CN113114770B (zh) * 2021-04-14 2022-08-09 每日互动股份有限公司 用户识别方法、电子设备和计算机可读存储介质
CN113222736A (zh) * 2021-05-24 2021-08-06 北京城市网邻信息技术有限公司 一种异常用户的检测方法、装置、电子设备及存储介质
CN115408586B (zh) * 2022-08-25 2024-01-23 广东博成网络科技有限公司 一种智能渠道运营数据分析方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294508A (zh) * 2015-06-10 2017-01-04 深圳市腾讯计算机系统有限公司 一种刷量工具检测方法及装置
CN106469276A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 数据样本的类型识别方法及装置
CN108229963A (zh) * 2016-12-12 2018-06-29 阿里巴巴集团控股有限公司 用户操作行为的风险识别方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150374B (zh) * 2013-03-11 2017-02-08 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
US9595006B2 (en) * 2013-06-04 2017-03-14 International Business Machines Corporation Detecting electricity theft via meter tampering using statistical methods
CN104917739B (zh) * 2014-03-14 2018-11-09 腾讯科技(北京)有限公司 虚假账号的识别方法及装置
US9367872B1 (en) * 2014-12-22 2016-06-14 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures
CN105630885B (zh) * 2015-12-18 2019-05-28 国网福建省电力有限公司泉州供电公司 一种用电异常检测方法及系统
CN107465648B (zh) * 2016-06-06 2020-09-04 腾讯科技(深圳)有限公司 异常设备的识别方法及装置
JP7057913B2 (ja) * 2016-06-09 2022-04-21 株式会社島津製作所 ビッグデータ解析方法及び該解析方法を利用した質量分析システム
CN106254153B (zh) * 2016-09-19 2019-12-10 腾讯科技(深圳)有限公司 一种网络异常监控方法和装置
CN108540431A (zh) * 2017-03-03 2018-09-14 阿里巴巴集团控股有限公司 账号类型的识别方法、装置和系统
CN107517394A (zh) * 2017-09-01 2017-12-26 北京小米移动软件有限公司 识别非法用户的方法、装置及计算机可读存储介质
CN108269012A (zh) * 2018-01-12 2018-07-10 中国平安人寿保险股份有限公司 风险评分模型的构建方法、装置、存储介质及终端
CN108197958B (zh) * 2018-01-23 2021-12-14 北京小米移动软件有限公司 统计线下黄牛的方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294508A (zh) * 2015-06-10 2017-01-04 深圳市腾讯计算机系统有限公司 一种刷量工具检测方法及装置
CN106469276A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 数据样本的类型识别方法及装置
CN108229963A (zh) * 2016-12-12 2018-06-29 阿里巴巴集团控股有限公司 用户操作行为的风险识别方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626754A (zh) * 2020-05-28 2020-09-04 中国联合网络通信集团有限公司 养卡用户识别方法及装置
CN111626754B (zh) * 2020-05-28 2023-07-07 中国联合网络通信集团有限公司 养卡用户识别方法及装置
CN112529051A (zh) * 2020-11-25 2021-03-19 微梦创科网络科技(中国)有限公司 一种刷量用户识别方法及装置
CN112529051B (zh) * 2020-11-25 2024-04-09 微梦创科网络科技(中国)有限公司 一种刷量用户识别方法及装置
CN113779568A (zh) * 2021-09-18 2021-12-10 中国平安人寿保险股份有限公司 异常行为用户识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109284380A (zh) 2019-01-29
CN109284380B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
WO2020062690A1 (zh) 基于大数据分析的非法用户识别方法及装置、电子设备
CN109933984B (zh) 一种最佳聚类结果筛选方法、装置和电子设备
CN111159243B (zh) 用户类型识别方法、装置、设备及存储介质
WO2015062345A1 (zh) 识别指定类别ip地址的方法及设备、防御方法及系统
WO2021139313A1 (zh) 基于元学习的数据筛选模型构建方法、数据筛选方法、装置、计算机设备及存储介质
CN106960153B (zh) 病毒的类型识别方法及装置
CN110995745B (zh) 一种物联网非法机卡分离识别的方法及装置
WO2023024670A1 (zh) 设备聚类方法、装置、计算机设备及存储介质
WO2019071966A1 (zh) 基于爬虫数据的用户行为分析方法、应用服务器及可读存储介质
WO2021109724A1 (zh) 日志异常检测方法及装置
CN111064719B (zh) 文件异常下载行为的检测方法及装置
CN114785567B (zh) 一种流量识别方法、装置、设备及介质
CN111353138A (zh) 一种异常用户识别的方法、装置、电子设备及存储介质
US11334908B2 (en) Advertisement detection method, advertisement detection apparatus, and storage medium
CN109905524A (zh) 电话号码识别方法、装置、计算机设备及计算机存储介质
WO2017186037A1 (zh) 移动设备标识的设置方法及装置
CN109447177B (zh) 账号聚类方法、装置和服务器
JP7133085B2 (ja) データベース更新方法及び装置、電子機器、並びにコンピュータ記憶媒体
US9391936B2 (en) System and method for spam filtering using insignificant shingles
CN111768345A (zh) 身份证背面图像的校正方法、装置、设备及存储介质
CN112749003A (zh) 系统优化的方法、设备及计算机可读存储介质
CN114492623A (zh) 一种针对Android恶意软件分类的方法及装置
CN112214639B (zh) 视频筛选方法、视频筛选装置及终端设备
CN112417007A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN112734433A (zh) 异常用户的检测方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18935096

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18935096

Country of ref document: EP

Kind code of ref document: A1