WO2019120241A1 - 基于日志的用户行为数据处理方法、介质、设备及装置 - Google Patents

基于日志的用户行为数据处理方法、介质、设备及装置 Download PDF

Info

Publication number
WO2019120241A1
WO2019120241A1 PCT/CN2018/122274 CN2018122274W WO2019120241A1 WO 2019120241 A1 WO2019120241 A1 WO 2019120241A1 CN 2018122274 W CN2018122274 W CN 2018122274W WO 2019120241 A1 WO2019120241 A1 WO 2019120241A1
Authority
WO
WIPO (PCT)
Prior art keywords
access
user
cluster
behavior
clustering
Prior art date
Application number
PCT/CN2018/122274
Other languages
English (en)
French (fr)
Inventor
刘鑫琪
丛磊
Original Assignee
北京数安鑫云信息技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京数安鑫云信息技术有限公司 filed Critical 北京数安鑫云信息技术有限公司
Publication of WO2019120241A1 publication Critical patent/WO2019120241A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Definitions

  • the embodiments of the present invention relate to the field of Internet technologies, and in particular, to a log-based user behavior data processing method, medium, device, and device.
  • the web server system log mainly includes: client IP address, client user name, access time, request uri, request status, file size, page link source, client browser and other information.
  • web server system logs are used to classify user behavior, but the existing classification methods mainly have the following difficulties:
  • the feature extraction of the web server is mainly statistical features, such as counting, average, standard deviation, etc., that is, the access behavior feature but does not include the access target, so the clustered access target is inconsistent, resulting in Misjudgment.
  • the machine learning clustering method is used for user behavior clustering, the number of data participating in clustering will increase greatly; at the same time, the feature data generated by feature engineering has a high dimension.
  • the space complexity is O(n*m), where n is the number of data, m is the number of features, and the increase of n and m makes the cluster consume a lot of system memory, and the calculation time Increase, while for example KMeans is not suitable for generating too many clusters, as well as processing high dimensional data.
  • KMeans clustering method includes: (1) directly using the general clustering method for high-dimensional data to calculate memory usage and take a long time. (2) When a large number of access behaviors coexist, KMeans clustering method needs to predict a large cluster number, such as less cluster number estimation, otherwise it will lead to inconsistent behavior within the cluster; if the KMeans method has a large number of clusters The effect is poor.
  • a method for processing user behavior data based on a network access log includes:
  • Step 1 Collect log information.
  • Step 2 Determine multiple access features, and extract, according to the log information, access behavior values of different users for different access features.
  • Step 3 dividing the access feature into N packets, determining the number of clusters of each packet; N is an integer greater than or equal to 1;
  • step 4 clustering results are obtained by clustering each group according to the corresponding cluster number of the grouping.
  • the method further includes:
  • Step 5 Determine, according to the clustering result, a user corresponding to each cluster
  • Step 6 When it is determined that the number of users in the cluster is less than a preset threshold, determine that the user in the cluster is an abnormal user; or determine that the average access behavior of at least one preset access feature of all users in the cluster does not match This preset accesses the corresponding threshold range of features.
  • the access feature is an access topic
  • the access behavior value is a user access probability value of the access topic.
  • the access information of the network resource identifier and the number of accesses to the network resource identifier, the access target identifier is generated according to the access information of the user accessing each network resource identifier, and the user identifier, the access target identifier, and the access times constitute document information, and the setting is performed.
  • the number of topics in the document topic generation model is M, and M is an integer greater than 1.
  • the document information is input into the document topic generation model, and the access probability values of each user for each access topic are generated.
  • the access feature is user access behavior statistics, and the access behavior value is a value of the user access behavior statistics.
  • the method further includes: performing step 2, step 3, and step 4 for different types of access features to obtain different clustering results, and combining different clustering results to classify the users.
  • the method of dividing an access feature into N packets is one of the following methods:
  • the access features are randomly divided into N packets.
  • the computer readable storage medium provided by the embodiment of the present invention stores a computer program, and when the program is executed by the processor, the steps of the foregoing method are implemented.
  • a computer device provided by an embodiment of the present invention includes a memory, a processor, and a computer program stored on the memory and operable on the processor, and the processor implements the steps of the foregoing method when the program is executed.
  • An embodiment of the present invention provides a user behavior data processing apparatus based on a network access log, including:
  • An acquisition module configured to collect log information
  • An extraction module configured to determine a plurality of access features, and extract, according to the log information, access behavior values of different users for different access features
  • a grouping module configured to divide the access feature into N groups, determine the number of clusters of each group; N is an integer greater than or equal to 1;
  • the clustering module is configured to cluster each cluster according to the corresponding cluster number of the group to obtain a clustering result.
  • the above device also has the following features:
  • a determining module configured to determine a user corresponding to each cluster according to the clustering result
  • a determining module configured to determine that the user in the cluster is an abnormal user when the number of users in the cluster is less than a preset threshold; or, to determine access to at least one preset access feature of all users in the cluster The behavior mean does not match the threshold range corresponding to this preset access feature.
  • the above device also has the following features:
  • the access feature is an access topic, and the access behavior value is a user access probability value of the access topic;
  • the extracting module is configured to extract, according to the log information, the access behavior value of the different users according to the log information by using the following method: extracting the access probability values of different users for different access topics according to the log information, specifically: determining the user identifier of each user, Extracting access information of each user accessing each network resource identifier and access times of the network resource identifier according to the log information, and generating an access target identifier according to the access information of the user accessing each network resource identifier, and the user identifier and the access target identifier And the number of accesses constitutes document information, and the number of topics in the document topic generation model is M, M is an integer greater than 1, and the document information is input into a document topic generation model to generate an access probability value of each user for each access topic;
  • the access feature is user access behavior statistics
  • the access behavior value is a value of the user access behavior statistics
  • 1 is a flow chart of a log-based user behavior data processing method in an embodiment.
  • FIG. 2 is a structural diagram of a log-based user behavior data processing apparatus in the embodiment.
  • a log-based user behavior data processing method in an embodiment of the present invention includes:
  • Step 101 Collect log information.
  • Step 102 Determine multiple access features, and extract, according to the log information, access behavior values of different users for different access features.
  • Step 103 Divide the access feature into N groups, and determine the number of clusters of each group; N is an integer greater than or equal to 1;
  • Step 104 Perform clustering on each group according to the corresponding cluster number of the group to obtain a clustering result.
  • This method also includes:
  • Step 105 Determine a user corresponding to each cluster according to the clustering result.
  • Step 106 Determine that the user in the cluster is an abnormal user when the number of users in the cluster is less than a preset threshold; or determine that the average access behavior of at least one preset access feature of all users in the cluster does not meet the preset access feature.
  • the corresponding threshold range determines that the user in the cluster is an abnormal user.
  • high-dimensional data is constructed into low-dimensional features composed of multiple similar or related features by grouping and clustering, and then clustering is performed to solve the problem of poor high-dimensional clustering effect, and each sub-cluster process cluster is made. The number is reduced, the calculation time is saved, and the memory required for calculation is saved.
  • the access features in the method include different types of access features, which are described in detail below through three implementations.
  • the access feature in this implementation one is to access the topic.
  • the access behavior value is the user's access probability value for the access topic.
  • this topic is a different type of topic for this public website resource.
  • the specific types of divisions can be divided according to the resources provided by the website.
  • the types of public website resources include news, finance, sports, real estate, movies, TV dramas, music, automobiles, and technology.
  • Too many topics will increase the overall calculation time.
  • the access features belonging to the same class are divided into the same group. For example, movies, TV dramas, and music can be classified into entertainment.
  • the manner of grouping above can save computation time, and the effect of the reduction of the number of topics on the result can be reduced by subsequent follow-up according to the probability of each user on different topics as a vector.
  • Access groups belonging to the same class are divided into the same group when grouping. For example, movies, TV dramas, and music can be classified into entertainment. It is also possible to randomly divide all topics into N groups.
  • the users targeted when the log is collected in step 101 include: user 1, user 2, user 3, and user 4.
  • the number of users is 4.
  • the access topics identified in step 102 include news topics, economic topics, real estate topics, movie themes, TV drama themes, music themes, automotive themes, and electronic themes.
  • the number of access topics is 8.
  • the determination of the specific meaning of the access topic here is the result of the implementation of the experience of the implementer. The algorithm does not affect the result without confirming the specific meaning of each topic.
  • the step of extracting, according to the log information, the access behavior value of each user for different access features according to the log information refers to: extracting the access probability values of different users for different access topics according to the log information.
  • the specific implementation method is as follows:
  • Determining a user identifier of each user extracting access information of each user accessing each network resource identifier and access times of the network resource identifier according to the log information, and generating an access target identifier according to the access information of the user accessing each network resource identifier, and the user is
  • the identification, access target identifier, and number of visits constitute document information.
  • Set the number of topics in the document theme generation model to M.
  • the document information is input into the document theme generation model, and the access probability values of each user for each access topic are generated.
  • the user identifier may include a client IP and/or a client username of the user.
  • the above access information may be a hash value of a network resource identifier or a path to access a network resource identifier.
  • the document topic generation model can be a latent Dirichlet Allocation (LDA) model.
  • step 103 the access feature is divided into N packets, for example, into three groups. It is determined that the number of clusters of the three groups is two.
  • step 104 clustering results are obtained by clustering each group according to the corresponding cluster number of the grouping. Specifically, the clustering result is obtained by using the KMeans method when the number of clusters of the financial grouping, the entertainment grouping, and the technology grouping are both set. The clustering results are shown in Table 2.
  • Table 2 represent the cluster identifier to which the user belongs in the corresponding group.
  • step 105 the user corresponding to each cluster is determined according to the clustering result:
  • one of the two clusters includes User 1, User 3, and User 4, and the other cluster includes User 2.
  • one of the two clusters includes User 1, User 3, and User 4, and the other cluster includes User 2.
  • one of the two clusters includes User 1, User 3, and User 4, and the other cluster includes User 2.
  • the use of the theme mode in the implementation mode makes the access behavior and the target in the last cluster basically similar, and improves the clustering accuracy.
  • the access feature is user access behavior statistics.
  • the access behavior value is the value of the user access behavior statistics.
  • User access behavior statistics include: number of requests, average request time, average request size, message percentage, and so on.
  • the users for collecting logs in step 101 include: user 1, user 2, user 3, and user 4, and the number of users is 4.
  • the user access behavior statistics determined in step 102 includes seven, specifically: 2xx ratio, 3xx ratio, 4xx ratio, 5xx ratio, GET request ratio, POST request ratio, and HEAD request ratio. as shown in Table 3:
  • the access feature is divided into N packets, where N has a value of 2, and it is determined that the number of clusters of the two packets is 2.
  • the access characteristics belonging to the same class are divided into the same group. Specifically, the 2xx ratio, the 3xx ratio, the 4xx ratio, and the 5xx ratio are merged into the first group, and the GET request ratio, the POST request ratio, and the HEAD request are combined. The ratio is merged into the second group.
  • the clustering result is obtained by performing clustering on each group according to the corresponding cluster number of the grouping in step 104, and clustering is performed by using the KMeans method to set clustering when the number of clusters of the first group and the second group are both set.
  • Table 4 The results are shown in Table 4:
  • each group is clustered according to the corresponding cluster number of the group to obtain a clustering result, and the result of determining the user corresponding to each cluster according to the clustering result is:
  • one of the two clusters includes User 1, User 3, and User 4, and the other cluster includes User 2.
  • one of the two clusters includes User 1 and User 3, and the other cluster includes User 2 and User 4.
  • Steps 102, 103, and 104 are performed for different types of access features to obtain different clustering results, and the different clustering results are combined to classify the users, as shown in the foregoing implementation manners one and two, which will be obtained.
  • Table 2 and Table 4 were combined to obtain Table 5.
  • the first category includes User 1 and User 3.
  • the second category includes User 2.
  • the third category includes User 4.
  • the sub-clustering process is finally merged into a clustering result, and finally a clustering result of a large number of clusters is formed, thereby solving the problem of coexistence of a large number of access behaviors.
  • Also provided herein is a computer readable storage medium having stored thereon a computer program that, when executed by a processor, implements the steps of the above method.
  • Also provided herein is a computer device comprising a memory, a processor, and a computer program stored on the memory and operative on the processor, the processor performing the steps of the method.
  • the embodiment of the present invention further provides a user behavior data processing apparatus based on a network access log, including:
  • An extraction module configured to determine a plurality of access features, and extract, according to the log information, access behavior values of different users for different access features
  • a grouping module configured to divide the access feature into N groups, determine the number of clusters of each group; N is an integer greater than or equal to 1;
  • the clustering module is configured to cluster each cluster according to the corresponding cluster number of the group to obtain a clustering result.
  • This device also includes:
  • a determining module is configured to determine a user corresponding to each cluster according to the clustering result.
  • the determining module is configured to determine that the user in the cluster is an abnormal user when the number of users in the cluster is less than a preset threshold; or the average access behavior of the at least one preset access feature used to determine all users in the cluster does not meet the pre-determination Set the threshold range corresponding to the access feature.
  • the access feature is the access topic
  • the access behavior value is the user's access probability value for the access topic.
  • the extraction module is configured to extract, according to the log information, the access behavior value of different users according to the log information: extracting the access probability values of different users for different access topics according to the log information, specifically: determining the user identifier of each user, according to the log
  • the information extracts the access information of each user to access each network resource identifier and the number of accesses to the network resource identifier, generates an access target identifier according to the access information of the user accessing each network resource identifier, and constitutes the user identifier, the access target identifier, and the number of accesses.
  • Document information, setting the number of topics in the document topic generation model to M, M is an integer greater than 1, inputting document information into a document topic generation model, and generating an access probability value of each user for each access topic;
  • the access feature is user access behavior statistics, and the access behavior value is the value of the user access behavior statistics.
  • This device also includes a merge module. After the extraction module and the grouping module are processed for different categories of access features, different clustering results will be merged, and the combined results will be processed by the determining module.
  • the embodiments of the present invention include the following advantages:
  • computer storage medium includes volatile and nonvolatile, implemented in any method or technology for storing information, such as computer readable instructions, data structures, program modules or other data. Sex, removable and non-removable media.
  • Computer storage media includes, but is not limited to, RAM, ROM, EEPROM, flash memory or other memory technology, CD-ROM, digital versatile disc (DVD) or other optical disc storage, magnetic cartridge, magnetic tape, magnetic disk storage or other magnetic storage device, or may Any other medium used to store the desired information and that can be accessed by the computer.
  • communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal, such as a carrier wave or other transport mechanism, and can include any information delivery media. .
  • This paper can solve the problem of poor high-dimensional clustering by constructing high-dimensional data into low-dimensional features composed of multiple similar or related features, and can solve high-dimensional data by constructing multiple similar or related
  • clustering is performed, the number of clusters in each sub-clustering process is reduced, the calculation time is saved, and the memory required for calculation is saved.
  • the theme mode can also be used, so that the access behavior and the target in the last cluster are basically similar, and the aggregation is improved. Class accuracy; it can also be merged into a clustering result by the sub-clustering process, and finally a clustering result of a large number of clusters is formed, thereby solving the problem of coexistence of a large number of access behaviors.

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于日志的用户行为数据处理方法、介质、设备及装置,此方法包括:步骤1,采集日志信息(S101);步骤2,确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值(S102);步骤3,将访问特征划分为N个分组,确定每个分组的簇数(S103);N为大于或等于1的整数;步骤4,对每个分组根据分组相应的簇数进行聚类获得聚类结果(S104)。所述方法、介质、设备及装置通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后,进行聚类,解决高维聚类效果差问题;并且通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类,每个子聚类过程簇数减少,节省计算时间,节省计算所需内存。

Description

基于日志的用户行为数据处理方法、介质、设备及装置
本申请要求在2017年12月22日提交中国专利局、申请号为201711408930.0,发明名称为“基于日志的用户行为数据处理方法、介质、设备及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明实施例涉及互联网技术领域,尤其涉及基于日志的用户行为数据处理方法、介质、设备及装置。
背景技术
随着互联网业务的发展,网络上每天都因用户访问而产生海量的网络服务器(web server)系统日志。网络服务器(web server)系统日志主要包含:客户端IP地址、客户端用户名称、访问时间、请求uri、请求状态、文件大小、页面链接来源、客户端浏览器等信息。现有技术中使用网络服务器系统日志对用户行为进行分类,但现有的分类方法主要存在以下难点:
在无法获知统一资源标识符(Uniform Resource Identifier,URI)和其内容的对应关系的情况下,以及无法获知内容和内容类别的对应关系的情况下,难以使用此类日志进行用户兴趣分类。
二,对web server的特征提取主要为统计型特征,如计数、平均值、标准差等,即为访问行为特征但不包含访问目标,所以会导致聚类成的簇的访问目标不一致,会导致误判。
三,如果使用机器学习聚类方法进行用户行为聚类,参加聚类的数据条数会大幅增加;同时特征工程产生的特征数据维度很高。以最常见的聚类方法KMeans为例,空间复杂度为O(n*m),其中n为数据条数,m为特征个数,n和m的增加使聚类大量消耗系统内存,计算时间增加,同时例如KMeans不适用于产生过多的簇,以及处理高维数据。这就为聚类方法的计算物理消耗,及聚类结果准确性(例如簇内行为不相似)带来挑战。具体包括:(一)对高维数据直接使用一般聚类方法计算内存使用多,耗时长。(二)遇到大量访问行为方式共存时,KMeans聚类方法需要预判一个大的簇数,如簇数预估较少,否则会导 致簇内行为方式不一致;如KMeans方法簇数很大则效果较差。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
为了解决上述技术问题,本发明实施例提供的基于网络访问日志的用户行为数据处理方法,其中,包括:
步骤1,采集日志信息;
步骤2,确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
步骤3,将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
步骤4,对每个分组根据分组相应的簇数进行聚类获得聚类结果。
上述方法还具有以下特点:
所述方法还包括:
步骤5:根据所述聚类结果确定每个簇对应的用户;
步骤6:判断所述簇中的用户数量小于预设阈值时,确定所述簇中的用户为异常用户;或者,判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
上述方法还具有以下特点:
所述访问特征为访问主题,所述访问行为值为用户对访问主题的访问概率值。
上述方法还具有以下特点:
所述根据日志信息提取不同用户针对不同访问特征的访问行为值为根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将所述文档信息输 入文档主题生成模型,生成各用户对各访问主题的访问概率值。
上述方法还具有以下特点:
所述访问特征为用户访问行为统计信息,所述访问行为值为所述用户访问行为统计信息的值。
上述方法还具有以下特点:
所述方法还包括:针对不同类别的访问特征执行步骤2、步骤3和步骤4后获得不同的聚类结果,将不同的聚类结果组合后对用户进行分类。
上述方法还具有以下特点:
所述将访问特征划分为N个分组的方法是以下方法中的一种:
将属于同一类的访问特征划分为同一组;
将访问特征随机划分为N个分组。
本发明实施例提供的计算机可读存储介质上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
本发明实施例提供基于网络访问日志的用户行为数据处理装置,包括:
采集模块,用于采集日志信息;
提取模块,用于确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
分组模块,用于将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
聚类模块,用于对每个分组根据分组相应的簇数进行聚类获得聚类结果。
上述装置还具有以下特点:
还包括:
确定模块,用于根据所述聚类结果确定每个簇对应的用户;
判断模块,用于判断所述簇中的用户数量小于预设阈值时,确定所述簇中的用户为异常用户;或者,用于判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
上述装置还具有以下特点:
所述访问特征为访问主题,所述访问行为值为用户对访问主题的访问概率值;
所述提取模块,用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值:根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将所述文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值;
或者,所述访问特征为用户访问行为统计信息,所述访问行为值为所述用户访问行为统计信息的值。
本发明实施例包括以下优点:
一,通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后,进行聚类,解决高维聚类效果差问题。
二,通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类,每个子聚类过程簇数减少,节省计算时间,节省计算所需内存。
三,使用主题方式,使最后簇内访问行为及目标基本相似,提高聚类准确性。
四,通过子聚类过程最后合并为一个聚类结果的方式,最后形成大量簇数的聚类结果,从而解决大量访问行为方式共存的问题。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,本发明实施例的示意性实施例及其说明用于解释本发明实施例,并不构成对本发明实施例的不当限定。在附图中:
图1是实施例中基于日志的用户行为数据处理方法的流程图。
图2是实施例中基于日志的用户行为数据处理装置的结构图。
具体实施方式
现结合附图和具体实施方式对本发明实施例进一步说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
如图1所示,本发明实施例中基于日志的用户行为数据处理方法,包括:
步骤101,采集日志信息;
步骤102,确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
步骤103,将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
步骤104,对每个分组根据分组相应的簇数进行聚类获得聚类结果。
此方法还包括:
步骤105:根据聚类结果确定每个簇对应的用户。
步骤106:判断簇中的用户数量小于预设阈值时,确定簇中的用户为异常用户;或者,判断判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围,确定簇中的用户为异常用户。
本方法中通过分组和聚类的方式,将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类,解决高维聚类效果差问题,并且使每个子聚类过程簇数减少,节省计算时间,节省计算所需内存。
本方法中的访问特征包括不同类型的访问特征,下面通过三种实现方式进行详细说明。
实现方式一
在此实现方式一中访问特征为访问主题。访问行为值为用户对访问主题的 访问概率值。
例如:用户访问的目标为公众网站的资源时,此主题为此公众网站资源的不同类型的主题。具体类型的划分可根据网站提供的资源进行划分。例如公众网站资源的类型包括新闻类、财经类、体育类、房产类、电影类、电视剧类、音乐类、汽车类、科技类。
主题数量过多会使整个计算时间增加。本方法中进行特征分组时将属于同一类的访问特征划分为同一组。例如可以将电影类、电视剧类、音乐类划分为娱乐类。上述分组的方式可以节省计算时间,主题数的减少对结果的影响可以通过后续按照每个用户在不同主题的概率作为向量以减少影响。
进行分组时将属于同一类的访问主题划分为同一组。例如可以将电影类、电视剧类、音乐类划分为娱乐类。也可以随机的将所有主题划分为N个分组。
举例如下:
步骤101中采集日志时针对的用户包括:用户1、用户2、用户3和用户4。用户的数量为4。
步骤102中确定出的访问主题包括新闻类主题、经济类主题、房产类主题、电影类主题、电视剧类主题、音乐类主题、汽车类主题、电子类主题。访问主题数为8。此处访问主题具体含义的确定为实施人经验确定结果,本算法在不确认每个主题具体含义情况下不影响结果。
步骤102中根据日志信息提取各用户针对不同访问特征的访问行为值具体是指:根据日志信息提取不同用户对不同访问主题的访问概率值。具体实现方法如下:
确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识、访问次数构成文档信息。设置文档主题生成模型中的主题数为M。将文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值。
其中,上述用户标识可以包括用户的客户端IP和/或客户端用户名。上述访问信息可以是网络资源标识符或访问网络资源标识符的路径的hash值。文档主题生成模型可以是潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型。
举例如下:
执行完步骤102后,获得表1:
表1
Figure PCTCN2018122274-appb-000001
步骤103中将访问特征划分为N个分组,例如划分为3组。确定3个分组的簇数均为2。
划分分组时可以采用将属于同一类的访问特征划分为同一组的方法,具体的:将新闻类、经济类和房产类合并为财经分组,将电影类、电视剧类和音乐类合并为娱乐分组,将汽车类和电子类合并为科技分组。
步骤104中对每个分组根据分组相应的簇数进行聚类获得聚类结果,具体的,在设置财经分组、娱乐分组、科技分组的簇数均为2的情况下使用KMeans方法进行聚类获得聚类结果,如表2所示。
表2
  财经分组 娱乐分组 科技分组
用户1 1 1 1
用户2 2 2 2
用户3 1 1 1
用户4 1 1 1
表2中的值表示用户在相应分组中所属的簇标识。
步骤105中根据聚类结果确定每个簇对应的用户为:
财经分组中,两个簇中的一个簇包括用户1、用户3和用户4,另一簇包括 用户2。
娱乐分组中,两个簇中的一个簇包括用户1、用户3和用户4,另一簇包括用户2。
科技分组中,两个簇中的一个簇包括用户1、用户3和用户4,另一簇包括用户2。
实现方式中的使用主题方式,使最后簇内访问行为及目标基本相似,提高聚类准确性。
实现方式二
在此实现方式二中访问特征为用户访问行为统计信息。访问行为值为用户访问行为统计信息的值。
用户访问行为统计信息包括:请求数,平均请求时间,平均请求大小、消息占比等。
举例如下:
步骤101中采集日志时针对的用户包括:用户1、用户2、用户3和用户4,用户的数量为4。
步骤102中确定出的用户访问行为统计信息包括7个,具体为:2xx占比、3xx占比、4xx占比、5xx占比、GET请求占比、POST请求占比、HEAD请求占比。如表3所示:
表3
Figure PCTCN2018122274-appb-000002
步骤103中将访问特征划分为N个分组,此处N的值为2,确定2个分组的簇数均为2。将属于同一类的访问特征划分为同一组,具体的,将2xx占比、3xx占比、4xx占比、5xx占比合并为第一分组,将GET请求占比、POST请求占比、 HEAD请求占比合并为第二分组。
执行步骤104中的对每个分组根据分组相应的簇数进行聚类获得聚类结果,在设置第一分组、第二分组的簇数均为2的情况下使用KMeans方法进行聚类获得聚类结果,如表4所示:
表4
  第一分组 第二分组
用户1 1 1
用户2 2 2
用户3 1 1
用户4 1 2
步骤105中对每个分组根据分组相应的簇数进行聚类获得聚类结果,根据聚类结果确定每个簇对应的用户的结果为:
第一分组中,两个簇中的一个簇包括用户1、用户3和用户4,另一簇包括用户2。
第二分组中,两个簇中的一个簇包括用户1和用户3,另一簇包括用户2和用户4。
实现方式三
针对不同类别的访问特征执行步骤102、步骤103和步骤104,获得不同的聚类结果,将不同的聚类结果组合后对用户进行分类,如上述实现方式一、二中所示,将获得的表2和表4组合,获得表5。
表5
  财经分组 娱乐分组 科技分组 第一分组 第二分组
用户1 1 1 1 1 1
用户2 2 2 2 2 2
用户3 1 1 1 1 1
用户4 1 1 1 1 2
根据表5对用户进行分类后:
第一个分类包括用户1和用户3。
第二个分类包括用户2。
第三个分类包括用户4。
实现方式三中通过子聚类过程最后合并为一个聚类结果的方式,最后形成大量簇数的聚类结果,从而解决大量访问行为方式共存的问题。
本文还提供了一种计算机可读存储介质,存储介质上存储有计算机程序,此程序被处理器执行时实现上述方法的步骤。
本文还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行此程序时实现上述方法的步骤。
如图2所示,本发明实施例中还提供了一种基于网络访问日志的用户行为数据处理装置,包括:
采集模块,用于采集日志信息;
提取模块,用于确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
分组模块,用于将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
聚类模块,用于对每个分组根据分组相应的簇数进行聚类获得聚类结果。
此装置还包括:
确定模块,用于根据聚类结果确定每个簇对应的用户。
判断模块,用于判断簇中的用户数量小于预设阈值时,确定簇中的用户为异常用户;或者,用于判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
在实现方式一中
访问特征为访问主题,访问行为值为用户对访问主题的访问概率值。
提取模块,用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值:根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次 数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值;
在实现方式二中
访问特征为用户访问行为统计信息,访问行为值为用户访问行为统计信息的值。
在实现方式三中
此装置还包括合并模块。在提取模块和分组模块针对不同类别的访问特征处理完成后,将将不同的聚类结果合并,将合并后的结果交由确定模块处理。
综上,本发明实施例包括以下优点:
一,通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后,进行聚类,解决高维聚类效果差问题。
二,通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类,每个子聚类过程簇数减少,节省计算时间,节省计算所需内存。
三,使用主题方式,使最后簇内访问行为及目标基本相似,提高聚类准确性。
四,通过子聚类过程最后合并为一个聚类结果的方式,最后形成大量簇数的聚类结果,从而解决大量访问行为方式共存的问题。
本领域的普通技术人员应当理解,可以对本发明实施例的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在权利要求范围当中。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何 方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
工业实用性
本文可以通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后,进行聚类,解决高维聚类效果差问题;并且可以通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类,每个子聚类过程簇数减少,节省计算时间,节省计算所需内存;还可以使用主题方式,使最后簇内访问行为及目标基本相似,提高聚类准确性;还可以通过子聚类过程最后合并为一个聚类结果的方式,最后形成大量簇数的聚类结果,从而解决大量访问行为方式共存的问题。

Claims (12)

  1. 一种基于网络访问日志的用户行为数据处理方法,其中,包括:
    步骤1,采集日志信息;
    步骤2,确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
    步骤3,将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
    步骤4,对每个分组根据分组相应的簇数进行聚类获得聚类结果。
  2. 如权利要求1所述的用户行为数据处理方法,其中,
    所述方法还包括:
    步骤5:根据所述聚类结果确定每个簇对应的用户;
    步骤6:判断所述簇中的用户数量小于预设阈值时,确定所述簇中的用户为异常用户;或者,判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
  3. 如权利要求1所述的用户行为数据处理方法,其中,
    所述访问特征为访问主题,所述访问行为值为用户对访问主题的访问概率值。
  4. 如权利要求3所述的用户行为数据处理方法,其中,
    所述根据日志信息提取不同用户针对不同访问特征的访问行为值为根据日志信息提取不同用户针对不同访问主题的访问概率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将所述文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值。
  5. 如权利要求1所述的用户行为数据处理方法,其中,
    所述访问特征为用户访问行为统计信息,所述访问行为值为所述用户访问行为统计信息的值。
  6. 如权利要求1所述的用户行为数据处理方法,其中,
    所述方法还包括:针对不同类别的访问特征执行步骤2、步骤3和步骤4后获得不同的聚类结果,将不同的聚类结果组合后对用户进行分类。
  7. 如权利要求1所述的用户行为数据处理方法,其中,
    所述将访问特征划分为N个分组的方法是以下方法中的一种:
    将属于同一类的访问特征划分为同一组;
    将访问特征随机划分为N个分组。
  8. 一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现权利要求1至7中任意一项所述方法的步骤。
  9. 一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7中任意一项所述方法的步骤。
  10. 一种基于网络访问日志的用户行为数据处理装置,其中,包括:
    采集模块,用于采集日志信息;
    提取模块,用于确定多个访问特征,根据日志信息提取不同用户针对不同访问特征的访问行为值;
    分组模块,用于将访问特征划分为N个分组,确定每个分组的簇数;N为大于或等于1的整数;
    聚类模块,用于对每个分组根据分组相应的簇数进行聚类获得聚类结果。
  11. 如权利要求10所述的用户行为数据处理装置,其中,
    还包括:
    确定模块,用于根据所述聚类结果确定每个簇对应的用户;
    判断模块,用于判断所述簇中的用户数量小于预设阈值时,确定所述簇中的用户为异常用户;或者,用于判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
  12. 如权利要求10所述的用户行为数据处理装置,其中,
    所述访问特征为访问主题,所述访问行为值为用户对访问主题的访问概率值;
    所述提取模块,用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值:根据日志信息提取不同用户针对不同访问主题的访问概 率值,具体包括:确定各用户的用户标识,根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数,根据用户访问各网络资源标识符的访问信息生成访问目标标识,将用户标识、访问目标标识和访问次数构成文档信息,设置文档主题生成模型中的主题数为M,M为大于1的整数,将所述文档信息输入文档主题生成模型,生成各用户对各访问主题的访问概率值;
    或者,所述访问特征为用户访问行为统计信息,所述访问行为值为所述用户访问行为统计信息的值。
PCT/CN2018/122274 2017-12-22 2018-12-20 基于日志的用户行为数据处理方法、介质、设备及装置 WO2019120241A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201711408930.0A CN109145934B (zh) 2017-12-22 2017-12-22 基于日志的用户行为数据处理方法、介质、设备及装置
CN201711408930.0 2017-12-22

Publications (1)

Publication Number Publication Date
WO2019120241A1 true WO2019120241A1 (zh) 2019-06-27

Family

ID=64803819

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/122274 WO2019120241A1 (zh) 2017-12-22 2018-12-20 基于日志的用户行为数据处理方法、介质、设备及装置

Country Status (2)

Country Link
CN (1) CN109145934B (zh)
WO (1) WO2019120241A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177656A (zh) * 2019-12-31 2020-05-19 奇安信科技集团股份有限公司 一种行为检测方法、计算机设备和计算机可读存储介质
CN111523921A (zh) * 2019-12-31 2020-08-11 支付宝实验室(新加坡)有限公司 漏斗分析方法、分析设备、电子设备及可读存储介质
CN111597299A (zh) * 2020-03-31 2020-08-28 深圳追一科技有限公司 知识点监测方法、装置、计算机设备和存储介质
CN113033584A (zh) * 2019-12-09 2021-06-25 Oppo广东移动通信有限公司 数据处理方法及相关设备
CN113779568A (zh) * 2021-09-18 2021-12-10 中国平安人寿保险股份有限公司 异常行为用户识别方法、装置、设备及存储介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110912861B (zh) * 2018-09-18 2022-02-15 北京数安鑫云信息技术有限公司 一种深度追踪团伙攻击行为的ai检测方法和装置
CN109754290A (zh) * 2019-01-15 2019-05-14 网易(杭州)网络有限公司 一种游戏数据的处理方法和装置
CN109871886B (zh) * 2019-01-28 2023-08-01 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN110532460A (zh) * 2019-04-18 2019-12-03 国家计算机网络与信息安全管理中心 网络访问用户的分类方法、装置、电子设备及介质
CN110378200A (zh) * 2019-06-03 2019-10-25 特斯联(北京)科技有限公司 一种基于行为特征聚类的智能安防提示设备与方法
CN110347917A (zh) * 2019-06-14 2019-10-18 北京纵横无双科技有限公司 一种医疗信息推送方法及装置
CN110555165B (zh) * 2019-07-23 2023-04-07 平安科技(深圳)有限公司 信息识别方法、装置、计算机设备和存储介质
CN110781930A (zh) * 2019-10-14 2020-02-11 西安交通大学 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统
CN112800419A (zh) * 2019-11-13 2021-05-14 北京数安鑫云信息技术有限公司 识别ip团伙的方法、装置、介质及设备
CN113132311B (zh) * 2019-12-31 2023-09-19 中国移动通信集团陕西有限公司 异常访问检测方法、装置和设备
CN111506828B (zh) * 2020-03-20 2023-04-07 微梦创科网络科技(中国)有限公司 一种异常关注行为批量实时识别方法及装置
CN113992757B (zh) * 2021-10-27 2024-03-05 北京八分量信息科技有限公司 异构网络中的存储资源共享管理方法、装置及相关产品
CN114547482B (zh) * 2022-03-03 2023-01-20 智慧足迹数据科技有限公司 业务特征生成方法、装置、电子设备及存储介质
CN114978674B (zh) * 2022-05-18 2023-12-05 中国电信股份有限公司 一种爬虫识别增强的方法及装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833129A (zh) * 2012-08-15 2012-12-19 苏州迈科网络安全技术股份有限公司 网站访问率统计方法及系统
US20150019708A1 (en) * 2013-07-10 2015-01-15 Opendns, Inc. Domain Classification Using Domain Co-Occurence Information
CN104899229A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于群体智能的行为聚类系统
CN106210044A (zh) * 2016-07-11 2016-12-07 焦点科技股份有限公司 一种基于访问行为的活跃用户识别方法
CN106354784A (zh) * 2016-08-23 2017-01-25 西安电子科技大学 基于降维分组的大数据聚类优化方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477552A (zh) * 2009-02-03 2009-07-08 辽宁般若网络科技有限公司 网站用户等级划分方法
CN101702653B (zh) * 2009-10-27 2011-12-28 中国科学院声学研究所 一种基于用户行为定向的消息通告系统及方法
CN102135983A (zh) * 2011-01-17 2011-07-27 北京邮电大学 基于网络用户行为的群体划分方法和装置
CN102158365A (zh) * 2011-05-20 2011-08-17 北京邮电大学 一种网络日志挖掘中的用户聚类方法及系统
CN104750752B (zh) * 2013-12-31 2018-06-15 中国移动通信集团公司 一种上网偏好用户群体的确定方法和设备
CN104063518B (zh) * 2014-07-14 2017-06-09 南京弘数信息科技有限公司 一种针对大数据的分解组合聚类方法
CN107404398A (zh) * 2017-05-31 2017-11-28 中山大学 一种网络用户行为判别系统
CN107426177A (zh) * 2017-06-13 2017-12-01 努比亚技术有限公司 一种用户行为聚类分析方法及终端、计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102833129A (zh) * 2012-08-15 2012-12-19 苏州迈科网络安全技术股份有限公司 网站访问率统计方法及系统
US20150019708A1 (en) * 2013-07-10 2015-01-15 Opendns, Inc. Domain Classification Using Domain Co-Occurence Information
CN104899229A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于群体智能的行为聚类系统
CN106210044A (zh) * 2016-07-11 2016-12-07 焦点科技股份有限公司 一种基于访问行为的活跃用户识别方法
CN106354784A (zh) * 2016-08-23 2017-01-25 西安电子科技大学 基于降维分组的大数据聚类优化方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033584A (zh) * 2019-12-09 2021-06-25 Oppo广东移动通信有限公司 数据处理方法及相关设备
CN113033584B (zh) * 2019-12-09 2023-07-07 Oppo广东移动通信有限公司 数据处理方法及相关设备
CN111177656A (zh) * 2019-12-31 2020-05-19 奇安信科技集团股份有限公司 一种行为检测方法、计算机设备和计算机可读存储介质
CN111523921A (zh) * 2019-12-31 2020-08-11 支付宝实验室(新加坡)有限公司 漏斗分析方法、分析设备、电子设备及可读存储介质
CN111523921B (zh) * 2019-12-31 2023-10-20 支付宝实验室(新加坡)有限公司 漏斗分析方法、分析设备、电子设备及可读存储介质
CN111177656B (zh) * 2019-12-31 2024-02-06 奇安信科技集团股份有限公司 一种行为检测方法、计算机设备和计算机可读存储介质
CN111597299A (zh) * 2020-03-31 2020-08-28 深圳追一科技有限公司 知识点监测方法、装置、计算机设备和存储介质
CN113779568A (zh) * 2021-09-18 2021-12-10 中国平安人寿保险股份有限公司 异常行为用户识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109145934B (zh) 2019-05-21
CN109145934A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
WO2019120241A1 (zh) 基于日志的用户行为数据处理方法、介质、设备及装置
WO2019056721A1 (zh) 信息推送方法、电子设备及计算机存储介质
WO2017084586A1 (zh) 基于深度学习方法推断恶意代码规则的方法、系统及设备
CN110033302B (zh) 恶意账户识别方法及装置
CN107622197B (zh) 设备识别方法及装置、用于设备识别的权重计算方法及装置
US20120303624A1 (en) Dynamic rule reordering for message classification
JP2016528596A5 (zh)
US10650003B1 (en) Expiration of elements associated with a probabilistic data structure
TW202013234A (zh) 資料處理方法、設備以及儲存媒介
CN111163072B (zh) 机器学习模型中特征值的确定方法、装置及电子设备
WO2021047402A1 (zh) 应用识别方法、装置及存储介质
WO2016145993A1 (zh) 一种用户设备识别方法及系统
CN111701247B (zh) 用于确定统一账号的方法和设备
CN110222790B (zh) 用户身份识别方法、装置及服务器
CN111523012B (zh) 用于检测异常数据的方法、设备和计算机可读存储介质
CN106529953B (zh) 一种对业务属性进行风险识别的方法及装置
WO2015024476A1 (en) A method, server, and computer program product for managing ip address attributions
CN108234454B (zh) 一种身份认证方法、服务器及客户端设备
US11562004B2 (en) Classifying and filtering platform data via k-means clustering
WO2019119635A1 (zh) 种子用户拓展方法、电子设备及计算机可读存储介质
CN110389859B (zh) 用于复制数据块的方法、设备和计算机程序产品
WO2014171925A1 (en) Event summarization
CN104778252B (zh) 索引的存储方法和装置
CN115145587A (zh) 一种产品参数校验方法、装置、电子设备及存储介质
CN114640504B (zh) Cc攻击防护方法、装置、设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18889998

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 12/10/2020)

122 Ep: pct application non-entry in european phase

Ref document number: 18889998

Country of ref document: EP

Kind code of ref document: A1