WO2019120241A1

WO2019120241A1 - 基于日志的用户行为数据处理方法、介质、设备及装置

Info

Publication number: WO2019120241A1
Application number: PCT/CN2018/122274
Authority: WO
Inventors: 刘鑫琪; 丛磊
Original assignee: 北京数安鑫云信息技术有限公司
Priority date: 2017-12-22
Filing date: 2018-12-20
Publication date: 2019-06-27
Also published as: CN109145934B; CN109145934A

Abstract

一种基于日志的用户行为数据处理方法、介质、设备及装置，此方法包括：步骤1，采集日志信息（S101）；步骤2，确定多个访问特征，根据日志信息提取不同用户针对不同访问特征的访问行为值（S102）；步骤3，将访问特征划分为N个分组，确定每个分组的簇数（S103）；N为大于或等于1的整数；步骤4，对每个分组根据分组相应的簇数进行聚类获得聚类结果（S104）。所述方法、介质、设备及装置通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后，进行聚类，解决高维聚类效果差问题；并且通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类，每个子聚类过程簇数减少，节省计算时间，节省计算所需内存。

Description

基于日志的用户行为数据处理方法、介质、设备及装置

本申请要求在2017年12月22日提交中国专利局、申请号为201711408930.0,发明名称为“基于日志的用户行为数据处理方法、介质、设备及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及互联网技术领域，尤其涉及基于日志的用户行为数据处理方法、介质、设备及装置。

背景技术

随着互联网业务的发展，网络上每天都因用户访问而产生海量的网络服务器(web server)系统日志。网络服务器(web server)系统日志主要包含：客户端IP地址、客户端用户名称、访问时间、请求uri、请求状态、文件大小、页面链接来源、客户端浏览器等信息。现有技术中使用网络服务器系统日志对用户行为进行分类，但现有的分类方法主要存在以下难点：

在无法获知统一资源标识符(Uniform Resource Identifier，URI)和其内容的对应关系的情况下，以及无法获知内容和内容类别的对应关系的情况下，难以使用此类日志进行用户兴趣分类。

二，对web server的特征提取主要为统计型特征，如计数、平均值、标准差等，即为访问行为特征但不包含访问目标，所以会导致聚类成的簇的访问目标不一致，会导致误判。

三，如果使用机器学习聚类方法进行用户行为聚类，参加聚类的数据条数会大幅增加；同时特征工程产生的特征数据维度很高。以最常见的聚类方法KMeans为例，空间复杂度为O(n*m)，其中n为数据条数，m为特征个数，n和m的增加使聚类大量消耗系统内存，计算时间增加，同时例如KMeans不适用于产生过多的簇，以及处理高维数据。这就为聚类方法的计算物理消耗，及聚类结果准确性(例如簇内行为不相似)带来挑战。具体包括：(一)对高维数据直接使用一般聚类方法计算内存使用多，耗时长。(二)遇到大量访问行为方式共存时，KMeans聚类方法需要预判一个大的簇数，如簇数预估较少，否则会导致簇内行为方式不一致；如KMeans方法簇数很大则效果较差。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

为了解决上述技术问题，本发明实施例提供的基于网络访问日志的用户行为数据处理方法，其中，包括：

步骤1，采集日志信息；

步骤2，确定多个访问特征，根据日志信息提取不同用户针对不同访问特征的访问行为值；

步骤3，将访问特征划分为N个分组，确定每个分组的簇数；N为大于或等于1的整数；

步骤4，对每个分组根据分组相应的簇数进行聚类获得聚类结果。

上述方法还具有以下特点：

所述方法还包括：

步骤5：根据所述聚类结果确定每个簇对应的用户；

步骤6：判断所述簇中的用户数量小于预设阈值时，确定所述簇中的用户为异常用户；或者，判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。

上述方法还具有以下特点：

所述访问特征为访问主题，所述访问行为值为用户对访问主题的访问概率值。

上述方法还具有以下特点：

所述根据日志信息提取不同用户针对不同访问特征的访问行为值为根据日志信息提取不同用户针对不同访问主题的访问概率值，具体包括：确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识和访问次数构成文档信息，设置文档主题生成模型中的主题数为M，M为大于1的整数，将所述文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值。

上述方法还具有以下特点：

所述访问特征为用户访问行为统计信息，所述访问行为值为所述用户访问行为统计信息的值。

上述方法还具有以下特点：

所述方法还包括：针对不同类别的访问特征执行步骤2、步骤3和步骤4后获得不同的聚类结果，将不同的聚类结果组合后对用户进行分类。

上述方法还具有以下特点：

所述将访问特征划分为N个分组的方法是以下方法中的一种：

将属于同一类的访问特征划分为同一组；

将访问特征随机划分为N个分组。

本发明实施例提供的计算机可读存储介质上存储有计算机程序，所述程序被处理器执行时实现上述方法的步骤。

本发明实施例提供的计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本发明实施例提供基于网络访问日志的用户行为数据处理装置，包括：

采集模块，用于采集日志信息；

提取模块，用于确定多个访问特征，根据日志信息提取不同用户针对不同访问特征的访问行为值；

分组模块，用于将访问特征划分为N个分组，确定每个分组的簇数；N为大于或等于1的整数；

聚类模块，用于对每个分组根据分组相应的簇数进行聚类获得聚类结果。

上述装置还具有以下特点：

还包括：

确定模块，用于根据所述聚类结果确定每个簇对应的用户；

判断模块，用于判断所述簇中的用户数量小于预设阈值时，确定所述簇中的用户为异常用户；或者，用于判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。

上述装置还具有以下特点：

所述访问特征为访问主题，所述访问行为值为用户对访问主题的访问概率值；

所述提取模块，用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值：根据日志信息提取不同用户针对不同访问主题的访问概率值，具体包括：确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识和访问次数构成文档信息，设置文档主题生成模型中的主题数为M，M为大于1的整数，将所述文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值；

或者，所述访问特征为用户访问行为统计信息，所述访问行为值为所述用户访问行为统计信息的值。

本发明实施例包括以下优点：

一，通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后，进行聚类，解决高维聚类效果差问题。

二，通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类，每个子聚类过程簇数减少，节省计算时间，节省计算所需内存。

三，使用主题方式，使最后簇内访问行为及目标基本相似，提高聚类准确性。

四，通过子聚类过程最后合并为一个聚类结果的方式，最后形成大量簇数的聚类结果，从而解决大量访问行为方式共存的问题。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，本发明实施例的示意性实施例及其说明用于解释本发明实施例，并不构成对本发明实施例的不当限定。在附图中：

图1是实施例中基于日志的用户行为数据处理方法的流程图。

图2是实施例中基于日志的用户行为数据处理装置的结构图。

具体实施方式

现结合附图和具体实施方式对本发明实施例进一步说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

如图1所示，本发明实施例中基于日志的用户行为数据处理方法，包括：

步骤101，采集日志信息；

步骤102，确定多个访问特征，根据日志信息提取不同用户针对不同访问特征的访问行为值；

步骤103，将访问特征划分为N个分组，确定每个分组的簇数；N为大于或等于1的整数；

步骤104，对每个分组根据分组相应的簇数进行聚类获得聚类结果。

此方法还包括：

步骤105：根据聚类结果确定每个簇对应的用户。

步骤106：判断簇中的用户数量小于预设阈值时，确定簇中的用户为异常用户；或者，判断判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围，确定簇中的用户为异常用户。

本方法中通过分组和聚类的方式，将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类，解决高维聚类效果差问题，并且使每个子聚类过程簇数减少，节省计算时间，节省计算所需内存。

本方法中的访问特征包括不同类型的访问特征，下面通过三种实现方式进行详细说明。

实现方式一

在此实现方式一中访问特征为访问主题。访问行为值为用户对访问主题的访问概率值。

例如：用户访问的目标为公众网站的资源时，此主题为此公众网站资源的不同类型的主题。具体类型的划分可根据网站提供的资源进行划分。例如公众网站资源的类型包括新闻类、财经类、体育类、房产类、电影类、电视剧类、音乐类、汽车类、科技类。

主题数量过多会使整个计算时间增加。本方法中进行特征分组时将属于同一类的访问特征划分为同一组。例如可以将电影类、电视剧类、音乐类划分为娱乐类。上述分组的方式可以节省计算时间，主题数的减少对结果的影响可以通过后续按照每个用户在不同主题的概率作为向量以减少影响。

进行分组时将属于同一类的访问主题划分为同一组。例如可以将电影类、电视剧类、音乐类划分为娱乐类。也可以随机的将所有主题划分为N个分组。

举例如下：

步骤101中采集日志时针对的用户包括：用户1、用户2、用户3和用户4。用户的数量为4。

步骤102中确定出的访问主题包括新闻类主题、经济类主题、房产类主题、电影类主题、电视剧类主题、音乐类主题、汽车类主题、电子类主题。访问主题数为8。此处访问主题具体含义的确定为实施人经验确定结果，本算法在不确认每个主题具体含义情况下不影响结果。

步骤102中根据日志信息提取各用户针对不同访问特征的访问行为值具体是指：根据日志信息提取不同用户对不同访问主题的访问概率值。具体实现方法如下：

确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识、访问次数构成文档信息。设置文档主题生成模型中的主题数为M。将文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值。

其中，上述用户标识可以包括用户的客户端IP和/或客户端用户名。上述访问信息可以是网络资源标识符或访问网络资源标识符的路径的hash值。文档主题生成模型可以是潜在狄利克雷分布(Latent Dirichlet Allocation，LDA)模型。

举例如下：

执行完步骤102后，获得表1：

表1

步骤103中将访问特征划分为N个分组，例如划分为3组。确定3个分组的簇数均为2。

划分分组时可以采用将属于同一类的访问特征划分为同一组的方法，具体的：将新闻类、经济类和房产类合并为财经分组，将电影类、电视剧类和音乐类合并为娱乐分组，将汽车类和电子类合并为科技分组。

步骤104中对每个分组根据分组相应的簇数进行聚类获得聚类结果，具体的，在设置财经分组、娱乐分组、科技分组的簇数均为2的情况下使用KMeans方法进行聚类获得聚类结果，如表2所示。

表2

	财经分组	娱乐分组	科技分组
用户1	1	1	1
用户2	2	2	2
用户3	1	1	1
用户4	1	1	1

表2中的值表示用户在相应分组中所属的簇标识。

步骤105中根据聚类结果确定每个簇对应的用户为：

财经分组中，两个簇中的一个簇包括用户1、用户3和用户4，另一簇包括用户2。

娱乐分组中，两个簇中的一个簇包括用户1、用户3和用户4，另一簇包括用户2。

科技分组中，两个簇中的一个簇包括用户1、用户3和用户4，另一簇包括用户2。

实现方式中的使用主题方式，使最后簇内访问行为及目标基本相似，提高聚类准确性。

实现方式二

在此实现方式二中访问特征为用户访问行为统计信息。访问行为值为用户访问行为统计信息的值。

用户访问行为统计信息包括：请求数，平均请求时间，平均请求大小、消息占比等。

举例如下：

步骤101中采集日志时针对的用户包括：用户1、用户2、用户3和用户4，用户的数量为4。

步骤102中确定出的用户访问行为统计信息包括7个，具体为：2xx占比、3xx占比、4xx占比、5xx占比、GET请求占比、POST请求占比、HEAD请求占比。如表3所示：

表3

步骤103中将访问特征划分为N个分组，此处N的值为2，确定2个分组的簇数均为2。将属于同一类的访问特征划分为同一组，具体的，将2xx占比、3xx占比、4xx占比、5xx占比合并为第一分组，将GET请求占比、POST请求占比、 HEAD请求占比合并为第二分组。

执行步骤104中的对每个分组根据分组相应的簇数进行聚类获得聚类结果，在设置第一分组、第二分组的簇数均为2的情况下使用KMeans方法进行聚类获得聚类结果，如表4所示：

表4

	第一分组	第二分组
用户1	1	1
用户2	2	2
用户3	1	1
用户4	1	2

步骤105中对每个分组根据分组相应的簇数进行聚类获得聚类结果，根据聚类结果确定每个簇对应的用户的结果为：

第一分组中，两个簇中的一个簇包括用户1、用户3和用户4，另一簇包括用户2。

第二分组中，两个簇中的一个簇包括用户1和用户3，另一簇包括用户2和用户4。

实现方式三

针对不同类别的访问特征执行步骤102、步骤103和步骤104，获得不同的聚类结果，将不同的聚类结果组合后对用户进行分类，如上述实现方式一、二中所示，将获得的表2和表4组合，获得表5。

表5

	财经分组	娱乐分组	科技分组	第一分组	第二分组
用户1	1	1	1	1	1
用户2	2	2	2	2	2
用户3	1	1	1	1	1
用户4	1	1	1	1	2

根据表5对用户进行分类后：

第一个分类包括用户1和用户3。

第二个分类包括用户2。

第三个分类包括用户4。

实现方式三中通过子聚类过程最后合并为一个聚类结果的方式，最后形成大量簇数的聚类结果，从而解决大量访问行为方式共存的问题。

本文还提供了一种计算机可读存储介质，存储介质上存储有计算机程序，此程序被处理器执行时实现上述方法的步骤。

本文还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行此程序时实现上述方法的步骤。

如图2所示，本发明实施例中还提供了一种基于网络访问日志的用户行为数据处理装置，包括：

采集模块，用于采集日志信息；

此装置还包括：

确定模块，用于根据聚类结果确定每个簇对应的用户。

判断模块，用于判断簇中的用户数量小于预设阈值时，确定簇中的用户为异常用户；或者，用于判断簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。

在实现方式一中

访问特征为访问主题，访问行为值为用户对访问主题的访问概率值。

提取模块，用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值：根据日志信息提取不同用户针对不同访问主题的访问概率值，具体包括：确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识和访问次数构成文档信息，设置文档主题生成模型中的主题数为M，M为大于1的整数，将文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值；

在实现方式二中

访问特征为用户访问行为统计信息，访问行为值为用户访问行为统计信息的值。

在实现方式三中

此装置还包括合并模块。在提取模块和分组模块针对不同类别的访问特征处理完成后，将将不同的聚类结果合并，将合并后的结果交由确定模块处理。

综上，本发明实施例包括以下优点：

本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在权利要求范围当中。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

工业实用性

本文可以通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后，进行聚类，解决高维聚类效果差问题；并且可以通过将高维数据构造为多个相似的或者相关的特征组成的低维特征后进行聚类，每个子聚类过程簇数减少，节省计算时间，节省计算所需内存；还可以使用主题方式，使最后簇内访问行为及目标基本相似，提高聚类准确性；还可以通过子聚类过程最后合并为一个聚类结果的方式，最后形成大量簇数的聚类结果，从而解决大量访问行为方式共存的问题。

Claims

一种基于网络访问日志的用户行为数据处理方法，其中，包括：

步骤1，采集日志信息；

步骤2，确定多个访问特征，根据日志信息提取不同用户针对不同访问特征的访问行为值；

步骤3，将访问特征划分为N个分组，确定每个分组的簇数；N为大于或等于1的整数；

步骤4，对每个分组根据分组相应的簇数进行聚类获得聚类结果。
如权利要求1所述的用户行为数据处理方法，其中，

所述方法还包括：

步骤5：根据所述聚类结果确定每个簇对应的用户；

步骤6：判断所述簇中的用户数量小于预设阈值时，确定所述簇中的用户为异常用户；或者，判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
如权利要求1所述的用户行为数据处理方法，其中，

所述访问特征为访问主题，所述访问行为值为用户对访问主题的访问概率值。
如权利要求3所述的用户行为数据处理方法，其中，

所述根据日志信息提取不同用户针对不同访问特征的访问行为值为根据日志信息提取不同用户针对不同访问主题的访问概率值，具体包括：确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识和访问次数构成文档信息，设置文档主题生成模型中的主题数为M，M为大于1的整数，将所述文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值。
如权利要求1所述的用户行为数据处理方法，其中，

所述访问特征为用户访问行为统计信息，所述访问行为值为所述用户访问行为统计信息的值。
如权利要求1所述的用户行为数据处理方法，其中，

所述方法还包括：针对不同类别的访问特征执行步骤2、步骤3和步骤4后获得不同的聚类结果，将不同的聚类结果组合后对用户进行分类。
如权利要求1所述的用户行为数据处理方法，其中，

所述将访问特征划分为N个分组的方法是以下方法中的一种：

将属于同一类的访问特征划分为同一组；

将访问特征随机划分为N个分组。
一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1至7中任意一项所述方法的步骤。
一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至7中任意一项所述方法的步骤。
一种基于网络访问日志的用户行为数据处理装置，其中，包括：

采集模块，用于采集日志信息；

提取模块，用于确定多个访问特征，根据日志信息提取不同用户针对不同访问特征的访问行为值；

分组模块，用于将访问特征划分为N个分组，确定每个分组的簇数；N为大于或等于1的整数；

聚类模块，用于对每个分组根据分组相应的簇数进行聚类获得聚类结果。
如权利要求10所述的用户行为数据处理装置，其中，

还包括：

确定模块，用于根据所述聚类结果确定每个簇对应的用户；

判断模块，用于判断所述簇中的用户数量小于预设阈值时，确定所述簇中的用户为异常用户；或者，用于判断所述簇中所有用户的至少一预设访问特征的访问行为均值不符合此预设访问特征相应的阈值范围。
如权利要求10所述的用户行为数据处理装置，其中，

所述访问特征为访问主题，所述访问行为值为用户对访问主题的访问概率值；

所述提取模块，用于使用以下方法根据日志信息提取不同用户针对不同访问特征的访问行为值：根据日志信息提取不同用户针对不同访问主题的访问概率值，具体包括：确定各用户的用户标识，根据日志信息提取各用户访问各网络资源标识符的访问信息以及对所述网络资源标识符的访问次数，根据用户访问各网络资源标识符的访问信息生成访问目标标识，将用户标识、访问目标标识和访问次数构成文档信息，设置文档主题生成模型中的主题数为M，M为大于1的整数，将所述文档信息输入文档主题生成模型，生成各用户对各访问主题的访问概率值；

或者，所述访问特征为用户访问行为统计信息，所述访问行为值为所述用户访问行为统计信息的值。