WO2023092646A1 - 用户群体的分类方法、装置、存储介质及计算机设备 - Google Patents
用户群体的分类方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- WO2023092646A1 WO2023092646A1 PCT/CN2021/135899 CN2021135899W WO2023092646A1 WO 2023092646 A1 WO2023092646 A1 WO 2023092646A1 CN 2021135899 W CN2021135899 W CN 2021135899W WO 2023092646 A1 WO2023092646 A1 WO 2023092646A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- behavior
- user
- sequence
- instruction
- frequent
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种用户群体的分类方法、装置、存储介质及计算机设备。其中方法包括:获取用户群体的行为数据,并对用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集;利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表;通过序列对比算法,计算行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表;对行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表;采用半监督分类算法,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体,以提高分类效率。
Description
相关申请的交叉引用
本申请要求2021年11月25日提交的中国专利申请第202111412279.0号的优先权,该申请的全部内容通过引用并入本文用于所有目的。
本申请涉及大数据处理技术领域,尤其是涉及一种用户群体的分类方法、装置、存储介质及计算机设备。
用户群体分类是在以用户为运营载体的各行各业发展过程中尤为重要的一个环节,在面对如电商、公共资源管理、信息安全管理等拥有巨大用户群体的平台时,如何做到将独立的用户对象进行群体分类,是一件十分困难且重要的工作。相较于传统的依据用户属性构造特征进行群体分类的方法,将用户的操作行为当作原始特征进行用户群体划分的方法显然更为创新和有效,并且,按照用户操作行为对用户群体进行划分之后,在将其分类数据应用到下游工作中时,也更能发挥出精准推荐、拉新留存、群体管理等各项优势来。
在现有技术中,基于用户操作行为的群体分类方法大多是根据用户操作行为的基本属性、用户行为轨迹和用户社交联系等属性作为特征,结合业务逻辑为数据集添加标签,并使用有监督机器学习算法对用户群体进行分类。但是,这种用户群体的分类方法无法适用于用户之间无社交关系和用户操作无行为轨迹的应用场景中,并且,为用户群体添加标签也是一项人力成本非常高且效率十分低下的工作。因此,上述用户群体的分类方法看似非常有效,实则应用场景十分受限,且所需的人力成本高昂,模型训练效率十分低下。
发明内容
有鉴于此,本申请提供了一种用户群体的分类方法、装置、存储介质及计算机设备,主要目的在于解决现有技术中用户群体的分类方法应用场景受限、所需人力成本高昂和模型训练效率低下的技术问题。
根据本申请的第一个方面,提供了一种用户群体的分类方法,该方法包括:
获取用户群体的行为数据,并对用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,其中,每个用户名对应一个行为序列,每个行为序列包含至少一个行为指令;
利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表;
通过序列对比算法,计算行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表;
对行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表;
采用半监督分类算法,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体。
根据本申请的第二个方面,提供了一种用户群体的分类装置,该装置包括:
用户数据获取模块,用于获取用户群体的行为数据,并对用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,其中,每个用户名对应一个行为序列,每个行为序列包含至少一个行为指令;
频繁项特征提取模块,用于利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表;
相似性特征提取模块,用于通过序列对比算法,计算行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表;
指令频次特征提取模块,用于对行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表;
用户群体分类模块,用于采用半监督分类算法,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体。
根据本申请的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述用户群体的分类方法。
根据本申请的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述用户群体的分类方法。
本申请提供的一种用户群体的分类方法、装置、存储介质及计算机设备,通过对用户群体的各个操作行为和频繁操作行为组合进行提取和频次统计,挖掘了各个用户之间存在的行为习惯属性,通过计算用户群体中各个行为序列之间的序列匹配分值和序列间相似度分值,可以将每个用户与用户群体之间的潜在联系标量化,弥补了无社交用户之间的行为关系属性。基于此,上述方法通过挖掘用户群体中各个用户之间的行为习惯属性、行为关系属性和潜在联系属性,使该方法能够广泛的应用在用户之间无社交关系和用户操作无行为轨迹的应用 场景中,从而扩展了用户群体分类方法的使用范围。此外,上述方法通过采用半监督分类算法,减少了用户群体添加分类标签的工作量,有效的提高了用户群体分类模型的训练效率和用户群体的分类效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种用户群体的分类方法的流程示意图;
图2示出了本申请实施例提供的一种行为序列数据集的样例示意图;
图3示出了本申请实施例提供的一种频繁指令组合特征表的样例示意图;
图4示出了本申请实施例提供的一种序列相似性特征表的样例示意图;
图5示出了本申请实施例提供的一种行为指令频次特征表的样例示意图;
图6示出了本申请实施例提供的一种用户群体的分类结果的样例示意图;
图7示出了本申请实施例提供的一种用户群体的分类结果的散点效果图;
图8示出了本申请实施例提供的一种用户群体的分类方法的流程示意图;
图9示出了本申请实施例提供的一种用户群体的分类装置的结构示意图。
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在一个实施例中,如图1所示,提供了一种用户群体的分类方法,以该方法应用于服务器等计算机设备为例进行说明,包括以下步骤:
101、获取用户群体的行为数据,并对用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集。
其中,用户群体的行为数据指的是以用户为运营载体的系统或平台通过分析注册信息和日志信息等方式获取到的系统中多个用户(通常指的是大规模数量的用户)的与操作行为相关的数据。其中,操作行为指的是用户在各个操作时间点上触发的操作指令,操作指令例如可以是登录、浏览主页面、浏览子页面,与页面中的某个组件进行交互、针对某个商品进行下单等等。在本实施例中,为了便于数据处理,可以将用户触发的每一个操作指令都转换为指令编码,例如,可以将“登录”指令转换为指令编码“h”,将“浏览主页面”指令转换为指令编码“f”等等。
具体的,计算机设备可以通过某个系统或平台的数据管理中心获取到待处理的用户群体的行为数据,其中,用户群体主要指的是同一个系统或平台上注册的多个用户,用户群体的行为数据主要包括每个用户的用户名、每个用户的行为指令以及每个行为指令的操作时间等信息,然后,计算机设备可以对获取到的用户群体的行为数据进行数据清洗和数据加工等预处理操作,并对用户群体的行为数据中的各个行为指令进行编码,以及按照操作时间对编码后的行为指令进行排序,以形成每个用户的行为序列,最后,计算机设备可以以每个用户的用户名为主题对象,将用户群体中所有用户的行为序列编列在一个数据表中,以形成用户群体的行为序列数据集。
在本实施例中,行为序列数据集中至少包含两个字段名,分别为用户名和用户名对应的行为序列,此外,行为序列数据集还可以包括分类标签字段,分类标签同样与用户名相对应。由于本实施采用了半监督分类算法对用户群体进行分类,所以用户群体的分类标签可以是不完整的,即行为序列数据集的一部分用户是有分类标标签的,另一部分用户是没有分类标签的,通过本实施提供的方法,最终可以将用户群体中的每个用户都标记一个分类标签。
102、利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表。
其中,关联分析算法指的是在数据集中寻找出数据之间某种关联的一种无监督学习算法,该算法可以在大规模的数据中寻找出数据与数据之间关系,如发现数据集中的频繁项集(经常出现在一起的物品的集合)和关联规则(暗示两种物品之间可能存在很强的关系)等等, 其中,常见的关联分析算法主要包括Apriori算法和FP-growth算法等等。
具体的,计算机设备可以利用Apriori算法和FP-growth算法等关联分析算法寻找出行为序列数据集中的频繁项集,然后统计频繁项集中的各个频繁项在行为序列数据集中出现的频次,最后形成以用户名和频繁项为字段名的频繁指令组合特征表。在本实施例中,频繁项具体可以为频繁行为指令组合,频繁行为指令组合指的是行为序列数据集中经常在一起出现的行为指令的集合。例如,“登录”指令和“浏览主页面”指令通常连在一起出现,其中,“登录”指令的指令编码“h”,“浏览主页面”指令的指令编码“f”,那么,“hf”就是一个频繁行为指令组合。通过关联分析算法,可以寻找到行为序列数据集中所有的频繁行为指令组合,进一步的,通过统计每一个频繁行为指令组合在各个行为序列中出现的频次,即可形成频繁指令组合特征表。在本实施例中,通过频繁行为指令组合频次这一特征,可以挖掘出每个用户的日常行为习惯以及用户群体的整体日常行为趋势,从而为无社交关系的用户群体分类提供一个有力的依据。需要说明的是,频繁行为指令组合由至少两个连在一起出现的行为指令组成,各个频繁行为指令组合的长度可以是不同的。
103、通过序列对比算法,计算行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表。
其中,序列对比算法指的是在数据集中挖掘出每两个行为序列之间的相似性的算法,通常来说,序列对比算法可以用两个指标来描述序列之间的相似性,分别为一致性和相似度。目前,序列对比算法主要包括全局序列对比算法和局部序列对比算法,常见的序列对比算法主要包括Needleman-Wunsch算法、Smith-Waterman算法、FASTA算法和BLAST算法等等。
具体的,计算机设备可以通过全局序列对比算法和/或局部序列对比算法,计算出行为序列数据集中的每个行为序列与其他行为序列之间的一致性和相似度,其中,一致性可以用序列匹配分值数组来表达,相似度可以用序列间相似度分值数组来表达。进一步的,计算机设备可以分别计算出每个序列匹配分值数组和每个序列间相似度分值数组中的最大值、最小值、平均值、标准差和方差,从而量化序列间的相似性特征,以形成序列相似性特征表。在本实施例中,通过序列相似性这一特征,可以挖掘出用户行为之间的行为关系和潜在联系,从而为无社交关系和无行为轨迹的用户群体分类提供另一个有力的依据。 需要说明的是,本实施例可以单独采用全局序列对比算法或局部序列对比算法计算每个行为序列与其他行为序列之间的一致性和相似度,也可以同时采用全局序列对比算法和局部序列对比算法,分别计算每个行为序列与其他行为序列之间的全局一致性和全局相似度以及局部一致性和局部相似度,从而提高序列比对的准确性。
104、对行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表。
具体的,计算机设备可以通过合并去重等数据处理方式寻找到行为序列数据集中的各个行为指令,然后对每个行为指令在序列数据集中出现的频次进行统计,以形成以用户名和行为指令为字段名的行为指令频次特征表。在本实施例中,通过行为指令频次这一特征,可以挖掘出每个用户的行为惯性和用户群体的整体行为惯性,从而为无社交关系的用户群体分类再提供一个有力的依据。
105、采用半监督分类算法,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体。
其中,半监督分类算法指的是利用有标签训练数据得到初始模型,并利用初始模型对无标签训练数据进行预测,然后根据预测结果对初始模型进行迭代训练,以得到数据分类结果的算法。该算法的流程是:首先利用现有的训练数据训练模型,并预测无标签数据,然后将置信度比较高的一部分无标签数据和它们被模型赋予的标签一起加入训练集,当输出结果满足训练集和模型符合的要求时,输出当前的训练集和模型,否则重新训练模型直至达到要求。目前,常见的半监督分类算法主要有半监督支持向量机模型(support vector machines,SVM)和半监督逻辑回归模型(Logistic Regression,LR)等等。
具体的,计算机设备可以首先通过用户群体中有分类标签用户的频繁指令组合特征、序列相似性特征和行为指令频次特征初步训练得到一个初始分类模型,然后通过该初始模型,对无分类标签的用户的行为数据进行预测,以得到无分类标签用户的分类标签,最后将所有用户的行为数据和分类标签混合在一起,对初始模型进行重新训练。如此不断迭代的重复以上过程,直到模型参数和分类结果达到预定要求,即可得到用户群体分类模型和具有不同类别的用户群体。在本实施例中,通过采用半监督分类算法,可以减少相当一部分为用户数据添加分类标签的工作量,从而提高用户分类模型的训练效率,减少人力成本。
可以理解的是,在得到以用户名为主体对象的行为序列数据集之后,以行为序列数据集为基础生成频繁指令组合特征表、序列相似性特征表和行为指令频次特征表的顺序可以根据实际情况进行调整,即上述步骤102、步骤103和步骤104的顺序可以根据实际需要进行调整,本实施在此不作具体限定。
本实施例提供的用户群体的分类方法,通过对用户群体的各个操作行为和频繁操作行为组合进行提取和频次统计,挖掘了各个用户之间存在的行为习惯属性,通过计算用户群体中各个行为序列之间的序列匹配分值和序列间相似度分值,将每个用户与用户群体之间的潜在联系标量化,弥补了无社交用户之间的行为关系属性。基于此,上述方法通过挖掘用户群体中各个用户之间的行为习惯属性、行为关系属性和潜在联系属性,使用户群体分类方法可以广泛的应用在用户之间无社交关系和用户操作无行为轨迹的应用场景中,扩展了用户群体分类方法的使用范围。此外,上述方法通过采用半监督分类算法,减少了用户群体添加分类标签的工作量,有效的提高了用户群体分类模型的训练效率和用户群体的分类效率。
在一个实施例中,上述步骤101具体还可以包括以下步骤:首先获取用户群体的行为数据,其中,用户群体的行为数据包括每个用户的用户名、每个用户的至少一个行为指令以及每个行为指令的操作时间,然后利用预设的字符字典,对每个用户的行为指令进行编码处理,进而根据行为指令的操作时间,对编码后的行为指令进行排序,得到每个用户的行为序列,最后根据每个用户的用户名和每个用户的行为序列,生成以每个用户的用户名为主体对象的行为序列数据集。在本实施例中,用户群体的行为数据中还包括部分用户的分类标签,即用户群体中的一部分用户有分类标签,另一部分用户没有分类标签,相应的,行为序列数据集中也设定有分类标签的字段名。举例来说,图2示出了一种行为序列数据集的样例示意图,如图2所示,account指代的是用户名,如“17185”、“17187”等,opt_seq指代的是行为序列,如“hhB”、“hbfhbbhbbhbbhbbbBBbbbhbf”等,行为序列中的每个字母指代一个行为指令,且每个行为序列中的行为指令都按照时间顺序进行排列,如“h”“h”“B”等,label指代的是分类标签,有分类标签的用数字表示,无分类标签的用特殊字母表示,如“1”、“2”、“NAN”等。本实施例通过将用户群体的行为数据整理为行为序列数据集,可以便于后续对用户群体的行为数据进行特征提取和分类分析,从而提高数据处理效率。
在一个实施例中,上述步骤102具体还可以包括以下步骤:首先利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取,得到包含有多个频繁行为指令组合的频繁指令组合列表,然后对频繁指令组合列表中的每个频繁行为指令组合在行为序列数据集中出现的频次进行统计,得到以用户名和频繁行为指令组合为字段名的频繁指令组合特征表。在本实施例中,计算机设备具体可以采用FP-Growth算法对行为序列数据集中的所有行为序列进行频繁行为指令组合进行提取,以得到长短不一的频繁指令组合列表。举例来说,图3示出了一种频繁指令组合特征表的样例示意图,如图3所示,account指代的是用户名,如“17744.0”、“17763.0”等,其他字段名指代的是频繁行为指令组合,如“FD”、“AC”等,每个频繁行为指令组合下的数字指的是频繁行为指令组合出现的频次,如“8”、“16”、“9”等。在本实施例中,频繁指令组合列表可以提供频繁行为指令组合频次这一特征,通过该特征,可以挖掘出每个用户的日常行为习惯以及用户群体的整体日常行为趋势,从而为无社交关系的用户群体的分类准确性提供依据。
在一个实施例中,上述步骤103具体还可以包括以下步骤:首先通过全局序列对比算法,计算行为序列数据集中的各个行为序列之间的全局序列匹配分值数组和全局序列间相似度分值数组,并对全局序列匹配分值数组和全局序列间相似度分值数组分别进行最大值、最小值、平均值、标准差和方差计算,得到全局序列相似性特征表,然后通过局部序列对比算法,计算行为序列数据集中的各个行为序列之间的局部序列匹配分值数组和局部序列间相似度分值数组,并对局部序列匹配分值数组和局部序列间相似度分值数组分别进行最大值、最小值、平均值、标准差和方差计算,得到局部序列相似性特征表,最后以每个用户的用户名作为关联字段,对全局序列相似性特征表和局部序列相似性特征表进行关联合并,得到序列相似性特征表。在本实施例中,计算机设备具体可以采用Needleman-Wunsch全局序列对比算法和Smith-Waterman局部序列对比算法,分别计算出每个用户的行为序列与其他所有用户的行为序列之间的全局score(序列匹配分数)数组、全局percentIdentity(序列间相似度百分比值)数组、局部score数组和局部percentIdentity数组,然后分别计算每个数组的最大值、最小值、平均值、标准差和方差,以输出全局序列相似性特征表和局部序列相似性特征表,最后通过用户名字段对全局序列相似性特征表和局部序列相似性特征表进行关联合并,即可得到序列相似性特征表。举例来说,图4示出了一种序列相似性特征表的样例示意图,如图4所示,account指代的是用户名,如“17744.0”、“17763.0”等,其他字段名指代的是每个数组的最大值、最小值、平均值、标准差和方差, 如“Ioc_score_min”、“Ioc_score_std”等。在本实施例中,序列相似性特征表可以提供序列相似性这一特征,通过该特征,可以挖掘出用户行为之间的行为关系和潜在联系,从而提高无社交关系和无行为轨迹的用户群体的分类准确性。
在一个实施例中,上述步骤104具体可以包括以下步骤:首先对行为序列数据集中的所有行为指令进行合并和去重处理,得到包含有所有行为指令的行为指令列表,然后对行为指令列表中的每个行为指令在行为序列数据集中出现的频次进行统计,得到以用户名和行为指令为字段名的行为指令频次特征表。举例来说,图5示出了一种行为指令频次特征表的样例示意图,如图5所示,account指代的是用户名,如“17744.0”、“17763.0”等,其他字段名指代的是行为指令,如“A”、“B”、“C”等,每个行为指令下的数字指的是行为指令出现的频次,如“0”、“4”、“0”等。在本实施例中,行为指令频次特征表可以提供行为指令频次这一特征,通过该特征,可以挖掘出每个用户的行为惯性和用户群体的整体行为惯性,进一步提升无社交关系的用户群体的分类准确性。
在一个实施例中,上述步骤105具体可以包括以下步骤:首先以每个用户的用户名作为关联字段,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行关联合并,得到特征集成数据表,然后通过半监督支持向量机算法,对特征集成数据表进行分类分析,得到用户群体分类数据表,即得到具有不同类别的用户群体。举例来说,图6示出了一种用户群体分类数据表的样例示意图,如图6所示,account指代的是用户名,其他字段名指代的是行为指令、频繁行为指令组合等特征,label指代的是分类标签。通过用户群体分类数据表,可以得到具有不同类别的用户群体。进一步的,通过将用户群体分类数据表制作为散点图,还可以更为形象的观察到用户群体的分类结果,其中,用户群体的分类结果的散点示意图如图7所示。在本实施例中,通过采用半监督分类算法,可以减少相当一部分为用户数据添加分类标签的工作量,从而提高用户分类模型的训练效率,减少人力成本。
在一个实施例中,用户群体包括有标签用户和无标签用户,其中,有标签用户的行为数据中包含一个分类标签。则上述步骤105具体可以包括以下步骤:首先根据有标签用户在特征集成数据表中的特征和有标签用户的分类标签,对支持向量机模型进行训练,得到初始用户分类模型,然后将无标签用户在特征集成数据表中的特征输入到初始用户分类模型中,得到无标签用户的分类标签,进而根据无标签用户在特征集成数据表中的特征和无标签用户的分类标签,对初始用户分 类模型进行优化,得到用户分类模型,最后将用户群体中所有用户在特征集成数据表中的特征输入到用户分类模型中,得到具有不同类别的用户群体。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的实施过程,提供了用户群体的分类方法,如图8所示,该方法包括以下步骤:
步骤1,获取用户群体的行为数据,包括每个用户的用户名、行为指令、行为指令的操作时间以及不完整的群体分类标签;
步骤2,数据清洗及加工,主要包括使用预设字符字典对行为序列进行编码,生成以用户名为主体对象的行为序列数据集;
步骤3,统计频繁项集作为特征,即通过FP-Growth算法对所有用户的行为序列数据进行行为频繁项计算和统计,并用作特征字段,得到数据表D0;
步骤4,序列相似性特征计算,即针对所有用户行为序列使用Needleman-Wunsch算法和Smith-Waterman算法计算序列相似性,这两种算法分别为全局序列对比算法、局部序列对比算法,且都对应产出score(序列匹配分数)数组与percentIdentity(序列间相似度百分比值)数组,对计算获得的score、percentIdentity数组分别进行最大值、最小值、平均值、标准差、方差计算,输出作为特征列,得到数据表D1;
步骤5,统计全体主体对象行为序列中的各个指令的出现频次,作为特征字段,得到数据表D2;
步骤6,对所有特征字段数据表D0、D1和D2进行特征工程处理,并整理为模型输入格式DX;
步骤7,使用TSVM半监督分类算法,得出用户群体分类。
本实施例提供的用户群体的分类方法,通过对用户群体的行为数据进行全局和局部的序列相似性比对计算,并加工为统计特征,可以将每个用户与全体用户之间的潜在联系标量化,并可以弥补无社交用户之间的行为关系属性,从而增加用户之间潜在联系属性;通过对用户群体的行为指令和频繁操作行为组合进行频次统计,可以挖掘出用户群体之间存在的行为习惯属性,从而提升用户群体分类的准确性。 最后,通过使用半监督分类算法,还可以减少人为添加标签的工作,从而提高用户群体分类的自动化程度和运作效率。
进一步的,作为图1至图8所示方法的具体实现,本实施例提供了一种用户群体的分类装置,如图9所示,该装置包括:用户数据获取模块21、频繁项特征提取模块22、相似性特征提取模块23、指令频次特征提取模块24、用户群体分类模块25。
用户数据获取模块21,可用于获取用户群体的行为数据,并对用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,其中,每个用户名对应一个行为序列,每个行为序列包含至少一个行为指令;
频繁项特征提取模块22,可用于利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表;
相似性特征提取模块23,可用于通过序列对比算法,计算行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表;
指令频次特征提取模块24,可用于对行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表;
用户群体分类模块25,可用于采用半监督分类算法,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体。
在具体的应用场景中,用户数据获取模块21,具体可用于获取用户群体的行为数据,其中,用户群体的行为数据包括每个用户的用户名、每个用户的至少一个行为指令以及每个行为指令的操作时间;利用预设的字符字典,对每个用户的行为指令进行编码处理;根据行为指令的操作时间,对编码后的行为指令进行排序,得到每个用户的行为序列;根据每个用户的用户名和每个用户的行为序列,生成以每个用户的用户名为主体对象的行为序列数据集。
在具体的应用场景中,频繁项特征提取模块22,具体可用于利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取,得到包含有多个频繁行为指令组合的频繁指令组合列表;对频繁指令组合列表中的每个频繁行为指令组合在行为序列数据集中出现的频次 进行统计,得到以用户名和频繁行为指令组合为字段名的频繁指令组合特征表。
在具体的应用场景中,相似性特征提取模块23,具体可用于通过全局序列对比算法,计算行为序列数据集中的各个行为序列之间的全局序列匹配分值数组和全局序列间相似度分值数组;对全局序列匹配分值数组和全局序列间相似度分值数组分别进行最大值、最小值、平均值、标准差和方差计算,得到全局序列相似性特征表;通过局部序列对比算法,计算行为序列数据集中的各个行为序列之间的局部序列匹配分值数组和局部序列间相似度分值数组;对局部序列匹配分值数组和局部序列间相似度分值数组分别进行最大值、最小值、平均值、标准差和方差计算,得到局部序列相似性特征表;以每个用户的用户名作为关联字段,对全局序列相似性特征表和局部序列相似性特征表进行关联合并,得到序列相似性特征表。
在具体的应用场景中,指令频次特征提取模块24,具体可用于对行为序列数据集中的所有行为指令进行合并和去重处理,得到包含有所有行为指令的行为指令列表;对行为指令列表中的每个行为指令在行为序列数据集中出现的频次进行统计,得到以用户名和行为指令为字段名的行为指令频次特征表。
在具体的应用场景中,用户群体分类模块25,具体可用于以每个用户的用户名作为关联字段,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行关联合并,得到特征集成数据表;通过半监督支持向量机算法,对特征集成数据表进行分类分析,得到具有不同类别的用户群体。
在具体的应用场景中,用户群体包括有标签用户和无标签用户,有标签用户的行为数据中包含一个分类标签;用户群体分类模块25,具体还可用于根据有标签用户在特征集成数据表中的特征和有标签用户的分类标签,对支持向量机模型进行训练,得到初始用户分类模型;将无标签用户在特征集成数据表中的特征输入到初始用户分类模型中,得到无标签用户的分类标签;根据无标签用户在特征集成数据表中的特征和无标签用户的分类标签,对初始用户分类模型进行优化,得到用户分类模型;将用户群体中所有用户在特征集成数据表中的特征输入到用户分类模型中,得到具有不同类别的用户群体。
需要说明的是,本实施例提供的一种用户群体的分类装置所涉及各功能模块的其它相应描述,可以参考图1至图8中的对应描述,在此不再赘述。
基于上述如图1至图8所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1至图8所示的用户群体的分类方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图8所示的方法,以及图9所示的用户群体的分类装置实施例,为了实现上述目的,本实施例还提供了一种用户群体的分类的实体设备,具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图8所示的方法。
可选的,该实体设备还可以包括用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种用户群体的分类的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和待识别软件资源的程序,支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过获取用户群体的行为数据,并对用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表,通过序列对比算法,计算行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表,对行为序列数据集中的行为指 令进行频次统计,得到行为指令频次特征表,采用半监督分类算法,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体。与现有技术相比,上述方法挖掘用户群体中各个用户之间的行为习惯属性、行为关系属性和潜在联系属性,使用户群体分类方法可以广泛的应用在用户之间无社交关系和用户操作无行为轨迹的应用场景中,扩展了用户群体分类方法的使用范围。此外,上述方法还减少了用户群体添加分类标签的工作量,有效的提高了用户群体分类模型的训练效率和用户群体的分类效率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
- 一种用户群体的分类方法,其中,所述方法包括:获取用户群体的行为数据,并对所述用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,其中,每个用户名对应一个行为序列,每个行为序列包含至少一个行为指令;利用关联分析算法,对所述行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表;通过序列对比算法,计算所述行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表;对所述行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表;采用半监督分类算法,对所述频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体。
- 根据权利要求1所述的方法,其中,所述获取用户群体的行为数据,并对所述用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,包括:获取用户群体的行为数据,其中,所述用户群体的行为数据包括每个用户的用户名、每个用户的至少一个行为指令以及每个行为指令的操作时间;利用预设的字符字典,对每个用户的行为指令进行编码处理;根据所述行为指令的操作时间,对编码后的行为指令进行排序,得到每个用户的行为序列;根据所述每个用户的用户名和所述每个用户的行为序列,生成以每个用户的用户名为主体对象的行为序列数据集。
- 根据权利要求1所述的方法,其中,所述利用关联分析算法,对所述行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表,包括:利用关联分析算法,对所述行为序列数据集中的频繁行为指令组合进行提取,得到包含有多个频繁行为指令组合的频繁指令组合列表;对所述频繁指令组合列表中的每个频繁行为指令组合在所述行为序列数据集中出现的频次进行统计,得到以用户名和频繁行为指令组合为字段名的频繁指令组合特征表。
- 根据权利要求1所述的方法,其中,所述通过序列对比算法,计算所述行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表,包括:通过全局序列对比算法,计算所述行为序列数据集中的各个行为序列之间的全局序列匹配分值数组和全局序列间相似度分值数组;对所述全局序列匹配分值数组和全局序列间相似度分值数组分别 进行最大值、最小值、平均值、标准差和方差计算,得到全局序列相似性特征表;通过局部序列对比算法,计算所述行为序列数据集中的各个行为序列之间的局部序列匹配分值数组和局部序列间相似度分值数组;对所述局部序列匹配分值数组和局部序列间相似度分值数组分别进行最大值、最小值、平均值、标准差和方差计算,得到局部序列相似性特征表;以每个用户的用户名作为关联字段,对所述全局序列相似性特征表和所述局部序列相似性特征表进行关联合并,得到序列相似性特征表。
- 根据权利要求1所述的方法,其中,所述对行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表,包括:对所述行为序列数据集中的所有行为指令进行合并和去重处理,得到包含有所有行为指令的行为指令列表;对所述行为指令列表中的每个行为指令在所述行为序列数据集中出现的频次进行统计,得到以用户名和行为指令为字段名的行为指令频次特征表。
- 根据权利要求1所述的方法,其中,所述采用半监督分类算法,对所述频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体,包括:以每个用户的用户名作为关联字段,对所述频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行关联合并,得到特征集成数据表;通过半监督支持向量机算法,对所述特征集成数据表进行分类分析,得到具有不同类别的用户群体。
- 根据权利要求6所述的方法,其中,所述用户群体包括有标签用户和无标签用户,所述有标签用户的行为数据中包含一个分类标签;则所述通过半监督支持向量机算法,对所述特征集成数据表进行分类分析,得到具有不同类别的用户群体,包括:根据所述有标签用户在所述特征集成数据表中的特征和所述有标签用户的分类标签,对支持向量机模型进行训练,得到初始用户分类模型;将所述无标签用户在所述特征集成数据表中的特征输入到所述初始用户分类模型中,得到所述无标签用户的分类标签;根据所述无标签用户在所述特征集成数据表中的特征和所述无标签用户的分类标签,对所述初始用户分类模型进行优化,得到用户分类模型;将所述用户群体中所有用户在所述特征集成数据表中的特征输入到所述用户分类模型中,得到具有不同类别的用户群体。
- 一种用户群体的分类装置,其中,所述装置包括:用户数据获取模块,用于获取用户群体的行为数据,并对所述用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,其中,每个用户名对应一个行为序列,每个行为序列包含至少一个行为指令;频繁项特征提取模块,用于利用关联分析算法,对所述行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表;相似性特征提取模块,用于通过序列对比算法,计算所述行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表;指令频次特征提取模块,用于对所述行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表;用户群体分类模块,用于采用半监督分类算法,对所述频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体。
- 一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
- 一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111412279.0A CN113836370B (zh) | 2021-11-25 | 2021-11-25 | 用户群体的分类方法、装置、存储介质及计算机设备 |
CN202111412279.0 | 2021-11-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023092646A1 true WO2023092646A1 (zh) | 2023-06-01 |
Family
ID=78971392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2021/135899 WO2023092646A1 (zh) | 2021-11-25 | 2021-12-07 | 用户群体的分类方法、装置、存储介质及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113836370B (zh) |
WO (1) | WO2023092646A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110879856A (zh) * | 2019-11-27 | 2020-03-13 | 国家计算机网络与信息安全管理中心 | 一种基于多特征融合的社交群体分类方法及系统 |
CN111488385A (zh) * | 2020-04-07 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的数据处理方法、装置和计算机设备 |
CN112541745A (zh) * | 2020-12-22 | 2021-03-23 | 平安银行股份有限公司 | 用户行为数据分析方法、装置、电子设备及可读存储介质 |
CN113239249A (zh) * | 2021-06-04 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 一种对象关联识别方法、装置和存储介质 |
US20210312288A1 (en) * | 2020-12-28 | 2021-10-07 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for training classification model, classification method, apparatus and device |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10037121B2 (en) * | 2012-10-09 | 2018-07-31 | Paypal, Inc. | Visual mining of user behavior patterns |
CN106657410B (zh) * | 2017-02-28 | 2018-04-03 | 国家电网公司 | 基于用户访问序列的异常行为检测方法 |
CN109086816A (zh) * | 2018-07-24 | 2018-12-25 | 重庆富民银行股份有限公司 | 一种基于贝叶斯分类算法的用户行为分析系统 |
US11700269B2 (en) * | 2018-12-18 | 2023-07-11 | Fortinet, Inc. | Analyzing user behavior patterns to detect compromised nodes in an enterprise network |
CN110472050A (zh) * | 2019-07-24 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 一种团伙聚类方法和装置 |
CN110837862B (zh) * | 2019-11-06 | 2021-10-01 | 腾讯科技(深圳)有限公司 | 用户分类方法及装置 |
CN111274907B (zh) * | 2020-01-16 | 2023-04-25 | 支付宝(中国)网络技术有限公司 | 使用类别识别模型来确定用户的类别标签的方法和装置 |
CN112116464B (zh) * | 2020-05-21 | 2023-07-14 | 上海金融期货信息技术有限公司 | 基于事件序列频繁项集的异常交易行为分析方法和系统 |
CN111694718A (zh) * | 2020-05-27 | 2020-09-22 | 平安普惠企业管理有限公司 | 内网用户异常行为识别方法、装置、计算机设备及可读存储介质 |
CN113011886B (zh) * | 2021-02-19 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 帐号类型的确定方法和装置及电子设备 |
CN113378892A (zh) * | 2021-05-20 | 2021-09-10 | 南京光普信息技术有限公司 | 基于移动手机app使用行为数据的多序列对比分类方法 |
CN113468432A (zh) * | 2021-08-02 | 2021-10-01 | 东莞市汇学汇玩教育科技有限公司 | 基于移动互联网的用户行为大数据分析方法及系统 |
-
2021
- 2021-11-25 CN CN202111412279.0A patent/CN113836370B/zh active Active
- 2021-12-07 WO PCT/CN2021/135899 patent/WO2023092646A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110879856A (zh) * | 2019-11-27 | 2020-03-13 | 国家计算机网络与信息安全管理中心 | 一种基于多特征融合的社交群体分类方法及系统 |
CN111488385A (zh) * | 2020-04-07 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的数据处理方法、装置和计算机设备 |
CN112541745A (zh) * | 2020-12-22 | 2021-03-23 | 平安银行股份有限公司 | 用户行为数据分析方法、装置、电子设备及可读存储介质 |
US20210312288A1 (en) * | 2020-12-28 | 2021-10-07 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for training classification model, classification method, apparatus and device |
CN113239249A (zh) * | 2021-06-04 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 一种对象关联识别方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113836370A (zh) | 2021-12-24 |
CN113836370B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165249B (zh) | 数据处理模型构建方法、装置、服务器和用户端 | |
Kalmegh | Analysis of weka data mining algorithm reptree, simple cart and randomtree for classification of indian news | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
WO2019153604A1 (zh) | 人机识别模型的建立装置、方法及计算机可读存储介质 | |
WO2021027595A1 (zh) | 用户画像生成方法、装置、计算机设备和计算机可读存储介质 | |
KR102179890B1 (ko) | 텍스트 데이터 수집 및 분석을 위한 시스템 | |
TW202020691A (zh) | 特徵詞的確定方法、裝置和伺服器 | |
CN103294815A (zh) | 基于关键字分类并有多种呈现方式的搜索引擎装置与方法 | |
CN112507090A (zh) | 用于输出信息的方法、装置、设备和存储介质 | |
CN111930805A (zh) | 一种信息挖掘方法及计算机设备 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN111753089A (zh) | 话题聚类方法、装置、电子设备及存储介质 | |
CN106815253B (zh) | 一种基于混合数据类型数据的挖掘方法 | |
CN110929119A (zh) | 数据标注方法、装置、设备及计算机存储介质 | |
CN110489613B (zh) | 协同可视数据推荐方法及装置 | |
US10229212B2 (en) | Identifying Abandonment Using Gesture Movement | |
CN111310058A (zh) | 资讯主题的推荐方法、装置、终端及存储介质 | |
CN110929169A (zh) | 基于改进Canopy聚类协同过滤算法的职位推荐方法 | |
Wang et al. | Ranking social emotions by learning listwise preference | |
CN111783427B (zh) | 用于训练模型与输出信息的方法、装置、设备及存储介质 | |
CN102103502A (zh) | 基于经过遗留系统的踪迹来分析遗留系统的方法和系统 | |
WO2023092646A1 (zh) | 用户群体的分类方法、装置、存储介质及计算机设备 | |
CN115619245A (zh) | 一种基于数据降维方法的画像构建和分类方法及系统 | |
Dave et al. | Identifying functional and non-functional software requirements from user app reviews | |
CN112328653B (zh) | 数据识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21965374 Country of ref document: EP Kind code of ref document: A1 |