WO2022228371A1

WO2022228371A1 - 恶意流量账号检测方法、装置、设备和存储介质

Info

Publication number: WO2022228371A1
Application number: PCT/CN2022/088944
Authority: WO
Inventors: 黄群; 钟清华; 曹轲
Original assignee: 百果园技术(新加坡)有限公司; 黄群
Priority date: 2021-04-28
Filing date: 2022-04-25
Publication date: 2022-11-03
Also published as: CN113297840A; CN113297840B

Abstract

本申请实施例提供了一种恶意流量账号检测方法、装置、设备和存储介质。该方法包括：根据每个账号各自的关联信息生成对应的账号行为节点后，根据账号行为节点确定每个账号对应的账号行为序列，以及每个账号行为节点的关联账号数量，并根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度，再根据账号行为序列相似度确定恶意流量账号。该方案基于账号行为序列相似度对恶意流量账号进行识别，在识别的过程中不依赖账号登录设备的设备信息，从而能够识别出群控、箱控等恶意流量账号，提高了对恶意流量账号的识别效率以及准确性。

Description

恶意流量账号检测方法、装置、设备和存储介质

本申请要求在2021年04月28日提交中国专利局，申请号为202110470331.1的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种恶意流量账号检测方法、装置、设备和存储介质。

背景技术

随着网络技术以及通信技术的发展，网络直播逐渐走进了大众的生活之中，然而，网络直播行业中恶意流量账号的存在，阻碍了网络直播行业的健康发展。恶意流量账号是指，黑灰产业在互联网从事薅羊毛、引流、刷单等行为的账号，恶意流量账号在网络直播的过程中进行刷关注、刷房间人气、恶意引流等风险行为，使得网络直播行业存在着生态虚假繁荣、主播套取佣金、竞品挖走付费用户等情况。

目前对恶意流量账号进行聚集性检测的方式，主要依赖账号在设备标识、国际移动设备识别码、MAC地址、广告标识等节点注册登录环节的聚集性进行检测。然而，上述检测内容的全面性较差，检测效率和准确率均较低，不能合理挖掘利用更多的有用信息。同时，恶意流量账号除了登录设备聚集的特征外，还存在模拟器登录修改设备标识、群控、箱控等登录特征，其无法利用一台登录设备的聚集性进行检测，需要改进。

发明内容

本申请实施例提供了一种恶意流量账号检测方法、装置、设备和存储介质，通过账号行为序列、关联账号数量以及账号总量计算每个账号之间的账号行为序列相似度，之后根据账号行为序列相似度确定出恶意流量账号，在对恶意流量账号的识别过程中不依赖登录设备的设备信息，能够识别出群控、箱控等恶意流量账号，提高识别效率以及准确性。

第一方面，本申请实施例提供了一种恶意流量账号检测方法，包括以下步骤：

根据每个账号各自的关联信息生成对应的账号行为节点；

根据所述账号行为节点确定每个账号对应的账号行为序列，以及每个账号行为节点的关联账号数量；

根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度；

根据所述账号行为序列相似度确定恶意流量账号。

第二方面，本申请实施例提供了一种恶意流量账号检测装置，所述装置包括：

行为节点生成模块，配置为根据每个账号各自的关联信息生成对应的账号行为节点；

序列确定模块，配置为根据所述账号行为节点确定每个账号对应的账号行为序列；

关联账号确定模块，配置为根据所述账号行为节点确定每个账号行为节点的关联账号数量；

相似度确定模块，配置为根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度；

恶意账号确定模块，配置为根据所述账号行为序列相似度确定恶意流量账号。

第三方面，本申请实施例提供了一种恶意流量账号检测设备，所述设备包括：一个或多个处理器；存储装置，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的恶意流量账号检测方法。

第四方面，本申请实施例提供了一种存储计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时配置为执行如第一方面所述的恶意流量账号检测方法。

第五方面，本申请实施例还提供一种恶意流量账号检测的程序，该程序被执行时，可以实现如第一方面所述的恶意流量账号检测方法有关的操作。

本申请实施例中，首先根据每个账号各自的关联信息生成对应的账号行为节点，之后根据账号行为节点确定每个账号对应的账号行为序列以及每个账号行为节点的关联账号数量，并根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度，再根据账号行为序列相似度确定恶意流量账号。该方案基于账号行为序列相似度对恶意流量账号进行识别，在识别的过程中不依赖账号登录设备的设备信息，从而能够识别出群控、箱控等恶意流量账号，提高了对恶意流量账号的识别效率以及准确性。

附图说明

图1为本申请实施例提供的一种恶意流量账号检测方法的流程图；

图2为本申请实施例提供的另一种恶意流量账号检测方法的流程图；

图3为本申请实施例提供的另一种恶意流量账号检测方法的流程图；

图4为本申请实施例提供的一个示例性的有向图；

图5为本申请实施例提供的一个示例性的强连通分量效果图；

图6为本申请实施例提供的一种基于账号的强连通分量分布图；

图7为本申请实施例提供的一种恶意流量账号检测装置的结构框图；

图8为本申请实施例提供的一种恶意流量账号检测设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例可以配置为解释本申请实施例，而非对本申请实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请实施例相关的部分而非全部结构。

图1为本申请实施例提供的一种恶意流量账号检测方法的流程图，本实施例可配置为对恶意流量账号进行检测，该方法可以由计算设备如服务器来执行，具体包括如下步骤：

步骤S101、根据每个账号各自的关联信息生成对应的账号行为节点。

在一个实施例中，账号的关联信息是指与账号具体操作、行为相关联的信息，示例性的，账号的关联信息包括账号的动作执行内容，通过获取账号的动作执行内容即可得到账号的关联信息。账号行为节点，是指记录有账号每一个动作执行内容的节点。示例性的，若一个账号在某一个时间段内的动作包括关注账号、观看直播、充值以及打赏，则在该时间段内，对于该账号，则存在四个账号行为节点，每个账号行为节点分别记录有该账号关注账号、观看直播、充值以及打赏的动作执行内容，其中，在账号行为节点中记录账号动作执行内容的方式可以是直接以文字记录账号的动作执行内容，也可以是以特定代码记录账号的动作执行内容。记录的具体方式可以根据实际需要设置，本方案不做限定。

举例而言，账号A的动作执行内容是观看账号C的直播，账号B的动作执行内容是打赏账号D，则在生成账号行为节点时，根据账号A观看账号C的直播的动作执行内容以及账号B打赏账号D的动作执行内容，分别生成账号A的账号行为节点以及账号B的动作执行内容节点，其中账号A的账号行为节点中记录有观看账号C的直播的动作执行内容，账号B的账号行为节点中记录有打赏账号D的动作执行内容。

在一个实施例中，步骤S101具体包括：

根据每个账号对应记录的动作发生时间、动作发生节点以及动作执行内容生成对应的账号行为节点。

通过获取每个账号的动作发生时间、动作发生节点以及动作执行内容，来生成每个账号的账号行为节点。示例性的，若某一账号在3点关注账号A，则该账号生成的一个行为节点中记录有“在3点关注账号A”的内容，若该账号在5点观看账号B的直播，则该账号生成的另一个行为节点中记录有“在5点观看账号B的直播”的内容。

在一个实施例中，通过查表确定动作索引的方式来记录动作执行内容，如表1所示，每一个动作索引对应一种动作执行内容。

表1

动作索引	动作执行内容	动作索引	动作执行内容
1	注册IP	7	充值IP
2	登录IP	8	关注UID
3	改密设备ID	9	观看UID

4	该手机设备ID	10	打赏UID
5	绑定账号openid	11	陌生人私信UID

对于每一个账号n的任意一个行为节点m，将每个账号的每一个动作节点记录为：a _nm＝动作发生时间_动作发生节点_动作索引。示例性的，若某一账号在3点关注账号A，则生成的动作节点为：03_账号A_编码8；若某一账号在在5点观看账号B的直播，则生成的动作节点为：05_账号B_编码9。

步骤S102、根据账号行为节点确定每个账号对应的账号行为序列，以及每个账号行为节点的关联账号数量。

账号行为序列指包含有同一个账号多个账号行为节点的序列，在得到每个账号对应的账号行为节点后，可根据每个账号的账号行为节点确定每个账号的账号行为序列。示例性的，账号A的账号行为节点有3个，则根据账号A的3个账号行为节点，即可确定账号A的账号行为序列。其中，根据账号行为节点生成账号行为序列的方式可以是根据动作执行内容的发生时间对账号行为节点进行排序生成账号行为序列，也可以是根据随机对账号行为节点进行排序生成账号行为序列。

在根据账号行为节点确定每个账号对应的账号行为序列的同时，相应的确定每个账号行为节点的关联账号数量，每个账号行为节点的关联账号数量即与每个账号行为节点存在一定联系或相同特征的账号，通过获取每个账号行为节点的关联账号的数量，从而便于后续对账号行为序列之间的序列相似度进行计算。

在一个实施例中，确定每个账号行为节点的关联账号数量的方式具体为：确定包含和每个账号行为节点中动作执行内容一致的其他账号的数量。具体的，确定每个账号行为节点的关联账号的方式，可以是确定和每个账号行为节点中动作执行内容一致的其他账号，例如，若某一账号行为节点中动作执行内容是打赏账号D，则将动作执行内容同样为打赏账号D的其他账号作为该账号行为节点的关联账号，并获取关联账号的数量。

步骤103、根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度。

账号行为序列相似度即每个账号行为序列之间的相似度，若两个账号行为序列相似度越高，则说明这两个账号行为序列中的动作节点越相似，若两个账号行为序列中的动作执行内容总是相同的，则说明这两个账号行为序列所对应的账号很可能是由同一个人员在操控，这两个账号是恶意流量账号的可能性越高。

在根据账号行为节点确定每个账号对应的账号行为序列以及每个账号行为节点的关联账号数量后，获取账号的总量，之后根据账号行为序列、关联账号数量以及账号总量进行计算，从而得到每个账号之间的账号行为序列相似度。

步骤S104、根据账号行为序列相似度确定恶意流量账号。

在得到每个账号之间的账号行为序列相似度后，即可根据每个账号之间的账号行为序列相似度确定出恶意账号。示例性的，在一个实施例中，预先设置好相似度阈值，在计算出每个账号之间的账号行为序列相似度后，根据相似度阈值对账号进行过滤，保留账号行为序列相似度比较高的账号，之后在从保留的账号中确定出恶意流量账号。

由上述方案可知，为了对恶意流量账号进行检测，首先根据每个账号各自的关联信息生成对应的账号行为节点，之后根据账号行为节点确定每个账号对应的账号行为序列，以及每个账号行为节点的关联账号数量，并根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度，再根据账号行为序列相似度确定恶意流量账号。该方案通过确定每个账号的账号行为序列，并通过计算每个账号之间的账号行为序列相似度对恶意流量账号进行识别，在识别的过程中不依赖账号登录设备的设备信息，从而能够识别出群控、箱控等恶意流量账号，提高了对恶意流量账号的识别效率以及准确性。

图2为本申请实施例提供的另一种恶意流量账号检测方法的流程图，给出了根据每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度的方法。如图2所示，技术方案具体如下：

步骤S201、根据每个账号各自的关联信息生成对应的账号行为节点。

步骤S202、根据账号行为节点确定每个账号对应的账号行为序列，以及每个账号行为节点的关联账号数量。

步骤S203、根据账号行为序列、关联账号数量以及账号总量计算得到每个账号行为节点的频率值。

在一个实施例中，频率值可以是TF-IDF值，TF-IDF值是一种数字统计，配置为反映单词对集合或者是语料库中的文档的重要程度。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF×IDF，TF表示词条t在文档d中出现的频率，IDF的主要思想是：如果包含词条t的文档d越少，IDF越大，则说明词条t具有很好的类别区分能力。在一个实施例中，根据账号行为序列、关联账号数量以及账号总量计算得到每个账号行为节点的TF-IDF值，根据TD-IDF值来衡量每个账号行为节点出现的频率。

在一个实施例中，步骤S203具体可由步骤S2031-步骤S2033实现，具体如下：

步骤S2031、确定每个账号对应的账号行为序列中账号行为节点的个数，根据所述账号行为节点的个数确定每个账号的行为频率值。

确定每个账号的行为频率值，即确定每个账号TF值，在TF-IDF方法中，TF值的计算公式为：

在一个实施例中，获取每个账号对应的账号行为序列中账号行为节点的个数，并将每个账号行为节点作为一个词，将账号行为序列中账号行为节点的个数作为文章的总词数，根据TF值的计算公式计算出每个账号的行为频率值。示例性的，账号A的账号行为序列中账号行为节点的个数为5个，则据所述账号行为节点的个数确定账号A的行为频率值的计算公式为：

步骤S2032、根据每个账号下每个账号行为节点的关联账号数量以及账号总量计算得到每个账号行为节点的逆行为频率指数。

计算每个账号行为节点的逆行为频率指数，即计算每个账号行为节点的IDF值，在TF-IDF方法中，IDF值的计算公式为：

在一个实施例中，将每个账号下每个账号行为节点的关联账号数量作为包含某个词的文档总数，将账号总量作为语料库的文档总数，根据IDF值的计算公式，从而计算出每个账号行为节点的IDF值。示例性的，若某个账号行为节点的关联账号数量为80，账号总量为500，则此时计算每个账号行为节点的逆行为频率指数的公式为：

步骤S2033、根据行为频率值以及逆行为频率指数计算得到每个账号行为节点的频率值。

在计算出TF值以及IDF值后，在TF-IDF方法中，根据公式

TF-IDF＝TF×IDF

即可计算出TF-IDF值，即每个账号行为节点的频率值。示例性的，在一个实施例中，若一个账号行为节点的行为频率值为0.2，即TF为0.2，逆行为频率指数为5.2，即IDF为5.2，则TF-IDF＝0.2×5.2＝1.04，从而计算得到该账号行为节点的频率值。

在一个实施例中，账号A的账号行为序列的长度为7，则其每个行为节点的TF值为1/7＝0.143；账号总量为100万，账号A的账号行为序列的7个行为节点[19_账号编码1_9、20_账号编码1_9、05_账号编码2_9、06_账号编码2_9、06_账号编码3_9、12_账号编码4_9、07_账号编码5_9]关联账号总量分别为[9，13，360，761，115，1445，1582]，则其IDF值分别为[11.6，11.3，7.9，7.2，6.8，6.5，6.4]；将TF值与IDF值相乘即得到账号A每个账号行为节点的TF-IDF值。

步骤S204、根据每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。

在计算出每个账号行为节点的频率值后，即可根据每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。在一个实施例中，采用LSI来计算每个账号之间的账号行为序列相似度，LSI即为潜在语义索引，LSI算法是基于是基于奇异值分解(SVD)的方法来得到文本的主题的，将SVD降维到 k维后，SVD的分解可以近似写成以下形式：

对于输入的m个词，对应n个文本，A _ij对应第i个文本的第j个词的特征值，一般常用的是基于预处理后的标准化TF-IDF值，k为假设的主题数，主题数一般小于文本数。在进行SVD分解后，U _il对应第i词和第l个词义的相关度，V _jm对应第j个文本和第m个主题的相关度，∑ _lm对应第l个词义和第m个主题的相关度。

在一个实施例中，在设置了主题数目后，将账号行为节点作为词，账号行为序列作为文本，对每个账号行为节点的TF-IDF值采用LSI进行分解，可计算出账号行为序列与主题的相关度，并在此基础上，对每个账号之间的账号行为序列相似度进行计算。

在一个实施例中，步骤S204具体可由步骤S2041以及步骤S2043实现，具体如下：

步骤S2041、通过矩阵分解公式对频率值矩阵进行降维，得到每个账户行为序列和行为主题的相关度矩阵；

行为主题，是指账户行为序列之间相似的类型，行为主题的数目可根据实际需要进行设置。例如，将行为主题数目设置为4个。在计算出每个账号行为节点的频率值后，根据每个账号行为节点的频率值生成频率值矩阵，即TF-IDF矩阵，之后，根据矩阵分解公式，即SVD分解公式，将TF-IDF矩阵降低到k维，得到每个账号行为序列和行为主题的相关度矩阵。

在一个实施例中，TF-IDF数值矩阵如表2所示，对表2的TF-IDF数值矩阵采用LSI降低至4维，分解公式为A＝U·Sigma·V，其中，Sigma表示主题，分解结果如表3所示，表3中V.T表示V的转置，即每个账号行为序列和行为主题的相关度矩阵。

表2

表3

U	0.0000	-0.4722	0.7071	0.3553
	0.0000	0.0000	0.0000	0.0000
	-0.9997	0.0021	0.0000	-0.0176
	0.0000	0.0000	0.0000	0.0000
	-0.0257	-0.0804	0.0000	0.6846
	0.0000	-0.7400	0.0000	-0.5278
	0.0000	-0.4722	-0.7071	0.3553
Sigma	1.5005
		0.2906
			0.0673
				0.0671
V.T	-1.0000	0.0004	0.0000	-0.0008
	0.0000	0.0000	0.0000	0.0000
	0.0000	-0.8394	0.0000	-0.2797
	-0.0004	-0.3658	0.0000	0.1048
	-0.0005	-0.1179	-0.7071	0.6707
	-0.0005	-0.1179	0.7071	0.6707
	-0.0004	-0.3658	0.0000	0.1048

步骤S2043、基于相关度矩阵计算每个账号之间的账号行为序列相似度。

在得到TF-IDF数值矩阵的分解结果中的相关度矩阵V.T之后，即可基于相关度矩阵V.T计算每个账号之间的账号行为序列相似度。在一个实施例中，可计算相关度矩阵V.T中行向量之间的相似度作为账号行为序列相似度。

在一个实施例中，步骤S2043具体为：通过相似度计算公式对相关度矩阵的两两行向量进行计算得到每个账号之间的账号行为序列相似度。

其中，需要说明的是，相似度计算公式为：

其中，V _i-和V _j-分别表示相关度矩阵V.T中的行向量。

示例性的，以表3为例，采用相似度计算公式计算账号编码10和账号编码11之间的行为序列相似度，在表3的V.T中选取出第三行数据的以及第四行数据，第三行数据为[0.0000、-0.8394、0.0000、-0.2797]，第四行数据为[-0.0004、-0.3658、0.0000、0.1048]，将第三行数据和第四行数据进行四舍五入，保留小数点后的两位小数，之后根据余弦相似度公式对进行计算，可以得到：

因此，通过相似度计算公式对相关度矩阵的两两行向量进行计算，从而能够得到每个账号之间的账号行为序列相似度，根据表3中的数据，可以得到账号行为序列相似度的计算结果如表4所示。

表4

步骤S205、根据账号行为序列相似度确定恶意流量账号。

在滤除掉不符合计算要求的账号以及账号行为节点后，根据保留下来账号行为节点的频率值，计算每个账号之间的账号行为序列相似度。在一个实施例中，将账号行为序列的长度小于1的账号行为序列以及频率值小于0.5的账号行为节点进行剔除后，剩余P个账号行为节点、Q个账号，根据每个账号的每个账号行为节点组成一个P×Q的TF-IDF数值矩阵，将TF-IDF数值矩阵进行降维后，获得用户行为序列和行为主题的相关度矩阵，之后对相关度矩阵的行向量两两进行计算，从而得到每个账号之间的账号行为序列相似度。

由上述方案可知，在根据LSI计算出的每个账号的行为频率值以及每个账号行为节点的逆行为频率指数的基础上，计算出每个账号行为节点的频率值，并根据每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。由于LSI中具有降维的过程，因此LSI配置为进行大规模计算，从而即使在账号总量比较大的情况下，本方案也能够准确计算出每个账号之间的账号行为序列相似度，提高了对恶意流量账号的识别效率以及准确性。

在一实施例中，包括了数据滤除的处理，以优化恶意账号的整体处理流程。具体的，步骤S204可由步骤S2044以及步骤S2045实现，如下：

步骤S2044、根据账号行为序列的长度以及每个账号行为节点的频率值进行账号以及账号行为节点的滤除。

由于计算资源的限制，对于一些不符合计算要求的账号以及账号行为节点可以将其剔除，以减少后续计算账号行为序列相似度的计算量。例如，将账号行为序列的长度没有达到长度预设值的账号进行剔除，将账号行为节点的频率值小于频率预设值的账号行为节点进行剔除。在一个实施例中。当账号行为序列的长度等于1时，不足以计算账号两两之间的行为序列相似度，因此将账号行为序列的长度小于1的账号进行剔除；由于一些热门主播、公用IP的频率值相对来说较小，因此将频率值小于0.5的账号行为节点进行剔除。

步骤S2045、根据滤除后的账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。

图3为本申请实施例提供的另一种恶意流量账号检测方法的流程图，给出了利用连通子图算法计算强连通分量，根据强连通分量筛选出恶意流量账号的方法。如图3所示，技术方案具体如下：

步骤S301、根据每个账号各自的关联信息生成对应的账号行为节点。

步骤S302、根据账号行为节点确定每个账号对应的账号行为序列，以及每个账号行为节点的关联账号数量。

步骤S303、根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度。

步骤S304、根据每个账号之间的账号行为序列相似度，筛选出强关联的账号关系对。

由于账号行为序列相似度表示账号动作节点相似的程度，两个账号之间的账号行为序列相似度越高，则这两个账号之间的关联性越强。在一个实施例中，可预先设置账号行为序列相似度阈值，根据账号行为序列相似度阈值筛选出强关联的账号关系对。示例性的，因为账号行为序列节点选取的较多为弱关联节点，因此采用余弦相似度公式计算账号行为序列相似度时，可选取夹角比较小的值作为账号行为序列相似度的过滤阈值，如30°。在对账号行为序列相似度进行过滤后，可获得强关联的账号关系对。示例性的，对于强关联的账号关系对账号A和账号B，可以将强关联的账号关系对表示为(账号A编码，账号B编码，账号A与账号B的行为序列相似度)，代表账号节点A和账号节点B相连且连接权重为账号之间的行为相似度。

步骤S305、将强关联的账号关系对输入到连通子图中，基于预设相似度阈值计算连通子图的强连通分量。

在得到强关联的账号关系对后，将强关联的账号关系对代入连通子图算法就可以获得强连通分量。对于连通子图算法，如图4所示，图4为本申请实施例提供的一个示例性的有向图，在有向图G中，如果两个顶点间至少存在一条路径，称两个顶点强连通。如果有向图G的每两个顶点都强连通，称G是一个强连通图。非强连通图有向图的极大强连通子图，称为强连通分量。例如，图4中，子图{1，2，3，4}为一个强连通分量，因为顶点1，2，3，4两两可达， {5}，{6}也分别是两个强连通分量，对于强连通分量，一般的求解算法为Tarjan算法，时间复杂度为O(N+M)。

在一个实施例中，将强关联的账号关系对输入到连通子图后，根据基于预设相似度阈值对筛选出连通子图的强连通分量。示例性的，将账号行为序列相似度阈值设置为0.8，筛选出连通子图的强连通分量。例如，对于表4中的数据，按照账号行为序列相似度阈值为0.8进行过滤，筛选出的强关联的账号关系对有(账号编码10，账号编码11，0.82)、(账号编码10，账号编码14，0.82)、(账号编码11，账号编码14，1)，强连通分量大小为3，对应的强连通分量的效果图如图5所示，图5为本申请实施例提供的一个示例性的强连通分量效果图。

步骤S306、将强连通分量个数大于强连通分量阈值的强连通分量对应的账号确定为恶意流量账号。

在得到连通子图的强连通分量后，根据强连通分量的个数，筛选出恶意流量账号，强连通分量的个数越多，则账号聚集性越强，账号风险也就越高。在一个实施例中，可根据预先设置的强连通分量阈值对筛选出恶意流量账号，可理解，强连通分量阈值可根据实际需要进行设置，在本实施例中不对强连通分量阈值的大小进行具体限定。示例性的，将强连通分量阈值设置为8，抽取实际4个账号所对应的强连通分量见如表5所示，账号1-4风险随着强连通分量的个数逐渐增加，因为账号1的强连通分量的个数小于强连通分量阈值，即批量聚集行为不明显，所以不识别为恶意流量账号。

表5

强连通分量编码	账号编码	强连通分量的个数
A	1	5
B	2	10
C	3	31
D	4	423

具体实例及测试数据示例性如下：

首先，随机抽取5个账号关系对，计算每个账号关系对的账号行为序列相似度，计算结果如表6所示。

表6

随机挑选最小的一个强连通分量，如表7所示，账号之间的账号行为序列相似度很高。

表7

抽取某一个小时监测出的团伙账号，分布情况如图6所示，图6为本申请实施例提供的一种基于账号的强连通分量分布图，图6中横坐标为强连通分量大小，主纵坐标为强连通分量个数，次纵坐标为当前强连通分量大小对应的账号总量，S1为强连通分量个数的曲线，S2为账号量曲线。图6中8220个账号分布在193个团伙中，强连通分量个数大于100的3059个账号分布在19个强连通分量中，没有出现1个强连通分量关联大部分账号的情况，说明边关系选取合理。

由上述方案可知，在确定恶意流量账号的过程中，通过连通子图算法计算出连通子图的强连通分量，并根据强连通分量的数目筛选出恶意流量账号，从而能够准确筛选出恶意流量账号，在此过程中不依赖账号登录设备的设备信息，提高了对恶意流量账号的识别效率以及准确性。

如图7为本申请实施例提供的一种恶意流量账号检测装置的结构框图，该装置配置为执行上述实施例提供的恶意流量账号检测方法，具备执行方法相应的功能模块和有益效果。如图7所示，该装置具体包括：行为节点生成模块401、序列确定模块402、关联账号确定模块403、相似度确定模块404以及恶意账号确定模块405，其中，

行为节点生成模块401，配置为根据每个账号各自的关联信息生成对应的账号行为节点；

序列确定模块402，配置为根据账号行为节点确定每个账号对应的账号行为序列；

关联账号确定模块403，配置为根据账号行为节点确定每个账号行为节点的关联账号数量；

相似度确定模块404，配置为根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度；

恶意账号确定模块405，配置为根据账号行为序列相似度确定恶意流量账号。

在一个实施例中，相似度确定模块404包括频率值计算子模块以及相似度计算子模块，其中，

频率值计算子模块配置为根据账号行为序列、关联账号数量以及账号总量计算得到每个账号行为节点的频率值；

相似度计算子模块配置为根据每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。

在一个实施例中，频率值计算子模块包括行为频率值计算单元，逆行为频率指数计算单元以及频率值计算单元，其中，

频率值计算单元配置为确定每个账号对应的账号行为序列中账号行为节点的个数，根据账号行为节点的个数确定每个账号的行为频率值；

逆行为频率指数计算单元配置为根据每个账号下每个账号行为节点的关联账号数量以及账号总量计算得到每个账号行为节点的逆行为频率指数；

频率值计算单元配置为根据行为频率值以及逆行为频率指数计算得到每个账号行为节点的频率值。

在一个实施例中，相似度计算子模块还包括频率值矩阵构建单元、降维单元以及账号行为序列相似度计算单元，其中，

频率值矩阵构建单元配置为根据每个账号行为节点的频率值以及账号行为序列，构建频率值矩阵；

降维单元配置为通过矩阵分解公式对频率值矩阵进行降维，得到每个账户行为序列和行为主题的相关度矩阵；

账号行为序列相似度计算单元配置为基于相关度矩阵计算每个账号之间的账号行为序列相似度。

在一个实施例中，账号行为序列相似度计算单元具体配置为通过相似度计算公式对相关度矩阵的两两行向量进行计算得到每个账号之间的账号行为序列相似度。

在一个实施例中，相似度计算子模块还包括；过滤单元以及计算单元，其中，

过滤单元配置为根据账号行为序列的长度以及每个账号行为节点的频率值进行账号以及账号行为节点的滤除；

计算单元配置为根据滤除后的账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。

在一个实施例中，恶意账号确定模块405包括筛选子模块、强连通分量计算子模块以及恶意流量账号确定子模块，其中，

筛选子模块配置为根据每个账号之间的账号行为序列相似度，筛选出强关联的账号关系对；

强连通分量计算子模块配置为将强关联的账号关系对输入到连通子图中，基于预设相似度阈值计算连通子图的强连通分量；

恶意流量账号确定子模块配置为将强连通分量个数大于强连通分量阈值的强连通分量对应的账号确定为恶意流量账号。

在一个实施例中，行为节点生成模块401配置为根据每个账号对应记录的动作发生时间、动作发生节点以及动作执行内容生成对应的账号行为节点。

在一个实施例中，行为节点生成模块401配置为确定每个账号行为节点的关联账号数量的方式为：确定包含和每个账号行为节点中动作执行内容一致的其他账号的数量。

图8为本申请实施例提供的一种恶意流量账号检测设备的结构示意图，如图8所示，该设备包括处理器501、存储器502、输入装置503和输出装置504；设备中处理器501的数量可以是一个或多个，图5中以一个处理器501为例；设备中的处理器501、存储器502、输入装置503和输出装置504可以通过总线或其他方式连接，图5中以通过总线连接为例。存储器502作为一种计算机可读存储介质，可配置为存储软件程序、计算机可执行程序以及模块，如本申请实施例中的恶意流量账号检测方法对应的程序指令/模块。处理器501通过运行存储在存储器502中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的恶意流量账号检测方法。输入装置503可配置为接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置504可包括显示屏等显示设备。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时配置为执行恶意流量账号检测方法，该方法包括：

根据每个账号各自的关联信息生成对应的账号行为节点；

根据账号行为节点确定每个账号对应的账号行为序列，以及每个账号行为节点的关联账号数量；

根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度；

根据账号行为序列相似度确定恶意流量账号。

值得注意的是，上述恶意流量账号检测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请实施例的保护范围。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行本申请实施例所记载的恶意流量账号检测方法。所述程序产品可以采用一个或多个可读介质的任意组合实现。。

Claims

恶意流量账号检测方法，配置于服务器中，其中，包括：

根据每个账号各自的关联信息生成对应的账号行为节点；

根据所述账号行为节点确定每个账号对应的账号行为序列，以及每个账号行为节点的关联账号数量；

根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度；

根据所述账号行为序列相似度确定恶意流量账号。
根据权利要求1所述的恶意流量账号检测方法，其中，所述根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度，包括：

根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号行为节点的频率值；

根据所述每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。
根据权利要求2所述的恶意流量账号检测方法，其中，所述根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号行为节点的频率值，包括：

确定每个账号对应的账号行为序列中账号行为节点的个数，根据所述账号行为节点的个数确定每个账号的行为频率值；

根据每个账号下每个账号行为节点的关联账号数量以及账号总量计算得到每个账号行为节点的逆行为频率指数；

根据所述行为频率值以及所述逆行为频率指数计算得到每个账号行为节点的频率值。
根据权利要求2所述的恶意流量账号检测方法，其中，所述根据所述每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度，包括：

根据所述每个账号行为节点的频率值以及账号行为序列，构建频率值矩阵；

通过矩阵分解公式对所述频率值矩阵进行降维，得到每个账户行为序列和行为主题的相关度矩阵；

基于所述相关度矩阵计算每个账号之间的账号行为序列相似度。
根据权利要求4所述的恶意流量账号检测方法，其中，所述基于所述相关度矩阵计算每个账号之间的账号行为序列相似度，包括：

通过相似度计算公式对所述相关度矩阵的两两行向量进行计算得到每个账号之间的账号行为序列相似度。
根据权利要求2所述的恶意流量账号检测方法，其中，所述根据所述每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度，包括：

根据所述账号行为序列的长度以及每个账号行为节点的频率值进行账号以及账号行为节点的滤除；

根据滤除后的账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。
根据权利要求1-6中任一项所述的恶意流量账号检测方法，其中，所述根据所述账号行为序列相似度确定恶意流量账号，包括：

根据所述每个账号之间的账号行为序列相似度，筛选出强关联的账号关系对；

将所述强关联的账号关系对输入到连通子图中，基于预设相似度阈值计算所述连通子图的强连通分量；

将强连通分量个数大于强连通分量阈值的强连通分量对应的账号确定为恶意流量账号。
根据权利要求1-6中任一项所述的恶意流量账号检测方法，其中，所述根据每个账号各自的关联信息生成对应的账号行为节点，包括：

根据每个账号对应记录的动作发生时间、动作发生节点以及动作执行内容生成对应的账号行为节点。
根据权利要求1-8中任一项所述的恶意流量账号检测方法，其中，确定每个账号行为节点的关联账号数量的方式包括：

确定包含和每个账号行为节点中动作执行内容一致的其他账号的数量。
恶意流量账号检测装置，其中，所述装置包括：

行为节点生成模块，配置为根据每个账号各自的关联信息生成对应的账号行为节点；

序列确定模块，配置为根据所述账号行为节点确定每个账号对应的账号行为序列；

关联账号确定模块，配置为根据所述账号行为节点确定每个账号行为节点的关联账号数量；

相似度确定模块，配置为根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度；

恶意账号确定模块，配置为根据所述账号行为序列相似度确定恶意流量账号。
一种恶意流量账号检测设备，所述设备包括：一个或多个处理器；存储装置，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一项所述的恶意流量账号检测方法。
一种存储计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时配置为执行如权利要求1-9中任一项所述的恶意流量账号检测方法。