WO2021073114A1

WO2021073114A1 - 基于统计的异常流量监测方法、装置、设备及存储介质

Info

Publication number: WO2021073114A1
Application number: PCT/CN2020/093392
Authority: WO
Inventors: 刘玉洁; 杨冬艳
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-10-18
Filing date: 2020-05-29
Publication date: 2021-04-22
Also published as: CN110830450A

Abstract

本申请涉及大数据领域，基于统计的异常流量监测方法，包括：收集预设时间段内的用户访问日志记录并进行清洗与变换处理，生成标准用户访问数据；统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布；将统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计；计算当前网络流量对应的统计特征在各时间维度内分别对应的高斯分布概率值；判断高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；若是，则判定当前网络流量为异常流量。本申请还公开了一种基于统计的异常流量监测装置、设备及存储介质。本申请易于部署且实施成本低，并可灵活应对不同时间周期不同业务场景的异常流量实时告警。

Description

基于统计的异常流量监测方法、装置、设备及存储介质

本申请要求于2019年10月18日提交中国专利局、申请号为201910991150.6，发明名称为“基于统计的异常流量监测方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及网络安全技术领域，尤其涉及一种基于统计的异常流量监测方法、装置、设备及存储介质。

背景技术

随着信息时代的到来，网络异常流量监测一直是信息安全领域的重要一环。网络异常流量指网络中流量不规则地显著变化。针对网络流量在短时间内可能发生的突变异常，其背后可能存在高频操作、异常时段访问、文件异常或者访问对象异常等问题。无论是哪类问题都可能面临服务质量下降影响正常用户访问以及网络安全问题。

目前异常流量监测通常都是基于机器学习方式来进行实现，发明人意识到这不仅需要搭建相应的技术系统以及部署监测模型，还需要专业的算法技术人员进行运维，实现起来有些复杂且成本较高。

技术问题

本申请的主要目的在于提供一种基于统计的异常流量监测方法、装置、设备及存储介质，旨在解决现有网络异常流量监测部署繁琐且实现成本高的技术问题。

技术解决方案

本申请提供一种基于统计的异常流量监测方法，包括：

基于预置埋点，收集预设时间段内的用户访问日志记录；

对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据；

分别按照天、周、月对应的时间窗口进行滑动，统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布；

将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数；

根据所述多元高斯分布密度函数，计算当前网络流量对应的用户访问日志记录的统计特征在各时间维度内分别对应的高斯分布概率值；

判断所述高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；

若所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值，则判定当前网络流量为异常流量。

本申请还提供一种基于统计的异常流量监测装置，包括：

收集模块，用于基于预置埋点，收集预设时间段内的用户访问日志记录；

标准化处理模块，用于对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据；

统计模块，用于分别按照天、周、月对应的时间窗口进行滑动，统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布；

映射模块，用于将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数；

计算模块，用于根据所述多元高斯分布密度函数，计算当前网络流量对应的用户访问日志记录的统计特征在各时间维度内分别对应的高斯分布概率值；

判断模块，用于判断所述高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；若所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值，则判定当前网络流量为异常流量。

本申请还提供一种基于统计的异常流量监测设备，所述异常流量监测设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的异常流量监测程序，所述异常流量监测程序被所述处理器执行时实现如上述任一项所述的异常流量监测方法的步骤。

本申请还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有异常流量监测程序，所述异常流量监测程序被处理器执行时实现如上述任一项所述的异常流量监测方法的步骤。

有益效果

本申请基于统计概率分析的方法进行异常流量检测，将用户访问记录对应的统计特征分布拟合成多元高斯分布，并基于多元高斯分布的特性实现异常流量检测。本实施例只需要经过一定的数据预处理和数据标准化并将数据拟合成高斯分布，即可方便地进行流量告警，该方法短小精悍，不涉及复杂的算法，易于部署实施且阈值可随着流量数据的实时特征进行动态调整，既避免了基于规则告警而不够灵活的缺点，也改善了基于机器学习等复杂算法实施成本高的问题。

附图说明

图1为本申请实施例方案涉及的异常流量监测设备运行环境的结构示意图；

图2为本申请基于统计的异常流量监测方法一实施例的流程示意图；

图3为图2中步骤S40一实施例的细化流程示意图；

图4为图2中步骤S20一实施例的细化流程示意图；

图5为本申请基于统计的异常流量监测装置一实施例的功能模块示意图。

本发明的最佳实施方式

本申请提供一种基于统计的异常流量监测设备。

参照图1，图1为本申请实施例方案涉及的异常流量监测设备运行环境的结构示意图。

如图1所示，该异常流量监测设备包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的异常流量监测设备的硬件结构并不构成对异常流量监测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于统计的异常流量监测程序。其中，操作系统是管理和控制异常流量监测设备和软件资源的程序，支持基于统计的异常流量监测程序以及其它软件和/或程序的运行。

在图1所示的异常流量监测设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等，而处理器1001可以用于调用存储器1005中存储的基于统计的异常流量监测程序，并执行以下基于统计的异常流量监测方法的各实施例的操作。

基于上述异常流量监测设备硬件结构，提出本申请基于统计的异常流量监测方法的各个实施例。

参照图2，图2为本申请基于统计的异常流量监测方法一实施例的流程示意图。本实施例中，所述异常流量监测方法包括以下步骤：

步骤S10，基于预置埋点，收集预设时间段内的用户访问日志记录；

通常，网络流量都具备一定的特征，并且该特征符合正态分布，网络流量的特征具体表现包括用户访问时间、用户停留时间、用户结束访问时间、访问异常情况等。因此，为获得网络流量的特征，本实施例中，通过预置埋点，比如在日志数据库中埋点，从而收集预设时间段内的用户访问日志记录数据。为更真实拟合网络流量的特征，因此优选收集至少一个月以上时间段内的用户访问日志记录。

可选的，在一具体实施例中，用户访问日志记录至少包括：用户ID、用户IP地址、服务方IP地址、用户访问开始时间、用户访问停留时间、用户访问结束时间、访问异常代码。

步骤S20，对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据；

本实施例中，为便于后续处理，因此预先对收集到的用户访问日志记录中的原始数据进行清洗与变换处理，从而生成符合统计要求的标准用户访问数据。本实施例对于清洗与变换的处理方式不限。

数据清洗是指过滤那些不符合要求的数据，主要有不完整的数据、错误的数据和重复的数据三大类。其中，不完整的数据，也即一些应该有的信息缺失，此类数据需要剔除或者通过插值处理进行补全。错误的数据是指与格式不正确，比如字段格式不正确、数据对应的业务意义不正确。重复的数据，此类数据需要剔除。

数据转换主要是对不一致的数据进行转换，比如将不同业务系统的相同类型的数据统一，比如同一个供应商在A系统的编码是XX0001，而在B系统中编码是YY0001，这样的数据需要统一转换成同一个编码。另外，还包括进行业务规则的计算，比如不同业务系统有不同的业务规则，使用不同的数据指标，而这些指标需要根据对应的业务规则进行计算后方能使用。

本实施例中，通过对用户访问日志记录中的原始数据进行清洗与变换处理后所得到的标准用户访问数据方为有效数据，可用于后续的统计处理。

步骤S30，分别按照天、周、月对应的时间窗口进行滑动，统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布；

本实施例中，为便于更灵活地监控异常流量，选用多种时间维度来统计流量特征，也即统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布。

可选的，在一具体实施例中，统计特征至少包括：用户访问量、异常访问量、异常类型、访问时间、是否是新增/减用户等特征；对上述各个特征的统计是依照不同的时间维度(天、周、月)进行统计计算，从而得到各统计特征分别在不同时间维度上的分布情况。比如在一天中，访问时间集中在：上午9-12点、下午19点到23点；一周中，周一到周五访问量较小，而周六周日访问量较大。其中，新增用户是对照一天、一周或一月前是否是已存在用户进行定义的。若存在，则为老用户，否则为新用户。

可选的，在一实施例中，统计特征使用如下格式：以用户IP地址+服务方IP地址形成的组合key作为用户ID，以包含有用户访问量、异常访问量、异常类型、访问时间、是否是新增/减用户等内容作为具体特征。

步骤S40，将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数；

本实施例中，为拟合网络流量，因此需要将网络流量的特征拟合成对应的多元高斯分布密度函数，具体将同一标准用户访问数据对应的统计特征在天、周、月三个时间维度上的分布分别映射成对应的多元高斯分布，然后再对各多元高斯分布进行参数估计，确定各多元高斯分布密度函数中的特征参数值。

本实施例中，优选采用归一化处理或数据变换处理，以归纳统一样本的统计分布性，进而使数据呈现出高斯分布特征。需要进一步说明的是，本实施例中的统计特征需要预先设定。在设置统计特征时，若选取的统计特征不符合高斯分布，则可通过统计数据的直方图分布，尝试使用多种函数变换数据，直至直方图分布特性符合高斯分布。另外，若当前选取的统计特征区分度不够明显，可则设计增加更有区分度的统计特征，以使得统计特征分布更符合高斯分布，比如将多个具有关联的特征组合成一个新的特征。

本实施例中，在将统计特征分布映射成对应的多元高斯分布后，为实现数据拟合，还需进一步进行参数估计，从而计算出各多元高斯分布密度函数的特征参数值，比如特征的均值、特征的协方差、概率分布的分位数等。

步骤S50，根据所述多元高斯分布密度函数，计算当前网络流量对应的用户访问日志记录的统计特征在各时间维度内分别对应的高斯分布概率值；

本实施例中，计算得到的多元高斯分布密度函数如下所示：

其中，

表示维度为D的向量，

则是这些向量的平均值，∑表示所有向量

的协方差矩阵。

本实施例中，使用多元高斯分布密度函数可以拟合用户访问日志记录在不同时间维度内的高斯分布情况。因此，可通过多元高斯分布密度函数，实时计算出当前用户访问日志记录在各时间维度内分别对应的高斯分布概率值，由于用户访问日志记录对应的统计特征分布具有高斯分布特征，因此，可通过用户访问日志记录对应的高斯分布概率值进行异常流量检测。

步骤S60，判断所述高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；

步骤S70，若所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值，则判定当前网络流量为异常流量。

本实施例中，根据高斯分布特性与实际经验设置不同时间维度对应的告警阈值，例如，若监测时间维度为一天，则告警阈值设为千分之五，也即将高斯分布概率值低于千分之五的数据作为告警数据；若监测时间维度为一周，则告警阈值设为千分之三，也即将高斯分布概率值低于千分之三的数据作为告警数据。若计算得出的高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值，则判定当前网络流量为异常流量。

可选的，在具体一实施例中，为便于对网络流量进行可视化监控，可绘制出网络流量对应的用户访问日志记录的统计特征分别在各时间维度内的高斯分布曲线图，并在各高斯分布曲线图上标识出告警阈值对应的等高线；根据当前网络流量所在时间维度内对应的高斯分布曲线图，判断当前网络流量对应的高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；若流量数据出现在等高线以内，则判定所述高斯分布概率值大于当前网络流量所在时间维度内的预置告警阈值，也即视为正常流量数据，若流量数据出现在等高线以外，则判定所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值，也即视为异常流量数据。

本实施例基于统计概率分析的方法进行异常流量检测，将用户访问记录对应的统计特征分布拟合成多元高斯分布，并基于多元高斯分布的特性实现异常流量检测。本实施例只需要经过一定的数据预处理和数据标准化并将数据拟合成高斯分布，即可方便地进行流量告警，该方法短小精悍，不涉及复杂的算法，易于部署实施且阈值可随着流量数据的实时特征进行动态调整，既避免了基于规则告警而不够灵活的缺点，也改善了基于机器学习等复杂算法实施成本高的问题。

此外，本实施例将用户访问日志记录数据按照天、周、月不同维度进行分别部署，以达到在不同时间维度上按照不同告警阈值进行动态告警的目的，从而降低了由于时间维度不同导致的误报，同时由于考虑了多个时间维度，进而可灵活应对不同时间周期不同业务场景的异常流量实时告警。

参照图3，图3为图2中步骤S40一实施例的细化流程示意图。基于上述实施例，本实施例中，上述步骤S40进一步包括：

步骤S401，对不同时间维度内对应的所述统计特征分别进行归一化处理或者数据变换处理，以将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布；

本实施例中，考虑到数据可能并不是直接满足高斯分布的，因此需要对数据进行一些处理，而使得数据满足高斯分布。本实施例优选通过归一化处理或者数据变换处理，进而将统计得到的统计特征分布映射成对应的多元高斯分布。

(1)通过以下公式对所述统计特征对应的原始数据集进行归一化处理：

其中，μ、σ分别为原始数据集的均值和方差，S为归一化后的数据；

(2)通过以下公式对所述统计特征对应的原始数据集进行对数变换处理：

y＝log _c(1+λx)；

其中，μ、σ分别为原始数据集的均值和方差，S为归一化后的数据；通过对原数据进行对数变换，进而使原本密集区间的值尽可能的分散，原本分散区间的值尽量的聚合，可使数据分布接近于正态分布并使得数据与分布的平均值无关。

本实施例中，通过归一化处理或数据变换处理而使数据呈现出高斯分布特征，进而可将数据拟合成高斯分布以便于进行异常流量监控。

步骤S402，以各多元高斯分布对应数据为样本，采用最大似然估计求解各多元高斯分布各自对应的均值估计量和协差阵估计量；

假设X ₍₁₎，X ₍₂₎，...，X _(n)为统计特征分别映射为P元高斯分布N _p(μ，∑)所对应的样本，构造多元高斯分布对应的似然函数，即：

其中，μ、∑分别为P元高斯分布对应的样本均值向量和样本协差阵，Xi表示第i个统计特征样本向量，n表示共有n个统计特征样本向量，L表示似然函数，f表示概率密度函数。

为求出使上式取极值的μ和∑的估计量，因此将上述公式两边取对数，得到如下等式：

由于对数函数是一个严格单调的增函数，因此可通过求lnL(μ，∑)的极大值而得到μ和∑的估计量。因此，对上述对数似然函数分别对μ和∑求偏导数，得到如下等式：

计算上述等式，得到μ和∑的极大似然估计量：

由上可知，多元高斯分布的均值估计量为样本均值向量，协差阵估计量为样本协差阵。

步骤S403，基于各多元高斯分布各自对应的均值估计量和协差阵估计量，生成各多元高斯分布各自对应的多元高斯分布密度函数。

本实施例中，在获得了各多元高斯分布的参数估计量后，即可基于各多元高斯分布各自的样本数据，生成各多元高斯分布各自对应的多元高斯分布密度函数。例如，基于一天时间内的样本数据，计算出对应多元高斯分布的样本均值向量与样本协差阵，从而生成天时间维度所对应的多元高斯分布密度函数。

本实施例将用户访问日志记录数据按照天、周、月不同维度进行分别部署，以达到在不同时间维度上按照不同告警阈值进行动态告警的目的，从而降低了由于时间维度不同导致的误报，同时由于考虑了多个时间维度，进而可灵活应对不同时间周期不同业务场景的异常流量实时告警。

参照图4，图4为图2中步骤S20一实施例的细化流程示意图。基于上述实施例，本实施例中，上述步骤S20进一步包括：

步骤S201，检测所述用户访问日志记录中的原始数据是否存在缺失值；

本实施例中，用户访问日志使用了多个字段记录了多种信息，比如用户ID、用户以及服务方IP地址、用户访问时间、用户停留时间、用户结束访问时间、访问异常情况、访问状态、异常类型code以及异常类型说明等，若某条记录对应字段存在数值缺失，则确定该条记录中存在缺失值。

步骤S202，若存在缺失值，则计算每个字段对应的缺失值比例，并根据缺失值比例与字段重要程度进行缺失值清洗，所述缺失值清洗包括：删除缺失值字段、使用插值法补全缺失值；

本实施例中，若用户访问日志记录中某个或某些个字段存在缺失值，则每个字段对应的缺失值比例，例如，有100条用户访问日志记录，若某个字段对应有10条记录存在缺失值，则该字段对应的缺失值比例为10％。

本实施例中，在实际应用场景中不同字段的重要程度不同。比如，用户IP地址较服务方IP地址更重要，用户访问时间较用户停留时间更重要。字段的不同重要程度所使用的清洗策略不同。例如，若缺失值比例高且字段重要程度低，则直接删除缺失值字段，而若缺失值比例低且字段重要程度高，则使用插值法补全缺失值。

步骤S203，对所述用户访问日志记录中的原始数据进行排序，并计算排序后的每条记录与相邻记录之间的相似度；

步骤S204，若不同记录之间的相似度超过预置阈值，则判定为重复记录并删除多余的数据；

本实施例中，还进一步对重复的记录进行去重处理，具体为先对用户访问日志记录中的所有原始数据进行排序，比如基于某个字段的数值大小进行排序，比如基于访问时间进行排序，然后计算排序后的每条记录与相邻记录之间的相似度，比如采用字段匹配算法、标准化欧氏距离等方式计算不同记录之间的相似度。若不同记录之间的相似度超过预置阈值(比如90％)，则判定为重复记录并删除多余的数据。

步骤S205，对清洗后的数据进行变换处理，生成符合统计要求的用户访问标准数据，所述变换处理包括：数据类型变换、对数变换、数据离散化中的一种或多种。

本实施例中，为使得数据更便于进行统计，因此进一步对清洗后的数据进行变换处理，进而生成符合统计要求的用户访问标准数据。

A、对数据类型进行变换，比如浮点型数据变换为整数型数据，以便于计算；

B、对原数据进行对数变换，进而使原本密集区间的值尽可能的分散，原本分散区间的值尽量的聚合，可使数据分布接近于正态分布并使得数据与分布的平均值无关。

C、对连续型的数据进行离散化处理，比如时间，从而可使用区间来分析数据的特征，例如对连续型的数据进行等宽离散化处理，比如将时间划分为早上、中午、下午、晚上、深夜。

本实施例中，通过对数据进行清洗和变换处理，从而获得符合统计要求的标准数据，不仅便于统计分析，同时还能进一步提升流量监测的准确性。

本申请还提供一种基于统计的异常流量监测装置。

参照图5，图5为本申请基于统计的异常流量监测装置一实施例的功能模块示意图。本实施例中，异常流量监测装置包括：

收集模块10，用于基于预置埋点，收集预设时间段内的用户访问日志记录；

标准化处理模块20，用于对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据；

统计模块30，用于分别按照天、周、月对应的时间窗口进行滑动，统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布；

映射模块40，用于将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数；

计算模块50，用于根据所述多元高斯分布密度函数，计算当前网络流量对应的用户访问日志记录的统计特征在各时间维度内分别对应的高斯分布概率值；

判断模块60，用于判断所述高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；若所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值，则判定当前网络流量为异常流量。

可选地，所述映射模块40包括：

预处理单元，用于对不同时间维度内对应的所述统计特征分别进行归一化处理或者数据变换处理，以将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布；

估算单元，用于以各多元高斯分布对应数据为样本，采用最大似然估计求解各多元高斯分布各自对应的均值估计量和协差阵估计量；

生成单元，用于基于各多元高斯分布各自对应的均值估计量和协差阵估计量，生成各多元高斯分布各自对应的多元高斯分布密度函数。

可选地，通过以下公式对所述统计特征对应的原始数据集进行归一化处理：

通过以下公式对所述统计特征对应的原始数据集进行对数变换处理：

y＝log _c(1+λx)；

其中，x为原始数据，y为对数变换后的数据，λ设置为1，c设置为变换数据的最大值。

可选地，采用如下函数作为P元高斯分布对应的似然函数：

其中，μ、∑分别为P元高斯分布对应的样本均值向量和样本协差阵，X _i表示第i个统计特征样本向量，n表示共有n个统计特征样本向量，L表示似然函数，f表示概率密度函数。

可选地，所述标准化处理模块20包括：

清洗单元，用于检测所述用户访问日志记录中的原始数据是否存在缺失值；若存在缺失值，则计算每个字段对应的缺失值比例，并根据缺失值比例与字段重要程度进行缺失值清洗，所述缺失值清洗包括：删除缺失值字段、使用插值法补全缺失值；

排序单元，用于对所述用户访问日志记录中的原始数据进行排序，并计算排序后的每条记录与相邻记录之间的相似度；若不同记录之间的相似度超过预置阈值，则判定为重复记录并删除多余的数据；

变换单元，用于对清洗后的数据进行变换处理，生成符合统计要求的用户访问标准数据，所述变换处理包括：数据类型变换、对数变换、数据离散化中的一种或多种。

可选地，所述用户访问日志记录至少包括：用户ID、用户IP地址、服务方IP地址、用户访问开始时间、用户访问停留时间、用户访问结束时间、访问异常代码；所述统计特征至少包括：用户访问量、异常访问量、异常类型、访问时间、是否是新增/减用户；

所述统计特征采用如下格式：以用户IP地址和服务方IP地址为用户ID，并至少以用户访问量、异常访问量、异常类型、访问时间、是否是新增/减用户为具体特征。

可选地，所述判断模块60具体用于：

绘制网络流量对应的用户访问日志记录的统计特征分别在各时间维度内的高斯分布曲线图，并在各高斯分布曲线图上标识出各预置告警阈值对应的等高线；

根据当前网络流量所在时间维度内对应的高斯分布曲线图，判断当前网络流量对应的高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；

若流量数据出现在等高线以外，则判定所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值。

基于与上述本申请异常流量监测方法相同的实施例说明内容，因此本实施例对异常流量监测装置的实施例内容不做过多赘述。

本申请还提供一种计算机可读存储介质，计算机可读存储介质可以是非易失性，也可以是易失性。

本实施例中，计算机可读存储介质上存储有异常流量监测程序，所述异常流量监测程序被处理器执行时实现如上述任一项实施例中所述的基于统计的异常流量监测方法的步骤。其中，异常流量监测程序被处理器执行时所实现的方法可参照本申请基于统计的异常流量监测方法的各个实施例，因此不再过多赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

Claims

一种基于统计的异常流量监测方法，其中，所述异常流量监测方法包括以下步骤：

基于预置埋点，收集预设时间段内的用户访问日志记录；

对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据；

分别按照天、周、月对应的时间窗口进行滑动，统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布；

将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数；

根据所述多元高斯分布密度函数，计算当前网络流量对应的用户访问日志记录的统计特征在各时间维度内分别对应的高斯分布概率值；

判断所述高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；

若所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值，则判定当前网络流量为异常流量。
如权利要求1所述的基于统计的异常流量监测方法，其中，所述将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数包括：

对不同时间维度内对应的所述统计特征分别进行归一化处理或者数据变换处理，以将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布；

以各多元高斯分布对应数据为样本，采用最大似然估计求解各多元高斯分布各自对应的均值估计量和协差阵估计量；

基于各多元高斯分布各自对应的均值估计量和协差阵估计量，生成各多元高斯分布各自对应的多元高斯分布密度函数。
如权利要求2所述的基于统计的异常流量监测方法，其中，通过以下公式对所述统计特征对应的原始数据集进行归一化处理：

其中，μ、σ分别为原始数据集的均值和方差，S为归一化后的数据；

通过以下公式对所述统计特征对应的原始数据集进行对数变换处理：

y＝log _c(1+λx)；

其中，x为原始数据，y为对数变换后的数据，λ设置为1，c设置为变换数据的最大值。
如权利要求2或3所述的基于统计的异常流量监测方法，其中，采用如下函数作为P元高斯分布对应的似然函数：

其中，μ、∑分别为P元高斯分布对应的样本均值向量和样本协差阵，X _i表示第i个统计特征样本向量，n表示共有n个统计特征样本向量，L表示似然函数，f表示概率密度函数。
如权利要求1所述的基于统计的异常流量监测方法，其中，所述对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据包括：

检测所述用户访问日志记录中的原始数据是否存在缺失值；

若存在缺失值，则计算每个字段对应的缺失值比例，并根据缺失值比例与字段重要程度进行缺失值清洗，所述缺失值清洗包括：删除缺失值字段、使用插值法补全缺失值；

对所述用户访问日志记录中的原始数据进行排序，并计算排序后的每条记录与相邻记录之间的相似度；

若不同记录之间的相似度超过预置阈值，则判定为重复记录并删除多余的数据；

对清洗后的数据进行变换处理，生成符合统计要求的用户访问标准数据，所述变换处理包括：数据类型变换、对数变换、数据离散化中的一种或多种。
如权利要求1所述的基于统计的异常流量监测方法，其中，所述用户访问日志记录至少包括：用户ID、用户IP地址、服务方IP地址、用户访问开始时间、用户访问停留时间、用户访问结束时间、访问异常代码；所述统计特征至少包括：用户访问量、异常访问量、异常类型、访问时间、是否是新增/减用户；

所述统计特征采用如下格式：以用户IP地址和服务方IP地址为用户ID，并至少以用户访问量、异常访问量、异常类型、访问时间、是否是新增/减用户为具体特征。
如权利要求1、5或6所述的基于统计的异常流量监测方法，其中，所述判断所述高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值包括：

绘制网络流量对应的用户访问日志记录的统计特征分别在各时间维度内的高斯分布曲线图，并在各高斯分布曲线图上标识出各预置告警阈值对应的等高线；

根据当前网络流量所在时间维度内对应的高斯分布曲线图，判断当前网络流量对应的高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；

若流量数据出现在等高线以外，则判定所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值。
一种基于统计的异常流量监测装置，其中，所述异常流量监测装置包括：

收集模块，用于基于预置埋点，收集预设时间段内的用户访问日志记录；

标准化处理模块，用于对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据；

统计模块，用于分别按照天、周、月对应的时间窗口进行滑动，统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布；

映射模块，用于将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数；

计算模块，用于根据所述多元高斯分布密度函数，计算当前网络流量对应的用户访问日志记录的统计特征在各时间维度内分别对应的高斯分布概率值；

判断模块，用于判断所述高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；若所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值，则判定当前网络流量为异常流量。
如权利要求8所述的基于统计的异常流量监测装置，其中，所述映射模块包括：

预处理单元，用于对不同时间维度内对应的所述统计特征分别进行归一化处理或者数据变换处理，以将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布；

估算单元，用于以各多元高斯分布对应数据为样本，采用最大似然估计求解各多元高斯分布各自对应的均值估计量和协差阵估计量；

生成单元，用于基于各多元高斯分布各自对应的均值估计量和协差阵估计量，生成各多元高斯分布各自对应的多元高斯分布密度函数。
如权利要求9所述的基于统计的异常流量监测装置，通过以下公式对所述统计特征对应的原始数据集进行归一化处理：

其中，μ、σ分别为原始数据集的均值和方差，S为归一化后的数据；

通过以下公式对所述统计特征对应的原始数据集进行对数变换处理：

y＝log _c(1+λx)；

其中，x为原始数据，y为对数变换后的数据，λ设置为1，c设置为变换数据的最大值。
一种基于统计的异常流量监测设备，所述异常流量监测设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的异常流量监测程序，所述异常流量监测程序被所述处理器执行时实现基于统计的异常流量监测方法，其中，

异常流量监测方法包括：

基于预置埋点，收集预设时间段内的用户访问日志记录；

对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据；

分别按照天、周、月对应的时间窗口进行滑动，统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布；

将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数；

根据所述多元高斯分布密度函数，计算当前网络流量对应的用户访问日志记录的统计特征在各时间维度内分别对应的高斯分布概率值；

判断所述高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；

若所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值，则判定当前网络流量为异常流量。
如权利要求11所述的基于统计的异常流量监测设备，所述将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数包括：

对不同时间维度内对应的所述统计特征分别进行归一化处理或者数据变换处理，以将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布；

以各多元高斯分布对应数据为样本，采用最大似然估计求解各多元高斯分布各自对应的均值估计量和协差阵估计量；

基于各多元高斯分布各自对应的均值估计量和协差阵估计量，生成各多元高斯分布各自对应的多元高斯分布密度函数。
如权利要求12所述的基于统计的异常流量监测设备，通过以下公式对所述统计特征对应的原始数据集进行归一化处理：

其中，μ、σ分别为原始数据集的均值和方差，S为归一化后的数据；

通过以下公式对所述统计特征对应的原始数据集进行对数变换处理：

y＝log _c(1+λx)；

其中，x为原始数据，y为对数变换后的数据，λ设置为1，c设置为变换数据的最大值。
如权利要求12或13所述的基于统计的异常流量监测设备，采用如下函数作为P元高斯分布对应的似然函数：

其中，μ、∑分别为P元高斯分布对应的样本均值向量和样本协差阵，X _i表示第i个统计特征样本向量，n表示共有n个统计特征样本向量，L表示似然函数，f表示概率密度函数。
如权利要求11所述的基于统计的异常流量监测设备，所述对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据包括：

检测所述用户访问日志记录中的原始数据是否存在缺失值；

若存在缺失值，则计算每个字段对应的缺失值比例，并根据缺失值比例与字段重要程度进行缺失值清洗，所述缺失值清洗包括：删除缺失值字段、使用插值法补全缺失值；

对所述用户访问日志记录中的原始数据进行排序，并计算排序后的每条记录与相邻记录之间的相似度；

若不同记录之间的相似度超过预置阈值，则判定为重复记录并删除多余的数据；

对清洗后的数据进行变换处理，生成符合统计要求的用户访问标准数据，所述变换处理包括：数据类型变换、对数变换、数据离散化中的一种或多种。
一种计算机可读存储介质，所述计算机可读存储介质上存储有异常流量监测程序，所述异常流量监测程序被处理器执行时实现基于统计的异常流量监测方法，其中，异常流量监测方法包括：

基于预置埋点，收集预设时间段内的用户访问日志记录；

对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据；

分别按照天、周、月对应的时间窗口进行滑动，统计标准用户访问数据对应的统计特征分别在不同时间维度上的分布；

将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数；

根据所述多元高斯分布密度函数，计算当前网络流量对应的用户访问日志记录的统计特征在各时间维度内分别对应的高斯分布概率值；

判断所述高斯分布概率值是否小于当前网络流量所在时间维度内的预置告警阈值；

若所述高斯分布概率值小于当前网络流量所在时间维度内的预置告警阈值，则判定当前网络流量为异常流量。
如权利要求16所述的计算机可读存储介质，所述将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布并分别进行参数估计，得到对应的多元高斯分布密度函数包括：

对不同时间维度内对应的所述统计特征分别进行归一化处理或者数据变换处理，以将所述统计特征在不同时间维度上的分布映射成对应的多元高斯分布；

以各多元高斯分布对应数据为样本，采用最大似然估计求解各多元高斯分布各自对应的均值估计量和协差阵估计量；

基于各多元高斯分布各自对应的均值估计量和协差阵估计量，生成各多元高斯分布各自对应的多元高斯分布密度函数。
如权利要求17所述的计算机可读存储介质，通过以下公式对所述统计特征对应的原始数据集进行归一化处理：

其中，μ、σ分别为原始数据集的均值和方差，S为归一化后的数据；

通过以下公式对所述统计特征对应的原始数据集进行对数变换处理：

y＝log _c(1+λx)；

其中，x为原始数据，y为对数变换后的数据，λ设置为1，c设置为变换数据的最大值。
如权利要求17或18所述的计算机可读存储介质，其中，采用如下函数作为P元高斯分布对应的似然函数：

其中，μ、∑分别为P元高斯分布对应的样本均值向量和样本协差阵，X _i表示第i个统计特征样本向量，n表示共有n个统计特征样本向量，L表示似然函数，f表示概率密度函数。
如权利要求16所述的计算机可读存储介质，其中，所述对所述用户访问日志记录中的原始数据进行清洗与变换处理，生成符合统计要求的标准用户访问数据包括：

检测所述用户访问日志记录中的原始数据是否存在缺失值；

若存在缺失值，则计算每个字段对应的缺失值比例，并根据缺失值比例与字段重要程度进行缺失值清洗，所述缺失值清洗包括：删除缺失值字段、使用插值法补全缺失值；

对所述用户访问日志记录中的原始数据进行排序，并计算排序后的每条记录与相邻记录之间的相似度；

若不同记录之间的相似度超过预置阈值，则判定为重复记录并删除多余的数据；

对清洗后的数据进行变换处理，生成符合统计要求的用户访问标准数据，所述变换处理包括：数据类型变换、对数变换、数据离散化中的一种或多种。