WO2021109314A1

WO2021109314A1 - 一种异常数据的检测方法、系统及设备

Info

Publication number: WO2021109314A1
Application number: PCT/CN2020/070703
Authority: WO
Inventors: 陈芹浩
Original assignee: 网宿科技股份有限公司
Priority date: 2019-12-06
Filing date: 2020-01-07
Publication date: 2021-06-10
Also published as: CN111092757B; CN111092757A

Abstract

一种异常数据的检测方法、系统及设备，其中，所述方法包括：获取指定时段的访问数据，并基于所述访问数据训练得到阈值模型，以及根据所述阈值模型，判断目标时间节点的访问数据是否为异常数据（S1）；若所述目标时间节点的访问数据为异常数据，确定检测区间，并统计所述检测区间内访问数据样本的分布，并再次判断所述目标时间节点的访问数据是否为异常数据（S2）；若再次判定所述目标时间节点的访问数据为异常数据，获取所述目标时间节点的访问数据对应的收敛规则和幅度阈值，并基于所述收敛规则和所述幅度阈值，判断所述目标时间节点的访问数据是否为待处理的异常数据（S3）。所述方法、系统、设备能够提高异常数据检测的准确度。

Description

一种异常数据的检测方法、系统及设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种异常数据的检测方法、系统及设备。

背景技术

在当前的CDN(Content Delivery Network，内容分发网络)中，为了提高用户的体验，可以配置告警模块。当出现数据访问异常时，告警模块可以及时地发出告警信息，从而使得网络管理人员能够进行异常检测和修复，避免用户长时间处于数据不可访问的状态。

目前的数据告警手段，通常是预先设置多种类型的告警信息，如果实际的数据异常与其中的一种类型相匹配，就会发出对应的告警信息。但是，网络中的数据异常类型十分繁杂，并且数量相当多，其实有一部分的数据异常是在允许范围内发生的。按照现有的这种告警方式，会产生很多不必要的告警信息，一方面会耗费大量的人力物力进行异常排查，另一方面还可能使得真正严重的数据异常淹没在众多的告警信息中。因此，目前亟需一种准确的异常数据检测手段。

发明内容

本申请的目的在于提供一种异常数据的检测方法、系统及设备，能够提高异常数据检测的准确度。

为实现上述目的，本申请一方面提供一种异常数据的检测方法，所述方法包括：获取指定时段的访问数据，并基于所述访问数据训练得到阈值模型，以及根据所述阈值模型，判断目标时间节点的访问数据是否为异常数据；若判定所述目标时间节点的访问数据为异常数据，确定包含所述目标时间节点的检测区间，并统计所述检测区间内访问数据样本的分布，以及根据统计的所述分布，再次判断所述目标时间节点的访问数据是否为异常数据；若再次判定所述目标时间节点的访问数据为异常数据，获取所述目标时间节点的访问数据对应的收敛规则和幅度阈值，并基于所述收敛规则和所述幅度阈值，判断所述目标时间节点的访问数据是否为待处理的异常数据。

为实现上述目的，本申请另一方面还提供一种异常数据的检测系统，所述系统包括：阈值模型判断单元，用于获取指定时段的访问数据，并基于所述访问数据训练得到阈值模型，以及根据所述阈值模型，判断目标时间节点的访问数据是否为异常数据；分布判断单元，用于若判定所述目标时间节点的访问数据为异常数据，确定包含所述目标时间节点的检测区间，并统计所述检测区间内访问数据样本的分布，以及根据统计的所述分布，再次判断所述目标时间节点的访问数据是否为异常数据；筛选单元，用于若再次判定所述目标时间节点的访问数据为异常数据，获取所述目标时间节点的访问数据对应的收敛规则和幅度阈值，并基于所述收敛规则和所述幅度阈值，判断所述目标时间节点的访问数据是否为待处理的异常数据。

为实现上述目的，本申请另一方面还提供一种异常数据的检测设备，所述设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的异常数据的检测方法。

由上可见，本申请一个或者多个实施方式提供的技术方案，在检测异常数据时，可以针对指定时段内的访问数据，训练得到阈值模型。通过该阈值模型可以初步对目标时间节点的访问数据进行判断。若判定为异常数据，可以确定包含目标时间节点的检测区间，并统计该检测区间内的访问数据样本的分布。根据统计出的分布结果，可以进一步地确定该访问数据是否为异常数据。这样处理的有益效果在于，按照统一的阈值模型判定出的异常数据，在某个时段内可能并不属于异常数据。通过对指定时段内的访问数据样本进行分布统计，从而可以进一步地明确访问数据是否异常。如果该访问数据依然被判定为异常数据，可以继续获取该目标时间节点的收敛规则和幅度阈值，其中，收敛规则可以避免突发性的数据异常，该突发性的数据异常其实没有处理的必要，而幅度阈值可以避免由于访问数据的请求数过少而导致异常数据的判定失常。通过收敛规则和幅度阈值的进一步筛选，可以确定出最终待处理的异常数据。可见，通过多种方式的层层筛选，可以使得异常数据的检测更加准确。

附图说明

为了更清楚地说明本发明实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施方式中异常数据的检测方法步骤图；

图2是本发明实施方式中平稳型域名的示意图；

图3是本发明实施方式中周期变化型域名的示意图；

图4是本发明实施方式中突刺变化型域名的示意图；

图5是本发明实施方式中孤立森林算法的示意图；

图6是本发明实施方式中数据节点的划分示意图；

图7是本发明实施方式中异常数据的检测设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施方式及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施方式仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

本申请提供一种异常数据的检测方法，请参阅图1，该方法可以包括以下多个步骤。

S1：获取指定时段的访问数据，并基于所述访问数据训练得到阈值模型，以及根据所述阈值模型，判断目标时间节点的访问数据是否为异常数据。

在本实施方式中，可以采用孤立森林算法，对指定时段的访问数据进行训练，从而得到用于区分正常数据和异常数据的阈值模型。上述的指定时段，可以根据阈值模型的训练精度和训练时长灵活设置。在一个具体应用示例中，可以获取最近30天的访问数据。

需要说明的是，不同类型的域名对应的业务特性也可能存在差异，这些域名在提供业务时，出现异常数据的比例以及异常数据出现的时间节点都可能不同。通过对大量域名的访问数据进行分析，可以划分得到三种域名类型：平稳型、周期变化型以及突刺变化型。这三种域名类型对应的异常数据的曲线图可以分别如图2、图3、图4所示。其中，在图2中，随着时间的推移，平稳型域名的访问数据中异常数据的比例始终稳定在一个较小的区间内。在图3中，周期变化型域名的访问数据中异常数据的比例会随着时间进行周期性的变化。图4中，突刺变化型域名的访问数据中异常数据的比例会呈现尖锐的变化。不同的域名类型对应的访问数据，可以附带对应的域名标签。该域名标签可以是管理员手动设置的用于区分不同域名类型的数据标识，也可以是基于不同域名类型的访问数据进行大数据分析后得到的特征标识，本申请对于域名标签的获取方式并不做限定。为了提高异常数据的检测精度，针对不同类型的域名，可以选用不同的训练数据，从而训练出不同的阈值模型。

具体地，针对上述的多种域名类型，可以采用相同的方式进行阈值模型的训练，只不过每次训练过程中采用的是对应域名类型的访问数据。在实际应用中，在训练阈值模型时，针对获取到的指定时段的访问数据，如果访问数据中包含不同域名类型的访问数据，那么可以对访问数据先按照域名类型进行分类。然后，针对待训练的访问数据而言，可以根据访问数据中携带的域名标签，识别该访问数据所属的域名类型。由于不同的域名类型对异常数据比例的容忍度也是不同的，因此，在进行阈值模型训练时，可以分别为各个域名类型分配对应的筛选阈值。该筛选阈值可以表示对应的域名类型能够容忍的最大异常数据比例。以平稳型域名为例，该筛选阈值例如可以是1/1440，表示每1440份访问数据中，只允许有1份异常访问数据。而对于周期变化型域名和突刺变化型域名而言，对应的筛选阈值可以稍大一些，例如，周期变化型域名对应的筛选阈值可以是10/1440，突刺变化型域名对应的筛选阈值可以是20/1440。

这样，在识别出访问数据所属的域名类型后，可以获取该域名类型对应的筛选阈值。然后，可以统计该访问数据中各个时间节点的访问异常比例。在实际应用中，该时间节点可以是1分钟，这样，获取的访问数据中可以按照1分钟的粒度进行访问数据的划分。在每分钟的访问数据中，可能会包括正常访问数据和异常访问数据，通过计算异常访问数据在当前分钟的访问总数据中所占的比例，从而可以统计出指定时段内每分钟的访问异常比例。针对统计得到的各个访问异常比例，可以采用孤立森立算法，将每个访问异常比例都视为数据节点，按照图5所示的逐层孤立的方式，将各个访问异常比例进行孤立。越早被孤立的节点，越有可能成为异常的节点。例如在图5中，存在abcd四个节点，最早被孤立的是节点d，那么节点d很有可能成为异常的节点。通过孤立森林算法，最终可以将不同的节点进行划分，从而得到如图6所示的划分示意图。在图6中，黑色的点可以表示访问异常比例对应的数据节点。可见，大部分数据节点会聚合在一起，而少部分数据节点会呈离散状。通过孤立森林算法，可以得到图6所示的封闭的筛选边界，位于该筛选边界内的数据节点可以称为聚合节点，位于该筛选边界外的数据节点可以称为孤立节点。其中，孤立节点便可以视为异常的数据节点，而图6中孤立节点的数量，可以由域名类型对应的筛选阈值来确定。这样，通过在孤立森林算法中引入确定的筛选阈值，从而可以限定筛选边界占据的范围。最终，通过大量数据的不断训练，可以使得筛选边界的位置越来越精准。最终，针对输入的任意一个样本数据，该筛选边界都可以准确地判定出该样本数据是落入筛选边界内，还是筛选边界外。这样，可以将具备所述筛选边界的模型作为训练得到的阈值模型。当然，针对不同的域名类型，可以训练得到对应的阈值模型。

在本实施方式中，在训练得到阈值模型后，可以针对待检测的访问数据进行初步判断。以任意一个目标时间节点的访问数据为例，可以按照上述的方式计算该目标时间节点的访问数据对应的访问异常比例，并将计算的所述访问异常比例输入所述阈值模型中。通过该阈值模型，可以判定输入的访问异常比例是孤立节点还是聚合节点。若所述阈值模型输出的结果为孤立节点，则可以判定所述目标时间节点的访问数据为异常数据。而如果所述阈值模型输出的结果为聚合节点，则可以判定所述目标时间节点的访问数据为非异常数据。

S3：若判定所述目标时间节点的访问数据为异常数据，确定包含所述目标时间节点的检测区间，并统计所述检测区间内访问数据样本的分布，以及根据统计的所述分布，再次判断所述目标时间节点的访问数据是否为异常数据。

在本实施方式中，考虑到在训练阈值模型时，选用的数据都是随机抽取的，但实际上访问数据的数量在不同的时刻可能会出现较大的差异，从而导致不同的时间节点处访问异常比例的变化也会较大。但某些访问异常比例较大的时间节点，很可能是访问数据的突增导致的，这些时间节点的访问异常比例其实是能够接受的，不应当作为异常数据进行处理。鉴于此，为了明确步骤S1检测出的异常数据是否为真正的异常数据，在本实施方式中可以进一步地对检测出的异常数据再次进行检测。

具体地，若目标时间节点处的访问数据被判定为异常数据，那么可以更多地获取一些该目标时间节点附近的数据进行分析，从而避免造成片面的检测结果。在实际应用中，首先可以确定包含该目标时间节点的检测区间，该检测区间可以对应一段检测时长。例如，可以是以该目标时间节点为中心，前后5分钟，共计10分钟的检测时长。当然，针对不同的域名类型，该检测时长也可以不同。例如，对于平稳型域名而言，该检测时长可以相对较短，例如可以是20分钟。而对于周期变化型域名和突刺变化型域名，该检测时长可以相对较长，例如可以分别为1小时和2小时。这样，在初步判定目标时间节点的访问数据为异常数据后，可以根据该目标时间节点的访问数据所属的域名类型，获取该域名类型对应的检测时长。然后，可以将所述目标时间节点作为检测区间的中心，构建包含该目标时间节点，并且区间时长与获取的检测时长相等的检测区间。在构建出检测区间后，便可以获取该检测区间内的访问数据。当然，这里获取的访问数据，是针对识别出的域名类型而言的，其它域名类型的访问数据可以先过滤掉。

在本实施方式中，为了提高数据分析的准确性，可以将一定时段内，每天该检测区间内的访问数据都作为待分析的对象。例如，某个目标域名在目标时间节点为12点05分时的访问数据被初步判定为异常数据，那么可以将最近30天，每天11点55分至12点15分内该目标域名的访问数据均作为进一步分析的数据。在获取到检测区间内的这些数据后，可以统计该检测区间内各个访问数据样本的访问异常比例，同样地，该访问异常比例也可以按照1分钟的粒度进行划分，这样，对于每一天而言，该检测区间内每分钟都可以产生一个访问异常比例。后续，可以计算统计得到的访问异常比例的均值和标准差，计算均值和标准差的目的在于，可以根据所述均值和所述标准差对统计得到的访问异常比例进行正态分布。正态分布能够体现数据的一般特性，通常而言，位于正态分布中间的部分数据，都可以视为正常的数据。而位于正态分布边缘的数据，才可能是异常的数据。在该正态分布的结果中，最中心的数据对应的是计算出的均值，从中心往两边可以按照标准差为单位进行扩散。这样，在统计得到访问异常比例的正态分布结果后，可以根据所述均值和所述标准差，在正态分布的结果中确定置信区间。在一个具体应用示例中，该置信区间可以是(μ-3σ， μ+3σ)，位于该置信区间内的访问异常比例，都可以视为正常的数据。而位于该置信区间外的访问异常比例，才是异常的数据。这样，在统计得到正态分布的结果后，可以在该结果中识别目标时间节点的访问数据所处的位置。若所述目标时间节点的访问数据位于所述置信区间外，则可以判定所述目标时间节点的访问数据为异常数据。而如果所述目标时间节点的访问数据位于所述置信区间内，则可以判定所述目标时间节点的访问数据为非异常数据。

S5：若再次判定所述目标时间节点的访问数据为异常数据，获取所述目标时间节点的访问数据对应的收敛规则和幅度阈值，并基于所述收敛规则和所述幅度阈值，判断所述目标时间节点的访问数据是否为待处理的异常数据。

在本实施方式中，为了进一步提高数据检测的精度。还可以为不同的域名类型配置不同的收敛规则和幅度阈值。其中，在配置收敛规则时，可以针对域名类型对应的业务特性来确定。例如，域名类型按照业务特性可以划分为银行领域、支付领域、点播领域等多个不同的领域，针对这些不同的领域，可以制定不同的收敛规则。该收敛规则可以用于综合考量一段时间内异常数据的出现情况，从而判定某一个目标时间节点处的访问数据是否为真正的待处理的异常数据。这样处理的目的在于，对于步骤S1和S3确定出的异常数据，很可能是属于突发的异常数据，该突发的异常数据在后续的数据访问过程中并不会频繁出现，因此无需浪费人力物力进行处理。而配置的幅度阈值，可以从绝对值的角度来判断目标时间节点处的访问数据中异常请求的数量是否足够。这样处理的目的在于，对于某些目标时间节点而言，其计算出的访问异常比例会比较高，但这种计算结果往往是由于总的访问数量的下降导致的。实际上，异常请求的数量并没有改变，只不过由于总的访问请求的数量变少了，才会显得访问异常比例较高。这种情况实际上也无需浪费人力物力进行处理。

鉴于此，在本实施方式中，可以根据收敛规则和幅度阈值对判定出的异常数据进一步进行筛选。其中，收敛规则可以根据域名类型的不同而不同。例如，收敛规则可以是以所述目标时间节点为起始时间节点，连续指定数量的时间节点处的访问数据均被判定为异常数据。此外，收敛规则还可以是在包含所述目标时间节点的预设时长内出现指定次数的异常数据。举例来说，对于平稳型域名而言，收敛规则可以是连续4分钟的访问数据都被判定为异常数据。而对于周期变化型域名而言，收敛规则可以是10分钟内出现6次异常数据。对于突刺变化型域名而言，收敛规则可以是20分钟内出现10次异常数据。

幅度阈值则可以根据访问数据的量级进行划分。该访问数据的量级例如可以按照QPS(Quests Per Second，每秒请求数)为单位，访问数据的量级越大，对应的幅度阈值也可以越大。在实际应用中，可以设置几个不同的量级区间，每个量级区间可以对应各自的幅度阈值。

这样，针对目标时间节点的访问数据，可以识别该目标时间节点的访问数据所属的域名类型，并获取该域名类型对应的收敛规则。此外，还可以计算目标时间节点的访问数据对应的数据量级，并可以获取该数据量级所在的量级区间对应的幅度阈值。后续，在利用收敛规则和幅度阈值进行异常数据筛选时，若所述目标时间节点的访问数据满足对应的所述收敛规则，并且所述目标时间节点的访问数据中异常请求的数量大于对应的所述幅度阈值，才判定所述目标时间节点的访问数据为待处理的异常数据。若所述目标时间节点的访问数据未满足对应的所述收敛规则，或者所述目标时间节点的访问数据中异常请求的数量小于或者等于对应的所述幅度阈值，判定所述目标时间节点的访问数据不作为待处理的异常数据。也就是说，收敛规则和幅度阈值的条件需要同时满足，才判定为待处理的异常数据。而只要有其中一个不满足，则不作为待处理的异常数据。而收敛规则和幅度阈值的判定顺序，在本实施方式中并不做限定。

本申请还提供一种异常数据的检测系统，所述系统包括：

阈值模型判断单元，用于获取指定时段的访问数据，并基于所述访问数据训练得到阈值模型，以及根据所述阈值模型，判断目标时间节点的访问数据是否为异常数据；

分布判断单元，用于若判定所述目标时间节点的访问数据为异常数据，确定包含所述目标时间节点的检测区间，并统计所述检测区间内访问数据样本的分布，以及根据统计的所述分布，再次判断所述目标时间节点的访问数据是否为异常数据；

筛选单元，用于若再次判定所述目标时间节点的访问数据为异常数据，获取所述目标时间节点的访问数据对应的收敛规则和幅度阈值，并基于所述收敛规则和所述幅度阈值，判断所述目标时间节点的访问数据是否为待处理的异常数据。

在一个实施方式中，所述阈值模型判断单元包括：

筛选阈值确定模块，用于识别所述访问数据所属的域名类型，并获取所述域名类型对应的筛选阈值；

筛选边界确定模块，用于统计所述访问数据中各个时间节点的访问异常比例，并确定筛选边界，所述筛选边界用于将统计的各个所述访问异常比例划分为聚合节点和孤立节点，其中，所述孤立节点的数量由所述筛选阈值确定；

阈值模型生成模块，用于将具备所述筛选边界的模型作为训练得到的阈值模型。

在一个实施方式中，所述分布判断单元包括：

数据计算模块，用于统计所述检测区间内各个访问数据样本的访问异常比例，并计算统计得到的所述访问异常比例的均值和标准差；

正态分布模块，用于根据所述均值和所述标准差对统计得到的所述访问异常比例进行正态分布，并将正态分布的结果作为所述检测区间内访问数据样本的分布。

在一个实施方式中，所述筛选单元包括：

第一判定模块，用于若所述目标时间节点的访问数据满足对应的所述收敛规则，并且所述目标时间节点的访问数据中异常请求的数量大于对应的所述幅度阈值，判定所述目标时间节点的访问数据为待处理的异常数据；

第二判定模块，用于若所述目标时间节点的访问数据未满足对应的所述收敛规则，或者所述目标时间节点的访问数据中异常请求的数量小于或者等于对应的所述幅度阈值，判定所述目标时间节点的访问数据不作为待处理的异常数据。

请参阅图7，本申请一个实施方式还提供一种异常数据的检测设备，所述设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，可以实现上述的异常数据的检测方法。

在本实施方式中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括：利用电能方式存储信息的装置，如RAM或ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器或U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器或石墨烯存储器等等。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对系统和设备的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本领域内的技术人员应明白，本发明的实施方式可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施方式而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种异常数据的检测方法，其特征在于，所述方法包括：

获取指定时段的访问数据，并基于所述访问数据训练得到阈值模型，以及根据所述阈值模型，判断目标时间节点的访问数据是否为异常数据；

若判定所述目标时间节点的访问数据为异常数据，确定包含所述目标时间节点的检测区间，并统计所述检测区间内访问数据样本的分布，以及根据统计的所述分布，再次判断所述目标时间节点的访问数据是否为异常数据；

若再次判定所述目标时间节点的访问数据为异常数据，获取所述目标时间节点的访问数据对应的收敛规则和幅度阈值，并基于所述收敛规则和所述幅度阈值，判断所述目标时间节点的访问数据是否为待处理的异常数据。
根据权利要求1所述的方法，其特征在于，基于所述访问数据训练得到阈值模型包括：

识别所述访问数据所属的域名类型，并获取所述域名类型对应的筛选阈值；

统计所述访问数据中各个时间节点的访问异常比例，并确定筛选边界，所述筛选边界用于将统计的各个所述访问异常比例划分为聚合节点和孤立节点，其中，所述孤立节点的数量由所述筛选阈值确定；

将具备所述筛选边界的模型作为训练得到的阈值模型。
根据权利要求1或2所述的方法，其特征在于，判断目标时间节点的访问数据是否为异常数据包括：

计算所述目标时间节点的访问数据对应的访问异常比例，并将计算的所述访问异常比例输入所述阈值模型中；若所述阈值模型输出的结果为孤立节点，判定所述目标时间节点的访问数据为异常数据；若所述阈值模型输出的结果为聚合节点，判定所述目标时间节点的访问数据为非异常数据。
根据权利要求1所述的方法，其特征在于，确定包含所述目标时间节点的检测区间包括：

识别所述目标时间节点的访问数据所属的域名类型，并获取所述域名类型对应的检测时长；

以所述目标时间节点为中心，构建包含所述目标时间节点，并且区间时长与所述检测时长相等的检测区间；其中，构建的所述检测区间作为所述包含所述目标时间节点的检测区间。
根据权利要求1所述的方法，其特征在于，统计所述检测区间内访问数据样本的分布包括：

统计所述检测区间内各个访问数据样本的访问异常比例，并计算统计得到的所述访问异常比例的均值和标准差；

根据所述均值和所述标准差对统计得到的所述访问异常比例进行正态分布，并将正态分布的结果作为所述检测区间内访问数据样本的分布。
根据权利要求5所述的方法，其特征在于，再次判断所述目标时间节点的访问数据是否为异常数据包括：

根据所述均值和所述标准差，在正态分布的结果中确定置信区间；若所述目标时间节点的访问数据位于所述置信区间外，判定所述目标时间节点的访问数据为异常数据；若所述目标时间节点的访问数据位于所述置信区间内，判定所述目标时间节点的访问数据为非异常数据。
根据权利要求1所述的方法，其特征在于，获取所述目标时间节点的访问数据对应的收敛规则包括：

识别所述目标时间节点的访问数据所属的域名类型，并获取所述域名类型对应的收敛规则；其中，所述收敛规则包括：

以所述目标时间节点为起始时间节点，连续指定数量的时间节点处的访问数据均被判定为异常数据；

或者

在包含所述目标时间节点的预设时长内出现指定次数的异常数据。
根据权利要求1所述的方法，其特征在于，所述目标时间节点的访问数据对应的幅度阈值按照访问数据的量级进行划分，其中，访问数据的量级越大，对应的幅度阈值越大。
根据权利要求1所述的方法，其特征在于，判断所述目标时间节点的访问数据是否为待处理的异常数据包括：

若所述目标时间节点的访问数据满足对应的所述收敛规则，并且所述目标时间节点的访问数据中异常请求的数量大于对应的所述幅度阈值，判定所述目标时间节点的访问数据为待处理的异常数据；

若所述目标时间节点的访问数据未满足对应的所述收敛规则，或者所述目标时间节点的访问数据中异常请求的数量小于或者等于对应的所述幅度阈值，判定所述目标时间节点的访问数据不作为待处理的异常数据。
一种异常数据的检测系统，其特征在于，所述系统包括：

阈值模型判断单元，用于获取指定时段的访问数据，并基于所述访问数据训练得到阈值模型，以及根据所述阈值模型，判断目标时间节点的访问数据是否为异常数据；

分布判断单元，用于若判定所述目标时间节点的访问数据为异常数据，确定包含所述目标时间节点的检测区间，并统计所述检测区间内访问数据样本的分布，以及根据统计的所述分布，再次判断所述目标时间节点的访问数据是否为异常数据；

筛选单元，用于若再次判定所述目标时间节点的访问数据为异常数据，获取所述目标时间节点的访问数据对应的收敛规则和幅度阈值，并基于所述收敛规则和所述幅度阈值，判断所述目标时间节点的访问数据是否为待处理的异常数据。
根据权利要求10所述的系统，其特征在于，所述阈值模型判断单元包括：

筛选阈值确定模块，用于识别所述访问数据所属的域名类型，并获取所述域名类型对应的筛选阈值；

筛选边界确定模块，用于统计所述访问数据中各个时间节点的访问异常比例，并确定筛选边界，所述筛选边界用于将统计的各个所述访问异常比例划分为聚合节点和孤立节点，其中，所述孤立节点的数量由所述筛选阈值确定；

阈值模型生成模块，用于将具备所述筛选边界的模型作为训练得到的阈值模型。
根据权利要求10所述的系统，其特征在于，所述分布判断单元包括：

数据计算模块，用于统计所述检测区间内各个访问数据样本的访问异常比例，并计算统计得到的所述访问异常比例的均值和标准差；

正态分布模块，用于根据所述均值和所述标准差对统计得到的所述访问异常比例进行正态分布，并将正态分布的结果作为所述检测区间内访问数据样本的分布。
根据权利要求10所述的系统，其特征在于，所述筛选单元包括：

第一判定模块，用于若所述目标时间节点的访问数据满足对应的所述收敛规则，并且所述目标时间节点的访问数据中异常请求的数量大于对应的所述幅度阈值，判定所述目标时间节点的访问数据为待处理的异常数据；

第二判定模块，用于若所述目标时间节点的访问数据未满足对应的所述收敛规则，或者所述目标时间节点的访问数据中异常请求的数量小于或者等于对应的所述幅度阈值，判定所述目标时间节点的访问数据不作为待处理的异常数据。
一种异常数据的检测设备，其特征在于，所述设备包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至9中任一所述的方法。