WO2020147480A1

WO2020147480A1 - 基于流式处理的监控指标异常检测方法、装置及设备

Info

Publication number: WO2020147480A1
Application number: PCT/CN2019/125937
Authority: WO
Inventors: 赵孝松; 王少华; 游永胜; 陈治; 周扬; 霍扬扬; 杨树波
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2019-01-14
Filing date: 2019-12-17
Publication date: 2020-07-23
Also published as: CN110058977B; CN110058977A

Abstract

一种基于流式处理的监控指标异常检测方法、装置及设备，其从日志信息中获取目标监控指标的指标信息构成流式数据（S102）；流式地读取所述流式数据，并将所读取的流式数据聚合到指定维度的聚合窗口（S104）；根据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测，以判断所述目标监控指标是否出现异常（S106）。通过在流式处理平台上集成异常检测算法，流式地对数据进行实时的异常检测，可以实现对海量数据进行分钟级甚至秒级的异常检测。

Description

基于流式处理的监控指标异常检测方法、装置及设备

技术领域

本申请涉及智能运维技术领域，尤其涉及一种基于流式处理的监控指标异常检测方法、装置及设备。

背景技术

信息化时代，为了保障各业务平台的正常运行，需要对各个业务平台进行监控。在对业务平台及各业务数据进行监控时，需要从海量的日志信息中抽取一些高可用的监控指标，通过各种异常检测算法对这些监控指标进行异常检测，如发现异常，则及时报警，以便运维人员进行处理。为了能够及时的报警以便运维人员对异常进行及时处理，避免造成太大的损失，一般要求异常报警的延时要在分钟级甚至是秒级内。但是目前很多业务平台的指标的input tps平均都在百万量级，要及时的分析这些指标并及时报警，对整个监控方案的架构和算法设计都提出了非常高的要求。目前的监控平台在日志数据非常巨大时，还无法实现实时的异常检测。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种基于流式处理的监控指标异常检测方法、装置及设备。

首先，本说明书提供了一种基于流式处理的监控指标异常检测方法，所述方法包括：

从日志信息中获取目标监控指标的指标信息，所述指标信息为流式数据；

流式地读取所述流式数据，并将所读取的流式数据聚合到指定维度的聚合窗口；

根据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测，以判断所述目标监控指标是否出现异常。

其次，本说明书提供了一种基于流式处理的监控指标异常检测装置，所述装置包括：

获取模块，从日志信息中获取目标监控指标的指标信息，所述指标信息为流式数据；

聚合模块，流式地读取所述流式数据，并将所读取的流式数据聚合到指定维度的聚合窗口；

异常检测模块，根据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测，以判断所述目标监控指标是否出现异常。

进一步，本申请提供了一种设备，所述设备包括：

存储器，用于存储可执行的计算机指令；

处理器，用于执行所述计算机指令时实现以下步骤：

本申请的有益效果：从日志信息中获取目标监控指标的指标信息，所述指标信息为流式数据；流式地读取所述流式数据，并将所读取的流式数据聚合到指定维度的聚合窗口；根据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测，以判断所述目标监控指标是否出现异常。通过在流式处理平台上集成异常检测算法，采用流式处理的方式实时地对数据进行异常检测，可以实现对海量数据进行分钟级甚至秒级的异常检测。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本说明书一示例性实施例示出的一种基于流式处理的异常检测方法的流程图；

图2a为本说明书一示例性实施例示出的流式数据数据表的示意图；

图2b为本说明书一示例性实施例示出的一种基于流式处理的异常检测方法的流程图；

图3为本说明书一示例性实施例示出的一种基于流式处理的异常检测方法的示意图；

图4为本说明书一示例性实施例示出的一种基于流式处理的异常检测方法的示意图；

图5为本说明书一示例性实施例示出的一种基于流式处理的异常检测装置的逻辑框图；

图6为本说明书一示例性实施例示出的一种设备的结构逻辑框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

信息化时代，为了保障各业务平台的正常运行，需要对各个业务平台进行监控。在对业务平台及各业务数据进行监控时，需要从海量的日志信息中抽取一些高可用的监控指标，比如CPU使用率、内存使用率等，通过各种异常检测算法对这些监控指标进行异常检测，如发现异常，则及时报警，以便运维人员进行处理。为了能够及时的报警以便运维人员对异常进行及时处理，避免造成太大的损失，一般要求异常报警的延时要在分钟级甚至是秒级内。但是目前很多业务平台的指标的input tps平均都在百万量级，要及时的分析这些指标并及时报警，对整个监控方案的架构和算法设计都提出了非常高的要求。目前常用的监控指标的异常检测方法是对日志数据进行清洗，将清洗后的日志数据写入数据库，然后算法平台从数据库中调用数据，对数据进行异常检测，这种方法适合数据量较小的场景，当日志数量非常大的时候，读取数据库里的数据非常耗时，因而算法平台根本没法在短时间内完成任务，不能实现在分钟级或秒级完成异常检测并报警。总之，目前的监控平台在日志数据非常巨大时，还无法实现实时的异常检测。

为了解决上述问题，本说明书提供了一种基于流式处理的异常检测的方法，采用流式处理平台对监控指标的数据进行异常检测，可以实现实时的异常检测。

在介绍本说明书的基于流式处理的异常检测的方法之前，先对流式数据和流式处理做一个简单的介绍。在大数据环境下，许多应用都呈现多源并发、数据汇聚、在线处理的特征，因而传统的数据库技术已经不能满足数据处理的实时性需求。流式数据与传统的数据库是相对的，而流式处理是基于流式数据的实时计算。与静态、批处理和持久化的数据库相比，流式处理以连续、无边界和瞬时性为特征，适合高速并发和大规模数据实时处理的场景。在流式处理中，数据是没有边界的，源源不断的数据从输入流向输出，但是计算是需要边界的，无论是增量计算还是全量计算，都需要一个范围。因此，在对流式数据进行流式处理之前，需要把无限的数据流划分成一段一段的数据集，这个计算模型可以称为窗口模型。在窗口模型中，会根据时间来划分出一个一个有范围的窗口，从而可以对窗口内的一批数据集进行计算。一般情况下，窗口可以根据数据的发生时间(event time)和数据处理的时间(process time)来划分。通过设置的窗口边界，使得流中部分数据项位于窗口内，而在窗口之外数据则不被处理计算考虑。窗口长度指窗口的时间跨度，窗口大小指窗口中数据项的数量。

在流式处理中，从事件产生到处理，中间是有一个过程和时间的。虽然大部分情况下，对数据的处理都是按照事件产生的时间顺序来的，但是也不排除由于网络、背压等原因，导致乱序的产生。但是对于乱序的数据，我们又不能无限期的等下去，必须要有个机制来保证一个特定的时间后，必须触发对窗口内的数据进行计算，这个特别的机制，就是Watermark。Watermark是用来表示与事件时间相关联的输入完整性的概念。对于事件时间为X的Watermark是指：已经观察到事件时间小于X的所有输入数据。因此，当观测对象是没有尽头的无界数据源时，Watermark来测量数据进度。当Watermark到达窗口的阈值，那么系统认为小于Watermark的数据会进入到该窗口，则会对窗口内数据进行计算。也就是说Watermark用于判定是否到达窗口的阈值，也就是产生一个窗口，Watermark会不断自我更新。Watermark可以基于数据产生时间或者数据处理时间得到。在流式计算平台中，窗口的Watermark达到后，就会触发对窗口内的数据进行计算。

图1为所述基于流式处理的异常检测方法的流程图，包括步骤S102-S106；

S102、从日志信息中获取目标监控指标的指标信息，所述指标信息为流式数据；

S104、流式地读取所述流式数据，并将所读取的流式数据聚合到指定维度的聚合窗口；

S106、根据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测，以判断所述目标监控指标是否出现异常。

本说明书提供的基于流式处理的异常检测的方法可以用于Kepler流式处理平台，当然，也可以用于其他具有类似的流式计算引擎的功能的流式处理平台，比如Flink流式处理平台、Blink流式处理平台、STORM流式处理平台等。通过在流式处理平台中集成异常检测算法，以实现流式地对监控指标的数据进行检测。

由于日志信息数据量非常庞大，可以从海量的日志数据中挑选出一些重要的，高可用的监控指标的作为目标监控指标，检测这些指标是否出现异常，目标监控指标可以是任一需要被监控的指标，在某些实施例中，所述目标监控指标可以是CPU的使用率、硬盘的使用率、内存的使用率、GC次数等等。

由于日志信息中的目标监控指标的指标信息数据量非常大，包含的信息也非常多，需要对目标监控指标的指标信息进行数据清洗，提取出一些对异常检测有用的指标信息，并将这些指标信息构成该目标监控指标的流式数据。比如说CPU使用率的日志信息中可能包含CPU对应的主机ID、主机IP地址、CPU使用率的观测值、时间等非常多的信息，但是在进行异常检测的时候并不需要那么多的指标信息，所以可以先对日志信息中的指标信息进行清洗，清洗出异常检测需要的一些指标信息，组成流式数据。在一个实施例中，所述流式数据包含监控维度信息、时间戳、监控指标观测值，其中监控维度信息用于标识流式数据的维度。比如，一般在将指标信息组成的流式数据聚合到指定维度时，这个指定维度可以按照指标信息所对应的单机或集群来划分，因而监控维度信息用于标识所监控的指标是属于哪个单机或者集群的指标，比如说A、B、C三个主机，分别对应一个CPU，则可以使用这三台主机的ID来标识这三台主机的CPU，所以可以使用三台主机的ID来表示监控维度信息，然后根据监控维度信息将流式数据聚合到指定维度，即指定主机ID号的聚合窗口，这样就能将统一主机的CPU的指标信息聚合到一个聚合窗口，便于检测。当然，不同的监控指标对应的监控维度会不一样，但本质是一样的。图2a为本说明书一实施例中将监控指标的日志信息清洗后，得到的指标信息流式数据的数据表。

另外，日志信息的打印都会带有时间戳，可以获取监控指标在不同时间的指标观测值，并在清洗出来的指标信息流式数据中将指标观测值与时间一一对应。

在清洗得到目标监控指标的指标信息流式数据后，可以流式地读取所述流式数据，并将所读取的流式数据聚合到指定维度的聚合窗口，然后根据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测，以判断所述目标监控指标是否出现异常。由于流式处理中，流式数据是无界的数据，会源源不断的输入，因而需要通过窗口对流式数据进行划分，将流式数据划分成有界的数据。另外，由于流式数据中包含不同维度的数据，因此，也需要对不同维度的数据进行划分，将同一维度的数据聚合到指定维度的聚合窗口，便于进行异常检测。比如，可以根据流式数据中包含的监控维度信息将流式数据划分到不同的窗口，比如，当目标监控指标为CPU的使用率，监控维度信息可以是主机ID号，可以将主机ID号为11111的流式数据统一聚合到聚合窗口A，主机ID号为2222的流式数据统一聚合到聚合窗口B。一般聚合窗口的长度可以根据计算资源、计算的复杂程度以及数据的延时情况来设定，比如、流式处理平台集成的异常检测算法的计算复杂度比较高、计算资源较少、数据延迟的时间较长的情况，则聚合窗口的时间跨度可以设置得大一些，反之，如果计算复杂度比较小、计算资源较多、数据延迟的时间较短，则聚合窗口的长度可以设置的小一些，比如说如果在Kepler流式处理平台集成了N-sigma异常检测算法来对聚合窗口中的数据进行异常检测的话，考虑到Kepler平台的计算资源和N-Sigma算法的特性，可以将聚合窗口的长度设置为30min。聚合窗口长度可根据实际应用情况灵活设置，本申请不作限制。

在一个实施例中，可以将聚合窗口的Watermark到达作为触发对聚合窗口中的数据进行异常检测的触发条件，在将流式数据依据监控维度信息聚合到相应的聚合窗口后，系统会判断聚合窗口的Watermark是否达到，如果到达，则会采用异常检测算法对聚合窗口内的流式数据进行异常检测，以判断监控指标是否出现异常。当然，异常检测算法可以采用N-sigma算法，还有其他的对监控指标进行异常检测一些统计或者机器学习算法，如Holt Winter算法、LOF算法、Isolaed Forest算法等，本说明书不作具体限制。

在一个实施例中，可以在流式处理平台中集成N-sigma算法对监控指标进行异常检测，通过N-sigma算法计算出监控指标在某个时间的观测值的偏差程度，并与预设阈值比较，来判定监控指标是否出现异常，具体检测方法如图2b所示，包括以下步骤：

S202、将所述聚合窗口内的流式数据按照时间先后顺序进行排序，取出最近时间点的目标监控指标观测值；

S204、计算其余时间点的目标监控指标观测值的平均值和标准差；

S206、基于所述平均值和标准差，对所取出的最近时间点的目标监控指标观测值进行Z-score计算，并将计算结果与预设阈值比较，判断所述目标监控指标是否异常。

由于每一个聚合窗口中聚合的流式数据都是同一类型的监控指标在同一维度的数据，且流式数据中包括各个时间点的目标监控指标观测值，因而可以根据时间戳将目标监控指标观测值按照时间先后的顺序排序，然后取出最近一个时间点的目标监控指标观测值，并计算剩余时间点的目标监控指标观测值的平均值和标准差，基于所述平均值和标准差，对所取出的最近时间点的目标监控指标观测值进行Z-score计算，然后将计算结果与预设阈值比较，看偏差程度是否超出预设阈值，如果超过，则认为监控指标出现异常，如果未超过，说明监控指标正常。比如，清洗后的流式数据为不同的机器在不同时间点的CPU的使用率，可以先根据机器的ID将不同时间CPU使用率聚合到对应的聚合窗口，比如聚合窗口A为ID为1111的机器的CPU使用率且包含了不同时间点的CPU使用率，将CPU的使用按照时间先后顺序进行排序，数据如下：

时间：9:30，CPU使用率：50％

时间：9:35，CPU使用率：55％

时间：9:40，CPU使用率：69％

时间：9:45，CPU使用率：78％

…..

时间：10：30，CPU使用率：95％

取出最近时间点10:30的数据，然后计算其余的数据的平均值和标准差，然后对最近时间点的数据95％做Z-score归一化处理，计算得到偏差程度，然后与预设值比较，判断偏差程度是否超过预设值。

在流式处理中，经常会遇到数据延时到达的问题，即乱序问题，比如，Watermark对应的时间为Vt，当Watermark即Vt达到时，可能有些在Vt之前的数据还没到达聚合窗口，如果直接抛弃这些数据，可能异常检测计算出来的结果会不够准确。因此，在一个实施例中，可以设置一个延时窗口，在判断所述Watermark到达后，除了触发对聚合窗口的流式数据进行异常检测计算，还会启动一个计时器计时，然后将延时到达的流式数据分发到预先设置的延时等待窗口中，待计时时长达到预设值，则将所述延时等待窗口的流式数据添加到所述聚合窗口；再次采用异常检测算法对所述聚合窗口的流式数据进行异常检测。其中，延时时长的设置可根据具体情况设定，比如可以设定延时窗口只等待延时30s的数据，也可以等待延时1min的数据，本说明书不作具体限制。在进行异常检测时，通过设置延时窗口，将延时达到的数据也考虑进去，可以提高异常检测的准确度。

在通过异常检测算法对聚合窗口中的数据进行异常检测后，如果发现有异常的数据，则需要推送报警信息。在一个实施例中，可以根据出现异常的流式数据的监控维度信息，时间戳以及监控指标观测值生成报警信息，然后将报警信息推送到指定的数据库。当然，如果有延时到达数据，重新出发了聚合窗口的异常检测计算，则把最新一次的数据更新到指定数据库。在一个实施例中，所述指定的数据库可以是三维的HBASE数据，在出现异常后，可以根据监控维度信息，目标监控指标观测值以及时间戳等信息生成唯一的rowkey，如果延迟到达的数据触发了计算，理论上来说，延迟的数据到了，会使得聚合窗口数据更完整，算出来的值更为准确，因此，它会触发生成一个同样的rowkey，覆盖之前由同一个Watermark触发计算算出的结果，达到报警结果的刷新。同时，下游的监控报警大盘，会定时去HBASE数据库中捞取数据，并根据捞去的数据做一个汇总和定制展示。

为了进一步解释本申请的基于流式处理的异常检测方法，以下结合图3和图4再以一个具体的实施例进行说明。

为了对监控指标进行实时的异常检测，在Kepler流式处理平台集成了异常检测算法，N-sigma算法，采用流式处理的方式对监控指标进行实时地异常检测。如图3所示，将日志信息进行清洗后得到监控指标的指标信息的流式数据，再采用流式地方式对流式数据进行异常检测计算，并将出现异常的数据保存到HBASE数据库，以便监控大盘从HABSE数据库获取数据。假设要监控的指标为CPU的使用率，具体的检测方法如图4所示，先从日志信息中获取CPU的指标信息，得到监控指标CPU的指标信息流式数据(S401)，流式数据包括监控维度信息，即CPU对应的主机ID，时间戳以及不同时间CPU的使用率的观测值；然后流式地读取流式数据，按照监控维度信息将流式数据聚合到指定维度的聚合窗口(S402)，比如，将主机ID为1111的数据聚合到1号聚合窗口，主机ID为2222的数据聚合到2号窗口，主机ID为3333的数据聚合到3号窗口，并将聚合窗口的长度设置为30分钟，当判断聚合窗口的Watermark到达时，则采用N-sigma异常检测算法对聚合窗口内的数据进行计算(S403)，具体计算步骤如下：根据时间戳将聚合窗口中的数据按照时间先后的顺序排序，然后取出最近时间点的数据，计算其余时间点的数据的平均值和标准差，根据计算得到的平均值和标准差对取出的最近时间点的数据做Z-Score(归一化)处理，得到监控指标的偏差程度。另外，为了将延时到达的数据也考虑进去，以便异常计算的结果更加准确，还设置了一个延时等待窗口，用于存放延时到达的数据，将等待时间设置为30s。在触发对聚合窗口的数据进行异常检测的同时，启动计时器计时，待计时器计时达30后，将延时等待窗口的数据一并聚合到聚合窗口(S404)，并再次采用N-Sigma异常检测算法对聚合窗口的数据进行异常检测(S405)，计算得到监控指标的偏差程度。然后将计算得到的偏差程度与预设阈值比较，判断是否超过预设阈值(S406)，如未超过，则说明无异常，如超过，则根据主机ID号、时间戳和CPU的使用率的观测值生成一个唯一的rowkey，将生成的rowkey存储到HBASE数据库中(S407)。延迟的数据到了，会使得聚合窗口数据更完整，算出来的值更为准确，因此，它会触发生成一个同样的rowkey，覆盖之前由同一个Watermark触发计算算出的结果，达到报警结果的刷新。此外，下游的监控报警大盘，会定时去HBASE数据库中捞取数据，做一个汇总和定制展示(S408)。

与本说明书提供的基于流式处理的异常检测的方法实施例相对应，本说明还提供了一种基于流式处理的异常检测装置，如图5所示，所述装置500包括：

获取模块501，从日志信息中获取目标监控指标的指标信息，所述指标信息为流式数据；

聚合模块502，流式地读取所述流式数据，并将所读取的流式数据聚合到指定维度的聚合窗口；

异常检测模块503，根据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测，以判断所述目标监控指标是否出现异常。

在一个实施例中，所述目标监控指标包括：CPU使用率、Disk硬盘使用率、Memory内存使用率和/或GC回收次数。

在一个实施例中，所述流式数据至少包括以下信息：监控维度信息、时间戳和目标监控指标的观测值，其中所述监控维度信息用于标识所述指定维度。

在一个实施例中，据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测，具体包括：

判断所述聚合窗口的Watermark是否到达；

如到达，则对所述聚合窗口的流式数据进行异常检测。

在一个实施例中，所述方法还包括：

在判断所述Watermark到达后，则启动计时器计时，并将延时到达的流式数据分发到预先设置的延时等待窗口；

待计时时长达到预设值，则将所述延时等待窗口的流式数据添加到所述聚合窗口；

再次对所述聚合窗口的流式数据进行异常检测。

在一个实施例中，采用异常检测算法对所述聚合窗口的流式数据进行异常检测具体包括：

将所述聚合窗口内的流式数据按照时间先后顺序进行排序，取出最近时间点的目标监控指标观测值；

计算其余时间点的目标监控指标观测值的平均值和标准差；

基于所述平均值和标准差，对所取出的最近时间点的目标监控指标观测值进行Z-score计算，并将计算结果与预设阈值比较，判断所述目标监控指标是否异常。

在一个实施例中，如果所述目标监控指标出现异常，则推送报警信息；其中，所述推送报警信息具体包括：

根据所述流式数据的监控维度、目标监控指标观测值、时间戳生成所述报警信息；

将所述报警信息推送至指定数据库。根据所述流式数据的监控维度、目标监控指标观测值、时间戳生成所述报警信息；

将所述报警信息推送至指定数据库。

在一个实施例中，所述方法用于Kepler流式处理平台。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

从硬件层面而言，如图6所示，为本说明书的预加载页面装置所在设备的一种硬件结构图，除了图6所示的处理器601、网络接口604、内存602以及非易失性存储器603之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等；从硬件结构上来讲该设备还可能是分布式的设备，可能包括多个接口卡，以便在硬件层面进行报文处理的扩展。

所述非易失性存储器603存储有用于存储可执行的计算机指令，处理器601执行所述计算机指令时实现以下步骤：

由于本申请对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种基于流式处理的监控指标异常检测方法，所述方法包括：

从日志信息中获取目标监控指标的指标信息，所述指标信息为流式数据；

流式地读取所述流式数据，并将所读取的流式数据聚合到指定维度的聚合窗口；

根据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测，以判断所述目标监控指标是否出现异常。
如权利要求1所述的基于流式处理的监控指标异常检测方法，所述目标监控指标包括：CPU使用率、硬盘使用率、内存使用率和/或GC回收次数。
如权利要求1所述的基于流式处理的监控指标异常检测方法，所述流式数据至少包括以下信息：监控维度信息、时间戳和目标监控指标的观测值，其中所述监控维度信息用于标识所述指定维度。
如权利要求1所述的基于流式处理的监控指标异常检测方法，根据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测具体包括：

判断所述聚合窗口的Watermark是否到达；

如到达，则对所述聚合窗口的流式数据进行异常检测。
如权利要求4所述的基于流式处理的监控指标异常检测方法，所述方法还包括：

在判断所述Watermark到达后，则启动计时器计时，并将延时到达的流式数据分发到预先设置的延时等待窗口；

待计时时长达到预设值，则将所述延时等待窗口的流式数据添加到所述聚合窗口；

再次对所述聚合窗口的流式数据进行异常检测。
如权利要求1-5所述的基于流式处理的监控指标异常检测方法，对所述聚合窗口的流式数据进行异常检测具体包括：

将所述聚合窗口内的流式数据按照时间先后顺序进行排序，取出最近时间点的目标监控指标观测值；

计算其余时间点的目标监控指标观测值的平均值和标准差；

基于所述平均值和标准差，对所述取出的最近时间点的目标监控指标观测值进行Z-score计算，并将计算结果与预设阈值比较，判断所述目标监控指标是否异常。
如权利要求3所述的基于流式处理的监控指标异常检测方法，还包括：如果所述目标监控指标出现异常，则推送报警信息；其中，

所述推送报警信息具体包括：

根据所述流式数据的监控维度、所述目标监控指标观测值、所述时间戳生成所述报警信息；

将所述报警信息推送至指定数据库。
如权利要求1所述的基于流式处理的监控指标异常检测方法，所述方法用于Kepler流式处理平台。
一种基于流式处理的监控指标异常检测装置，所述装置包括：

获取模块，从日志信息中获取目标监控指标的指标信息，所述指标信息为流式数据；

聚合模块，流式地读取所述流式数据，并将所读取的流式数据聚合到指定维度的聚合窗口；

异常检测模块，根据预定的触发条件对所述聚合窗口内的所述流式数据进行异常检测，以判断所述目标监控指标是否出现异常。
一种设备，所述设备包括：

存储器，用于存储可执行的计算机指令；

处理器，用于执行所述计算机指令时实现权利要求1至8任一所述方法的步骤。