WO2017008451A1

WO2017008451A1 - 一种面向云计算在线业务的异常负载检测方法

Info

Publication number: WO2017008451A1
Application number: PCT/CN2015/098770
Authority: WO
Inventors: 周悦芝; 刘金钊; 张迪; 张尧学
Original assignee: 清华大学
Priority date: 2015-07-16
Filing date: 2015-12-24
Publication date: 2017-01-19
Also published as: CN105071983B; CN105071983A; US10581961B2; US20180041573A1

Abstract

本发明涉及一种面向云计算在线业务的异常负载检测方法，属于云计算应用技术领域，该方法利用固定周期采样方法，收集承载某个在线业务的所有主机的各负载项的信息数据；对于当前在线业务的每一个负载项的信息数据，将其处理成具有固定时间间隔的时间序列，得到当前业务所有负载项数据的时间序列；对在线业务的每一个时间序列进行离散小波变换，在所得到的系数矩阵的每一个系数向量上进行统计分析，计算存在异常负载的概率；将求得的概率与置信函数给出的置信区间做对比，判断是否存在异常负载；使用K-均值聚类算法查找出当前在线业务存在异常的承载服务器。该方法和已有方法相比，不仅能够获得更高的准确度，而且具有更好的自适应能力。

Description

一种面向云计算在线业务的异常负载检测方法

技术领域

本发明属于云计算应用技术领域，特别涉及一种利用在线业务的历史负载数据来识别业务的异常负载以及异常运行状况的方法。

背景技术

随着云计算技术的发展，越来越多的用户选择将业务部署或迁移到基于云架构的平台上。利用云计算技术，分配到特定业务的计算、存储、网络等资源可以按需进行增加或者减少，从而最大化资源利用率，降低业务的运营成本。在线业务在所有部署到云平台的业务中占据了较大的比例。由于在线业务往往直接为用户提供服务界面，因此在线业务的负载更容易受到用户访问量的影响。对业务的负载进行监控是云计算提供弹性资源伸缩的基础，通过对负载进行不间断的监控，可以在资源需求变动的时候相应地调整资源分配量，从而在保证业务服务质量的同时最大化资源的使用效率。

对于云计算在线业务，在运行的生命周期内都会遇到由于突发用户请求、程序错误等原因引发的异常运行状况。对于这些业务来说，对业务负载进行监控并根据负载状态识别异常运行状态是保证业务能够正常运行的基本方法。对于由突发用户访问量导致的异常负载变化，云平台可以通过资源弹性伸缩自动进行资源的调整，从而可以在无需人工干预的情况下保证业务的资源分配和服务质量。然而对由程序异常导致的异常负载，自动化的资源伸缩则无法保证业务的服务质量，因而需要将其同正常的负载变化区分开来，以保证异常负载可以及时的得到人工干预。

当业务负载发生变动时，能够自动、有效、迅速的判断负载是否处于异常状态可以给运维人员带来极大的帮助。如果能够在异常发生之后通过业务的负载监控数据迅速发现该异常的存在，便可以更快对出现异常的业务进行人工干预，及时排除掉或者修复出错的程序，从而减少业务在异常状态下运行的时间，最大程度上保证业务的服务质量和用户体验。

现有的异常负载检测方法主要包括三类:基于阈值的异常负载检测，基于统计/回归模型的异常负载检测，以及基于性能特征的异常负载检测。基于阈值的异常负载检测方法通过设定一定数量的性能阈值作为异常负载的条件，并利用对业务实时监测的负载数据来匹配这些条件。若有条件被满足，即业务的性能数据超过某一设定的阈值，则认为当前的负载为异常负载。这种方法依赖于运维人员的经验来设定异常负载的阈值条件，当业务的负载特性发生变化时(例如业务程序升级)，这些条件也需要进行相应的修正以保证后续检测的准确性。并且这种方法对于突发访问的容忍能力低，当业务负载出现正常的快速上升或者下降时会导致较高的误报率。

一种改进的方法是利用自适应的阈值来取代固定阈值。自适应的阈值方法周期性地(例如每24小时)对负载数据的特性进行分析并相应地调整阈值设定。这种方法与固定阈值方法一样存在高误报率的问题。并且当业务负载在短时间内震荡时，自适应的调整算法无法发挥其作用，从而对于业务突发性请求的容忍能力没有相应的提升。

基于回归/统计模型的异常负载检测方法对负载数据进行回归分析(例如线性回归)并建立回归模型，从而得到负载的变化趋势，然后再通过该趋势来预测未来一段时间内的负载情况作为异常检测的依据。对于具有周期性负载特征的在线业务，可以对不同周期内的负载数据进行独立的建模，并将这些模型进行交叉对比，从而识别出异常的特征周期。这类方法的问题在于模型需要不断的进行校准和修正，同时预测的准确性会直接影响异常检测的准确性。

基于性能特征的异常负载检测方法使用统计方法来对业务的性能特性进行建模，并选择一定的业务性能特征参数与元数据作为异常负载的“指纹”，从而根据这些“指纹”来识别异常负载。对于一定时间内的业务负载数据，首先对其进行分析，计算出指纹，之后将该指纹与该业务在其它不同时段的负载特性以及性能指标进行匹配，判断该指纹是否为异常负载。识别过程通常利用到基于统计学的方法(例如高斯分布)或数据挖掘方法(例如聚类算法)。检测的准确性依赖于这些“指纹”特征的准确性。由于业务的特征在业务的整个生命周期内是不断变化的，因此这些“指纹”也需要不断的进行调整和修正，从而很难做到完全的自动化。

总结来说，现有的利用负载数据判断在线业务的异常状况的方法无法得到较高的准确度，存在误报率高的问题。同时，这些方法在很大程度上依赖于运维人员的经验，无法做到完全的自动化监控。

发明内容

本发明为了克服已有异常负载检测方法的不足之处，提出了一种面向云计算在线业务的异常负载检测方法，利用在线业务的历史负载数据，通过小波分析和统计分析来检测在线业务异常负载的方法。该方法和已有方法相比，不仅能够获得更高的准确度，而且具有更好的自适应能力。

本发明提出了一种面向云计算在线业务的异常负载检测方法，利用在线业务的历史负载数据，通过小波分析和统计分析来检测在线业务异常负载的方法，包括以下步骤：

步骤1)利用固定周期采样方法，收集承载某个在线业务的所有主机的各负载项的信息数据，主要包括CPU使用率、内存使用率、磁盘I/O速率和网络I/O速率，记为

其中

表示某一时间点i的负载统计数据，i＝1,2,….,n；n为正整数；x表示主机的CPU、内存、磁盘I/O或网络I/O之中任一项使用率；

步骤2)预处理收集到的所有主机的负载项信息数据：对于当前在线业务的每一个负载项的信息数据，将其处理成具有固定时间间隔的时间序列，如果某一时间点数据为空，则对该时间点进行数据插补处理；各负载项的时间序列以元组的形式存储，记为

其中

其中k为时间序列周期与采样周期的比值。将收集到的负载数据处理成具有固定周期的时间序列，之后合并所有主机的负载项的数据，得到当前业务所有负载项数据的时间序列；

步骤3)对在线业务的每一个时间序列进行离散小波变换，得到系数矩阵和细节向量；在得到的系数矩阵中的每一个系数向量上进行统计分析，计算出每一个系数向量存在异常负载的概率；

步骤4)采用加权公式对所有系数向量的概率计算带权平均值，求得每一个时间序列存在异常负载的概率p，利用如下公式：

其中w_i＝e^log i+1 (5)

对于求得的时间序列异常概率，存入在线业务数据库；

步骤5)对于每一个时间序列，将求得的概率与置信函数给出的置信区间做对比，判断是否存在异常负载；若求得的概率落入置信区间内，则说明该时间序列不存在异常；

步骤6)综合当前在线业务的所有负载项的负载信息以及求得的异常负载概率，判断该在线业务是否存在异常负载；具体包括以下步骤：

步骤6.1)根据步骤5)的结果找出对应在线业务的所有存在异常负载的负载项的时间序列；

步骤6.2)对于所有存在异常的负载项，记录其时间序列的最后一个点所对应的时间点，作为该项异常发生的时间点，记录项存入在线业务数据库中；

步骤7)使用K-均值聚类算法查找出当前在线业务存在异常的承载服务器。

所述步骤2)具体包括：

步骤2.1)选出承载某一在线业务的所有主机的所有负载项的信息数据，将该数据处理成具有固定时间间隔的时间序列，时间序列以元组的形式存储；

步骤2.2)筛选出一个负载项的所有负载信息数据，如果某个主机某一时间点的某项负载的信息数据的值为空，则利用平均值法填充该主机在该时间点的某负载项的信息数据数值；例如，对于序列{C₁,C₂,…,C_i,…,C_k,…,C_n}，其中C_k为缺失项，则先令C_k＝0，然后通过该式(1)将计算C_k的值填充到该时间点：

步骤2.3)合并所有主机的负载项的信息数据，得到该负载项的时间序列，记为

合并方法为在时间点t_i，时间序列S的值如式(2)：

其中

为主机j在t_i时刻的负载值，m为主机数；

步骤2.4)如果当前在线业务仍有未处理的负载数据，跳转到步骤2.1)，否则转步骤3)；

所述步骤3)具体包括：

具体步骤如下：

步骤3.1)选取在线业务的某个尚未处理的时间序列，对该时间序列进行一维离散小波变换，小波基选择Haar小波，根据时间序列周期T_l以及异常检测周期T_s的不同，设定相应的变换级别L，满足T₁×2^L≥T_s。得到系数矩阵cA和细节向量cD：

cA,cD＝DWT([s₁,s₂,…,s_n],L,′haar′) (3)

步骤3.2)从系数矩阵中筛选出系数向量，并对每一个系数向量应用基于正态分布的统计分析，均值为0，方差为过去T_s×m时间内的负载值的方差估计值，其中m为经验值，计算出该系数向量存在异常负载的概率p_i，其中1≤i≤L。该概率为T_s中每一个时间点的负载值的累积分布概率中的最大值。正态分布累积分布概率的计算公式如下：

p_i＝2*Φ(|x_i|)-1，其中

步骤3.3)筛选出细节向量，并根据细节向量判断出当前负载的变化趋势；若d[-1]<d[-2]，变化趋势为下降，取值为-1；若d[-1]>d[-2]，变化趋势为上升，取值为1；否则趋势为平稳，取值为0；

步骤3.4)合并各个系数向量的异常概率，并结合当前负载的变化趋势求得当前负载存在异常的概率；

步骤3.5)如果仍有尚未处理的时间序列，则跳转到步骤3.1)，否则转步骤4)；

所述步骤5)具体包括：

具体包括：

步骤5.1)从在线业务的所有负载项中取出一个尚未处理的负载项的时间序列以及其存在异常负载的概率值。

步骤5.2)计算出时间序列的标准差t，并将该标准差作为参数带入置信函数中求得置信区间。置信函数定义如下：

其中c为置信系数，d为松弛系数，c和d均为经验值；

步骤5.3)取出该时间序列的异常概率，并将该概率与置信区间(0,G(t))进行对比；如果该时间序列的异常概率落入置信区间，则表明当前负载项不存在异常，否则表示存在异常；

步骤5.4)如果仍有尚未处理的数据，则跳转到步骤5.1)，否则转步骤6)；

所述步骤7)具体包括：

本步骤具体包括以下步骤：

步骤7.1)取出在线业务所有负载项的异常状态数据；

步骤7.2)判断该业务是否存在异常；如果不存在，则结束；否则跳转到步骤7.3)；

步骤7.3)选取该业务的所有承载服务器存在异常的负载项数据，并对负载项数据进行归一化处理；

步骤7.4)将每一个承载服务器的负载项数据作为一个向量，使用K-均值算法进行聚类，使用欧几里得距离；

步骤7.5)对比两个类的标准差，令标准差较大的那个为异常类，其中的所有承载服务器为存在异常；标准差的计算方法如下：

对每一个类，求出其中所有负载项的时间序列的标准差。将所求的所有标准差取均值，将该均值作为该类的标准差；

步骤7.6)如果还有未处理的在线业务，则转回步骤1)，否则结束。

本发明的技术特点及有益效果：

本发明利用在线业务负载数据的周期性原理和变化特性来识别异常负载。方法主要基于以下原理：用户对在线业务的访问频率近似服从正态分布；正常的访问频率变化不会导致短时间内大幅度的负载变化，而由于异常访问量或者程序错误导致的负载变化则会在较短的时间内具有较大的变化幅度。因此可以通过分析负载的变化速率及其分布特征来判断当前的业务负载是否为异常负载。

为了更好地观察到负载的变化特性，本发明利用小波分析来对负载时间序列进行多时间尺度分析。利用离散小波变换(Discrete Wavelet Transform)，将时间序列分解成多个时间尺度上的振动，在每一个时间尺度上进行独立的分析，最后综合各个分析的结果，从而得到更加精确的分析结论。

对于每个时间尺度上的时间序列，本发明利用统计分析方法来进行分析。假设负载的变化在每个时间尺度上都服从正态分布，可以利用正态分布的概率密度函数得到当前负载状态的为异常负载的概率。综合每一个时间尺度上的分析结果，可以得到最终的异常概率。

为了实现对于业务的自适应，本发明给出了一个基于Sigmoid函数的变体来计算在不同业务负载特性下的异常负载置信区间。利用该置信区间和异常概率，便可以判定出当前的负载是否为异常负载。

本发明由于利用了小波分析，在统计分析方法的基础上提高了其准确性，同时具有良好的自适应特性；不但能够适用于不同的在线业务，而且在业务程序的升级以及业务负载正常振荡(用户访问量呈周期性变化)情况下仍能正常工作。

附图说明

图1是本发明所提出的方法的总体步骤的流程图。

图2是本实施例中步骤2的预处理在线业务负载数据具体的流程图。

图3是本实施例中计算在线业务各项负载存在异常的概率(步骤3)的流程图。

图4是本实施例中判断在线业务各项负载是否存在异常(步骤5)的流程图。

图5是本实施例中查找存在异常的承载服务器(步骤7)的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提出的一种面向云计算在线业务的异常负载检测方法，利用在线业务的历史负载数据，通过小波分析和统计分析来检测在线业务异常负载的方法，结合附图及实施例详细说明如下。

本发明提出的方法流程如图1所示，包括以下步骤：

其中

本实施例以CPU使用率来说明。对于CPU使用率，默认每隔5分钟采样一次，每一次的数据点代表过去5分钟内的平均CPU使用率。数据点序列以元组的形式存储，记为

将收集到的各个负载项的负载信息数据记录到在线业务数据库(例如MySQL数据库)中。负载项信息的数据记录的格式如表1所示。

表1各负载项信息的数据记录的格式及举例说明

字段	描述	类型	长度	举例
MID	服务器标识	字符串	64	Z1V3_109452
Service	所属业务标识	字符串	64	WebServer1
Time	时间戳	字符串	64	2014-10-31 13:10:10
CPU	CPU使用率	浮点型	4	0.9231
Mem	内存使用率	浮点型	4	0.9231
Disk	磁盘I/O使用率	浮点型	4	0.9231
Net	网络I/O使用率	浮点型	4	0.9231

步骤2)预处理收集到的所有主机的负载项信息数据：对于当前业务的每一个负载项的信息数据，将其处理成具有固定时间间隔的时间序列，如果某一时间点数据为空，则对该时间点进行数据插补处理；各负载项的时间序列以元组的形式存储，记为

其中

其中k为时间序列周期与采样周期的比值(例如在本实施例中，对于CPU使用率，记为

将收集到的负载数据处理成具有固定周期(本实施例中时间序列周期的默认值为15分钟)的时间序列，

之后合并所有主机的负载项的数据，得到当前业务所有负载项数据的时间序列，具体实现流程如图2所示。包括：

步骤2.2)筛选出一个负载项的所有负载信息数据，如果某个主机某一时间点的某项负载的信息数据的值为空，则利用平均值法填充该主机在该时间点的某负载项的信息数据数值。例如，对于序列{C₁,C₂,…,C_i,…,C_k,…,C_n}，其中C_k为缺失项，则先令C_k＝0，然后通过该式(1)将计算C_k的值填充到该时间点：

在本实施例中，合并方法为在时间点t_i，时间序列S的值如式(2)：

其中

为主机j在t_i时刻的负载值，m为主机数；

步骤2.4)如果当前在线业务仍有未处理的负载数据，跳转到步骤2.1)，否则否则转步骤3)；

步骤3)对每一个时间序列进行离散小波变换，得到系数矩阵和细节向量；在得到的系数矩阵中的每一个系数向量上进行统计分析，计算出每一个系数向量存在异常负载的概率；具体步骤如下：

步骤3.1)选取在线业务的某个尚未处理的时间序列，对该时间序列进行一维离散小波变换，小波基选择Haar小波，根据时间序列周期T_l以及异常检测周期T_s的不同，设定相应的变换级别L，满足T₁×2^L≥T_s；得到系数矩阵cA和细节向量cD：

cA,cD＝DWT([s₁,s₂,…,s_n],L,′haar′) (3)

在本实施例中，时间序列周期为15分钟一次，异常检测周期为12小时检测一次。对于一维离散小波变换，当变换级别为L(本例中，L＝6)时，原时间序列将被分解成L个系数向量(形成系数矩阵)和一个细节向量。例如，对一个时间序列进行变换级别为L的离散小波变换，将得到L个系数向量cA[1],cA[2],…,cA[L]，和一个细节向量cD。对于第i级系数向量cA[i]，其周期P_i同第i+1级系数向量cA[i+1]的周期P_i+1的关系为P_i×2＝P_i+1。同时，对于第i级系数向量cA[i]，其元素数目N_i同第i+1级系数向量cA[i+1]的元素数目N_i+1的关系为N_i/2＝N_i+1。从而第i+1级的细节向量的观测精度只有第i级的一半。利用该特性，离散小波分析使得时间序列可以在不同的时间尺度上进行观测。

步骤3.2)从系数矩阵中筛选出系数向量，并对每一个系数向量应用基于正态分布的统计分析，均值为0，方差为过去T_s×m时间内的负载值的方差估计值，其中m为经验值；计算出该时间序列存在异常负载的概率p_i，其中1≤i≤L，该概率为T_s中每一个时间点的负载值的累积分布概率中的最大值；正态分布累积分布概率的计算公式如下：

p_i＝2*Φ(|x_i|)-1，其中

在本实施例中，令m＝3。

其中w_i＝e^log i+1 (5)

对于求得的时间序列异常概率，存入在线业务数据库。异常数据的数据记录格式如表2所示。

表2时间序列异常概率的存储格式

字段	描述	类型	长度	举例
Service	所属业务标识	字符串	64	WebServer1
TimeBegin	起始时间戳	字符串	64	2014-10-31 13:10:10
TimeEnd	终点时间戳	字符串	64	2014-10-31 13:10:10
Deviation	时间序列方差	浮点型	4	8.9231
Prob	异常概率	浮点型	4	0.9231
Trend	变化趋势	整形	4	1
CI	置信区间	浮点型	4	0.9231

步骤5)对于每一个时间序列，将求得的概率与置信函数给出的置信区间做对比，判断是否存在异常负载；若求得的概率落入置信区间内，则说明该时间序列不存在异常；具体包括：

步骤5.1)从在线业务的所有负载项中取出一个尚未处理的负载项的时间序列以及其存在异常负载的概率值；

步骤5.2)计算出时间序列的标准差t，并将该标准差作为参数带入置信函数中求得置信区间；置信函数定义如下：

其中c为置信系数，d为松弛系数，c和d均为经验值；在本实施例中，这两个系数的设定为c＝0.6，d＝200；

步骤6.2)对于所有存在异常的负载项，记录其时间序列的最后一个点所对应的时间点，作为该项异常发生的时间点，记录项存入在线业务数据库中；本实施例的数据项格式如表3所示：

表3异常负载数据项的存储格式

字段	描述	类型	长度	举例
Service	所属业务标识	字符串	64	WebServer1
TimeBegin	起始时间戳	字符串	64	2014-10-31 13:10:10
TimeEnd	终点时间戳	字符串	64	2014-10-31 13:10:10
Prob	异常概率	浮点型	4	0.9231
CI	置信区间	浮点型	4	0.9231

该步骤具体包括以下步骤：

步骤7.1)取出在线业务所有负载项的异常状态数据；

步骤7.2)判断该业务是否存在异常。如果不存在，则结束。否则跳转到步骤7.3；

步骤7.5)对比两个类的标准差，令标准差较大的那个为异常类，其中的所有承载服务器均为存在异常；该标准差的计算方法如下：

对每一个类，求出其中所有负载项的时间序列的标准差。将所求的所有标准差取均值，将该均值作为该类的标准差。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种面向云计算在线业务的异常负载检测方法，利用在线业务的历史负载数据，通过小波分析和统计分析来检测在线业务异常负载的方法，该方法包括以下步骤：

步骤1)利用固定周期采样方法，收集承载某个在线业务的所有主机的各负载项的信息数据，主要包括CPU使用率、内存使用率、磁盘I/O速率和网络I/O速率，记为

其中
表示某一时间点i的负载统计数据，i＝1,2,….,n；n为正整数；x表示主机的CPU、内存、磁盘I/O或网络I/O之中任一项使用率；

步骤2)预处理收集到的所有主机的负载项信息数据：对于当前在线业务的每一个负载项的信息数据，将其处理成具有固定时间间隔的时间序列，如果某一时间点数据为空，则对该时间点进行数据插补处理；各负载项的时间序列以元组的形式存储，记为

其中
其中k为时间序列周期与采样周期的比值。将收集到的负载数据处理成具有固定周期的时间序列，之后合并所有主机的负载项的数据，得到当前业务所有负载项数据的时间序列；

步骤3)对在线业务的每一个时间序列进行离散小波变换，得到系数矩阵和细节向量；在得到的系数矩阵中的每一个系数向量上进行统计分析，计算出每一个系数向量存在异常负载的概率；

步骤4)采用加权公式对所有系数向量的概率计算带权平均值，求得每一个时间序列存在异常负载的概率p，利用如下公式：

其中w_i＝e^logi+1 (5)

对于求得的时间序列异常概率，存入在线业务数据库；

步骤5)对于每一个时间序列，将求得的概率与置信函数给出的置信区间做对比，判断是否存在异常负载；若求得的概率落入置信区间内，则说明该时间序列不存在异常；

步骤6)综合当前在线业务的所有负载项的负载信息以及求得的异常负载概率，判断该在线业务是否存在异常负载；具体包括以下步骤：

步骤6.1)根据步骤5)的结果找出对应在线业务的所有存在异常负载的负载项的时间序列；

步骤6.2)对于所有存在异常的负载项，记录其时间序列的最后一个点所对应的时间点，作为该项异常发生的时间点，记录项存入在线业务数据库中；

步骤7)使用K-均值聚类算法查找出当前在线业务存在异常的承载服务器。
如权利要求1所述的方法，其特征在于，所述步骤2)具体包括：

步骤2.1)选出承载某一在线业务的所有主机的所有负载项的信息数据，将该数据处理成具有固定时间间隔的时间序列，时间序列以元组的形式存储；

步骤2.2)筛选出一个负载项的所有负载信息数据，如果某个主机某一时间点的某项负载的信息数据的值为空，则利用平均值法填充该主机在该时间点的某负载项的信息数据数值；例如，对于序列{C₁,C₂,…,C_i,…,C_k,…,C_n}，其中C_k为缺失项，则先令C_k＝0，然后通过该式(1)将计算C_k的值填充到该时间点：

步骤2.3)合并所有主机的负载项的信息数据，得到该负载项的时间序列，记为

合并方法为在时间点t_i，时间序列S的值如式(2)：

其中
为主机j在t_i时刻的负载值，m为主机数；

步骤2.4)如果当前在线业务仍有未处理的负载数据，跳转到步骤2.1)，否则转步骤3)；
如权利要求1所述的方法，其特征在于，所述步骤3)具体包括：

步骤3.1)选取在线业务的某个尚未处理的时间序列，对该时间序列进行一维离散小波变换，小波基选择Haar小波，根据时间序列周期T_l以及异常检测周期T_s的不同，设定相应的变换级别L，满足T_l×2^L≥T_s。得到系数矩阵cA和细节向量cD：

cA,cD＝DWT([s₁,s₂,…,s_n],L,′haar′) (3)

步骤3.2)从系数矩阵中筛选出系数向量，并对每一个系数向量应用基于正态分布的统计分析，均值为0，方差为过去T_s×m时间内的负载值的方差估计值，其中m为经验值：计算出该时间序列存在异常负载的概率，该概率为T_s中每一个时间点的负载值的累积分布概率中的最大值：正态分布累积分布概率的计算公式如下：

p_i＝2*Φ(|x_i|)-1，其中

步骤3.3)筛选出细节向量，并根据细节向量判断出当前负载的变化趋势；若d[-1]<d[-2]，变化趋势为下降，取值为-1；若d[-1]>d[-2]，变化趋势为上升，取值为1；否则趋势为平稳，取值为0；

步骤3.4)合并各个系数向量的异常概率，并结合当前负载的变化趋势求得当前负载存在异常的概率；

步骤3.5)如果仍有尚未处理的时间序列，则跳转到步骤3.1)，否则转步骤4)；
如权利要求1所述的方法，其特征在于，所述步骤5)具体包括：

步骤5.1)从在线业务的所有负载项中取出一个尚未处理的负载项的时间序列以及其存在异常负载的概率值。

步骤5.2)计算出时间序列的标准差t，并将该标准差作为参数带入置信函数中求得置信区间。置信函数定义如下：

其中c为置信系数，d为松弛系数，c和d均为经验值；

步骤5.3)取出该时间序列的异常概率，并将该概率与置信区间(0,G(t))进行对比；如果该时间序列的异常概率落入置信区间，则表明当前负载项不存在异常，否则表示存在异常；

步骤5.4)如果仍有尚未处理的数据，则跳转到步骤5.1)，否则转步骤6)；
如权利要求1所述方法，其特征在于，所述步骤7)具体包括：

步骤7.1)取出在线业务所有负载项的异常状态数据；

步骤7.2)判断该业务是否存在异常；如果不存在，则结束；否则跳转到步骤7.3)；

步骤7.3)选取该业务的所有承载服务器存在异常的负载项数据，并对负载项数据进行归一化处理；

步骤7.4)将每一个承载服务器的负载项数据作为一个向量，使用K-均值算法进行聚类，使用欧几里得距离；

步骤7.5)对比两个类的标准差，令标准差较大的那个为异常类，其中的所有承载服务器为存在异常；标准差的计算方法如下：

对每一个类，求出其中所有负载项的时间序列的标准差。将所求的所有标准差取均值，将该均值作为该类的标准差；

步骤7.6)如果还有未处理的在线业务，则转回步骤1)，否则结束。