WO2019019429A1

WO2019019429A1 - 一种虚拟机异常检测方法、装置、设备及存储介质

Info

Publication number: WO2019019429A1
Application number: PCT/CN2017/106655
Authority: WO
Inventors: 陈力
Original assignee: 上海中兴软件有限责任公司
Priority date: 2017-07-28
Filing date: 2017-10-18
Publication date: 2019-01-31
Also published as: CN109308225B; CN109308225A

Abstract

一种虚拟机异常检测方法、装置、设备及存储介质，涉及信息及通讯技术领域，所述方法包括：获取虚拟机的非高斯性的残差数据（S10）；对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点（S20）。该方法采用基于残差数据的独立元异常检测，得到的检测结果更加准确、有效。

Description

一种虚拟机异常检测方法、装置、设备及存储介质

技术领域

本公开涉及信息及通讯技术(Information and Communication Technologies，ICT)的计算机性能指标监控及异常检测领域，特别涉及一种虚拟机异常检测方法、装置、设备及存储介质。

背景技术

云计算通过虚拟化等技术将相关的硬件资源进行整合，形成共享的资源池，使业务系统能够按需获取计算、存储以及网络资源，有效地解决了传统IT基础架构存在的问题。虚拟机是云平台的核心部件，负责为业务系统提供计算和存储资源，从而保证业务系统的正常运行。然而，随着业务系统种类和数量的不断增多，云平台的规模不断扩大，云平台变得日益复杂，使得虚拟机在运行过程中很容易出现异常。虚拟机异常的存在不仅会导致业务系统无法正常运行，造成各种难以估量的损失；而且会引发企业对云计算的担忧，阻碍云计算的发展和应用。因此，需要引入虚拟机异常检测技术，及时发现虚拟机的异常行为，以提醒管理员采取必要措施，来保证虚拟机的正常运行。

由于虚拟机往往包含多个系统资源监控指标，因此可采用近年来业界广泛研究的多变量统计分析来应用于过程监控和故障诊断。传统的多变量统计监控方法多采用主元分析(Principle Component Analysis，PCA)，它将数据空间分解为主元子空间和残差子空间，每一组测量数据都可以投影到这两个子空间内，同时在两个空间中分别引入Hotelling T²(衡量包含在主元模型中的信息量的大小)和平方预测误差SPE(Squared Prediction Error，衡量不能被主元模型所描述的信息量的大小)这两个统计量来监测故障的发生。一般认为T²体现的是系统性变化，SPE体现的是非系统性变化，也就是说，基于残差空间的SPE更能反映异常特征。PCA的问题在于，它是基于信号二阶统计特性的分析方法，一般需要假设过程变量服从高斯分布。采用PCA算法的异常告警检测系统如图1所示，PCA算法服务接收时间序列源数据(即时间序列数据)，经过处理后输出检测的异常时间点，同时作为告警服务的输入，从而产生异常告警。

另一种使用较多的方法是独立元分析方法(Independent Component Analysis，ICA)，与PCA不同，它是一种基于信号高阶统计特性的分析方法，其目的是将观察得到的数据进行某种线性分解，利用源信号的独立性和非高斯性，使其分解成统计独立的成分。将ICA应用于异常检测时，与PCA一样，对应引入I²(衡量包含在独立元模型中的信息量的大小)和平方预测误差SPE(Squared Prediction Error，衡量不能被独立元模型所描述的信息量的大小)这两个统计量来监测故障的发生。ICA的问题在于，它的假设前提是独立成分需要具有非高斯分布，否则将无法确定混合矩阵。采用ICA算法的异常告警检测系统如图2所示，ICA算法服务接收时间序列源数据，经过处理后输出检测的异常时间点，同时作为告警服务的输入，从而产生异常告警。

由于虚拟机上承载的业务类型和应用行为多种多样，实际系统观测到的数据分布往往并不理想，兼具有高斯和非高斯分布的特点，因此仅采用传统的PCA或ICA方法，就可能会造成故障的误报和漏报。从已公开的一些专利和文献来看，有学者尝试将ICA算法用于高斯和非高斯信号的划分，但实际并没有克服ICA算法的假设前提，且对于高斯和非高斯信号的划分缺乏比较好的指导原则；还有学者考虑时间序列的相关性，将数据按滑窗划分为一个个局部片段数据，这样虽然窗口内的数据可能不会形成复杂的分布，但由于样本个数会大大减少，实际并不适合实施PCA、ICA等统计学算法。

发明内容

本公开实施例提供的一种虚拟机异常检测方法、装置、设备及存储介质，解决相关技术无法准确检测虚拟机发生异常行为的时间点的问题。

根据本公开实施例提供的一种虚拟机异常检测方法，包括：

获取虚拟机的非高斯性的残差数据；

对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点。

根据本公开实施例提供的一种虚拟机异常检测装置，包括：

残差获取模块，设置为获取虚拟机的非高斯性的残差数据；

异常确定模块，设置为对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点。

根据本公开实施例提供的一种虚拟机异常检测设备，包括：

处理器，设置为获取虚拟机的非高斯性的残差数据，并对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点；

存储器，设置为存储供所述处理器执行的程序。

根据本公开实施例提供的一种存储介质，其上存储有处理器可执行的程序，该程序使处理器执行以下步骤：

获取虚拟机的非高斯性的残差数据；

本公开实施例提供的技术方案具有如下有益效果：

1、本公开实施例通过ICA在PCA残差空间中提取非高斯独立元，得到的检测结果更准确、有效；

2、本公开实施例通过PCA处理后的残差空间对非高斯信息进行一定程度的保留，能够更全面地捕获异常信息。

附图说明

图1是采用PCA算法的异常告警检测系统框图；

图2是采用ICA算法的异常告警检测系统框图；

图3是本公开实施例提供的虚拟机异常检测方法流程图；

图4是本公开实施例提供的虚拟机异常检测系统的实际运行图；

图5是图4的PCA算法服务处理流程图；

图6是图5的ICA算法服务处理流程图；

图7是本公开实施例提供的虚拟机异常检测装置框图；

图8是本公开实施例所处理的一组数据图，包含CPU、磁盘读写、网络I/O、内存等6个维度的数据，左边是训练集，右边是测试集；

图9是针对图8数据采用传统PCA方法的处理结果图，左边针对训练集数据，右边针对测试集数据；

图10是针对图8数据采用基于PCA残差的ICA算法的处理结果图，左边针对训练集数据，右边针对测试集数据；

图11是本公开实施例所处理的另一组数据图，同样包括CPU、磁盘读写、网络I/O、内存等6个维度的数据，左边是训练集，右边是测试集；

图12是针对图11数据采用传统PCA方法的处理结果图，左边针对训练集数据，右边针对测试集数据；

图13是针对图11数据采用基于PCA残差的ICA算法的处理结果图，左边针对训练集数据，右边针对测试集数据。

具体实施方式

以下结合附图对本公开的优选实施例进行详细说明，应当理解，以下所说明的优选实施例仅用于说明和解释本公开，并不用于限定本公开。

本公开实施例适用于检测虚拟机异常行为，示例性应用时，利用对虚拟机的时间序列数据进行处理得到的虚拟机的非高斯性的残差数据，进行独立元分析，得到虚拟机发生异常行为的时间点。

图3是本公开实施例提供的虚拟机异常检测方法流程图，如图3所示，步骤包括：

步骤S10：获取虚拟机的非高斯性的残差数据。

所述步骤S10包括：

步骤S101：对所述虚拟机的时间序列数据进行主元分析，得到所述时间序列数据的强高斯性的主元。

示例性而言，对所述时间序列数据进行主元分解，得到所述时间序列数据的主元；从所述时间序列数据的主元中提取强高斯性的分量，并由所述强高斯性的分量构成所述时间序列数据的强高斯性的主元。

其中，从所述时间序列数据的主元中提取强高斯性的分量包括：计算所述时间序列数据的主元的每个分量的表征高斯性强弱的统计值(即JB值)；计算所有分量的统计值的总和；按照统计值由小至大的顺序对每个分量进行排序，并计算序列中每个所述分量与排序在前分量的统计值的累计和；根据每个所述分量与排序在前分量的统计值的累计和、所述所有分量的统计值的总和，计算高斯性成分占比，并根据所述高斯性成分占比，确定强高斯性的分量。

所述步骤S10还包括：

步骤S102：根据所述强高斯性的主元和所述时间序列数据，得到非高斯性的残差数据。

示例性而言，利用所述强高斯性的主元，进行数据恢复，得到强高斯性的时间序列恢复数据；根据所述时间序列数据和所述时间序列恢复数据，得到非高斯性的残差数据。

步骤S20：对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点，即时间序列数据的异常时间点。

所述步骤S20包括：

步骤S201：对所述非高斯性的残差数据进行独立元分析，得到用于衡量包含在独立元模型中的信息量的统计值(即I²)和用于衡量不能被所述独立元模型描述的信息量的统计值(即SPE)。

步骤S202：根据所述I²和所述SPE，确定所述虚拟机发生异常行为的时间点。示例性而言，将利用所述I²提取的异常时间点和利用所述SPE提取的异常时间点合并，作为所述虚拟机的异常时间点。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，包括步骤S10至步骤S20。在一实施例中，本公开还可以提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时至少实现以下步骤：获取虚拟机的非高斯性的残差数据；对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点。其中，所述的存储介质可以包括ROM/RAM、磁碟、光盘、U盘。

图4是虚拟机系统实际运行的图示，时间序列数据源作为输入首先流入PCA算法服务模块，完成PCA残差数据的提取，然后将残差数据流入ICA算法服务模块，输出I²与SPE统计量所检测出的异常时间点，流入告警服务模块产生告警。其中，PCA算法服务模块的处理流程如图4，ICA算法服务模块的处理流程如图5。

以下结合图4至图6在一实施例中对本公开进行说明。

图4是本公开实施例提供的虚拟机异常检测系统实际运行图，如图4所示。示例性方案如下：

步骤1：系统中的PCA算法服务接收来自数据源的时间序列数据(即原始数据)作为输入。

步骤2：假设原始数据X∈R^n*m，其中，n为样本个数，m为变量个数或者称维数)，对X执行PCA算法，得到主元X_T∈R^n*p,其中，p为主元分量个数。

步骤3：对主元X_T进一步提取高斯性较强的分量。示例性做法如下：

步骤3.1：对主元的每个分量计算JB(Jarque-Bera)统计量的值，JB的定义如下：JB＝n(S²/6+(K-3)²/24)。

其中，n是样本点数，S是样本偏度(skewness)，K是样本峰度(kurtosis)，JB值越大，非高斯性越强，高斯性越弱。

步骤3.2：对各个分量的JB值按从小到大的顺序进行排序得到一个序列，如JB＝[JB1,JB2,…,JBp]，同时记录下各主元分量与该序列值的对应关系，如

其中X_T[i]表示X_T的第i个主元分量，X_T[i]的JB值为JB1。

步骤3.3：对上述已排序的JB序列值计算：累计和/总和，即计算：[JB1/sum(JB)，(JB1+JB2)/sum(JB)，……，(JB1+…+JBp)/sum(JB)]，得到一个值大小范围(0,1]的分值序列，设定高斯性成分占比阈值，保留分值序列中小于阈值的值，并提取序列值所对应的主元分量，形成新的主元X_Tnew。

步骤4：将主元X_Tnew恢复到原始空间，得到X_Recover，计算残差：X_Res＝X-X_Recover，其中，X_Res∈R^n*m，将其作为PCA算法服务的输出。

本公开实施例实现一种PCA残差的改进算法，示例性而言，所得到的PCA的残差数据，是继续对PCA主元按高斯性做进一步筛选形成新主元之后再计算得到的残差，因此与传统的PCA算法直接按能量大小提取主元之后所计算的残差不同。

步骤5：系统中的ICA算法服务接收来自PCA算法服务的输出X_Res数据，对X_Res执行ICA算法，进行独立元分解，计算I²和SPE统计量。对I²与SPE统计量设定检测阈值，分别提取异常时间点，然后将I²与SPE的异常检测结果进行合并，作为ICA算法服务的输出。

本公开实施例的PCA/ICA算法服务的输入输出接口部分，PCA服务并不直接输出异常时间点，而仅输出PCA的残差数据。ICA算法服务的输入也并非原始数据，而是PCA的残差数据，最终的检测结果来自于对PCA残差数据的ICA数据处理。

步骤6：系统中的告警服务接收来自ICA算法服务的输出，即异常时间点，产生相应的告警。

图5是图4的PCA算法服务处理流程图，如图5所示，包括：首先对原始数据X∈R^n*m执行PCA算法，提取主元X_T；然后对主元X_T进一步提取高斯性较强的分量，形成新主元X_Tnew；最后将新主元X_Tnew还原到原始数据空间，计算残差X_Res∈R^n*m并输出。

图6是图5的ICA算法服务处理流程图，如图6所示，包括：首先对残差X_Res∈R^n*m执行ICA算法，分解独立元；然后计算I²和SPE统计量，分别提取异常；最后合并I²与SPE的异常检测结果并输出。

本实施例中原始数据(即时间序列数据)通过PCA分解得到的残差空间相比主元空间，更有利于反映异常特征，因此本公开实施例考虑将PCA的残差空间作为继续分析的基础。在一实施例中，考虑ICA对非高斯源信号的处理优势，在计算PCA残差时，并不是直接获取传统PCA算法的残差，而是先对PCA主元按高斯性做进一步的提取，再返回原始数据空间后计算PCA残差，然后通过ICA在PCA残差空间中提取独立元，计算I²和SPE统计量来检测异常，最后合并检测结果。

图7是本公开实施例提供的虚拟机异常检测装置框图，如图7所示，包括残差获取模块和异常确定模块。

残差获取模块，设置为获取虚拟机的非高斯性的残差数据。所述残差获取模块在一实施例中包括主元计算子模块和残差计算子模块，其中，所述主元计算子模块设置为对所述虚拟机的时间序列数据进行主元分析，得到时间序列数据的强高斯性的主元；残差计算子模块设置为根据所述强高斯性的主元和所述时间序列数据，得到非高斯性的残差数据。

异常确定模块，设置为对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点，即所述时间序列数据的异常时间点。

所述装置的工作过程包括：主元计算子模块对所述时间序列数据进行主元分解，得到所述时间序列数据的主元，从所述时间序列数据的主元中提取强高斯性的分量，并由所述强高斯性的分量构成所述时间序列数据的强高斯性的主元。残差计算子模块利用所述强高斯性的主元，进行数据恢复，得到强高斯性的时间序列恢复数据，并根据所述时间序列数据和所述时间序列恢复数据，得到非高斯性的残差数据。异常确定模块对所述非高斯性的残差数据进行独立元分析，得到I²和SPE统计量，并确定所述时间序列数据的异常时间点。

其中，主元计算子模块计算所述时间序列数据的主元的每个分量的JB值和所有分量的JB值的总和，按照JB值由小至大的顺序对每个分量进行排序，并计算序列中每个所述分量与排序在前分量的JB值的累计和，然后根据每个所述分量与顺序在前分量的JB值的累计和、所述所有分量的JB值的总和，计算高斯性成分占比，并根据所述高斯性成分占比，确定强高斯性的分量。

本实施例提供一种虚拟机异常检测设备，包括：

存储器，设置为存储供所述处理器执行的程序，其可以与所述处理器耦接。

评估本公开实施例算法相比传统算法改进的方法是，设定相同的训练集和测试集，其中测试集为根据数据采集现场反馈的异常比较集中的时间段，对检测统计量设定相同的阈值判断标准，考察本公开实施例算法是否能在已知异常时间段上检测出更多的异常数据点。

应用实例1

图8所采集的数据，包含时间段2016.10.1～2016.11.11，现场反馈11月7日18:00至次日12:00之间，业务有过多次异常。将2016.11.7 18:00～2016.11.8 12:00时间段设为测试集，剔除该部分数据后余下的数据设为训练集。

采用传统PCA算法的异常检测结果如图9所示，其中，设定PCA主成分能量占比为85％，检测统计量T²和SPE按核密度方法估计概率密度，并根据累计概率分布值取99.7％的阈值限提取异常。结果显示，在测试集中，PCA T²未检出异常，PCA SPE检测出一段时间的异常。

采用基于PCA残差的ICA算法的异常检测结果如图10所示，同样设定PCA主成分能量占比阈值为85％，得到4个主元分量X_T[0]、X_T[1]、X_T[2]、X_T[3]，计算4个主元分量的JB值，先从小到大排序，然后计算累计和/总和，如表1所示。

表1.应用实例1的累计和/总和表

主元分量	JB	累计和/总和
X_T[3]	4.745843e+02	9.973862e-08
X_T[0]	4.537954e+06	9.537958e-04
X_T[2]	1.088366e+07	3.241106e-03
X_T[1]	4.742859e+09	1.000000e+00

设定主元高斯性成分占比阈值85％，实际提取的主元为X_T[0]、X_T[2]、X_T[3]，而X_T[1]因为非高斯性较强而剔除。将X_T[0]、X_T[2]、X_T[3]所构成的新主元空间返回到原始数据空间计算得到PCA残差。

检测统计量取累计概率分布值99.7％的阈值。结果显示，在测试集中，ICA I²与SPE各检出一段时间的异常，其中I²的检测结果与PCA SPE检出的时间段比较一致。

从综合结果来看，本公开实施例方法所检出异常点数多于传统PCA方法，且从原始数据看，PCA所漏检的时间段，系统资源确实有较大幅度的变化。

应用实例2

图11所采集的数据，包含时间段2017.1.1～2017.2.28，现场反馈2月25日8:00至12:00之间，业务体验异常。将2017.2.25 8:00～2017.2.25 12:00时间段设为测试集，剔除该部分数据后余下的数据设为训练集。

采用传统PCA算法的异常检测结果如图12所示，其中，设定PCA主成分能量占比阈值为85％，检测统计量T²和SPE按核密度方法估计概率密度，并根据累计概率分布值取99.7％的阈值提取异常。结果显示，在测试集中，PCA T²与PCA SPE均未检出异常，与业务体验完全不符。

采用基于PCA残差的ICA算法的异常检测结果如图13所示，同样设定PCA主成分能量占比为85％，得到4个主元分量X_T[0]、X_T[1]、X_T[2]、X_T[3]，计算4个主元分量的JB值，先从小到大排序，然后计算累计和/总和，如表2所示。

表2.应用实例2的累计和/总和表

主元分量	JB	累计和/总和
X_T[2]	1.316693e+04	0.000001
X_T[3]	3.613565e+04	0.000004
X_T[0]	9.596462e+05	0.000088
X_T[1]	1.152558e+10	1.000000

检测统计量取累计概率分布值99.7％的阈值限。结果显示，在测试集中，ICA SPE检出了比较密集的异常时间段。

从综合结果来看，本公开方法所检出异常点数多于传统PCA方法，且从原始数据看，测试集所在的时间段，系统资源确实有比较剧烈的异常波动。

综上所述，本公开实施例是基于传统PCA和ICA异常检测方法的改进，与传统方法比较，本公开实施例具有以下技术效果：

1.传统PCA算法在提取主元时仅考虑能量大小因素，没有考虑数据分布情况，采用本公开实施例的算法，对传统PCA所提取的主元分量按高斯性进行进一步的提取，即保留PCA主元中高斯性较强的分量作为实际的PCA主元。

2.传统PCA算法得到的残差空间仅仅反映能量特征，采用本公开实施例的算法，所获取的残差空间非高斯性也会得到增强，这具有两点好处，首先，PCA残差体现非系统性变化，相比主元更易检测到异常；其次，异常往往具有突发，量少的非高斯性特点，因此非高斯增强说明残差空间捕获的异常将更为全面，在非高斯性较强的PCA残差空间中检测异常效果会更好。

3.传统的ICA算法适合非高斯源信号的处理，因此，相比直接输入原始信号，采用本公开实施例获取的具有较强非高斯性的PCA残差数据更适合ICA算法的处理，因此得到的检测结果将更加准确、有效。

尽管上文对本公开进行了详细说明，但是本公开不限于此，本技术领域技术人员可以根据本公开的原理进行各种修改。因此，凡按照本公开原理所作的修改，都应当理解为落入本公开的保护范围。

工业实用性

本公开实施例提供的虚拟机异常检测方法，通过ICA在PCA残差空间中提取非高斯独立元，得到的检测结果更准确、有效；通过PCA处理后的残差空间对非高斯信息进行一定程度的保留，能够更全面地捕获异常信息。

Claims

一种虚拟机异常检测方法，包括：

获取虚拟机的非高斯性的残差数据；

对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点。
根据权利要求1所述的方法，所述获取虚拟机的非高斯性的残差数据包括：

对所述虚拟机的时间序列数据进行主元分析，得到所述时间序列数据的强高斯性的主元；

根据所述强高斯性的主元和所述时间序列数据，得到非高斯性的残差数据。
根据权利要求2所述的方法，所述对所述虚拟机的时间序列数据进行主元分析，得到所述时间序列数据的强高斯性的主元包括：

对所述时间序列数据进行主元分解，得到所述时间序列数据的主元；

从所述时间序列数据的主元中提取强高斯性的分量，并由所述强高斯性的分量构成所述时间序列数据的强高斯性的主元。
根据权利要求3所述的方法，所述从所述时间序列数据的主元中提取强高斯性的分量包括：

计算所述时间序列数据的主元的每个分量的表征高斯性强弱的统计值；

根据所述每个分量的统计值，确定所述时间序列数据的主元中的强高斯性的分量。
根据权利要求4所述的方法，所述根据所述每个分量的统计值，确定所述时间序列数据的主元中的强高斯性的分量包括：

计算所有分量的统计值的总和；

按照统计值由小至大的顺序对每个分量进行排序，并计算序列中每个所述分量与排序在前分量的统计值的累计和；

根据每个所述分量与排序在前分量的统计值的累计和、所述所有分量的统计值的总和，计算高斯性成分占比，并根据所述高斯性成分占比，确定强高斯性的分量。
根据权利要求2所述的方法，所述根据所述强高斯性的主元和所述时间序列数据，得到非高斯性的残差数据包括：

利用所述强高斯性的主元，进行数据恢复，得到强高斯性的时间序列恢复数据；

根据所述时间序列数据和所述时间序列恢复数据，得到非高斯性的残差数据。
根据权利要求1所述的方法，所述对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点包括：

对所述非高斯性的残差数据进行独立元分析，得到用于衡量包含在独立元模型中的信息量的统计值和用于衡量不能被所述独立元模型描述的信息量的统计值；

根据所述用于衡量包含在独立元模型中的信息量的统计值和所述用于衡量不能被所述独立元模型描述的信息量的统计值，确定所述虚拟机发生异常行为的时间点。
一种虚拟机异常检测装置，包括：

残差获取模块，设置为获取虚拟机的非高斯性的残差数据；

异常确定模块，设置为对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点。
一种虚拟机异常检测设备，包括：

处理器，设置为获取虚拟机的非高斯性的残差数据，并对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点；

存储器，设置为存储供所述处理器执行的程序。
一种存储介质，其上存储有处理器可执行的程序，该程序使处理器执行以下步骤：

获取虚拟机的非高斯性的残差数据；

对所述非高斯性的残差数据进行独立元分析，确定所述虚拟机发生异常行为的时间点。