WO2020237729A1

WO2020237729A1 - 一种基于模式转移的虚拟机混合备用动态可靠性评估方法

Info

Publication number: WO2020237729A1
Application number: PCT/CN2019/090868
Authority: WO
Inventors: 郭军; 刘文凤; 张斌; 刘晨; 侯帅; 侯凯; 李薇; 柳波; 王嘉怡; 王馨悦; 张瀚铎; 张娅杰
Original assignee: 东北大学
Priority date: 2019-05-31
Filing date: 2019-06-12
Publication date: 2020-12-03
Also published as: CN110187990A; CN110187990B

Abstract

本发明提出一种基于模式转移的虚拟机混合备用动态可靠性评估方法，包括：采集资源和性能数据，并进行特性选择及标准化处理；对标准化后数据，预测基于HSMM的虚拟机失效概率；基于多值决策图的冷热备份云系统进行可靠性评估；为了达到准确的对系统的可靠性进行定量评估，本发明简化MDD的终端值，将从根节点到1的所有路径的发生概率的总和作为系统的可靠性。并将虚拟机分成三种不同模式即操作模式、冷备份模式和热备份模式，采用模式转移，使备用虚拟机在需要时替换失效的工作虚拟机来维持系统的运行，采用多值决策图进行可靠性评估。通过三组对比试验，验证得到本发明的平均响应时间和失效率低，可靠性高，从侧面验证本发明方法的正确性。

Description

一种基于模式转移的虚拟机混合备用动态可靠性评估方法

技术领域

本发明属于云计算领域，具体涉及一种基于模式转移的虚拟机混合备用动态可靠性评估方法。

背景技术

在网络技术高速发展的今天，云系统的结构越来越复杂化，容错技术多样化，人们对系统可靠性要求越来越高。为云系统做出全面准确地可靠性评估已经成为一个重要研究课题。随着运行时间的增长，虚拟机不可避免地会受到自身老化和服务请求高并发等因素的影响，虚拟机的失效率具有增大的趋势，可靠性逐渐恶化，进而增大系统的运行风险。要对系统可靠性进行准确的定量评估，则必须先预测虚拟机的可靠性参数变化规律，特别是虚拟机的失效率。因此本发明将虚拟机分成三种不同模式即操作模式、冷备份模式和热备份模式，采用模式转移，使备用虚拟机在需要时替换失效的工作虚拟机来维持系统的运行，采用多值决策图进行可靠性评估。

发明内容

基于以上技术问题，本发明提出一种基于模式转移的虚拟机混合备用动态可靠性评估方法，具体包括如下步骤：

步骤1：采集资源和性能数据，并进行特性选择及标准化处理，具体步骤包括步骤1.1～步骤1.3：

步骤1.1：采集历史资源和性能数据，组成数据矩阵，依次包括：计算资源、存储资源、磁盘IO资源、网络资源；其中，计算资源包括：CPU空闲的百分比、CPU的运行时间、CPU使用率，存储资源包括：内存使用率、占用的最大内存、内存大小、内存最大使用率，磁盘IO资源包括：虚拟快设备I/O、吞吐量，网络资源包括：网络负载率、虚拟网络接受数据量、虚拟网络发送数据量、虚拟网络接收数据量比例、虚拟网络发送数据量比例；

步骤1.2：采用PCA(主成分分析)方法对所采集的数据进行特征选择，具体包括步骤1.2.1～步骤1.2.7：

步骤1.2.1：针对采集的数据矩阵，计算各参数之间相关系数的协方差矩阵R；

步骤1.2.2：计算矩阵的特征值λ _i和特征向量α _i；

步骤1.2.3：根据矩阵的特征值λ _i和特征向量α _i，计算各参数贡献率κ和累计贡献率κ _sum，公式如下所示：

其中，r为数据指标的个数，t就是i的最大值；

步骤1.2.4：选取累计贡献率大于设定阈值q的数据为主成分；

步骤1.2.5：计算主成分载荷，主成分载荷l _ij表示主成分与原变量之间的关联大小，如下公式所示：

步骤1.2.6：计算主成分得分Z，即对主成分进行加权求和，权数为每个主成分的载荷；

步骤1.2.7：通过主成分分析得到对虚拟机失效率影响较大的参数为：CPU利用率、内存利用率、网络利用率和磁盘IO速度，即为采用PCA方法对所采集的数据选择的特征。

步骤1.3：采用预处理方法，分别基于历史数据与实时数据，对虚拟机失效率影响较大的参数进行标准化处理，得到标准化后历史数据与实时数据，具体包括步骤1.3.1～步骤1.3.2：

步骤1.3.1：针对历史数据，对CPU利用率、内存利用率、网络利用率和磁盘IO速度数据进行标准化处理，使结果降落到[0,1]区间，得到标准化后历史数据，公式如下所示：

其中，x _i为第i个对虚拟机失效率影响较大的参数，x _j为第j个对虚拟机失效率影响较大的参数；

步骤1.3.2：针对实时数据，根据虚拟机实时运行状态信息，得到虚拟机状态变化的时间序列数据{p ₁,p ₂,…,p _n}，采用Z-SCORE方法进行标准化，得到标准化后实时数据，计算公式如下：

其中，p' _k为标准化后实时数据；

步骤2：对标准化后数据预测基于HSMM的虚拟机失效概率，具体包括步骤2.1～步骤2.4：

步骤2.1：对虚拟机失效趋势进行HSMM建模，具体包括步骤2.1.1～步骤2.1.2；

步骤2.1.1：针对标准化后的历史数据，用CPU利用率、内存利用率、网络利用率、磁盘读写速度构成特征向量数组V＝{C′,M′,N′,D′}，表示系统的可观测状态；

步骤2.1.2：对特征向量即主成分进行离散化处理，将每个特征向量划分成3个状态：较高为累计贡献率50％以上、中等为累计贡献率20％～50％、较低为累计贡献率0～20％，得到构成HSMM的输出状态的概率矩阵B，公式如下所示：

其中，N和M分别为隐藏状态和可观测状态的个数，b _ik为系统在t时刻隐含状态产生观测状态的概率；

步骤2.2：根据虚拟机运行状态数据构建状态空间，具体包括步骤2.2.1～步骤2.2.2；

步骤2.2.1：假设可观测状态中某个状态向量O的状态个数用函数f(O)表示,则得到观测状态{C ₁′,M ₁′,N ₁′,D ₁′}在一维空间中的顺序号，公式如下所示：

N({C ₁′,M ₁′,N ₁′,D ₁′})＝C ₁′f(M′)f(N′)f(D′)+M ₁′f(N′)f(D′)+N ₁′f(D′)+D ₁′ (10)

步骤2.2.2：系统的状况用H＝{h ₁,h ₂,h ₃,h ₄}，分别表示正常、异常、注意和失效状态，得到系统的4个隐藏状态以及它们之间的概率转移矩阵A，公式如下所示。

其中，N为隐藏状态的个数，a _ij为系统在t时刻隐含状态si，t+1时刻转移到状态sj的概率；

步骤2.3：对模型参数进行训练使其能正确反应虚拟机运行特征，得到隐马尔科夫模型参数，具体包括步骤2.3.1～步骤2.3.6；

步骤2.3.1：随机初始化HSMM的4个参数A,B,π,D，其中，π是初始概率，A是各个状态间的状态概率矩阵，B是输出概率矩阵，D是状态驻留参数；

步骤2.3.2：计算t时刻观测序列为(O _t+1,O _t+2,...,O _T)，且处于隐藏状态S _i概率的向前变量为α _t(i)，具体计算公式如下所示：

其中，a _ij为系统在t时刻隐含状态S _i，t+1时刻转移到状态S _j的概率；p _j(d)为d时刻，在隐藏状态S _j停留的概率；b _j(O _s)为系统在t时刻隐含状态产生观测状态O _s的概率

步骤2.3.3：计算时刻t隐藏状态处于S _i且满足观测序列(O _t+1,O _t+2,...,O _T)的概率的向后变量为β _t(i)，具体计算公式如下所示：

步骤2.3.4：计算虚拟机在t时刻处于隐藏状态i，在t+1时刻处于隐藏状态j的概率ξ _i(i,j)，公式如下所示；还可以得到在t时刻隐藏状态处于i的概率γ _t(i)，公式如下所示：

步骤2.3.5：根据公式12～15，得到初始时刻隐藏状态i的期望值

隐藏状态转移矩阵的期望值

转移状态矩阵的期望值

分别如下公式所示：

步骤2.3.6：根据公式16～19，得到的期望值代入α _t(i)，β _t(i)进行迭代计算，直到前后两次参数的期望值相差不超过1％，则结束迭代，得到从历史数据中训练的隐马尔科夫模型参数A,B,π,D；

步骤2.4：根据标准化后的虚拟机实时状态变化，得到的时间序列数据，建立失效率预测模型，计算出下一时刻虚拟机失效概率，具体包括步骤2.4.1～步骤2.4.4

步骤2.4.1：根据观测值求出初始状态的概率f(i,1)，公式如下：

f(i,1)＝p _i*B _iy ₁ (20)

其中，p _i为失效状态的概率，B _i为转移状态矩阵，y ₁为初始状态的观测序列；

步骤2.4.2：根据如下公式求出t时刻不同状态的概率f(j,t)：

f(j,t)＝f(j,t)+f(i,t-d)*a _ij*p _j(d)*b _j(O _t) (21)

其中，d＝1,2,...,t。

步骤2.4.3：求出T+1时刻各状态的转移概率C _ij，公式如下：

C _ij＝C _ij+f(i,T-d)*a _ij*p _j(d) (22)

其中，p _j(d)为d时刻，在隐藏状态S _j停留的概率

步骤2.4.4：求出T+1时刻状态为S _i的失效概率P _i，公式如下：

P _i＝P _i+C _iS _i (23)

步骤3：基于多值决策图(MDD)的冷热备份云系统进行可靠性评估，具体为：根据步骤2的虚拟机失效率预测方法，得到每台操作模式和热模式虚拟机的失效概率，根据该预测的结果构建MDD，即基于多值决策图的冷热备份云系统，进行可靠性评估，具体包括步骤3.1～步骤3.3：

步骤3.1：为操作模式虚拟机构建MDD，具体包括步骤3.1.1～步骤3.1.3；

步骤3.1.1：将系统预测时间间隔离散为m段，得到具有m+1个分支的多值决策图

步骤3.1.2：每个分支的终端是一个元组

其中，

可以取值为1或0，分别表示第A _c个虚拟机是否运行到了第d段时间。

步骤3.1.3：将操作模式虚拟机运行参数代入之前的失效率预测模型，得到虚拟机在t时刻失效的概率为P _o(t)，公式如下：

其中，

操作模式虚拟机A _c在预测一开始处于运行状态，在执行了d-1段时间，在d段失效的概率

步骤3.2：为热备用模式虚拟机构建MDD，具体包括步骤3.2.1～步骤3.2.4；

步骤3.2.1：假设操作模式虚拟机在T _d-1(1≤d≤m)失效，则得到

即热备份虚拟机A _c在第d个时间段被激活，并且他们有(m-d+2)个分支

步骤3.2.2：在经历d-1个时间段备用操作结束后，在d时刻从备用状态切换运行状态，并且在运行d'-d时间段失败；

步骤3.2.3：将热备份模式虚拟机

在预测一开始就处于备份状态，计算运行d-1段时间，在第d段失效的概率用

表示；

步骤3.2.4：将热备份模式虚拟机运行参数，即CPU利用率、内存利用率、网络利用率、磁盘读写速度，代入失效率预测模型中，求得虚拟机在t时刻失效的概率为P _h(t)，具体公式如下：

步骤3.3：评估系统MDD模型以获得系统可靠性，具体包括步骤3.3.1～步骤3.3.5；

步骤3.3.1：每一台操作模式虚拟机MDD模型和热模式的虚拟机MDD模型结合起来，得到系统MDD模型；

步骤3.3.2：在系统MDD模型第一层创建节点X ₁，终端值设置为

步骤3.3.3：将操作模式虚拟机MDD添加到系统MDD模型，计算终端值E ^*，公式如下：

E ^*＝min{E _d+(n-c+1),1≤d≤m} (26)

其中，2≤c≤k；

步骤3.3.3.1：若E ^*≥k，将A _c(2≤c≤k)操作模式虚拟机的MDD添加到当前的系统MDD模型的路径中，并更新路径的终端值，公式为：

步骤3.3.3.2：若E ^*＜k，则不添加；

步骤3.3.4：将热备份模式虚拟机MDD添加到系统MDD模型之中，计算终端值E ^*，公式如下：

E ^*＝min{E _d+(n-c+1),1≤d≤m} (28)

其中，k+1≤c≤m；

步骤3.3.4.1：若E ^*≥k，则求d ^*,公式如下：

d ^*＝min(E _d|E _d＜k) (29)

其中，d ^*指操作模式阶段虚拟机正常工作的个数少于k个；

步骤3.3.4.2：若d ^*存在，将热备份模式虚拟机A _c的MDD表示添加到系统MDD模型的路径，公式为：

步骤3.3.4.3：若E ^*＜k，则不添加；

步骤3.3.5：按照优化规则将路径合并，计算出系统的可靠性，所述优化规则具体为：1)即若两个非终结点的分支指向同一个节点(可以为终结点或非终结点)，则它们的那条分支都指向这个节点，将这两个相同的节点合并，减少一个重复节点。2)若有一个非终结点的所有可能的状态分支都指向下一个相同的节点(可以为终结点或非终结点)，则将这个非终结点从MDD图中消去，直接有该引入节点指向下一个节点。

步骤3.3.5.2：将所有路径终点值为1的路径概率求和计算出系统的可靠性。

有益技术效果：

本发明采用基于可靠性评估的虚拟机模式转移混合备用优化方法，为了达到准确的对系统的可靠性进行定量评估，本发明通过训练历史数据得到HSMM参数，使用HSMM模型对虚拟机失效率进行预测，根据预测的结果构建MDD，然后简化MDD的终端值，将从根节点到1的所有路径的发生概率的总和作为系统的可靠性。并将虚拟机分成三种不同模式即操作模式、冷备份模式和热备份模式，采用模式转移，使备用虚拟机在需要时替换失效的工作虚拟机来维持系统的运行，采用多值决策图进行可靠性评估。通过三组对比试验，即全部都是操作模式、传统备份模式，和本发明采用的虚拟机模式转移的混合备份方法，验证得到本发明的平均响应时间和失效率低，可靠性高，从侧面验证本发明方法的正确性。

附图说明

图1是本发明实施例的一种基于模式转移的虚拟机混合备用动态优化方法流程图(等确定好了文字部分我会添加上去的)；

图2是本发明实施例的预测基于HSMM的虚拟机失效概率流程图；

图3是本发明实施例的基于多值决策图的冷热备份云系统进行可靠性评估流程图；

图4是本发明实施例的场景一下的平均响应时间；

图5是本发明实施例的场景一下的预测状态；

图6是本发明实施例的场景二下的平均响应时间；

图7是本发明实施例的场景二下的预测状态；

图8本发明实施例的场景三下的平均响应时间；

图9是本发明实施例的场景三下的预测状态；

图10是本发明实施例的各调整方法下平均请求失效率；

图11是本发明实施例的各调整方法下平均响应时间；

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明，所有实验数据均来自于飞机票在线订购云服务系统，此云服务系统主要提供注册、登录、购票、查询、退票等多种云服务。实验采用HPZ820工作站来搭建云服务系统，在工作站上安装Ubuntu Kylin Linux 18.10 x86_64系统、KVM虚拟化软件、Nginx负载均衡器、Tomcat Web中间件、MySQL数据库，装载云服务性能自适应优化软件包。并且为每台服务器添加电器工况监测仪来监测系统功耗信息。实验通过Collectd+InfluxDB+Grafana工具来监测虚拟机运行状态信息。

一种基于模式转移的虚拟机混合备用动态可靠性评估方法，如图1所示，具体包括如下步骤：

步骤1.2.2：计算矩阵的特征值λ _i和特征向量α _i；

其中，r为数据指标的个数，t就是i的最大值；

步骤1.2.4：选取累计贡献率大于设定阈值q的数据为主成分，在本实施例实验中选取q为80％。

其中，p′ _k为标准化后实时数据；

步骤2：对标准化后数据预测基于HSMM的虚拟机失效概率，如图2所示，具体包括步骤2.1～步骤2.4：

其中，N和M分别为隐藏状态和可观测状态的个数，bik为系统在t时刻隐含状态产生观测状态的概率；

步骤2.2.1：假设可观测状态中某个状态向量O的状态个数用函数f(O)表示,则得到观测状态 {C ₁′,M ₁′,N ₁′,D ₁′}在一维空间中的顺序号，公式如下所示：

步骤2.2.2：系统的状况用H＝{h1,h2,h3,h4}，分别表示正常、异常、注意和失效状态，得到系统的4个隐藏状态以及它们之间的概率转移矩阵A，公式如下所示。

f(i,1)＝p _i*B _iy ₁ (20)

步骤2.4.2：根据如下公式求出t时刻不同状态的概率f(j,t)：

f(j,t)＝f(j,t)+f(i,t-d)*a _ij*p _j(d)*b _j(O _t) (21)

其中，d＝1,2,...,t。

步骤2.4.3：求出T+1时刻各状态的转移概率C _ij，公式如下：

C _ij＝C _ij+f(i,T-d)*a _ij*p _j(d) (22)

其中，p _j(d)为d时刻，在隐藏状态S _j停留的概率

步骤2.4.4：求出T+1时刻状态为S _i的失效概率P _i，公式如下：

P _i＝P _i+C _iS _i (23)

步骤3：基于多值决策图(MDD)的冷热备份云系统进行可靠性评估，如图3所示，具体为：根据步骤2的虚拟机失效率预测方法，得到每台操作模式和热模式虚拟机的失效概率，根据该预测的结果构建MDD，即基于多值决策图的冷热备份云系统，进行可靠性评估，具体包括步骤3.1～步骤3.3：

步骤3.1.2：每个分支的终端是一个元组

其中，

步骤3.2.1：假设操作模式虚拟机在T _d-1(1≤d≤m)失效，则得到

步骤3.2.3：将热备份模式虚拟机

表示；

步骤3.3.2：在系统MDD模型第一层创建节点X1，终端值设置为

E ^*＝min{E _d+(n-c+1),1≤d≤m} (26)

其中，2≤c≤k；

步骤3.3.3.2：若E ^*＜k，则不添加；

E ^*＝min{E _d+(n-c+1),1≤d≤m} (28)

其中，k+1≤c≤m；

步骤3.3.4.1：若E ^*≥k，则求d ^*,公式如下：

d ^*＝min(E _d|E _d＜k) (29)

其中，d ^*指操作模式阶段虚拟机正常工作的个数少于k个；

步骤3.3.4.3：若E ^*＜k，则不添加；

步骤3.3.5.1：系统在t时刻之前都正常，即不失效的路径概率，计算公式为：

仿真实验：

本发明分别采用场景一，场景二，场景三进行可靠性的评估，其中，场景一下的单业务操作：用户登陆操作；尝试逐渐加大负载；场景二下的单业务操作：查询订票操作；尝试突然增加负载；场景三下的混合业务操作：同时测试系统的登陆与查询操作；

场景一预测结果如图4，在时间点126左右，事物的平均响应时间为0.41s，属于不正常范围业务系统的响应时间，此时系统出现异常状态；在图5可看出隐半马尔可夫模型输出状态以提前发生改变，可较好预测出虚拟机运行状态。

场景二预测结果如图6和图7，该模型可以较好地预测出虚拟机的运行状态；并且比较场景一和场景二下的平均响应时间和预测状态图，可以看到突然增加负载造成虚拟机状态退化的加快，当负载减少时虚拟机状态又恢复到正常状态。这些变化隐半马尔科夫模型状态预测都能够较好反映。

场景三预测结果如图8和图9，比较场景一和场景三下的平均响应时间和预测状态图，可以看到混合业务造成虚拟机状态退化的加快，该模型也能较好反映虚拟机这种状态变化。

对隐半马尔科夫模型和隐马尔科夫模型的虚拟机状态预测结果进行比较分析。HSMM识别准确率为0.96，HMM识别准确率为0.707；

本发明设计三组对比实验，预测结果如图10和图11所示：全部都是操作模式(记为对照方法一)、传统备份方式(记为对照方法二)、在三种模式转移机制下的被动调整方法(记为对照方法三)，与本方法进行对比；

采用loadrunner分3个时段对备份系统加压；0～4h模拟加压每秒0～5000个请求；5～8h模拟加压每秒5000～10000个请求；8～12h模拟加压每秒1000～10000个请求；从平均失败请求率、平均响应时间对比各调整方法的性能，结果如图10与图11所示；本发明所采用的方法在平均失败请求率，平均响应时间都小于对比方法一和对比方法二，且可以看出在12个小时内三种方法得到的各项指标都是大致呈递增趋势，表明随着运行时间加大，系统可靠性和性能都有所降低。本文所提方法的可靠性和性能变化较小，从侧面验证了本文方法的正确性。

Claims

一种基于模式转移的虚拟机混合备用动态可靠性评估方法，其特征在于，具体步骤如下：

步骤1：采集资源和性能数据，并进行特性选择及标准化处理，具体步骤包括步骤1.1～步骤1.3：

步骤1.1：采集历史资源和性能数据，组成数据矩阵，依次包括：计算资源、存储资源、磁盘IO资源、网络资源；其中，计算资源包括：CPU空闲的百分比、CPU的运行时间、CPU使用率，存储资源包括：内存使用率、占用的最大内存、内存大小、内存最大使用率，磁盘IO资源包括：虚拟快设备I/O、吞吐量，网络资源包括：网络负载率、虚拟网络接受数据量、虚拟网络发送数据量、虚拟网络接收数据量比例、虚拟网络发送数据量比例；

步骤1.2：采用PCA方法对所采集的数据进行特征选择，具体包括步骤1.2.1～步骤1.2.7：

步骤1.2.1：针对采集的数据矩阵，计算各参数之间相关系数的协方差矩阵R；

步骤1.2.2：计算矩阵的特征值λ _i和特征向量α _i；

步骤1.2.3：根据矩阵的特征值λ _i和特征向量α _i，计算各参数贡献率κ和累计贡献率κ _sum，公式如下所示：

其中，r为数据指标的个数，t就是i的最大值；

步骤1.2.4：选取累计贡献率大于设定阈值q的数据为主成分；

步骤1.2.5：计算主成分载荷，主成分载荷l _ij表示主成分与原变量之间的关联大小，如下公式所示：

步骤1.2.6：计算主成分得分Z，即对主成分进行加权求和，权数为每个主成分的载荷；

步骤1.2.7：通过主成分分析得到对虚拟机失效率影响较大的参数为：CPU利用率、内存利用率、网络利用率和磁盘IO速度，即为采用PCA方法对所采集的数据选择的特征；

步骤1.3：采用预处理方法，分别基于历史数据与实时数据，对虚拟机失效率影响较大的参数进行标准化处理，得到标准化后历史数据与实时数据，具体包括步骤1.3.1～步骤1.3.2：

步骤1.3.1：针对历史数据，对CPU利用率、内存利用率、网络利用率和磁盘IO速度数据进行标准化处理，使结果降落到[0,1]区间，得到标准化后历史数据，公式如下所示：

其中，x _i为第i个对虚拟机失效率影响较大的参数，x _j为第j个对虚拟机失效率影响较大的参数；

步骤1.3.2：针对实时数据，根据虚拟机实时运行状态信息，得到虚拟机状态变化的时间序列数据{p ₁,p ₂,...,p _n}，采用Z-SCORE方法进行标准化，得到标准化后实时数据，计算公式如下：

其中，p′ _k为标准化后实时数据；

步骤2：对标准化后数据，预测基于HSMM的虚拟机失效概率；

步骤3：基于多值决策图的冷热备份云系统进行可靠性评估，具体为：根据步骤2的虚拟机失效率预测方法，得到每台操作模式和热模式虚拟机的失效概率，根据该预测的结果构建MDD，即基于多值决策图的冷热备份云系统，进行可靠性评估。
根据权利要求1所述基于模式转移的虚拟机混合备用动态可靠性评估方法，其特征在于，所述步骤2，具体包括步骤2.1～步骤2.4：

步骤2.1：对虚拟机失效趋势进行HSMM建模，具体包括步骤2.1.1～步骤2.1.2；

步骤2.1.1：针对标准化后的历史数据，用CPU利用率、内存利用率、网络利用率、磁盘读写速度构成特征向量数组V＝{C′,M′,N′,D′}，表示系统的可观测状态；

步骤2.1.2：对特征向量即主成分进行离散化处理，将每个特征向量划分成3个状态：较高为累计贡献率50％以上、中等为累计贡献率20％～50％、较低为累计贡献率0～20％，得到构成HSMM的输出状态的概率矩阵B，公式如下所示：

其中，N和M分别为隐藏状态和可观测状态的个数，bik为系统在t时刻隐含状态产生观测状态的概率；

步骤2.2：根据虚拟机运行状态数据构建状态空间，具体包括步骤2.2.1～步骤2.2.2；

步骤2.2.1：假设可观测状态中某个状态向量O的状态个数用函数f(O)表示,则得到观测状态{C ₁′,M ₁′,N ₁′,D ₁′}在一维空间中的顺序号，公式如下所示：

N({C ₁′,M ₁′,N ₁′,D ₁′})＝C ₁′f(M′)f(N′)f(D′)+M ₁′f(N′)f(D′)+N ₁′f(D′)+D ₁′   (10)

步骤2.2.2：系统的状况用H＝{h ₁,h ₂,h ₃,h ₄}，分别表示正常、异常、注意和失效状态，得到系统的4个隐藏状态以及它们之间的概率转移矩阵A，公式如下所示：

其中，N为隐藏状态的个数，a _ij为系统在t时刻隐含状态si，t+1时刻转移到状态sj的概率；

步骤2.3：对模型参数进行训练使其能正确反应虚拟机运行特征，得到隐马尔科夫模型参数，具体包括步骤2.3.1～步骤2.3.6；

步骤2.3.1：随机初始化HSMM的4个参数A,B,π,D，其中，π是初始概率，A是各个状态间的状态概率矩阵，B是输出概率矩阵，D是状态驻留参数；

步骤2.3.2：计算t时刻观测序列为(O _t+1,O _t+2,...,O _T)，且处于隐藏状态S _i概率的向前变量为α _t(i)，具体计算公式如下所示：

其中，a _ij为系统在t时刻隐含状态S _i，t+1时刻转移到状态S _j的概率；p _j(d)为d时刻，在隐藏状态S _j停留的概率；b _j(O _s)为系统在t时刻隐含状态产生观测状态O _s的概率

步骤2.3.3：计算时刻t隐藏状态处于S _i且满足观测序列(O _t+1,O _t+2,...,O _T)的概率的向后变量为β _t(i)，具体计算公式如下所示：

其中，a _ij为系统在t时刻隐含状态S _i，t+1时刻转移到状态S _j的概率；p _j(d)为d时刻，在隐藏状态S _j停留的概率；b _j(O _s)为系统在t时刻隐含状态产生观测状态O _s的概率

步骤2.3.4：计算虚拟机在t时刻处于隐藏状态i，在t+1时刻处于隐藏状态j的概率ξ _i(i,j)，公式如下所示；还可以得到在t时刻隐藏状态处于i的概率γ _t(i)，公式如下所示：

步骤2.3.5：根据公式12～15，得到初始时刻隐藏状态i的期望值
隐藏状态转移矩阵的期望值
转移状态矩阵的期望值
分别如下公式所示：

步骤2.3.6：根据公式16～19，得到的期望值代入α _t(i)，β _t(i)进行迭代计算，得到从历史数据中训练的隐马尔科夫模型参数A,B,π,D；

步骤2.4：根据标准化后的虚拟机实时状态变化，得到的时间序列数据，建立失效率预测模型，计算出下一时刻虚拟机失效概率，具体包括步骤2.4.1～步骤2.4.4

步骤2.4.1：根据观测值求出初始状态的概率f(i,1)，公式如下：

f(i,1)＝p _i*B _iy ₁          (20)

其中，p _i为失效状态的概率，B _i为转移状态矩阵，y ₁为初始状态的观测序列；

步骤2.4.2：根据如下公式求出t时刻不同状态的概率f(j,t)：

f(j,t)＝f(j,t)+f(i,t-d)*a _ij*p _j(d)*b _j(O _t)         (21)

其中，d＝1,2,...,t；

步骤2.4.3：求出T+1时刻各状态的转移概率C _ij，公式如下：

C _ij＝C _ij+f(i,T-d)*a _ij*p _j(d)        (22)

其中，p _j(d)为d时刻，在隐藏状态S _j停留的概率

步骤2.4.4：求出T+1时刻状态为S _i的失效概率P _i，公式如下：

P _i＝P _i+C _iS _i          (23)。
根据权利要求1所述基于模式转移的虚拟机混合备用动态可靠性评估方法，其特征在于，所述步骤3，具体包括步骤3.1～步骤3.3：

步骤3.1：为操作模式虚拟机构建MDD，具体包括步骤3.1.1～步骤3.1.3；

步骤3.1.1：将系统预测时间间隔离散为m段，得到具有m+1个分支的多值决策图

步骤3.1.2：每个分支的终端是一个元组
其中，
可以取值为1或0，分别表示第A _c个虚拟机是否运行到了第d段时间；

步骤3.1.3：将操作模式虚拟机运行参数代入之前的失效率预测模型，得到虚拟机在t时刻失效的概率为P _o(t)，公式如下：

其中，
操作模式虚拟机A _c在预测一开始处于运行状态，在执行了d-1段时间，在d段失效的概率

步骤3.2：为热备用模式虚拟机构建MDD，具体包括步骤3.2.1～步骤3.2.4；

步骤3.2.1：假设操作模式虚拟机在T _d-1(1≤d≤m)失效，则得到
即热备份虚拟机A _c在第d个时间段被激活，并且他们有(m-d+2)个分支

步骤3.2.2：在经历d-1个时间段备用操作结束后，在d时刻从备用状态切换运行状态，并且在运行d'-d时间段失败；

步骤3.2.3：将热备份模式虚拟机
在预测一开始就处于备份状态，计算运行d-1段时间，在第d段失效的概率用
表示；

步骤3.2.4：将热备份模式虚拟机运行参数，即CPU利用率、内存利用率、网络利用率、磁盘读写速度，代入失效率预测模型中，求得虚拟机在t时刻失效的概率为P _h(t)，具体公式如下：

步骤3.3：评估系统MDD模型以获得系统可靠性，具体包括步骤3.3.1～步骤3.3.5；

步骤3.3.1：每一台操作模式虚拟机MDD模型和热模式的虚拟机MDD模型结合起来，得到系统MDD模型；

步骤3.3.2：在系统MDD模型第一层创建节点X ₁，终端值设置为
步骤3.3.3：将操作模式虚拟机MDD添加到系统MDD模型，计算终端值E ^*，公式如下：

E ^*＝min{E _d+(n-c+1),1≤d≤m}         (26)

其中，2≤c≤k；

步骤3.3.3.1：若E ^*≥k，将A _c(2≤c≤k)操作模式虚拟机的MDD添加到当前的系统MDD模型的路径中，并更新路径的终端值，公式为：

步骤3.3.3.2：若E ^*＜k，则不添加；

步骤3.3.4：将热备份模式虚拟机MDD添加到系统MDD模型之中，计算终端值E ^*，公式如下：

E ^*＝min{E _d+(n-c+1),1≤d≤m}          (28)

其中，k+1≤c≤m

步骤3.3.4.1：若E ^*≥k，则求d ^*,公式如下：

d ^*＝min(E _d|E _d＜k)          (29)

其中，d ^*指操作模式阶段虚拟机正常工作的个数少于k个；

步骤3.3.4.2：若d ^*存在，将热备份模式虚拟机A _c的MDD表示添加到系统MDD模型的路径，公式为：

步骤3.3.4.3：若E ^*＜k，则不添加；

步骤3.3.5：按照优化规则将路径合并，计算出系统的可靠性，所述优化规则具体为：1)即若两个非终结点的分支指向同一个节点，则它们的那条分支都指向这个节点，将这两个相同的节点合并，减少一个重复节点；2)若有一个非终结点的所有可能的状态分支都指向下一个相同的节点，则将这个非终结点从MDD图中消去，直接有该引入节点指向下一个节点；

步骤3.3.5.1：系统在t时刻之前都正常，即不失效的路径概率，计算公式为：

步骤3.3.5.2：将所有路径终点值为1的路径概率求和计算出系统的可靠性。