WO2016107425A1

WO2016107425A1 - 基于数据中心的故障分析方法和装置

Info

Publication number: WO2016107425A1
Application number: PCT/CN2015/097903
Authority: WO
Inventors: 王烽
Original assignee: 华为技术有限公司
Priority date: 2014-12-31
Filing date: 2015-12-18
Publication date: 2016-07-07
Also published as: EP3232620A1; CN105812170A; EP3232620A4; EP3232620B1; US20170299645A1; CN105812170B; US10831630B2

Abstract

本发明实施例公开了一种基于数据中心的故障分析方法，包括获取拓扑结构图，该拓扑结构图中的节点包括数据中心的组成设备以及数据中心中运行的虚拟机；当数据中心发生故障时，获取故障告警，根据该拓扑结构图判断所述故障是否导致数据中心中运行的虚拟机组中的各个虚拟机之间的通信通路减少。本方法能够分析故障对数据中心上运行的各个业务的实际影响，提升了数据中心的故障分析的准确程度。

Description

基于数据中心的故障分析方法和装置

技术领域

本发明涉及虚拟机技术，尤其涉及基于数据中心的故障分析方法和装置。

背景技术

数据中心(Data Center)主要由主机(Host)以及交换设备构成，其中主机也称为物理机，主要用于支持虚拟机的运行，交换设备主要用于支持数据中心的各个设备之间的通信，交换设备一般包括交换机、路由器、网关等其他具有数据交换功能的网络节点，应当说明的是，主机上由于搭载了虚拟交换机(vSwitch)，因此主机也具有支持虚拟机之间的数据交换的功能。数据中心包含的设备较多，如果出现故障，需要获取该故障对数据中心造成的影响分析(Impact Analysis)，以便合理处理该故障。

现有数据中心的故障分析，仅针对发生故障的设备的类型来判断故障级别，或根据接收到的故障告警为设备故障告警或设备性能告警来判断故障级别，无法根据故障对数据中心运行的业务的影响进行准确的故障分析。

发明内容

针对上述现有技术而提出本发明，利用本发明可以解决现有技术方案中数据中心故障分析中，无法根据故障对数据中心运行的业务的影响准确进行故障分析的问题。

本发明实施例提供的第一方面，提供了一种基于数据中心的故障分析方法，所述数据中心的组成设备包括：至少两个主机，至少一个交换设备，所述至少两个主机中的每一个主机上运行至少一个虚拟机，所述至少一个交换设备用于建立所述数据中心的组成设备之间的通信通路，所述至少两个主机上运行的具有通信依赖关系的至少两个虚拟机构成虚拟机组，所述故障分析方法包括：

获取拓扑结构图，所述拓扑结构图中的节点包括所述组成设备以及所述至少两个主机上运行的虚拟机；

当所述数据中心发生故障时，获取故障告警，根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少。

结合第一方面，在第一方面的第一种实现方式中，所述根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少，具体包括：

根据所述拓扑结构图中节点间的连通关系，确定所述故障导致所述虚拟机组中的至少一个虚拟机与所述虚拟机组中的另一虚拟机之间无可用通信通路时，则表示所述虚拟机组发生错误。

结合第一方面的第一种实现方式，在第一方面的第二种实现方式中，所述数据中心中的所述虚拟机组为至少两个，所述方法还包括：

根据所述故障导致的发生错误的虚拟机组的数量，以及发生错误的各个虚拟机组对应的业务权重，获取所述故障的影响级别。

结合第一方面，在第一方面的第三种实现方式中，所述根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少，具体包括：

根据所述拓扑结构图中节点间的连通关系，确定所述虚拟机组的故障比值，所述故障比值具体包括，所述故障导致所述虚拟机组中的各个虚拟机之间中断的通信通路的数量，与所述虚拟机组中各个虚拟机之间通信通路的总数量的比值。

结合第一方面的第三种实现方式，在第一方面的第四种实现方式中，所述数据中心中的所述虚拟机组为至少两个，所述方法还包括：

根据所述故障导致的各个虚拟机组的故障比值及其对应的业务权重获取所述故障的影响级别。

结合第一方面，以及第一方面的第一至第四种实现方式，在第五种实现方式中，构成所述虚拟机组的具有通信依赖关系的至少两个虚拟机具体指示，协同执行同一业务或应用的至少两个虚拟机。

本发明实施例的第二方面提供一种故障分析装置，所述故障分析装置运用于数据中心，所述数据中心的组成设备包括：至少两个主机，至少一个交换设备，所述至少两个主机中的每一个主机上运行至少一个虚拟机，所述至少一个交换设备用于建立所述数据中心的组成设备之间的通信通路，所述至少两个主机上运行的具有通信依赖关系的至少两个虚拟机构成虚拟机组，所述故障分析装置包括：

获取模块，用于获取拓扑结构图，所述拓扑结构图中的节点包括所述组成设备以及所述至少两个主机上运行的虚拟机；

分析模块，用于当所述数据中心发生故障时，获取故障告警，根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少。

结合第二方面，在第二方面的第一种实现方式中，所述分析模块具体用于：根据所述拓扑结构图中节点间的连通关系，确定所述故障导致所述虚拟机组中的至少一个虚拟机与所述虚拟机组中的另一虚拟机之间无可用通信通路时，则表示所述虚拟机组发生错误。

结合第二方面的第一种实现方式，在第二种实现方式中，所述数据中心中的所述虚拟机组为至少两个，所述故障分析装置还包括：

第一计算模块，用于根据所述故障导致的发生错误的虚拟机组的数量，以及发生错误的各个虚拟机组对应的业务权重，获取所述故障的影响级别。

结合第二方面，在第三种实现方式中，所述分析模块具体用于：根据所述拓扑结构图中节点间的连通关系，确定所述虚拟机组的故障比值，所述故障比值具体包括，所述故障导致所述虚拟机组中的各个虚拟机之间中断的通信通路的数量，与所述虚拟机组中各个虚拟机之间通信通路的总数量的比值。

结合第二方面的第三种实现方式，在第四种实现方式中，所述数据中心中的所述虚拟机组为至少两个，所述故障分析装置还包括：

第二计算模块，用于根据所述故障导致的各个虚拟机组的故障比值及其对应的业务权重获取所述故障的影响级别。

结合第二方面，以及第二方面的第一至第四种实现方式，在第五种实现方式中，构成所述虚拟机组的具有通信依赖关系的至少两个虚拟机具体指示，协同执行同一业务或应用的至少两个虚拟机。

本发明实施例提供了一种基于数据中心的故障分析方法，数据中心中发生故障的情况下，向进行故障分析的设备发送故障告警，该设备根据预先获得的数据中心的拓扑结构图，分析该故障是否影响了数据中心中运行的虚拟机组中虚拟机之间的通信通路。避免了现有的故障分析方法中，仅根据故障设备的类型，或者故障设备的故障程度来判断该故障的重要性，无法综合分析故障对数据中心上运行的各个业务的实际影响，提升了数据中心的故障分析准确程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作以简单地介绍，显而易见的，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所应用的数据中心的组成结构示意图；

图2为本发明方法实施例所应用的故障分析方法的流程示意图；

图3为本发明实施例所应用的再一数据中心的组成结构示意图；

图4为本发明实施例所应用的又一数据中心的组成结构示意图；

图5为本发明装置实施例所应用的故障分析装置的组成结构示意图；

图6为本发明设备实施例所应用的故障分析设备的组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本说明书中的术语“虚拟机组”，具体可以指代一个虚拟机组，或多个虚拟机组。每一个虚拟机组包括彼此具有通信依赖关系的至少两个虚拟机，具体的，同一虚拟机组中的虚拟机之间的通信依赖关系可以指代：同一虚拟机组中的虚拟机协同执行同一应用或者业务，因此同一虚拟机组中的虚拟机之间需要频繁通信。而不同虚拟机组之间由于执行的应用或者业务不同，因此不同虚拟机组之间一般无须通信，即使不同虚拟机组之间的通信中断，也不会影响到各个虚拟机组执行的应用或者业务。

本说明书中的术语“业务权重”，具体用于指示虚拟机组上运行的应用或者业务的重要程度，比如，业务归属的用户等级、业务影响的范围。

本说明书中的术语“通信通路”，具体指示虚拟机组中任意两个虚拟机之间的任一条通信通道，以图1为例，如虚拟机202，虚拟机208和虚拟机210隶属于同一虚拟机组，则虚拟机202和虚拟机208之间，有主机214-交换设备222-交换设备228-交换设备224-主机218，和主机214-交换设备222-交换设备228-交换设备226-主机218两条通信通路，依次类推，虚拟机202和虚拟机210之间有两条通信通路，虚拟机208和虚拟机210之间有两条通信通路，该虚拟机组内共有六条通信通路，则如果交换设备224发生故障与其他设备断开连接，则该虚拟机组内也随之中断三条通信通路。

本发明实施例的数据中心的组成结构

图1描述了本发明实施例所提供的数据中心的组成结构示意图，数据中心的组成设备包括主机214-220和交换设备222-228，其中主机214上运行虚拟机202和虚拟机204，主机216上运行了虚拟机206，主机218上运行了虚拟机208，主机220上运行了虚拟机210和虚拟机212。虚拟机202和虚拟机212构成第一虚拟机组，虚拟机204和虚拟机206构成第二虚拟机组，虚拟机208和虚拟机210构成第三虚拟机组。交换设备222-228用于数据中心中任意两个组成设备之间的通信连接。

方法实施例

参见图2，本方法实施例是基于图1所示的数据中心，所提供的一种故障分析方法，应当说明的是，执行本方法的可以是数据中心中任一服务器或主机，具体实现中，各厂商进行故障分析的一般为安装在该服务器或主机上的软件，例如EMC的Business Impact Manager，或HP的Service Impact Analysis。为方便描述本方法实施例中将本方法的执行主体设置为主机214，故障分析方法包括：

步骤402，主机214获取拓扑结构图，拓扑结构图中的节点包括该数据中心的组成设备，以及该数据中心中各个主机上运行的虚拟机。同时，拓扑结构图中的连接线包括该数据中心的组成设备之间的通信通路，以及该数据中心中各个主机与各个主机上运行的虚拟机之间的通信通路。

具体的，主机214在数据中心启动时，对数据中心的组成设备进行遍历，该遍历具体可以为组成设备发现服务，常用的遍历算法包括宽度优先遍历、深度优先遍历等，之后根据数据中心中各个主机与各个主机上运行的虚拟机，获取该数据中心的拓扑结构图，该拓扑结构图中的节点包括虚拟机202-212，主机214-220和交换设备222-228，该拓扑结构图中的连接线包括该数据中心的虚拟机、主机、交换设备之间的通信通路，示例性的，图1即为数据中心的拓扑结构图。

步骤404，当数据中心发生故障时，主机214获取故障告警，根据步骤402中获取的拓扑结构图，判断该故障是否导致数据中心中虚拟机组包括的虚拟机之间的通信通路减少。

具体的，该故障可以为数据中心的组成设备故障，或数据中心的组成设备之间的通信通路故障，以图1为例，可以指示其中任一交换设备或主机故障，也可以指示数据中心的任何两个组成设备之间的通信通路故障，例如交换设备222和交换设备228之间的通信通路故障。本方法实施例中，由于主机214为故障分析设备，因此数据中心中任一组成设备发生故障或组成设备之间的通信通路故障，均向主机214发送故障告警，该故障告警指示该故障。

主机214获取故障告警后，根据步骤402中获取的拓扑结构图，判断该故障是否导致：第一、第二和第三虚拟机组中任一虚拟机组包括的虚拟机之间的通信通路减少。例如，第一虚拟机组包括的虚拟机202和虚拟机212之间的通信通路原本包括：主机214-交换设备222-交换设备228-交换设备224-主机220，和主机214-交换设备222-交换设备228-交换设备226-主机220，一共两条通信通路，步骤404即主机214对第一虚拟机组进行故障分析，即判断该故障是否导致这两条通信通路减少，与之对应，主机214也可以对第二、第三虚拟机组也进行相应的故障分析。

需要说明的是，实际中步骤402和步骤404可以连续执行，也可以在主机214执行了一次步骤402后，获取拓扑结构图，主机214接下来获取了多次故障告警的情况下，针对每次故障告警均执行一次步骤404以完成故障分析。

可选的，步骤404具体包括，主机214获取了故障告警后，根据数据中心中任一虚拟机组包括的虚拟机在拓扑结构图中对应的节点之间的连通关系，判断该故障是否导致了该虚拟机组包括的至少一个虚拟机，与该虚拟机组中的另一虚拟机之间的无可用通信通路，则该虚拟机组发生错误。例如：主机214获取故障告警后，将拓扑结构图中该故障告警指示的组成设备或组成设备之间的通信通路删除后，在该拓扑结构图中以任一虚拟机组包括的任一虚拟机为起点发起第一次遍历，如果第一次遍历无法遍历全部节点，则第一次遍历经过的全部组成设备构成了第一子拓扑结构，主机214以任一第一次遍历未经过的组成设备为起点发起第二次遍历，获取第二子拓扑结构，直至全部节点遍历完成，其中获取的第一子拓扑结构、第二子拓扑结构…第n子拓扑结构之间无通信连接，因此如果有任一虚拟机组包括的虚拟机同时运行于两个子拓扑结构中，则说明该故障导致该虚拟机组包括的位于两个子拓扑结构中的两部分虚拟机之间的无可用通信通路，则该虚拟机组发生错误。

以故障告警指示图1中交换设备222与交换设备228之间的通信通路故障为例，由于该通信通路故障图1中的数据中心的拓扑结构图转换成为图3所示的拓扑结构图，则虚拟机202、虚拟机204、虚拟机206、主机214、主机216和交换设备222组成第一子拓扑结构，虚拟机208、虚拟机210、虚拟机212、主机218、主机220、交换设备224、交换设备226和交换设备228组成第二子拓扑结构；第一虚拟机组包括虚拟机202和虚拟机212，分别位于第一子拓扑结构和第二子拓扑结构，则该故障导致第一虚拟机组包括虚拟机202，与虚拟机212之间的无可用通信通路，第一虚拟机组发生错误，依次类推，该故障告警未导致第二、第三虚拟机组中的任一虚拟机与其他虚拟机之间无可用通信通路。

还例如：主机214获取故障告警后，将拓扑结构图中该故障告警指示的组成设备或组成设备之间的通信通路删除后，判断任一虚拟机组包括的虚拟机之间在该拓扑结构图中是否存在最短路径，如果不存在最短路径，则说明该虚拟机组包括的虚拟机分别位于两个子拓扑结构中无法连通，即无可用通信通路。

可选的，前述虚拟机组可以指代多个虚拟机组，主机214对数据中心中所有虚拟机组均执行前述故障分析方法，以确定该故障导致的发生错误的虚拟机组的数量，例如为m，发生错误的虚拟机即：其包括的至少一个虚拟机与其包括的另一虚拟机无可用通信通路的虚拟机组，以及该故障导致的发生故障的虚拟机组的业务权重后，获取该故障告警的影响参数。具体的，数据中心运行的各个虚拟机组的业务权重，以图3为例，第一、第二、第三虚拟机组的业务权重分别为n₁、n₂、n₃。承接上例，若故障告警指示交换设备222与交换设备228之间的通信通路故障，则仅有第一虚拟机组发生错误(即m＝1)，主机214根据A×m+B×n₁，或f(m，n₁)计算输出的即为该故障的影响参数。获取该影响参数后，进一步输出该故障的影响级别，例如，若该影响参数大于预设的阈值，则该故障告警为紧急故障，需要优先修复，若该结果小于或等于预设的阈值，则该故障告警为次要故障，则可以等待紧急故障修复完毕后再行修复。前式中的参数A和B的选取可以按照需求自行设置，其中的f(m，n₁)为任意以m和n₁作为输入参数的函数，该函数具体可以按照需求自行设置。

同时，数据中心的各个组成设备之间的通信通路可能有很多，有的故障告警并不会导致数据中心的组成设备之间的通信通路中断，也即不会导致各个虚拟机组包括的任意两个虚拟机之间的无可用通信通路，如果按照前述可选方案中的故障分析方法，则会得出这类故障告警对数据中心上运行的业务或应用没有影响的结论，即数据中心中各个虚拟机组未发生错误，例如图1中交换设备224和交换设备226为两个并行的交换设备，其中任一发生故障并不会导致任意两个组成设备之间的通信通路中断。但交换设备224和交换设备226共同构成主机218、主机220和交换设备228之间的通信通路，若其中之一发生故障，虽然通信通路不会中断，但通信通路的可靠性会降低，通信通路的带宽以及服务质量也会受到影响，因此步骤404中主机214根据拓扑结构图，判断各个虚拟机组中的各个虚拟机之间的通信通路是否减少还可以包括如下可选方案。

可选的，主机214获取了故障告警后，根据数据中心中虚拟机组包括的虚拟机在拓扑结构图中对应的节点之间的连通关系，判断该故障是否导致了该虚拟机组包括的虚拟机之间的通信通路减少，即虚拟机之间存在中断的通信通路，若该故障导致了该虚拟机组包括的虚拟机之间的通信通路减少，则该虚拟机组发生错误。同时，主机214还获取发生故障的虚拟机组的故障比值，具体的，任一虚拟机组的故障比值指示：该故障导致该虚拟机组包括的虚拟机之间中断的通信通路的数量，与该虚拟机组包括的虚拟机之间的通信通路的总数量的比值。

例如：主机214获取故障告警，该故障告警指示交换设备226发生故障，由于交换设备226故障，图1中的数据中心的拓扑结构图转换成为图4所示的拓扑结构图，如果根据前述方案，则会得出该故障告警未造成任一虚拟机组包括的任意两个虚拟机之间的通信通路中断，但交换设备226与交换设备224功能对等，两者均用于虚拟机208、虚拟机210、虚拟机212之间的通信，和虚拟机208、虚拟机210、虚拟机212与虚拟机202、虚拟机204、虚拟机206，因此交换设备226的故障导致虚拟机208、虚拟机210、虚拟机212之间的通信可靠性降低，和虚拟机208、虚拟机210、虚拟机212与虚拟机202、虚拟机204、虚拟机206之间的通信可靠性降低，也即影响了第一虚拟机组(虚拟机202和虚拟机212之间)和第三虚拟机组(虚拟机208和虚拟机210之间)通信通路的可靠性降低。第一虚拟机组的通信通路的总数量为2，即主机214-交换设备222-交换设备228-交换设备224-主机220，和主机214-交换设备222-交换设备228-交换设备226-主机220，该故障导致了后一条通信通路中断，则第一虚拟机组的故障比值为0.5，同理可以得出第三虚拟机组的故障比值为0.5。

可选的，前述虚拟机组可以指代多个虚拟机组，主机214对数据中心中所有虚拟机组均执行前述故障分析方法，以确定该故障导致的发生错误的虚拟机组的数量，例如为M，发生错误的虚拟机即：其包括的各个虚拟机之间发生通信通路中断的虚拟机组，该故障告警造成影响的虚拟机组的业务权重，例如该M个虚拟机组的业务权重分别为N₁、N₂…N_M，和该M个虚拟机组的故障比值分别为X₁、X₂…X_M，主机214根据N₁、N₂…N_M、X₁、X₂…X_M，获取该故障的影响参数，具体的，主机214根据f(N₁，N₂…N_M，X₁、X₂…X_M，)计算所得即为影响参数。获取该影响参数后，还可以进一步输出该故障的影响级别，例如，若该影响参数大于预设的阈值，则该故障告警为紧急故障，需要优先修复，若该结果小于或等于预设的阈值，则该故障告警为次要故障，则可以等待紧急故障修复完毕后再行修复。其中的f(N₁，N₂…N_M，X₁，X₂…X_M，)为任意以N₁、N₂…N_M和X₁、X₂…X_M为输入参数的函数，该函数具体可以按照需求自行设置。

可选的，前述虚拟机组中包括的虚拟机，具体指示协同执行同一业务或者应用的虚拟机。

需要说明的是，本方法实施例中的各种可选方法，可以在数据中心发生多个故障告警的情况下，分析得出各个故障对数据中心中运行的虚拟机组中虚拟机的通信通路造成的影响，并获取各个故障的影响级别，确定多个故障修复时的优先级，优先保证对虚拟机组影响程度高的故障设备优先被修复，尽量保证数据中心的工作性能；还可以模拟数据中心中各个组成设备或者组成设备之间的通信通路发生故障的情况下，获取各个组成设备或者各个组成设备之间的通信通路故障，对数据中心的工作性能的影响级别，例如依次模拟主机214接收到了故障告警指示主机214-主机220，交换设备222-交换设备228发生故障的情况下，获取各个组成设备发生故障时，该故障的影响级别，从而得出主机214-主机220，交换设备222-交换设备228的重要优先级，因此可以在对数据中心进行维护时，优先维护重要优先级高的组成设备，以减少重要的组成设备的故障发生概率。

上述提供一种基于数据中心的故障分析方法，数据中心中发生故障的情况下，向进行故障分析的设备发送故障告警，该设备根据预先获得的数据中心的拓扑结构图，分析该故障是否影响了数据中心中运行的虚拟机组中虚拟机之间的通信通路，并可以根据受影响的虚拟机组的数量，受影响的虚拟机组的业务权重，可选的以及受影响的虚拟机组的故障比值，综合获取该故障告警对数据中心的影响级别。避免了现有的故障分析方法中，仅根据故障设备的类型，或者故障设备的故障程度来判断该故障的重要性，无法综合分析故障对数据中心上运行的各个业务的实际影响，提升了数据中心的故障分析准确程度，提升了数据中心的故障分析能力和故障应对能力。

装置实施例

本装置实施例提供一种故障分析装置600，其组织结构示意图如图5所示，该故障分析装置600实际运用于图1所示的数据中心，并且可以为图1所示的数据中心中任一主机或服务器，包括：

获取模块602，用于获取拓扑结构图，拓扑结构图中的节点包括数据中心的组成设备以及数据中心中运行的虚拟机；

具体的，获取模块602实际执行方法实施例中步骤402及其各个可选方案，在此不再赘述。

分析模块604，用于当数据中心发生故障时，获取故障告警，根据拓扑结构图判断故障是否导致虚拟机组中的各个虚拟机之间的通信通路减少。

具体的，分析模块604实际执行方法实施例中步骤404及其各个可选方案，在此不再赘述。

可选的，数据中心中的虚拟机组为至少两个，故障分析装置600还包括：

第一计算模块，用于根据该故障导致的发生错误的虚拟机组的数量，以及发生错误的各个虚拟机组对应的业务权重，获取故障的影响级别。

第二计算模块，用于根据该故障导致的各个虚拟机组的故障比值及其对应的业务权重获取所述故障的影响级别。

可选的，构成虚拟机组的具有通信依赖关系的至少两个虚拟机具体指示，协同执行同一业务或应用的至少两个虚拟机。

上述提供一种基于数据中心的故障分析装置，该故障分析装置首先获得的数据中心的拓扑结构图，在获取故障告警后，根据预先获得的数据中心的拓扑结构图，分析该故障是否影响了数据中心中运行的虚拟机组中虚拟机之间的通信通路，并可以根据受影响的虚拟机组的数量，受影响的虚拟机组的业务权重，可选的，以及受影响的虚拟机组的故障比值，综合获取该故障告警对数据中心的影响级别。避免了现有的故障分析方法中，仅根据故障设备的类型，或者故障设备的故障程度来判断该故障的重要性，无法综合分析故障对数据中心上运行的各个业务的实际影响，提升了数据中心的故障分析准确程度，提升了数据中心的故障分析能力和故障应对能力。

设备实施例

本设备实施例提供一种故障分析设备800，其组织结构示意图如图6所示，该故障分析设备800实际运用于图1所示的数据中心，并且可以为图1所示的数据中心中任一主机或服务器，包括：

故障分析设备800包括处理器804、存储器804、通信接口806和总线808。其中，处理器802、存储器804和通信接口806通过总线808实现彼此之间的通信连接。

处理器802可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，或者一个或多个集成电路，用于执行相关程序，以实现前述本发明方法实施例所提供的技术方案。

存储器804可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器804可以存储操作系统和其他应用程序。在通过软件或者固件来实现本发明实施例提供的技术方案时，用于实现本发明前述方法实施例提供的技术方案的程序代码保存在存储器804中，并由处理器802来执行。

通信接口806用以与数据中心其他组成设备或虚拟机进行通信。

总线808可包括一通路，在故障分析设备800的各个部件之间传送信息。

上述提供一种基于数据中心的故障分析设备，该故障分析设备运行其存储的程度代码，首先获取数据中心的拓扑结构图，在获取故障告警后，根据预先获得的数据中心的拓扑结构图，分析该故障是否影响了数据中心中运行的虚拟机组中虚拟机之间的通信通路。避免了现有的故障分析方法中，仅根据故障设备的类型，或者故障设备的故障程度来判断该故障的重要性，无法综合分析故障对数据中心上运行的各个业务的实际影响，提升了数据中心的故障分析准确程度，提升了数据中心的故障分析能力和故障应对能力。

需要说明的是：对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种基于数据中心的故障分析方法，其特征在于，所述数据中心的组成设备包括：至少两个主机，至少一个交换设备，所述至少两个主机中的每一个主机上运行至少一个虚拟机，所述至少一个交换设备用于建立所述数据中心的组成设备之间的通信通路，所述至少两个主机上运行的具有通信依赖关系的至少两个虚拟机构成虚拟机组，所述故障分析方法包括：

获取拓扑结构图，所述拓扑结构图中的节点包括所述组成设备以及所述至少两个主机上运行的虚拟机；

当所述数据中心发生故障时，获取故障告警，根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少。
如权利要求1所述的故障分析方法，其特征在于，所述根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少，具体包括：

根据所述拓扑结构图中节点间的连通关系，确定所述故障导致所述虚拟机组中的至少一个虚拟机与所述虚拟机组中的另一虚拟机之间无可用通信通路时，则表示所述虚拟机组发生错误。
如权利要求2所述的故障分析方法，其特征在于，所述数据中心中的所述虚拟机组为至少两个，所述方法还包括：

根据所述故障导致的发生错误的虚拟机组的数量，以及发生错误的各个虚拟机组对应的业务权重，获取所述故障的影响级别。
如权利要求1所述的故障分析方法，其特征在于，所述根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少，具体包括：

根据所述拓扑结构图中节点间的连通关系，确定所述虚拟机组的故障比值，所述故障比值具体包括，所述故障导致所述虚拟机组中的各个虚拟机之间中断的通信通路的数量，与所述虚拟机组中各个虚拟机之间通信通路的总数量的比值。
如权利要求4所述的故障分析方法，其特征在于，所述数据中心中的所述虚拟机组为至少两个，所述方法还包括：

根据所述故障导致的各个虚拟机组的故障比值及其对应的业务权重获取所述故障的影响级别。
如权利要求1至5任一所述的方法，其特征在于，构成所述虚拟机组的具有通信依赖关系的至少两个虚拟机具体指示，协同执行同一业务或应用的至少两个虚拟机。
一种故障分析装置，其特征在于，所述故障分析装置运用于数据中心，所述数据中心的组成设备包括：至少两个主机，至少一个交换设备，所述至少两个主机中的每一个主机上运行至少一个虚拟机，所述至少一个交换设备用于建立所述数据中心的组成设备之间的通信通路，所述至少两个主机上运行的具有通信依赖关系的至少两个虚拟机构成虚拟机组，所述故障分析装置包括：

获取模块，用于获取拓扑结构图，所述拓扑结构图中的节点包括所述组成设备以及所述至少两个主机上运行的虚拟机；

分析模块，用于当所述数据中心发生故障时，获取故障告警，根据所述拓扑结构图判断所述故障是否导致所述虚拟机组中的各个虚拟机之间的通信通路减少。
如权利要求7所述的故障分析装置，其特征在于，所述分析模块具体用于：根据所述拓扑结构图中节点间的连通关系，确定所述故障导致所述虚拟机组中的至少一个虚拟机与所述虚拟机组中的另一虚拟机之间无可用通信通路时，则表示所述虚拟机组发生错误。
如权利要求8所述的故障分析装置，其特征在于，所述数据中心中的所述虚拟机组为至少两个，所述故障分析装置还包括：

第一计算模块，用于根据所述故障导致的发生错误的虚拟机组的数量，以及发生错误的各个虚拟机组对应的业务权重，获取所述故障的影响级别。
如权利要求7所述的故障分析装置，其特征在于，所述分析模块具体用于：根据所述拓扑结构图中节点间的连通关系，确定所述虚拟机组的故障比值，所述故障比值具体包括，所述故障导致所述虚拟机组中的各个虚拟机之间中断的通信通路的数量，与所述虚拟机组中各个虚拟机之间通信通路的总数量的比值。
如权利要求10所述的故障分析装置，其特征在于，所述数据中心中的所述虚拟机组为至少两个，所述故障分析装置还包括：

第二计算模块，用于根据所述故障导致的各个虚拟机组的故障比值及其对应的业务权重获取所述故障的影响级别。
如权利要求7至11任一所述的故障分析装置，其特征在于，构成所述虚拟机组的具有通信依赖关系的至少两个虚拟机具体指示，协同执行同一业务或应用的至少两个虚拟机。