WO2018054081A1

WO2018054081A1 - 故障处理方法、虚拟架构管理系统和业务管理系统

Info

Publication number: WO2018054081A1
Application number: PCT/CN2017/085356
Authority: WO
Inventors: 李候青
Original assignee: 华为技术有限公司
Priority date: 2016-09-22
Filing date: 2017-05-22
Publication date: 2018-03-29
Also published as: CN106452846A

Abstract

本发明提供故障处理方法、虚拟架构管理系统、业务管理系统和虚拟化计算机系统。该故障处理方法包括：虚拟架构管理系统获取故障告警消息，该故障告警消息携带故障设备的标识信息和故障类型；虚拟架构管理系统根据故障告警消息确定第一虚拟机集合，第一虚拟机集合包括受故障设备影响的至少一个第一虚拟机；虚拟架构管理系统向业务管理系统发送状态告警消息，该状态告警消息携带第一虚拟机集合的信息。本发明的技术方案能够快速地将硬件故障的影响通知给受影响的业务，从而提高业务可靠性。

Description

故障处理方法、虚拟架构管理系统和业务管理系统

技术领域

本发明涉及云计算领域，尤其涉及一种故障处理方法、虚拟架构管理系统、业务管理系统和虚拟化计算机系统。

背景技术

在云计算领域，各个行业的业务系统正在实施虚拟化或云化部署。目前，业务系统中的业务运行在虚拟机上，虚拟机部署在作为共享资源池的硬件设备上，即业务不再采用传统的专用硬件或物理服务器部署，以实现软件硬件解耦和提高资源利用率。

目前，当设备(如物理主机、存储设备等)发生故障后，会把故障设备的故障通过故障告警消息发送给虚拟架构管理系统，虚拟架构管理系统再把故障告警消息发送给业务管理系统，由业务管理系统根据故障告警消息确定受影响的虚拟机和业务应用，并对受影响的业务应用执行故障处理操作。这使得业务管理系统需要感知硬件和硬件故障对应的业务应用，才能对业务应用执行故障处理，这样会使得业务管理系统不能快速地将故障设备通知给故障设备所影响的业务应用，影响业务应用可靠性。

发明内容

本发明提供一种故障处理方法、虚拟架构管理系统业务管理系统和虚拟化计算机系统，能够快速地将硬件故障对虚拟机的影响通知给受影响的虚拟机所影响的业务，从而提高业务可靠性。

第一方面，本发明提供了一种故障处理方法。该故障处理方法用于在虚拟化计算机系统中进行故障处理，该虚拟化计算机系统包括：虚拟架构管理系统、业务管理系统以及至少一个虚拟机，至少一个虚拟机运行在至少一台物理设备上，至少一个虚拟机用于执行业务应用，业务管理系统用于管理业务应用，虚拟架构管理系统用于管理至少一个虚拟机和至少一台物理设备。该故障处理方法包括：虚拟架构管理系统获取故障告警消息，故障告警消息携带故障设备的标识信息和故障类型；虚拟架构管理系统根据故障告警消息确定第一虚拟机集合，第一虚拟机集合包括受所述故障设备影响的至少一个第一虚拟机；虚拟架构管理系统向业务管理系统发送状态告警消息，状态告警消息携带第一虚拟机集合的信息。

该故障处理方法中，虚拟架构管理系统获取到故障设备上的故障告警消息后，直接对该故障告警消息进行分析处理，获取故障设备影响的一个或多个虚拟机，并向业务管理系统发送这些虚拟机的信息，使得业务管理系统可以直接根据这些虚拟机的信息分析得到受影响的业务应用，进而可以对受影响的业务应用进行处理。与现有技术相比，由虚拟架构管理系统直接根据故障设备的故障告警消息确定受故障设备影响的虚拟机的信息，使得业务管理系统可以直接根据第一虚拟机集合的状态告警消息分析得到受影响的业务应用，而不是根据故障设备的告警消息去分析得到受影响的虚拟机、再分析受影响的业务应用。从而使得业务管理系统不需要直接感知硬件故障，进而可以快速触发业务应用的影响处理，降低业务损失，提高业务应用的可靠性。

在一种可能的实现方式中，所述故障处理方法还包括：虚拟架构管理系统根据故障硬件的故障告警消息确定第一虚拟机集合的影响信息，该影响信息用于指示故障设备对第一虚拟机集合中的第一虚拟机产生的影响的类型和/或级别；相应地，状态告警消息还可以携带第一虚拟机集合的影响信息。

该故障处理方法中，虚拟架构管理系统根据故障设备的故障告警信息除了可以获取受影响的至少一个虚拟机，还可以获取故障设备发生的故障对这些虚拟机的影响的类型和/或级别，然后在向业务管理系统发送的状态告警消息中还携带用于指示故障设备对第一虚拟机集合中的第一虚拟机产生的影响的类型和/或级别的影响信息，从而使得业务管理系统或业务系统可以更加根据该影响信息对业务应用进行处理，进一步提高业务应用的可靠性。

可选地，状态告警信息还可以包括第一虚拟机集合中的第一虚拟机的标识信息、告警标识信息、告警名称信息、告警对象类型信息、告警类型信息、告警产生时间信息、告警部件类型信息、告警部件标识信息和告警部件名称信息。

可选地，所述状态告警信息可以包括故障设备的故障类型信息。

在一种可能的实现方式中，故障设备对第一虚拟机集合中的第一虚拟机产生的影响的类型包括故障、高风险、中风险、低风险或无影响中的一种或多种类型。

可选地，故障设备对第一虚拟机集合中的第一虚拟机产生的影响的级别包括紧急、重要或不重要。

在一种可能的实现方式中，该故障处理方法还包括：虚拟架构管理系统接收业务管理系统发送的第一请求消息，第一请求消息用于指示待恢复的虚拟机，该待恢复的虚拟机为第一虚拟机集合中一个子集；虚拟架构管理系统根据第一请求信息优先恢复该待恢复的虚拟机。

该故障处理方法中，虚拟架构管理系统可以根据业务管理系统的请求，根据业务管理系统指示的优先级，对受故障设备的故障所影响的第一虚拟机集合中的至少一个虚拟机进行恢复处理。

可选地，虚拟架构管理系统对虚拟机进行的恢复处理可以包括：虚拟机热迁移。

在一种可能的实现方式中，该故障处理方法还包括：若虚拟架构管理系统在预置时间阈值内未接收到业务管理系统发送的第一请求信息，则按照预置虚拟机恢复策略恢复第一虚拟机集合中的第一虚拟机。

该故障处理方法可以保证在业务管理系统没有信息指示虚拟架构管理系统如何恢复第一虚拟机集合中的虚拟机时，虚拟架构管理系统可以主动根据预先配置的恢复策略对第一虚拟机集合中的第一虚拟机进行恢复。

在一种可能的实现方式中，该故障处理方法还包括：虚拟架构管理系统向业务管理系统发送状态告警清除消息。

该故障处理方法中，虚拟架构管理系统对虚拟机进行恢复处理后，向业务管理系统发送状态告警清除消息，使得业务管理系统可以根据该状态告警清除消息清除之前接收的相关的状态告警消息，从而避免业务管理系统对已经恢复的虚拟机相关的状态告警消息进行分析处理。

第二方面，本发明提供了一种虚拟架构管理系统，所述虚拟架构管理系统包括用于执行第一方面或第一方面任一种可能实现方式中的故障处理方法的各个模块。

本发明提供的虚拟架构管理系统，获取到故障设备上的故障告警消息后，直接对该故障告警消息进行分析处理，获取故障设备影响的一个或多个虚拟机，并向业务管理系统发送这些虚拟机的信息，使得业务管理系统可以直接根据这些虚拟机的信息分析得到受影响的业务应用，进而可以受影响的业务应用进行处理。与现有技术相比，由虚拟架构管理系统直接根据故障设备的故障告警消息确定受故障设备影响的虚拟机的信息，使得业务管理系统可以直接根据第一虚拟机集合的状态告警消息分析得到受影响的业务应用，而不是根据故障设备的告警消息去分析得到受影响的虚拟机、再分析受影响的业务应用。从而使得业务管理系统不需要直接感知硬件故障，进而可以快速触发业务应用的影响处理，降低业务损失，提高业务应用的可靠性。

第三方面，本发明提供一种虚拟架构管理系统，所述虚拟架构管理系统包括处理器、存储器、通信接口和总线。其中，处理器、存储器、通信接口通过总线进行通信，也可以通过无线传输等其他手段实现通信。该存储器用于存储指令，该处理器用于执行该存储器存储的指令。该存储器存储程序代码，且处理器可以调用存储器中存储的程序代码执行第一方面及第一方面任一种可能实现方式中的故障处理方法。

第四方面，本发明提供了一种计算机可读介质，所述计算机可读介质存储用于虚拟架构管理系统执行的程序代码，所述程序代码包括用于执行第一方面及第一方面任一种可能实现方式中的故障处理方法的指令。

第五方面，本发明还提供了一种故障处理方法，该故障处理方法用于在虚拟化计算机系统中进行故障处理，虚拟化计算机系统包括：虚拟架构管理系统、业务管理系统以及至少一个虚拟机，该至少一个虚拟机运行在至少一台物理设备上，该至少一个虚拟机用于执行业务应用，业务管理系统用于管理业务应用，虚拟架构管理系统用于管理该至少一个虚拟机和该至少一台物理设备；该故障处理方法包括：业务管理系统接收虚拟架构管理系统发送的状态告警消息，该状态告警消息携带受故障设备影响的第一虚拟机集合的信息，第一虚拟机集合中包括至少一个第一虚拟机；业务管理系统根据状态告警消息确定至少一个第一虚拟机关联的业务应用；业务管理系统对关联的业务应用执行处理操作。

该故障处理方法中，业务管理系统从虚拟架构管理系统接收到受故障设备影响的第一虚拟机集合中的虚拟机的信息后，可以直接根据这些虚拟机的信息分析得到受影响的业务应用，进而可以对受影响的业务应用进行处理。与现有技术相比，业务管理系统可以直接根据第一虚拟机集合的状态告警消息分析得到受影响的业务应用，而不是根据故障设备的告警消息去分析得到受影响的虚拟机、再分析受影响的业务应用。从而使得业务管理系统不需要直接感知硬件故障，进而可以快速触发业务应用的影响处理，降低业务损失，提高业务应用的可靠性。

在一种可能的实现方式中，第一虚拟机集合的状态告警消息还携带第一虚拟机集合的影响信息，该影响信息用于指示故障设备对第一虚拟机集合中的至少一个第一虚拟机产生的影响的类型和/或级别。相应地，业务管理系统对业务应用执行处理操作包括：业务管理系统根据第一虚拟机集合的影响信息对业务应用执行处理操作。

该故障处理方法中，业务管理系统从虚拟架构管理系统接收的第一虚拟机集合的状态告警消息中还携带用于指示故障设备对第一虚拟机集合中的第一虚拟机产生的影响的类型和/或级别的影响信息，从而使得业务管理系统或业务系统可以更加根据该影响信息对业务应用进行处理，进一步提高业务应用的可靠性。

在一种可能的实现方式中，第一虚拟机集合产生的影响的类型包括故障、高风险、中风险、低风险或无影响中的一种或多种类型。

在一种可能的实现方式中，处理操作包括以下方式中的至少一种：

业务管理系统将至少一个第一虚拟机关联的业务应用切换至未受故障设备影响的虚拟机执行；或

业务管理系统将至少一个第一虚拟机的应用状态信息标识为隔离状态，隔离状态用于指示至少一个第一虚拟机停止执行至少一个第一虚拟机关联的业务应用；或

业务管理系统向虚拟架构管理系统发送第一请求消息，第一请求消息用于指示待恢复的虚拟机，待恢复的虚拟机为第一虚拟机集合中一个子集；或

业务管理系统向至少一个第一虚拟机关联的业务应用的控制节点发送状态告警消息，以使得控制节点根据状态告警消息将至少一个第一虚拟机关联的业务应用切换至未受故障设备影响的虚拟机执行或将至少一个第一虚拟机的应用状态信息标识为隔离状态。

在一种可能的实现方式中，该故障处理方法还包括：业务管理系统根据第一虚拟机集合的影响信息确定第一请求消息。

该故障处理方法中，业务管理系统可以根据第一虚拟机的影响信息确定第一虚拟机集合中需要虚拟架构管理系统恢复的待恢复的虚拟机的优先级，并向虚拟机架构管理发送用于指示这些待恢复的虚拟机的恢复优先级的第一请求消息，使得虚拟架构管理系统可以根据业务管理系统指示的优先级，对受故障设备的故障所影响的第一虚拟机集合中的至少一个虚拟机进行恢复处理。

在一种可能的实现方式中，业务管理系统向虚拟架构管理系统发送用于指示待恢复的虚拟机的恢复优先级的第一请求消息的一种具体实现方式可以为：业务管理系统根据业务应用的优先级向虚拟架构管理系统发送第一请求消息。

该故障处理方法中，业务管理系统根据第一虚拟机集合中的第一虚拟机相关联的业务应用的优先级，即根据故障设备影响的业务应用的优先级指示虚拟架构管理系统对第一虚拟机集合中的待恢复的虚拟机进行恢复处理，从而可以保证高优先级的业务应用可以优先得到恢复，进一步保证业务应用的可靠性。

可选地，业务管理系统可以根据第一虚拟机集合的影响信息和相关联的业务应用的优先级向虚拟架构管理系统发送第一请求消息。

在一种可能的实现方式中，业务管理系统向虚拟架构管理系统发送第一请求消息的一种具体实现方式为：业务管理系统根据业务应用的部署模式向虚拟架构管理系统发送第一请求消息，业务应用的部署模式包括主备模式、负荷分担模式和单虚拟机模式中的至少一种。

该故障处理方法中，业务管理系统根据业务应用的部署模式，即根据故障设备影响的业务应用的部署模式指示虚拟架构管理系统对第一虚拟机集合中的待恢复的虚拟机进行恢复处理。

可选地，业务管理系统可以根据第一虚拟机集合的影响信息和业务应用的部署模式向虚拟架构管理系统发送第一请求消息，或可以根据业务应用的部署模式和业务应用的优先级向虚拟架构管理系统发送第一请求消息，或可以根据第一虚拟机集合的影响信息、业务应用的部署模式和业务应用的优先级向虚拟架构管理系统发送第一请求消息。

在一种可能的实现方式中，该故障处理方法还包括：业务管理系统接收虚拟架构管理系统发送的状态告警清除消息；业务管理系统根据该状态告警清除消息清除之前接收的相关的状态告警消息。

该故障处理方法中，业务管理系统可以根据虚拟架构管理系统发送的状态告警清除消息清除之前接收的相关的状态告警消息，从而避免对已经恢复的虚拟机相关的状态告警消息进行分析处理。

第六方面，本发明提供了一种业务管理系统，所述业务管理系统包括用于执行第五方面或第五方面的任一可能的实现方式中的故障处理方法的各个模块。

第七方面，本发明提供了一种业务管理系统，所述业务管理系统包括处理器、存储器、通信接口和总线。其中，处理器、存储器、通信接口通过总线进行通信，也可以通过无线传输等其他手段实现通信。该存储器用于存储指令，该处理器用于执行该存储器存储的指令。该存储器存储程序代码，且处理器可以调用存储器中存储的程序代码执行第五方面及第五方面任一种可能实现方式中的故障处理方法。

第八方面，本发明提供了一种计算机可读介质，所述计算机可读介质存储用于业务管理系统执行的程序代码，所述程序代码包括用于执行第五方面或第五方面的任一可能的实现方式中的故障处理方法的指令。

第九方面，本发明提供了一种虚拟化计算机系统，包括虚拟管理节点和业务管理节点，该虚拟化管理节点用于执行第一方面或第一方面的任一可能的实现方式中的故障处理方法，该业务管理节点用于执行第五方面或第五方面的任一可能的实现方式中的故障处理方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例的附图。

图1A是应用本发明实施例的故障处理方法的示意性系统结构图。

图1B是应用本发明实施例的故障处理方法的另一种示意性系统结构图。

图2是本发明一个实施例的故障处理方法的示意性流程图。

图3是本发明另一个实施例的故障处理方法的示意性流程图。

图4是本发明另一个实施例的故障处理方法的示意性流程图。

图5是本发明一个实施例的虚拟架构管理系统的示意性结构图。

图6是本发明一个实施例的业务管理系统的示意性结构图。

图7是本发明另一个实施例的虚拟架构管理系统的示意性结构图。

图8是本发明另一个实施例的业务管理系统的示意性结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

为了便于理解，先从整体上描述能够实施本发明实施例的故障处理方法的系统架构的示例图。应理解，本发明实施例并不限于图1A和图1B所示的虚拟化计算机系统中，此外，图1A和图1B中的装置可以是硬件，也可以是从功能上划分的软件或者以上二者的结合。

硬件资源(Hardware Resources)110可以包括一个或多个设备，每个设备可以为X86服务器、存储设备、网络设备等硬件设备资源，可用于提供计算、存储、网络等硬件功能。

虚拟化层(Virtualization Layer)120通过虚拟化技术对计算、存储、网络等硬件资源进行虚拟化，其中，虚拟化技术可以使用Xen，HyperV，也可以使用KVM，本发明不作限制。

虚拟资源(Virtual Resources)130是指通过虚拟化技术对硬件资源110进行虚拟化形成的虚拟资源，如虚拟计算、虚拟网络、虚拟存储等。

硬件资源110、虚拟化层120和虚拟资源130又可以成为虚拟架构层(Virtualized Infrastructure Layer)，为上层业务提供虚拟资源或虚拟资源池等基础设施层。

业务系统140中部署一个或多个业务应用功能，每个业务应用部署在一个或多个虚拟机上，即这些虚拟机用于执行业务应用。虚拟机部署在硬件资源110中的设备上。

每个业务应用有对应的控制节点。控制节点用于对对应的业务应用进行管理。控制节点也可称为仲裁节点。控制节点可以部署在业务系统中，一个控制节点可以分别管理对应的一个业务应用，如图1A所示；一个控制节点也可以管理多个业务应用，如图1B所示。控制节点可以指用于对对应的业务应用进行管理的硬件装置，也可以指业务应用运行的多个虚拟机中的一个虚拟机。

虚拟架构管理(Virtualized Infrastructure Manager)系统150实现虚拟化基础设施的管理，负责对物理硬件(即硬件资源110)虚拟化资源和部署在硬件资源110中的设备上的虚拟机进行统一管理、监控、资源调度、故障处理等，为业务系统运行提供资源支持，并提供开放接口等。虚拟化架构管理系统150也可以称为是虚拟化层的组成部分。

业务管理系统160，用于对运行在虚拟机上的业务应用进行管理，如创建业务应用、发放业务应用、业务应用中虚拟资源调度、及关闭业务应用等。业务管理系统可以管理一个或多个业务应用。业务管理系统调用虚拟架构管理系统提供的接口，为业务应用运行提供资源，实现业务应用发放、部署等。业务管理系统160与虚拟架构管理系统150 对接。当然，业务管理系统可以与多个虚拟架构管理系统对接。

其中，业务管理系统160和业务系统140又可统称为应用层。业务管理系统160和业务系统140可以是逻辑分开的系统，如图1A和1B所示，也可以由一个系统实现二者的功能。本发明实施例的以下具体描述中以图1A所示虚拟化计算机系统为例进行具体描述。

由上述内容可知，业务系统运行在虚拟资源130中的虚拟机上，业务系统不需要关心具体的硬件设备，也不需要知道业务应用所在的虚拟机具体在哪个硬件设备上运行，业务管理系统和业务系统均不需要直接感知设备及故障设备对业务应用的影响。

因此本发明提出新的故障处理方法、虚拟架构管理系统、业务管理系统和虚拟化计算机系统，使得业务管理系统不用直接感知设备以及设备故障对业务应用的影响，而是可以从虚拟架构管理系统获知设备故障对VM的影响，从而可以快速地获知受影响的业务应用，进而使得受影响的业务应用能够快速地得到处理。

下面以图1A所示的虚拟化计算机系统为例对本发明实施例的故障处理方法进行详细的介绍。

图2为本发明实施例的故障处理方法的示意性流程图。应理解，图2示出了故障处理方法的步骤或操作，但这些步骤或操作仅是示例，本发明实施例还可以执行其他操作或者图2中的各个操作的变形。此外，图2中的各个步骤可以按照与图2呈现的不同的顺序来执行，并且有可能并非要执行图2中的全部操作。

S210，虚拟架构管理系统获取故障告警消息，故障告警消息携带故障设备的标识信息和故障类型。

其中，故障设备可以是图1A中所示硬件资源110中任意一种或多种设备，故障类型包括整机故障或部分硬件故障。

例如，若故障设备为X86服务器，则故障类型可以为X86服务器整机故障，也可以是X86服务器中CPU、内存、网卡、磁盘中至少一种硬件故障。

本发明实施例中，故障设备(如服务器、存储设备等)可以快速检测自身故障，然后虚拟架构管理系统可以通过多种方式或协议获取故障设备的故障告警消息，如故障设备可以通过简单网络管理协议(Simple Network Management Protocol,SNMP)向虚拟架构管理系统上报故障设备的故障告警消息，或者虚拟架构管理系统可以通过表述性状态传递(Representational State Transfer，REST)接口查询故障设备的故障告警消息。

S220，虚拟架构管理系统根据故障设备的故障告警消息确定第一虚拟机集合，第一虚拟机集合包括受故障设备影响的至少一个第一虚拟机。

虚拟架构管理系统获取到故障设备的故障告警消息后，根据该故障告警消息确定受故障设备影响的第一虚拟机集合。虚拟架构管理系统获取到故障设备的故障告警消息后，根据该故障告警消息确定第一虚拟机集合确定第一虚拟机集合的具体实现方式可以是：虚拟架构管理系统根据故障设备的标识信息和故障类型，从虚拟架构管理系统的数据库中，查询部署在该故障设备上且受该故障设备发生的故障所影响的全部或部分虚拟机的信息。为了后续描述方便，可以将受到影响的虚拟机中的每个虚拟机称为第一虚拟机，所有的第一虚拟机组成第一虚拟机集合。

S230，虚拟架构管理系统向业务管理系统发送状态告警消息其中，状态告警消息携带第一虚拟机集合的信息。

当虚拟架构管理系统为多个第一虚拟机分别生成一条状态告警消息时，虚拟架构管理系统可以一次将这些状态告警消息发送给业务管理系统，也可以分多次发送给业务管理系统。

当然，虚拟架构管理系统也可以为所有受影响的虚拟机生成一个状态告警消息，即第一虚拟机集合中所有第一虚拟机生成一个状态告警消息，本发明对此不作限制。

业务管理系统接收虚拟架构管理系统发送的第一虚拟机集合的状态告警消息后，可以存储将该状态告警消息，如将该状态告警消息记录或保存在业务管理系统的数据库中。

S240，业务管理系统根据第一虚拟机集合的状态告警消息确定第一虚拟机集合中至少一个第一虚拟机关联的业务应用。

业务管理系统接收到虚拟架构管理系统发送的第一虚拟机集合的状态告警消息后，将该状态告警信息和业务应用关联，识别具体受影响的业务应用，具体实现方式可以为：根据第一虚拟机集合的状态告警消息中携带的受影响的第一虚拟机的信息，从业务管理系统的数据库或配置文件中，查询第一虚拟机和业务应用的对应关系，识别出具体受影响的业务应用。

S250，业务管理系统对第一虚拟机集合中的至少一个第一虚拟机关联的业务应用执行处理操作。

具体而言，业务管理系统对第一虚拟机集合中的第一虚拟机关联的业务应用执行处理操作的一种实现方式可以是：业务管理系统向业务应用对应的控制节点发送第一虚拟机集合的信息。其中，第一虚拟机集合的信息用于指示控制节点对该业务应用进行恢复处理。

可选地，业务管理系统对第一虚拟机集合中的至少一个第一虚拟机关联的业务应用执行处理操作包括以下方式中的至少一种：

方式一：业务管理系统将受影响的至少一个第一虚拟机关联的业务应用切换至未受所述故障设备影响的虚拟机执行

方式二：业务管理系统将将所述至少一个第一虚拟机的应用状态信息标识为隔离状态，所述隔离状态用于指示所述至少一个第一虚拟机停止执行所述至少一个第一虚拟机关联的业务应用，即在业务应用中隔离受影响的虚拟机。

方式三：业务管理系统向虚拟架构管理系统发送第一请求消息，第一请求消息用于指示待恢复的虚拟机，待恢复的虚拟机为所述第一虚拟机集合中一个子集。

方式四：业务管理系统向至少一个第一虚拟机关联的业务应用的控制节点发送状态告警消息，以使得控制节点根据所述状态告警消息将至少一个第一虚拟机关联的业务应用切换至未受所述故障设备影响的虚拟机执行或将所述至少一个第一虚拟机的应用状态信息标识为所述隔离状态。

本发明实施例中，虚拟架构管理系统获取到故障设备上的故障告警消息后，直接对该故障告警消息进行分析处理，获取故障设备影响的一个或多个虚拟机，并向业务管理系统发送这些虚拟机的信息。业务管理系统可以直接根据这些虚拟机的信息分析得到受影响的业务应用，进而可以对受影响的业务应用进行处理。与现有技术相比，由虚拟架构管理系统直接根据故障设备的故障告警消息确定受故障设备影响的虚拟机的信息，使得业务管理系统可以直接根据第一虚拟机集合的状态告警消息分析得到受影响的业务应用，而不是根据故障设备的告警消息去分析得到受影响的虚拟机、再分析受影响的业务应用。从而使得业务管理系统不需要直接感知硬件故障，进而可以快速触发业务应用的影响处理，降低业务损失，提高业务应用的可靠性。

本发明实施例中，可选地，虚拟架构管理系统可以根据故障设备的故障告警消息确定第一虚拟机集合的影响信息，该影响信息用于指示故障设备对第一虚拟机集合中至少一个第一虚拟机产生的影响的类型和/或级别。对应地，虚拟机架构管理系统向业务管理系统发送的状态告警消息还可以携带该影响信息，业务管理系统从虚拟架构管理系统出接收的状态告警消息可以携带该影响信息。然后业务管理系统根据第一虚拟机集合的影响信息对所述第一虚拟机集合中的第一虚拟机关联的业务应用执行处理操作。

用户可以根据需求定义虚拟机受到故障设备的故障所影响的类型和/或级别，下面是本发明实施例的虚拟机受到故障设备的影响的类型和级别的示例。

当物理服务器发生整机故障(包括物理服务器下电、主机操作系统故障等不能提供计算资源的故障)、存储设备故障(存储设备下电、全部断链等情况)、以及其他硬件故障导致虚拟机无法运行、为业务提供服务时，则虚拟机受影响的类型可设置为故障，级别可设置为紧急。对于网卡或其他硬件故障，若导致虚拟机无法正常工作时，则虚拟机受影响的类型可以为故障，级别可以设置为紧急。

当物理服务器发生部件故障，如中央处理器(Central Processing Unit，CPU)、内存、部分网卡发生故障时，若暂时不影响虚拟机运行，但存在运行风险的情况，则虚拟机受影响的类型可以设置为高风险，级别可设置为重要。

当存储设备发生部件故障，如部分链路中断、部分控制器故障等，若暂时不影响虚拟机运行，但存在运行风险的情况，则虚拟机受影响的类型可以设置为中风险，级别可以设置为次要。

通常情况下，凡是硬件故障导致虚拟机无法运行或无法对外提供服务时，虚拟机受影响的类型均可以设置为故障，级别均可以设置为紧急。

而对于不影响任何虚拟机运行的硬件故障，则可以不设置虚拟机的受影响的类型和级别，或者可以设置虚拟机受影响的类型为低风险或无风险，级别为提示。

通过上面内容的描述可知，虚拟架构管理系统向业务管理系统发送的状态告警消息可以包括第一虚拟机集合的信息，即受影响的至少一个第一虚拟机的标识。还可以包括第一虚拟机集合的影响信息，即故障设备对第一虚拟机集合中至少一个第一虚拟机产生的影响的类型和/或级别。

可选地，告警状态消息还可以包括产生时间、清除时间、告警同步号、告警名称、告警对象类型等。除了上述信息，虚拟机的状态告警消息还可以携带故障设备的故障原因等信息。当然，虚拟机的状态告警消息包括的信息不限于上述列举的内容。

上述虚拟架构管理系统执行的方法中，虚拟架构管理系统虽然只是对故障设备的告警消息进行分析处理，并向业务管理系统提供分析得到的信息，但是虚拟架构管理系统执行的该故障处理方法是后续对受故障影响的虚拟机进行处理或后续对受故障影响的业务应用的处理之前行之有效的方法，因此可以毫无意义地将其称为故障处理方法。

本发明实施例中，可选地，业务管理系统可以调用虚拟架构管理系统提供的接口，请求虚拟架构管理系统对受影响的虚拟机进行处理。具体而言，业务管理系统可以根据第一虚拟机集合的影响信息确定用于指示需要优先恢复的待恢复的虚拟机的第一请求消息，该待恢复的虚拟机虚拟机为第一虚拟机集合中一个子集。然后业务管理系统向虚拟架构管理系统发送该第一请求消息。

业务管理系统根据第一虚拟机的影响信息确定第一虚拟机集合中需要虚拟架构管理系统恢复的虚拟机的优先级，并向虚拟机架构管理发送用于指示待恢复的虚拟机的恢复优先级的第一请求消息，使得虚拟架构管理系统可以根据业务管理系统指示的优先级，对受故障设备的故障所影响的第一虚拟机集合中的至少一个虚拟机进行恢复处理。

可选地，业务管理系统向虚拟架构管理系统发送用于指示待恢复的虚拟机的恢复优先级的第一请求消息的另一种具体实现方式可以为：业务管理系统根据业务应用的优先级向虚拟架构管理系统发送第一请求消息。

具体而言，业务管理系统根据第一虚拟机集合中的第一虚拟机相关联的业务应用的优先级，即根据故障设备影响的业务应用的优先级指示虚拟架构管理系统对第一虚拟机集合中的待恢复的虚拟机进行恢复处理，从而可以保证高优先级的业务应用可以优先得到恢复，进一步保证业务应用的可靠性。

如业务管理系统可以通过第一请求消息指示虚拟机架构管理系统优先恢复第一虚拟机集合中优先级高的第一虚拟机。

可选地，业务管理系统向虚拟架构管理系统发送第一请求消息的一种具体实现方式为：业务管理系统根据业务应用的部署模式向虚拟架构管理系统发送第一请求消息，业务应用的部署模式包括主备模式、负荷分担模式和单虚拟机模式中的至少一种。

具体而言，业务管理系统根据业务应用的部署模式，即根据故障设备影响的业务应用的部署模式指示虚拟架构管理系统对第一虚拟机集合中的待恢复的虚拟机进行恢复处理。

如业务管理系统可以通过第一请求消息指示虚拟架构管理系统优先恢复部署模式为主备模式的业务应用的主备虚拟机中的主虚拟机。

虚拟架构管理系统接收业务管理系统发送的第一请求消息后，可以根据第一请求消息的指示对第一虚拟机集合中的待恢复的虚拟机按照一定的优先级进行恢复处理。虚拟架构管理系统对虚拟机的具体恢复形式可以是虚拟机迁移，即将虚拟机从故障设备迁移到其他正常设备；还可以是利用虚拟机快照在其他正常设备上恢复该虚拟机。

可选地，若虚拟架构管理系统在预置时间阈值内未接收到业务管理系统发送的用于指示第一虚拟机集合中需要优先恢复的虚拟机的第一请求信息，则按照预置虚拟机恢复策略恢复第一虚拟机集合中的第一虚拟机。

这样可以保证在业务管理系统没有信息指示虚拟架构管理系统如何恢复第一虚拟机集合中的虚拟机时，虚拟架构管理系统可以主动根据预置虚拟机恢复策略对第一虚拟机集合中的至少一个第一虚拟机进行恢复。

可选地，无论是业务管理系统请求虚拟架构管理系统对受影响的虚拟机进行处理，还是虚拟架构管理系统主动对受影响的虚拟机进行处理，虚拟架构管理系统对受影响的虚拟机处理完后，均可以给业务管理系统发送状态告警清除消息，以指示业务管理系统可以清除之前接收到的、与该进行处理的虚拟机对应的状态告警消息。

业务管理系统收到虚拟架构管理系统发送的状态告警清除消息后，可以将对应的虚拟机的状态告警消息清除，减少业务管理系统对已恢复告警的维护工作，从而可以节省资源，提高效率。

业务管理系统清除状态告警消息的具体形式可以是将存储的状态告警消息删掉，也可以是修改状态告警消息中的某个信息，使得该信息指示该状态告警消息对应的虚拟机已经恢复了。

本发明实施例中，可选地，业务管理系统根据第一虚拟机集合的信息确定第一虚拟机集合中的第一虚拟机关联的业务应用后，可以向业务应用关联的控制节点发送第一虚拟机集合的信息。

当业务应用的控制节点接收到业务管理系统发送的第一虚拟机集合的信息后，可以根据第一虚拟机集合中的第一虚拟机的信息对受影响的业务应用进行处理。

可选地，业务应用的控制节点还可以根据业务应用的部署模式对业务应用进行处理。如当业务应用为主备模式部署时，若主虚拟机故障，则控制节点需要进行主备切换；若备VM故障，控制节点不需要主备切换。如当业务应用为负荷分担模式部署时，控制节点将受影响的VM隔离。

可选地，业务应用的控制节点可以根据业务应用的部署模式和第一虚拟机集合的影响信息对业务应用进行处理。如当第一虚拟机集合的影响信息指示故障设备对第一虚拟机的影响的类型为故障、级别为紧急，且业务应用为主备模式部署，若主VM故障，则控制节点需要进行主备切换，若备VM故障或业务应用不重要，则控制节点可以不作处理，即控制节点不需要主备切换。应了解，上述根据虚拟机受影响的类型、级别及部署模式等对业务应用进行处理的方式只是示例性说明，其具体实现可以根据用户的需求来定义，本发明对此不作限制。

可选地，业务应用的控制节点对业务应用处理完成后，可以向业务管理系统发送业务处理反馈消息，告知业务管理系统其对业务应用的处理结果。

下面结合图3，以物理主机故障为例，详细介绍本发明实施例的故障处理方法。如图3所示，其中包括三个设备，分别为计算节点1、计算节点2和计算节点3。计算节点1、计算节点2和计算节点3可以分别为图1A或图1B中的设备1、设备2和设备3。

在虚拟化计算机系统中部署了2种业务应用(Application，APP)。一种应用为App1，与VM1和VM2关联，采用主备模式部署。其中，VM1部署在计算节点1上，为APP1的主用虚拟机；VM2部署在计算节点2上，为APP1的备用虚拟机。另一种应用为App2，与VM3和VM4关联，采用负荷分担模式部署，VM3部署在服务器计算节点2上，VM4部署在计算节点3上。

S402，当计算节点1发生掉电故障时，计算节点1通过SNMP协议向虚拟架构管理上报计算节点1的故障告警消息。

S404，虚拟架构管理接收到故障告警消息，根据该故障告警消息，确定受故障影响的虚拟机，并产生虚拟机的状态告警消息，具体步骤如下。

(1)虚拟架构管理系统收到计算节点1的硬件故障告警消息，从虚拟架构管理系统的数据库中查询计算节点1上运行的虚拟机列表，获取到受影响的虚拟机有VM1，得到VM1的ID等信息。

(2)由于计算节点1掉电故障导致VM1故障，VM1无法运行提供服务，因此可以将VM1受影响的类型设置为故障，VM1受影响的级别设置为紧急。

(3)虚拟架构管理系统产生VM1的状态告警消息，其携带信息包括：VM1ID、VM1受影响的类型(为故障)、产生时间、VM1受影响的级别(为紧急)、故障设备的故障类型(为计算节点1整机故障)等。

S406，虚拟架构管理系统向业务管理系统发送VM1的状态告警消息。

S408，业务管理系统接收虚拟架构管理系统发送的虚拟机的状态告警消息，获得VM1的ID等信息，从业务管理系统的数据库查询出VM1和业务应用的对应关系，得到受影响的业务应用为App1。

业务管理系统向App1的控制节点发送通知消息，通知VM1的故障。然后该控制节点根据通知消息确定把VM2升为主用服务器。

S410，业务管理系统调用虚拟架构管理系统提供的接口，向虚拟架构管理系统发送第一请求消息，请求虚拟架构管理系统快速恢复VM1。

S412，虚拟架构管理系统将VM1迁移到计算节点3中，此时，VM1变为App1的备用虚拟机。

此时，在具体实施过程中，虚拟架构管理系统还可以对计算节点1进行故障隔离。

S414，虚拟架构管理系统把VM1恢复后，给业务管理发送VM1状态告警清除消息。

经过故障处理后，业务系统中的应用的部署情况如图4所示。其中，App1采用主备模式部署，VM2部署在计算节点2上为主用虚拟机，VM1部署在计算节点3上为备用虚拟机。App2采用负荷分担模式部署，VM3部署在计算节点2上，VM4部署在计算节点3上。计算节点1故障，从资源池隔离。

上述实施例中，计算节点1发生故障后，向虚拟架构管理系统发送告警消息，虚拟架构管理系统根据告警消息确定受影响的虚拟机为VM1，且确定VM1受到的影响的类型和级别。业务管理系统不用直接对硬件的告警消息进行处理，即可直接从虚拟架构管理系统处获取受影响的VM1的信息和VM1受到的影响信息，进而确定VM1上运行的业务应用为App1，业务管理系统通知App1的控制节点对App1进行处理，并请求虚拟架构管理系统对VM1进行恢复。虚拟架构管理系统根据业务管理系统的请求将VM1迁移到计算节点3上。App1的控制节点从业务管理系统处获取VM1的信息及VM1受到的影响信息后，将App1原来的备虚拟机VM2切换为主虚拟机，并将迁移到计算节点3上的VM1设置为备用虚拟机，从而保证App1的运行，提高App1的可靠性。

上面结合图2至图4介绍了本发明实施例的故障处理方法，下面结合图5至图8介绍本发明实施例的虚拟架构管理系统和业务管理系统。

图5为本发明一个实施例的虚拟架构管理系统的示意性结构图。应理解，图5示出的虚拟架构管理系统500仅是示例，本发明实施例的虚拟架构管理系统还可包括其他模块或单元，或者包括与图5中的各个模块的功能相似的模块，或者并非要包括图5中的所有模块。

获取模块510，用于获取故障告警消息，所述故障告警消息携带故障设备的标识信息和故障类型。

确定模块520，用于根据所述故障告警消息确定第一虚拟机集合，所述第一虚拟机集合包括受所述故障设备影响的至少一个第一虚拟机。

发送模块530，用于向所述业务管理系统发送状态告警消息，所述状态告警消息携带所述第一虚拟机集合的信息。

本发明实施例中，虚拟架构管理系统获取到故障设备上的故障告警消息后，直接对该故障告警消息进行分析处理，获取故障设备影响的一个或多个虚拟机，并向业务管理系统发送这些虚拟机的信息，使得业务管理系统可以直接根据这些虚拟机的信息分析得到受影响的业务应用，进而可以对受影响的业务应用进行处理。与现有技术相比，由虚拟架构管理系统直接根据故障设备的故障告警消息确定受故障设备影响的虚拟机的信息，使得业务管理系统可以直接根据第一虚拟机集合的状态告警消息分析得到受影响的业务应用，而不是根据故障设备的告警消息去分析得到受影响的虚拟机、再分析受影响的业务应用。从而使得业务管理系统不需要直接感知硬件故障，进而可以快速触发业务应用的影响处理，降低业务损失，提高业务应用的可靠性。

可选地，作为一个实施例，所述确定模块还用于根据所述故障告警消息确定所述第一虚拟机集合的影响信息，所述影响信息用于指示所述故障设备对所述至少一个第一虚拟机产生的影响的类型和/或级别。则所述虚拟架构管理系统向所述业务管理系统发送状态告警消息还携带所述第一虚拟机集合的影响信息。

本发明实施例中，虚拟架构管理系统根据故障设备的故障告警信息除了可以获取受影响的至少一个虚拟机，还可以获取故障设备发生的故障对这些虚拟机的影响的类型和/或级别，然后在向业务管理系统发送的状态告警消息中还携带用于指示故障设备对第一虚拟机集合中的第一虚拟机产生的影响的类型和/或级别的影响信息，从而使得业务管理系统或业务系统可以更加根据该影响信息对业务应用进行处理，进一步提高业务应用的可靠性。

可选地，作为一个实施例，所述故障设备对所述至少一个第一虚拟机产生的影响的类型包括以下至少一种：故障、高风险、中风险、低风险或无影响。

可选地，作为一个实施例，所述虚拟架构管理系统还包括接收模块和恢复模块。所述接收模块用于接收所述业务管理系统发送的第一请求消息，所述第一请求消息用于指示需要优先恢复的待恢复的虚拟机，所述待恢复的虚拟机为所述第一虚拟机集合中一个子集。所述恢复模块用于根据所述第一请求信息优先恢复待恢复的虚拟机。

本发明实施例中，虚拟架构管理系统可以根据业务管理系统的请求，根据业务管理系统指示的优先级，对受故障设备的故障所影响的第一虚拟机集合中的至少一个虚拟机进行恢复处理。

可选地，作为一个实施例，所述恢复模块还用于在预置时间阈值内未接收到所述业务管理系统发送的所述第一请求信息时，按照预置虚拟机恢复策略恢复所述至少一个第一虚拟机。

本发明实施例可以保证在业务管理系统没有信息指示虚拟架构管理系统如何恢复第一虚拟机集合中的虚拟机时，虚拟架构管理系统可以主动根据预先配置的恢复策略对第一虚拟机集合中的第一虚拟机进行恢复。

可选地，作为一个实施例，所述发送模块还用于向所述业务管理系统发送状态告警清除消息，所述状态告警清除消息用于指示所述业务管理系统清除所述业务管理系统中的所述状态告警消息。

本发明实施例中，虚拟架构管理系统对虚拟机进行恢复处理后，向业务管理系统发送状态告警清除消息，使得业务管理系统可以根据该状态告警清除消息清除之前接收的相关的状态告警消息，从而避免业务管理系统对已经恢复的虚拟机相关的状态告警消息进行分析处理。

应理解的是，本发明实施例的虚拟架构管理系统500可以通过专用集成电路(Application Specific Integrated Circuit，ASIC)实现，或可编程逻辑器件(Programmable Logic Device，PLD)实现，上述PLD可以是复杂程序逻辑器件(Complex Programmable Logic Device，CPLD)，现场可编程门阵列(Field－Programmable Gate Array，FPGA)，通用阵列逻辑(Generic Array Logic，GAL)或其任意组合。通过软件实现图2所示的故障处理方法中由虚拟架构管理系统执行的步骤时，虚拟架构管理系统500及其各个模块也可以为软件模块。

应理解，图5所示的虚拟架构管理系统500可对应于图2所示故障处理方法中的虚拟架构管理系统，并且虚拟架构管理系统500中的各个单元的上述和其它操作和/或功能分别为了实现图2中的故障处理方法的相应流程，为了简洁，在此不再赘述。

图6为本发明一个实施例的业务管理系统的示意性结构图。应理解，图6示出的业务管理系统600仅是示例，本发明实施例的业务系统还可包括其他模块或单元，或者包括与图6中的各个模块的功能相似的模块，或者并非要包括图6中的所有模块。

接收模块610，用于接收所述虚拟架构管理系统发送的状态告警消息，所述状态告警消息携带受故障设备影响的第一虚拟机集合的信息，所述第一虚拟机集合中包括至少一个第一虚拟机。

确定模块620，用于根据所述状态告警消息确定所述至少一个第一虚拟机关联的业务应用。

处理模块630，用于对所述至少一个第一虚拟机关联的业务应用执行处理操作。

本发明实施例中，业务管理系统从虚拟架构管理系统接收到受故障设备影响的第一虚拟机集合中的虚拟机的信息后，可以直接根据这些虚拟机的信息分析得到受影响的业务应用，进而可以对受影响的业务应用进行处理。与现有技术相比，业务管理系统可以直接根据第一虚拟机集合的状态告警消息分析得到受影响的业务应用，而不是根据故障设备的告警消息去分析得到受影响的虚拟机、再分析受影响的业务应用。从而使得业务管理系统不需要直接感知硬件故障，进而可以快速触发业务应用的影响处理，降低业务损失，提高业务应用的可靠性。

可选地，作为一个实施例，所述状态告警消息还携带所述第一虚拟机集合的影响信息，所述影响信息用于指示所述故障设备对所述至少一个第一虚拟机产生的影响的类型和/或级别。其中，所述处理模块具体用于根据所述第一虚拟机集合的影响信息对所述至少一个第一虚拟机关联的业务应用执行处理操作。

本发明实施例中，业务管理系统从虚拟架构管理系统接收的第一虚拟机集合的状态告警消息中还携带用于指示故障设备对第一虚拟机集合中的第一虚拟机产生的影响的类型和/或级别的影响信息，从而使得业务管理系统或业务系统可以更加根据该影响信息对业务应用进行处理，进一步提高业务应用的可靠性。

可选地，作为一个实施例，所述第一虚拟机集合产生的影响的类型包括以下至少一种：故障、高风险、中风险、低风险或无影响。

可选地，作为一个实施例，所述处理操作包括以下方式中的至少一种：

所述业务管理系统将所述至少一个第一虚拟机关联的业务应用切换至未受所述故障设备影响的虚拟机执行；或

所述业务管理系统将所述至少一个第一虚拟机的应用状态信息标识为隔离状态，所述隔离状态用于指示所述至少一个第一虚拟机停止执行所述至少一个第一虚拟机关联的业务应用；或

所述业务管理系统向所述虚拟架构管理系统发送第一请求消息，所述第一请求消息用于指示待恢复的虚拟机，所述待恢复的虚拟机为所述第一虚拟机集合中一个子集；或

所述业务管理系统向所述至少一个第一虚拟机关联的业务应用的控制节点发送所述状态告警消息，以使得所述控制节点根据所述状态告警消息将所述至少一个第一虚拟机关联的业务应用切换至所述未受所述故障设备影响的虚拟机执行或将所述至少一个第一虚拟机的应用状态信息标识为所述隔离状态。

可选地，作为一个实施例，所述确定模块还用于根据所述第一虚拟机集合的影响信息确定第一请求消息，所述第一请求消息用于指示需要优先恢复的待恢复的虚拟机，所述待恢复的虚拟机为所述第一虚拟机集合中一个子集。所述业务管理系统还包括发送模块，用于向所述虚拟架构管理系统发送所述第一请求消息。

本发明实施例中，业务管理系统可以根据第一虚拟机的影响信息确定第一虚拟机集合中需要虚拟架构管理系统恢复的待恢复的虚拟机的优先级，并向虚拟机架构管理发送用于指示这些待恢复的虚拟机的恢复优先级的第一请求消息，使得虚拟架构管理系统可以根据业务管理系统指示的优先级，对受故障设备的故障所影响的第一虚拟机集合中的至少一个虚拟机进行恢复处理。

可选地，作为一个实施例，所述发送模块还用于根据所述至少一个第一虚拟机关联的业务应用的优先级向所述虚拟架构管理系统发送所述第一请求消息。

本发明实施例中，业务管理系统根据第一虚拟机集合中的第一虚拟机相关联的业务应用的优先级，即根据故障设备影响的业务应用的优先级指示虚拟架构管理系统对第一虚拟机集合中的待恢复的虚拟机进行恢复处理，从而可以保证高优先级的业务应用可以优先得到恢复，进一步保证业务应用的可靠性。

可选地，作为一个实施例，所述发送模块还用于根据所述至少一个第一虚拟机关联的业务应用的部署模式向所述虚拟架构管理系统发送所述第一请求消息，所述至少一个第一虚拟机关联的业务应用的部署模式包括主备模式、负荷分担模式和单虚拟机模式中的至少一种。

本发明实施例中，业务管理系统根据受影响的业务应用的部署模式，即根据故障设备影响的业务应用的部署模式指示虚拟架构管理系统对第一虚拟机集合中的待恢复的虚拟机进行恢复处理。

可选地，作为一个实施例，所述接收模块还用于接收所述虚拟架构管理系统发送的状态告警清除消息，所述处理模块还用于根据所述状态告警清除消息清除所述状态告警消息。

本发明实施例中，业务管理系统可以根据虚拟架构管理系统发送的状态告警清除消息清除之前接收的相关的状态告警消息，从而避免对已经恢复的虚拟机相关的状态告警消息进行分析处理。

应理解的是，本发明实施例的业务管理系统600可以通过专用集成电路实现，或可编程逻辑器件实现，上述PLD可以是复杂程序逻辑器件，现场可编程门阵列，通用阵列逻辑或其任意组合。通过软件实现图2所示的故障处理方法中由业务管理系统执行的步骤时，业务管理系统600及其各个模块也可以为软件模块。

应理解，图6所示的业务管理系统600可对应于图2所示故障处理方法中的业务管理系统，并且业务管理系统600中的各个单元的上述和其它操作和/或功能分别为了实现图2中的故障处理方法的相应流程，为了简洁，在此不再赘述。

图7是本发明另一个实施例的虚拟架构管理系统700的示意性结构图。虚拟架构管理系统700包括处理器710、存储器720、通信接口730和总线740。其中，处理器710、存储器720、通信接口730通过总线740进行通信，也可以通过无线传输等其他手段实现通信。该存储器720用于存储指令，该处理器710用于执行该存储器720存储的指令。该存储器720存储程序代码，且处理器710可以调用存储器720中存储的程序代码执行以下操作：

获取故障告警消息，所述故障告警消息携带故障设备的标识信息和故障类型；根据所述故障告警消息确定第一虚拟机集合，所述第一虚拟机集合包括受所述故障设备影响的至少一个第一虚拟机；向所述业务管理系统发送状态告警消息，所述状态告警消息携带所述第一虚拟机集合的信息。

可选地，作为一个实施例，处理器710还可以调用存储器720中存储的程序代码执行以下操作：根据所述故障告警消息确定所述第一虚拟机集合的影响信息，所述影响信息用于指示所述故障设备对所述至少一个第一虚拟机产生的影响的类型和/或级别。其中，所述状态告警消息还携带所述影响信息。

可选地，作为一个实施例，处理器710可以调用存储器720中存储的程序代码执行以下操作：接收所述业务管理系统发送的第一请求消息，所述第一请求消息用于指示需要优先恢复的待恢复的虚拟机，所述待恢复的虚拟机为所述第一虚拟机集合中一个子集。所述处理器还用于根据所述第一请求信息优先恢复所述待恢复的虚拟机。

可选地，作为一个实施例，处理器710可以调用存储器720中存储的程序代码执行以下操作：在预置时间阈值内未接收到所述业务管理系统发送的所述第一请求信息时，按照预置虚拟机恢复策略恢复所述至少一个第一虚拟机。

可选地，作为一个实施例，处理器710可以调用存储器720中存储的程序代码执行以下操作：向所述业务管理系统发送状态告警清除消息，所述状态告警清除消息用于指示所述业务管理系统清除所述业务管理系统中的所述状态告警消息。

应理解，图7所示本发明实施例的虚拟架构管理系统可对应于图5所示的虚拟架构管理系统，并且本发明实施例的虚拟架构管理系统中的各个单元的上述和其它操作和/或功能分别为了实现图2所示的故障处理方法中由虚拟架构管理系统执行的相应流程，为了简洁，在此不再赘述。

图8是本发明另一个实施例的业务管理系统800的示意性结构图。业务管理系统800包括处理器810、存储器820、通信接口830和总线840。其中，处理器810、存储器820、通信接口830通过总线840进行通信，也可以通过无线传输等其他手段实现通信。该存储器820用于存储指令，该处理器810用于执行该存储器820存储的指令。该存储器820存储程序代码，且处理器810可以调用存储器820中存储的程序代码执行以下操作：

接收所述虚拟架构管理系统发送的状态告警消息，所述状态告警消息携带受故障设备影响的第一虚拟机集合的信息，所述第一虚拟机集合中包括至少一个第一虚拟机；根据所述状态告警消息确定所述至少一个第一虚拟机关联的业务应用；对所述至少一个第一虚拟机关联的业务应用执行处理操作。

可选地，作为一个实施例，所述状态告警消息还携带所述第一虚拟机集合的影响信息，所述影响信息用于指示所述故障设备对所述至少一个第一虚拟机产生的影响的类型和/或级别。其中，所述处理器具体用于根据所述第一虚拟机集合的影响信息对所述至少一个第一虚拟机关联的业务应用执行处理操作。

可选地，作为一个实施例，处理器710可以调用存储器720中存储的程序代码执行以下操作：根据所述第一虚拟机集合的影响信息确定第一请求消息。所述发送器840用于向所述虚拟架构管理系统发送所述第一请求消息。

可选地，作为一个实施例，处理器710可以调用存储器720中存储的程序代码执行以下操作：根据所述至少一个第一虚拟机关联的业务应用的优先级向所述虚拟架构管理系统发送所述第一请求消息。

可选地，作为一个实施例，处理器710可以调用存储器720中存储的程序代码执行以下操作：根据所述至少一个第一虚拟机关联的业务应用的部署模式向所述虚拟架构管理系统发送所述第一请求消息，所述至少一个第一虚拟机关联的业务应用的部署模式包括主备模式、负荷分担模式和单虚拟机模式中的至少一种。

本发明实施例中，业务管理系统根据业务应用的部署模式，即根据故障设备影响的业务应用的部署模式指示虚拟架构管理系统对第一虚拟机集合中的待恢复的虚拟机进行恢复处理。

可选地，作为一个实施例，处理器710可以调用存储器720中存储的程序代码执行以下操作：接收所述虚拟架构管理系统发送的状态告警清除消息，所述处理器还用于根据所述状态告警清除消息清除所述状态告警消息。

应理解，图8所示本发明实施例的业务管理系统可对应于图6所示的业务管理系统，并且本发明实施例的业务管理系统中的各个单元的上述和其它操作和/或功能分别为了实现图2所示的故障处理方法中由业务管理系统执行的相应流程，为了简洁，在此不再赘述。

可以理解，本发明实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本发明实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本发明实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种故障处理方法，用于在虚拟化计算机系统中进行故障处理，所述虚拟化计算机系统包括：虚拟架构管理系统、业务管理系统以及至少一个虚拟机，所述至少一个虚拟机运行在至少一台物理设备上，所述至少一个虚拟机用于执行业务应用，所述业务管理系统用于管理所述业务应用，所述虚拟架构管理系统用于管理所述至少一个虚拟机和所述至少一台物理设备，其特征在于，所述故障处理方法包括：

所述虚拟架构管理系统获取故障告警消息，所述故障告警消息携带故障设备的标识信息和故障类型；

所述虚拟架构管理系统根据所述故障告警消息确定第一虚拟机集合，所述第一虚拟机集合包括受所述故障设备影响的至少一个第一虚拟机；

所述虚拟架构管理系统向所述业务管理系统发送状态告警消息，所述状态告警消息携带所述第一虚拟机集合的信息。
根据权利要求1所述的故障处理方法，其特征在于，所述故障处理方法还包括：

所述虚拟架构管理系统根据所述故障告警消息确定所述第一虚拟机集合的影响信息，所述影响信息用于指示所述故障设备对所述至少一个第一虚拟机产生的影响的类型和/或级别；

则所述虚拟架构管理系统向所述业务管理系统发送状态告警消息还携带所述第一虚拟机集合的影响信息。
根据权利要求2所述的故障处理方法，其特征在于，所述故障设备对所述至少一个第一虚拟机产生的影响的类型包括以下至少一种：故障、高风险、中风险、低风险或无影响。
根据权利要求1至3中任一所述故障处理方法，其特征在于，所述故障处理方法还包括：

所述虚拟架构管理系统接收所述业务管理系统发送的第一请求消息，所述第一请求消息用于指示待恢复的虚拟机，所述待恢复的虚拟机为所述第一虚拟机集合中一个子集；

所述虚拟架构管理系统根据所述第一请求信息优先恢复所述待恢复的虚拟机。
根据权利要求1至3中任一项所述故障处理方法，其特征在于，所述故障处理方法还包括：

若所述虚拟架构管理系统在预置时间阈值内未接收到所述业务管理系统发送的所述第一请求信息，则按照预置虚拟机恢复策略恢复所述至少一个第一虚拟机。
根据权利要求1至5中任一项所述的故障处理方法，其特征在于，所述故障处理方法还包括：

所述虚拟架构管理系统向所述业务管理系统发送状态告警清除消息。
一种虚拟架构管理系统，用于在虚拟化计算机系统中进行故障处理，所述虚拟化计算机系统包括：虚拟架构管理系统、业务管理系统以及至少一个虚拟机，所述至少一个虚拟机运行在至少一台物理设备上，所述至少一个虚拟机用于执行业务应用，所述业务管理系统用于管理所述业务应用，所述虚拟架构管理系统用于管理所述至少一个虚拟机和所述至少一台物理设备，其特征在于，所述虚拟架构管理系统包括：

获取模块，用于获取故障告警消息，所述故障告警消息携带故障设备的标识信息和故障类型；

确定模块，用于根据所述故障告警消息确定第一虚拟机集合，所述第一虚拟机集合包括受所述故障设备影响的至少一个第一虚拟机；

发送模块，用于向所述业务管理系统发送状态告警消息，所述状态告警消息携带所述第一虚拟机集合的信息。
根据权利要求7所述的虚拟架构管理系统，其特征在于，所述确定模块还用于根据所述故障告警消息确定所述第一虚拟机集合的影响信息，所述影响信息用于指示所述故障设备对所述至少一个第一虚拟机产生的影响的类型和/或级别；

则所述发送模块向所述业务管理系统发送的所述状态告警消息还携带所述第一虚拟机集合的影响信息。
根据权利要求8所述的虚拟架构管理系统，其特征在于，所述故障设备对所述至少一个第一虚拟机产生的影响的类型包括以下至少一种：故障、高风险、中风险、低风险或无影响。
根据权利要求7至9中任一项所述的虚拟架构管理系统，其特征在于，所述虚拟架构管理系统还包括接收模块和恢复模块；

所述接收模块，用于接收所述业务管理系统发送的第一请求消息，所述第一请求消息用于指示待恢复的虚拟机，所述待恢复的虚拟机为所述第一虚拟机集合中一个子集；

所述恢复模块，用于根据所述第一请求信息优先恢复所述待恢复的虚拟机。
根据权利要求7至9中任一项所述的虚拟架构管理系统，其特征在于，所述恢复模块还用于在预置时间阈值内未接收到所述业务管理系统发送的所述第一请求信息时，按照预置虚拟机恢复策略恢复所述至少一个第一虚拟机。
根据权利要求7至11中任一项所述的虚拟架构管理系统，其特征在于，所述发送模块还用于向所述业务管理系统发送状态告警清除消息。
一种故障处理方法，用于在虚拟化计算机系统中进行故障处理，所述虚拟化计算机系统包括：虚拟架构管理系统、业务管理系统以及至少一个虚拟机，所述至少一个虚拟机运行在至少一台物理设备上，所述至少一个虚拟机用于执行业务应用，所述业务管理系统用于管理所述业务应用，所述虚拟架构管理系统用于管理所述至少一个虚拟机和所述至少一台物理设备；其特征在于，所述故障处理方法包括：

所述业务管理系统接收所述虚拟架构管理系统发送的状态告警消息，所述状态告警消息携带受故障设备影响的第一虚拟机集合的信息，所述第一虚拟机集合中包括至少一个第一虚拟机；

所述业务管理系统根据所述状态告警消息确定所述至少一个第一虚拟机关联的业务应用；

所述业务管理系统对所述至少一个第一虚拟机关联的业务应用执行处理操作。
根据权利要求13所述的故障处理方法，其特征在于，所述状态告警消息还携带所述第一虚拟机集合的影响信息，所述影响信息用于指示所述故障设备对所述至少一个第一虚拟机产生的影响的类型和/或级别；

则所述业务管理系统对所述至少一个第一虚拟机关联的业务应用执行处理操作，包括：

所述业务管理系统根据所述第一虚拟机集合的影响信息对所述至少一个第一虚拟机关联的业务应用执行处理操作。
根据权利要求14所述的故障处理方法，其特征在于，所述第一虚拟机集合产生的影响的类型包括以下至少一种：故障、高风险、中风险、低风险或无影响。
根据权利要求13至15中任一所述故障处理方法，其特征在于，所述业务管理系统对所述至少一个第一虚拟机关联的业务应用执行处理操作包括以下方式中的至少一种：

所述业务管理系统将所述至少一个第一虚拟机关联的业务应用切换至未受所述故障设备影响的虚拟机执行；或

所述业务管理系统将所述至少一个第一虚拟机的应用状态信息标识为隔离状态，所述隔离状态用于指示所述至少一个第一虚拟机停止执行所述至少一个第一虚拟机关联的业务应用；或

所述业务管理系统向所述虚拟架构管理系统发送第一请求消息，所述第一请求消息用于指示待恢复的虚拟机，所述待恢复的虚拟机为所述第一虚拟机集合中一个子集；或

所述业务管理系统向所述至少一个第一虚拟机关联的业务应用的控制节点发送所述状态告警消息，以使得所述控制节点根据所述状态告警消息将所述至少一个第一虚拟机关联的业务应用切换至所述未受所述故障设备影响的虚拟机执行或将所述至少一个第一虚拟机的应用状态信息标识为所述隔离状态。
根据权利要求16所述的故障处理方法，其特征在于，所述业务管理系统向所述虚拟架构管理系统发送第一请求消息包括：

所述业务管理系统根据所述第一虚拟机集合的影响信息确定第一请求消息；

所述业务管理系统向所述虚拟架构管理系统发送所述第一请求消息。
根据权利要求17所述的故障处理方法，其特征在于，所述业务管理系统向所述虚拟架构管理系统发送所述第一请求消息，包括：

所述业务管理系统根据所述至少一个第一虚拟机关联的业务应用的优先级向所述虚拟架构管理系统发送所述第一请求消息。
根据权利要求17或18所述的故障处理方法，其特征在于，所述业务管理系统向所述虚拟架构管理系统发送所述第一请求消息，包括：

所述业务管理系统根据所述至少一个第一虚拟机关联的业务应用的部署模式向所述虚拟架构管理系统发送所述第一请求消息，所述至少一个第一虚拟机关联的业务应用的部署模式包括主备模式、负荷分担模式和单虚拟机模式中的至少一种。
根据权利要求13至19中任一项所述的故障处理方法，其特征在于，所述故障处理方法还包括：

所述业务管理系统接收所述虚拟架构管理系统发送的状态告警清除消息；

所述业务管理系统根据所述状态告警清除消息清除所述状态告警消息。
一种业务管理系统，用于在虚拟化计算机系统中进行故障处理，所述虚拟化计算机系统包括：虚拟架构管理系统、业务管理系统以及至少一个虚拟机，所述至少一个虚拟机运行在至少一台物理设备上，所述至少一个虚拟机用于执行业务应用，所述业务管理系统用于管理所述业务应用，所述虚拟架构管理系统用于管理所述至少一个虚拟机和所述至少一台物理设备，其特征在于，所述业务管理系统包括：

接收模块，用于接收所述虚拟架构管理系统发送的状态告警消息，所述状态告警消息携带受故障设备影响的第一虚拟机集合的信息，所述第一虚拟机集合中包括至少一个第一虚拟机；

确定模块，用于根据所述状态告警消息确定所述至少一个第一虚拟机关联的业务应用；

处理模块，用于对所述至少一个第一虚拟机关联的业务应用执行处理操作。
根据权利要求21所述的业务管理系统，其特征在于，所述状态告警消息还携带所述第一虚拟机集合的影响信息，所述影响信息用于指示所述故障设备对所述至少一个第一虚拟机产生的影响的类型和/或级别；

则所述处理模块对所述至少一个第一虚拟机关联的业务应用执行处理操作，包括根据所述第一虚拟机集合的影响信息对所述至少一个第一虚拟机关联的业务应用执行处理操作。
根据权利要求22所述的业务管理系统，其特征在于，所述第一虚拟机集合产生的影响的类型包括以下至少一种：故障、高风险、中风险、低风险或无影响。
根据权利要求21至23中任一所述业务管理系统，其特征在于，所述处理模块对所述至少一个第一虚拟机关联的业务应用执行处理操作包括以下方式中的至少一种：

将所述至少一个第一虚拟机关联的业务应用切换至未受所述故障设备影响的虚拟机执行；或

将所述至少一个第一虚拟机的应用状态信息标识为隔离状态，所述隔离状态用于指示所述至少一个第一虚拟机停止执行所述至少一个第一虚拟机关联的业务应用；或

向所述虚拟架构管理系统发送第一请求消息，所述第一请求消息用于指示待恢复的虚拟机，所述待恢复的虚拟机为所述第一虚拟机集合中一个子集；或

向所述至少一个第一虚拟机关联的业务应用的控制节点发送所述状态告警消息，以使得所述控制节点根据所述状态告警消息将所述至少一个第一虚拟机关联的业务应用切换至所述未受所述故障设备影响的虚拟机执行或将所述至少一个第一虚拟机的应用状态信息标识为所述隔离状态。
根据权利要求21至24任一所述的业务管理系统，其特征在于，所述确定模块还用于根据所述第一虚拟机集合的影响信息确定第一请求消息；

其中，所述业务管理系统还包括发送模块，用于向所述虚拟架构管理系统发送所述第一请求消息。
根据权利要求25所述的业务管理系统，其特征在于，所述发送模块还用于根据所述至少一个第一虚拟机关联的业务应用的优先级向所述虚拟架构管理系统发送所述第一请求消息。
根据权利要求25或26所述的业务管理系统，其特征在于，所述发送模块还用于根据所述至少一个第一虚拟机关联的业务应用的部署模式向所述虚拟架构管理系统发送所述第一请求消息，所述至少一个第一虚拟机关联的业务应用的部署模式包括主备模式、负荷分担模式和单虚拟机模式中的至少一种。
根据权利要求21至27中任一项所述的业务管理系统，其特征在于，

所述接收模块还用于接收所述虚拟架构管理系统发送的状态告警清除消息；

所述处理模块还用于根据所述状态告警清除消息清除所述状态告警消息。
一种虚拟架构管理系统，其特征在于，所述虚拟架构管理系统包括处理器、存储器、通信接口和总线。其中，处理器、存储器、通信接口通过总线进行通信；所述存储器用于存储指令，所述虚拟架构管理系统运行时，所述处理器执行所述存储器存储的指令以利用所述虚拟架构管理系统中的硬件资源执行权利要求1至6中任一所述方法。
一种业务管理系统，其特征在于，所述业务管理系统包括处理器、存储器、通信接口和总线。其中，处理器、存储器、通信接口通过总线进行通信；所述存储器用于存储指令，所述业务管理系统运行时，所述处理器执行所述存储器存储的指令以利用所述业务管理系统中的硬件资源执行权利要求13至20中任一所述方法。