WO2015188619A1

WO2015188619A1 - 物理主机故障检测方法、装置及虚机管理方法、系统

Info

Publication number: WO2015188619A1
Application number: PCT/CN2015/070237
Authority: WO
Inventors: 胡岩岩
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-06-09
Filing date: 2015-01-06
Publication date: 2015-12-17
Also published as: CN105224426A

Abstract

一种物理主机故障检测方法、装置及虚机管理方法、系统，通过向物理主机下发智能型平台管理接口检测指令对物理主机进行检测（S102），根据检测结果判断物理主机是否正常（S103）；并非简单的根据物理主机的心跳消息是否正常来判定物理主机是否故障。可以在较大程度上提高物理主机故障检测的准确率，进而避免由于物理主机故障的误检测导致同一虚机在多个物理主机上启动的情况发生。

Description

物理主机故障检测方法、装置及虚机管理方法、系统

技术领域

本发明涉及通信领域，具体涉及一种物理主机故障检测方法、装置及虚机管理方法、系统。

背景技术

虚机高可用即在物理主机发生故障时，能随时将发生故障的物理主机上的虚机在集群的其他正常运行的物理主机上重启机，也即当物理主机故障后，将该物理主机上的虚拟转移到其他正常运行的物理主机上的过程。对于虚拟化管理中心来说一个重要问题即是怎样采用有效可靠的方法去检测到发生非预期故障的物理主机；现有检测物理主机是否故障的方式是简单的通过判断该物理主机的心跳消息是否正常来实现，如判定心跳消息不正常，则直接判定该物理主机发生故障，然后将该物理主机上的虚机进行迁移。但简单的通过心跳消息判定物理主机是否故障的准确率本身就比较低，往往出现物理主机未故障但被根据心跳消息是否正常而被判定为故障的情况，因此即使此时该物理主机未故障也会对该物理主机上的虚机进行迁移，从而导致同一个虚机在多个物理主机上同时启动。

发明内容

本发明要解决的主要技术问题是，提供一种物理主机故障检测方法、装置及虚机管理方法、系统，解决现有物理主机故障检测准确率低的问题。

为解决上述技术问题，本发明实施例提供一种物理主机故障检测方法,包括：

向物理主机下发智能型平台管理接口检测指令对所述物理主机进行检测，根据检测结果判断所述物理主机是否正常。

在本发明的一种实施例中，在向所述物理主机下发智能型平台管理接口检测指令之前，还包括；

监测所述物理主机心跳消息的上报是否正常；如否，触发向所述物理主机下发智能型平台管理接口检测指令；

和/或，

设置定时模块，在该定时模块计时达到预设时间值时，触发向所述物理主机下发智能型平台管理接口检测指令。

在本发明的一种实施例中，当所述方法包括监测所述物理主机心跳消息的上报是否正常时，该过程包括：

判断是否连续N次未监测到所述物理主机通过管理网上报的心跳消息，如是，则判定所述物理主机心跳消息的上报不正常；所述N大于等于1。

在本发明的一种实施例中，根据所述检测结果判断所述物理主机不正常后，还包括：

通过存储网判断所述物理主机的唯一标识码是否正常上报，如否，判定所述物理主机故障。

为了解决上述问题，本发明还提供了一种虚机管理方法，包括：通过如上所述的物理主机故障检测方法判定所述物理主机故障后，将所述物理主机上的虚机转移到其他正常运行的物理主机上。

为了解决上述问题，本发明实施例还提供了一种物理主机故障检测装置，包括：智能型平台管理接口检测模块，设置为向所述物理主机下发智能型平台管理接口检测指令对所述物理主机进行检测，根据检测结果判断所述物理主机是否正常。

在本发明的一种实施例中，还包括心跳检测模块，设置为在所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令之前，监测所述物理主机心跳消息的上报是否正常；如否，触发所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令；

和/或，

还包括定时模块，设置为在所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令之前开始计时，并在计时达到预设时间值时，触发所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令。

在本发明的一种实施例中，当包括所述心跳检测模块时，所述心跳检测模块包括监测子模块和判断子模块；所述判断子模块设置为判断所述监测子模块是否连续N次未监测到所述物理主机通过管理网上报的心跳消息，如是，判定所述物理主机心跳消息的上报不正常；所述N大于等于1。

在本发明的一种实施例中，还包括标识判断模块，设置为在所述智能型平台管理接口检测模块根据所述检测结果判断所述物理主机不正常后，通过存储网判断所述物理主机的唯一标识码是否正常上报，如否，判定所述物理主机故障。

为了解决上述问题，本发明实施例还提供了一种虚机管理系统，包括虚机转移装置和如上所述的物理主机故障检测装置；所述虚机转移装置设置为在所述物理主机故障检测装置检测出物理主机故障后，将所述物理主机上的虚机转移到其他正常运行的物理主机上。

本发明的有益效果是：

本发明实施例提供的物理主机故障检测方法、装置及虚机管理方法、系统，通过向物理主机下发智能型平台管理接口检测指令对物理主机进行检测，根据检测结果判断物理主机是否正常；并非简单的根据物理主机的心跳消息是否正常来判定物理主机是否故障。可以在较大程度上提高物理主机故障检测的准确率，进而避免由于物理主机故障的误检测导致同一虚机在多个物理主机上启动的情况发生。

附图说明

图1为本发明实施例一提供的物理主机故障检测流程示意图；

图2为本发明实施例二提供的虚机管理系统与物理主机的连接示意图；

图3为本发明实施例三提供的物理主机故障检测装置的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。

实施例一：

本实施例提供的物理主机故障检测方法，并非现有仅简单根据心跳消息是否正常来判定物理主机是否故障。本实施例中判定物理主机是否故障的过程包括向物理主机下发智能型平台管理接口(IPMI：Intelligent Platform Management Interface)检测指令对物理主机进行检测(例如检测物理主机上电状态是否正常等等)，进而根据检测结果判断该物理主机是否正常。因为IPMI是专门通过单独的CPU通过硬件检测刀片服务器状态，例如可以用来检查刀片服务器的上下电状态，得到的检测结果比较准确；但心跳消息是通过管理网络传送的，在例如管理网络网线被拔时心跳消息也会丢失，但此时刀片服务器可以是正常上电运转并没有任何问题；因此此时若仅根据心跳消息来判定的话就会出现误判，而根据IPMI检测结果则不会出现误判。因此采用IPMI检测可以在较大程度上提高物理主机故障检测的准确率，进而避免由于物理主机故障的误检测导致同一虚机在多个物理主机上启动的情况发生。本实施例中，可通过在生产环境中单独部署的IPMI网络向物理主机下发相应的IPMI指令。

一般来说，当监测到物理主机的心跳消息的上报正常时，该物理主机一般也都运行正常。在此情况下，向该物理主机下发IPMI检测指令的必要性就不是太大，因为即使此时向物理主机下发IPMI检测指令，获取的检测结果也基本都是运行正常。因此，为了尽可能减少系统不必要的额外开销，提高资源利用率，本实施例中可以设置仅在检测到物理主机上报的心跳消息不正常时，才向该物理主机下发IPMI检测指令。此时，则在向物理主机下发IPMI检测指令之前，还包括；

监测物理主机心跳消息的上报是否正常；如不正常，触发向该物理主机下发IPMI检测指令；如正常，则不触发该操作。

本实施例中可以通过判断是否连续N次未监测到物理主机通过管理网上报的心跳消息来判断该物理主机的心跳消息是否正常；如连续N次都未监测到，则判定该物理主机心跳消息的上报不正常；本实施例中的N的取值理论上可以取大于等于1的任何整数值；具体取值则可根据当前网络环境、用户需求等因素具体设置，例如可设置为3或5等等。

当然，触发向物理主机下发IPMI检测指令的条件除了物理主机心跳不正常外，还可采用定时触发的方式实现。此时，在则在向物理主机下发IPMI检测指令之前，还包括；

设置定时模块，在该定时模块计时达到预设时间值(例如每间隔1秒或5秒等下发一次)时，触发向物理主机下发智能型平台管理接口检测指令的操作。这种触发方式相对根据心跳消息的状态触发的方式，其占用的资源会相对更多一些。但这也是一种相对灵活且有效的触发方式。当然，在本实施例中，还可同时结合这两种方式实现触发，也即只有当着两种触发条件都满足后，才触发下发IPMI检测指令的操作。

在通过IPMI检测指令监测到物理主机不正常时，在绝大部分情况下都可判定物理主机发生故障，需要对其上的虚机进行迁移处理。但是，为了确保不是由于物理主机卡死等异常原因导致的IPMI检测结果失效，在本实施例中，根据检测结果判断物理主机不正常后，还可进一步包括：

通过存储网判断该物理主机的唯一标识码是否正常上报，如否，判定该物理主机故障。

各个物理主机通过单独的存储网络可访问某块共享存储，基于此，每个物理主机定时向该共享存储写入带有唯一标识码(例如通用唯一识别码UUID：Universally Unique Identifier)物理主机标记，因此可以通过检测物理主机是否通过存储网正常定时上报该唯一标识码进一步检测该物理主机是否故障，如在该共享存储中未检测到该物理主机的唯一标识码，则代表该物理主机未正常上报其唯一标识码，确定该主机故障；否则，则表明该物理主机未故障或不一定故障。

可见，本实施例提供的物理主机检测方法，可以单独通过IPMI检测指令实现对物理主机故障的检测，也可结合物理主机的心跳消息和IPMI检测指令实现；为了进一步提高检测准确率，甚至还可结合物理主机的心跳消息、IPMI检测指令和物理主机通过存储网上报唯一标识码的情况实现。在通过上述方式检测到物理主机故障后，即可将该物理主机上的虚机转移到其他正常运行的物理主机(一般是与该发生故障的物理主机相同集群下的其他物理主机)上。

为了更好的理解本发明，下面以结合物理主机的心跳消息、IPMI检测指令和物理主机通过存储网上报唯一标识码的情况实现物理主机故障的可靠检测的流程为例，对本发明做进一步的说明。请参见图1所示，其包括：

步骤101：监测物理主机心跳消息的上报是否正常；如否，转至步骤102；否则，继续检测；

虚拟化管理中心节点首先在管理网中，管理程序与物理主机之间的消息通信都是通过管理网，所以第一步可首先根据物理主机通过管理网上报上来的心跳消息检测该物理主机是否发生故障，如果心跳丢失，则突破管理网心跳检测的第一防线，说明主机可能发生故障；

步骤102：向该物理主机下发IPMI检测指令对该物理主机进行检测；

步骤103：根据检测结果判断该物理主机是否正常，如否，转至步骤104，否则，结束；

生产环境中单独部署IPMI网络，因此可通过虚拟化管理中心下达IPMI检测指令，检测物理主机是否故障，如果IPMI检测结果为故障，为了确保不是由于主机卡死等异常原因导致的IPMI指令结果失效，可进一步进行步骤104的检测；

步骤104：通过存储网判断该物理主机的唯一标识码是否正常上报，如否，转至步骤105；否则，结束；

步骤105：判定该物理主机故障。

虚拟化管理中心与各个物理主机通过单独的存储网络可访问某块共享存储，基于此，每个物理主机定时向该共享存储写入带有唯一标识码(例如UUID)物理主机标记，因此可以通过检测物理主机是否通过存储网正常定时上报该唯一标识码进一步检测该物理主机是否故障，如在该共享存储中未检测到该物理主机的唯一标识码，则代表该物理主机未正常上报其唯一标识码，确定该主机故障。

实施例二：

本实施例提供了一种虚机管理系统，也即虚拟化管理中心，其包括物理主机故障检测装置和虚机转移装置。请参见图2所示，该图示出了虚机管理系统与各物理主机的连接关系。

请参见图3所示，本实施例中的物理主机故障检测装置包括：智能型平台管理接口检测模块(IPMI检测模块)，设置为向物理主机下发智能型平台管理接口检测指令对物理主机进行检测，根据检测结果判断该物理主机是否正常。

一般来说，当监测到物理主机的心跳消息的上报正常时，该物理主机一般也都运行正常。在此情况下，向该物理主机下发IPMI检测指令的必要性就不是太大，因为即使此时向物理主机下发IPMI检测指令，获取的检测结果页基本都是运行正常。因此，为了尽可能减少系统不必要的额外开销，提高资源利用率，本实施例中可以设置仅在检测到物理主机上报的心跳消息不正常时，才向该物理主机下发IPMI检测指令。此时，请参见图3所示，物理主机故障检测装置还可包括心跳检测模块，设置为在智能型平台管理接口检测模块向物理主机下发智能型平台管理接口检测指令之前，监测物理主机心跳消息的上报是否正常；如否，触发智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令。本实施例中的心跳检测模块具体可包括监测子模块和判断子模块；判断子模块设置为判断监测子模块是否连续N次未监测到所述物理主机通过管理网上报的心跳消息，如是，判定物理主机心跳消息的上报不正常；N大于等于1。

本实施例中，触发向物理主机下发IPMI检测指令的条件除了物理主机心跳不正常外，还可采用定时触发的方式实现。此时，物理主机故障检测装置还可包括定时模块，设置为在智能型平台管理接口检测模块向物理主机下发智能型平台管理接口检测指令之前开始计时，并在计时达到预设时间值时，触发智能型平台管理接口检测模块向物理主机下发智能型平台管理接口检测指令。应当理解的是，在本实施例中，还可同时结合这两种方式实现触发，也即只有当着两种触发条件都满足后，才触发下发IPMI检测指令的操作。

在通过IPMI检测指令监测到物理主机不正常时，在绝大部分情况下都可判定物理主机发生故障，需要对其上的虚机进行迁移处理。但是，为了确保不是由于物理主机卡死等异常原因导致的IPMI检测结果失效，请参见图3所示，在本实施例中，物理主机故障检测装置还可包括标识判断模块，设置为在智能型平台管理接口检测模块根据检测结果判断物理主机不正常后，通过存储网判断物理主机的唯一标识码是否正常上报，如否，判定物理主机故障。

虚机管理系统与各个物理主机通过单独的存储网络可访问某块共享存储，基于此，每个物理主机定时向该共享存储写入带有唯一标识码(例如UUID：Universally Unique Identifier，通用唯一识别码)物理主机标记，因此可以通过检测物理主机是否通过存储网正常定时上报该唯一标识码进一步检测该物理主机是否故障，如在该共享存储中未检测到该物理主机的唯一标识码，则代表该物理主机未正常上报其唯一标识码，确定该主机故障。

在通过物理主机故障检测装置判定出物理主机故障后，虚机转移装置则可将该物理主机上的虚机转移到其他正常运行的物理主机上。

可见，本发明提供的物理主机故障检测方法可分别通过管理网、IPMI网以及存储网，结合心跳消息、IPMI检测结果以及物理主机的唯一标识上报情况对物理主机是否故障进行准确的判定。进而避免由于物理主机故障的误检测导致同一虚机在多个物理主机上启动的情况发生。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

工业实用性

基于本发明实施例提供的上述技术方案，通过向物理主机下发智能型平台管理接口检测指令对物理主机进行检测，根据检测结果判断物理主机是否正常；并非简单的根据物理主机的心跳消息是否正常来判定物理主机是否故障。可以在较大程度上提高物理主机故障检测的准确率，进而避免由于物理主机故障的误检测导致同一虚机在多个物理主机上启动的情况发生。

Claims

一种物理主机故障检测方法,包括：

向物理主机下发智能型平台管理接口检测指令对所述物理主机进行检测，根据检测结果判断所述物理主机是否正常。
如权利要求1所述的物理主机故障检测方法，其中，在向所述物理主机下发智能型平台管理接口检测指令之前，还包括；

监测所述物理主机心跳消息的上报是否正常；如否，触发向所述物理主机下发智能型平台管理接口检测指令；

和/或，

设置定时模块，在该定时模块计时达到预设时间值时，触发向所述物理主机下发智能型平台管理接口检测指令。
如权利要求2所述的物理主机故障检测方法，其中，监测所述物理主机心跳消息的上报是否正常，包括：

判断是否连续N次未监测到所述物理主机通过管理网上报的心跳消息，如是，则判定所述物理主机心跳消息的上报不正常；所述N大于等于1。
如权利要求1-3任一项所述的物理主机故障检测方法，其中，根据所述检测结果判断所述物理主机不正常后，还包括：

通过存储网判断所述物理主机的唯一标识码是否正常上报，如否，判定所述物理主机故障。
一种虚机管理方法，包括：通过如权利要求1-4任一项所述的物理主机故障检测方法判定所述物理主机故障后，将所述物理主机上的虚机转移到其他正常运行的物理主机上。
一种物理主机故障检测装置，包括：智能型平台管理接口检测模块，设置为向所述物理主机下发智能型平台管理接口检测指令对所述物理主机进行检测，根据检测结果判断所述物理主机是否正常。
如权利要求6所述的物理主机故障检测装置，其中，还包括心跳检测模块，设置为在所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令之前，监测所述物理主机心跳消息的上报是否正常；如否，触发所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令；

和/或，

还包括定时模块，设置为在所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令之前开始计时，并在计时达到预设时间值时，触发所述智能型平台管理接口检测模块向所述物理主机下发智能型平台管理接口检测指令。
如权利要求6所述的物理主机故障检测装置，其中，当包括所述心跳检测模块时，所述心跳检测模块包括监测子模块和判断子模块；所述判断子模块设置为判断所述监测子模块是否连续N次未监测到所述物理主机通过管理网上报的心跳消息，如是，判定所述物理主机心跳消息的上报不正常；所述N大于等于1。
如权利要求6-8任一项所述的物理主机故障检测装置，其中，还包括标识判断模块，设置为在所述智能型平台管理接口检测模块根据所述检测结果判断所述物理主机不正常后，通过存储网判断所述物理主机的唯一标识码是否正常上报，如否，判定所述物理主机故障。
一种虚机管理系统，包括虚机转移装置和如权利要求6-9任一项所述的物理主机故障检测装置；所述虚机转移装置设置为在所述物理主机故障检测装置检测出物理主机故障后，将所述物理主机上的虚机转移到其他正常运行的物理主机上。