WO2015058711A1

WO2015058711A1 - 故障快速检测方法及装置

Info

Publication number: WO2015058711A1
Application number: PCT/CN2014/089421
Authority: WO
Inventors: 谢军勇; 刘涛; 夏海
Original assignee: 华为技术有限公司
Priority date: 2013-10-24
Filing date: 2014-10-24
Publication date: 2015-04-30
Also published as: EP3054383A1; US20160239369A1; CN103559124B; CN103559124A; EP3054383A4; US10223183B2

Abstract

本发明提供一种故障快速检测方法及装置，该方法包括：通过内核黑匣子KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息；所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题，并及时通知业务应用层进行故障处理以降低业务损失。

Description

故障快速检测方法及装置

技术领域

本发明实施例涉及通信技术，尤其涉及一种故障快速检测方法及装置。

背景技术

云技术将电信系统分为基础设施层和业务应用层，基础设施层通过虚拟化技术提供给业务应用层使用，业务应用层运行在宿主操作系统(Host Operation System，简称：Host OS)和客户操作系统(Guest Operation System，简称：Guest OS)上，操作系统(Operation System，简称：OS)作为执行环境为业务应用层的运行提供支撑，如果执行环境出现故障或亚健康问题，将会影响应用服务的提供。

当前电信系统中，对于执行环境的故障检测通常采用心跳(Heart Beat，简称：HB)检测的方式，即，Host OS和Guest OS上均运行有心跳程序，周期性地向高可用(High Availability，简称：HA)子系统发送心跳消息，一旦Host OS或Guest OS中出现故障，心跳消息将无法发送，若HA子系统在多个检测周期均接收不到心跳消息，即可判定宿主机或虚拟机出现故障。

然而，若检测周期过长，一旦Host OS或Guest OS中出现故障，HA子系统无法及时发现故障，将导致业务可用性恶化；若检测周期过短，一旦网络上出现通讯延迟，将导致HA子系统误判Host OS或Guest OS中出现故障。

发明内容

本发明实施例提供一种故障快速检测方法及装置，以实现快速检测出操作系统中出现的故障或亚健康问题。

第一方面，本发明实施例提供一种故障快速检测方法，包括：

内核黑匣子KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息；

所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。

在第一方面的第一种可能的实现方式中，所述KBox组检测操作系统出现的故障，包括：

所述KBox组检测操作系统非预期复位时，根据设置在操作系统复位流程处的探针探测到的执行流，判定所述操作系统非预期复位；

所述KBox组检测操作系统内存耗尽时，根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值，或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值，判定所述操作系统内存耗尽；

所述KBox组检测操作系统内核死锁时，根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态，判定所述操作系统内核死锁；

所述KBox组检测操作系统内核崩溃时，根据设置在操作系统内核崩溃处理流程处的探针探测到执行流，判定所述操作系统内核崩溃；

所述KBox组检测CPU硬件故障时，根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因，判定所述CPU故障；

所述KBox组检测虚拟机复位时，所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后，判定所述虚拟机需要复位。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息，包括：

所述KBox组内的第一KBox检测客户操作系统出现的故障，根据检测到的故障形成第一故障信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识；

相应的，所述管理单元为宿主操作系统内的基础设施管理单元BMU；所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理，包括：

所述第一KBox将所述第一故障信息发送至所述BMU，以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理。

结合第一方面或第一方面的第一种可能的实现方式，在第三种可能的实现方式中，所述KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息，包括：

所述KBox组内的第二KBox检测宿主操作系统出现的故障，根据检测到的故障形成第二故障信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间；

相应的，所述管理单元为硬件上的基板管理控制器BMC；所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理，包括：

所述第二KBox将所述第二故障信息发送至所述BMC，以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理；其中，所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。

结合第一方面至第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述方法还包括：

所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统，以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。

第二方面，本发明实施例提供一种故障快速检测方法，包括：

应用高可用性HA子系统接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息；

所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。

在第二方面的第一种可能的实现方式中，所述管理单元为宿主操作系统内的基础设施管理单元BMU；

相应的，所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息，包括：

所述应用HA子系统接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识；

所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理，包括：

所述应用HA子系统根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。

在第二方面的第二种可能的实现方式中，所述管理单元为硬件上的基板管理控制器BMC；

所述应用HA子系统接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间；

所述应用HA子系统根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。

结合第二方面至第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述方法还包括：

所述应用HA子系统接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息，所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。

第三方面，本发明实施例提供一种故障快速检测装置，包括：

检测模块，用于通过内核黑匣子KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息；

发送模块，用于使所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。

在第三方面的第一种可能的实现方式中，所述检测模块具体用于：

通过所述KBox组检测操作系统非预期复位时，根据设置在操作系统复位流程处的探针探测到的执行流，判定所述操作系统非预期复位；

通过所述KBox组检测操作系统内存耗尽时，根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值，或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值，判定所述操作系统内存耗尽；

通过所述KBox组检测操作系统内核死锁时，根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态，判定所述操作系统内核死锁；

通过所述KBox组检测操作系统内核崩溃时，根据设置在操作系统内核崩溃处理流程处的探针探测到执行流，判定所述操作系统内核崩溃；

通过所述KBox组检测CPU硬件故障时，根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因，判定所述CPU故障；

通过所述KBox组检测虚拟机复位时，所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后，判定所述虚拟机需要复位。

结合第三方面或第三方面的第一种可能的实现方式，在第二种可能的实现方式中，所述检测模块具体用于：

通过所述KBox组内的第一KBox检测客户操作系统出现的故障，根据检测到的故障形成第一故障信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识；

相应的，所述管理单元为宿主操作系统内的基础设施管理单元BMU；所述发送模块具体用于：

使所述第一KBox将所述第一故障信息发送至所述BMU，以使所述BMU 将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理。

结合第三方面或第三方面的第一种可能的实现方式，在第三种可能的实现方式中，所述检测模块具体用于：

通过所述KBox组内的第二KBox检测宿主操作系统出现的故障，根据检测到的故障形成第二故障信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间；

相应的，所述管理单元为硬件上的基板管理控制器BMC；所述发送模块具体用于：

使所述第二KBox将所述第二故障信息发送至所述BMC，以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至发送至与至少一个虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理；其中，所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。

结合第三方面至第三方面的第三种可能的实现方式，在第四种可能的实现方式中，所述发送模块还用于：

使所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统，以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。

第四方面，本发明实施例提供一种故障快速检测装置，包括：

接收模块，用于接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息；

发送模块，用于根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。

在第四方面的第一种可能的实现方式中，所述管理单元为宿主操作系统内的基础设施管理单元BMU；

相应的，所述接收模块具体用于：

接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识；

所述发送模块具体用于：

根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。

在第四方面的第二种可能的实现方式中，所述管理单元为硬件上的基板管理控制器BMC；

相应的，所述接收模块具体用于：

接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间；

所述发送模块具体用于：

根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。

结合第四方面至第四方面的第二种可能的实现方式，在第三种可能的实现方式中，所述接收模块还用于：

接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息，所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。

本发明实施例提供的故障快速检测方法及装置，通过内核黑匣子KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息；所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题，并及时通知业务应用层进行故障处理以降低业务损失。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明故障快速检测方法实施例一的流程图；

图2为本发明故障快速检测方法实施例二的流程图；

图3为本发明故障快速检测方法实施例二的应用示意图；

图4为本发明故障快速检测方法实施例三的流程图；

图5为本发明故障快速检测方法实施例三的应用示意图；

图6为本发明故障快速检测方法实施例四的流程图；

图7为本发明故障快速检测装置实施例一的结构示意图；

图8为本发明故障快速检测装置实施例二的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明故障快速检测方法实施例一的流程图。如图1所示，本实施例提供的方法可以包括：

步骤101、内核黑匣子(Kernel Black Box，简称：KBox)组检测操作系统出现的故障，根据检测到的故障形成故障信息。

需要说明的是，所述操作系统可能出现的故障或亚健康问题可以包括：操作系统非预期复位、操作系统内存耗尽、操作系统内核死锁、操作系统内核崩溃、CPU硬件故障以及虚拟机复位。具体的，所述KBox组检测操作系统出现的故障，可以包括：

所述KBox组检测操作系统非预期复位时，根据设置在操作系统复位流程处的探针探测到的执行流，判定所述操作系统非预期复位；所述KBox组检测操作系统内存耗尽时，根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值，或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值，判定所述操作系统内存耗尽；所述KBox组检测操作系统内核死锁时，根据设置在中央处理单元(Central Processing Unit，简称：CPU)上探测运行状态的探针探测到所述CPU处于死锁状态，判定所述操作系统内核死锁；所述KBox组检测操作系统内核崩溃时，根据设置在操作系统内核崩溃处理流程处的探针探测到执行流，判定所述操作系统内核崩溃；所述KBox组检测CPU硬件故障时，根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因，判定所述CPU故障；所述KBox组检测虚拟机复位时，所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后，判定所述虚拟机需要复位。

步骤102、所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用HA子系统以触发所述应用HA子系统的业务故障处理。

需要说明的是，在一些可行的实施方式中，所述KBox组还可以通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统，以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。

本发明实施例提供的故障快速检测方法及装置，通过KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息；所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用HA子系统以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题，并及时通知业务应用层进行故障处理以降低业务损失。

图2为本发明故障快速检测方法实施例二的流程图。如图2所示，在上述实施例的基础上，本实施例提供的方法中，上述步骤101具体可以为：

步骤201、所述KBox组内的第一KBox检测客户操作系统出现的故障，根据检测到的故障形成第一故障信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识。

本实施例中，所述基础设施层的管理单元可以为所述基础设施层的宿主操作系统内的基础设施管理单元(Board Management Unit，简称：BMU)。相应的，上述步骤102具体可以为：

步骤202、所述第一KBox将所述第一故障信息发送至所述BMU，以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理。

参照图3，在实际应用过程中，在继承原有的心跳检测机制的基础上，在各虚拟机的客户操作系统的内核中插入KBox，即，在客户操作系统的内核中插入所述第一KBox，所述第一KBox检测客户操作系统出现的故障，具体的，所述客户操作系统可能出现的故障或亚健康问题可以包括：操作系统非预期复位、操作系统内存耗尽、操作系统内核死锁、操作系统内核崩溃、CPU硬件故障以及虚拟机复位，本实施例不对此进行限制。

在所述客户操作系统出现故障或亚健康问题后，所述第一KBox根据检测到的故障形成第一故障信息，并将所述第一故障信息通过BMU与KBox之间的接口发送至BMU。具体的，对所述BMU与Kbox之间的接口的定义如表一所示：

表一接口定义

字段名	字段类型	作用
字段名	字段类型	作用	故障原因	整形	客户操作系统故障原因值
故障描述	字符串	客户操作系统故障说明	故障原因	整形	客户操作系统故障原因值
故障描述	字符串	客户操作系统故障说明	故障发生时间	整形	故障发生时客户操作系统的系统时间

所述第一KBox形成的第一故障信息中可以包括故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识。

BMU在接收到所述第一故障信息后，可以识别出发送所述第一故障信息的所述第一KBox所在的虚拟机对应的虚拟机ID，所述BMU直接将包含所述第一故障信息以及识别出的所述虚拟机ID的第一系统故障通告信息发送至应用HA子系统；可选的，所述BMU还可以将所述第一故障信息以及所述虚拟机ID发送至基础设施HA子系统，再由所述基础设施HA子系统将包含所述第一故障信息以及所述虚拟机ID的所述第一系统故障通告信息发送至所述应用HA子系统。

所述应用HA子系统根据所述第一系统故障通告信息触发业务故障处理，所述业务故障处理具体可以包括业务倒换。

本实施例的技术方案，通过第一KBox检测客户操作系统出现的故障，根据检测到的故障形成第一故障信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识；所述第一KBox将所述第一故障信息发送至所述BMU，以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题，并及时通知业务应用层进行故障处理以降低业务损失。

图4为本发明故障快速检测方法实施例三的流程图。如图4所示，在上述实施例的基础上，本实施例提供的方法中，上述步骤101具体可以为：

步骤301、所述KBox组内的第二KBox检测宿主操作系统出现的故障，根据检测到的故障形成第二故障信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间。

本实施例中，所述基础设施层的管理单元为所述基础设施层的硬件上的基板管理控制器(Board Management Controller，简称：BMC)。相应的，上述步骤102具体可以为：

步骤302、所述第二KBox将所述第二故障信息发送至所述BMC，以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理；其中，所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。

参照图5，在实际应用过程中，在上述实施例的基础上，在继承原有的心跳检测机制的基础上，除了在各虚拟机的客户操作系统的内核中插入第一KBox之外，在本实施例中，还可以在宿主操作系统的内核中也插入KBox，即，在宿主操作系统的内核中插入第二KBox，所述第二KBox检测宿主操作系统出现的故障，根据检测到的故障形成第二故障信息，具体的，所述宿主操作系统可能出现的故障或亚健康问题可以包括：操作系统非预期复位、操作系统内存耗尽、操作系统内核死锁、操作系统内核崩溃、CPU硬件故障以及虚拟机复位，本实施例不对此进行限制。

在所述宿主操作系统出现故障或亚健康问题后，所述第二KBox根据检测到的故障形成第二故障信息，并将所述第二故障信息发送至BMC，所述第二故障信息中可以包括故障原因，故障描述以及故障发生时间。

所述BMC在接收到所述第二故障信息后，将包含所述第二故障信息的第二系统故障通告信息发送至所述应用HA子系统；可选的，所述BMC还可以将所述第二故障信息发送至所述基础设施HA子系统，再由所述基础设施HA子系统将包含所述地热故障信息的所述第二系统故障通告信息发送至所述应用HA子系统。

所述应用HA子系统根据所述第二系统故障通告信息触发业务故障处理，所述业务故障处理具体可以包括业务倒换。

本实施例的技术方案，通过第二KBox检测宿主操作系统出现的故障，根据检测到的故障形成第二故障信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间；所述第二KBox将所述第二故障信息发送至所述BMC，以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理；其中，所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机；从而实现快速检测出操作系统中出现的故障或亚健康问题，并及时通知业务应用层进行故障处理以降低业务损失。

图6为本发明故障快速检测方法实施例四的流程图。如图4所示，本实施例提供的方法具体可以包括：

步骤401、应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息。

在一种可行的实施方式中，所述管理单元为宿主操作系统内的BMU；在则本步骤具体可以为：所述应用HA子系统接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识。

在另一种可行的实施方式中，所述管理单元为硬件上的BMC；则本步骤具体可以为：所述应用HA子系统接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间。

步骤402、所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。

在一种可行的实施方式中，所述管理单元为宿主操作系统内的BMU；在则本步骤具体可以为：所述应用HA子系统根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。

在另一种可行的实施方式中，所述管理单元为硬件上的BMC；则本步骤具体可以为：所述应用HA子系统根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。

需要说明的是，在一些可行的实施方式中，所述应用HA子系统还可以接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息，所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。

本实施例的技术方案，通过应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息；所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题，并及时通知业务应用层进行故障处理以降低业务损失。

图7为本发明故障快速检测装置实施例一的结构示意图。如图7所示，本实施例提供的故障快速检测装置10具体可以包括：检测模块11以及发送模块12。

其中，检测模块11用于通过KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息；

发送模块12用于使所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用HA子系统以触发所述应用HA子系统的业务故障处理。

需要说明的是，所述检测模块11具体可以用于：

一种可行的实施方式中，所述检测模块11具体可以用于通过所述KBox组内的第一KBox检测客户操作系统出现的故障，根据检测到的故障形成故障信息；其中，所述第一KBox设置在虚拟机内，所述故障信息中还包含故障对应的虚拟机标识。

相应的，所述基础设施层的管理单元为所述基础设施层的宿主操作系统内的BMU；所述发送模块12具体可以用于使所述第一KBox将所述第一故障信息发送至所述BMU，以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理。

另一种可行的实施方式，所述检测模块11具体可以用于通过所述KBox组内的第二KBox检测宿主操作系统出现的故障，根据检测到的故障形成故障信息；其中，所述第二KBox设置在所述宿主操作系统内；

相应的，所述基础设施层的管理单元为所述基础设施层的硬件上的BMC；所述发送模块12具体可以用于使所述第二KBox将所述第二故障信息发送至所述BMC，以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至发送至与至少一个虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理；其中，所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。

在一些可行的实施方式中，所述发送模块12还可以用于使所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统，以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。

本实施例的故障快速检测装置，可用于执行上述方法实施例的技术方案，其实现原理及技术效果类似，此处不再赘述。

图8为本发明故障快速检测装置实施例二的结构示意图。如图8所示，本实施例提供的故障快速检测装置20具体可以包括：接收模块21以及发送模块22。

其中，接收模块21用于接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息；

发送模块22用于根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。

在一种可行的实施方式中，所述管理单元可以为宿主操作系统内的基础设施管理单元BMU；相应的，所述接收模块21具体可以用于接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识；所述发送模块22具体可以用于根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。

在另一种可行的实施方式中，所述管理单元可以为硬件上的基板管理控制器BMC；相应的，所述接收模块21具体可以用于接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间；所述发送模块22具体可以用于根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。

在一些可行的实施方式中，所述接收模块21还可以用于接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息，所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种故障快速检测方法，其特征在于，包括：

内核黑匣子KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息；

所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。
根据权利要求1所述的方法，其特征在于，所述KBox组检测操作系统出现的故障，包括：

所述KBox组检测操作系统非预期复位时，根据设置在操作系统复位流程处的探针探测到的执行流，判定所述操作系统非预期复位；

所述KBox组检测操作系统内存耗尽时，根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值，或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值，判定所述操作系统内存耗尽；

所述KBox组检测操作系统内核死锁时，根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态，判定所述操作系统内核死锁；

所述KBox组检测操作系统内核崩溃时，根据设置在操作系统内核崩溃处理流程处的探针探测到执行流，判定所述操作系统内核崩溃；

所述KBox组检测CPU硬件故障时，根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因，判定所述CPU故障；

所述KBox组检测虚拟机复位时，所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后，判定所述虚拟机需要复位。
根据权利要求1或2所述的方法，其特征在于，所述KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息，包括：

所述KBox组内的第一KBox检测客户操作系统出现的故障，根据检测到的故障形成第一故障信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识；

相应的，所述管理单元为宿主操作系统内的基础设施管理单元BMU；所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理，包括：

所述第一KBox将所述第一故障信息发送至所述BMU，以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理。
根据权利要求1或2所述的方法，其特征在于，所述KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息，包括：

所述KBox组内的第二KBox检测宿主操作系统出现的故障，根据检测到的故障形成第二故障信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间；

相应的，所述管理单元为硬件上的基板管理控制器BMC；所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理，包括：

所述第二KBox将所述第二故障信息发送至所述BMC，以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理；其中，所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
根据权利要求1～4任一所述的方法，其特征在于，还包括：

所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统，以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
一种故障快速检测方法，其特征在于，包括：

应用高可用性HA子系统接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息；

所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
根据权利要求6所述的方法，其特征在于，所述管理单元为宿主操作系统内的基础设施管理单元BMU；

相应的，所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息，包括：

所述应用HA子系统接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识；

所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理，包括：

所述应用HA子系统根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
根据权利要求6所述的方法，其特征在于，所述管理单元为硬件上的基板管理控制器BMC；

相应的，所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息，包括：

所述应用HA子系统接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间；

所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理，包括：

所述应用HA子系统根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
根据权利要求6-8任一所述的方法，其特征在于，还包括：

所述应用HA子系统接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息，所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
一种故障快速检测装置，其特征在于，包括：

检测模块，用于通过内核黑匣子KBox组检测操作系统出现的故障，根据检测到的故障形成故障信息；

发送模块，用于使所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。
根据权利要求10所述的装置，其特征在于，所述检测模块具体用于：

通过所述KBox组检测操作系统非预期复位时，根据设置在操作系统复位流程处的探针探测到的执行流，判定所述操作系统非预期复位；

通过所述KBox组检测操作系统内存耗尽时，根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值，或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值，判定所述操作系统内存耗尽；

通过所述KBox组检测操作系统内核死锁时，根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态，判定所述操作系统内核死锁；

通过所述KBox组检测操作系统内核崩溃时，根据设置在操作系统内核崩溃处理流程处的探针探测到执行流，判定所述操作系统内核崩溃；

通过所述KBox组检测CPU硬件故障时，根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因，判定所述CPU故障；

通过所述KBox组检测虚拟机复位时，所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后，判定所述虚拟机需要复位。
根据权利要求10或11所述的装置，其特征在于，所述检测模块具体用于：

通过所述KBox组内的第一KBox检测客户操作系统出现的故障，根据检测到的故障形成第一故障信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识；

相应的，所述管理单元为宿主操作系统内的基础设施管理单元BMU；所述发送模块具体用于：

使所述第一KBox将所述第一故障信息发送至所述BMU，以使所述BMU 将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理。
根据权利要求10或11所述的装置，其特征在于，所述检测模块具体用于：

通过所述KBox组内的第二KBox检测宿主操作系统出现的故障，根据检测到的故障形成第二故障信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间；

相应的，所述管理单元为硬件上的基板管理控制器BMC；所述发送模块具体用于：

使所述第二KBox将所述第二故障信息发送至所述BMC，以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至发送至与至少一个虚拟机对应的应用HA子系统，以触发所述应用HA子系统的业务故障处理；其中，所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
根据权利要求10-13任一所述的装置，其特征在于，所述发送模块还用于：

使所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统，以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
一种故障快速检测装置，其特征在于，包括：

接收模块，用于接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息；

发送模块，用于根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
根据权利要求15所述的装置，其特征在于，所述管理单元为宿主操作系统内的基础设施管理单元BMU；

相应的，所述接收模块具体用于：

接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息；其中，所述第一KBox设置在虚拟机内，所述第一故障信息中包含故障原因，故障描述，故障发生时间以及故障对应的虚拟机标识；

所述发送模块具体用于：

根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
根据权利要求15所述的装置，其特征在于，所述管理单元为硬件上的基板管理控制器BMC；

相应的，所述接收模块具体用于：

接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息；其中，所述第二KBox设置在所述宿主操作系统内；所述第二故障信息中包含故障原因，故障描述以及故障发生时间；

所述发送模块具体用于：

根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
根据权利要求15-17任一所述的装置，其特征在于，所述接收模块还用于：

接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息，所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。