WO2015058711A1 - 故障快速检测方法及装置 - Google Patents

故障快速检测方法及装置 Download PDF

Info

Publication number
WO2015058711A1
WO2015058711A1 PCT/CN2014/089421 CN2014089421W WO2015058711A1 WO 2015058711 A1 WO2015058711 A1 WO 2015058711A1 CN 2014089421 W CN2014089421 W CN 2014089421W WO 2015058711 A1 WO2015058711 A1 WO 2015058711A1
Authority
WO
WIPO (PCT)
Prior art keywords
fault
kbox
operating system
subsystem
information
Prior art date
Application number
PCT/CN2014/089421
Other languages
English (en)
French (fr)
Inventor
谢军勇
刘涛
夏海
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to EP14855827.3A priority Critical patent/EP3054383A4/en
Publication of WO2015058711A1 publication Critical patent/WO2015058711A1/zh
Priority to US15/136,690 priority patent/US10223183B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Abstract

本发明提供一种故障快速检测方法及装置,该方法包括:通过内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。

Description

故障快速检测方法及装置 技术领域
本发明实施例涉及通信技术,尤其涉及一种故障快速检测方法及装置。
背景技术
云技术将电信系统分为基础设施层和业务应用层,基础设施层通过虚拟化技术提供给业务应用层使用,业务应用层运行在宿主操作系统(Host Operation System,简称:Host OS)和客户操作系统(Guest Operation System,简称:Guest OS)上,操作系统(Operation System,简称:OS)作为执行环境为业务应用层的运行提供支撑,如果执行环境出现故障或亚健康问题,将会影响应用服务的提供。
当前电信系统中,对于执行环境的故障检测通常采用心跳(Heart Beat,简称:HB)检测的方式,即,Host OS和Guest OS上均运行有心跳程序,周期性地向高可用(High Availability,简称:HA)子系统发送心跳消息,一旦Host OS或Guest OS中出现故障,心跳消息将无法发送,若HA子系统在多个检测周期均接收不到心跳消息,即可判定宿主机或虚拟机出现故障。
然而,若检测周期过长,一旦Host OS或Guest OS中出现故障,HA子系统无法及时发现故障,将导致业务可用性恶化;若检测周期过短,一旦网络上出现通讯延迟,将导致HA子系统误判Host OS或Guest OS中出现故障。
发明内容
本发明实施例提供一种故障快速检测方法及装置,以实现快速检测出操作系统中出现的故障或亚健康问题。
第一方面,本发明实施例提供一种故障快速检测方法,包括:
内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;
所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。
在第一方面的第一种可能的实现方式中,所述KBox组检测操作系统出现的故障,包括:
所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息,包括:
所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
相应的,所述管理单元为宿主操作系统内的基础设施管理单元BMU;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障 处理,包括:
所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
结合第一方面或第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息,包括:
所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
相应的,所述管理单元为硬件上的基板管理控制器BMC;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理,包括:
所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
结合第一方面至第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述方法还包括:
所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
第二方面,本发明实施例提供一种故障快速检测方法,包括:
应用高可用性HA子系统接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;
所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
在第二方面的第一种可能的实现方式中,所述管理单元为宿主操作系统内的基础设施管理单元BMU;
相应的,所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息,包括:
所述应用HA子系统接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理,包括:
所述应用HA子系统根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
在第二方面的第二种可能的实现方式中,所述管理单元为硬件上的基板管理控制器BMC;
相应的,所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息,包括:
所述应用HA子系统接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理,包括:
所述应用HA子系统根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
结合第二方面至第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述方法还包括:
所述应用HA子系统接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
第三方面,本发明实施例提供一种故障快速检测装置,包括:
检测模块,用于通过内核黑匣子KBox组检测操作系统出现的故障,根 据检测到的故障形成故障信息;
发送模块,用于使所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。
在第三方面的第一种可能的实现方式中,所述检测模块具体用于:
通过所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
通过所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
通过所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
通过所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
通过所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
通过所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
结合第三方面或第三方面的第一种可能的实现方式,在第二种可能的实现方式中,所述检测模块具体用于:
通过所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
相应的,所述管理单元为宿主操作系统内的基础设施管理单元BMU;所述发送模块具体用于:
使所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU 将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
结合第三方面或第三方面的第一种可能的实现方式,在第三种可能的实现方式中,所述检测模块具体用于:
通过所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
相应的,所述管理单元为硬件上的基板管理控制器BMC;所述发送模块具体用于:
使所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
结合第三方面至第三方面的第三种可能的实现方式,在第四种可能的实现方式中,所述发送模块还用于:
使所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
第四方面,本发明实施例提供一种故障快速检测装置,包括:
接收模块,用于接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;
发送模块,用于根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
在第四方面的第一种可能的实现方式中,所述管理单元为宿主操作系统内的基础设施管理单元BMU;
相应的,所述接收模块具体用于:
接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时 间以及故障对应的虚拟机标识;
所述发送模块具体用于:
根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
在第四方面的第二种可能的实现方式中,所述管理单元为硬件上的基板管理控制器BMC;
相应的,所述接收模块具体用于:
接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
所述发送模块具体用于:
根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
结合第四方面至第四方面的第二种可能的实现方式,在第三种可能的实现方式中,所述接收模块还用于:
接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
本发明实施例提供的故障快速检测方法及装置,通过内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明故障快速检测方法实施例一的流程图;
图2为本发明故障快速检测方法实施例二的流程图;
图3为本发明故障快速检测方法实施例二的应用示意图;
图4为本发明故障快速检测方法实施例三的流程图;
图5为本发明故障快速检测方法实施例三的应用示意图;
图6为本发明故障快速检测方法实施例四的流程图;
图7为本发明故障快速检测装置实施例一的结构示意图;
图8为本发明故障快速检测装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明故障快速检测方法实施例一的流程图。如图1所示,本实施例提供的方法可以包括:
步骤101、内核黑匣子(Kernel Black Box,简称:KBox)组检测操作系统出现的故障,根据检测到的故障形成故障信息。
需要说明的是,所述操作系统可能出现的故障或亚健康问题可以包括:操作系统非预期复位、操作系统内存耗尽、操作系统内核死锁、操作系统内核崩溃、CPU硬件故障以及虚拟机复位。具体的,所述KBox组检测操作系统出现的故障,可以包括:
所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元(Central Processing Unit,简称:CPU)上探测运行状态的探针探测到所述CPU处于 死锁状态,判定所述操作系统内核死锁;所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
步骤102、所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用HA子系统以触发所述应用HA子系统的业务故障处理。
需要说明的是,在一些可行的实施方式中,所述KBox组还可以通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
本发明实施例提供的故障快速检测方法及装置,通过KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用HA子系统以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。
图2为本发明故障快速检测方法实施例二的流程图。如图2所示,在上述实施例的基础上,本实施例提供的方法中,上述步骤101具体可以为:
步骤201、所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识。
本实施例中,所述基础设施层的管理单元可以为所述基础设施层的宿主操作系统内的基础设施管理单元(Board Management Unit,简称:BMU)。相应的,上述步骤102具体可以为:
步骤202、所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标 识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
参照图3,在实际应用过程中,在继承原有的心跳检测机制的基础上,在各虚拟机的客户操作系统的内核中插入KBox,即,在客户操作系统的内核中插入所述第一KBox,所述第一KBox检测客户操作系统出现的故障,具体的,所述客户操作系统可能出现的故障或亚健康问题可以包括:操作系统非预期复位、操作系统内存耗尽、操作系统内核死锁、操作系统内核崩溃、CPU硬件故障以及虚拟机复位,本实施例不对此进行限制。
在所述客户操作系统出现故障或亚健康问题后,所述第一KBox根据检测到的故障形成第一故障信息,并将所述第一故障信息通过BMU与KBox之间的接口发送至BMU。具体的,对所述BMU与Kbox之间的接口的定义如表一所示:
表一接口定义
字段名 字段类型 作用
故障原因 整形 客户操作系统故障原因值
故障描述 字符串 客户操作系统故障说明
故障发生时间 整形 故障发生时客户操作系统的系统时间
所述第一KBox形成的第一故障信息中可以包括故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识。
BMU在接收到所述第一故障信息后,可以识别出发送所述第一故障信息的所述第一KBox所在的虚拟机对应的虚拟机ID,所述BMU直接将包含所述第一故障信息以及识别出的所述虚拟机ID的第一系统故障通告信息发送至应用HA子系统;可选的,所述BMU还可以将所述第一故障信息以及所述虚拟机ID发送至基础设施HA子系统,再由所述基础设施HA子系统将包含所述第一故障信息以及所述虚拟机ID的所述第一系统故障通告信息发送至所述应用HA子系统。
所述应用HA子系统根据所述第一系统故障通告信息触发业务故障处理,所述业务故障处理具体可以包括业务倒换。
本实施例的技术方案,通过第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机 内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。
图4为本发明故障快速检测方法实施例三的流程图。如图4所示,在上述实施例的基础上,本实施例提供的方法中,上述步骤101具体可以为:
步骤301、所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间。
本实施例中,所述基础设施层的管理单元为所述基础设施层的硬件上的基板管理控制器(Board Management Controller,简称:BMC)。相应的,上述步骤102具体可以为:
步骤302、所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
参照图5,在实际应用过程中,在上述实施例的基础上,在继承原有的心跳检测机制的基础上,除了在各虚拟机的客户操作系统的内核中插入第一KBox之外,在本实施例中,还可以在宿主操作系统的内核中也插入KBox,即,在宿主操作系统的内核中插入第二KBox,所述第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息,具体的,所述宿主操作系统可能出现的故障或亚健康问题可以包括:操作系统非预期复位、操作系统内存耗尽、操作系统内核死锁、操作系统内核崩溃、CPU硬件故障以及虚拟机复位,本实施例不对此进行限制。
在所述宿主操作系统出现故障或亚健康问题后,所述第二KBox根据检测到的故障形成第二故障信息,并将所述第二故障信息发送至BMC,所述第 二故障信息中可以包括故障原因,故障描述以及故障发生时间。
所述BMC在接收到所述第二故障信息后,将包含所述第二故障信息的第二系统故障通告信息发送至所述应用HA子系统;可选的,所述BMC还可以将所述第二故障信息发送至所述基础设施HA子系统,再由所述基础设施HA子系统将包含所述地热故障信息的所述第二系统故障通告信息发送至所述应用HA子系统。
所述应用HA子系统根据所述第二系统故障通告信息触发业务故障处理,所述业务故障处理具体可以包括业务倒换。
本实施例的技术方案,通过第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机;从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。
图6为本发明故障快速检测方法实施例四的流程图。如图4所示,本实施例提供的方法具体可以包括:
步骤401、应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息。
在一种可行的实施方式中,所述管理单元为宿主操作系统内的BMU;在则本步骤具体可以为:所述应用HA子系统接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识。
在另一种可行的实施方式中,所述管理单元为硬件上的BMC;则本步骤具体可以为:所述应用HA子系统接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因, 故障描述以及故障发生时间。
步骤402、所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
在一种可行的实施方式中,所述管理单元为宿主操作系统内的BMU;在则本步骤具体可以为:所述应用HA子系统根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
在另一种可行的实施方式中,所述管理单元为硬件上的BMC;则本步骤具体可以为:所述应用HA子系统根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
需要说明的是,在一些可行的实施方式中,所述应用HA子系统还可以接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
本实施例的技术方案,通过应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。从而实现快速检测出操作系统中出现的故障或亚健康问题,并及时通知业务应用层进行故障处理以降低业务损失。
图7为本发明故障快速检测装置实施例一的结构示意图。如图7所示,本实施例提供的故障快速检测装置10具体可以包括:检测模块11以及发送模块12。
其中,检测模块11用于通过KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;
发送模块12用于使所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用HA子系统以触发所述应用HA子系统的业务故障处理。
需要说明的是,所述检测模块11具体可以用于:
通过所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
通过所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存 资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
通过所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
通过所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
通过所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
通过所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
一种可行的实施方式中,所述检测模块11具体可以用于通过所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成故障信息;其中,所述第一KBox设置在虚拟机内,所述故障信息中还包含故障对应的虚拟机标识。
相应的,所述基础设施层的管理单元为所述基础设施层的宿主操作系统内的BMU;所述发送模块12具体可以用于使所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
另一种可行的实施方式,所述检测模块11具体可以用于通过所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成故障信息;其中,所述第二KBox设置在所述宿主操作系统内;
相应的,所述基础设施层的管理单元为所述基础设施层的硬件上的BMC;所述发送模块12具体可以用于使所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主 操作系统上建立的虚拟机。
在一些可行的实施方式中,所述发送模块12还可以用于使所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
本实施例的故障快速检测装置,可用于执行上述方法实施例的技术方案,其实现原理及技术效果类似,此处不再赘述。
图8为本发明故障快速检测装置实施例二的结构示意图。如图8所示,本实施例提供的故障快速检测装置20具体可以包括:接收模块21以及发送模块22。
其中,接收模块21用于接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;
发送模块22用于根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
在一种可行的实施方式中,所述管理单元可以为宿主操作系统内的基础设施管理单元BMU;相应的,所述接收模块21具体可以用于接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;所述发送模块22具体可以用于根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
在另一种可行的实施方式中,所述管理单元可以为硬件上的基板管理控制器BMC;相应的,所述接收模块21具体可以用于接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;所述发送模块22具体可以用于根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
在一些可行的实施方式中,所述接收模块21还可以用于接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基 础设施层的所述管理单元发送的所述故障信息后发送的。
本实施例的故障快速检测装置,可用于执行上述方法实施例的技术方案,其实现原理及技术效果类似,此处不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (18)

  1. 一种故障快速检测方法,其特征在于,包括:
    内核黑匣子KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息;
    所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。
  2. 根据权利要求1所述的方法,其特征在于,所述KBox组检测操作系统出现的故障,包括:
    所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
    所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
    所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
    所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
    所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
    所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
  3. 根据权利要求1或2所述的方法,其特征在于,所述KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息,包括:
    所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
    相应的,所述管理单元为宿主操作系统内的基础设施管理单元BMU;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理,包括:
    所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
  4. 根据权利要求1或2所述的方法,其特征在于,所述KBox组检测操作系统出现的故障,根据检测到的故障形成故障信息,包括:
    所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
    相应的,所述管理单元为硬件上的基板管理控制器BMC;所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理,包括:
    所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
  5. 根据权利要求1~4任一所述的方法,其特征在于,还包括:
    所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
  6. 一种故障快速检测方法,其特征在于,包括:
    应用高可用性HA子系统接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;
    所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
  7. 根据权利要求6所述的方法,其特征在于,所述管理单元为宿主操作 系统内的基础设施管理单元BMU;
    相应的,所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息,包括:
    所述应用HA子系统接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
    所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理,包括:
    所述应用HA子系统根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
  8. 根据权利要求6所述的方法,其特征在于,所述管理单元为硬件上的基板管理控制器BMC;
    相应的,所述应用HA子系统接收KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息,包括:
    所述应用HA子系统接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
    所述应用HA子系统根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理,包括:
    所述应用HA子系统根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
  9. 根据权利要求6-8任一所述的方法,其特征在于,还包括:
    所述应用HA子系统接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
  10. 一种故障快速检测装置,其特征在于,包括:
    检测模块,用于通过内核黑匣子KBox组检测操作系统出现的故障,根 据检测到的故障形成故障信息;
    发送模块,用于使所述KBox组通过基础设施层的管理单元将包含所述故障信息的系统故障通告信息发送至应用高可用性HA子系统以触发所述应用HA子系统的业务故障处理。
  11. 根据权利要求10所述的装置,其特征在于,所述检测模块具体用于:
    通过所述KBox组检测操作系统非预期复位时,根据设置在操作系统复位流程处的探针探测到的执行流,判定所述操作系统非预期复位;
    通过所述KBox组检测操作系统内存耗尽时,根据设置在操作系统内存资源分配流程中的探针探测到的操作系统内存小于或等于预设阈值,或所述探针在预设周期探测到所述操作系统内存小于或等于所述预设阈值,判定所述操作系统内存耗尽;
    通过所述KBox组检测操作系统内核死锁时,根据设置在中央处理单元CPU上探测运行状态的探针探测到所述CPU处于死锁状态,判定所述操作系统内核死锁;
    通过所述KBox组检测操作系统内核崩溃时,根据设置在操作系统内核崩溃处理流程处的探针探测到执行流,判定所述操作系统内核崩溃;
    通过所述KBox组检测CPU硬件故障时,根据设置在所述操作系统的用于探测CPU硬件故障中断的探针发送的中断和故障原因,判定所述CPU故障;
    通过所述KBox组检测虚拟机复位时,所述KBox组探测到所述基础设施层发送的所述虚拟机复位中断后,判定所述虚拟机需要复位。
  12. 根据权利要求10或11所述的装置,其特征在于,所述检测模块具体用于:
    通过所述KBox组内的第一KBox检测客户操作系统出现的故障,根据检测到的故障形成第一故障信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时间以及故障对应的虚拟机标识;
    相应的,所述管理单元为宿主操作系统内的基础设施管理单元BMU;所述发送模块具体用于:
    使所述第一KBox将所述第一故障信息发送至所述BMU,以使所述BMU 将包含所述第一故障信息、以及与所述第一KBox对应的虚拟机标识的第一系统故障通告信息发送至与所述虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理。
  13. 根据权利要求10或11所述的装置,其特征在于,所述检测模块具体用于:
    通过所述KBox组内的第二KBox检测宿主操作系统出现的故障,根据检测到的故障形成第二故障信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
    相应的,所述管理单元为硬件上的基板管理控制器BMC;所述发送模块具体用于:
    使所述第二KBox将所述第二故障信息发送至所述BMC,以使所述BMC将包含所述第二故障信息的第二系统故障通告信息发送至发送至与至少一个虚拟机对应的应用HA子系统,以触发所述应用HA子系统的业务故障处理;其中,所述至少一个虚拟机为所述宿主操作系统上建立的虚拟机。
  14. 根据权利要求10-13任一所述的装置,其特征在于,所述发送模块还用于:
    使所述KBox组通过所述基础设施层的所述管理单元将所述故障信息发送至基础设施HA子系统,以使所述基础设施HA子系统将包含所述故障信息的所述系统故障通告信息发送至所述应用HA子系统。
  15. 一种故障快速检测装置,其特征在于,包括:
    接收模块,用于接收内核黑匣子KBox组通过基础设施层的管理单元发送的包含故障信息的系统故障通告信息;
    发送模块,用于根据所述系统故障通告信息触发所述应用HA子系统的业务故障处理。
  16. 根据权利要求15所述的装置,其特征在于,所述管理单元为宿主操作系统内的基础设施管理单元BMU;
    相应的,所述接收模块具体用于:
    接收所述BMU发送的包含第一故障信息以及与所述KBox组内的第一KBox对应的虚拟机标识的第一系统故障通告信息;其中,所述第一KBox设置在虚拟机内,所述第一故障信息中包含故障原因,故障描述,故障发生时 间以及故障对应的虚拟机标识;
    所述发送模块具体用于:
    根据所述第一系统故障通告信息触发所述应用HA子系统的业务故障处理。
  17. 根据权利要求15所述的装置,其特征在于,所述管理单元为硬件上的基板管理控制器BMC;
    相应的,所述接收模块具体用于:
    接收所述KBox组内的第二KBox通过所述BMC发送的、包含第二故障信息的第二系统故障通告信息;其中,所述第二KBox设置在所述宿主操作系统内;所述第二故障信息中包含故障原因,故障描述以及故障发生时间;
    所述发送模块具体用于:
    根据所述第二系统故障通告信息触发所述应用HA子系统的业务故障处理。
  18. 根据权利要求15-17任一所述的装置,其特征在于,所述接收模块还用于:
    接收所述基础设施HA子系统发送的包含所述故障信息的所述系统故障通告信息,所述系统故障通告信息是所述基础设施HA子系统在接收到所述KBox组通过所述基础设施层的所述管理单元发送的所述故障信息后发送的。
PCT/CN2014/089421 2013-10-24 2014-10-24 故障快速检测方法及装置 WO2015058711A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP14855827.3A EP3054383A4 (en) 2013-10-24 2014-10-24 PROCESS AND SYSTEM FOR QUICK ERROR DETECTION
US15/136,690 US10223183B2 (en) 2013-10-24 2016-04-22 Rapid fault detection method and device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310507154.5 2013-10-24
CN201310507154.5A CN103559124B (zh) 2013-10-24 2013-10-24 故障快速检测方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/136,690 Continuation US10223183B2 (en) 2013-10-24 2016-04-22 Rapid fault detection method and device

Publications (1)

Publication Number Publication Date
WO2015058711A1 true WO2015058711A1 (zh) 2015-04-30

Family

ID=50013375

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/089421 WO2015058711A1 (zh) 2013-10-24 2014-10-24 故障快速检测方法及装置

Country Status (4)

Country Link
US (1) US10223183B2 (zh)
EP (1) EP3054383A4 (zh)
CN (1) CN103559124B (zh)
WO (1) WO2015058711A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559124B (zh) 2013-10-24 2017-04-12 华为技术有限公司 故障快速检测方法及装置
CN106681802A (zh) * 2015-11-06 2017-05-17 华为技术有限公司 虚拟机迁移方法、装置及系统
CN107783854B (zh) * 2016-08-29 2021-08-20 华为技术有限公司 处理进程的方法及其装置
CN106383760A (zh) * 2016-09-19 2017-02-08 郑州云海信息技术有限公司 一种计算机故障管理方法及装置
CN106452846A (zh) * 2016-09-22 2017-02-22 华为技术有限公司 故障处理方法、虚拟架构管理系统和业务管理系统
CN111367769B (zh) * 2020-03-30 2023-07-21 浙江大华技术股份有限公司 应用故障处理方法及电子设备
CN112069032A (zh) * 2020-09-11 2020-12-11 杭州安恒信息技术股份有限公司 一种虚拟机的可用性检测方法、系统及相关装置
CN113127311A (zh) * 2021-05-13 2021-07-16 中国建设银行股份有限公司 一种异常检测方法及装置
US11886283B2 (en) 2022-03-30 2024-01-30 International Business Machines Corporation Automatic node crash detection and remediation in distributed computing systems

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593128A (zh) * 2008-05-26 2009-12-02 上海未来宽带技术及应用工程研究中心有限公司 基于实时操作系统的atca系统中的ipmc及其构建方法
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN102364448A (zh) * 2011-09-19 2012-02-29 浪潮电子信息产业股份有限公司 一种计算机故障管理系统的容错方法
CN103559124A (zh) * 2013-10-24 2014-02-05 华为技术有限公司 故障快速检测方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4809209B2 (ja) * 2006-12-28 2011-11-09 株式会社日立製作所 サーバ仮想化環境における系切り替え方法及び計算機システム
CN102272718B (zh) * 2008-12-30 2014-08-27 彼方株式会社 信息处理系统、第一信息处理装置、第二信息处理装置及第三信息处理装置
US8381033B2 (en) * 2009-10-30 2013-02-19 International Business Machines Corporation Fault management in virtual computing environments
EP2510439B1 (en) * 2009-12-08 2022-05-04 Hewlett Packard Enterprise Development LP Managing errors in a data processing system
US20130275966A1 (en) * 2012-04-12 2013-10-17 International Business Machines Corporation Providing application based monitoring and recovery for a hypervisor of an ha cluster
EP2867770B1 (en) * 2012-06-29 2020-05-27 Intel Corporation Methods, systems and apparatus to capture error conditions in lightweight virtual machine managers
CN102902599B (zh) * 2012-09-17 2016-08-24 华为技术有限公司 虚拟机内部故障处理方法、装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593128A (zh) * 2008-05-26 2009-12-02 上海未来宽带技术及应用工程研究中心有限公司 基于实时操作系统的atca系统中的ipmc及其构建方法
CN101833497A (zh) * 2010-03-30 2010-09-15 山东高效能服务器和存储研究院 一种基于专家系统方法的计算机故障管理系统
CN102364448A (zh) * 2011-09-19 2012-02-29 浪潮电子信息产业股份有限公司 一种计算机故障管理系统的容错方法
CN103559124A (zh) * 2013-10-24 2014-02-05 华为技术有限公司 故障快速检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3054383A4 *

Also Published As

Publication number Publication date
EP3054383A1 (en) 2016-08-10
US20160239369A1 (en) 2016-08-18
CN103559124B (zh) 2017-04-12
CN103559124A (zh) 2014-02-05
EP3054383A4 (en) 2016-10-26
US10223183B2 (en) 2019-03-05

Similar Documents

Publication Publication Date Title
WO2015058711A1 (zh) 故障快速检测方法及装置
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
KR101504882B1 (ko) 하드웨어 장애 완화
US8910160B1 (en) Handling of virtual machine migration while performing clustering operations
WO2015154246A1 (zh) 基于网络功能虚拟化的故障处理方法及装置、系统
US9423956B2 (en) Emulating a stretched storage device using a shared storage device
EP3142011A1 (en) Anomaly recovery method for virtual machine in distributed environment
JP6354901B2 (ja) 仮想マシンの故障検知および回復用管理システム
US9442811B2 (en) Emulating a stretched storage device using a shared replicated storage device
US10530634B1 (en) Two-channel-based high-availability
WO2021101698A1 (en) Detecting and recovering from fatal storage errors
WO2017041671A1 (zh) 故障恢复的方法和装置
US11016863B2 (en) Self-contained disaster detection for replicated multi-controller systems
CN115766405B (zh) 一种故障处理方法、装置、设备和存储介质
WO2014186945A1 (zh) 实现物理资源和虚拟资源对应的方法和基础输入输出系统
TWI469573B (zh) 系統錯誤處理方法與使用其之伺服器系統
CN103150236B (zh) 面向进程失效错误的并行通信库状态自恢复方法
US11947431B1 (en) Replication data facility failure detection and failover automation
Lee et al. NCU-HA: A lightweight HA system for kernel-based virtual machine
JP7474168B2 (ja) 監視システムおよび障害監視方法
KR20170041557A (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
CN107851033B (zh) 减轻远程存储装置的间歇不可用性对虚拟机的影响
CN111722911A (zh) 一种云中心宿主机发生宕机时自动疏散的方法
WO2014089966A1 (zh) 确定节点状态的方法和节点

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14855827

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2014855827

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014855827

Country of ref document: EP