WO2016192408A1

WO2016192408A1 - 集群系统中节点的故障检测方法和装置

Info

Publication number: WO2016192408A1
Application number: PCT/CN2016/073606
Authority: WO
Inventors: 胡琳; 伍湘平; 彭佩星
Original assignee: 华为技术有限公司
Priority date: 2015-06-05
Filing date: 2016-02-05
Publication date: 2016-12-08
Also published as: CN106301853B; CN106301853A

Abstract

本发明实施例提供一种集群系统中节点的故障检测方法和装置，该方法包括：第一节点判断在预设时间内是否接收到第二节点发送的第一心跳报文，第一节点为第二节点的邻居节点，第一心跳报文为第二节点并行地向第二节点的每一邻居节点发送的一个心跳报文；在第一节点未接收到第二节点发送的心跳报文的情况下，向第二节点的所有邻居节点中除第一节点之外的其他邻居节点发送请求消息；第一节点接收其他邻居节点发送的携带有接收状态的响应消息；在第一节点根据接收状态确定出其他邻居节点均未接收到心跳报文的情况下，第一节点确定第二节点发生故障。本发明实施例提供的集群系统中节点的故障检测方法和装置能够提高节点故障检测的效率。

Description

集群系统中节点的故障检测方法和装置

本申请要求于2015年06月05日提交中国专利局、申请号为201510306800.0、发明名称为“集群系统中节点的故障检测方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及通信技术，尤其涉及一种集群系统中节点的故障检测方法和装置。

背景技术

在分布式集群系统中，通常包括一个中心节点和多个普通节点，当中心节点或者普通节点发生故障后，将对分布式集群系统的可靠性造成很大的影响，因此，如何有效的进行节点的故障检测，是非常重要的。

图1为现有技术中节点的故障检测方法的示意图，如图1所示，普通节点(B、C、D、E)根据心跳周期向中心节点(M)发送心跳报文，中心节点(M)根据检测周期内收到的连续心跳报文的情况，来检测普通节点是否故障，其中，一个检测周期可以包含多个心跳周期。同时，中心节点(M)也可以周期性的向普通节点(B、C、D、E)发送心跳报文，以通知普通节点中心节点所担任的角色以及是否处于正常状态，一旦普通节点(B、C、D、E)在检测周期内未收到中心节点(M)发送的心跳报文，则会判断出中心节点(M)发生故障，此时，普通节点会发起重新选举中心节点的操作，若选举成功，普通节点将感知新的中心节点，并将心跳报文发送到新的中心节点，集群再进行故障检测。

然而，在现有技术中，通过判断在检测周期内是否接收到心跳报文的方式来检测节点是否发生故障时，由于在集群规模固定的情况下，发送心跳报文的心跳周期无法改变，因此检测周期的时间也无法改变，使得节点故障检测需要通过多个心跳周期才能检测出来，造成节点故障检测的周期较长，导致节点故障检测的效率较低。

发明内容

本发明实施例提供一种集群系统中节点的故障检测方法和装置，用于解决现有技术存在着的节点故障检测需要通过多个心跳周期才能检测出来，造成节点故障检测的周期较长的问题，从而提高了节点故障检测的效率。

第一方面，本发明实施例提供一种集群系统中节点的故障检测方法，包括：

第一节点判断在预设时间内是否接收到第二节点发送的第一心跳报文；所述第一节点为所述第二节点的邻居节点，所述第一心跳报文为所述第二节点并行地向所述第二节点的每一邻居节点发送的一个心跳报文，所述第二节点的所有邻居节点的数目为两个以上；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；

在所述第一节点未接收到所述第二节点发送的第一心跳报文的情况下，所述第一节点向所述第二节点的所有邻居节点中除所述第一节点之外的其他邻居节点发送请求消息，所述请求消息用于询问所述其他邻居节点是否接收到所述第一心跳报文；

所述第一节点接收所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；

在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述第一节点确定所述第二节点发生故障。

结合第一方面，在第一方面的第一种可能的实现方式中，所述第一节点确定所述第二节点发生故障之后，还包括：

所述第一节点生成第一投票信息，并接收每一所述其他邻居节点发送的第二投票信息，所述第一投票信息包括所述第一节点选举的节点对应的节点标识；所述第二投票信息包括发送所述第二投票信息的邻居节点选举的节点对应的节点标识；

所述第一节点根据所述第一投票信息中的节点标识和每一所述其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点；所述第三节点为替代所述第二节点、且并行地向所述第三节点的所有邻居节点发送心跳报文的节点；所述第三节点的所有邻居节点包括所述第三节点自身的邻居节点和所述第二节点的邻居节点。

结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，还包括：

在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，所述第一节点确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到所述第一心跳报文的节点。

结合第一方面、第一方面的第一种至第一方面的第二种任一种可能的实现方式，在第一方面的第三种可能的实现方式中，还包括：

所述第一节点根据所述第三节点的邻居节点和所述其他邻居节点中除所述第三节点之外的节点，重新确定所述第一节点的邻居节点。

第二方面，本发明实施例提供一种集群系统中节点的故障检测方法，所述方法包括：

第二节点并行地向第一节点和其他邻居节点发送第一心跳报文；所述第一节点为所述第二节点的邻居节点，所述其他邻居节点为所述第二节点的所有邻居节点中除所述第一节点之外的节点，所述其他邻居节点的数目为一个以上；

所述第一节点判断在预设时间内是否接收到所述第一心跳报文；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；

在所述第一节点未接收到所述第一心跳报文的情况下，所述第一节点向每一所述其他邻居节点分别发送请求消息，所述请求消息用于询问每一所述其他邻居节点是否接收到所述第一心跳报文；

所述第一节点接收每一所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；

在所述第一节点根据接收到的所述响应消息中携带的接收状态，确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述第一节点确定所述第二节点发生故障。

结合第二方面，在第二方面的第一种可能的实现方式中，所述第一节点确定所述第二节点发生故障之后，还包括：

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，还包括：

在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，则所述第一节点确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到第一心跳报文的节点。

结合第二方面、第二方面的第一种至第二方面的第二种任一种可能的实现方式，在第二方面的第三种可能的实现方式中，还包括：

第三方面，本发明实施例提供一种集群系统中节点的故障检测装置，包括：

判断模块，用于判断在预设时间内是否接收到第二节点发送的第一心跳报文；所述第一节点为所述第二节点的邻居节点，所述第一心跳报文为所述第二节点并行地向所述第二节点的每一邻居节点发送的一个心跳报文，所述第二节点的所有邻居节点的数目为两个以上；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；

在所述判断模块判断出接收模块未接收到所述第二节点发送的第一心跳报文的情况下，

发送模块，用于向所述第二节点的所有邻居节点中除所述第一节点之外的其他邻居节点发送请求消息，所述请求消息用于询问所述其他邻居节点是否接收到所述第一心跳报文；

所述接收模块，还用于接收所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；

确定模块，用于根据所述接收模块接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定是否所述其他邻居节点均未接收到所述第一心跳报文；

在所述确定模块确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述确定模块，还用于确定所述第二节点发生故障。

结合第三方面，在第三方面的第一种可能的实现方式中，在所述确定模块确定所述第二节点发生故障之后，还包括：

生成模块，还用于生成第一投票信息，所述第一投票信息包括所述第一节点选举的节点对应的节点标识；

所述接收模块，还用于接收每一所述其他邻居节点发送的第二投票信息，所述第二投票信息包括发送所述第二投票信息的邻居节点选举的节点对应的节点标识；

所述确定模块，还用于根据所述第一投票信息中的节点标识和每一所述其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点；所述第三节点为替代所述第二节点、且并行地向所述第三节点的所有邻居节点发送心跳报文的节点；所述第三节点的所有邻居节点包括所述第三节点自身的邻居节点和所述第二节点的邻居节点。

结合第三方面或第三方面的第一种可能的实现方式，在第三方面的第二种可能的实现方式中，

在所述确定模块根据所述接收模块接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，

所述确定模块还用于确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到所述第一心跳报文的节点。

结合第三方面、第三方面的第一种至第三方面的第二种任一种可能的实现方式，在第三方面的第三种可能的实现方式中，

所述确定模块还用于根据所述第三节点的邻居节点和所述其他邻居节点中除所述第三节点之外的节点，重新确定所述第一节点的邻居节点。

第四方面，本发明实施例提供一种集群系统中节点的故障检测系统，包括第一节点、第二节点和其他邻居节点，所述第一节点为所述第二节点的邻居节点，所述其他邻居节点为所述第二节点的所有邻居节点中除所述第一节点之外的节点，所述其他邻居节点的数目为一个以上，包括：

所述第二节点，用于并行地向所述第一节点和所述其他邻居节点发送第一心跳报文；

所述第一节点，用于判断在预设时间内是否接收到所述第一心跳报文；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；

在所述第一节点未接收到所述第一心跳报文的情况下，所述第一节点还用于向每一所述其他邻居节点分别发送请求消息，所述请求消息用于询问每一所述其他邻居节点是否接收到所述第一心跳报文；以及，所述第一节点还用于接收每一所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；

在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述第一节点还用于确定所述第二节点发生故障。

结合第四方面，在第四方面的第一种可能的实现方式中，所述第一节点确定所述第二节点发生故障之后，还包括：

所述第一节点还用于：

生成第一投票信息，并接收每一所述其他邻居节点发送的第二投票信息，所述第一投票信息包括所述第一节点选举的节点对应的节点标识，所述第二投票信息包括发送所述第二投票信息的邻居节点选举的节点对应的节点标识；

以及，根据所述第一投票信息中的节点标识和每一所述其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点；所述第三节点为替代所述第二节点、且并行地向所述第三节点的所有邻居节点发送心跳报文的节点；所述第三节点的所有邻居节点包括所述第三节点自身的邻居节点和所述第二节点的邻居节点。

结合第四方面或第四方面的第一种可能的实现方式，在第四方面的第二种可能的实现方式中，

在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，

所述第一节点还用于确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到所述第一心跳报文的邻居节点。

结合第四方面、第四方面的第一种至第四方面的第二种任一种可能的实现方式，在第四方面的第三种可能的实现方式中，

所述第一节点还用于根据所述第三节点的邻居节点和所述其他邻居节点中除所述第三节点之外的节点，重新确定所述第一节点的邻居节点。

本发明实施例提供的集群系统中节点的故障检测方法和装置中，第一节点判断在预设时间内是否接收到第二节点发送的第一心跳报文，其中，第一节点为第二节点的邻居节点，第一心跳报文为第二节点并行地向第二节点的每一邻居节点发送的一个心跳报文，第二节点的所有邻居节点的数目为两个以上；该预设时间大于或等于一个心跳周期，且小于两个心跳周期；第一节点在自身未接收到第一心跳报文的情况下，询问该第二节点的其他邻居节点是否接收到第一心跳报文，并在确定该第二节点的其他邻居节点也均未接收到该第一心跳报文的情况下，确定第二节点发生了故障。由于预设时间大于或等于一个心跳周期，且小于两个心跳周期，所以采用本发明提供的技术方案进行故障检测时，避免了现有技术中需要通过多个心跳周期才能检测出节点是否发生故障的现象，可以缩短故障检测的周期，从而提高了节点故障检测的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中集群系统中节点的故障检测方法的结构示意图；

图2为本发明提供的集群系统中节点的故障检测方法实施例一的流程示意图；

图3为集群系统中节点之间相邻关系的示意图一；

图4为集群系统中节点之间相邻关系的示意图二；

图5为本发明提供的集群系统中节点的故障检测方法实施例二的流程示意图；

图6A为集群系统中检测到节点故障之前节点之间相邻关系的示意图；

图6B为集群系统中检测到节点故障之后重新确定节点之间相邻关系的示意图；

图7为本发明提供的集群系统中节点的故障检测方法实施例三的流程示意图；

图8为本发明提供的集群系统中节点的故障检测方法实施例四的流程示意图；

图9为本发明集群系统中节点的故障检测装置实施例一的结构示意图；

图10为本发明集群系统中节点的故障检测系统实施例一的结构示意图图10为本发明节点实施例一的结构示意图；

图11为本发明节点实施例一的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例适用于集群系统中，其具体适用于分布式集群系统中节点的故障检测的场景。该分布式集群系统包括至少两个节点，该节点例如可以是计算机。可选的，本实施例中的集群系统中的节点与现有的集群系统的不同之处在于：本实施例的集群系统中，将所有的节点都赋予相同的功能，即所有的节点都具有相同的接收心跳报文和发送心跳报文的能力，因此，在本实施例的集群系统中，并不存在中心节点和普通节点的区分，也不需要中心节点管理普通节点。可选的，下述实施例的技术方案均以计算机作为执行主体来介绍。

图2为本发明提供的集群系统中节点的故障检测方法实施例一的流程示意图。本发明实施例涉及的方法适用于分布式集群系统。本实施例以计算机作为执行主体为例来介绍。如图2所示，本实施例的方法可以包括：

步骤201、第一节点判断在预设时间内是否接收到第二节点发送的第一心跳报文；第一节点为第二节点的邻居节点，第一心跳报文为第二节点并行地向第二节点的每一邻居节点发送的一个心跳报文，第二节点的所有邻居节点的数目为两个以上；预设时间大于或等于一个心跳周期，且小于两个心跳周期。

在本实施例中，第二节点根据集群系统中所有节点的信息，按照集群系统中预设的规则确定出第一节点，其中，第一节点为第二节点的任意一个邻居节点，第二节点的邻居节点为与第二节点有关联关系的节点。图3为集群系统中节点之间相邻关系的示意图一，如图3所示，在集群系统中，节点E根据所有节点的信息，按照集群系统中预设的规则可以确定出其有四个邻居节点，分别是节点A、B、C和D。其中，第一节点可以为节点A、B、C和D中的任意一个。第一节点通过判断在预设时间内是否接收到第二节点发送的第一心跳报文，来检测第二节点是否发生故障。需要进行说明的是，第二节点是通过并行地向它的所有邻居节点发送心跳报文的，因此，第一心跳报文为第二节点并行地在同一个时刻向第二节点的每一邻居节点发送的一个心跳报文。另外，第二节点可以根据心跳周期并行地向它的所有邻居节点发送第一心跳报文，因此，第一节点可以判断在大于或等于一个心跳周期，且小于两个心跳周期的时间内是否接收到该第二节点发送的第一心跳报文。例如：假设心跳周期为5s，即第二节点每隔5s，将并行地向它的所有邻居节点发送一次心跳报文，对于第二节点在第5s发送的第一心跳报文，第一节点将判断在大于或等于5s，且在小于10s的时间内是否接收到第二节点发送的第一心跳报文。其中，心跳周期可以根据经验或者实际情况进行设置，对于心跳周期的具体取值，本实施例在此不作限制。

另外，第二节点可以通过一个物理网络周期性地向第一节点发送第一心跳报文，但是由于基于单物理网络进行故障检测时，在网络发生故障，例如：管理平面网络发生故障，而业务平面网络正常时，往往无法界定是集群系统中第二节点发生了故障还是第二节点和第一节点之间的链路发生了故障，或者第二节点和第一节点同时发生了故障，由此，导致故障的检测结果不准确。为了解决这一问题，优选地，本实施例中还可以通过至少两个网络发送第一心跳报文，举例来说，可以通过双平面发送第一心跳报文，例如：管理平面和业务平面，也可以通过三平面发送第一心跳报文，例如：管理平面、业务平面和信令平面。采用多物理网络的方式发送第一心跳报文，来检测节点是否发生故障，可以提高检测的准确性。需要进行说明的是，若物理网络的数量为至少两个时，该至少两个物理网络之间相互隔离，这样可以避免由于多网络之间存在共用某些设备时，若共用设备发生故障，从而导致节点之间无法正常通信的现象，有利于提高检测的准确性。

步骤202、在第一节点未接收到第二节点发送的第一心跳报文的情况下，第一节点向第二节点的所有邻居节点中除第一节点之外的其他邻居节点发送请求消息，请求消息用于询问其他邻居节点是否接收到第一心跳报文。

在现有技术中，在普通节点发送到中心节点的心跳周期固定的情况下，因为中心节点的性能的限制，集群系统无法无限增加普通节点，使得集群系统的扩展性受到影响。针对这一问题，本发明实施例中，若第一节点并未在预设时间内接收到第二节点发送的第一心跳报文，即可初步确定第二节点有可能发生了故障。由于第二节点是并行地向它的所有邻居节点发送的第一心跳报文，因此，第一节点将向第二节点的邻居节点中，除自身以外的其他邻居节点发送请求消息，以询问其他邻居节点是否接收到第二节点发送的第一心跳报文。由此可见，当第一节点未接收到第二节点发送的第一心跳报文时，第一节点可以向第二节点的其他邻居节点发送请求消息，而且第二节点的非邻居节点也将不再给第二节点发送心跳报文，由此可以减少第二节点处理心跳报文的数量，从而可以减轻第二节点的负担，使得集群系统的可扩展性较好。

举例来说，图4为集群系统中节点之间相邻关系的示意图二，如图4所示，节点E的邻居节点有X、A、D、C和G，节点E将在每个心跳周期内向它的所有邻居节点X、A、D、C和G发送心跳报文，假设将节点E作为第二节点，将节点A作为第一节点，若在某一个心跳周期内，第一节点A未接收到第二节点E发送的第一心跳报文，则第一节点A将会向其他邻居节点X、D、C和G发送请求消息，以询问节点X、D、C和G是否接收到第一心跳报文。

步骤203、第一节点接收其他邻居节点发送的携带有接收状态的响应消息，该接收状态用于表示是否接收到第一心跳报文。

在本实施例中，其他邻居节点接收到第一节点发送的请求消息后，将自身是否接收到第一心跳报文的接收状态携带在响应消息中发送给第一节点。

步骤204、在第一节点根据接收到的每一其他邻居节点发送的响应消息中携带的接收状态，确定出其他邻居节点均未接收到第一心跳报文的情况下，第一节点确定第二节点发生故障。

在本实施例中，每一个其他邻居节点在接收到第一节点发送的请求消息之后，都会向第一节点返回携带有接收状态的响应消息，第一节点根据接收到的每一其他邻居节点发送的携带有接收状态的响应消息，判断其他邻居节点是否接收到第一心跳报文，在判断出其他邻居节点均没有接收到第二节点发送的第一心跳报文的情况下，即可确定出第二节点发生了故障。

需要进行说明的是，节点之间的相邻关系是双向的，即形成邻居关系的节点之间可以相互发送心跳报文，因此，第二节点的所有邻居节点都会单独的执行步骤201-步骤204。

本发明实施例提供的集群系统中节点的故障检测方法中，第一节点判断在预设时间内是否接收到第二节点发送的第一心跳报文，其中，第一节点为第二节点的邻居节点，第一心跳报文为第二节点并行地向第二节点的每一邻居节点发送的一个心跳报文，第二节点的所有邻居节点的数目为两个以上；该预设时间大于或等于一个心跳周期，且小于两个心跳周期；第一节点在自身未接收到第一心跳报文的情况下，询问该第二节点的其他邻居节点是否接收到第一心跳报文，并在确定该第二节点的其他邻居节点也均未接收到该第一心跳报文的情况下，确定第二节点发生了故障。由于预设时间大于或等于一个心跳周期，且小于两个心跳周期，所以采用本发明提供的技术方案进行故障检测时，避免了现有技术中需要通过多个心跳周期才能检测出节点是否发生故障的现象，缩短了故障检测的周期，从而提高了节点故障检测的效率。

图5为本发明提供的集群系统中节点的故障检测方法实施例二的流程示意图。在图2所示实施例的基础上，对第一节点确定第二节点发生故障之后，各节点重新确定邻居节点的实施例，作详细说明。如图5所示，本实施例的方法可以包括：

步骤501、第一节点生成第一投票信息，并接收每一其他邻居节点发送的第二投票信息，第一投票信息包括第一节点选举的节点对应的节点标识；第二投票信息包括发送第二投票信息的邻居节点选举的节点对应的节点标识。

在本实施例中，当第二节点的邻居节点确定出第二节点发生故障之后，所有的邻居节点均需要重新计算各自的邻居节点。为便于说明，可以将第二节点的任意一个邻居节点作为第一节点，第一节点需要生成第一投票信息，该第一投票信息中包含第一节点选举的节点对应的节点标识以及投票依据。另外，第一节点还要接收每一其他邻居节点发送的第二投票信息，第二投票信息中包括发送第二投票信息的邻居节点选举的节点对应的节点标识以及投票依据。在实际应用中，投票依据与多种因素有关，例如：负载情况、节点编号的大小、节点缓存新旧程度以及节点网络带宽等，如：第一节点可以通过判断哪一个节点所承担的负载最小，并将负载最小的该节点对应的节点标识携带在第一投票信息中发送给其他邻居节点。同样的，其他邻居节点也可以用类似的方式，将第二投票信息发送给第一节点。

步骤502、第一节点根据第一投票信息中的节点标识和每一其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中的每一节点获得的投票数量，并将投票数量最多的节点作为第三节点；第三节点为替代第二节点、且并行地向第三节点的所有邻居节点发送心跳报文的节点；第三节点的所有邻居节点包括第三节点自身的邻居节点和第二节点的邻居节点。

在本实施例中，第一节点在接收到每一其他邻居节点发送的第二投票信息后，根据自身生成的第一投票信息中的节点标识和接收到的第二投票信息中的节点标识，可以确定出第三节点。在具体的实现过程中，可以根据第一投票信息和第二投票信息中携带的节点标识，通过投票选举的方式，统计被选举的所有节点中每一节点获得的投票数量，并将获得投票数量最多的节点作为第三节点。第三节点用于接管发生故障的第二节点的邻居节点，也即接管第二节点与其他节点之间的关联关系，因此，第三节点将替代第二节点、且并行地向第三节点的所有邻居节点发送心跳报文的节点，其中，第三节点的所有邻居节点除了包括第三节点自身的邻居节点之外，还包括第二节点的邻居节点。

步骤503、第一节点根据第三节点的邻居节点和其他邻居节点中除第三节点之外的节点，重新确定第一节点的邻居节点。

在本实施例中，第二节点的所有邻居节点通过投票选举的方式确定出第三节点之后，若第一节点为第三节点，则第一节点将接管第二节点的相邻关系，其他邻居节点可以根据第一节点接管第二节点的邻居节点后的相邻关系，重新通过计算确定各自的邻居节点；若第一节点不是第三节点，则第一节点将待第三节点重新确定出相邻关系之后，根据第三节点的邻居节点和其他邻居节点中除第三节点之外的节点，重新确定自身的邻居节点。

举例来说，图6A为集群系统中检测到节点故障之前节点之间相邻关系的示意图，图6B为集群系统中检测到节点故障之后重新确定节点之间相邻关系的示意图。如图6A所示，假设节点E为第二节点，节点A为第一节点，当第一节点A确定第二节点E发生故障之后，第一节点A将生成第一投票信息，并分别接收节点X、D、C和G发送的第二投票信息，第一节点A根据第一投票信息中的节点标识和第二投票信息中的节点标识确定出第三节点，以使第三节点替代第二节点、且并行地向第三节点的所有邻居节点发送心跳报文。如图6B所示，若通过投票选举，确定出第一节点A为第三节点，则由第一节点A来替代第二节点、且并行地向第一节点A的所有邻居节点发送心跳报文，此时，第一节点A需要通过其他邻居节点X、D、C和G重新确定自己的邻居节点，而节点X、D、C和G在等第一节点A确定好自己的邻居节点之后，根据第一节点A确定出的邻居节点重新确定各自的邻居节点。

本发明实施例提供的集群系统中节点的故障检测方法，第一节点判断在预设时间内是否接收到第二节点发送的第一心跳报文，其中，第一节点为第二节点的邻居节点，第一心跳报文为第二节点并行地向第二节点的每一邻居节点发送的一个心跳报文，第二节点的所有邻居节点的数目为两个以上；该预设时间大于或等于一个心跳周期，且小于两个心跳周期；第一节点在自身未接收到第一心跳报文的情况下，询问该第二节点的其他邻居节点是否接收到第一心跳报文，并在确定该第二节点的其他邻居节点也均未接收到该第一心跳报文的情况下，确定第二节点发生了故障。由于预设时间大于或等于一个心跳周期，且小于两个心跳周期，所以采用本发明提供的技术方案进行故障检测时，避免了现有技术中需要通过多个心跳周期才能检测出节点是否发生故障的现象，缩短了故障检测的周期，从而提高了节点故障检测的效率。另外，通过在确定第一节点发生故障之后，重新确定各自的邻居节点，进而继续进行故障检测，提高了故障检测的准确性。

可选地，在第一节点根据接收到的每一其他邻居节点发送的响应消息中携带的接收状态，确定出至少一个其他邻居节点接收到第一心跳报文的情况下，第一节点确定所述未接收到第一心跳报文的节点与第二节点之间的链路发生故障。

具体地，第一节点在未接收到第二节点发送的第一心跳报文，并向每一其他节点发送请求消息，以询问每一其他邻居节点是否接收到第一心跳报文之后，若根据每一其他节点发送的响应消息确定出至少有一个其他邻居节点接收到了第一心跳报文，则第一节点可以确定出第二节点是正常的，而可能是第二节点和第一节点、以及未接收到第一心跳报文的节点与第一节点之间的链路发生了故障，其中，未接收到第一心跳报文的节点包括第一节点和其他邻居节点中未接收到第一心跳报文的邻居节点。

本发明实施例提供的集群系统中节点的故障检测方法，由于第一节点在确定出至少一个其他邻居节点接收到第一心跳报文的情况下，第一节点确定未接收到第一心跳报文的节点与第二节点之间的链路发生故障，使得故障检测更加全面。

图7为本发明提供的集群系统中节点的故障检测方法实施例三的流程示意图。本发明实施例涉及的方法适用于分布式集群系统。本实施例中仍然以计算机作为执行主体为例进行介绍。如图7所示，本实施例的方法可以包括：

步骤701、第二节点并行地向第一节点和其他邻居节点发送第一心跳报文，第一节点为第二节点的邻居节点；其他邻居节点为第二节点的所有邻居节点中除第一节点之外的节点，其他邻居节点的数目为一个以上。

在本实施例中，第二节点可以根据集群系统中所包含的节点的信息，根据集群系统中预设的规则确定出自身所有的邻居节点，其中，第一节点为第二节点的任意一个邻居节点，第二节点的邻居节点为与该第二节点有关联关系的节点。第二节点在确定出所有的邻居节点之后，会并行地向第一节点和其他邻居节点发送第一心跳报文。

步骤702、第一节点判断在预设时间内是否接收到第一心跳报文；预设时间大于或等于一个心跳周期，且小于两个心跳周期。

在本实施例中，第二节点可以根据心跳周期并行地向它的所有邻居节点发送第一心跳报文，因此，第一节点可以判断在大于或等于一个心跳周期，且小于两个心跳周期的时间内是否接收到该第二节点发送的第一心跳报文。例如：假设心跳周期为5s，即第二节点每隔5s，将并行地向它的邻居节点发送一次心跳报文，对于第二节点在第5s发送的第一心跳报文，第一节点将判断在大于等于5s，且在小于10s的时间内是否接收到第二节点发送的第一心跳报文。其中，心跳周期可以根据经验或者实际情况进行设置，对于心跳周期的具体取值，本实施例在此不作限制。

步骤703、在第一节点未接收到第一心跳报文的情况下，第一节点向每一其他邻居节点分别发送请求消息，请求消息用于询问每一其他邻居节点是否接收到所述第一心跳报文。

在本实施例中，若第一节点并未在预设时间内接收到第二节点发送的第一心跳报文，即可初步确定第二节点有可能发生了故障。由于第二节点是并行地向它的所有邻居节点发送的第一心跳报文，因此，第一节点将向第二节点的邻居节点中，除自身以外的其他邻居节点发送请求消息，以询问其他邻居节点是否接收到第二节点发送的第一心跳报文。

步骤704、第一节点接收每一其他邻居节点发送的携带有接收状态的响应消息，接收状态用于表示是否接收到第一心跳报文。

在本实施例中，每一其他邻居节点接收到第一节点发送的请求消息后，将自身是否接收到第一心跳报文的接收状态携带在响应消息中发送给第一节点。

步骤705、在第一节点根据接收到的响应消息中携带的接收状态，确定出其他邻居节点均未接收到第一心跳报文的情况下，第一节点确定第二节点发生故障。

在本实施例中，每一个其他邻居节点在接收到第一节点发送的请求消息之后，都会向第一节点返回携带有接收状态的响应消息，第一节点根据接收到的每一其他邻居节点发送的携带有接收状态的响应消息，判断其他邻居节点是否接收到第一心跳报文，在判断出其他邻居节点均没有接收到第二节点发送的第一心跳报文时，即可确定出第二节点发生了故障。

本发明实施例提供的集群系统中节点的故障检测方法中，第二节点通过并行地向第一节点和其他邻居节点发送第一心跳报文，第一节点判断在预设时间内是否接收到第二节点发送的第一心跳报文，其中，第一节点为第二节点的邻居节点，第一心跳报文为第二节点并行地向第二节点的每一邻居节点发送的一个心跳报文，第二节点的所有邻居节点的数目为两个以上；该预设时间大于或等于一个心跳周期，且小于两个心跳周期；第一节点在自身未接收到第一心跳报文的情况下，询问该第二节点的其他邻居节点是否接收到第一心跳报文，并在确定该第二节点的其他邻居节点也均未接收到该第一心跳报文的情况下，确定第二节点发生了故障。由于预设时间大于或等于一个心跳周期，且小于两个心跳周期，所以采用本发明提供的技术方案进行故障检测时，避免了现有技术中需要通过多个心跳周期才能检测出节点是否发生故障的现象，缩短了故障检测的周期，从而提高了节点故障检测的效率。

图8为本发明提供的集群系统中节点的故障检测方法实施例四的流程示意图。在图7所示实施例的基础上，对第一节点确定第二节点发生故障之后，各节点重新确定邻居节点的实施例，作详细说明。如图8所示，本实施例的方法可以包括：

步骤801、第一节点生成第一投票信息，并接收每一其他邻居节点发送的第二投票信息，第一投票信息包括第一节点选举的节点对应的节点标识；第二投票信息包括发送第二投票信息的邻居节点选举的节点对应的节点标识。

在本实施例中，当第二节点的邻居节点确定出第二节点发生故障之后，所有的邻居节点均需要重新计算各自的邻居节点。为便于说明，可以将第二节点的任意一个邻居节点作为第一节点，第一节点需要生成第一投票信息，该第一投票信息中包含第一节点选举的节点对应的节点标识以及投票依据。另外，第一节点还要接收每一其他邻居节点发送的第二投票信息，该第二投票信息中包括发送第二投票信息的邻居节点选举的节点对应的节点标识以及投票依据。在实际应用中，投票依据与多种因素有关，例如：负载情况、节点编号的大小、节点缓存新旧程度以及节点网络带宽等，如：第一节点可以通过判断哪一个节点所承担的负载最小，并将负载最小的该节点对应的节点标识携带在第一投票信息中发送给其他邻居节点。同样的，其他邻居节点也可以用类似的方式，将第二投票信息发送给第一节点。

步骤802、第一节点根据第一投票信息中的节点标识和每一其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点；第三节点为替代第二节点、且并行地向第三节点的所有邻居节点发送心跳报文的节点；第三节点的所有邻居节点包括第三节点自身的邻居节点和第二节点的邻居节点。

在本实施例中，第一节点在接收到每个其他邻居节点发送的第二投票信息后，根据自身生成的第一投票信息中的节点标识和接收到的第二投票信息中的节点标识，可以确定出第三节点。在具体的实现过程中，可以根据第一投票信息和第二投票信息中携带的节点标识，通过投票选举的方式，统计被选举的所有节点中每一节点获得的投票数量，并将获得投票数量最多的节点作为第三节点。第三节点用于接管发生故障的第二节点的邻居节点，也即接管第二节点与其他节点之间的关联关系，因此，第三节点将替代第二节点、且并行地向第三节点的所有邻居节点发送心跳报文，其中，第三节点的所有邻居节点除了包括第三节点自身的邻居节点之外，还包括第二节点的邻居节点。

步骤803、第一节点根据第三节点的邻居节点和其他邻居节点中除第三节点之外的节点，重新确定第一节点的邻居节点。

本发明实施例提供的集群系统中节点的故障检测方法，第二节点通过并行地向第一节点和其他邻居节点发送第一心跳报文，第一节点判断在预设时间内是否接收到第二节点发送的第一心跳报文，其中，第一节点为第二节点的邻居节点，第一心跳报文为第二节点并行地向第二节点的每一邻居节点发送的一个心跳报文，第二节点的所有邻居节点的数目为两个以上；该预设时间大于或等于一个心跳周期，且小于两个心跳周期；第一节点在自身未接收到第一心跳报文的情况下，询问该第二节点的其他邻居节点是否接收到第一心跳报文，并在确定该第二节点的其他邻居节点也均未接收到该第一心跳报文的情况下，确定第二节点发生了故障。由于预设时间大于或等于一个心跳周期，且小于两个心跳周期，所以采用本发明提供的技术方案进行故障检测时，避免了现有技术中需要通过多个心跳周期才能检测出节点是否发生故障的现象，缩短了故障检测的周期，从而提高了节点故障检测的效率。另外，通过在确定第一节点发生故障之后，重新确定各自的邻居节点，进而继续进行故障检测，提高了故障检测的准确性。

具体地，第一节点在未接收到第二节点发送的第一心跳报文，并向每一其他节点发送请求消息，以询问每一其他邻居节点是否接收到第一心跳报文之后，若根据每一其他邻居节点发送的响应消息确定出至少有一个其他邻居节点接收到了第一心跳报文，则第一节点可以确定出第二节点是正常的，而可能是第二节点和第一节点、以及未接收到第一心跳报文的节点与第一节点之间的链路发生了故障，其中，未接收到第一心跳报文的节点包括第一节点和其他邻居节点中未接收到第一心跳报文的邻居节点。

可选地，所述第一节点根据所述第三节点的邻居节点和所述其他邻居节点中除所述第三节点之外的节点，重新确定所述第一节点的邻居节点。

图9为本发明集群系统中节点的故障检测装置实施例一的结构示意图，如图9所示，本发明实施例提供的集群系统中节点的故障检测装置10包括判断模块11、发送模块12、接收模块13、确定模块14和生成模块15。

其中，判断模块11用于判断在预设时间内接收模块13是否接收到第二节点发送的第一心跳报文；所述第一节点为所述第二节点的邻居节点，所述第一心跳报文为所述第二节点并行地向所述第二节点的每一邻居节点发送的一个心跳报文，所述第二节点的所有邻居节点的数目为两个以上；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；在所述判断模块11判断出所述接收模块13未接收到所述第二节点发送的第一心跳报文的情况下，发送模块12用于向所述第二节点的所有邻居节点中除所述第一节点之外的其他邻居节点发送请求消息；所述请求消息用于询问所述其他邻居节点是否接收到所述第一心跳报文；所述接收模块13还用于接收所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；确定模块14用于根据所述接收模块13接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定是否所述其他邻居节点均未接收到所述第一心跳报文；在所述确定模块14确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述确定模块14还用于确定所述第二节点发生故障。在所述第一节点根据接收到的所述响应消息中携带的接收状态，确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，确定模块14用于确定所述第二节点发生故障。

本发明实施例提供的集群系统中节点的故障检测装置，判断模块判断在预设时间内接收模块是否接收到第二节点发送的第一心跳报文，第一心跳报文为第二节点并行地向第二节点的每一邻居节点发送的一个心跳报文，第二节点的所有邻居节点的数目为两个以上；该预设时间大于或等于一个心跳周期，且小于两个心跳周期；接收模块在未接收到第一心跳报文的情况下，发送模块向该第二节点的其他邻居节点发送请求消息，以询问其他邻居节点是否接收到第一心跳报文，并在确定模块确定出该第二节点的其他邻居节点也均未接收到该第一心跳报文的情况下，确定第二节点发生了故障。由于预设时间大于或等于一个心跳周期，且小于两个心跳周期，所以采用本发明提供的技术方案进行故障检测时，避免了现有技术中需要通过多个心跳周期才能检测出节点是否发生故障的现象，缩短了故障检测的周期，从而提高了节点故障检测的效率。

可选地，生成模块15还用于生成第一投票信息，所述第一投票信息包括所述第一节点选举的节点对应的节点标识；

所述接收模块13还用于接收每一所述其他邻居节点发送的第二投票信息，所述第二投票信息包括发送所述第二投票信息的邻居节点选举的节点对应的节点标识；

所述确定模块14还用于根据所述第一投票信息中的节点标识和每一所述其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点；所述第三节点为替代所述第二节点、且并行地向所述第三节点的所有邻居节点发送心跳报文的节点；所述第三节点的所有邻居节点包括所述第三节点自身的邻居节点和所述第二节点的邻居节点。

可选地，在所述确定模块14根据所述接收模块13接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，

所述确定模块14还用于确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到所述第一心跳报文的节点。

可选地，所述确定模块14还用于根据所述第三节点的邻居节点和所述其他邻居节点中除所述第三节点之外的节点，重新确定所述第一节点的邻居节点。

本实施例的集群系统中节点的故障检测装置，可以用于执行本发明任意实施例所提供的集群系统中节点的故障检测方法的技术方案，其实现原理和技术效果类似，此处不再赘述。

图10为本发明集群系统中节点的故障检测系统实施例一的结构示意图，如图10所示，本发明实施例提供的集群系统中节点的故障检测系统20包括第一节点21、第二节点22和其他邻居节点23，所述第一节点21为所述第二节点22的邻居节点，所述其他邻居节点23为所述第二节点22的所有邻居节点中除所述第一节点21之外的节点，所述其他邻居节点23的数目为一个以上。

其中，所述第二节点22用于并行地向所述第一节点和所述其他邻居节点发送第一心跳报文；所述第一节点21用于判断在预设时间内是否接收到所述第一心跳报文；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；在所述第一节点未接收到所述第一心跳报文的情况下，所述第一节点21还用于向每一所述其他邻居节点分别发送请求消息，所述请求消息用于询问每一所述其他邻居节点是否接收到所述第一心跳报文；所述第一节点21还用于接收每一所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述第一节点21还用于确定所述第二节点发生故障。

本发明实施例提供的集群系统中节点的故障检测系统中，判断模块判断在预设时间内接收模块是否接收到第二节点发送的第一心跳报文，第一心跳报文为第二节点并行地向第二节点的每一邻居节点发送的一个心跳报文，第二节点的所有邻居节点的数目为两个以上；该预设时间大于或等于一个心跳周期，且小于两个心跳周期；接收模块在未接收到第一心跳报文的情况下，发送模块向该第二节点的其他邻居节点发送请求消息，以询问其他邻居节点是否接收到第一心跳报文，并在确定模块确定出该第二节点的其他邻居节点也均未接收到该第一心跳报文的情况下，确定第二节点发生了故障。由于预设时间大于或等于一个心跳周期，且小于两个心跳周期，所以采用本发明提供的技术方案进行故障检测时，避免了现有技术中需要通过多个心跳周期才能检测出节点是否发生故障的现象，缩短了故障检测的周期，从而提高了节点故障检测的效率。

在上述实施例中，所述第一节点21确定所述第二节点发生故障之后，还包括：所述第一节点21还用于：

以及，根据所述第一投票信息中的节点标识和每一所述其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点，所述第三节点为替代所述第二节点、且并行地向所述第三节点的所有邻居节点发送心跳报文的节点；所述第三节点的所有邻居节点包括所述第三节点自身的邻居节点和所述第二节点的邻居节点。

在上述实施例中，在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，

所述第一节点21还用于确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到所述第一心跳报文的节点。

在上述实施例中，所述第一节点21还用于根据所述第三节点的邻居节点和所述其他邻居节点中除所述第三节点之外的节点，重新确定所述第一节点的邻居节点。

上述系统实施例对应地可用于执行方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图11为本发明节点实施例一的结构示意图，如图11所示，本实施例的节点600包括处理器601、用户接口603、网络接口604和存储器605、发送器606和接收器607，存储器605可以包括操作系统6051、应用程序6052等。处理器601可以是中央处理器(Central Processing Unit，CPU)。存储器605用于存储可执行指令。处理器601可以执行存储器605中存储的可执行指令。其中，接收器607用于接收第二节点发送的第一心跳报文；所述处理器601用于判断在预设时间内所述接收器607是否接收到第二节点发送的第一心跳报文；所述第一心跳报文为所述第二节点并行地向所述第二节点的每一邻居节点发送的一个心跳报文，所述第二节点的所有邻居节点的数目为两个以上；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；在所述处理器601判断出所述接收器607未接收到所述第二节点发送的第一心跳报文的情况下，发送器606用于向所述第二节点的所有邻居节点中除所述第一节点之外的其他邻居节点发送请求消息，所述请求消息用于询问所述其他邻居节点是否接收到所述第一心跳报文，所述第一节点为所述第二节点的邻居节点；所述接收器607还用于接收所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；所述处理器601用于根据所述接收器607接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定是否所述其他邻居节点均未接收到所述第一心跳报文；在所述处理器601确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述处理器601还用于确定所述第二节点发生故障。

本实施例提供的节点，可以用于执行本发明任意实施例所提供的集群系统中节点的故障检测方法的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选地，所述处理器601还用于生成第一投票信息，所述第一投票信息包括所述第一节点选举的节点对应的节点标识；

所述接收器607还用于接收每一所述其他邻居节点发送的第二投票信息，所述第二投票信息包括发送所述第二投票信息的邻居节点选举的节点对应的节点标识；

所述处理器601还用于根据所述第一投票信息中的节点标识和每一所述其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点；所述第三节点为替代所述第二节点、且并行地向所述第三节点的所有邻居节点发送心跳报文的节点；所述第三节点的所有邻居节点包括所述第三节点自身的邻居节点和所述第二节点的邻居节点。

可选地，在所述处理器601根据所述接收器607接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，所述处理器601还用于确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到所述第一心跳报文的节点。

可选地，所述处理器601还用于根据所述第三节点的邻居节点和所述其他邻居节点中除所述第三节点之外的节点，重新确定所述第一节点的邻居节点。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种集群系统中节点的故障检测方法，其特征在于，包括：

第一节点判断在预设时间内是否接收到第二节点发送的第一心跳报文；所述第一节点为所述第二节点的邻居节点，所述第一心跳报文为所述第二节点并行地向所述第二节点的每一邻居节点发送的一个心跳报文，所述第二节点的所有邻居节点的数目为两个以上；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；

在所述第一节点未接收到所述第二节点发送的第一心跳报文的情况下，所述第一节点向所述第二节点的所有邻居节点中除所述第一节点之外的其他邻居节点发送请求消息，所述请求消息用于询问所述其他邻居节点是否接收到所述第一心跳报文；

所述第一节点接收所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；

在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述第一节点确定所述第二节点发生故障。
根据权利要求1所述的方法，其特征在于，所述第一节点确定所述第二节点发生故障之后，还包括：

所述第一节点生成第一投票信息，并接收每一所述其他邻居节点发送的第二投票信息，所述第一投票信息包括所述第一节点选举的节点对应的节点标识；所述第二投票信息包括发送所述第二投票信息的邻居节点选举的节点对应的节点标识；

所述第一节点根据所述第一投票信息中的节点标识和每一所述其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点；所述第三节点为替代所述第二节点、且并行地向所述第三节点的所有邻居节点发送心跳报文的节点；所述第三节点的所有邻居节点包括所述第三节点自身的邻居节点和所述第二节点的邻居节点。
根据权利要求1或2所述的方法，其特征在于，还包括：

在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，所述第一节点确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到所述第一心跳报文的节点。
一种集群系统中节点的故障检测方法，其特征在于，所述方法包括：

第二节点并行地向第一节点和其他邻居节点发送第一心跳报文；所述第一节点为所述第二节点的邻居节点，所述其他邻居节点为所述第二节点的所有邻居节点中除所述第一节点之外的节点，所述其他邻居节点的数目为一个以上；

所述第一节点判断在预设时间内是否接收到所述第一心跳报文；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；

在所述第一节点未接收到所述第一心跳报文的情况下，所述第一节点向每一所述其他邻居节点分别发送请求消息，所述请求消息用于询问每一所述其他邻居节点是否接收到所述第一心跳报文；

所述第一节点接收每一所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；

在所述第一节点根据接收到的所述响应消息中携带的接收状态，确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述第一节点确定所述第二节点发生故障。
根据权利要求4所述的方法，其特征在于，所述第一节点确定所述第二节点发生故障之后，还包括：

所述第一节点生成第一投票信息，并接收每一所述其他邻居节点发送的第二投票信息，所述第一投票信息包括所述第一节点选举的节点对应的节点标识；所述第二投票信息包括发送所述第二投票信息的邻居节点选举的节点对应的节点标识；

所述第一节点根据所述第一投票信息中的节点标识和每一所述其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点；所述第三节点为替代所述第二节点、且并行地向所述第三节点的所有邻居节点发送心跳报文的节点；所述第三节点的所有邻居节点包括所述第三节点自身的邻居节点和所述第二节点的邻居节点。
根据权利要求4或5所述的方法，其特征在于，还包括：

在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，则所述第一节点确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到第一心跳报文的节点。
一种集群系统中节点的故障检测装置，其特征在于，包括：

判断模块，用于判断在预设时间内接收模块是否接收到第二节点发送的第一心跳报文；所述第一节点为所述第二节点的邻居节点，所述第一心跳报文为所述第二节点并行地向所述第二节点的每一邻居节点发送的一个心跳报文，所述第二节点的所有邻居节点的数目为两个以上；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；

在所述判断模块判断出所述接收模块未接收到所述第二节点发送的第一心跳报文的情况下，

发送模块，用于向所述第二节点的所有邻居节点中除所述第一节点之外的其他邻居节点发送请求消息，所述请求消息用于询问所述其他邻居节点是否接收到所述第一心跳报文；

所述接收模块，还用于接收所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；

确定模块，用于根据所述接收模块接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定是否所述其他邻居节点均未接收到所述第一心跳报文；

在所述确定模块确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述确定模块，还用于确定所述第二节点发生故障。
根据权利要求7所述的装置，其特征在于，在所述确定模块确定所述第二节点发生故障之后，还包括：

生成模块，还用于生成第一投票信息，所述第一投票信息包括所述第一节点选举的节点对应的节点标识；

所述接收模块，还用于接收每一所述其他邻居节点发送的第二投票信息，所述第二投票信息包括发送所述第二投票信息的邻居节点选举的节点对应的节点标识；

所述确定模块，还用于根据所述第一投票信息中的节点标识和每一所述其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点；所述第三节点为替代所述第二节点、且并行地向所述第三节点的所有邻居节点发送心跳报文的节点；所述第三节点的所有邻居节点包括所述第三节点自身的邻居节点和所述第二节点的邻居节点。
根据权利要求7或8所述的装置，其特征在于：

在所述确定模块根据所述接收模块接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，

所述确定模块还用于确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到所述第一心跳报文的节点。
一种集群系统中节点的故障检测系统，其特征在于，包括第一节点、第二节点和其他邻居节点，所述第一节点为所述第二节点的邻居节点，所述其他邻居节点为所述第二节点的所有邻居节点中除所述第一节点之外的节点，所述其他邻居节点的数目为一个以上，包括：

所述第二节点，用于并行地向所述第一节点和所述其他邻居节点发送第一心跳报文；

所述第一节点，用于判断在预设时间内是否接收到所述第一心跳报文；所述预设时间大于或等于一个心跳周期，且小于两个心跳周期；

在所述第一节点未接收到所述第一心跳报文的情况下，所述第一节点还用于向每一所述其他邻居节点分别发送请求消息，所述请求消息用于询问每一所述其他邻居节点是否接收到所述第一心跳报文；以及，所述第一节点还用于接收每一所述其他邻居节点发送的携带有接收状态的响应消息，所述接收状态用于表示是否接收到所述第一心跳报文；

在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出所述其他邻居节点均未接收到所述第一心跳报文的情况下，所述第一节点还用于确定所述第二节点发生故障。
根据权利要求10所述的系统，其特征在于，所述第一节点确定所述第二节点发生故障之后，还包括：

所述第一节点还用于：

生成第一投票信息，并接收每一所述其他邻居节点发送的第二投票信息，所述第一投票信息包括所述第一节点选举的节点对应的节点标识，所述第二投票信息包括发送所述第二投票信息的邻居节点选举的节点对应的节点标识；

以及，根据所述第一投票信息中的节点标识和每一所述其他邻居节点发送的第二投票信息中的节点标识，统计被选举的所有节点中每一节点获得的投票数量，并将投票数量最多的节点作为第三节点，所述第三节点为替代所述第二节点、且并行地向所述第三节点的所有邻居节点发送心跳报文的节点；所述第三节点的所有邻居节点包括所述第三节点自身的邻居节点和所述第二节点的邻居节点。
根据权利要求10或11所述的系统，其特征在于：

在所述第一节点根据接收到的每一所述其他邻居节点发送的所述响应消息中携带的接收状态，确定出至少一个所述其他邻居节点接收到所述第一心跳报文的情况下，

所述第一节点还用于确定未接收到所述第一心跳报文的节点与所述第二节点之间的链路发生故障；所述未接收到所述第一心跳报文的节点包括所述第一节点和所述其他邻居节点中未接收到所述第一心跳报文的节点。