WO2012119388A1

WO2012119388A1 - 通信系统中节点设备上配置的服务故障的处理方法及装置

Info

Publication number: WO2012119388A1
Application number: PCT/CN2011/078372
Authority: WO
Inventors: 陆学锋; 张烽
Original assignee: 华为技术有限公司
Priority date: 2011-08-12
Filing date: 2011-08-12
Publication date: 2012-09-13
Also published as: CN102349266A; CN102349266B

Description

通信系统中节点设备上配置的服务故障的处理方法及装置技术领域

本发明实施例涉及信息处理技术，尤其涉及一种通信系统中节点设备上配置的服务故障的处理方法及装置。背景技术

在通信系统中，许多节点设备上配置的服务，例如：线程、进程、进程组或虚拟机等，都采用 1 +1主备备份方式，将一个服务的主用服务和备用服务分别配置在两个节点设备上，正常情况下，主用服务运行以进行该服务业务处理，并将该主用服务的业务数据备份到备用服务器上。例如：节点设备

A上配置的主用服务运行以进行业务处理时，将该主用服务的业务数据备份到节点设备 B上配置的备用服务上。当节点设备 A上配置的主用服务故障（例如：主用服务自身故障或者由于节点故障而导致的主用服务故障）时，备用服务升级作为主用服务，由于升级作为主用服务的原备用服务上备份有业务数据，因此该升级的主用服务能够继续进行业务处理。

然而，由于节点设备 A上配置的主用服务正常时，节点设备 B的 CPU 一直处于空闲状态，使得节点设备 B上的 CPU没有被充分利用，从而导致了节点设备的 CPU利用率的降低。发明内容

本发明实施例提供一种通信系统中节点设备上配置的服务故障的处理方法及装置，用以提高节点设备的 CPU利用率。

本发明一方面提供了一种通信系统中节点设备上配置的服务故障的处理方法，所述通信系统包括第一节点设备、第二节点设备和第三节点设备；所述第一节点设备上配置第一服务的主用服务和第二服务的第一备用服务，所述第二节点设备上配置第二服务的主用服务和第一服务的第一备用服务，所述第三节点设备上配置第一服务的第二备用服务和第二服务的第二备用服务；其中，所述第一服务的主用服务将该第一服务的业务数据备份到所述第一服务的第一备用服务，所述第二服务的主用服务将该第二服务的业务数据备份到所述第二服务的第一备用服务；所述方法包括：

检测所述第一服务的主用服务和所述第二服务的主用服务的工作状态，所述工作状态包括正常和故障；

当检测到所述第一服务的主用服务故障时，

根据所述第二节点设备的剩余 CPU处理能力，将所述第二节点设备上配置的第一服务的第一备用服务配置为主用服务，以使得所述第二节点设备上配置的第一服务的主用服务进行业务处理；或者

根据所述第二节点设备的剩余 CPU 处理能力和所述第三节点设备的剩余 CPU处理能力，将所述第三节点设备上配置的第一服务的第二备用服务配置为主用服务，以使得所述第三节点设备上配置的第一服务的主用服务从所述第二节点设备上配置的第一服务的第一备用服务获得所述备份的第一服务的业务数据，并进行业务处理。

本发明另一方面提供了一种通信系统中节点设备上配置的服务故障的处理装置，所述通信系统包括第一节点设备、第二节点设备和第三节点设备；所述第一节点设备上配置第一服务的主用服务和第二服务的第一备用服务，所述第二节点设备上配置第二服务的主用服务和第一服务的第一备用服务，所述第三节点设备上配置第一服务的第二备用服务和第二服务的第二备用服务；其中，所述第一服务的主用服务将该第一服务的业务数据备份到所述第一服务的第一备用服务，所述第二服务的主用服务将该第二服务的业务数据备份到所述第二服务的第一备用服务；所述装置包括：

监控单元，用于检测所述第一服务的主用服务和所述第二服务的主用服务的工作状态，所述工作状态包括正常和故障；仲裁单元，用于当所述监控单元检测到所述第一服务的主用服务故障时，根据所述第二节点设备的剩余 CPU处理能力，将所述第二节点设备上配置的第一服务的第一备用服务配置为主用服务，以使得所述第二节点设备上配置的第一服务的主用服务进行业务处理；或者

由上述技术方案可知，本发明实施例通过每个服务可以配置一个主用服务和两个备用服务，其中，第一服务的主用服务和第二服务的一个备用服务配置到第一节点设备上，第一服务的一个备用服务和第二服务的主用服务配置到第二节点设备上，第一服务的另一个备用服务和第二服务的另一个备用服务配置到第三节点设备上，并且主用服务在运行的同时将对应的业务数据备份到交叉配置节点设备 (即第一节点设备或第二节点设备）上的备用服务上，使得当第一节点设备上配置的第一服务的主用服务故障时，可以将另两个节点设备（即第二节点设备和第三节点设备）中的一个节点设备上配置的该服务的备用服务配置为主用服务，继续进行业务处理，能够避免现有技术中由于一个节点设备上配置的主用服务正常时，配置对应的备用服务的另一节点设备的 CPU—直处于空闲状态而导致的另一节点设备上的 CPU没有被充分利用的问题，从而提高了节点设备的 CPU利用率。附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1 为本发明一实施例提供的通信系统中节点设备上配置的服务故障的处理方法的流程示意图；

图 2为图 1对应的实施例中节点设备上的进程配置示意图；

图 3为图 2所示的节点设备 1上配置的进程 A的主用进程 Process A( A ) 故障的处理方法的一流程示意图；

图 4为图 2所示的节点设备 1上配置的进程 A的主用进程 Process A( A ) 故障的处理方法的另一流程示意图；

图 5为图 2所示的节点设备 1上配置的进程 A的主用进程 Process A( A ) 故障的处理方法的另一流程示意图；

图 6为本发明另一实施例提供的通信系统中节点设备上配置的服务故障的处理装置的结构示意图。具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的技术方案，可以应用于各种通信系统，例如：全球移动通信系统 ( Global System for Mobile Communications, 简称 GSM )、通用分组无线业务（General Packet Radio Service, 简称 GPRS ) 系统、码分多址 ( Code Division Multiple Access, 简称 CDMA ) 系统、宽带码分多址 ( Wi deband Code Division Multiple Access, 简称 WCDMA ) 系统、时分同步码分多址 ( Time Division-Synchronous Code Division Multiple Access, 简称 TD-SCDMA ) 系统、长期演进（Long Term Evolution, 简称 LTE ) 系统等。

其中的节点设备可以是基站（Base Transceiver Station, 简称 BTS )、基站（NodeB )、演进型基站（ Evolutional Node B, 简称 eNB或 eNodeB )、基站控制器（Base Station Controller, 简称 BSC )、无线网络控制器（ Rad io Network Controller, 简称 RNC )、服务通用分组无线服务（ General Pac ket Radio Service, 简称 GPRS )支持节点设备 ( Serving GPRS Supporti ng Node, 简称 SGSN ) 、移动交换中心（Mobile Switching Center, 简称 MSC ) 、移动性管理实体（Mobility Management Entity, 简称 MME ) 、网关 GPRS支持节点设备（ Gateway GPRS Supporting Node,简称 GGSN )、分组数据网络网关（ Packet Data Network Gateway, 简称 P-GW )等网元。

本发明实施例中所涉及的服务可以运行在节点设备上，可以理解为用于完成指定业务的功能单元。其中，服务可以包括但不限于线程、进程、进程组或虚拟机。例如：运行在 MSC上的话单管理进程，用于对获得的话单数据进行格式转换，形成话单文件，并将该话单文件发送给计费中心。其中，主用服务则表示该服务能够处理业务，备用服务则表示该进程暂时不能处理业务，当主用进程故障时，备用进程才能被配置为主用进程以处理业务。

本发明实施例中所涉及的通信系统可以包括第一节点设备、第二节点设备和第三节点设备。其中，第一节点设备上配置第一服务的主用服务和第二服务的第一备用服务，第二节点设备上配置第二服务的主用服务和第一服务的第一备用服务，第三节点设备上配置第一服务的第二备用服务和第二服务的第二备用服务。具体地，可以通过操作维护系统（ Operations and Maintenance System, 简称 OMS )对上述节点设备进行服务的配置。

其中，在主用服务运行的过程中，第一服务的主用服务将该第一服务的业务数据备份到第一服务的第一备用服务，第二服务的主用服务将该第二服务的业务数据备份到第二服务的第一备用服务。需要说明的是：由于第一服务的主用服务只将该第一服务的业务数据备份到第一服务的第一备用服务，第二服务的主用服务也只将该第二服务的业务数据备份到第二服务的第一备用服务，可以理解的是：本发明实施例中的第一备用服务的状态为备用状态（备份有对应服务的业务数据），第二备用服务的状态为互助状态（没有备份对应服务的业务数据）。

图 1 为本发明一实施例提供的通信系统中节点设备上配置的服务故障的处理方法的流程示意图，如图 1所示，本实施例的通信系统中节点设备上配置的服务故障的处理方法可以包括：

101、检测第一服务的主用服务和第二服务的主用服务的工作状态，上述工作状态包括正常和故障；

本发明实施例中所涉及的主用服务的工作状态为正常，可以理解为主用服务能正常运行，或能正常处理业务；主用服务的工作状态为故障，可以理解为主用服务不能正常运行，或不能正常处理业务。

102、当检测到第一服务的主用服务故障时，

根据第二节点设备的剩余 CPU处理能力，将第二节点设备上配置的第一服务的第一备用服务配置为主用服务，以使得第二节点设备上配置的第一服务的主用服务进行业务处理；或者

根据第二节点设备的剩余 CPU处理能力和第三节点设备的剩余 CPU处理能力，将第三节点设备上配置的第一服务的第二备用服务配置为主用服务，以使得第三节点设备上配置的第一服务的主用服务从第二节点设备上配置的第一服务的第一备用服务获得备份的第一服务的业务数据，并进行业务处理。

101和 102的执行主体可以为一个实体，例如：监控仲裁单元，或者还可以为几个实体，例如：一部分由监控单元完成，另一部分由仲裁单元完成，两者通过交互完成整个处理流程，本发明实施例对此不进行限制。

可选地，可以判断第二节点设备是否有第一服务的主用服务对应的 CPU 处理能力，如果有，则将第二节点设备上配置的第一服务的第一备用服务配置为主用服务；如果没有，则继续判断第三节点设备是否有第一服务的主用服务对应的 CPU处理能力，如果有，则将第三节点设备上配置的第一服务的第二备用服务配置为主用服务，以使得第三节点设备上配置的第一服务的主用服务从第二节点设备上配置的第一服务的第一备用服务获得备份的第一服务的业务数据，并进行业务处理，如果没有，那么则可以不做任何处理，等待故障的第一服务或故障的第一节点设备恢复正常（例如：通过重启）。具体地，可以根据获得的第二节点设备的 CPU占用率，确定第二节点设备的剩余 CPU处理能力，然后再判断该第二节点设备的剩余 CPU处理能力是否大于第一服务的主用服务对应的 CPU处理能力，如果大于，则将第二节点设备上配置的第一服务的第一备用服务配置为主用服务；如果没有，则可以继续根据获得的第三节点设备的 CPU占用率，确定第三节点设备的剩余 CPU处理能力，然后再判断该第三节点设备的剩余 CPU处理能力是否大于第一服务的主用服务对应的 CPU处理能力，如果大于，则将第三节点设备上配置的第一服务的第二备用服务配置为主用服务。

可选地，如果判断第三节点设备有第一服务的主用服务对应的 CPU处理能力，但是该第三节点设备当前已经配置了其他服务的备用服务作为主用服务，那么则可以不做任何处理，等待故障的第一服务或故障的第一节点设备恢复正常（例如：通过重启）；如果判断第三节点设备有第一服务的主用服务对应的 CPU处理能力，而且该第三节点设备当前没有配置其他服务的备用服务作为主用服务，那么则将第三节点设备上配置的第一服务的第二备用服务配置为主用服务，以使得第三节点设备上配置的第一服务的主用服务从第二节点设备上配置的第一服务的第一备用服务获得备份的第一服务的业务数据，并进行业务处理。

可选地，如果第一节点设备上配置第一服务的类型 /个数较多，或者第一服务的启动时间较短，那么，第三节点设备上配置的对应的第二备用服务可以不启动，能够有效节省服务资源，然后在第三节点设备上配置的第一服务的第二备用服务被配置为主用服务时再启动，并从第二节点设备上配置的第一备用服务获得备份的第一服务的业务数据，并进行业务处理。如果第一节点设备上配置第一服务的类型 /个数较少或者第一服务的启动时间较长，那么，第三节点设备上配置的对应的第二备用服务可以先启动，但是不进行任何操作，能够有效提高配置的效率，然后在第三节点设备上配置的第一服务的第二备用服务被配置为主用服务时，再从第二节点设备上配置的第一备用服务获得备份的第一服务的业务数据，并进行业务处理。

可选地，如果第二节点设备上配置第二服务的类型 /个数较多或者第二服务的启动时间较短，那么，第三节点设备上配置的对应的第二备用服务可以不启动，能够有效节省服务资源，然后在第三节点设备上配置的第二服务的第二备用服务被配置为主用服务时再启动，并从第一节点设备上配置的第一备用服务获得备份的第二服务的业务数据，并进行业务处理。如果第二节点设备上配置第二服务的类型 /个数较少或者第二服务的启动时间较长，那么，第三节点设备上配置的对应的第二备用服务可以先启动，但是不进行任何操作，能够有效提高配置的效率，然后在第三节点设备上配置的第二服务的第二备用服务被配置为主用服务时，再从第一节点设备上配置的第一备用服务获得备份的第二服务的业务数据，并进行业务处理。

可选地，本实施例中，第二节点设备上可以不为第一服务的第一备用服务预留对应的 CPU处理能力。如果第二节点设备上配置的第二服务的主用服务满负荷运行，那么，当第一节点设备上配置的第一服务的主用服务故障时，由于此时第二节点设备已经没有第一服务的第一备用服务或第一节点设备对应的 CPU处理能力，此时，第二节点设备上配置的任一第一服务的第一备用服务均不会被配置为主用服务。

可选地，本实施例中，第二节点设备上还可以为至少一个第一服务的第一备用服务预留对应的 CPU处理能力。如果第二节点设备上配置的第二服务的主用服务满负荷运行，那么，当第一节点设备上配置的第一服务的主用服务故障时，由于第一节点设备上此时第二节点设备预留了至少一个第一服务的第一备用服务对应的 CPU处理能力，此时，第二节点设备上配置的至少一个第一服务的备用服务可以被配置为主用服务，能够确保第二节点设备上配置的至少一个第一服务的备用服务被配置为主用服务，而无需判断第二节点设备的剩余 CPU处理能力，无需再去判断第三节点设备的剩余 CPU处理能力，从而提高了配置的效率和可靠性。

进一步地，本实施例中，当检测到第一节点设备上故障的第一服务的主用服务恢复正常时，则可以将恢复正常的第一服务的主用服务配置为第一服务的第一备用服务，并通知给第二节点设备，以使第二节点设备上配置的第一服务的主用服务将该第一服务的业务数据备份到第一节点设备上配置的第一服务的第一备用服务，然后将第一节点设备上配置的第一服务的第一备用服务配置为主用服务，并将第二节点设备上配置的第一服务的主用服务配置为第一备用服务；或者还可以将恢复正常的第一服务的主用服务配置为第一服务的第一备用服务，并通知给第三节点设备，以使第三节点设备上配置的第一服务的主用服务将该第一服务的业务数据备份到第一节点设备上配置的第一服务的第一备用服务，以及将第一节点设备上配置的第一服务的第一备用服务配置为主用服务，并将第三节点设备上配置的第一服务的主用服务配置为第二备用服务，从而实现了故障服务或故障节点设备重启恢复正常之后在节点设备上的正常运行。

可以理解的是：第一节点设备上配置的第一服务可以包括但不限于一个；相应地，第一服务的主用服务故障则可以理解为：其中的一个第一服务的主用服务故障，或者还可以是由于第一节点设备故障而导致的全部第一服务的主用服务故障，本发明实施例对此不进行限定。

本实施例中，通过每个服务可以配置一个主用服务和两个备用服务，其中，第一服务的主用服务和第二服务的一个备用服务配置到第一节点设备上，第一服务的一个备用服务和第二服务的主用服务配置到第二节点设备上，第一服务的另一个备用服务和第二服务的另一个备用服务配置到第三节点设备上，并且主用服务在运行的同时将对应的业务数据备份到交叉配置节点设备 (即第一节点设备或第二节点设备）上的备用服务上，使得当第一节点设备上配置的第一服务的主用服务故障时，可以将另两个节点设备（即第二节点设备和第三节点设备）中的一个节点设备上配置的该服务的备用服务配置为主用服务，继续进行业务处理，能够避免现有技术中由于一个节点设备上配置的主用服务正常时，配置对应的备用服务的另一节点设备的 CPU—直处于空闲状态而导致的另一节点设备上的 CPU没有被充分利用的问题，从而提高了节点设备的 CPU利用率。

可以理解的是：第三节点设备可以不限于一个，还可以为多个；相应地，第二备份服务也可以不限于一个，还可以为多个，本发明实施例对此不进行限定。

为使得本发明实施例提供的方法更加清楚，下面将以一个节点设备上配置的进程的主用进程故障作为举例。如图 2所示，节点设备 1上配置进程 A 的主用进程 Process A ( A )、进程 B的主用进程 Process B ( A )、进程 C的主用进程 Process C ( A )和进程 D的主用进程 Process D ( A ), 以及进程 E 的一备用进程 Process E' ( S1 )、进程 F的一备用进程 Process F' ( S1 )、进程 G的一备用进程 Process G'( S1 )和进程 H的一备用进程 Process H'( S1 ); 节点设备 2上配置进程 A的一备用进程 Process A' ( S1 )、进程 B的一备用进程 Process B' ( S1 )、进程 C的一备用进程 Process C ( S1 )和进程 D的一备用进程 Process D' ( S1 ) , 以及进程 E的主用进程 Process E ( A )、进程 F的主用进程 Process F ( A )、进程 G的主用进程 Process G ( A )和进程 H的主用进程 Process H ( A ); 节点设备 3上配置进程 A的另一备用进程 Process A' ( S2 )、进程 B的另一备用进程 Process B' ( S2 )、进程 C的另一备用进程 Process C ( S2 )和进程 D的另一备用进程 Process D' ( S2 ), 以及进程 E的另一备用进程 Process E'( S2 )、进程 F的另一备用进程 Process F' ( S2 )、进程 G的另一备用进程 Process G' ( S2 )和进程 H的另一备用进程 Process H' ( S2 ); 其中，节点设备 1上配置的进程 A的主用进程 Process A ( A )将该进程 A的业务数据备份到节点设备 2上配置进程 A的备用进程 Process A' ( S1 ); 节点设备 1上配置的进程 B的主用进程 Process B ( A ) 将该进程 B的业务数据备份到节点设备 2上配置进程 B的备用进程 Process B' ( S1 ); 节点设备 1上配置的进程 C的主用进程 Process C ( A )将该进程 C的业务数据备份到节点设备 2上配置进程 C的备用进程 Process C'( S1 ); 节点设备 1上配置的进程 D的主用进程 Process D ( A )将该进程 D的业务数据备份到节点设备 2上配置进程 D的备用进程 Process D' ( S1 ); 节点设备 2上配置的进程 E的主用进程 Process E ( A )将该进程 E的业务数据备份到节点设备 1上配置进程 E的备用进程 Process E' ( S1 ); 节点设备 2上配置的进程 F的主用进程 Process F ( A )将该进程 F的业务数据备份到节点设备 1上配置进程 F的备用进程 Process F' ( S1 ); 节点设备 2上配置的进程 G的主用进程 Process G ( A )将该进程 G的业务数据备份到节点设备 1 上配置进程 G的备用进程 Process G' ( S1 ); 节点设备 2上配置的进程 H的主用进程 Process H ( A )将该进程 H的业务数据备份到节点设备 1上配置进程 H的备用进程 Process H' ( S1 )。

图 3为图 2所示的节点设备 1上配置的进程 A的主用进程 Process A( A ) 故障的处理方法的一流程示意图。本实施例适用的通信系统中还可以进一步包括监控单元和仲裁单元。如图 3所示，本实施例的故障的处理方法可以包括：

301、监控单元检测节点设备上配置的进程的主用进程的工作状态，上述工作状态包括正常和故障；

302、监控单元检测到节点设备 1上配置的进程 A的主用进程 Process A ( A )故障，并通知仲裁单元节点设备 1上配置的进程 A的主用进程 Process

A ( A )故障； 303、仲裁单元判断节点设备 2是否有进程 A的主用进程 Process A ( A ) 对应的 CPU处理能力，如果有，则执行 304; 否则，则执行 305;

304、仲裁单元将节点设备 2上配置的进程 A的备用进程 Process A'( S1 ) 配置为主用进程 Process A ( A );

305、仲裁单元判断节点设备 3是否有进程 A的主用进程 Process A ( A ) 对应的 CPU处理能力，如果有，则执行 306、 307和 308; 否则，结束流程；

306、仲裁单元将节点设备 3上配置的进程 A的备用进程 Process A'( S2 ) 配置为主用进程 Process A ( A );

307、节点设备 3上配置的进程 A的主用进程 Process A ( A )向节点设备 2上配置的进程 A的备用进程 Process A' ( S1 )请求获得进程 A的业务数据；

308、节点设备 2上配置的进程 A的备用进程 Process A' ( S1 )将进程 A的业务数据备份到节点设备 3上配置的进程 A的主用进程 Process A( A )。

本实施例中，每个进程可以配置一个主用进程 Process X ( A )和两个备用进程 Process X' ( S1 )和 Process X' ( S2 ), 每两个进程的主用进程和其中的一个备用进程 Process X' ( S1 ) 交叉配置到两个节点设备上，其中的另一个备用进程 Process X' ( S2 ) 配置在另一个节点设备上，并且主用进程 Process X ( A )在运行的同时将对应的业务数据备份到交叉配置节点设备上的备用进程 Process X' ( S1 )上，使得当一个进程的主用进程 Process X ( A ) 故障时，可以将另两个节点设备中的一个节点设备上配置的该进程的备用进程 Process X' ( S1 )或 Process X' ( S2 )配置为主用进程，继续进行业务处理，能够避免现有技术中由于一个节点设备上配置的主用进程正常时，另一节点设备的 CPU—直处于空闲状态而导致的另一节点设备上的 CPU没有被充分利用的问题，从而提高了节点设备的 CPU利用率。

图 4为图 2所示的节点设备 1上配置的进程 A的主用进程 Process A( A ) 故障的处理方法的另一流程示意图。如图 4所示，在图 3对应的实施例的基础之上，如果仲裁单元执行 304, 本实施例的故障的处理方法还可以进一步包括：

401、节点设备 1上配置的故障的进程 A的主用进程 Process A ( A )重启之后，恢复正常，向仲裁单元请求分配进程状态；

402、仲裁单元将节点设备 1上配置的恢复正常的进程配置为进程 A的备用进程 Process A' ( S1 );

403、仲裁单元通知节点设备 2上配置的进程 A的主用进程 Process A ( A ) 即将配置（恢复）为备用进程 Process A' ( S1 );

404、基于上述通知，节点设备 2上配置的进程 A的主用进程 Process A ( A )将进程 A的业务数据备份到节点设备 1 上配置的进程 A的备用进程

Process A' ( S1 );

405、仲裁单元将节点设备 1 上配置（重启恢复正常之后配置的）的进程 A的备用进程 Process A' ( S1 )配置（恢复）为主用进程 Process A ( A );

406、仲裁单元将节点设备 2上配置的进程 A的主用进程 Process A ( A ) 配置（恢复）为备用进程 Process A' ( S1 )。

本实施例中，节点设备 1上配置的故障的进程 A的主用进程 Process A ( A ) 重启恢复正常之后，仲裁单元可以将节点设备 1 上重启恢复正常之后的进程配置（恢复 ) 为主用进程 Process A ( A ), 节点设备 2上配置的进程 A的主用进程 Process A ( A ) 配置（恢复）为备用进程 Process A' ( S1 ), 能够实现故障进程重启恢复正常之后在节点设备上的正常运行。

图 5为图 2所示的节点设备 1上配置的进程 A的主用进程 Process A( A ) 故障的处理方法的另一流程示意图。如图 5所示，在图 3对应的实施例的基础之上，如果仲裁单元没有执行 304, 而是执行 305、 306、 307和 308, 本实施例的故障的处理方法还可以进一步包括：

501、节点设备 1上配置的故障的进程 A的主用进程 Process A ( A )重启之后，恢复正常，向仲裁单元请求分配进程状态； 502、仲裁单元通知节点设备 2上配置的进程 A的备用进程 Process A' ( S1 )重启；

503、仲裁单元将节点设备 1上配置的恢复正常的进程配置为进程 A的备用进程 Process A' ( S1 );

504、仲裁单元通知节点设备 3上配置的进程 A的主用进程 Process A

( A ) 即将配置（恢复）为备用进程 Process A' ( S1 );

505、基于上述通知，节点设备 3上配置的进程 A的主用进程 Process A ( A )将进程 A的业务数据备份到节点设备 1 上配置的进程 A的备用进程 Process A' ( S1 );

506、仲裁单元将节点设备 1 上配置（恢复正常之后配置的）的进程 A 的备用进程 Process A' ( S1 ) 配置（恢复）为主用进程 Process A ( A );

507、仲裁单元将节点设备 2上重启之后的进程配置（恢复）为进程 A 的备用进程 Process A' ( S1 );

508、仲裁单元将节点设备 3上配置的进程 A的主用进程 Process A ( A ) 配置（恢复）为备用进程 Process A' ( S2 )。

本实施例中，节点设备 1上配置的故障的进程 A的主用进程 Process A ( A ) 重启恢复正常之后，仲裁单元可以将节点设备 1 上重启恢复正常之后的进程配置（恢复）为主用进程 Process A ( A ), 节点设备 3上配置的进程 A的主用进程 Process A ( A ) 配置（恢复）为备用进程 Process A' ( S2 ), 能够实现故障进程重启恢复正常之后在节点设备上的正常运行。

可以理解的是：本发明实施例中涉及的通信系统中的节点设备，需要扩容同等 CPU处理能力的节点设备时，需要成对扩容主用进程和第一备用进程所运行的节点设备；需要扩容更强 CPU处理能力的节点设备时，需要成对扩容主用进程和第一备用进程所运行的节点设备之外，还需要个成对扩容的节点设备增加对应的第二备份进程所在的节点设备。

需要说明的是：对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图 6为本发明另一实施例提供的通信系统中节点设备上配置的服务故障的处理装置的结构示意图，如图 6所示，本实施例的通信系统中节点设备上配置的服务故障的处理装置可以包括监控单元 61和仲裁单元 62。其中，监控单元 61用于检测第一服务的主用服务和第二服务的主用服务的工作状态，上述工作状态包括正常和故障；仲裁单元 62用于当监控单元 61检测到上述第一服务的主用服务故障时，

根据上述第二节点设备的剩余 CPU处理能力，将上述第二节点设备上配置的第一服务的第一备用服务配置为主用服务，以使得上述第二节点设备上配置的第一服务的主用服务进行业务处理；或者

根据上述第二节点设备的剩余 CPU 处理能力和上述第三节点设备的剩余 CPU处理能力，将上述第三节点设备上配置的第一服务的第二备用服务配置为主用服务，以使得上述第三节点设备上配置的第一服务的主用服务从上述第二节点设备上配置的第一服务的第一备用服务获得上述备份的第一服务的业务数据，并进行业务处理。

上述图 1对应的实施例中方法、图 3、 4和 5对应的实施例中的监控单元和仲裁单元的功能均可以由本实施例提供的通信系统中节点设备上配置的服务故障的处理装置中的相关功能单元实现。

可选地，本实施例中的仲裁单元 62具体可以判断上述第二节点设备是否有上述第一服务的主用服务对应的 CPU处理能力，如果有，则将上述第二节点设备上配置的第一服务的第一备用服务配置为主用服务。可选地，本实施例中的仲裁单元 62具体还可以判断上述第二节点设备是否有上述第一服务的主用服务对应的 CPU处理能力，如果没有，则判断上述第三节点设备是否有上述第一服务的主用服务对应的 CPU 处理能力，如果有，则将上述第三节点设备上配置的第一服务的第二备用服务配置为主用服务，以使得上述第三节点设备上配置的第一服务的主用服务从上述第二节点设备上配置的第一服务的第一备用服务获得上述备份的第一服务的业务数据，并进行业务处理。

可选地，如果第一节点设备上配置第一服务的类型 /个数较多或者第一服务的启动时间较短，那么，第三节点设备上配置的对应的第二备用服务可以不启动，然后在第三节点设备上配置的第一服务的第二备用服务被配置为主用服务时再启动，并从第二节点设备上配置的第一备用服务获得备份的第一服务的业务数据，并进行业务处理。如果第一节点设备上配置第一服务的类型 /个数较少或者第一服务的启动时间较长，那么，第三节点设备上配置的对应的第二备用服务可以先启动，但是不进行任何操作，然后在第三节点设备上配置的第一服务的第二备用服务被配置为主用服务时，再从第二节点设备上配置的第一备用服务获得备份的第一服务的业务数据，并进行业务处理。

可选地，如果第二节点设备上配置第二服务的类型 /个数较多或者第二服务的启动时间较短，那么，第三节点设备上配置的对应的第二备用服务可以不启动，并从第一节点设备上配置的第一备用服务获得备份的第二服务的业务数据，并进行业务处理，然后在第三节点设备上配置的第二服务的第二备用服务被配置为主用服务时再启动。如果第二节点设备上配置第二服务的类型 /个数较少或者第二服务的启动时间较长，那么，第三节点设备上配置的对应的第二备用服务可以先启动，但是不进行任何操作，然后在第三节点设备上配置的第二服务的第二备用服务被配置为主用服务时，再从第一节点设备上配置的第一备用服务获得备份的第二服务的业务数据，并进行业务处理。

可选地，本实施例中，第二节点设备上可以不为第一服务的第一备用服务预留对应的 CPU处理能力。如果第二节点设备上配置的第二服务的主用服务满负荷运行，那么，当监控单元 61检测到第一节点设备上配置的第一服务的主用服务故障时，由于第一节点设备上此时第二节点设备已经没有第一服务的第一备用服务或第一节点设备对应的 CPU处理能力，所以，此时，第二节点设备上配置的任一第一服务的第一备用服务均不会被配置为主用服务。

可选地，本实施例中，第二节点设备上还可以为至少一个第一服务的第一备用服务预留对应的 CPU处理能力。如果第二节点设备上配置的第二服务的主用服务满负荷运行，那么，当监控单元 61检测到第一节点设备上配置的第一服务的主用服务故障时，由于第一节点设备上此时第二节点设备预留了至少一个第一服务的第一备用服务对应的 CPU处理能力，所以，此时，第二节点设备上配置的至少一个第一服务的备用服务可以被配置为主用服务。

进一步地，本实施例中，仲裁单元还用于当监控单元 61检测到第一节点设备上故障的第一服务的主用服务恢复正常时，则可以将恢复正常的第一服务的主用服务配置为第一服务的第一备用服务，并通知给第二节点设备，以使第二节点设备上配置的第一服务的主用服务将该第一服务的业务数据备份到第一节点设备上配置的第一服务的第一备用服务，以及将第一节点设备上配置的第一服务的第一备用服务配置为主用服务，并将第二节点设备上配置的第一服务的主用服务配置为第一备用服务；或者还可以将恢复正常的第一服务的主用服务配置为第一服务的第一备用服务，并通知给第三节点设备，以使第三节点设备上配置的第一服务的主用服务将该第一服务的业务数据备份到第一节点设备上配置的第一服务的第一备用服务，以及将第一节点设备上配置的第一服务的第一备用服务配置为主用服务，并将第三节点设备上配置的第一服务的主用服务配置为第二备用服务，从而实现了故障服务或故障节点设备重启恢复正常之后在节点设备上的正常运行。

本实施例中，通过每个服务可以配置一个主用服务和两个备用服务，其中，第一服务的主用服务和第二服务的一个备用服务配置到第一节点设备上，第一服务的一个备用服务和第二服务的主用服务配置到第二节点设备上，第一服务的另一个备用服务和第二服务的另一个备用服务配置到第三节点设备上，并且主用服务在运行的同时将对应的业务数据备份到交叉配置节点设备 (即第一节点设备或第二节点设备）上的备用服务上，使得当监控单元检测到第一节点设备上配置的第一服务的主用服务故障时，仲裁单元则可以将另两个节点设备（即第二节点设备和第三节点设备）中的一个节点设备上配置的该服务的备用服务配置为主用服务，继续进行业务处理，能够避免现有技术中由于一个节点设备上配置的主用服务正常时，配置对应的备用服务的另一节点设备的 CPU—直处于空闲状态而导致的另一节点设备上的 CPU没有被充分利用的问题，从而提高了节点设备的 CPU利用率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器（Read-Only Memory, 简称 ROM )、随机存取存储器（ Random Access Memory, 简称 RAM )、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利要求

1、一种通信系统中节点设备上配置的服务故障的处理方法 ,其特征在于 , 所述通信系统包括第一节点设备、第二节点设备和第三节点设备；所述第一节点设备上配置第一服务的主用服务和第二服务的第一备用服务，所述第二节点设备上配置所述第二服务的主用服务和所述第一服务的第一备用服务，所述第三节点设备上配置所述第一服务的第二备用服务和所述第二服务的第二备用服务；其中，所述第一服务的主用服务将该第一服务的业务数据备份到所述第一服务的第一备用服务，所述第二服务的主用服务将该第二服务的业务数据备份到所述第二服务的第一备用服务；所述方法包括：

当检测到所述第一服务的主用服务故障时，

2、根据权利要求 1所述的方法，其特征在于，所述根据所述第二节点设备的剩余 CPU处理能力，将所述第二节点设备上配置的第一服务的第一备用服务配置为主用服务，包括：

判断所述第二节点设备是否有所述第一服务的主用服务对应的 CPU 处理能力，如果有，则将所述第二节点设备上配置的第一服务的第一备用服务配置为主用服务。

3、根据权利要求 1所述的方法，其特征在于，所述根据所述第二节点设备的剩余 CPU处理能力和所述第三节点设备的剩余 CPU处理能力，将所述第三节点设备上配置的第一服务的第二备用服务配置为主用服务，包括：判断所述第二节点设备是否有所述第一服务的主用服务对应的 CPU 处理能力，如果没有，则判断所述第三节点设备是否有所述第一服务的主用服务对应的 CPU处理能力，如果有，则将所述第三节点设备上配置的第一服务的第二备用服务配置为主用服务，以使得所述第三节点设备上配置的第一服务的主用服务从所述第二节点设备上配置的第一服务的第一备用服务获得所述备份的第一服务的业务数据，并进行业务处理。

4、根据权利要求 1至 3任一权利要求所述的方法，其特征在于，所述第三节点设备上配置的第一服务的第二备用服务和第二服务的第二备用服务启动或者不启动。

5、根据权利要求 1至 4任一权利要求所述的方法，其特征在于，所述第二节点设备上不预留所述第一服务的第一备用服务对应的 CPU 处理能力；或者

所述第二节点设备上预留至少一个第一服务的第一备用服务对应的

CPU处理能力。

6、根据权利要求 1至 5任一权利要求所述的方法，其特征在于，所述方法还包括：

当检测到所述第一节点设备上故障的第一服务的主用服务恢复正常时，将所述恢复正常的第一服务的主用服务配置为所述第一服务的第一备用服务，并通知给所述第二节点设备，以使所述第二节点设备上配置的第一服务的主用服务将该第一服务的业务数据备份到所述第一节点设备上配置的第一服务的第一备用服务，以及将所述第一节点设备上配置的第一服务的第一备用服务配置为主用服务，并将所述第二节点设备上配置的第一服务的主用服务配置为第一备用服务；或者将所述恢复正常的第一服务的主用服务配置为所述第一服务的第一备用服务，并通知给所述第三节点设备，以使所述第三节点设备上配置的第一服务的主用服务将该第一服务的业务数据备份到所述第一节点设备上配置的第一服务的第一备用服务，以及将所述第一节点设备上配置的第一服务的第一备用服务配置为主用服务，并将所述第三节点设备上配置的第一服务的主用服务配置为第二备用服务。

7、一种通信系统中节点设备上配置的服务故障的处理装置，其特征在于，所述通信系统包括第一节点设备、第二节点设备和第三节点设备；所述第一节点设备上配置第一服务的主用服务和第二服务的第一备用服务，所述第二节点设备上配置第二服务的主用服务和第一服务的第一备用服务，所述第三节点设备上配置第一服务的第二备用服务和第二服务的第二备用服务；其中，所述第一服务的主用服务将该第一服务的业务数据备份到所述第一服务的第一备用服务，所述第二服务的主用服务将该第二服务的业务数据备份到所述第二服务的第一备用服务；所述装置包括：

监控单元，用于检测所述第一服务的主用服务和所述第二服务的主用服务的工作状态，所述工作状态包括正常和故障；

仲裁单元，用于当所述监控单元检测到所述第一服务的主用服务故障时，根据所述第二节点设备的剩余 CPU处理能力，将所述第二节点设备上配置的第一服务的第一备用服务配置为主用服务，以使得所述第二节点设备上配置的第一服务的主用服务进行业务处理；或者

8、根据权利要求 7所述的装置，其特征在于，所述仲裁单元具体用于判断所述第二节点设备是否有所述第一服务的主用服务对应的 CPU 处理能力，如果有，则将所述第二节点设备上配置的第一服务的第一备用服务配置为主用服务。

9、根据权利要求 7所述的装置，其特征在于，所述仲裁单元具体用于判断所述第二节点设备是否有所述第一服务的主用服务对应的 CPU 处理能力，如果没有，则判断所述第三节点设备是否有所述第一服务的主用服务对应的 CPU处理能力，如果有，则将所述第三节点设备上配置的第一服务的第二备用服务配置为主用服务，以使得所述第三节点设备上配置的第一服务的主用服务从所述第二节点设备上配置的第一服务的第一备用服务获得所述备份的第一服务的业务数据，并进行业务处理。

10、根据权利要求 7至 9任一权利要求所述的装置，其特征在于，所述第三节点设备上配置的第一服务的第二备用服务和第二服务的第二备用服务启动或者不启动。

11、根据权利要求 7至 10任一权利要求所述的装置，其特征在于，所述第二节点设备上不预留所述第一服务的第一备用服务对应的 CPU 处理能力；或者

CPU处理能力。

12、根据权利要求 7至 11任一权利要求所述的装置，其特征在于，所述仲裁单元还用于

当所述监控单元检测到所述第一节点设备上故障的第一服务的主用服务恢复正常时，

将所述恢复正常的第一服务的主用服务配置为所述第一服务的第一备用服务，并通知给所述第二节点设备，以使所述第二节点设备上配置的第一服务的主用服务将该第一服务的业务数据备份到所述第一节点设备上配置的第一服务的第一备用服务，以及将所述第一节点设备上配置的第一服务的第一备用服务配置为主用服务，并将所述第二节点设备上配置的第一服务的主用服务配置为第一备用服务；或者

将所述恢复正常的第一服务的主用服务配置为所述第一服务的第一备用服务，并通知给所述第三节点设备，以使所述第三节点设备上配置的第一服务的主用服务将该第一服务的业务数据备份到所述第一节点设备上配置的第一服务的第一备用服务，以及将所述第一节点设备上配置的第一服务的第一备用服务配置为主用服务，并将所述第三节点设备上配置的第一服务的主用服务配置为第二备用服务。