WO2008014639A1

WO2008014639A1 - A distributed master and standby managing method and system based on the network element

Info

Publication number: WO2008014639A1
Application number: PCT/CN2006/001882
Authority: WO
Inventors: Xia Jiang
Original assignee: Zte Corporation
Priority date: 2006-07-28
Filing date: 2006-07-28
Publication date: 2008-02-07
Also published as: CN101485139A; EP2053780A1; ES2526809T3; CN101485139B; HK1128564A1; EP2053780B1; BRPI0621898A2; EP2053780A4; PT2053780E

Description

一种基于网元的分布式主备管理的方法及系统技术领域

本发明涉及光通讯领域网管系统中主备管理的方法，尤其涉及一种基于网元的分布式主备管理的方法及系统。

背景技术

目前，在通讯领域的网管管理系统中，集中式网管运行时，如果网管系统异常，将会导致网管不可用，可靠性不高。为了解决这个问题，在通信行业系统中存在主备网管的方案，即两套网管同时工作，一主一备或者一主多备，主网管采集历史数据，对于网元进行管理，这种主备网管方法通常是基于网络系统管理的。

现有的主备网管方法，通常有两种使用方式：

( 1 )一种方式是基于上层数据库镜像，即副网管对于主网管的数据完全镜像，这样保证在主网管运行失效时所有的数据均会保留。参考图 1 , 主服务器作为主网管对网元进行管理，而作为副网管的副服务器对主服务器的数据进行完全镜像，在主服务器出现异常而运行失效时，所有数据均可以从副服务器中恢复。

( 2 ) 另一种方式是热监控方法，由于对网元进行管理时，存在主管理者（Manager ) , 为了增强网络管理的可靠性，需要存在一个或多个副管理者，主、副管理者数据进行同步，在主管理者失效的情况下，可以将副管理者切换为主管理者管理网管系统。参考图 2, 主服务器作为主管理者管理系统网元，而副服务器作为副管理者也能对所述网元也进行监测管理，主、副服务器两者进行数据同步，在主服务器出现故障或异常而运行失效时，直接切换副管理者作为网元的主管理者，对网元进行管理。

但是，如图 1和图 2所示的传统主副网管系统存在如下问题：

( 1 )主网管负荷过大。系统运行时，网管系统的所有网元数据都和主网管进行交互，造成主网管负荷过大，存在安全隐患。 ( 2 )在系统中，由于主副服务器仅采用一个接入网元进行接入，且各网元为单向连通，所以在网元 ECC (嵌入控制通道 Embedded Control Channel ) 中断时，会有部分网元监控失效。例如，在图 1或者图 2中，当网元 11和网元 12之间 ECC断开时，主、副网管都只能管理网元 11 , 对于网元 11后面的网元均不能管理。

为此，需要一种能够解决主网管负荷太大、 ECC 中断时会有部分网元监控失效、系统运行可靠性低等缺点的主备管理方法。发明内容

本发明所要解决的技术问题在于，提供一种基于网元的分布式主备管理的方法及系统，使得主副网管负载分担、提高网管管理的可靠性。

本发明提供一种基于网元的分布式主备管理的方法，包括如下步驟：

( a )连接所有网元并将网元的路由配置为双向互通，并配置好网元中服务器 A和服务器 B的管理权限，其中一部分网元将服务器 A配置为主站，将服务器 B配置为副站，另一部分网元将服务器 B配置为主站，将服务器 A配置为副站；

( b )在两个服务器中配置好主站的返回策略，两个服务器彼此相接，并分别连接到将自己配置为主站的一个接入网元，工作后，两个服务器作为主站管理各自分配的部分网元，作为副站监测另一部分网元；

( c )如有网元与其配置为主站的^^务器的通讯中断，所述网元进行切换，以其配置为副站的另一服务器作为主站对所述网元进行管理；

( d ) 当所述网元与其配置为主站的服务器的通讯恢复后，按照所述返回策略恢复该服务器作为主站对这些网元的管理。进一步地，上方法还可具有以下特点：

所述步骤（a ) 中连接所有网元并将网元的路由配置为双向互通的步驟包括：

串连连接所有网元，使得所述网元嵌入控制通道是互通的；将每一网元的路由配置为双向互通。

所述步骤（a ) 中配置网元中两个服务器的管理权限的步骤为：依据两个服务器负载均衡的原则，将所有网元均衡地分为两个部分；一部分网元将服务器 A配置为主站，将服务器 B配置为副站；另一部分网元服务器 B配置为主站，将服务器 A配置为副站。

所述步骤（b ) 中所述服务器作为主站管理将其配置为主站的网元时，采集网元的历史数据，对于网元进行相应的配置查询；所述服务器作为副站管理将其配置为主站的网元时，查询及监控网元。

所述步骤（b )中配置为主站和副站的服务器之间工作时进行数据同步，通过进行数据库同步来保持主副站之间的数据同步，其中，主副站中的历史数据都是全量的。

所述步驟（ c ) 包括：

当网元检测到与其配置为主站的服务器通讯中断时，所述网元通知其配置为副站的服务器作为主站管理该网元；

或被网元配置为副站的服务器检测到被网元配置为主站的服务器异常时，所述副站月良务器主动向所述网元请求主站权限，所述网元居当前主站服务器的状态决定是否切换副站为主站管理所述网元。

步骤（b ) 中所述返回策略配置为主站返回方式或非返回方式，如果是主站返回方式，则所述步驟（d ) 中当所述网元与其配置为主站的服务器的通讯恢复时，恢复其配置为主站的服务器作为主站来管理所述网元，并切换当前主站为副站，同时恢复后的主站服务器同步中断期间的数据；如果是主站非返回方式，则所述步骤（d ) 中当所述网元与其配置为主站的服务器的通讯恢复时，恢复其配置为主站的服务器作为副站来管理所述网元，并同步中断期间的数据，待当前主站的服务器断开时再以主站形式接入所述网元。

所述步骤（b ) 中，所述两个服务器，即服务器 A和服务器^ 分别接入到串接网元中的首端网元与末端网元。本发明还提供一种基于网元的分布式主备管理系统，包括多个网元和用于对这些网元进行管理的服务器 A和服务器 B, 其特点在于：

所有网元相互连接，其路由配置为双向互通，且在各网元中配置有服务器 A和服务器 B的管理权限，其中一部分网元将服务器 A配置为主站，将服务器 B配置为副站，另一部分网元将服务器 B配置为主站，将服务器 A 配置为副站；

所述网元在与其配置为主站的服务器的通讯中断时进行切换，以其配置为副站的另一服务器作为主站；在与其配置为主站的服务器的通讯恢复后，再按照所述返回策略将其切换回来；

所述两个服务器彼此相接且配置有主站的返回策略，每个服务器分别连接到将自己配置为主站的一个接入网元，工作时作为主站管理各自分配的部分网元，作为副站监测另一部分网元；

所述两个月良务器在发生通讯中断，收到网元切换的通知时，变换自己对于所述网元的主副状态，服务器恢复与将其配置为主站的网元的通讯后，按照所述返回策略恢复对这些网元的管理。进一步地，上述系统还可具有以下特点：

所述服务器，作为主站管理将其配置为主站的网元时，采集网元的历史数据，对于所述网元进行相应的配置查询；作为副站管理将其配置为副站的网元时，查询及监控所述网元。

所述两个月良务器，在配置为网元的主站和副站正常工作时，进行数据同步，通过进行数据库同步来保持主副站之间的数据同步，其中，主副站中的历史数据都是全量的。 '

所述服务器作为主站的返回策略，配置为主站返回方式或非返回方式，如果是主站返回方式，所述网元在与其配置为主站的服务器的通讯恢复时，恢复其配置为主站的服务器作为主站来管理所述网元，并切换当前主站为副站，同时恢复后的主站服务器同步中断期间的数据；

如果是主站非返回方式，则所述网元在与其配置为主站的服务器的通讯恢复时，恢复其配置为主站的服务器作为副站来管理所述网元，并同步中断期间的数据，待当前主站的服务器断开时再以主站形式接入所述网元。

所述网元，在检测到与其配置为主站的服务器通讯中断时，通知其配置为副站的服务器作为主站管理该网元；或在网元配置为副站的服务器检测到网元配置为主站的服务器异常时，所述副站服务器主动向所述网元请求主站权限，所述.网元根据当前主站服务器的状态决定是否切换副站为主站管理所述网元。

所述所有网元，彼此串接相连，兵器通过首端网元与末端网元与所述两个服务器，即即服务器 A和服务器分别相接。

所述两个服务器，在作为主站管理分别管理所述网元时，所管理的将其配置为主站的网元数目均衡，负载均衡的分别管理相应网元。

采用本发明所述的技术方案，与现有技术相比，对于网元需要配置双向路由，两个网管都和网元进行接入；由于采取了基于网元的分布式主备管理技术措施，实现了主副网管负载分担、提高了网管管理的可靠性。进一步地，还可以取得负载均衡，在局部 ECC断开仍然可实现全网管理等效果。附图概述

图 1是一种常用现有的基于上层数据库镜像的主备管理技术原理图；图 2是一种较常用现有的基于热监控的主备管理技术原理图；

图 3 是根据本发明实施例的一种基于网元的分布式主备管理方法的原理图；

图 4是根据本发明技术方案的基于网元分布式主备管理方法中，一个服务器 1中断的实例；

图 5 是根据本发明技术方案的基于网元分布式主备管理方法中，一个网元 ECC中断的实例。本发明的较佳实施方式

下面结合附图及较佳的具体实施方式，对本发明的技术方案的作进一步的详细描述。

本实施例提出了一种基于密集波分复用系统网元的分布式主备管理的方法，但是也用于其它类型的光通讯网络中的网管系统。

该方法是基于网元的分布式主备管理系统，是网管的一种动态保护方式，其中，两个网管服务器之间都是互相平等的，两个网管服务器与不同的网关网元连接，并且针对于每个不同的网元有相应的主副权限。系统中的所有的网元都是 ECC互通的，而且配置了双向路由，每一网元都可以独立配置主备管理者（即主备网管服务器），这些管理者的功能和角色都是平等的，即一个管理者对于一个网元是主站，但对另一个网元就可能是副站。

正常情况下，主备网管服务器都会管理所有网元，合理分配两个网管服务器作为主站管理的网元个数，做到负载均衡；当主网管服务器处于正常工作状态时，网元对应的备网管服务器只处于监视状态不能进行配置。当网络处于异常状态，或主网管服务器异常的情况下，或者网元的 ECC 出现中断时，相应网元的副网管服务器取代该网元的主网管服务器，具有主网管服务器所有的管理功能，以继续管理部分网絡或整个网络。

本实施例所述的一种基于网元的分布式主备管理方法，参照图 3 , 可以包括如下步骤：

第一步：连接所有网元并将网元的路由配置为双向互通，并配置好网元中服务器 A和服务器 B的管理权限，其中一部分网元将服务器 A配置为主站，将服务器 B配置为副站，另一部分网元将服务器 B配置为主站，将服务器 A配置为副站。

首先，所有网元可以串连的方式进行连接，同时，配置好网元的路由，保证网元路由都是双向互通的，当有一个方向不通时，能够切换到另一个方向的路由上。

才艮据实际的系统运行情况，需要规划好两个服务器作为主站管理的网元数目，例如将网元 11-ln规划为以服务器 1为主站，将网元 21-2n规划为以服务器 2为主站。由于对于网元来说只有主网管采集历史数据，而作为波分网管系统中历史数据量是比较大的，所以尽量要做到正常运行时两个网管负载均衡。

然后，才居规划配置好网元中相关管理者的相应权限，配置网元 11-ln 以服务器 1为主站，以服务器 2为副站；配置网元 21-2n以服务器 2为主站，以服务器 1为副站。

第二步：在两个服务器中配置好主站的返回策略，两个服务器彼此相接，并分别连接到将自己配置为主站的一个接入网元，工作后，两个服务器作为主站管理各自分配的部分网元，作为副站监测另一部分网元。

首先，需要在两个服务器上分别配置主站生效时的返回策略，包括：主站返回方式，即主站恢复后立即成为相应的主站；

主站非返回方式，指主站恢复后先成为副站，等到主站申请时才成为主站。

然后，将服务器 1与服务器 2相连接，将服务器 1通过网元 11接入，作为网元 11-ln的主站,将服务器 2通过网元 2n接入,作为网元 21-2n的主站，如图 3所示，当然也可以将两个服务器接入其它将其配置为主站的任一网元。

在图 3所示的网管系统中，正常运行时服务器 1为网元 11...网元 In的主网管，相应的服务器 2为这些网元的副网管；服务器 2.同时为网元 21... 网元 2n的主网管，服务器 1为它们的副网管。这些网元 ECC (嵌入控制通道 Embedded Control Channel )啫 |5是互通的。

正常运行时，主站管理相应的网元，采集网元的历史数据，对于网元能够进行相应的配置查询等操作；而备网管只能查询及监控网元，不能进行配置操作，不采集历史数据；副网管通过和主网管之间进行数据库同步，保证主备网管之间的数据完全一致，主副网管中的历史数据都是全量的。

在不同的通讯系统中 ,主站和副站的管理权限可能会依具体系统的不同要求而具有不同的管理权限和管理职能，但副站必须能够对网元进行监测。

第三步：如有网元与其配置为主站的艮务器的通讯中断，所述网元切换为以其配置为副站的另一服务器作为主站对所述网元进行管理。

在正常运行时，需要检测网元与其主站之间的通讯状态：

当网元检测和网管的心跳包不再有响应时，网元根据事先配置好的管理者权限，选择其配置为副站的网管作为主站，并发送通知相应的副站网管切换为主站管理网元，具有主站的所有权限；

或者当一个服务器检测到另一个服务器异常时，主动去 ... ...网元请求主站权限，网元根据当前管理的网管判断是否可以给予副站相应的主站权限。

第四步：当所述网元与其配置为主站的服务器的通讯恢复后，按照所述返回策略恢复该服务器作为主站对这些网元的管理。

在网元与主站之间的通讯恢复时，才艮据预先配置好的返回策略对网元进行管理，其中主站的数据需要和另一个被替换为主站的副站进行同步。

如果配置的返回策略为主站返回方式，则服务器和网元建链时，网元探测到主服务器正常，通知副服务器切换恢复重新作为副站；同时主服务器同步中断期间的数据；也可以是副服务器探测到主服务器正常时，进行主副站的切换及数据同步。

如果配置的返回策略为主站非返回方式，则主站恢复时，主站首先被恢复作为副站管理网元，与当前作为主站的副服务器同步中断期间的数据，等到副服务器断开时再以主站形式接入，以作为主站管理网元。

该步骤在技术实现与热监控主控方法是基本类似的。应用实例 1: 服务器 1和网元中断连接失效的情况。

图 4显示了服务器 1和网元中断连接而失效时系统的示意图，依据本发明所述主备管理方法的技术方案，对服务器 1和网元中断连接时的主备管理主要包括如下步骤：

( 1 )连接网元 11…网元 In…网元 21…网元 2n, 并在所述网元上配置好网元的双向路由，配置好网元中服务器 1和服务器 2的权限，配置好主站的返回策略为主站返回式。

其中，网元 11-ln被配置为以服务器 1为主站，服务器 2为副站，而网元 21-2n被配置为以服务器 2为主站，服务器 1为副站。

( 2 )将服务器 1和服务器 2接入到网元中，正常运行时，服务器 1作为主站管理网元 11…网元 In, 服务器 2作为副站管理这些网元；服务器 2 作为主站管理网元 21…网元 2n, 服务器 1作为副站管理这些网元；服务器 1和服务器 2之间配置好数据同步，保证两个服务器的数据都是完全一致的而且都是全量的数据。

( 3 )参照图 4所示，当服务器 1和网元 11之间通讯失效时，此时网元 11…网元 In的通讯机制探测到和^ _务器 1之间断开时，此时网元 11...网元 In通知作为其副站的服务器 2切换作为这些网元的主站，此时，服务器 2 作为主站管理网络上所有网元，采集所有的历史数据，服务器 1管理不上任何网元。

( 4 )当服务器 1和网元 11的通讯恢复后，由于网元中配置的返回策略为主站返回式，所以服务器 1切换为网元 11…网元 In的主站，服务器 2仍然切换恢复为网元 11…网元 In的副站，其中，切换过程中，服务器 1需要与服务器 2进行数据同步，恢复通讯中断期间的数据。

从该实例可以看到，正常运行时系统负载均衡，服务器断开时系统仍然能够正常管理，所有的数据均不会丢失。应用实例 2: 网元之间 ECC断开的情况。

图 5显示了网元 11到网元 12之间 ECC断开时系统的示意图，依据本发明所述主备管理方法的技术方案，对网元之间 ECC断开连接时的主备管理主要包括如下步骤：

( 2 )将服务器 1和服务器 2接入到网元中，正常运行时，服务器 1作为主站管理网元 11…网元 ln，服务器 2作为副站管理这些网元；服务器 2 作为主站管理网元 21…网元 2n, 服务器 1作为副站管理这些网元；服务器 1和服务器 2之间配置好数据同步，保证两个服务器的数据都是完全一致的而且都是全量的数据。

( 3 )参考图 5所示，当网元 11和网元 12之间 ECC断开时，此时网元 12…网元 2n的通讯机制探测到和服务器 1之间断开时，此时网元 12…网元

In通知服务器 2切换作为这些网元的主站，此时服务器 2作为主站管理网元 1系列的部分网元和网元 2系列的所有网元，采集所有的历史数据，服务器 1仅能作为主站管理网元 1系列的部分网元。

( 4 )当网元 11和网元 12之间 ECC通讯恢复后，由于网元中配置的主站返回策略为主站返回方式，所以服务器 1切换为网元 12…网元 In的主站，服务器 2仍然为网元 11…网元 In的副站。

从该实例可以看到，正常运行时系统负载均衡， ECC 断开时系统仍然能够正常管理，所有的数据均不会丟失。

本发明所述的基于网元的主备管理方法，保证主备网管各自管理一部分网元，合理分配管理者作为主站管理的网元个数能够做到负载均衡；同时因为对于主、备管理者，其接入的网元不同，当其中有 ECC中断时，还能够管理上所有网元，能够提高系统的可靠性。

本说明书所附实施例是体现本发明构思的一些典型例子，并不排除使用体现本发明设计方案的其他实施例。

比如，在另一实施例中，服务器的接入网关网元也可以不设置为串行连接网元的第一个或最后一个，例如，在图 3中，将服务器 2接入到网元 21 , 相比于连接至网元 2n, 其在网元 21与网元 22之间发生网元 ECC中断时，将使得网元 22-2n不在与服务器 A和服务器 B中任一个相连接，从而造成网管服务器不能对这些网元进行管理，因而，此种接法的可靠性较差。

又如，不一定非要负载均衡的将所有网元规划分配与两个服务器相连接，在划分网元时，对两个服务器而言必须做到负载分担，仅需依据系统实际运行时的负载情况，使得负载分担能够使系统能够进入最佳运行状态即可。工业实用性

本发明公开的一种基于网元的分布式主备管理的方法及系统，是基于网元的分布式主备管理系统的一种动态网管保护方式，其中，两个网管服务器之间都是互相平等的，两个网管服务器与不同的网关网元连接，并且针对于每个不同的网元有相应的主副权限。与现有技术相比，对于网元需要配置双向路由，两个网管服务器都和网元进行接入；通过合理分配两个网管服务器作为主站管理的网元个数，使得两个务器共同分担负载；当网络处于异常状态，或主网管异常的情况下，或者网元的 ECC 出现中断时，相应网元的副网管取代该网元的主网管，继续管理部分网络或整个网络，提高了系统网管管理的可靠性。

Claims

权利要求书

1、一种基于网元的分布式主备管理的方法，其特征在于，包括如下步骤：

( c )如有网元与其配置为主站的服务器的通讯中断，所述网元进行切换，以其配置为副站的另一服务器作为主站对所述网元进行管理；

( d ) 当所述网元与其配置为主站的服务器的通讯恢复后，按照所述返回策略恢复该服务器作为主站对这些网元的管理。

2、如权利要求 1所述的方法，其特征在于，步骤（a ) 中连接所有网元并将网元的路由配置为双向互通的步骤包括：

串连连接所有网元，使得所述网元嵌入控制通道是互通的；

将每一网元的路由配置为双向互通。

3、如权利要求 1所述的方法，其特征在于，步骤（a ) 中配置网元中两个服务器的管理权限的步驟为：

依据两个服务器负载均衡的原则，将所有网元均衡地分为两个部分；一部分网元将服务器 A配置为主站，将服务器 B配置为副站；另一部分网元将服务器 B配置为主站，将服务器 A配置为副站。

4、如权利要求 1所述的方法，其特征在于，所述步骤（b ) 中所述服务器作为主站管理将其配置为主站的网元时，采集网元的历史数据，对于网元进行相应的配置查询；所述服务器作为副站管理将其配置为主站的网元时，查询及监控网元。

5、如权利要求 1所述的方法，其特征在于，所述步骤（b ) 中配置为主站和副站的服务器之间工作时进行数据同步，通过进行数据库同步来保持主副站之间的数据同步，其中，主副站中的历史数据都是全量的。

6、如权利要求 1所述的方法，其特征在于，所述步骤（c ) 包括：当网元检测到与其配置为主站的服务器通讯中断时，所述网元通知其配置为副站的服务器作为主站管理该网元；

或被网元配置为副站的服务器检测到被网元配置为主站的服务器异常时，所述副站服务器主动向所述网元请求主站权限，所述网元根据当前主站服务器的状态决定是否切换副站为主站管理所述网元。

7、如权利要求 1所述的方法，其特征在于，步骤（b ) 中所述返回策略配置为主站返回方式或非返回方式，

如果是主站返回方式，则所述步骤（d ) 中当所述网元与其配置为主站的服务器的通讯恢复时，恢复其配置为主站的服务器作为主站来管理所述网元，并切换当前主站为副站，同时恢复后的主站月良务器同步中断期间的数据；如果是主站非返回方式，则所述步骤（d ) 中当所述网元与其配置为主站的服务器的通讯恢复时，恢复其配置为主站的服务器作为副站来管理所述网元，并同步中断期间的数据，待当前主站的服务器断开时再以主站形式接入所述网元。

8、如权利要求 1或 2所述的方法，其特征在于，所述步骤（b ) 中，所述两个服务器，即服务器 A和服务器 B,分别接入到串接网元中的首端网元与末端网元。

9、一种基于网元的分布式主备管理系统，包括多个网元和用于对这些网元进行管理的服务器 A和服务器 B, 其特征在于：

所述网元在与其配置为主站的服务器的通讯中断时进行切换，以其配置为副站的另一服务器作为主站；在与其配置为主站的 ϋ 务器的通讯恢复后，再按照所述返回策略将其切换回来；

所述两个服务器在发生通讯中断，收到网元切换的通知时，变换自己对于所述网元的主副状态，服务器恢复与将其配置为主站的网元的通讯后，按照所述返回策略恢复对这些网元的管理。

10、如权利要求 9所述的系统，其特征在于，所述务器作为主站管理将其配置为主站的网元时，采集网元的历史数据，对于所述网元进行相应的配置查询；作为副站管理将其配置为副站的网元时，查询及监控所述网元。

11、如权利要求 9所述的系统，其特征在于，所述两个服务器在配置为网元的主站和副站正常工作时，进行数据同步，通过进行数据库同步来保持主副站之间的数据同步，其中，主副站中的历史数据都是全量的。

12、如权利要求 9所述的系统，其特征在于，所述服务器作为主站的返回策略配置为主站返回方式或非返回方式，

如果是主站返回方式，所述网元在与其配置为主站的服务器的通讯恢复时，恢复其配置为主站的l 务器作为主站来管理所述网元，并切换当前主站为副站，同时恢复后的主站服务器同步中断期间的数据；

13、如权利要求 9所述的方法，其特征在于，所述网元在检测到与其配置为主站的服务器通讯中断时，通知其配置为副站的服务器作为主站管理该网元；或在网元配置为副站的服务器检测到网元配置为主站的服务器异常时，所述副站服务器主动向所述网元请求主站权限，所述网元根据当前主站服务器的状态决定是否切换副站为主站管理所述网元。

14、如权利要求 9所述的系统，其特征在于，所述所有网元，彼此串接相连，并且通过首端网元与末端网元与所述两个服务器，即服务器 A和服务器 B，分别相接。

15、如权利要求 9所述的系统，其特征在于，所述两个服务器，在作为主站管理分别管理所述网元时，所管理的将其配置为主站的网元数目均衡，负载均衡的分别管理相应网元。