WO2012174713A1

WO2012174713A1 - 一种分布式运行网络管理系统及其容错的方法

Info

Publication number: WO2012174713A1
Application number: PCT/CN2011/076065
Authority: WO
Inventors: 张碧琼
Original assignee: 中兴通讯股份有限公司
Priority date: 2011-06-21
Filing date: 2011-06-21
Publication date: 2012-12-27

Abstract

本发明提供了一种分布式运行网络管理系统及其容错的方法，所述方法包括：运行于第一服务器上的第一模块启动，根据各服务器的模块的操作日志，判断自身是否与运行于其他服务器上的模块存在不一致；存在不一致时，分析与自身存在不一致的模块的操作日志，并根据业务需要制定恢复计划；所述第一模块执行所确定的恢复计划，生成并更新自身的操作日志，之后重启自身。本发明根据分布式运行网络管理系统的各服务器的模块的操作日志，确定各模块之间是否存在不一致，并对存在的不一致通过制定恢复计划，进行自动恢复，解决了分布式运行网络管理系统的容错问题，避免了异常情况下，网络管理系统分布式运行的错误结果的发生。

Description

一种分布式运行网络管理系统及其容错的方法技术领域

本发明涉及通信网络技术领域，尤其涉及一种分布式运行网络管理系统及其容错的方法。背景技术

网络管理系统是通信网络的控制中心和数据中心，一般运行在贵的服务器上。目前提高单个服务器的运算能力的成本越来越高，业界普遍会釆用分布式运行来进一步提高网络管理系统的管理能力，而分布式运行的网络管理系统需要考虑的一个重要问题就是容错问题。

在单服务器运行的环境下，即使发生突发事故，也可以通过商业数据库来保证数据的一致和正确；但是在分布式运行的环境下，为了提高效率，对于数据流也通常进行分布，每个服务器都有自己的数据库，发生突发事故后，不能确保不同服务器的数据库中数据的一致性，这里的一致不是指数据等同，而是指业务层面上的一致；比如：业务 B依赖业务 A的数据，且模块 A和模块 B分别运行在不同的服务器上，各自有自己的数据库；当业务 A的数据发生改变后，发生突发情况，网络管理系统突然停掉，业务 B来不及根据业务 A的改变做后续的变更；当网络管理系统重新启动之后，业务 B仅仅凭借自身是无法得知自己的数据已经与业务 A的数据不一致，此时，就需要考虑前面提到容错问题。发明内容

有鉴于此，本发明的主要目的在于提供一种分布式运行网络管理系统及其容错的方法，能够解决分布式运行网络管理系统的容错问题。为达到上述目的，本发明的技术方案是这样实现的：

一种分布式运行网络管理系统容错的方法，所述方法包括：

运行于分布式运行网络管理系统的第一服务器上的第一模块启动，根据各服务器的模块的操作日志，判断自身是否与运行于其他服务器上的模块存在不一致；

存在不一致时，分析与自身存在不一致的模块的操作日志，并根据业务需要制定恢复计划；

所述第一模块执行所确定的恢复计划，生成并更新自身的操作曰志，之后重启自身。

进一步地，在所述运行于第一服务器上的第一模块启动之前，所述方法还包括：

设置所述分布式网络管理系统的操作日志的格式；

所述各服务器的模块接收到客户的操作时，釆用数据事务的方式，将操作结果和操作日志同时存入各服务器的数据库；

其中，所述操作日志包括操作流水号、操作命令码、操作对象、操作具体内容。

其中，所述根据各服务器的模块的操作日志，判断自身是否与运行于其他服务器上的模块存在不一致为：

第一模块读取和分析第一服务器数据库中的操作日志，确定最后接收到的操作日志中与自身相关模块的操作流水号；

读取和分析所述其他服务器数据库中与第一模块相关的模块的操作日志，确定所述模块的最后一个操作日志的操作流水号；

比较自身数据库确定的操作流水号与其他服务器数据库确定的操作流水号是否一致，若不一致，则确定自身与运行于其他服务器上的模块存在不一致。其中，所述分析与自身不一致的模块的操作日志，根据业务需要制定恢复计划为：

读取和分析所述其他服务器数据库中、所述第一服务器记录的与自身相关模块的操作流水号之后的操作日志，根据业务需要确定恢复计划为全量恢复或增量恢复。

其中，当确定恢复计划为全量恢复时，所述第一模块执行所述恢复计划，生成并更新自身的操作日志为：

所述第一模块放弃数据库中自身的操作日志，以与自身存在不一致的模块的操作日志为准重新分析，生成并更新自身的操作曰志；

当确定恢复计划为增量恢复时，所述第一模块执行所述恢复计划，生成并更新自身的操作日志为：

所述第一模块分析数据库中未存储的与自身存在不一致的模块的操作日志，模拟收到所述操作日志后应做的操作，生成并更新自身的操作日志。

一种分布式运行网络管理系统，所述系统包括至少两个服务器；所述每个服务器上至少运行一个模块；其中，

所述运行于第一服务器上的第一模块，用于在启动时根据各服务器的模块的操作日志，判断自身是否与运行于其他服务器上的模块存在不一致；若存在不一致，分析与自身存在不一致的模块的操作日志，并根据业务需要制定恢复计划；执行所述恢复计划，生成并更新自身的操作日志，重启自身。

其中，所述服务器，用于设置所述分布式网络管理系统的操作日志的格式；其中，所述操作日志包括操作流水号、操作命令码、操作对象、操作具体内容；

所述服务器进一步包括数据库；

所述运行于服务器上的模块，具体用于接收到客户的操作时，釆用数据事务的方式，将操作结果和操作日志同时存入所述服务器的数据库。其中，所述第一模块，具体用于读取和分析所述第一服务器数据库中的操作日志，确定最后接收到的操作日志中与自身相关模块的操作流水号；读取和分析所述其他服务器数据库中与第一模块相关的模块的操作日志，确定所述模块的最后一个操作日志的操作流水号；比较自身数据库确定的操作流水号与其他服务器数据库确定的操作流水号是否一致，若不一致，则确定自身与运行于其他服务器上的模块存在不一致。

其中，所述第一模块，具体用于读取和分析所述其他服务器数据库中、所述第一服务器记录的与自身相关模块的操作流水号之后的操作日志，根据业务需要确定恢复计划为全量恢复或增量恢复。

其中，所述第一模块，具体用于当确定恢复计划为全量恢复时，放弃数据库中自身的操作日志，以与自身存在不一致的模块的操作日志为准重新分析，生成并更新自身的操作日志；当确定恢复计划为增量恢复时，分析数据库中未存储的与自身存在不一致的模块的操作日志，模拟收到所述操作日志后应做的操作，生成并更新自身的操作曰志。

本发明根据分布式运行网络管理系统中各服务器的模块的操作日志，确定各模块之间是否存在不一致，并对存在的不一致通过制定恢复计划，进行自动恢复，解决了分布式运行网络管理系统的容错问题，避免了异常情况下，网络管理系统分布式运行的错误结果的发生。附图说明

图 1为本发明分布式运行网络管理系统容错的方法实现流程示意图；图 2为实现图 1所示方法的简单分布式运行网络管理系统的结构示意图；

图 3为本发明分布式运行网络管理系统的结构示意图。具体实施方式

本发明的基本思想为：运行于第一服务器上的第一模块启动，根据各服务器的模块的操作日志，判断自身是否与运行于其他服务器上的模块存在不一致；存在不一致时，则分析与自身存在不一致的模块的操作曰志，并根据业务需要制定恢复计划；所述第一模块执行所确定的恢复计划，生成并更新自身的操作日志，之后重启自身。

本发明所应用的分布式运行网络管理系统中包括多个服务器，每个服务器上运行有至少一个模块，每个模块有对应的操作日志；所述的第一服务器可以是分布式运行网络管理系统中任意一台服务器，除第一服务器以外的服务器称为其他服务器；假设每个服务器上运行一个模块，那么，运行于第一服务器上的模块称为第一模块。

为使本发明的目的、技术方案和优点更加清楚明白，以下举实施例并参照附图，对本发明进一步详细说明。

图 1 示出了本发明分布式运行网络管理系统容错的方法实现流程，如图 1所示，所述方法包括下述步骤：

步骤 101 ,运行于分布式运行网络管理系统的第一服务器上的第一模块启动，根据各服务器的模块的操作日志，判断自身是否与运行于其他服务器上的模块存在不一致；

具体地，本步骤中，第一模块读取和分析第一服务器数据库中的操作日志，确定最后接收到的操作日志中记录的与自身相关模块的操作流水号；读取和分析所述其他服务器数据库中所述与第一模块相关的模块的操作日志，确定所述模块的最后操作日志的操作流水号；

比较自身数据库确定的操作流水号与其他服务器数据库确定的操作流水号是否一致，若不一致，则确定自身与运行于其他服务器上的模块存在不一致。另外，应当理解，在步骤 101 之前，所述方法还包括：预先设置所述分布式网络管理系统的操作日志的格式；其中，所述操作日志包括操作流水号、操作命令码、操作对象、操作具体内容；

所述分布式运行网络管理系统中各模块在接收到客户的操作时，釆用数据事务的方式，将操作结果和操作日志同时存入各服务器的数据库。

步骤 102, 若存在不一致，第一模块分析与自身存在不一致的模块的操作日志，并根据业务需要制定恢复计划；

本步骤中，读取和分析所述其他服务器数据库中、所述第一服务器记录的与自身相关模块的操作流水号之后的操作日志，根据业务需要确定恢复计划为全量恢复或增量恢复；具体地，当对恢复时间有时间要求时，一般将恢复计划确定为增量恢复，其余情况下，将恢复计划确定为全量恢复。

步骤 103 , 所述第一模块执行所确定的恢复计划，生成并更新自身的操作日志，自身进行重新启动；

具体地，当确定恢复计划为全量恢复时，所述第一模块放弃数据库中自身的操作日志，以与自身存在不一致的模块的操作日志为准重新分析，生成并更新自身的操作日志，然后重新启动；

当确定恢复计划为增量恢复时，所述第一模块分析数据库中未存储的与自身存在不一致的模块的操作日志，模拟收到所述操作日志后应做的操作，生成并更新自身的操作日志，然后重新启动。

下面结合图 2示出的简单分布式运行网络管理系统对上述方法进行具体说明。

参照图 2, 该分布式运行网络管理系统运行在两个服务器上：服务器 A 和服务器 B; 其中，服务器 A上运行模块 A, 服务器 A的数据库为数据库 A; 服务器 B上运行模块 B, 服务器 B的数据库为数据库 B; 模块 B依赖于模块 A的数据；模块 A和数据库 A由于位于同一台服务器上，且在操作系统和商业数据库软件的支持下，两者不会发生不一致的情况。在突发情况下，模块 A和模块 B之间可能发生不一致，如：某个客户的操作，在模块 A处理完之后，需要由模块 B进行下一步操作；当模块 A 处理完成之后，模块 B刚刚开始处理，但还没来得及将处理结果存入数据库 B时，服务器 B突然宕机，如此，模块 A和模块 B在业务层面上就会存在不一致；这种情况下，图 2所示的分布式运行网络管理系统执行图 1所述的方法，具体实现步骤如下：

第一步，预先设置分布式运行网络管理系统的操作日志的格式，所述操作日志至少包括操作流水号、操作命令码、操作对象、操作具体内容；操作曰志在数据库中保存维护；

第二步，模块 A每次接收到客户的操作时，将操作结果入库的时候，釆用数据库事务的方式，保证操作结果和操作日志同时入库成功或同时入库不成功；

这里，模块 A的操作日志可以如表 1所示:

表 1

第三步，模块 B在模块 A处理完毕后，进行下一步处理，将操作结果入库的时候，釆用数据库事务的方式，保证操作结果和操作日志同时入库成功或同时入库不成功；

具体地，模块 B的操作日志中记录有触发该条操作的模块 A的操作曰志的操作流水号，这里，模块 B的操作日志可以如表 2所示：

表 2

第四步，每次模块 B重新启动的时候，根据操作日志判断自身是否与模块 A存在不一致；

具体地，首先，模块 B读取和分析自身的操作日志，确定最后接收到的模块 A的操作日志的操作流水号，这里，将得到的操作流水号定义为流水号 X；

然后，模块 B读取和分析模块 A的操作日志，确定模块 A最后的操作日志的操作流水号，这里，将得到的操作流水号定义为流水号 Y;

最后，比较流水号 X和 Y, 如果二者相同，则表示模块 B和模块 A不存在不一致；如果不相同，则表示模块 B存在与模块 A的不一致。

第五步，若模块 B存在与模块 A的不一致，则根据业务需要制定恢复计划；

具体地，读取和分析模块 A的操作日志，找到流水号 X所在的位置；读取流水号 X之后的操作日志，根据业务需要制定恢复计划；这里，恢复计划大致分为两种：全量恢复和增量恢复；

当确定恢复计划为全量恢复时，则只要模块 B存在与模块 A的不一致，模块 B则做一次全量分析，放弃自身的所有操作日志，以模块 A的操作曰志为准进行重新分析，生成并更新自身的操作日志，所述操作日志中记录的模块 A的操作流水号是模块 A记录的操作流水号的最大值，模块 B进行重新启动；全量恢复计划耗时比较长，但分析逻辑较为简单；

当确定恢复计划为增量恢复时，则模块 B分析没有存储的模块 A的操作曰志，一步步模拟收到这些操作日志后应做的操作，生成并更新自身的操作日志，所述操作日志中记录的模块 A的操作流水号是模块 A记录的操作流水号的最大值，模块 B进行重新启动；增量恢复计划耗时较短，但分析逻辑较为复杂。

图 3示出了本发明分布式运行网络管理系统的结构，如图 3所示，所述系统包括至少两个服务器，如图 3示出了第一服务器、第二服务器直至第 n服务器，各服务器相互连接；所述每个服务器上至少运行一个模块，运行有相关模块的服务器相互连接，这里，相关模块是指模块之间的操作具有依赖等关系的模块；图 3 中仅示出了第一服务器的细化结构，应当理解，其他服务器与第一服务器的结构类似；其中，

所述运行于第一服务器上的第一模块，用于在启动时根据各服务器的模块的操作日志，判断自身是否与运行于其他服务器上的模块存在不一致；若存在不一致，分析与自身存在不一致的模块的操作日志，并根据业务需要制定恢复计划；执行所述恢复计划，生成并更新自身的操作日志，自身进行重启。

进一步地，所述服务器，用于设置所述分布式网络管理系统的操作日志的格式；其中，所述操作日志包括操作流水号、操作命令码、操作对象、操作具体内容；

所述服务器进一步包括数据库；

所述运行于服务器上的模块，具体用于接收到客户的操作时，釆用数据事务的方式，将操作结果和操作日志同时存入所述服务器的数据库。

其中，所述第一模块，具体用于读取和分析所述第一服务器数据库中的操作日志，确定最后接收到的操作日志中与自身相关模块的操作流水号；读取和分析所述其他服务器数据库中与第一模块相关的模块的操作日志，确定所述模块的最后一个操作日志的操作流水号；比较自身数据库确定的操作流水号与其他服务器数据库确定的操作流水号是否一致，若不一致，则确定自身与运行于其他服务器上的模块存在不一致。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

权利要求书

1、一种分布式运行网络管理系统容错的方法，其特征在于，所述方法包括：

2、根据权利要求 1所述的方法，其特征在于，在所述运行于第一服务器上的第一模块启动之前，所述方法还包括：

设置所述分布式网络管理系统的操作日志的格式；

3、根据权利要求 1或 2所述的方法，其特征在于，所述根据各服务器的模块的操作日志，判断自身是否与运行于其他服务器上的模块存在不一致为：

比较自身数据库确定的操作流水号与其他服务器数据库确定的操作流水号是否一致，若不一致，则确定自身与运行于其他服务器上的模块存在不一致。

4、根据权利要求 1所述的方法，其特征在于，所述分析与自身不一致的模块的操作日志，根据业务需要制定恢复计划为：

5、根据权利要求 4所述的方法，其特征在于，当确定恢复计划为全量恢复时，所述第一模块执行所述恢复计划，生成并更新自身的操作日志为：所述第一模块放弃数据库中自身的操作日志，以与自身存在不一致的模块的操作日志为准重新分析，生成并更新自身的操作曰志；

6、一种分布式运行网络管理系统，其特征在于，所述系统包括至少两个服务器；所述每个服务器上至少运行一个模块；其中，

7、根据权利要求 6所述的系统，其特征在于，所述服务器，用于设置所述分布式网络管理系统的操作日志的格式；其中，所述操作日志包括操作流水号、操作命令码、操作对象、操作具体内容；所述服务器进一步包括数据库；

8、根据权利要求 6或 7所述的系统，其特征在于，所述第一模块，具体用于读取和分析所述第一服务器数据库中的操作日志，确定最后接收到的操作日志中与自身相关模块的操作流水号；读取和分析所述其他服务器数据库中与第一模块相关的模块的操作日志，确定所述模块的最后一个操作曰志的操作流水号；比较自身数据库确定的操作流水号与其他服务器数据库确定的操作流水号是否一致，若不一致，则确定自身与运行于其他服务器上的模块存在不一致。

9、根据权利要求 6所述的系统，其特征在于，所述第一模块，具体用于读取和分析所述其他服务器数据库中、所述第一服务器记录的与自身相关模块的操作流水号之后的操作日志，根据业务需要确定恢复计划为全量恢复或增量恢复。

10、根据权利要求 9所述的系统，其特征在于，所述第一模块，具体用于当确定恢复计划为全量恢复时，放弃数据库中自身的操作日志，以与自身存在不一致的模块的操作日志为准重新分析，生成并更新自身的操作日志；当确定恢复计划为增量恢复时，分析数据库中未存储的与自身存在不一致的模块的操作日志，模拟收到所述操作日志后应做的操作，生成并更新自身的操作曰志。