WO2012012962A1

WO2012012962A1 - 容灾业务系统及容灾方法

Info

Publication number: WO2012012962A1
Application number: PCT/CN2010/076969
Authority: WO
Inventors: 张超; 王慧; 赵庆春; 王巍; 施健; 张道平; 张玲东; 孙雷
Original assignee: 中兴通讯股份有限公司
Priority date: 2010-07-26
Filing date: 2010-09-15
Publication date: 2012-02-02
Also published as: EP2600565A1; CN101902361A; CN101902361B; EP2600565A4; EP2600565B1

Description

容灾业务系统及容灾方法技术领域本发明涉及通信领域，具体而言，涉及一种容灾业务系统及容灾方法。背景技术电信领域中，大多数运营商的业务平台处于独立、分离的建设模式，每个业务平台都需要为每个业务建设单独的存储模块、对外接口、操作维护单元、计费单元等公共模块。为了避免上述公共模块的重复建设从而避免重复投资，现阶段无论是面对新业务的建设，还是面对已有业务的扩容或替换，运营商都会以最小的投入产生最大的收益为目标，而多业务融合统一平台' I"合' I"合可以实现该目标。多业务融合统一平台可以在保证产品稳定性和可靠性的前提下，降低各种成本并提高资源利用率。但是，当前的多业务融合统一平台在其业务发生故障后，都是釆用一对一的容灾模式，即，釆用多台容灾服务器，其中每台容灾服务器仅仅对特定某种业务进行容灾的容灾模式。这样，由于该容灾模式不能保证对每种业务具备足够的容灾能力，因此其可靠性不足；并且，该容灾模式中多台容灾服务器的使用大大增加了设备投入的成本。发明内容针对相关技术中的容灾业务系统釆用一对一的容灾模式，不能保证对每种业务具备足够的容灾能力的问题而提出本发明，为此，本发明的主要目的在于提供一种容灾业务系统及容灾方法，以解决上述问题。为了实现上述目的，根据本发明的一个方面，提供了一种容灾业务系统。根据本发明的容灾业务系统包括：故障检测模块，用于检测运行业务的业务服务器和 /或业务是否处于故障状态；服务器管理模块，用于在检测结果为是时，确定用于替代业务服务器的容灾服务器；业务装卸模块，用于在容灾服务器上安装业务；业务运行模块，用于在容灾服务器上运行业务。进一步地，服务器管理模块包括：获取子模块，用于获取空闲的容灾服务器；确定子模块，用于根据空闲的容灾服务器的性能，确定用于替代业务服务器的容灾服务器。进一步地，上述容灾业务系统还包括：存储模块，用于存储业务服务器的状态信息和业务的业务信息；其中，状态信息包括以下至少之一：用于指示业务服务器运行正常的状态信息、用于指示业务服务器运行故障的状态信息、用于指示业务服务器空闲的状态信息；业务信息包括以下至少之一：业务的业务节点、业务的模块号、业务的业务类型、业务的版本、业务的目录。进一步地，上述容灾业务系统还包括：状态显示模块，用于显示状态信息和业务信息；状态告警模块，用于在检测结果为是时，产生告警。进一步地，业务装卸模块还用于在处于故障状态的业务服务器上卸载业务。为了实现上述目的，居本发明的另一个方面，提供了一种容灾方法。根据本发明的容灾方法包括：检测容灾业务系统中的业务服务器和 /或运行于业务服务器上的业务是否处于故障状态；如果检测结果为是，确定用于替代业务服务器的容灾服务器；在容灾服务器上安装业务；在容灾服务器上运行业务。进一步地，确定用于替代业务服务器的容灾服务器包括：获取容灾业务系统中的空闲的容灾服务器；根据空闲的容灾服务器的性能，确定用于替代业务服务器的容灾服务器。进一步地，在检测容灾业务系统中的业务服务器和 /或运行于业务服务器上的业务是否处于故障状态之前，上述方法还包括：存储业务服务器的状态信息和业务的业务信息；其中，状态信息包括以下至少之一：用于指示业务服务器运行正常的状态信息、用于指示业务服务器运行故障的状态信息、用于指示业务服务器空闲的状态信息；业务信息包括以下至少之一：业务的业务节点、业务的模块号、业务的业务类型、业务的版本、业务的目录。进一步地，在检测容灾业务系统中的业务服务器和 /或运行于业务服务器上的业务是否处于故障状态之前，上述方法还包括：显示状态信息和业务信息。进一步地，在检测容灾业务系统中的业务服务器和 /或运行于业务服务器上的业务是否处于故障状态之后，上述方法还包括：在检测结果为是时，产生告警。通过本发明，釆用在容灾服务器上安装业务，扩大了容灾服务器可以容灾的业务的范围，解决了相关技术中的容灾业务系统釆用一对一的容灾模式，不能保证对每种业务具备足够的容灾能力的问题，提高了容灾可靠性，降低了容灾业务系统投入的成本。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：图 1是居本发明实施例的容灾业务系统的结构框图；图 2是居本发明优选实施例的容灾业务系统的示意图；图 3是居本发明实施例的容灾方法的流程图；图 4是才艮据本发明优先实施例的容灾方法的交互流程图。具体实施方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。根据本发明的实施例，提供了一种容灾业务系统。图 1是根据本发明实施例的容灾业务系统的结构框图，该系统包括故障检测模块 11 , 服务器管理模块 12 , 业务装卸模块 13和业务运行模块 14。下面对其结构进行详细描述。故障检测模块 11 ,用于检测运行业务的业务艮务器和 /或该业务是否处于故障状态；服务器管理模块 12 , 连接至故障检测模块 11 , 用于在故障检测模块 11的检测结果为是时，确定用于替代业务服务器的容灾服务器；业务装卸模块 13 , 连接至故障检测模块 11和服务器管理模块 12 , 用于在服务器管理模块 12确定的容灾服务器上安装业务，该业务是故障检测模块 11检测到处于故障状态的业务艮务器上运行的业务和 /或是故障检测模块 11检测到处于故障状态的业务；业务运行模块 14 , 连接至业务装卸模块 13 , 用于在业务装卸模块 13安装业务后的容灾服务器上运行业务。相关技术中，容灾服务器仅仅对特定某种业务进行容灾。本发明实施例中，通过业务装卸模块 13 在容灾服务器上安装业务，扩大了容灾服务器可以容灾的业务的范围，从而可以提高业务容灾的可靠性，并且降低容灾业务系统投入的成本。优选地，服务器管理模块 12包括获取子模块 121和确定子模块 122。下面对其结构进行详细描述。获取子模块 121 , 连接至故障检测模块 11 , 用于在故障检测模块 11的检测结果为是时，获取空闲的容灾服务器；确定子模块 122 , 连接至获取子模块 121 , 用于根据获取子模块 121获取的空闲的容灾服务器的性能，确定用于替代业务服务器的容灾服务器。本优选实施例中，如果获取子模块 121获取到多台空闲的容灾服务器，则选择所有空闲的容灾服务器中的性能最佳的作为选定的容灾服务器。这样，可以为故障的业务服务器提供更好的容灾服务，从而提高容灾的可靠性。需要说明的是，如果获取子模块 121仅仅获取到一台空闲的容灾服务器，则将这台容灾服务器作为选定的容灾服务器。如果获取子模块 121没有获取到空闲的容灾服务器，则故障检测模块 11会向状态告警模块 17发出告警信息，以表示当前没有可供选择的空闲的容灾服务器。优选地，上述容灾业务系统还包括存储模块 15 , 状态显示模块 16和状态告警模块 17。下面对其结构进行详细描述。存储模块 15 ,用于存储业务服务器的状态信息和业务的业务信息；其中，状态信息包括以下至少之一：用于指示业务服务器运行正常的状态信息、用于指示业务服务器运行故障的状态信息、用于指示业务服务器空闲的状态信息；业务信息包括以下至少之一：业务的业务节点、业务的模块号、业务的业务类型、业务的版本、业务的目录。状态显示模块 16 , 连接至存储模块 15 , 用于显示存储模块 15存储的状态信息和业务信息。状态告警模块 17 , 连接至故障检测模块 11 , 用于在故障检测模块 11 的检测结果为是时，产生告警。本优选实施例中，存储模块 15 存储的状态信息和业务的业务信息，可用于状态显示模块 16 的显示，从而提供给用户直观的提示信息，以便用户对容灾业务系统进行管理。状态告警模块 17 产生告警，可以给用户醒目的提示信息，以便用户处理容灾业务系统的故障。优选地，业务装卸模块 13 还用于在处于故障状态的业务服务器上卸载业务。本优选实施例中，通过在处于故障状态的业务月艮务器上卸载业务，可以将该业务服务器恢复为正常的空闲的状态。然后，将该业务服务器作为新的容灾服务器，可以实现容灾服务器的重复利用，从而进一步提高业务容灾的可靠性，并且降氐容灾业务系统投入的成本。本发明还提供了一个优选实施例，结合了上述多个优选实施例的技术方案，下面结合图 2来详细描述。图 2是居本发明优选实施例的容灾业务系统的示意图，包括运营维护管理模块 21 (对应于上述状态显示模块和状态告警模块），设备管理数据库 22 (对应于上述存储模块），容灾模块 23 (对应于上述故障检测模块），计算机资源管理中心 24 (对应于上述服务器管理模块），自动部署模块 25 (对应于上述业务装卸模块），下面对其进行详细描述。运营维护管理模块 21 , 用于显示各个主机以及业务的状态，当设备发生故障后有相关告警等功能。设备管理数据库 22 , 用于对设备的信息进行存储。容灾模块 23 , 用于检测设备及业务状态，当业务或者主机发生故障后，进行容灾功能。计算机资源管理中心 24 , 用于管理各个业务服务器的状态，及被容灾功能。自动部署模块 25 , 用于在各个业务服务器上的业务安装。根据本发明的实施例，还提供了一种容灾方法。图 3是才艮据本发明实施例的容灾方法的流程图，包括如下的步骤 S302至步骤 S308。步骤 S302, 检测容灾业务系统中的业务月艮务器和 /或运行于业务月艮务器上的业务是否处于故障状态。步骤 S304,如果检测结果为是，确定用于替代业务艮务器的容灾艮务器。步骤 S306, 在容灾服务器上安装业务。步骤 S308, 在容灾艮务器上运行业务。相关技术中，容灾服务器仅仅对特定某种业务进行容灾。本发明实施例中，通过在容灾服务器上安装业务，扩大了容灾服务器可以容灾的业务的范围，从而可以提高业务容灾的可靠性，并且降氐容灾业务系统投入的成本。优选地，确定用于替代业务服务器的容灾服务器包括：获取容灾业务系统中的空闲的容灾服务器；根据空闲的容灾服务器的性能，确定用于替代业务服务器的容灾服务器。本优选实施例中，如果获取到多台空闲的容灾服务器，则选择所有空闲的容灾服务器中的性能最佳的作为选定的容灾服务器。这样，可以为故障的业务服务器提供更好的容灾服务，从而提高容灾的可靠性。需要说明的是，如果仅仅获取到一台空闲的容灾服务器，则将这台容灾服务器作为选定的容灾服务器。如果没有获取到空闲的容灾服务器，则会发出告警信息，以表示当前没有可供选择的空闲的容灾服务器。优选地，在检测容灾业务系统中的业务月艮务器和 /或运行于业务月艮务器上的业务是否处于故障状态之前，存储业务服务器的状态信息和业务的业务信息；其中，状态信息包括以下至少之一：用于指示业务服务器运行正常的状态信息、用于指示业务服务器运行故障的状态信息、用于指示业务服务器空闲的状态信息；业务信息包括以下至少之一：业务的业务节点、业务的模块号、业务的业务类型、业务的版本、业务的目录。优选地，在检测容灾业务系统中的业务月艮务器和 /或运行于业务月艮务器上的业务是否处于故障状态之前，显示状态信息和业务信息。优选地，在检测容灾业务系统中的业务月艮务器和 /或运行于业务月艮务器上的业务是否处于故障状态之后，在检测结果为是时，产生告警。本优选实施例中，存储的状态信息和业务的业务信息，可用于状态的显示，从而提供给用户直观的提示信息，以便用户对容灾业务系统进行管理。产生告警可以给用户醒目的提示信息，以便用户处理容灾业务系统的故障。本发明还提供了一个优选实施例，结合了上述多个优选实施例的技术方案，下面结合图 4来详细描述。图 4是才艮据本发明优先实施例的容灾方法的交互流程图，包括如下的步骤 S400至步骤 S434。步骤 S400, 各个模块运行正常，设备上电，安装好操作系统、设备管理数据库等系统软件，基础网络配置完毕，每台主机配置好管理 IP和管理账号密码（通常就是 root 密码）；容灾中心安装完毕。当前有空闲的容灾服务器若千，并且已经在容灾中心注册成功。容灾中心设置为自动容灾模式。容灾中心通过和各个业务服务器之间的心跳消息进行交互，确定各个业务服务器是否状态正常。步骤 S402, 容灾模块通过安全协议（Secure Shell, 简称为 SSH )方式与各个业务服务器进行心跳检测，一般心跳时间为 10秒 /次（可设置）。当容灾模块接收到业务服务器正常的响应后，会在设置的间隔时间内进行查询。当查询返回失败后，才艮据间隔时间会再次进行查询，查询 3次后（可设置）认为业务服务器状态异常。容灾模块向消息接口模块发送业务服务器注销请求。步骤 S404, 消息接口模块接收到业务服务器注销请求后，向计算机资源管理中心发送业务服务器状态变更请求，并在其中携带下电标识。步骤 S406, 计算机资源管理中心进行业务服务器的状态变更、下电。如果当前的业务服务器只是业务有问题，业务服务器状态是好的。则会在业务服务器上面进行业务卸载及 IP信息删除等相关操作。如果业务服务器发生问题，则会在下次业务艮务器^ ί'爹复后，重新加载业务前进行相关删除操作。步骤 S408, 计算机资源管理中心进行完相关操作后，向消息接口模块发送业务服务器状态变更响应，其中携带下电响应。步骤 S410, 消息接口模块接收到计算机资源管理中心响应后，向容灾模块发出业务月艮务器注销响应。步骤 S412 , 容灾模块接收到业务服务器注销响应后，进行设备管理数据库操作，并删除相关业务信息（如业务节点，模块号等）。步骤 S414, 容灾模块向运营维护管理模块发送停止业务通知请求，用于通知运营维护管理模块在页面上显示与相关业务信息相应的业务停止。步骤 S416 , 运营维护管理模块在接收到容灾模块的通知后，在页面上把业务的状态变更为停止，并在变更完成后，向容灾模块发送停止业务通知响应。步骤 S418, 容灾模块在接收到停止业务通知响应后，在设备管理数据库中删除业务服务器的信息。删除掉后，向运营维护管理模块发送业务服务器注销结果通知请求。步骤 S420, 运营维护管理模块把业务服务器的状态变为故障状态，同时给容灾模块发送业务服务器故障结果通知响应。步骤 S422 , 在进行完以上步骤后，容灾模块进行容灾服务器状态检测，如果当前没有空闲的容灾服务器，则会向运营维护管理模块发出告警信息（当前没有空闲的容灾服务器）。如果有多台空闲的容灾服务器，容灾模块则进行判断，查看所有容灾服务器中设备性能最佳的作为选定的容灾服务器。如果当前只有一台空闲的容灾服务器，则只在这台容灾服务器上进行容灾处理。选定好空闲的容灾服务器后，容灾模块向消息接口模块发送业务加载请求，消息接口模块向计算机资源管理中心发送空闲的容灾服务器的容灾服务器请求。步骤 S424, 计算机资源管理中心查找到当前的空闲的容灾月艮务器后，向消息接口模块回容灾服务器请求响应，消息接口模块向容灾模块发送业务加载响应。步骤 S426, 容灾模块接收到业务加载响应后，进行模块号复用。然后，容灾模块把原因模块号及业务加载请求（管理 IP, 逻辑 IP, 模块号，业务类型，版本和目录）发送给自动部署模块。步骤 S428, 自动部署模块根据业务加载请求在该空闲的容灾服务器上面上传版本，执行安装脚本，自动启动脚本，成功后返回部署成功响应，并执行步骤 S430。如果由于容灾服务器原因，造成部署失败，会在失败的容灾服务器上面， 4巴业务及相关文件都删除，同时返回部署失败响应，然后由自动部署模块向容灾模块返回业务加载失败响应，并由容灾模块继续从步骤 S420 重新选择空闲的容灾服务器。步骤 S430, 自动部署模块向容灾模块返回业务加载成功响应，容灾模块进行逻辑设备和物理设备入库。同时发送加载业务结果通知请求给运营维护管理模块。步骤 S432, 运营维护管理模块在接收到加载业务结果通知请求后，会在页面上进行相关展示。同时返回加载业务结果通知响应给容灾模块。步骤 S434, 生成配置文件，自动同步到所有节点。综上所述，根据本发明的上述实施例，釆用在容灾服务器上安装业务，扩大了容灾服务器可以容灾的业务的范围，解决了相关技术中的容灾业务系统釆用一对一的容灾模式，不能保证对每种业务具备足够的容灾能力的问题，提高了容灾可靠性，并且，本发明的容灾方式可以使得容灾不需要特定的环境，任何一个业务都可以在任何一台服务器等环境上进行容灾，大大降低了容灾业务系统投入的成本。显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的 ^"神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书一种容灾业务系统，其特征在于，包括：故障检测模块，用于检测运行业务的业务服务器和 /或所述业务是否处于故障状态；

服务器管理模块，用于在所述检测结果为是时，确定用于替代所述业务服务器的容灾服务器；

业务装卸模块，用于在所述容灾服务器上安装所述业务；业务运行模块，用于在所述容灾服务器上运行所述业务。根据权利要求 1所述的容灾业务系统，其特征在于，所述服务器管理模块包括：

获取子模块，用于获取空闲的容灾服务器；

确定子模块，用于根据所述空闲的容灾服务器的性能，确定用于替代所述业务服务器的所述容灾服务器。根据权利要求 1所述的容灾业务系统，其特征在于，还包括：

存储模块，用于存储所述业务服务器的状态信息和所述业务的业务信息；

其中，所述状态信息包括以下至少之一：用于指示所述业务服务器运行正常的状态信息、用于指示所述业务服务器运行故障的状态信息、用于指示所述业务服务器空闲的状态信息；所述业务信息包括以下至少之一：所述业务的业务节点、所述业务的模块号、所述业务的业务类型、所述业务的版本、所述业务的目录。根据权利要求 3所述的容灾业务系统，其特征在于，还包括：

状态显示模块，用于显示所述状态信息和所述业务信息；状态告警模块，用于在所述检测结果为是时，产生告警。根据权利要求 4所述的容灾业务系统，其特征在于，所述业务装卸模块还用于在处于故障状态的所述业务艮务器上卸载所述业务。

6. —种容灾方法，其特征在于，包括：

检测容灾业务系统中的业务服务器和 /或运行于所述业务服务器上的业务是否处于故障状态；

如果检测结果为是，确定用于替代所述业务服务器的容灾服务器；在所述容灾服务器上安装所述业务；

在所述容灾服务器上运行所述业务。

7. 根据权利要求 6所述的方法，其特征在于，确定用于替代所述业务服务器的所述容灾服务器包括：

获取所述容灾业务系统中的空闲的容灾服务器；

根据所述空闲的容灾服务器的性能，确定用于替代所述业务服务器的所述容灾服务器。

8. 根据权利要求 7所述的方法，其特征在于，在检测所述容灾业务系统中的所述业务服务器和 /或运行于所述业务服务器上的所述业务是否处于所述故障状态之前，所述方法还包括：

存储所述业务服务器的状态信息和所述业务的业务信息；其中，所述状态信息包括以下至少之一：用于指示所述业务服务器运行正常的状态信息、用于指示所述业务服务器运行故障的状态信息、用于指示所述业务服务器空闲的状态信息；所述业务信息包括以下至少之一：所述业务的业务节点、所述业务的模块号、所述业务的业务类型、所述业务的版本、所述业务的目录。

9. 根据权利要求 8所述的方法，其特征在于，在检测所述容灾业务系统中的所述业务服务器和 /或运行于所述业务服务器上的所述业务是否处于所述故障状态之前，所述方法还包括：显示所述状态信息和所述业务信息。

10. 根据权利要求 8所述的方法，其特征在于，在检测所述容灾业务系统中的所述业务服务器和 /或运行于所述业务服务器上的所述业务是否处于所述故障状态之后，所述方法还包括：在所述检测结果为是时，产生告