WO2017050130A1

WO2017050130A1 - 一种故障恢复方法及装置

Info

Publication number: WO2017050130A1
Application number: PCT/CN2016/098344
Authority: WO
Inventors: 张文革; 徐日东; 陈勇; 刘清明; 陈太洲; 熊福祥
Original assignee: 华为技术有限公司
Priority date: 2015-09-22
Filing date: 2016-09-07
Publication date: 2017-03-30
Also published as: EP3340535B1; JP6556346B2; EP3340535A4; US20180212819A1; CN105187249B; US10601643B2; CN105187249A; JP2018533280A; EP3340535A1

Abstract

本申请提供了一种故障恢复方法及装置。所述故障恢复方法包括：获取被监测网元中的各个业务处理单元的关键绩效指标信息；根据所述关键绩效指标信息，确定故障对象；根据所述故障对象，确定故障恢复策略；将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，以便所述管理单元采用所述故障恢复策略进行故障恢复。采用本申请的方法或装置，可以解决根据网元的心跳消息对于故障进行定位的精度较低的问题。

Description

一种故障恢复方法及装置

本申请要求于2015年9月22日提交中国专利局、申请号为201510608782.1、发明名称为“一种故障恢复方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及网络数据处理领域，特别是涉及一种故障恢复方法及装置。

背景技术

通信系统中，当设备出现故障时，需要采取一定的方法对故障进行恢复，以避免故障长时间无法恢复而对通信系统的性能造成严重影响。

对于故障的恢复方法，可以采用人工方式进行。但是，人工检测故障，再对故障进行恢复所花费的时间和人工成本通常较高。因此，业内逐渐倾向于通过通信系统中的设备对于通信系统自身的故障进行自动恢复，以此提高故障恢复效率并降低人工成本。

现有技术中的故障恢复方法，主要是根据设备的心跳消息来判断设备是否出现故障。具体的，监测设备可以定期向被监测设备发送心跳消息，被监测设备在接收到心跳消息后，可以向监测设备返回响应消息。如果监测设备在发送心跳消息后，在规定时间内未接收到被监测设备返回的响应消息，则判定该被监测设备发生故障，进而对该被监测设备整体进行复位，或者将该被监测设备所承载的功能倒换至另外的设备，以恢复故障。

然而，监测设备在规定时间内未接收到响应消息的原因，可能有多种。例如，可以是被监测设备用于发送响应消息的接口单元发生故障。此时，可以调用被监测设备的其它接口单元替换前述接口单元，而无需对被监测设备整体进行复位或者功能倒换。对被监测设备整体进行复位或者功能倒换的风险较高，且会造成较多的业务受到影响。

综上所述，现有技术中的故障恢复方法，由于根据设备的心跳消息对于故障进行分析和恢复，导致对于故障进行定位的精度较低。

发明内容

本申请的目的是提供一种故障恢复方法及装置，能够通过关键绩效指标信息对于故障进行定位，解决根据设备的心跳消息对于故障进行定位的精度较低问题。

为实现上述目的，本申请提供了如下方案：

根据本申请的第一方面的第一种可能的实现方式，本申请提供一种故障恢复方法，包括：

获取被监测网元中的各个业务处理单元的关键绩效指标信息；

根据所述关键绩效指标信息，确定故障对象；

根据所述故障对象，确定故障恢复策略；

将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，以便所述管理单元采用所述故障恢复策略进行故障恢复。

结合第一方面的第二种可能的实现方式，所述确定故障对象，具体包括：

确定故障对象为所述被监测网元中的业务处理单元；

或者确定故障对象为所述业务处理单元之间的通信路径；

所述根据所述故障对象，确定故障恢复策略，具体包括：

当所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径时，确定网元级的故障恢复策略；所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。

结合第一方面的第三种可能的实现方式，所述确定故障对象，具体包括：

确定故障对象为所述被监测网元；

或者，确定故障对象为所述被监测网元与另外的网元之间的通信路径；

所述根据所述故障对象，确定故障恢复策略，具体包括：

当所述故障对象为所述被监测网元或者所述被监测网元与另外的网元之间的通信路径时，确定网络级的故障恢复策略；所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。

结合第一方面的第二种可能的实现方式的第一种具体实现方式，所述确定故障对象为所述被监测网元中的业务处理单元，具体包括：

根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数，计算业务处理单元执行的业务的业务成功率；

将所述业务成功率与第一参考值进行比较；

确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象。

结合第一方面的第二种可能的实现方式的第一种具体实现方式的第一种更具体的实现方式，所述将所述业务成功率与第一参考值进行比较，具体包括：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化业务处理单元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

其中，所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同，且所述业务被离散分配的业务处理单元。

结合第一方面的第二种可能的实现方式的第一种具体实现方式的第二种更具体的实现方式，确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象之前，还包括：

确定同质化业务处理单元中业务成功率大于第一参考值的第一单元集；

确定同质化业务处理单元中业务成功率小于第一参考值的第二单元集；

确定所述第一单元集包含的单元在全体所述同质化业务处理单元中所占的比例大于第一预设比例；

其中，所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同，且所述业务被离散分配至的业务处理单元。

结合第一方面的第二种可能的实现方式的第二种具体实现方式，所述确定故障对象为所述业务处理单元之间的通信路径，具体包括：

根据所述关键绩效指标信息中的通信路径故障导致的业务失败数，计算通信路径的业务成功率；

将所述业务成功率与第三参考值进行比较；

确定所述业务成功率低于第三参考值的通信路径为所述故障对象。

结合第一方面的第三种可能的实现方式的第一种具体实现方式，所述确定故障对象为所述被监测网元，具体包括：

根据各个业务处理单元的所述关键绩效指标信息中的各个业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数，统计所述各个业务处理单元的业务成功率；

将所述业务成功率与第二参考值进行比较；

确定所述业务成功率低于第二参考值的业务处理单元的数量；

根据所述数量确定所述业务成功率低于第二参考值的业务处理单元在所述被监测网元中的全部业务处理单元中所占的比例；

当所述比例大于第二预设比例时，确定所述被监测网元为所述故障对象。

结合第一方面的第三种可能的实现方式的第一种具体实现方式的第一种更具体的实现方式，所述将所述业务成功率与第二参考值进行比较，具体包括：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化网元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

其中，所述同质化网元为承载的业务的业务逻辑与所述被监测网元相同，且所述业务被离散分配至的被监测网元。

结合第一方面的第二种可能的实现方式的第三种具体实现方式，所述确定故障对象为所述被监测网元中的业务处理单元之后，或者，确定故障对象为所述业务处理单元之间的通信路径之后，所述将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，具体包括：

将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。

结合第一方面的第三种可能的实现方式的第二种具体实现方式，所述确定故障对象为所述被监测网元之后，或者，确定故障对象为所述被监测网元与另外的网元之间的通信路径之后，所述将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，具体包括：

将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排MANO单元。

结合第一方面的第二种可能的实现方式的第四种具体实现方式，所述确定故障对象为所述被监测网元中的业务处理单元之后，还包括：

确定发生故障的所述业务处理单元的数量达到预设阈值；

确定网络级的故障恢复策略；所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。

结合第一方面的第三种可能的实现方式的第三种具体实现方式，所述确定网络级的故障恢复策略，具体包括：

获取与被确定为故障对象的所述被监测网元相关的冗余网元的状态信息；

根据所述状态信息，确定处于正常工作状态的冗余网元；

生成网络级的故障恢复指示信息，所述故障恢复指示信息用于指示所述管理单元采用所述处于正常工作状态的冗余网元替换被确定为故障对象的所述被监测网元；

或者，所述确定网络级的故障恢复策略，具体包括：获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息；

根据所述状态信息，确定处于正常工作状态的冗余网元；

生成网络级的故障恢复指示信息，所述故障恢复指示信息用于指示所述管理单元将所述通信路径中的前端网元对应的后端网元切换为所述处于正常工作状态的冗余网元。

根据本申请的第二方面的第一种可能的实现方式，本申请提供一种故障恢复装置，包括：

获取单元，用于获取被监测网元中的各个业务处理单元的关键绩效指标信息；

确定单元，用于根据所述关键绩效指标信息，确定故障对象；

根据所述故障对象，确定故障恢复策略；

发送单元，用于将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，以便所述管理单元采用所述故障恢复策略进行故障恢复。

结合第二方面的第二种可能的实现方式，所述确定单元，具体用于：

确定故障对象为所述被监测网元中的业务处理单元；

或者确定故障对象为所述业务处理单元之间的通信路径；

结合第二方面的第三种可能的实现方式，所述确定单元，具体用于：

确定故障对象为所述被监测网元；

结合第二方面的第二种可能的实现方式的第一种具体的实现方式，所述确定单元，具体用于：

将所述业务成功率与第一参考值进行比较；

结合第二方面的第二种可能的实现方式的第一种具体的实现方式的第一种更具体的实现方式，所述确定单元，具体用于：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化业务处理单元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

结合第二方面的第二种可能的实现方式的第一种具体的实现方式的第二种更具体的实现方式，所述确定单元还用于：

在确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象之前，确定同质化业务处理单元中业务成功率大于第一参考值的第一单元集；

结合第二方面的第二种可能的实现方式的第二种具体的实现方式，所述确定单元，具体用于：

将所述业务成功率与第三参考值进行比较；

结合第二方面的第三种可能的实现方式的第一种具体的实现方式，所述确定单元，具体用于：

将所述业务成功率与第二参考值进行比较；

结合第二方面的第三种可能的实现方式的第一种具体的实现方式的第一种更具体的实现方式，所述确定单元，具体用于：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化网元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

结合第二方面的第二种可能的实现方式的第三种具体的实现方式，所述发送单元，具体用于：

确定故障对象为所述被监测网元中的业务处理单元之后，或者，确定故障对象为所述业务处理单元之间的通信路径之后，将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。

结合第二方面的第三种可能的实现方式的第二种具体的实现方式，所述发送单元，具体用于：

确定故障对象为所述被监测网元之后，或者，确定故障对象为所述被监测网元与另外的网元之间的通信路径之后，将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排MANO单元。

结合第二方面的第二种可能的实现方式的第四种具体的实现方式，所述确定单元还用于：

在确定故障对象为所述被监测网元中的业务处理单元之后，确定发生故障的所述业务处理单元的数量达到预设阈值；

结合第二方面的第三种可能的实现方式的第三种具体的实现方式，所述获取单元还用于：

所述确定单元，还用于根据所述状态信息，确定处于正常工作状态的冗余网元；

或者，所述获取单元还用于，获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息；

所述确定单元还用于，根据所述状态信息，确定处于正常工作状态的冗余网元；

根据本申请提供的具体实施例，本申请公开了以下技术效果：

本申请公开的故障恢复方法或装置，通过获取被监测网元中的各个业务处理单元的关键绩效指标信息；根据所述关键绩效指标信息，确定故障对象；根据所述故障对象，确定故障恢复策略；将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元；可以通过关键绩效指标信息对于故障进行定位，解决根据网元的心跳消息对于故障进行定位的精度较低的问题。

此外，由于根据所述故障对象，确定故障恢复策略；将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元；所以可以采用适当的故障恢复策略，减小故障恢复过程带来的风险，降低故障恢复过程对业务的影响。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的网络功能虚拟化(NFV)系统的架构图；

图2为本申请的故障恢复方法实施例1的流程图；

图3为本申请的故障恢复方法实施例2的流程图；

图4为本申请的故障恢复方法实施例3的流程图；

图5为本申请的故障恢复装置实施例的结构图；

图6为本申请的计算节点的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

图1为本申请的网络功能虚拟化(NFV)系统的架构图。本申请的故障恢复方法主要应用于NFV系统中。如图1所示，NFV系统中主要包括如下网元：

运营支撑系统(Operations Support System，OSS)/业务支撑系统(Business Support System，BSS)，用于向网络功能虚拟化编排器(NFV Orchestrator)发起服务请求，及服务所需的资源，负责故障处理。

编排器(Orchestrator)，负责根据OSS/BSS的服务请求，实现NFV服务；负责网络服务(Network Service，NS)的生命周期管理，编排管理资源，实时监测虚拟化网络功能(Virtualized Network Function，VNF)、网络功能虚拟化基础设施(Network Function Virtulization Infrastructure，NFVI)资源及运行状态信息。

虚拟化网络功能管理器(VNF Manager，VNFM)，负责VNF生成周期管理，如启动、生存时间、VNF运行状态信息。

虚拟化基础设施管理器(Virtualized Infrastructure Manager，VIM)，负责管理、分配NFVI的资源；监测收集NFVI运行状态信息。

网元管理系统(Element Management System，EMS)，负责网元的故障管理，配置管理，计费管理，性能管理，安全管理(Fault Management，Configurat ion Management，Account ing Management，Performance Management，Security Management，FCAPS)。

NFVI资源:包括所有NFVI资源状态，可用的/已预留的/已分配的NFVI资源。

本申请的故障恢复方法的执行主体可以是网元关键绩效指标(Key Performance Indicator，KPI)监控与恢复决策模块或者。所述网元KPI监控与恢复决策模块或者网络KPI监控与恢复决策模块可以部署在NFV系统中的VNF、EMS、管理和编排(Management and Orchestrator，MANO)单元、或独立的网络节点上。两者物理上可以合一部署，也可以分开部署。

图2为本申请的故障恢复方法实施例1的流程图。本实施例的方法的执行主体可以是网元KPI监控与恢复决策模块或者网络KPI监控与恢复决策模块。如图2所示，该方法可以包括：

步骤101：获取被监测网元中的各个业务处理单元的关键绩效指标(Key Performance Indicator，KPI)信息；

所述被监测网元可以是网络功能虚拟化(Network Function Virtualization，NFV)系统中的网元，例如VNF。

所述被监测网元中可以具有一个或多个业务处理单元。

所述关键绩效指标信息可以包括业务处理单元接收到的业务请求数、所述业务请求数对应的业务的失败数、和/或每次业务失败的原因等信息。实际应用中，所述关键绩效指标信息中包含的信息种类，可以根据需求进行设定。例如，所述关键绩效指标信息中还可以包括业务时延信息等。

所述被监测网元可以周期性上报所述关键绩效指标信息。

需要说明的是，在执行步骤101之前，还可以根据EMS、和/或MANO的信息，确定需要监测的网元。可以获取EMS、和/或MANO记录的网元内部署的业务处理单元信息，以及网络上部署的网元信息，将记录的网络上部署的网元信息对应的网元，确定为所述被监测网元；将记录的网元内部署的业务处理单元信息对应的业务处理单元，确定为需要被监测的业务处理单元。

步骤102：根据所述关键绩效指标信息，确定故障对象；

例如，根据所述关键绩效指标信息可以计算业务处理单元执行业务的成功率。当所述成功率低于一定比例时，可以确定故障对象为所述业务处理单元。当成功率较低的业务处理单元的个数较多(例如超过被监测网元的业务处理单元的总数的80％)时，可以确定故障对象为所述被监测网元外部的网元。又例如，当所述关键绩效指标信息中记录的被监测网元到下一级网元通信超时导致的业务失败数较高时，可以确定被监测网元至下一级网元的通信路径发生故障或者下一级网元发生故障。

步骤103：根据所述故障对象，确定故障恢复策略；

当所述故障对象为所述被监测网元内部的业务处理单元时，可以确定网元级的的故障恢复策略；所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。

当所述故障对象为所述被监测网元外部的网元时，可以确定网络级的的故障恢复策略；所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。

步骤104：将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，以便所述管理单元采用所述故障恢复策略进行故障恢复。

所述管理单元可以是网络功能虚拟化系统中所述被监测网元中的的系统管理模块，也可以是网络功能虚拟化系统中的管理和编排MANO单元。

采用网元级的故障恢复策略，进行故障恢复，可以包括以下方式：

确定发生故障的所述业务处理单元的备用单元；将发生故障的所述业务处理单元承载的业务切换至所述备用单元。

或者，对发生故障的所述业务处理单元进行复位。

其中，当所述备用单元出现故障时，可以对发生故障的所述业务处理单元以及所述备用单元进行隔离。

采用网络级的故障恢复策略，进行故障恢复，可以包括以下方式：

确定发生故障的所述网元的备用网元；

将发生故障的所述网元承载的业务切换至所述备用网元。

或者，确定发生故障的所述路径的备用路径；

将发生故障的所述路径承载的业务切换至所述备用路径。

其中，当确定所述备用路径发生故障时，还可以确定所述备用路径一端的网元的备用网元；

将所述备用路径一端的网元承载的业务切换至所述备用网元。

综上所述，本实施例中，通过获取被监测网元中的各个业务处理单元的关键绩效指标信息；根据所述关键绩效指标信息，确定故障对象；根据所述故障对象，确定故障恢复策略；将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元；可以通过关键绩效指标信息对于故障进行定位，解决根据网元的心跳消息对于故障进行定位的精度较低的问题。此外，由于根据所述故障对象，确定故障恢复策略；将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元；所以可以采用适当的故障恢复策略，减小故障恢复过程带来的风险，降低故障恢复过程对业务的影响。

实际应用中，所述确定故障对象，具体可以包括：

确定故障对象为所述被监测网元中的业务处理单元；

或者确定故障对象为所述业务处理单元之间的通信路径；

所述根据所述故障对象，确定故障恢复策略，具体可以包括：

实际应用中，所述确定故障对象，具体还可以包括：

确定故障对象为所述被监测网元。

或者，确定故障对象为所述被监测网元与另外的网元之间的通信路径。

需要说明的是，基于本申请实施例中的方法，在实际应用中，对于网元级的故障，可以先采用网元级的故障恢复策略进行故障恢复；如果恢复失败，可以再采用网络级的故障恢复策略进行故障恢复。

实际应用中，所述确定故障对象为所述被监测网元中的业务处理单元，具体可以采用以下步骤：

将所述业务成功率与参考值进行比较；

确定所述业务成功率低于参考值的业务处理单元为所述故障对象。

上述步骤中，所述业务失败数，可以是由于业务处理单元自身原因导致的业务失败数。具体的，所述关键绩效指标信息可以记录业务失败的原因，可以根据业务失败的原因，统计由于业务处理单元自身原因导致的业务失败数。

还需要说明的是，上述步骤中，所述参考值可以是预先设定的数值，也可以是根据同质化业务处理单元的平均业务成功率统计得到的同质化参考值。因此，所述将所述业务成功率与参考值进行比较，具体可以包括：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化业务处理单元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

需要说明的是，对于同质化业务处理单元，有时会存在以下现象：由于某种原因，导致多个同质化业务处理单元的业务成功率均低于预设参考值，此时并不一定是低于预设参考值的同质化业务处理单元发生故障。可以是其他设备故障导致的大多数同质化业务处理单元的业务成功率下降。在上述情况中，为了避免错误地确定同质化业务处理单元发生故障，确定所述业务成功率低于参考值的业务处理单元为所述故障对象之前，还可以采用以下步骤：

确定同质化业务处理单元中业务成功率大于预设参考值的第一单元集；

确定同质化业务处理单元中业务成功率小于预设参考值的第二单元集；

确定所述第一单元集包含的单元在全体所述同质化业务处理单元中所占的比例大于预设比例。

上述步骤中，所述预设比例可以根据实际需求进行设置，例如可以设置为90％。即，当90％或以上的同质化业务处理单元的业务成功率高于预设参考值，而10％或以下的同质化业务处理单元的业务成功率低于预设参考值时，可以确定所述业务成功率低于参考值的同质化业务处理单元为所述故障对象。

实际应用中，所述确定故障对象为所述业务处理单元之间的通信路径，具体可以包括：

将所述业务成功率与参考值进行比较；

确定所述业务成功率低于参考值的通信路径为所述故障对象。

实际应用中，所述确定故障对象为所述被监测网元所归属的网络中的网元，具体可以包括：

根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数，统计所述被监测网元的业务成功率；

将所述业务成功率与参考值进行比较；

确定所述业务成功率低于参考值的所述被监测网元为所述故障对象。

需要说明的是，一个网元中可以包括多个业务处理单元。因此，可以获取一个网元中各个业务处理单元的关键绩效指标信息；根据各个业务处理单元的关键绩效指标信息中包含的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数，统计所述网元接收到的业务请求数以及所述业务请求数对应的业务的失败数，进而计算所述被监测网元的业务成功率。

实际应用中，所述将所述业务成功率与参考值进行比较，具体可以包括：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化网元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

图3为本申请的故障恢复方法实施例2的流程图。本实施例的方法的执行主体可以是网元KPI监控与恢复决策模块。如图3所示，该方法可以包括：

步骤201：获取被监测网元中的各个业务处理单元的关键绩效指标信息；

本实施例中，所述业务处理单元可以包括线程、进程、虚拟机(Virtual Machine，VM)等。所述关键绩效指标信息至少可以包括以下信息：业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数。

步骤202：根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数，计算业务处理单元执行的业务的业务成功率；

所述业务成功率可以采用所述业务请求数减去所述失败数，再除以所述业务请求数，乘以100％得到。

步骤203：将所述业务成功率与参考值进行比较；

所述参考值可以根据实际需求进行设置。例如，当正常的业务处理单元的业务成功率在95％以上时，所述参考值可以设置为95％。

或者，所述参考值可以根据同质化业务处理单元的平均业务成功率进行计算得到。其中，所述同质化业务处理单元为与所述业务成功率对应的业务处理单元所承载的业务逻辑相同且外部业务组网也相同的业务处理单元。多个同质化业务处理单元接收到(被分发)的业务请求消息是随机离散的。因此，多个同质化业务处理单元的业务成功率应该基本相似。所以，可以根据同质化业务处理单元的平均业务成功率进行计算得到同质化参考值。

具体的，可以将所述平均业务成功率减去预设数值得到同质化参考值。所述预设数值可以根据实际需求设置。例如，可以是20％，10％等等。

步骤204：确定所述业务成功率低于参考值的业务处理单元为所述故障对象。

步骤205：当所述故障对象为业务处理单元时，确定网元级的故障恢复策略；

步骤206：将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。

步骤205中的所述网元级的故障恢复策略，可以是指示所述系统管理模块对发生故障的所述业务处理单元进行复位。所述系统管理模块接收到所述网元级的故障恢复策略后，可以对发生故障的所述业务处理单元进行复位。

需要说明的是，如果复位后的业务处理单元依然出现故障，还可以对发生故障的所述业务处理单元进行隔离。进一步的，当确定隔离的业务处理单元的数量达到第二预设阈值时，可以执行网络级的故障恢复策略；所述网络级的故障恢复策略用于在所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。例如，可以对被监测网元的下一跳故障网元或通信路径进行倒换等。倒换的目标网元或通信路径可以根据容灾组内各网元或通信路径的健康状态进行选取。

还需要说明的是，当发生故障的业务处理单元为主备型的业务处理单元时，所述故障恢复策略可以是：确定发生故障的所述业务处理单元的备用单元；将发生故障的所述业务处理单元承载的业务切换至所述备用单元。进一步的，当确定所述备用单元出现故障时，可以对发生故障的所述业务处理单元以及所述备用单元进行隔离。

图4为本申请的故障恢复方法实施例3的流程图。本实施例的方法的执行主体可以是网络KPI监控与恢复决策模块。如图4所示，该方法可以包括：

步骤301：获取被监测网元中的各个业务处理单元的关键绩效指标信息；

步骤302：根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数，计算各个业务处理单元执行的业务的业务成功率；

步骤303：将所述业务成功率与参考值进行比较；

步骤304：确定所述业务成功率低于参考值的业务处理单元的数量；

步骤305：根据所述数量确定所述业务成功率低于参考值的业务处理单元在所述被监测网元中的全部业务处理单元中所占的比例；

假设业务成功率低于参考值的业务处理单元的数量为8个，所述被监测网元中的全部业务处理单元数量为10个，则所述比例为80％。

步骤306：当所述比例大于预设比例时，确定故障对象为所述被监测网元。

所述预设比例可以根据实际需求进行设置。例如，所述预设比例可以设置为50％、80％等等。

步骤307：当所述故障对象为所述被监测网元所归属的网络中的网元时，确定网络级的故障恢复策略；

当故障发生位置为所述被监测网元所归属的网络中的网元时，需要采用网络级的故障恢复策略，以便对发生故障的网元进行修复。

实际应用中，所述确定网络级的故障恢复策略，具体可以有多种实现方式。例如，可以采用以下步骤：

根据所述状态信息，确定处于正常工作状态的冗余网元；

生成网络级的故障恢复指示信息，所述故障恢复指示信息用于指示所述管理单元采用所述处于正常工作状态的冗余网元替换被确定为故障对象的所述被监测网元。

上述步骤，可以确保用于替换发生故障的被监测网元的冗余网元是可以正常工作的。如果被监测网元的冗余网元均出现异常，则可以不再采用预先设定的冗余网元替换发生故障的被监测网元，可以查找其它可以正常工作的网元来替换所述发生故障的被监测网元。

又例如，可以采用以下步骤：

获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息；

根据所述状态信息，确定处于正常工作状态的冗余网元；

上述步骤，可以确保切换后的冗余网元是可以正常工作的。如果所述通信路径中的后端网元的冗余网元均出现异常，则可以不再采用预先设定的冗余网元进行切换，可以查找其它可以正常工作的网元来进行切换。

步骤308：将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排MANO单元。

所述网络级的故障恢复策略可以指示MANO单元确定发生故障的所述网元的备用网元；将发生故障的所述网元承载的业务切换至所述备用网元。

MANO接收到所述网络级的故障恢复策略，可以确定发生故障的所述网元的备用网元。确定发生故障的所述网元的备用网元之后，MANO可以向VNFM发送指示信令，指示VNFM将发生故障的所述网元承载的业务切换至所述备用网元。VNFM收到所述指示信令后，可以将发生故障的所述网元承载的业务切换至所述备用网元。

还需要说明的是，本申请实施例中，所述关键绩效指标信息中还可以包括业务失败原因信息，以及该业务失败原因导致的业务失败次数信息。所述业务失败原因可以包括：到下游网元通信超时、资源不足、被监测网元的内部模块之间通信超时、软件内部错误(例如软件内部数据非法、代码走入异常分支等)等。因此，本申请中所述根据所述关键绩效指标信息，确定故障对象，具体还可以包括：

根据关键绩效指标信息中包含的业务失败原因信息，确定故障对象。

可以根据所述关键绩效指标信息中记录的由于业务处理超时导致的业务失败次数以及所述被监测网元发往下游网元的业务请求数，确定由于业务处理超时导致的失败业务比例；

当所述失败业务比例大于或等于预设阈值时，可以确定故障发生位置为所述被监测网元。所述被监测网元归属的网络中的网元可以包括所述网元的外部网元和所述网元本身。相应的，此时也可以采用网络级的故障恢复策略。

另外，对于前面提到的所述同质化业务处理单元，在统计业务失败数时，可以将资源不足导致的业务失败次数排除，不计入业务失败的统计总数中。因为这种情况的成因主要是业务数量过多，而业务处理单元自身通常并没有发生故障。

本申请还提供了一种故障恢复装置。

图5为本申请的故障恢复装置实施例的结构图。如图5所示，该装置可以包括：

获取单元501，用于获取被监测网元中的各个业务处理单元的关键绩效指标信息；

确定单元502，用于根据所述关键绩效指标信息，确定故障对象；

根据所述故障对象，确定故障恢复策略；

发送单元503，用于将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，以便所述管理单元采用所述故障恢复策略进行故障恢复。

本实施例中，通过获取被监测网元中的各个业务处理单元的关键绩效指标信息；根据所述关键绩效指标信息，确定故障对象；根据所述故障对象，确定故障恢复策略；将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元；可以通过关键绩效指标信息对于故障进行定位，解决根据网元的心跳消息对于故障进行定位的精度较低问题。此外，由于根据所述故障对象，确定故障恢复策略；将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元；所以可以采用适当的故障恢复策略，减小故障恢复过程带来的风险，降低故障恢复过程对业务的影响。

实际应用中，所述确定单元502，具体可以用于：

确定故障对象为所述被监测网元中的业务处理单元；

或者确定故障对象为所述业务处理单元之间的通信路径；

实际应用中，所述确定单元502，具体可以用于：

确定故障对象为所述被监测网元；

实际应用中，所述确定单元502，具体可以用于：

将所述业务成功率与第一参考值进行比较；

实际应用中，所述确定单元502，具体可以用于：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化业务处理单元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

实际应用中，所述确定单元502还可以用于：

实际应用中，所述确定单元502，具体可以用于：

将所述业务成功率与第三参考值进行比较；

实际应用中，所述确定单元502，具体可以用于：

将所述业务成功率与第二参考值进行比较；

实际应用中，所述确定单元502，具体可以用于：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化网元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

实际应用中，所述发送单元503，具体可以用于：

实际应用中，所述确定单元502还可以用于：

实际应用中，所述获取单元501还可以用于：

所述确定单元502，还可以用于根据所述状态信息，确定处于正常工作状态的冗余网元；

或者，所述获取单元501还可以用于，获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息；

所述确定单元502还可以用于，根据所述状态信息，确定处于正常工作状态的冗余网元；

另外，本申请实施例还提供了一种计算节点，计算节点可能是包含计算能力的主机服务器，或者是个人计算机PC，或者是可携带的便携式计算机或终端等等，本申请具体实施例并不对计算节点的具体实现做限定。

图6为本申请的计算节点的结构图。如图6所示，计算节点600包括：

处理器(processor)610，通信接口(Communications Interface)620，存储器(memory)630，总线640。

处理器610，通信接口620，存储器630通过总线640完成相互间的通信。

处理器610，用于执行程序632。

具体地，程序632可以包括程序代码，所述程序代码包括计算机操作指令。

处理器610可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器630，用于存放程序632。存储器630可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。程序632具体可以包括图5所示实施例中的相应模块或单元，在此不赘述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种故障恢复方法，其特征在于，包括：

获取被监测网元中的各个业务处理单元的关键绩效指标信息；

根据所述关键绩效指标信息，确定故障对象；

根据所述故障对象，确定故障恢复策略；

将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，以便所述管理单元采用所述故障恢复策略进行故障恢复。
根据权利要求1所述的方法，其特征在于，所述确定故障对象，具体包括：

确定故障对象为所述被监测网元中的业务处理单元；

或者确定故障对象为所述业务处理单元之间的通信路径；

所述根据所述故障对象，确定故障恢复策略，具体包括：

当所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径时，确定网元级的故障恢复策略；所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。
根据权利要求1所述的方法，其特征在于，所述确定故障对象，具体包括：

确定故障对象为所述被监测网元；

或者，确定故障对象为所述被监测网元与另外的网元之间的通信路径；

所述根据所述故障对象，确定故障恢复策略，具体包括：

当所述故障对象为所述被监测网元或者所述被监测网元与另外的网元之间的通信路径时，确定网络级的故障恢复策略；所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
根据权利要求2所述的方法，其特征在于，所述确定故障对象为所述被监测网元中的业务处理单元，具体包括：

根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数，计算业务处理单元执行的业务的业务成功率；

将所述业务成功率与第一参考值进行比较；

确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象。
根据权利要求4所述的方法，其特征在于，所述将所述业务成功率与第一参考值进行比较，具体包括：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化业务处理单元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

其中，所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同，且所述业务被离散分配的业务处理单元。
根据权利要求4所述的方法，其特征在于，确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象之前，还包括：

确定同质化业务处理单元中业务成功率大于第一参考值的第一单元集；

确定同质化业务处理单元中业务成功率小于第一参考值的第二单元集；

确定所述第一单元集包含的单元在全体所述同质化业务处理单元中所占的比例大于第一预设比例；

其中，所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同，且所述业务被离散分配至的业务处理单元。
根据权利要求2所述的方法，其特征在于，所述确定故障对象为所述业务处理单元之间的通信路径，具体包括：

根据所述关键绩效指标信息中的通信路径故障导致的业务失败数，计算通信路径的业务成功率；

将所述业务成功率与第三参考值进行比较；

确定所述业务成功率低于第三参考值的通信路径为所述故障对象。
根据权利要求3所述的方法，其特征在于，所述确定故障对象为所述被监测网元，具体包括：

根据各个业务处理单元的所述关键绩效指标信息中的各个业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数，统计所述各个业务处理单元的业务成功率；

将所述业务成功率与第二参考值进行比较；

确定所述业务成功率低于第二参考值的业务处理单元的数量；

根据所述数量确定所述业务成功率低于第二参考值的业务处理单元在所述被监测网元中的全部业务处理单元中所占的比例；

当所述比例大于第二预设比例时，确定所述被监测网元为所述故障对象。
根据权利要求8所述的的方法，其特征在于，所述将所述业务成功率与第二参考值进行比较，具体包括：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化网元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

其中，所述同质化网元为承载的业务的业务逻辑与所述被监测网元相同，且所述业务被离散分配至的被监测网元。
根据权利要求2所述的方法，其特征在于，所述确定故障对象为所述被监测网元中的业务处理单元之后，或者，确定故障对象为所述业务处理单元之间的通信路径之后，所述将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，具体包括：

将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。
根据权利要求3所述的方法，其特征在于，所述确定故障对象为所述被监测网元之后，或者，确定故障对象为所述被监测网元与另外的网元之间的通信路径之后，所述将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，具体包括：

将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排MANO单元。
根据权利要求2所述的方法，其特征在于，所述确定故障对象为所述被监测网元中的业务处理单元之后，还包括：

确定发生故障的所述业务处理单元的数量达到预设阈值；

确定网络级的故障恢复策略；所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
根据权利要求3所述的方法，其特征在于，所述确定网络级的故障恢复策略，具体包括：

获取与被确定为故障对象的所述被监测网元相关的冗余网元的状态信息；

根据所述状态信息，确定处于正常工作状态的冗余网元；

生成网络级的故障恢复指示信息，所述故障恢复指示信息用于指示所述管理单元采用所述处于正常工作状态的冗余网元替换被确定为故障对象的所述被监测网元；

或者，所述确定网络级的故障恢复策略，具体包括：获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息；

根据所述状态信息，确定处于正常工作状态的冗余网元；

生成网络级的故障恢复指示信息，所述故障恢复指示信息用于指示所述管理单元将所述通信路径中的前端网元对应的后端网元切换为所述处于正常工作状态的冗余网元。
一种故障恢复装置，其特征在于，包括：

获取单元，用于获取被监测网元中的各个业务处理单元的关键绩效指标信息；

确定单元，用于根据所述关键绩效指标信息，确定故障对象；

根据所述故障对象，确定故障恢复策略；

发送单元，用于将所述故障恢复策略发送至网络功能虚拟化系统中的管理单元，以便所述管理单元采用所述故障恢复策略进行故障恢复。
根据权利要求14所述的装置，其特征在于，所述确定单元，具体用于：

确定故障对象为所述被监测网元中的业务处理单元；

或者确定故障对象为所述业务处理单元之间的通信路径；

当所述故障对象为所述被监测网元中的业务处理单元或者所述业务处理单元之间的通信路径时，确定网元级的故障恢复策略；所述网元级的故障恢复策略用于在所述被监测网元内部执行故障恢复操作。
根据权利要求14所述的装置，其特征在于，所述确定单元，具体用于：

确定故障对象为所述被监测网元；

或者，确定故障对象为所述被监测网元与另外的网元之间的通信路径；

当所述故障对象为所述被监测网元或者所述被监测网元与另外的网元之间的通信路径时，确定网络级的故障恢复策略；所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
根据权利要求15所述的装置，其特征在于，所述确定单元，具体用于：

根据所述关键绩效指标信息中的业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数，计算业务处理单元执行的业务的业务成功率；

将所述业务成功率与第一参考值进行比较；

确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象。
根据权利要求17所述的装置，其特征在于，所述确定单元，具体用于：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化业务处理单元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

其中，所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同，且所述业务被离散分配的业务处理单元。
根据权利要求17所述的装置，其特征在于，所述确定单元还用于：

在确定所述业务成功率低于第一参考值的业务处理单元为所述故障对象之前，确定同质化业务处理单元中业务成功率大于第一参考值的第一单元集；

确定同质化业务处理单元中业务成功率小于第一参考值的第二单元集；

确定所述第一单元集包含的单元在全体所述同质化业务处理单元中所占的比例大于第一预设比例；

其中，所述同质化业务处理单元为与所述业务处理单元所承载的业务的业务逻辑相同，且所述业务被离散分配至的业务处理单元。
根据权利要求15所述的装置，其特征在于，所述确定单元，具体用于：

根据所述关键绩效指标信息中的通信路径故障导致的业务失败数，计算通信路径的业务成功率；

将所述业务成功率与第三参考值进行比较；

确定所述业务成功率低于第三参考值的通信路径为所述故障对象。
根据权利要求16所述的装置，其特征在于，所述确定单元，具体用于：

根据各个业务处理单元的所述关键绩效指标信息中的各个业务处理单元接收到的业务请求数以及所述业务请求数对应的业务的失败数，统计所述各个业务处理单元的业务成功率；

将所述业务成功率与第二参考值进行比较；

确定所述业务成功率低于第二参考值的业务处理单元的数量；

根据所述数量确定所述业务成功率低于第二参考值的业务处理单元在所述被监测网元中的全部业务处理单元中所占的比例；

当所述比例大于第二预设比例时，确定所述被监测网元为所述故障对象。
根据权利要求21所述的的装置，其特征在于，所述确定单元，具体用于：

将所述业务成功率与预设参考值进行比较；

或者，确定同质化网元的平均业务成功率；

将所述平均业务成功率减去预设数值得到同质化参考值；

将所述业务成功率与所述同质化参考值进行比较；

其中，所述同质化网元为承载的业务的业务逻辑与所述被监测网元相同，且所述业务被离散分配至的被监测网元。
根据权利要求15所述的装置，其特征在于，所述发送单元，具体用于：

确定故障对象为所述被监测网元中的业务处理单元之后，或者，确定故障对象为所述业务处理单元之间的通信路径之后，将所述故障恢复策略发送至网络功能虚拟化系统中所述被监测网元中的的系统管理模块。
根据权利要求16所述的装置，其特征在于，所述发送单元，具体用于：

确定故障对象为所述被监测网元之后，或者，确定故障对象为所述被监测网元与另外的网元之间的通信路径之后，将所述故障恢复策略发送至网络功能虚拟化系统中的管理和编排 MANO单元。
根据权利要求15所述的装置，其特征在于，所述确定单元还用于：

在确定故障对象为所述被监测网元中的业务处理单元之后，确定发生故障的所述业务处理单元的数量达到预设阈值；

确定网络级的故障恢复策略；所述网络级的故障恢复策略用于对所述被监测网元所处网络中的一个或多个网元执行故障恢复操作。
根据权利要求16所述的装置，其特征在于，所述获取单元还用于：

获取与被确定为故障对象的所述被监测网元相关的冗余网元的状态信息；

所述确定单元，还用于根据所述状态信息，确定处于正常工作状态的冗余网元；

生成网络级的故障恢复指示信息，所述故障恢复指示信息用于指示所述管理单元采用所述处于正常工作状态的冗余网元替换被确定为故障对象的所述被监测网元；

或者，所述获取单元还用于，获取被确定为故障对象的所述通信路径中的后端网元的冗余网元的状态信息；

所述确定单元还用于，根据所述状态信息，确定处于正常工作状态的冗余网元；

生成网络级的故障恢复指示信息，所述故障恢复指示信息用于指示所述管理单元将所述通信路径中的前端网元对应的后端网元切换为所述处于正常工作状态的冗余网元。