WO2018028573A1

WO2018028573A1 - 故障处理方法、装置及控制器

Info

Publication number: WO2018028573A1
Application number: PCT/CN2017/096451
Authority: WO
Inventors: 郭曌
Original assignee: 中兴通讯股份有限公司
Priority date: 2016-08-12
Filing date: 2017-08-08
Publication date: 2018-02-15
Also published as: CN107733672A

Abstract

一种故障处理方法包括：获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息；根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断。

Description

故障处理方法、装置及控制器

技术领域

本公开涉及但不限于通信领域，尤其是一种故障处理方法、装置及控制器。

背景技术

网络故障诊断包括故障识别、故障定位、故障模拟等技术。

在传统网络中，诊断网络故障通常是在多个网络设备节点上，如交换机或路由器，预先配置数据采集方法，例如：配置访问控制列表(Access Control List，简称为ACL)规则，然后通过下发真实的业务数据流或模拟数据流，使每个设备节点产生流量统计信息。运维人员在多个设备节点收集到这些统计信息后，通过人工分析或使用其他辅助分析手段，判断每个设备节点的转发是否正确。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

故障的发现可以通过人工搜集数据加以辅助分析的方式实现，这导致故障定位流程复杂，耗时较长。

本公开实施例提供了一种故障处理方法、装置及控制器，能够避免因故障的发现依赖人工搜集数据加以辅助分析而导致故障定位流程复杂，耗时较长。

本公开实施例提供了一种故障处理方法，包括：获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息；根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断。

在一种示例性实施方式中，在获取所述控制器控制区域内的所述网络设备上报的用于标识所述网络设备运行状态的所述第一指标参数信息之前，还包括：获取所述网络设备支持的用于标识所述网络设备运行状态的第二指标参数信息；根据获取的所述网络设备支持的所述第二指标参数信息，以及所述控制器支持的用于标识网络设备运行状态的第三指标参数信息，确定所述网络设备上报的所述第一指标参数信息。

在一种示例性实施方式中，获取所述控制器控制区域内的所述网络设备上报的用于标识所述网络设备运行状态的所述第一指标参数信息包括：定时向所述网络设备发送用于指示所述网络设备上报所述第一指标参数信息的指示消息；接收所述网络设备上报的所述第一指标参数信息；或者，向所述网络设备发送用于订阅所述第一指标参数信息的订阅消息；接收所述网络设备根据所述订阅消息定时上报的所述第一指标参数信息。

在一种示例性实施方式中，根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断包括：根据所述第一指标参数信息中携带的指标参数值，以及预设指标参数阈值，判断所述指标参数值是否大于或者等于所述预设指标参数阈值；在所述指标参数值大于或者等于所述预设指标参数阈值的情况下，确定所述网络设备处于故障状态。

在一种示例性实施方式中，在根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断之后，还包括，在故障诊断的结果为所述网络设备处于故障状态的情况下，向管理平台上报所述网络设备的故障信息；据所述管理平台针对所述故障信息下发的用于故障修复的故障修复指令，对所述网络设备进行故障修复。

本公开实施例还提供了一种故障处理装置，包括：第一获取模块，设置为：获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息；诊断模块，设置为：根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断。

在一种示例性实施方式中，所述装置还包括：第二获取模块，设置为：获取所述网络设备支持的用于标识所述网络设备运行状态的第二指标参数信息；确定模块，设置为：根据获取的所述网络设备支持的所述第二指标参数信息，以及所述控制器支持的用于标识网络设备运行状态的第三指标参数信息，确定所述网络设备上报的所述第一指标参数信息。

在一种示例性实施方式中，所述第一获取模块包括：第一发送单元，设置为：定时向所述网络设备发送用于指示所述网络设备上报所述第一指标参数信息的指示消息；第一接收单元，设置为：接收所述网络设备上报的所述第一指标参数信息；或者，第二发送单元，设置为：向所述网络设备发送用于订阅所述第一指标参数信息的订阅消息；第二接收单元，设置为：接收所述网络设备根据所述订阅消息定时上报的所述第一指标参数信息。

在一种示例性实施方式中，所述诊断模块包括：判断单元，设置为：根据所述第一指标参数信息中携带的指标参数值，以及预设指标参数阈值，判断所述指标参数值是否大于或者等于所述预设指标参数阈值；确定单元，设置为：在所述指标参数值大于或者等于所述预设指标参数阈值的情况下，确定所述网络设备处于故障状态。

在一种示例性实施方式中，所述装置还包括，上报模块，设置为：在故障诊断的结果为所述网络设备处于故障状态的情况下，向管理平台上报所述网络设备的故障信息；修复模块，设置为：根据所述管理平台针对所述故障信息下发的用于故障修复的故障修复指令，对所述网络设备进行故障修复。

本公开实施例还提供了一种控制器，所述控制器包括上述任一项所述的故障处理装置。

本公开实施例还提供了一种存储介质，该存储介质设置为存储用于执行以下步骤的程序代码：获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息；根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断。

在一种示例性实施方式中，存储介质还设置为存储用于执行以下步骤的程序代码：在获取所述控制器控制区域内的所述网络设备上报的用于标识所述网络设备运行状态的所述第一指标参数信息之前，还包括：获取所述网络设备支持的用于标识所述网络设备运行状态的第二指标参数信息；根据获取的所述网络设备支持的所述第二指标参数信息，以及所述控制器支持的用于标识网络设备运行状态的第三指标参数信息，确定所述网络设备上报的所述第一指标参数信息。

在一种示例性实施方式中，存储介质还设置为存储用于执行以下步骤的程序代码：获取所述控制器控制区域内的所述网络设备上报的用于标识所述网络设备运行状态的所述第一指标参数信息包括：定时向所述网络设备发送用于指示所述网络设备上报所述第一指标参数信息的指示消息；接收所述网络设备上报的所述第一指标参数信息；或者，向所述网络设备发送用于订阅所述第一指标参数信息的订阅消息；接收所述网络设备根据所述订阅消息定时上报的所述第一指标参数信息。

在一种示例性实施方式中，存储介质还设置为存储用于执行以下步骤的程序代码：根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断包括：根据所述第一指标参数信息中携带的指标参数值，以及预设指标参数阈值，判断所述指标参数值是否大于或者等于所述预设指标参数阈值；在所述指标参数值大于或者等于所述预设指标参数阈值的情况下，确定所述网络设备处于故障状态。

在一种示例性实施方式中，存储介质还设置为存储用于执行以下步骤的程序代码：在根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断之后，还包括，在故障诊断的结果为所述网络设备处于故障状态的情况下，向管理平台上报所述网络设备的故障信息；据所述管理平台针对所述故障信息下发的用于故障修复的故障修复指令，对所述网络设备进行故障修复。

本公开实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令被执行时实现上述故障处理方法。

通过本公开，采用控制器对网络设备进行控制的新型网络架构，将网络设备控制面与数据面分离开来，使设备不再具有控制权，只有转发功能，控制权由集中的控制器管理。通过网络设备上报用于标识其运行状态的第一指标参数，由控制器对网络设备进行故障诊断，故障的发现不再依赖人工搜集数据加以辅助分析，因此，可以避免因故障的发现依赖人工搜集数据加以辅助分析而导致故障定位流程复杂，耗时较长，达到简化故障定位流程，提高故障处理效率的效果。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图概述

图1是本公开实施例的一种故障处理方法的控制器的硬件结构框图；

图2是根据本公开实施例的故障处理方法的流程图；

图3是根据本公开可选实施例的SDN组网示意图；

图4是根据本公开可选实施例的故障处理方法的流程图；

图5是根据本公开可选实施例的一种控制器获取网络设备监控能力的流程图；

图6是根据本公开可选实施例的另一种控制器获取网络设备监控能力的流程图；

图7是根据本公开可选实施例的一种控制器获取监控统计信息的流程图；

图8是根据本公开可选实施例的另一种控制器获取监控统计信息的流程图；

图9是根据本公开可选实施例的又一种控制器获取监控统计信息的流程图；

图10是根据本公开可选实施例的控制器分析潜在故障风险点并上报告警的流程图；

图11是根据本公开可选实施例的控制器分析故障节点并上报故障告警的流程图；

图12是根据本公开可选实施例的控制器分析故障节点并修复故障的流程图；

图13是根据本公开实施例的一种故障装置的结构框图；

图14是根据本公开实施例的另一种故障装置的结构框图；

图15是根据本公开实施例的故障装置中的第一获取模块132的结构框图；

图16是根据本公开实施例的故障装置中的诊断模块134的结构框图；

图17是根据本公开实施例的又一种故障装置的结构框图；

图18是根据本公开实施例的控制器的结构框图。

本公开的较佳实施方式

下面结合附图对本公开的实施方式进行描述。

可以说明的是，本公开中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

通过前述描述可以发现，在多个网络设备节点上预先配置数据采集方法，然后通过下发真实的业务数据流或模拟数据流，使每个设备节点产生流量统计信息，运维人员在多个设备节点收集到这些统计信息后，通过人工分析或使用其他辅助分析手段，判断每个设备节点的转发是否正确的诊断技术中故障识别的指标单一且固化，不能根据业务需求实时变更统计指标；故障发现依赖人工搜集数据加以辅助分析，导致故障定位流程复杂，耗时较长；对于已部署网络，诊断活动受制于运维计划，诊断窗口时间有限，更加剧了上述情况；另一方面，在定位出故障后，需要运维人员根据定位结果修复故障，不具备可自愈能力。

软件定义网络(Software Defined Network，简称为SDN)，是一种新型网络创新架构。本公开提供了利用控制器及网络设备的故障处理方法、装置及控制器，可基于SDN，具有如下至少一种优势：能够根据业务需求实时变更统计指标；使故障定位流程简单化，耗时减少；具备可自愈能力。本申请通过将网络设备控制面与数据面分离开来，使设备不再具有控制权，只有转发功能，控制权由集中的控制器管理。用户可以通过控制器对网络设备使用自定义的路由或传输策略，并能进行统一配置，这样有利于网络自动化管理，并能更灵活地响应业务需求。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在控制器上为例，图1是本公开实施例的一种故障处理方法的控制器的硬件结构框图。如图1所示，控制器10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU(Micro Controller Unit，微控制器单元)或可编程逻辑器件FPGA(Field Programmable Gate Array，现场可编程门阵列)等的处理装置)、设置为存储数据的存储器104、以及设置为通信功能的传输装置106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，控制器10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可设置为：存储应用软件的软件程序以及模块，如本公开实施例中的故障处理方法对应的程序指令/模块，处理器102可设置为：通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104还可包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至控制器10。上述网络的实例可包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106可设置为：经由一个网络接收或者发送数据。上述的网络实例可包括控制器10的通信供应商提供的无线网络。在一个实例中，传输装置106可包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其设置为：通过无线方式与互联网进行通讯。

在本实施例中提供了一种故障处理方法，可运行于上述控制器或网络架构，图2是根据本公开实施例的故障处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息；

步骤S204，根据获取的第一指标参数信息，对该网络设备进行故障诊断。

通过上述步骤，通过网络设备上报用于标识其运行状态的第一指标参数，由控制器对网络设备进行故障诊断，故障的发现不再依赖人工搜集数据加以辅助分析，避免了因故障的发现依赖人工搜集数据加以辅助分析而导致故障定位流程复杂、耗时较长，简化了故障定位流程，提高了故障处理效率。

可选地，上述步骤的执行主体可以为控制器等，但不限于此。

可选地，步骤S202和步骤S204的执行顺序是可以互换的，即可以先执行步骤S204，然后再执行S202。即，步骤S202和步骤S204可以循环执行。

可选地，在步骤S202之前，可以采用多种方式确定该第一指标参数信息。

例如，网络设备可以直接向控制器上报该网络设备支持的用于标识网络设备运行状态的指标参数信息作为第一指标参数信息，此时，控制器可以根据自身支持的用于标识网络设备运行状态的指标参数信息对网络设备上报的第一指标参数进行筛选，从而确定可以用于故障诊断的指标参数信息。

对于上述确定该第一指标参数信息的方式，可以通过提前配置上报消息中设定指标参数信息的格式，也就是不同指标参数信息各自的在消息中的位置。下面举例进行说明，上报消息中配置的指标参数信息包括：指标参数0至指标参数5。网络设备支持的指标参数信息(也就是网络设备可以检测并上报的指标参数信息)包括：指标参数0、指标参数1、指标参数3、指标参数4，控制器支持的指标参数信息包括：指标参数0、指标参数1、指标参数3、指标参数5。网络设备可以在上报消息中与指标参数0、指标参数1、指标参数3、指标参数4对应的位置上上报监测到的指标参数信息，通过在指标参数2、指标参数5对应的位置上发送预设的用于标识不支持该指标参数的内容。控制器接收到上报的消息后，获取其中的指标参数信息，确定上报的指标参数中网络设备支持的指标参数包括：指标参数0、指标参数1、指标参数3、指标参数4，并根据自身支持的指标参数信息对上报的指标参数进行过滤，过滤掉指标参数5，确定可以用来进行故障诊断的指标参数包括指标参数0、指标参数1、指标参数3，同时根据实际需要确定用来进行故障诊断的指标参数(例如，指标参数1、指标参数3)。

又例如，还可以采用如下方式确定该第一指标参数信息：获取网络设备支持的用于标识所述网络设备运行状态的第二指标参数信息；根据获取的网络设备支持的第二指标参数信息，以及控制器支持的用于标识网络设备运行状态的第三指标参数信息，确定网络设备上报的第一指标参数信息。与前述确定第一指标参数信息的方式相比，通过协商的方式确定第一指标参数信息的方式，可以减少网络设备上报第一指标参数信息的数据量，减少对网络资源的占用，降低系统的负荷。

通过本公开实施例的上述技术方案，通过网络设备与控制器进行协商确定第一指标参数信息，可以减少网络设备上报第一指标参数信息的数据量，减少对网络资源的占用，降低系统的负荷。

可选地，在步骤S202中，可以采用多种方式获取控制器控制区域内的网络设备上报的用于标识该网络设备运行状态的第一指标参数信息，例如，控制器可以定时向网络设备发送用于指示网络设备上报第一指标参数信息的指示消息；网络设备根据指示消息中上报第一指标参数，控制器接收该网络设备根据指示消息上报的第一指标参数信息。又例如，控制器可以向网络设备发送用于订阅第一指标参数信息的订阅消息，订阅消息中可以携带网络设备上报第一指标参数信息的周期或者时间(例如，一天中的某一或者某些时刻)，也可以在发送订阅消息之前在网络设备中配置上报第一指标参数信息的周期或者时间。网络设备接收到订阅消息后，可根据上报第一指标参数信息的周期或者时间，定时向控制器上报第一指标参数信息；控制器可接收该网络设备根据订阅消息定时上报的第一指标参数信息。

通过本公开实施例的上述技术方案，通过不同的方式上报第一指标参数信息，提高了上报指标参数信息的灵活性。

可选地，在步骤S204中，可以采用多种方式对网络设备进行故障诊断。例如，可以通过对参考数据集进行建模的方式确定指标参数信息与故障之间的对应关系，以获取的第一指标参数信息作为输入，确定网络设备是否发生故障以及故障的类型。又例如，可以根据第一指标参数信息中携带的指标参数值，以及预设指标参数阈值，判断指标参数值是否大于或者等于预设指标参数阈值，在指标参数值大于或者等于预设指标参数阈值的情况下，确定所述网络设备处于故障状态。这里的第一指标参数信息可以包括以下至少之一：例如，网络设备的丢包率、中央处理器(Central Processing Unit，简称CPU)利用率、处理数据包的平均时延。通过设置预设指标参数阈值的方式对第一指标参数信息中的指标参数值进行比较，对网络设备的故障状态进行判断，简化了故障判断流程，提高了故障诊断的效率。

通过本公开实施例的上述技术方案，通过设置预设指标参数阈值的方式对第一指标参数信息中的指标参数值进行比较，对网络设备的故障状态进行判断，简化了故障判断流程，提高了故障诊断的效率。

可选地，在步骤S204之后，在故障诊断的结果为网络设备处于故障状态的情况下，控制器可以向对控制器所在的网络进行管理的管理平台上报网络设备的故障信息，故障信息中可以携带标识网络设备的网络设备标识以及故障类型，还可以携带故障相关的信息。管理平台接收到控制器上报的故障信息后，可对该故障信息进行分析，根据预设策略确定对故障信息中的故障进行修复的故障修复方式，并针对故障信息下发用于故障修复的故障修复指令。控制器可根据接收到的故障修复指令，对网络设备进行故障修复，例如，调整流量转发路径以减少故障节点的业务负荷。

通过本公开实施例的上述技术方案，通过向管理平台上报故障信息，并根据管理平台下发的故障修复指令进行故障修复，提高了系统的对故障的自愈能力。

基于上述实施例及可选实施方式，为说明方案的整个流程交互，在本可选实施例中，提供了一种故障处理方法，该方法可以运行在如图3所示的SDN网络中。如图3所示，在该SDN网络中，控制器可设置为：通过南向协议，如netconf，of-conf，openflow等，控制多台转发设备，并可向网络设备上部署的监控模块下发配置参数；从监控模块收集监控统计信息，并向监控模块订阅监控事件。通过扩展控制器上的应用(APP)，可快速满足不同的业务场景下的不同需求。

图4是根据本公开可选实施例的故障处理方法的流程图。如图4所示，该流程包括以下步骤：

步骤S402，SDN网络中部署的网络设备上驻留并长期运行监控模块。

该监控模块可对网络运行的关键参数进行采集统计，同时可监控网络设备的实时运行指标。

步骤S404，通过SDN网络控制器对监控模块的统计和监控的指标参数进行配置。

SDN网络中的控制器可以对网络设备中的监控模块的统计和监控指标参数进行配置。同时，控制器还可以通过南向协议(如netconf，of-conf，openflow等)，调整监控模块上的配置参数或订阅监控事件。

上述配置过程，可以建立在控制器与监控模块对监控能力协商的基础上。可由监控模块向控制器暴露能够支持的监控能力，由控制器根据业务需求选择使用；也可以是控制器与监控模块相互暴露监控能力，协商双方能够支持能力。

可选地，对于控制器与监控模块相互暴露监控能力，协商双方能够支持能力的方式，可以通过如图5所示流程实现。SDN控制器通过南向协议，与设备双向协商所有监控指标能力的流程，如图5所示，该流程可包括如下步骤：

步骤S502，网络设备接入控制器；

步骤S504，控制器与网络设备协商监控模块支持的能力版本。

控制器收到网络设备接入通知后，可根据网络设备接入时携带的南向协议信息，选择南向协议与网络设备握手建立连接。在建立连接过程中，控制器可以与网络设备协商监控模块支持的能力版本，协商报文可具有，但不限于如下形式：

网络设备发给控制器的协商报文：

控制器发给网络设备的协商报文：

上述支持的能力版本可包括基础支持能力版本<base>，以及可支持能力版本<supports>，其中<support>2.0.1:</support>代表可支持2.0.1以上版本。控制器与网络设备可根据对方提供的版本信息，选择适当版本，并随后发送能力协商报文。

步骤S506，控制器与网络设备协商监控能力。

控制器与网络设备协商监控能力，可包括选定版本以及该版本支持的能力、可选能力等；协商报文可具有，但不限于如下形式：

网络设备发给控制器的协商报文：

控制器发给网络设备的协商报文：

步骤S508，协商完成，控制器与设备获取到双方共有的监控能力。

对于控制器获取网络设备监控能力的另一种实施场景，可以通过如图6所示的流程实现。SDN控制器可通过南向协议，与设备协商后，查询对方监控能力。如图6所示，该流程可包括如下步骤：

步骤S602，网络设备接入控制器。

步骤S604，控制器与网络设备协商监控能力版本。

控制器收到网络设备接入通知后，可根据网络设备接入时携带的南向协议信息，选择南向协议与网络设备握手建立连接。在建立连接过程中，控制器可与网络设备协商是否具备监控能力，以及协商监控能力版本。协商报文可具有，但不限于如下形式：

网络设备发给控制器的协商报文：

控制器发给网络设备的协商报文：

通过协商报文，控制器和网络设备可以确定双方具备监控能力。

步骤S606，控制器向网络设备发送报文查询设备的监控指标列表。

控制器向网络设备发送的报文可具有，但不限于如下形式：

</request>

步骤S608，网络设备回复报文给控制器，返回监控能力。

网络设备给控制器回复报文可以具有，但不限于如下形式：

如上述报文，网络设备指示其具有三种监控指标。

步骤S610，控制器获得网络设备监控能力。

控制器可接收网络设备的回复报文，获取到网络设备所有的监控指标列表。

在控制器与设备监控模块对监控能力协商之后，控制器可以根据需要对监控模块的统计和监控的指标参数进行配置。

步骤S406，控制器向网络设备的监控模块订阅或轮询监控关键指标数据，从网络设备获取到对监控指标的统计信息。

在SDN控制器获取网络设备监控能力后，控制器可以向网络设备配置要监控的指标。控制器可以向网络设备节点的监控模块订阅或轮询监控关键指标数据，也可以由网络设备定时向控制器上报监测关键指标数据。

可选地，控制器通过定时轮询的方式收集监控统计信息的流程如图7所示。该流程可包括如下步骤：

步骤S702，控制器发送报文给网络设备，配置需要监控的指标和参数。

获取到网络设备的所有指标监控能力后(可以通过图5或图6所示的流程获取)，控制器可发送报文给网络设备，配置哪些指标需要监控。例如：需要启用二叉查找树(Binary Sort Tree，简称为BST)功能和内存管理单元(Memory Management Unit，简称为MMU)统计功能，并且配置MMU统计时间间隔为5秒。发送的报文可具有，但不限于如下形式：

步骤S704，网络设备向控制器返回配置成功。

网络设备可向控制器回复的用于指示配置成功的报文可具有，但不限于如下形式：

<operation>config-caps</operation>

</response>

步骤S706，网络设备启动对要监控指标的数据采集。

步骤S708，控制器定时向网络设备轮询采集统计信息。

控制器向网络设备发送的报文可具有，但不限于如下形式：

指定查询的报文：

<operation>get-monitor-result</operation>

<paras>

<para>delay-statistics</para>

<para>cpu-guard</para>

</paras>

</request>

或全部查询的报文：

<operation>get-monitor-result</operation>

<paras>

</para>

</paras>

</request>

步骤S710，网络设备向控制器回复采集的统计数据。

回复采集的统计数据的报文可具有，但不限于如下形式：

<operation>get-monitor-result</operation>

<paras>

<para>delay-statistics</para>

</paras>

<paras>

<para>cpu-guard</para>

</paras>

</result>

</response>

步骤S712，控制器获取到对监控指标的统计信息。

对于控制器通过向网络设备节点的监控模块订阅监控关键指标数据的方式收集监控统计信息的流程可以包括订阅流程和上报流程。对于订阅流程，图8是根据本公开可选实施例的另一种控制器获取监控统计信息的流程图，如图8所示，该流程可包括如下步骤：

步骤S802，控制器发送报文给网络设备，订阅需要监控的指标和参数。

控制器获取到设备的所有指标监控能力后(可以通过图5或图6所示的流程获取)，控制器可发送报文给网络设备，订阅需要监控哪些指标、或参数、或指示和参数。发送的报文可具有，但不限于如下形式：

步骤S804，网络设备向控制器回复订阅成功。

网络回复的报文可具有，但不限于如下形式：

<operation>subscribe-monitor-caps</operation>

</response>

步骤S806，网络设备启动对订阅的监控指标的数据采集。

步骤S808，网络设备定时向控制器发送对订阅的监控指标的统计数据。

网络设备向控制器发送的报文可具有，但不限于如下形式：

<paras>

<para>delay-statistics</para>

</paras>

<paras>

<para>cpu-guard</para>

</paras>

</notification>

步骤S810，控制器获取到对监控指标的统计信息。

网络设备定时向控制器上报监测关键指标数据的流程如图9所示。在该流程中，SDN控制器和设备相互获取对方监控能力后，网络设备可自动配置监控指标，定时向控制器上报统计信息，可包括如下步骤：

步骤S902，网络设备启动对协商后的监控指标的数据采集。

控制器获取到设备的所有指标监控能力后(可以通过图5或图6所示的流程获取)，网络设备可自动配置监测指标参数，启动对协商后的监控指标的数据采集。

步骤S904，网络设备定时向控制器上报采集到的统计信息。

上报的报文可参见步骤S808中的报文形式。

步骤S906，控制器获取到对监控指标的统计信息。

在从所监控的网络设备节点上获取到上述参数后，控制器可根据预规划的网络故障识别策略判断网络设备是否发生故障，在网络设备发生故障的情况下发出告警；或可根据预规划的网络故障识别策略提前识别网络设备是否存在发生故障风险，在网络设备存在发生故障风险的情况下发出告警。

步骤S408，控制器通过分析收集到的统计信息，自动判断出网络故障发生位置，并修复故障。

在获取到对监控指标的统计信息后，控制器还可以通过分析收集到的统计信息，自动判断出网络故障发生位置。在此基础上，可根据预设的故障应对措施实现网络自愈。通过网络设备节点的监控模块和控制器协作，可以根据业务需求快速扩展与故障诊断相关的故障识别、故障定位、故障模拟、故障修复等业务功能。

可选地，SDN控制器收集到统计信息后，对故障的修复可以包括以下至少之一：控制器分析分析潜在故障风险点并上报告警，控制器分析故障节点并上报故障告警，控制器分析故障节点并修复故障。

对于控制器分析潜在故障风险点并上报告警的流程如图10所示。该流程可包括如下步骤：

步骤S1002，控制器分析统计信息，定位出潜在故障风险点；

收集到网络设备的监控统计信息后(可以通过图7、图8或图9所示的流程收集)，控制器可分析统计信息，定位出潜在故障风险点。

步骤S1004，控制器向管理平台上报潜在故障风险。

对于控制器分析故障节点并上报故障告警的流程如图11所示。该流程可包括如下步骤：

步骤S1102，控制器分析统计信息，定位出故障节点和故障类型。

收集到网络设备的监控统计信息后(可以通过图7、图8或图9所示的流程收集)，控制器可分析统计信息，定位出故障节点和故障类型。

步骤S1104，控制器向管理平台上报故障信息。

步骤S1106，管理平台根据故障信息向控制器下发故障修复指令。

可选地，对于控制器分析故障节点并修复故障的流程如图12所示。该流程可包括如下步骤：

步骤S1202，通过管理平台向控制器配置对不同故障节点或不同故障类型的修复指令。

步骤S1204，控制器分析统计信息，定位出故障节点和故障类型。

收集到网络设备的监控统计信息后(可以通过图7、图8或图9所示的流程收集)，控制器可分析统计信息，定位出故障节点和故障类型。例如：定位出某网络设备节点丢包率达到30％或CPU使用率达到95％。

步骤S1206，控制器根据故障节点和故障类型找到匹配的修复指令。

可根据定位出的故障节点和故障类型，找到匹配的修复指令。例如：调整流量转发路径以减少故障节点的业务负荷。

步骤S1208，控制器向网络设备下发修复指令。

控制器可向网络设备下发修复指令，对网络设备的故障进行修复。

通过本公开实施例的上述技术方案，充分利用SDN增加了网络管理的灵活性和可扩展性，其可编程、定制化的特性，可以简化网络故障诊断的诊断流程，减少网络故障诊断的定位时间，避免运维对诊断活动的限制，实现可自愈能力。同时，借助控制器丰富的南向协议支持也为诊断不同类型，不同接入手段的网络设备提供有力支持。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本公开的技术方案本质上或者说对本领域做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开实施例所述的方法。

在本实施例中还提供了一种故障处理装置，该装置设置为实现上述实施例及可选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件、或硬件、或软件和硬件的组合。尽管以下实施例所描述的装置可以以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图13是根据本公开实施例的一种故障装置的结构框图，如图13所示，该装置包括：

第一获取模块132，设置为：获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息；

诊断模块134，设置为：与上述第一获取模块132相连，根据获取的第一指标参数信息，对网络设备进行故障诊断。

图14是根据本公开实施例的另一种故障装置的结构框图，如图14所示，该装置除包括图13所示的所有模块外，还可包括：

第二获取模块142，设置为：获取网络设备支持的用于标识网络设备运行状态的第二指标参数信息；

确定模块144，设置为：与上述第二获取模块142相连，根据获取的网络设备支持的第二指标参数信息，以及控制器支持的用于标识网络设备运行状态的第三指标参数信息，确定网络设备上报的第一指标参数信息。

图15是根据本公开实施例的故障装置中的第一获取模块132的结构框图，如图15所示，该第一获取模块132可包括：

第一发送单元152，设置为：定时向网络设备发送用于指示网络设备上报第一指标参数信息的指示消息；第一接收单元154，设置为：与上述第一发送单元152相连，接收网络设备上报的第一指标参数信息；

或者，

第二发送单元156，设置为：向网络设备发送用于订阅第一指标参数信息的订阅消息；第二接收单元158，设置为：与上述第二发送单元156相连，接收网络设备根据订阅消息定时上报的第一指标参数信息。

图16是根据本公开实施例的故障装置中的诊断模块134的结构框图，如图16所示，该诊断模块134可包括：

判断单元162，设置为：根据第一指标参数信息中携带的指标参数值，以及预设指标参数阈值，判断指标参数值是否大于或者等于预设指标参数阈值；

确定单元164，设置为：与上述判断单元162相连，在指标参数值大于或者等于预设指标参数阈值的情况下，确定网络设备处于故障状态。

图17是根据本公开实施例的又一种故障装置的结构框图，如图17所示，该装置除包括图13所示的所有模块外，还可包括：

上报模块172，设置为：在故障诊断的结果为网络设备处于故障状态的情况下，向管理平台上报网络设备的故障信息；

修复模块174，设置为：与上述上报模块172相连，根据管理平台针对故障信息下发的用于故障修复的故障修复指令，对网络设备进行故障修复。

可以说明的是，上述模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述模块以任意组合的形式分别位于不同的处理器中。

在本实施例中还提供了一种控制器，图18是根据本公开实施例的控制器的结构框图，如图18所示，该控制器包括上述实施例中的故障处理装置182。

本公开的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息；

S2，根据获取的第一指标参数信息，对网络设备进行故障诊断。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

在获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息之前，还包括：

S1，获取网络设备支持的用于标识网络设备运行状态的第二指标参数信息；

S2，根据获取的网络设备支持的第二指标参数信息，以及控制器支持的用于标识网络设备运行状态的第三指标参数信息，确定网络设备上报的第一指标参数信息。

获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息包括：

S1，定时向网络设备发送用于指示网络设备上报第一指标参数信息的指示消息；接收网络设备上报的第一指标参数信息；

或者，

S2，向网络设备发送用于订阅第一指标参数信息的订阅消息；接收网络设备根据订阅消息定时上报的第一指标参数信息。

根据获取的第一指标参数信息，对网络设备进行故障诊断包括：

S1，根据第一指标参数信息中携带的指标参数值，以及预设指标参数阈值，判断指标参数值是否大于或者等于预设指标参数阈值；

S2，在指标参数值大于或者等于预设指标参数阈值的情况下，确定网络设备处于故障状态。

在根据获取的第一指标参数信息，对网络设备进行故障诊断之后，还包括：

S1，在故障诊断的结果为网络设备处于故障状态的情况下，向管理平台上报网络设备的故障信息；

S2，根据管理平台针对故障信息下发的用于故障修复的故障修复指令，对网络设备进行故障修复。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行：获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息；根据获取的第一指标参数信息，对网络设备进行故障诊断。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行：在获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息之前，还包括：获取网络设备支持的用于标识网络设备运行状态的第二指标参数信息；根据获取的网络设备支持的第二指标参数信息，以及控制器支持的用于标识网络设备运行状态的第三指标参数信息，确定网络设备上报的第一指标参数信息。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行：获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息包括：定时向网络设备发送用于指示网络设备上报第一指标参数信息的指示消息；接收网络设备上报的第一指标参数信息；或者，向网络设备发送用于订阅第一指标参数信息的订阅消息；接收网络设备根据订阅消息定时上报的第一指标参数信息。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行：根据获取的第一指标参数信息，对网络设备进行故障诊断包括：根据第一指标参数信息中携带的指标参数值，以及预设指标参数阈值，判断指标参数值是否大于或者等于预设指标参数阈值；在指标参数值大于或者等于预设指标参数阈值的情况下，确定网络设备处于故障状态。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行：在根据获取的第一指标参数信息，对网络设备进行故障诊断之后，还包括，在故障诊断的结果为网络设备处于故障状态的情况下，向管理平台上报网络设备的故障信息；据管理平台针对故障信息下发的用于故障修复的故障修复指令，对网络设备进行故障修复。

可选地，本实施例中的示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

本领域的技术人员可以明白，上述的本公开的模块或步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成不同集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本公开不限制于任何特定的硬件和软件结合。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、电可擦除只读存储器(EEPROM，Electrically Erasable Programmable Read-only Memory)、闪存或其他存储器技术、光盘只读存储器(CD-ROM，Compact Disc Read-Only Memory)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本领域的普通技术人员可以理解，可以对本公开的技术方案进行修改或者等同替换，而不脱离本公开技术方案的精神和范围，均应涵盖在本公开的权利要求范围当中。

工业实用性

Claims

一种故障处理方法，包括：

获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息；

根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断。
根据权利要求1所述的方法，在获取所述控制器控制区域内的所述网络设备上报的用于标识所述网络设备运行状态的所述第一指标参数信息之前，还包括：

获取所述网络设备支持的用于标识所述网络设备运行状态的第二指标参数信息；

根据获取的所述网络设备支持的所述第二指标参数信息，以及所述控制器支持的用于标识网络设备运行状态的第三指标参数信息，确定所述网络设备上报的所述第一指标参数信息。
根据权利要求1所述的方法，其中，获取所述控制器控制区域内的所述网络设备上报的用于标识所述网络设备运行状态的所述第一指标参数信息包括：

定时向所述网络设备发送用于指示所述网络设备上报所述第一指标参数信息的指示消息；接收所述网络设备上报的所述第一指标参数信息；

或者，

向所述网络设备发送用于订阅所述第一指标参数信息的订阅消息；接收所述网络设备根据所述订阅消息定时上报的所述第一指标参数信息。
根据权利要求1所述的方法，其中，根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断包括：

根据所述第一指标参数信息中携带的指标参数值，以及预设指标参数阈值，判断所述指标参数值是否大于或者等于所述预设指标参数阈值；

在所述指标参数值大于或者等于所述预设指标参数阈值的情况下，确定所述网络设备处于故障状态。
根据权利要求1至4中任一项所述的方法，在根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断之后，还包括：

在故障诊断的结果为所述网络设备处于故障状态的情况下，向管理平台上报所述网络设备的故障信息；

根据所述管理平台针对所述故障信息下发的用于故障修复的故障修复指令，对所述网络设备进行故障修复。
一种故障处理装置，包括：

第一获取模块，设置为：获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息；

诊断模块，设置为：根据获取的所述第一指标参数信息，对所述网络设备进行故障诊断。
根据权利要求6所述的装置，还包括：

第二获取模块，设置为：获取所述网络设备支持的用于标识所述网络设备运行状态的第二指标参数信息；

确定模块，设置为：根据获取的所述网络设备支持的所述第二指标参数信息，以及所述控制器支持的用于标识网络设备运行状态的第三指标参数信息，确定所述网络设备上报的所述第一指标参数信息。
根据权利要求6所述的装置，其中，所述第一获取模块包括：

第一发送单元，设置为：定时向所述网络设备发送用于指示所述网络设备上报所述第一指标参数信息的指示消息；第一接收单元，设置为：接收所述网络设备上报的所述第一指标参数信息；

或者，

第二发送单元，设置为：向所述网络设备发送用于订阅所述第一指标参数信息的订阅消息；第二接收单元，设置为：接收所述网络设备根据所述订阅消息定时上报的所述第一指标参数信息。
根据权利要求6所述的装置，其中，所述诊断模块包括：

判断单元，设置为：根据所述第一指标参数信息中携带的指标参数值，以及预设指标参数阈值，判断所述指标参数值是否大于或者等于所述预设指标参数阈值；

确定单元，设置为：在所述指标参数值大于或者等于所述预设指标参数阈值的情况下，确定所述网络设备处于故障状态。
根据权利要求6至9中任一项所述的装置，还包括：

上报模块，设置为：在故障诊断的结果为所述网络设备处于故障状态的情况下，向管理平台上报所述网络设备的故障信息；

修复模块，设置为：根据所述管理平台针对所述故障信息下发的用于故障修复的故障修复指令，对所述网络设备进行故障修复。
一种控制器，包括如所述权利要求6至10中任一项所述的故障处理装置。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令被执行时实现如权利要求1至5中任一权利要求所述的故障处理方法。