WO2017107014A1

WO2017107014A1 - 一种网络亚健康诊断方法及装置

Info

Publication number: WO2017107014A1
Application number: PCT/CN2015/098107
Authority: WO
Inventors: 印杰; 辛波
Original assignee: 华为技术有限公司
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2017-06-29
Also published as: CN108141374B; CN108141374A

Abstract

本发明实施例提供一种网络亚健康诊断方法及装置，用以解决业务侧检测到网络亚健康状态，但是底层硬件无法检测出来，不能进行及时硬件故障修复，依然会导致业务受损的问题。该方法包括：管理和编排模块接收基于业务传输检测到的通信亚健康状态通知信息；通信亚健康状态通知信息包括业务通信处于亚健康状态的两个网元的网元标识；对业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测未检测到故障时，将通信亚健康状态通知信息保存在故障信息库中；然后确定故障信息库中保存的通信亚健康状态通知信息的数量大于预定阈值时，对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元。

Description

一种网络亚健康诊断方法及装置

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种网络亚健康诊断方法及装置。

背景技术

在通信系统中，例如在网络互联协议(英文：Internet Protocol，简称：IP)多媒体子系统(英文：Multimedia Core Network Subsystem，简称：MS)中，由于网元之间的业务承载网络故障，导致网元之间的网络亚健康状态；或者网元内部由于内存不足、内部通信故障等原因，导致网元处于亚健康状态，网元之间的网络亚健康状态和网元的亚健康状态均会导致业务受损，所以，为了避免在亚健康状态时造成的业务受损，需要及时准确检测出网络的亚健康状态。

业务层的扛丢包能力是业务层面应对通信亚健康的最主要的手段。扛丢包的主要方法是合理的重传机制。但是在某些情况下，若是因为实体硬件造成亚健康，业务侧检测到网络亚健康状态，但是底层硬件无法检测出来，不能进行及时的修复，依然会导致业务受损。

发明内容

本发明实施例提供一种网络亚健康诊断方法及装置，用以解决现有技术中存在的业务侧检测到网络亚健康状态，但是底层硬件无法检测出来，不能进行及时硬件故障修复，依然会导致业务受损的问题。

第一方面，本发明实施例提供了一种网络亚健康诊断方法，包括：

管理和编排模块(MANO)接收基于业务传输检测到的通信亚健康状态通知信息；所述通信亚健康状态通知信息至少包括业务通信处于亚健康状态的两个网元的网元标识；

所述MANO对所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测，在未检测到硬件故障时，将所述通信亚健康状态通知信息保存在故障信息库中；

所述MANO确定所述故障信息库中保存的通信亚健康状态通知信息的数量大于预定阈值时，对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元。

结合第一方面，在第一方面的第一种可能的实现方式中，所述对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元，包括：

确定每条通信亚健康状态通知信息中包括的业务通信处于亚健康状态的两个网元的网元标识；

根据各个网元标识对应的网元之间的连接路径拓扑结构，确定发生通信故障的网元。

结合第一方面，在第一方面的第二种可能的实现方式中，还包括：

所述MANO在确定基于硬件故障检测并检测到硬件故障时，则修复检测到的所述硬件故障。

结合第一方面和第一方面的第一种至第二种可能的实现方式中的任意一种，在第一方面的第三种可能的实现方式中，所述MANO确定对所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测之前，还包括：

所述MANO接收到用于触发硬件故障检测的触发信息，所述触发信息携带业务通信处于亚健康状态的两个网元对应的路径的路径信息。

结合第一方面和第一方面的第一种至第三种可能的实现方式中的任意一种，在第一方面的第四种可能的实现方式中，还包括：

所述MANO确定所述故障信息库中保存的通信亚健康状态通知信息的数量为1时，确定发生硬件故障的网元为虚拟机VM。

结合第一方面，在第一方面的第五种可能的实现方式中，所述对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元，包括：

根据各条通信亚健康状态通知信息分别包括的业务通信处于亚健康状态的两个网元的网元标识，确定各条通信亚健康状态通知信息中均包含同一网元标识、且该同一网元标识对应的网元为位于同一个主机Host上的同一个VM，则确定发生硬件故障的网元为所述VM。

结合第一方面，在第一方面的第六种可能的实现方式中，所述对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元，包括：

根据各条通信亚健康状态通知信息分别包括的业务通信处于亚健康状态的两个网元的网元标识，确定不是全部通信亚健康状态通知信息包括的两个网元标识对应的两个网元中有一个网元位于同一个Host，则确定所有通信亚健康状态信息包括的业务通信处于亚健康状态的两个网元所经过的同一交换机发生故障。

结合第一方面，在第一方面的第七种可能的实现方式中，所述对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元，包括：

根据各条通信亚健康状态通知信息分别包括的业务通信处于亚健康状态的两个网元的网元标识，确定全部通信亚健康状态通知信息包含的两个网元标识对应的两个网元有一个网元位于同一个Host，但位于同一Host的网元为不同VM，确定为所述Host发生故障。

结合第一方面的第五种至第七种可能的实现方式中的任意一种，在第一方面的第八种可能的实现方式中，在基于解析得到的解析结果确定发生硬件故障的网元后，还包括：

删除所述故障信息库中保存的通信亚健康状态通知信息。

第二方面，本发明实施例提供了一种网络亚健康诊断装置，包括：

接收单元，用于接收基于业务传输检测到的通信亚健康状态通知信息；所述通信亚健康状态通知信息至少包括业务通信处于亚健康状态的两个网元的网元标识；

处理单元，用于对所述接收单元接收到的通信亚健康状态通知信息中包括的所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测，在未检测到硬件故障时，将所述通信亚健康状态通知信息保存在故障信息库中；在确定所述故障信息库中保存的通信亚健康状态通知信息的数量大于预定阈值时，对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元。

结合第二方面，在第二方面的第一种可能的实现方式中，所述处理单元，在对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元时，用于：

结合第二方面，在第二方面的第二种可能的实现方式中，所述处理单元，还用于：

在确定基于硬件故障检测并检测到硬件故障时，则修复检测到的所述硬件故障。

结合第二方面和第二方面的第一种至第二种可能的实现方式中的任意一种，在第二方面的第三种可能的实现方式中，在确定对所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测之前，所述接收单元还用于接收用于触发所述处理单元进行硬件故障检测的触发信息，所述触发信息携带业务通信处于亚健康状态的两个网元对应的路径的路径信息。

结合第二方面和第二方面的第一种至第三种可能的实现方式中的任意一种，在第二方面的第四种可能的实现方式中，所述处理单元，还用于在确定所述故障信息库中保存的通信亚健康状态通知信息的数量为1时，确定发生硬件故障的网元为虚拟机VM。

结合第二方面，在第二方面的第五种可能的实现方式中，所述处理单元，在对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元时，用于：

结合第二方面，在第二方面的第六种可能的实现方式中，所述处理单元，在对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元时，用于：

结合第二方面，在第二方面的第七种可能的实现方式中，所述处理单元，在对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元时，用于：

结合第二方面的第五种至第七种可能的实现方式中的任意一种，在第二方面的第八种可能的实现方式中，所述处理单元，还用于：在基于解析得到的解析结果确定发生硬件故障的网元后，删除所述故障信息库中保存的通信亚健康状态通知信息。

本发明实施例提供的方案，管理和编排模块MANO接收基于业务传输检测到的通信亚健康状态通知信息；所述通信亚健康状态通知信息包括业务通信处于亚健康状态的两个网元的网元标识；然后所述MANO对所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测，在未检测到硬件故障时，将所述通信亚健康状态通知信息保存在故障信息库中；然后所述MANO确定所述故障信息库中保存的通信亚健康状态通知信息的数量大于预定阈值时，对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元。从而在在业务层面发生通信亚健康时，硬件故障检测未检测出时，通过故障信息库中的亚健康状态通知信息诊断发生故障的网元，从而能够对发生故障的网元进行及时修复。

附图说明

图1为本发明实施例提供的网络亚健康诊断的网络应用系统示意图；

图2为本发明实施例提供的一种网络亚健康诊断方法流程图；

图3为本发明实施例提供的其中一种应用场景下的路径拓扑结构示意图；

图4为本发明实施例提供的另一种应用场景下的路径拓扑结构示意图；

图5为本发明实施例提供的另一种网络亚健康诊断方法流程图；

图6为本发明实施例提供的一种网络亚健康诊断装置示意图。

具体实施方式

本发明实施例提供一种网络亚健康诊断方法及装置，用以解决现有技术中存在的业务侧检测到网络亚健康状态，但是底层硬件无法检测出来，不能进行及时硬件故障修复，依然会导致业务受损的问题。其中，方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

本发明实施例主要解决网元及网元与网元之间的通信亚健康问题。如图1 所示，网络应用系统包括：主机(Host)、交换机(Switch)以及用户边缘设备(英文：Customer Edge，简称：CE)。图1仅是一种示例，并不对设备数量进行限定。例如：网络应用系统包括多个Host以及多个交换机。

其中，主机中包括虚拟机(英文：Virtual Machine，简称：VM)、物理网卡(英文：physical Network Interface Card，简称：pNIC)。虚拟机中对应有虚拟网卡(英文：Virtual Network Interface Card，简称：vNIC)。虚拟机与物理网卡之间通过虚拟通道，即：虚拟以太网网桥(英文：Virtual Ethernet Bridge，简称：VEB)连接，虚拟以太网网桥可以认为是一个虚拟交换机(Virtual Switch，简称：vSwitch)，负责两个虚拟机之间的报文转发。

网络应用系统中还包括有管理与编排模块(英文：Management and Orchestration，简称：MANO)，负责系统资源的分配和调度，管理虚拟网络功能的生命周期等等。虚拟网络功能则可以由一个虚拟机或者多个虚拟机实现。多个虚拟机可以是一个主机中的虚拟机也可以是不同主机中的虚拟机。系统资源包括硬件资源以及软件资源。其中硬件资源包括计算硬件存储硬件以及网络硬件。计算硬件可以为专用的处理器或通用的用于提供处理和计算功能的处理器；存储硬件用于提供存储能力，该存储能力可以是存储硬件本身提供的(例如一台服务器的本地内存)，也可以通过网络提供(例如服务器通过网络连接一个网络存储设备)；网络硬件可以是交换机、路由器和/或其他网络设备，网络硬件用于实现多个设备之间的通信，多个设备之间通过无线或有线连接。

在上述网络应用系统可能出现如下硬件故障导致的网络亚健康：

1、VM的vNIC故障导致的网络亚健康。

2、vNIC到pNIC的虚拟通道故障导致的网络亚健康。

3、物理网卡故障导致的网络亚健康。

4、Host与Host之间的链路故障导致网络亚健康。Host与Host之间的链路中可能经过交换机、路由器等等。

为了解决上述网络应用系统可能出现网络亚健康问题，本发明实施例提供的一种网络亚健康诊断方法，参见图2，该方法的执行设备可以是MANO，还可以是移动服务平台(英文：Mobile Service Platform，简称：MSP)。该方法包括：

S201，MANO接收基于业务传输检测到的通信亚健康状态通知信息。

所述通信亚健康状态通知信息包括业务通信处于亚健康状态的两个网元的网元信息。其中，网元信息中至少包括网元标识，还可以包括网元所归属的设备信息等等。

例如：两个虚拟机之间传输报文发生故障，则两个网元的网元信息可以是虚拟机的标识以及虚拟机所属的主机(Host)标识等等信息。

本发明实施例中向MANO发送通信亚健康状态通知信息可以是管道操作系统(英文：Operation System，简称OS)。管道OS可以持续检测业务通信状态，然后周期性的上报给MANO或者MSP。

S202，所述MANO对所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测，在未检测到硬件故障时，将所述通信亚健康状态通知信息保存在故障信息库中。

其中，所述通信亚健康状态通知信息还用于触发所述MANO对所述进行业务通信处于亚健康状态的两个网元对应的路径进行硬件故障检测，从而MANO接收到所述通信亚健康状态通知信息，对业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测。

可选地，MANO对还可以由外部触发设备触发，并指定所需检测的路径。具体的，所述MANO确定对所述进行业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测之前，所述MANO接收到用于触发进行硬件故障检测的触发信息，所述触发信息携带业务通信处于亚健康状态的两个网元对应的路径的路径信息；然后所述MANO对所述路径信息对应的路径上的硬件设备进行硬件故障检测。

S203，所述MANO确定所述故障信息库中保存的通信亚健康状态通知信息的数量大于预定阈值时，对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元。

可选地，对各条通信亚健康状态通知信息进行解析，基于解析得到的解析结果确定发生通信故障的网元，可以通过如下方式实现：

确定每条通信亚健康状态通知信息中包括的进行业务通信处于亚健康状态的两个网元的网元信息，然后根据各个网元之间的连接路径拓扑结构确定发生通信故障的网元。

其中，各个网元之间的连接路径拓扑结构已经预先存储在MANO或者MSP中。

可选地，在确定基于硬件故障检测并检测到通信故障时，则修复检测到的所述硬件故障。

可选地，所述MANO确定所述故障信息库中保存的通信亚健康状态通知信息的数量为1时，确定发生硬件故障的网元为VM故障。

其中，通信亚健康状态通知信息为1条时，说明之前没有出现过类似情况，只能判断为VM故障。之所以确定VM故障是因为管道OS已经检测到故障，管道OS通过业务的传输可以检测到VM之间的故障。VM发生故障具体可能是VM的vNIC故障。所述MANO在确定为VM故障时，按照预设规则进行VM的自愈。VM的自愈主要包括VM重启、迁移、重建。可以根据VM的配置，将VM迁移到其他适合的主机上。

可选地，所述对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元，可以通过如下方式实现：

由于各条通信亚健康状态信息中包括的进行业务通信两端网元中有一端网元为同一个Host的同一个VM，则说明所有的通信亚健康均由该VM故障导致。假设有三条通信亚健康状态信息，第一条的业务通信两端网元为VM1 和VM2，第二条的业务通信两端网元为VM1和VM3，第三条的业务通信两端网元为VM1和VM4，则说明VM1发生了故障导致无法进行正常通信。

例如，如图3所示，通信网络中包括3个VM分别为VM1、VM2和VM3，VM1与VM2之间通过交换机连接，VM1和VM3之间通过交换机连接，并且VM2与VM3之间也通过交换机连接。假设包括三条通信亚健康状态信息，第一条通信亚健康状态信息指示VM1与VM2业务通信不正常，第二条通信亚健康状态信息指示VM1与VM3业务通信不正常，第三条通信亚健康状态信息指示VM3与VM2业务通信不正常，从而可以确定交换机发生了故障，从而产生了上述三条通信亚健康状态信息。

可选地，所述对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元，包括：

根据各条通信亚健康状态通知信息分别包括的业务通信处于亚健康状态的两个网元的网元标识，确定全部通信亚健康状态通知信息包含的两个网元标识对应的两个网元有一个网元位于同一个Host，但位于同一Host的网元为不同VM，确定为所述Host发生故障。Host发生故障可能是vNIC到pNIC的虚拟通道故障或者还可能是物理网卡故障。

可以先根据VM的配置进行VM的自愈。若无法修改可以进一步确定是否是物理网卡等发生故障。

可选地，在基于解析得到的解析结果确定发生硬件故障的网元后，还包括：

删除所述故障信息库中保存的通信亚健康状态通知信息。

下面结合具体应用场景对本发明实施例作具体说明。

如图4所示，通信网络中包括3个Host分别Host1、Host2和Host3。Host1中安装有VM1和VM4，Host2中安装有VM2以及在Host3中安装有VM3。Host1通过P1接口连接交换机的P11接口，Host2通过P2接口连接交换机的P12接口，Host3通过P3接口连接交换机的P13接口。

那么具体的网络亚健康诊断方法流程如图5所示。下面具体以MANO为例进行说明。

S501，MANO接收到管道OS发送的通信亚健康状态通知信息。执行S502。

其中，MANO周期性的接收到管道OS发送的通信亚健康状态通知信息。

通信亚健康状态通知信息中包括业务通信处于亚健康状态的两个网元的网元标识。所述亚健康状态通知信息用于触发MANO对处于亚健康状态的两个网元对应的路径中的硬件设备进行硬件故障检测。

S502，MANO在接收到管道OS发送的通信亚健康状态通知信息后，对处于亚健康状态的两个网元对应的路径中的硬件设备进行硬件故障检测。执行S503。

S503，MANO确定是否检测到硬件故障，若是，执行S504，若否，执行S505。

S504，MANO按照预先存储的规则处理所述硬件故障。处理完硬件故障后还可以清除该路径上的通信亚健康状态通知信息。

S505，MANO将接收到的通信亚健康状态通知信息存入故障信息库。执行S506。

S506，MANO确定故障信息库中的通信亚健康状态通知信息数量是否大于1，若是，执行S508，若否，执行S507。

S507，MANO确定为VM故障。然后MANO根据VM配置，进行自愈。

其中，信息为1条时，说明之前没有出现过类似亚健康状态，只能判断为VM故障，进行VM自愈。之所以确定VM故障是因为管道OS已经检测到故障，管道OS可以检测到VM之间的故障。VM的自愈主要包括VM重启、迁移、重建。可以根据VM的配置，将VM迁移到合适的主机上。

S508，MANO确定故障信息库中的各条通信亚健康状态通知信息包括的业务通信处于亚健康状态的两个网元中是否有一个网元位于同一个Host，若否，执行S509，若是，执行S510。

S509，MANO诊断为交换机故障。从而尝试性重启交换机。然后清除故障信息库中所有的通信亚健康状态信息。

故障信息库中包括三条通信亚健康状态信息，第一条通信亚健康状态信息指示VM1与VM2业务通信不正常，第二条通信亚健康状态信息指示VM1与VM3业务通信不正常，第三条通信亚健康状态信息指示VM3与VM2业务通信不正常，根据图4所示的拓扑结构，可以确定3条路径均需经过交换机，因此可以确定交换机发生了故障。

S510，MANO确定故障信息库中的各条通信亚健康状态通知信息包括的业务通信处于亚健康状态的两个网元中有一个为同一个VM的网元。若是，执行S511，若否执行S512。

S511，MANO诊断为所述VM故障。

故障信息库中包括2条通信亚健康状态信息，第一条的业务通信处于亚健康状态的两个网元为VM1和VM2，第二条的业务通信处于亚健康状态的两个网元为VM1和VM3，可以确定无论VM1与哪个VM通信，均通信不正常，因此确定VM1故障。

然后根据VM的配置，进行VM的自愈。VM的自愈主要包括VM重启、迁移、重建，还可以根据VM的配置，将VM迁移到合适的主机上。

在处理该故障之后，可以清空故障信息库。当然也可以保留，若处理故障之后又接收到通信亚健康状态信息并且保存在故障信息库后，依然诊断为VM故障时，可以考虑采用其他的VM的自愈方式。比如设置自愈方式的优先级，若两次均诊断为该VM故障，则后一次采用的自愈方式的优先级低于前一次采用的自愈方式。

S512，MANO诊断为所述Host发生故障。具体可以根据主机上运行的所有VM配置，选择合适的主机进行迁移、重建。

故障信息库中包括2条通信亚健康状态信息，第一条的业务通信两端网元为VM1和VM2，第二条的业务通信两端网元为VM4和VM3，可以根据图4所示的网络拓扑结构确定VM4和VM1都属于Host1，因此确定Host1发生故障。

基于与上述方法实施例同样的发明构思，本发明实施例还提供了一种网络亚健康诊断装置，该装置可以是MANO或者MSP。如图6所示，该装置包括：

接收单元601，用于接收基于业务传输检测到的通信亚健康状态通知信息；所述通信亚健康状态通知信息至少包括业务通信处于亚健康状态的两个网元的网元标识；

处理单元602，用于对所述接收单元601接收到的通信亚健康状态通知信息中包括的所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测，在未检测到硬件故障时，将所述通信亚健康状态通知信息保存在故障信息库中；在确定所述故障信息库中保存的通信亚健康状态通知信息的数量大于预定阈值时，对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元。

可选的，所述处理单元602，在对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元时，用于：

可选的，所述处理单元602，还用于：

在确定对所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测之前，所述接收单元还用于接收用于触发所述处理单元进行硬件故障检测的触发信息，所述触发信息携带业务通信处于亚健康状态的两个网元对应的路径的路径信息。

可选的，所述处理单元602，还用于在确定所述故障信息库中保存的通信亚健康状态通知信息的数量为1时，确定发生硬件故障的网元为虚拟机VM。

可选的，所述处理单元602还用于：在基于解析得到的解析结果确定发生硬件故障的网元后，删除所述故障信息库中保存的通信亚健康状态通知信息。

本发明实施例提供的一种网络亚健康诊断装置还可以包括存储单元603，用于存储故障信息库，还可以用于存储处理单元以及接收单元需要执行的程序。当然故障信息库还可以由外部存储器存储。

本发明实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能单元可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

其中，集成的单元既可以采用硬件的形式实现时，接收单元601对应的实体的硬件为收发器，处理单元602对应的实体硬件为处理器。处理器，可以是一个中央处理单元(英文：central processing unit，简称CPU)，或者为数字处理单元等等。

其中，网络亚健康诊断装置中的存储单元可以为存储器，用于存储处理器执行的程序。处理器用于执行存储器存储的程序，具体用于处理单元602以及接收单元601执行的方案。

存储器可以是易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以是非易失性存储器(英文：non-volatile memory)，例如只读存储器(英文：read-only memory，缩写：ROM)，快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)、或者存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是上述存储器的组合。

本发明实施例提供的网络亚健康诊断装置接收基于业务传输检测到的通信亚健康状态通知信息；所述通信亚健康状态通知信息包括业务通信处于亚健康状态的两个网元的网元标识；然后对所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测，在未检测到硬件故障时，将所述通信亚健康状态通知信息保存在故障信息库中；然后确定所述故障信息库中保存的通信亚健康状态通知信息的数量大于预定阈值时，对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元。从而在在业务层面发生通信亚健康时，硬件故障检测未检测出时，通过故障信息库中的亚健康状态通知信息诊断发生故障的网元，从而能够对发生故障的网元进行及时修复。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种网络亚健康诊断方法，其特征在于，包括：

管理和编排模块MANO接收基于业务传输检测到的通信亚健康状态通知信息；所述通信亚健康状态通知信息至少包括业务通信处于亚健康状态的两个网元的网元标识；

所述MANO对所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测，在未检测到硬件故障时，将所述通信亚健康状态通知信息保存在故障信息库中；

所述MANO确定所述故障信息库中保存的通信亚健康状态通知信息的数量大于预定阈值时，对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元。
如权利要求1所述的方法，其特征在于，所述对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元，包括：

确定每条通信亚健康状态通知信息中包括的业务通信处于亚健康状态的两个网元的网元标识；

根据各个网元标识对应的网元之间的连接路径拓扑结构，确定发生通信故障的网元。
如权利要求1所述的方法，其特征在于，还包括：

所述MANO在确定基于硬件故障检测并检测到硬件故障时，则修复检测到的所述硬件故障。
如权利要求1至3任一项所述的方法，其特征在于，所述MANO确定对所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测之前，还包括：

所述MANO接收到用于触发硬件故障检测的触发信息，所述触发信息携带业务通信处于亚健康状态的两个网元对应的路径的路径信息。
如权利要求1至4任一项所述的方法，其特征在于，还包括：

所述MANO确定所述故障信息库中保存的通信亚健康状态通知信息的数量为1时，确定发生硬件故障的网元为虚拟机VM。
如权利要求1所述的方法，其特征在于，所述对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元，包括：

根据各条通信亚健康状态通知信息分别包括的业务通信处于亚健康状态的两个网元的网元标识，确定各条通信亚健康状态通知信息中均包含同一网元标识、且该同一网元标识对应的网元为位于同一个主机Host上的同一个VM，则确定发生硬件故障的网元为所述VM。
如权利要求1所述的方法，其特征在于，所述对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元，包括：

根据各条通信亚健康状态通知信息分别包括的业务通信处于亚健康状态的两个网元的网元标识，确定不是全部通信亚健康状态通知信息包括的两个网元标识对应的两个网元中有一个网元位于同一个Host，则确定所有通信亚健康状态信息包括的业务通信处于亚健康状态的两个网元所经过的同一交换机发生故障。
如权利要求1所述的方法，其特征在于，所述对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元，包括：

根据各条通信亚健康状态通知信息分别包括的业务通信处于亚健康状态的两个网元的网元标识，确定全部通信亚健康状态通知信息包含的两个网元标识对应的两个网元有一个网元位于同一个Host，但位于同一Host的网元为不同VM，确定为所述Host发生故障。
如权利要求6至8任一项所述的方法，其特征在于，在基于解析得到的解析结果确定发生硬件故障的网元后，还包括：

删除所述故障信息库中保存的通信亚健康状态通知信息。
一种网络亚健康诊断装置，其特征在于，包括：

接收单元，用于接收基于业务传输检测到的通信亚健康状态通知信息；所述通信亚健康状态通知信息至少包括业务通信处于亚健康状态的两个网元的网元标识；

处理单元，用于对所述接收单元接收到的通信亚健康状态通知信息中包括的所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测，在未检测到硬件故障时，将所述通信亚健康状态通知信息保存在故障信息库中；在确定所述故障信息库中保存的通信亚健康状态通知信息的数量大于预定阈值时，对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元。
如权利要求10所述的装置，其特征在于，所述处理单元，在对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元时，用于：

确定每条通信亚健康状态通知信息中包括的业务通信处于亚健康状态的两个网元的网元标识；

根据各个网元标识对应的网元之间的连接路径拓扑结构，确定发生通信故障的网元。
如权利要求10所述的装置，其特征在于，所述处理单元，还用于：

在确定基于硬件故障检测并检测到硬件故障时，则修复检测到的所述硬件故障。
如权利要求10至12任一项所述的装置，其特征在于，在确定对所述业务通信处于亚健康状态的两个网元对应的路径上的硬件设备进行硬件故障检测之前，所述接收单元还用于接收用于触发所述处理单元进行硬件故障检测的触发信息，所述触发信息携带业务通信处于亚健康状态的两个网元对应的路径的路径信息。
如权利要求10至13任一项所述的装置，其特征在于，所述处理单元，还用于在确定所述故障信息库中保存的通信亚健康状态通知信息的数量为1时，确定发生硬件故障的网元为虚拟机VM。
如权利要求10所述的装置，其特征在于，所述处理单元，在对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元时，用于：

根据各条通信亚健康状态通知信息分别包括的业务通信处于亚健康状态的两个网元的网元标识，确定各条通信亚健康状态通知信息中均包含同一网元标识、且该同一网元标识对应的网元为位于同一个主机Host上的同一个VM，则确定发生硬件故障的网元为所述VM。
如权利要求10所述的装置，其特征在于，所述处理单元，在对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元时，用于：

根据各条通信亚健康状态通知信息分别包括的业务通信处于亚健康状态的两个网元的网元标识，确定不是全部通信亚健康状态通知信息包括的两个网元标识对应的两个网元中有一个网元位于同一个Host，则确定所有通信亚健康状态信息包括的业务通信处于亚健康状态的两个网元所经过的同一交换机发生故障。
如权利要求10所述的装置，其特征在于，所述处理单元，在对各条通信亚健康状态通知信息解析，基于解析得到的解析结果确定发生硬件故障的网元时，用于：

根据各条通信亚健康状态通知信息分别包括的业务通信处于亚健康状态的两个网元的网元标识，确定全部通信亚健康状态通知信息包含的两个网元标识对应的两个网元有一个网元位于同一个Host，但位于同一Host的网元为不同VM，确定为所述Host发生故障。
如权利要求15至17任一项所述的装置，其特征在于，所述处理单元，还用于：在基于解析得到的解析结果确定发生硬件故障的网元后，删除所述故障信息库中保存的通信亚健康状态通知信息。