WO2016033897A1

WO2016033897A1 - 一种网络链路监控方法和设备以及网络系统和存储介质

Info

Publication number: WO2016033897A1
Application number: PCT/CN2014/093557
Authority: WO
Inventors: 卓泽城; 张鹏飞; 王碧茜; 刘斌; 刘文波
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2014-09-02
Filing date: 2014-12-11
Publication date: 2016-03-10
Also published as: US10033592B2; US20160226714A1; CN104202190A; CN104202190B

Abstract

本发明公开了一种网络链路监控方法和设备以及网络系统和存储介质，所述方法包括：主节点模块向多个备节点模块发出配置文件；所述备节点模块接收所述配置文件，对所述配置文件执行最少链路覆盖算法，得到所述备节点模块间的所述数据探测流的最少链路覆盖集合；所述备节点模块执行单向时延探测算法，对所述最少链路覆盖集合进行单向时延探测，得到单向时延探测结果，并将所述单向时延探测结果返回主节点模块；所述主节点模块根据设置的报警阈值判断是否触发报警程序。通过采用本发明可以准确、高效和全面地监控全网所有的链路，同时解决非对称链路带来的时延问题，以及快速地定位出现故障的链路。

Description

一种网络链路监控方法和设备以及网络系统和存储介质

本申请要求于2014年9月2日提交中国专利局、申请号为201410443239.6、发明名称为“一种网络链路监控方法及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信领域，更为具体而言，涉及一种网络链路监控方法和设备以及网络系统和存储介质。

背景技术

随着网络信息的发展，企业的网络发展也在不断进步。通常，企业的IDC(互联网数据中心，Internet datacenter(简称IDC))网络遍布在多个不同地区，并且，在IDC内部和IDC之间由多层网络设备组成，因此，要对整体网络的链路质量进行监控具有很大挑战。首先，全网的链路数据非常庞大，一般很难监控所有链路；其次，由于非对称网络的往返路径不一致，导致不能精确测试端到端的时延问题；最后，在网络出现故障时，很难快速地定位故障的链路。

现有的网络链路监控技术，通过采集设备端口流量的方式尽管可以确认到某台设备的某个端口在该时刻发生了拥塞，但却不能确认整条业务数据流的拥塞情况，不能测量端到端的时延。一般所采用的traceroute工具在服务器两端进行探测，存在以下问题：不能监控全网所有的链路；不能解决非对称链路带来的问题；也不能快速地定位问题。

发明内容

为了准确、高效和全面地对网络链路进行监控，本发明实施方式提供了一种网络链路监控方法及设备。

一方面，本发明实施方式提供了一种网络链路监控方法，所述方法包括：

主节点模块向多个备节点模块发出配置文件；

所述备节点模块接收所述配置文件，对所述配置文件执行最少链路覆盖算法，得到所述备节点模块间的所述数据探测流的最少链路覆盖集合；

所述备节点模块执行单向时延探测算法，对所述最少链路覆盖集合进行单向时延探测，得到单向时延探测结果，并将所述单向时延探测结果返回主节点模块；以及

所述主节点模块根据设置的报警阈值判断是否触发报警程序。

相应的，本发明实施方式提供了一种网络链路监控设备，所述设备包括：

主节点模块，用于向多个备节点模块发出配置文件，接收所述备节点模块返回的所述单向时延探测结果，并根据设置的报警阈值判断是否触发报警程序；以及

多个备节点模块，用于接收所述配置文件，执行最少链路覆盖算法，得到所述备节点模块间的所述数据探测流的最少链路覆盖集合，再执行单向时延探测算法，对所述最少链路覆盖集合进行单向时延探测，得到单向时延探测结果，并将所述单向时延探测结果返回所述主节点模块。

并且，本发明实施方式提供了一种网络系统，所述系统包括：

一个或多个处理器；

存储器；

一个或多个程序，所述一个或多个程序存储在所述存储器上；

所述一个或多个处理器执行所述一个或多个程序时进行根据上述一种网络链路监控方法的步骤操作。

另外，本发明实施方式提供了一种非易失性计算机存储介质，所述计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个或多个设备执行时，使得所述设备执行根据上述一种网络链路监控方法的步骤操作。

实施本发明的各种实施方式可以准确、高效和全面地监控全网所有的链路，同时解决非对称链路带来的时延问题，以及快速地定位出现故障的链路。

附图说明

图1是根据本发明实施方式的一种网络链路监控方法的流程图；

图2示出了图1的步骤S1中所述最少链路覆盖算法的具体流程图；

图3示出了图1的步骤S2中所述单向时延探测算法的具体流程图；

图4示出了图3的步骤S3中所述链路异常定位算法的具体流程图；

图5是根据本发明实施方式的一种网络链路监控设备的架构图；

图6示出了图5所示的主节点模块10的框图；

图7示出了图5所示的备节点模块20的框图。

具体实施方式

以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中，众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且，所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解，下述的各种实施方式只用于举例说明，而非用于限制本发明的保护范围。还可以容易理解，本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。

图1是根据本发明实施方式的一种网络链路监控方法的流程图。参见图1，在本发明实施方式中，所述方法包括：

步骤S1，主节点模块向多个备节点模块发出配置文件；

步骤S2，所述备节点模块接收所述配置文件，对所述配置文件执行最少链路覆盖算法，得到所述备节点模块间的所述数据探测流的最少链路覆盖集合；

步骤S3，所述备节点模块执行单向时延探测算法，对所述最少链路覆盖集合进行单向时延探测，得到单向时延探测结果，并将所述单向时延探测结果返回主节点模块；以及

步骤S4，所述主节点模块根据设置的报警阈值判断是否触发报警程序。

其中，所述主节点模块将接收来自用户的配置文件(包括：数据探测流的探测周期、探测的源机房和目的机房列表、报警阈值等)，并把这些配置文件通过HTTP连接下发至各个备节点模块。主节点模块周期性地接收备节点模块返回的探测结果，并根据用户预设置的报警阈值来决定是否触发报警程序，同时将探测结果通过Web服务器在前端进行展示。在应用过程中，用户先通过要监控的机房向备节点模块下发配置文件，而后再重新加载所述主节点模块，所述主节点模块将自动地将配置文件下发至各个备节点模块，各个备节点模块在收到新的配置文件后，将及时自动更新各自的配置文件，并根据新的配置文件进行周期性探测，而后把探测结果返回主节点模块。主节点模块汇总这些探测结果并在前端进行展示，同时根据预设值的报警阈值判断是否触发报警程序，触发报警程序的方式可包括邮件报警或短信报警等。

图2示出了图1的步骤S1中所述最少链路覆盖算法的具体流程图。参见图2，在本发明实施方式中，所述最少链路覆盖算法包括：

步骤S11，输入备节点的地址信息，计算生成所述备节点之间全部链路的子链路总集合；

步骤S12，构造数据探测流对所述全部链路进行探路；

步骤S13，计算出所述子链路的链路覆盖率，当所述链路覆盖率大于设定的链路覆盖阈值时，则将所述子链路列入探测流集合；以及

步骤S14，在所述子链路总集合中标记已探测的子链路，得到当前链路覆盖率，当所述当前链路覆盖率超过覆盖率阈值，输出所述探测流集合，则所述已探测流集合即为所述备节点模块间的所述数据探测流的最少链路覆盖集合。

为了实现全网链路监控，如果对所有链路进行遍历的话，需要构造数量庞大的探测流，不仅消耗服务器资源，而且过多的探测数据流也会占用过多的带宽。为了解决这些问题，需要以尽可能少的探测流来监控整个网络的链路，同时占用少量的服务器资源以及带宽，因此，可采用最少流链路覆盖算法来解决。所述最少链路覆盖算法是通过将两台服务器之间的各种链路方式转化为设备与设备之间总的子链路数量来间接地解决该问题。例如，如果某条子链路发生了拥塞，那么流经该子链路的所有链路都会拥塞，这样两台服务器之间的链路覆盖转化为这个两台服务器经过的设备之间的所有子链路的覆盖，从而可以用较少的探测流来监控这两台服务器之间所有可能的路径的链路状况。需要说明的是，所述链路覆盖阈值和所述覆盖率阈值根据对链路覆盖的要求情况进行设置。其中，所述链路覆盖阈值是用来体现以尽可能少的探测流来覆盖所有的子链路的自定义阈值，例如：第一条探测流的链路覆盖率为100％；而所述覆盖率阈值是用来体现现有的探测流在全网网络的覆盖比率，理想状况下当所述覆盖率阈值为100％时表示全网所有链路都覆盖，当然，为了节约探测时间和探测资源的成本，也可对链路覆盖率阈值进行自定义，如90％或50％等。

图3示出了图1的步骤S2中所述单向时延探测算法的具体流程图。参见图3，在本发明实施方式中，所述单向时延探测算法包括如下步骤：

步骤S21，在所述备节点间建立控制链接并发出所述数据探测流；

步骤S22，在发送端记录发送所述数据探测流的发送时刻，在接收端记录接收所述数据探测流的接收时刻，计算所述发送时刻与所述接收时刻之差得到单次单向时延结果；

步骤S23，重复步骤S22进行预定次数，得到所述预定次数的单向时延结果；以及

步骤S24，对所述预定次数的单向时延结果进行平均值运算，得到单向时延探测结果。

所述单向时延探测算法是为了应对非对称网络带来的往返路径不一致导致的不能精确测试端与端的时延问题。通过在两台服务器之间先建立控制链接，再用linkCover探测出来的数据流进行探测，并记录发送时刻的时间戳和到达时刻的时间戳，两者之差即可得到单向时延数据。为了得到较为精确的单向时延数据，可通过多次测量取平均值的方式进行测量，当然，随着测量测量次数的增多也会延长测量时间和降低测量效率，因此，为了达到最佳测量状态，即用相对少的时间得到相对精确的单向时延数据，可将测量的预定次数控制在3至5次。

图4示出了图3的步骤S3中所述链路异常定位算法的具体流程图。参见图4，在本发明实施方式中，所述链路异常定位算法包括：

步骤S31，输入所述备节点的时间信息、地址信息和报警阈值，对所述备节点间的所述数据探测流进行统计，并生成异常流集合和正常流集合；

步骤S32，统计所述异常流集合中每条子链路在所述正常流集合中出现的频率；

步骤S33，筛选出所述频率低于正常频率阈值的异常子链路；以及

步骤S34，将所述异常子链路按照所述频率从小到大排序。

所述链路异常定位算法是为了解决当网络链路出现问题时如何快速地定位故障链路的问题。通过缩小问题链路排查的范围，将问题链路定位到子链路级别的方式来减少问题定位的时间。其中所述步骤S33中，所述“正常频率阈值”为正常情况下所述频率的最小值，可以自行设定(例如：3次、5次或10次)，“筛选出所述频率低于正常频率阈值的异常子链路”是指筛选出步骤S32所统计的频率为0或者较小的异常子链路，因为这些链路是最有可能造成网络拥塞的原因，而后执行步骤S34，将所述异常子链路按照所述频率从小到大排序，则可帮助网络运维人员缩小问题排查范围，从而快速地定位网络故障。另外，由于是通过构造数据探测流的方式，而不使用实际的业务流，所以不会带来业务流量的损失。

图5是根据本发明实施方式的一种网络链路监控设备的架构图。参见图5，在本发明实施方式中，所述设备包括：

主节点模块10，用于向多个备节点模块20发出配置文件，接收所述备节点模块20返回的所述单向时延探测结果，并根据设置的报警阈值判断是否触发报警程序；以及

多个备节点模块20，用于接收所述配置文件，执行最少链路覆盖算法，得到所述备节点模块间的所述数据探测流的最少链路覆盖集合，再执行单向时延探测算法，对所述最少链路覆盖集合进行单向时延探测，得到单向时延探测结果，并将所述单向时延探测结果返回所述主节点模块10。

其中，所述主节点模块10可与Web服务器相关联，所述主节点模块10将通过Web服务器接收来自用户的配置文件(包括：数据探测流的探测周期、探测的源机房和目的机房列表、报警阈值等)，并把这些配置文件通过HTTP连接下发至各个备节点模块20。主节点模块10周期性地接收备节点模块20返回的探测结果，并根据用户预设置的报警阈值来决定是否触发报警程序，同时将探测结果通过Web服务器在前端进行展示。

图6示出了图5所示的主节点模块10的框图。参见图6，在本发明实施方式中，所述主节点模块10包括：

探测调度中心模块11，用于向所述多个备节点模块发出配置文件；以及

报警模块12，用于接收所述备节点模块返回的所述单向时延探测结果，并根据设置的报警阈值判断是否触发报警程序。

其中，探测调度中心模块11将自动地将配置文件下发至各个备节点模块，各个备节点模块在收到新的配置文件后，将及时自动更新各自的配置文件，并根据新的配置文件进行周期性探测，而后再把探测结果返回探测调度中心模块11。探测调度中心模块11汇总这些探测结果并在前端进行展示，同时根据预设值的报警阈值判断是否触发报警模块12。

图7示出了图5所示的备节点模块20的框图。参见图1，在本发明实施方式中，所述备节点模块20包括：

链路覆盖模块21，用于接收所述配置文件，执行所述最少链路覆盖算法，得到所述备节点模块间的所述数据探测流的最少链路覆盖集合；以及

时延探测模块22，用于执行所述单向时延探测算法，对所述最少链路覆盖集合进行单向时延探测，得到单向时延探测结果，并将所述单向时延探测结果返回所述主节点模块。

所述备节点模块还可以包括：异常定位模块，用于当所述报警程序启动时，执行链路异常定位算法对出现故障的子链路进行定位。

其中，所述链路覆盖模块21与所述时延探测模块22是两个并列且关联的模块，所述链路覆盖模块21是用于将接收到的数据探测流执行所述最少链路覆盖算法，从而得到以尽量少的数据探测流覆盖尽量多或全部链路的优选链路覆盖方案。所述链路覆盖模块21可以是所述时延探测模块22的预备模块，具体而言，先通过所述链路覆盖模块21得到所述备节点模块20间的所述数据探测流的最少链路覆盖集合，再由时延探测模块22得到单向时延探测结果，并将所述单向时延探测结果返回所述主节点模块。需要说明的是，为了更加高效、合理进行链路探测和监控，在某探测周期内，所述链路覆盖模块21可仅运行1次并得到所述最少链路覆盖集合，然后，所述时延探测模块22可根据单向时延探测的需要，多次重复利用所述链路覆盖模块21得到的所述最少链路覆盖集合进行单向时延探测。另外，所述异常定位模块是在所述主节点模块中的报警模块在启动报警程序的情况下才运行的模块，它通过执行链路异常定位算法可快速对出现故障的子链路进行定位，并将定位结果返回主节点模块，有效地解决了网络异常链路的定位问题。

并且，本发明实施方式还提供了一种网络系统，所述系统包括：

一个或多个处理器；

存储器；

所述一个或多个处理器执行所述一个或多个程序时进行根据上述一种网络链路监控方法的步骤操作。关于所述一种网络链路监控方法请参见前文所述，在此不再赘述。

另外，本发明实施方式还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个或多个设备执行时，使得所述设备执行根据上述一种网络链路监控方法的步骤操作。关于一种网络链路监控方法请参见前文所述，在此不再赘述。

采用本发明提供的方案，可以准确、高效和全面地监控全网所有的链路，同时解决非对称链路带来的时延问题，以及快速地定位出现故障的链路。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明说明书中使用的术语和措辞仅仅为了举例说明，并不意味构成限定。本领域技术人员应当理解，在不脱离所公开的实施方式的基本原理的前提下，对上述实施方式中的各细节可进行各种变化。因此，本发明的范围只由权利要求确定，在权利要求中，除非另有说明，所有的术语应按最宽泛合理的意思进行理解。

Claims

一种网络链路监控方法，其特征在于，所述方法包括：

主节点模块向多个备节点模块发出配置文件；

所述备节点模块接收所述配置文件，对所述配置文件执行最少链路覆盖算法，得到所述备节点模块间的数据探测流的最少链路覆盖集合；

所述备节点模块执行单向时延探测算法，对所述最少链路覆盖集合进行单向时延探测，得到单向时延探测结果，并将所述单向时延探测结果返回主节点模块；以及

所述主节点模块根据设置的报警阈值判断是否触发报警程序。
如权利要求1所述的方法，其特征在于，所述最少链路覆盖算法包括：

输入备节点的地址信息，计算生成所述备节点之间全部链路的子链路总集合；

构造数据探测流对所述全部链路进行探路；

计算出所述子链路的链路覆盖率，当所述链路覆盖率大于设定的链路覆盖阈值时，则将所述子链路列入探测流集合；以及

在所述子链路总集合中标记已探测的子链路，得到当前链路覆盖率，当所述当前链路覆盖率超过覆盖率阈值，输出所述探测流集合，则所述已探测流集合即为所述备节点模块间的所述数据探测流的最少链路覆盖集合。
如权利要求2所述的方法，其特征在于，所述链路覆盖阈值和所述覆盖率阈值根据对链路覆盖的要求情况进行设置。
如权利要求1至3任意一项所述的方法，其特征在于，所述单向时延探测算法包括如下步骤：

S21，在所述备节点间建立控制链接并发出所述数据探测流；

S22，在发送端记录发送所述数据探测流的发送时刻，在接收端记录接收所述数据探测流的接收时刻，计算所述发送时刻与所述接收时刻之差得到单次单向时延结果；

S23，重复步骤S22进行预定次数，得到所述预定次数的单向时延结果；以及

S24，对所述预定次数的单向时延结果进行平均值运算，得到单向时延探测结果。
如权利要求1至4任意一项所述的方法，其特征在于，当所述报警程序启动时，则执行链路异常定位算法对出现故障的子链路进行定位。
如权利要求5所述的方法，其特征在于，所述链路异常定位算法包括：

输入所述备节点的时间信息、地址信息和报警阈值，对所述备节点间的所述数据探测流进行统计，并生成异常流集合和正常流集合；

统计所述异常流集合中每条子链路在所述正常流集合中出现的频率；

筛选出所述频率低于正常频率阈值的异常子链路；以及

将所述异常子链路按照所述频率从小到大排序。
一种网络链路监控设备，其特征在于，所述设备包括：

主节点模块，用于向多个备节点模块发出配置文件，接收所述备节点模块返回的单向时延探测结果，并根据设置的报警阈值判断是否触发报警程序；以及

多个备节点模块，用于接收所述配置文件，执行最少链路覆盖算法，得到所述备节点模块间的数据探测流的最少链路覆盖集合，再执行单向时延探测算法，对所述最少链路覆盖集合进行单向时延探测，得到单向时延探测结果，并将所述单向时延探测结果返回所述主节点模块。
如权利要求7所述的设备，其特征在于，所述主节点模块包括：

探测调度中心模块，用于向所述多个备节点模块发出配置文件；以及

报警模块，用于接收所述备节点模块返回的所述单向时延探测结果，并根据设置的报警阈值判断是否触发报警程序。
如权利要求7或8所述的设备，其特征在于，所述备节点模块包括：

链路覆盖模块，用于接收所述配置文件，执行所述最少链路覆盖算法，得到所述备节点模块间的所述数据探测流的最少链路覆盖集合；以及

时延探测模块，用于执行所述单向时延探测算法，对所述最少链路覆盖集合进行单向时延探测，得到单向时延探测结果，并将所述单向时延探测结果返回所述主节点模块。
如权利要求7至9任意一项所述的设备，其特征在于，所述备节点模块还包括：

异常定位模块，用于当所述报警程序启动时，执行链路异常定位算法对出现故障的子链路进行定位。
一种网络系统，其特征在于，所述系统包括：

一个或多个处理器；

存储器；

一个或多个程序，所述一个或多个程序存储在所述存储器上；

所述一个或多个处理器执行所述一个或多个程序时进行根据权利要求1至6中任意一项所述的操作。
一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个或多个设备执行时，使得所述设备执行根据权利要求1至6中任意一项所述的操作。