WO2023231192A1 - 一种基于SRv6的智能网络及设备故障预测方法及系统 - Google Patents

一种基于SRv6的智能网络及设备故障预测方法及系统 Download PDF

Info

Publication number
WO2023231192A1
WO2023231192A1 PCT/CN2022/114154 CN2022114154W WO2023231192A1 WO 2023231192 A1 WO2023231192 A1 WO 2023231192A1 CN 2022114154 W CN2022114154 W CN 2022114154W WO 2023231192 A1 WO2023231192 A1 WO 2023231192A1
Authority
WO
WIPO (PCT)
Prior art keywords
probability
network
state transition
database
srv6
Prior art date
Application number
PCT/CN2022/114154
Other languages
English (en)
French (fr)
Inventor
朱文进
杜忠田
王宏昊
王玉梁
刘少卿
房杰
Original Assignee
中电信数智科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中电信数智科技有限公司 filed Critical 中电信数智科技有限公司
Publication of WO2023231192A1 publication Critical patent/WO2023231192A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Definitions

  • the invention belongs to the technical field of network fault prediction, and specifically relates to an SRv6-based intelligent network and equipment fault prediction method and system.
  • the existing technology is difficult to solve the problem of combining network equipment, servers, and applications during the SRv6 network monitoring process, resulting in the inability to quickly understand the comprehensive situation between SRv6 network nodes, between network nodes and servers, and between servers and applications. .
  • the technical problem to be solved by the present invention is to provide an intelligent network and equipment fault prediction method and system based on SRv6 in view of the above-mentioned shortcomings of the existing technology.
  • An SRv6-based intelligent network and equipment fault prediction method including:
  • Step 1 The data collection module collects network data and basic monitoring items of network equipment based on SRv6, and stores the collected data in the collection database;
  • Step 2 The Bayesian state transition probability model analyzes and calculates the collection database and historical alarm database data to obtain the initial probability of this and the next network state transition, the network state transition probability, the initial probability of device state transition, and the device state transition probability. ;
  • Step 3 Based on the Markov chain transition probability matrix model, construct the Markov chain network transition probability matrix and the Markov chain equipment transition probability matrix according to the probability obtained in step 2, and predict intelligent network and equipment failures.
  • step one includes:
  • the data collection module collects network data:
  • the data collection module collects basic monitoring items of network equipment:
  • Step 2 above includes:
  • the model formula is: QZ(D
  • +) QZ(+
  • the initial probability and transition probability of network and device state transition that is, the initial probability of current and next network state transition, the network state transition probability, the initial probability of device state transition, and the device state transition probability.
  • the prior probability of the initial probability of network state transition includes:
  • the prior probabilities of network state transition probabilities include:
  • the initial probability of equipment state transition and the prior probability include:
  • the prior probability of equipment state transition probability includes:
  • the initial probability conditional probability of network state transition includes:
  • conditional probabilities of network state transition probabilities include:
  • the initial probability of equipment state transition conditional probability includes:
  • the collection database device divides the CPU usage ratio according to the board where it is located;
  • conditional probabilities of equipment state transition probabilities include:
  • the historical alarm database device divides the CPU usage proportion according to the board where it is located;
  • the historical alarm database device divides the memory usage ratio according to the board where it is located;
  • the historical alarm database equipment divides the hard disk usage proportion according to the board where it is located.
  • the initial probability adjustment factors of network state transition include:
  • Network state transition probability adjustment factors include:
  • the initial probability of equipment state transition conditional probability includes:
  • the acquisition database divides the number of false alarms/prior probability of CPU usage by board card
  • the collection database divides the memory usage by board card into false alarm times/prior probability
  • the collection database divides the hard disk usage rate false alarm times/prior probability by board card
  • conditional probabilities of equipment state transition probabilities include:
  • the historical alarm database divides the number of false alarms/prior probability of CPU usage by board
  • the historical alarm database divides the number of false alarms/prior probability of memory usage by board
  • the historical alarm database divides the number of false alarms/prior probability of hard disk usage by board.
  • step three is based on the Markov chain transition probability matrix model, using the initial probability of network state transition and the network state transition probability to construct the Markov chain network transition probability matrix;
  • the Markov chain equipment transition probability matrix is constructed using the initial probability of equipment state transition and the equipment state transition probability.
  • the intelligent network and equipment fault prediction system based on SRv6 includes a data collection module, collection database, historical alarm database, Bayesian state transition probability model, Markov chain transition probability matrix model and its training module, used to implement the above SRv6-based intelligent network and equipment fault prediction method.
  • This invention highlights the status of artificial intelligence in the field of failure probability prediction. It uses Bayesian combined with Markov chain algorithm models to predict the failure probability of monitoring indicators in combination with collected multi-source data, making the calculation model more accurate and able to It meets the feasibility of scenarios such as massive IPv6 inspections and security leak scans in large and very large SRv6 networks. At the same time, by predicting the probability of failure in the next period, we can more proactively understand the packet loss and delay of each node in the network and adjacent networks, the future operation health trend of related servers and applications, and possible fault hiding points, through multi-model fusion. , and the integration of multiple data sources improve the prediction accuracy of defect monitoring indicators.
  • Figure 1 is a flow chart of the method of the present invention.
  • an intelligent network and equipment fault prediction method based on SRv6 of the present invention includes:
  • Step 1 The data collection module collects network data and basic monitoring items of network equipment based on SRv6, and stores the collected data in the collection database;
  • the data collection module includes: rping and snmp monitoring and collection, data collection server, and network topology database.
  • Step 2 The Bayesian state transition probability model analyzes and calculates the collection database and historical alarm database data to obtain the initial probability of this and the next network state transition, the network state transition probability, the initial probability of device state transition, and the device state transition probability. ;
  • network state transition probability network traffic, delay, packet loss number
  • device state transition probability CPU usage, memory usage, hard disk usage
  • the network traffic delay faults between historical alarm database SRv6 nodes are calculated according to the statistics of less than 100 milliseconds and more than 100 milliseconds (proportion of failures)
  • Historical alarm database SRv6 network traffic packet loss faults between nodes are counted according to the packet loss ratio below 60% and above 60% (fault ratio).
  • CPU usage (proportion) divided by boards Assume that the device has four boards. The CPU usage collected this time accounts for the total CPU usage collected by the device (proportion).
  • the device may have multiple boards with CPU, memory and hard disk on them.
  • the historical alarm database device divides the CPU usage (proportion) according to the board where it is located.
  • the historical alarm database device divides the memory usage (proportion) according to the board where it is located.
  • the historical alarm database device divides the hard disk usage (proportion) according to the board where it is located.
  • the collection database divides the number of false alarms of CPU usage by board card/[prior probability]
  • the collection database divides the hard disk usage rate false positives by board card / [prior probability]
  • the historical alarm database divides the number of false alarms of CPU usage by board card/[prior probability]
  • the historical alarm database divides the memory usage by board card and the number of false alarms/[prior probability]
  • the historical alarm database divides the number of false positives of hard disk usage by board card/[prior probability]
  • prior probability QZ(D
  • +) network traffic failure probability between SRv6 nodes of the collection database
  • Conditional probability QZ (+
  • D) historical alarm database SRv6 network traffic faults between nodes count the total number of faults in the IN and OUT directions / the ratio of the total number of collections (faults + non-faults)
  • Adjustment factor QZ(+
  • N) Number of network traffic false alarms/prior probability (false alarm rate)
  • Step 3 Based on the Markov chain transition probability matrix model, construct the Markov chain network transition probability matrix and the Markov chain equipment transition probability matrix according to the probability obtained in step 2, and predict intelligent network and equipment failures.
  • the Markov chain device transition probability matrix is used for the physical device probability prediction model; the Markov chain network transition probability matrix is used for the network traffic probability prediction.
  • the Markov chain network transition probability matrix consists of two parts: the initial probability of network state transition and the network state transition probability.
  • the Markov chain equipment transition probability matrix consists of two parts: the initial probability of equipment state transition and the equipment state transition probability.
  • 1 and 2 obtain the initial transition probability and transition probability of the network and device states through the Bayesian model in step three.
  • the set of rectangles is:
  • the second network traffic failure probability X1 0.22
  • the second network delay failure probability X2 0.4
  • the training results of the second Markov chain transition probability matrix model [0.22, 0.4, 0.38] are the probability of failure of each monitoring indicator in the final second network and equipment inspection.
  • the intelligent network and equipment fault prediction system based on SRv6 includes a data collection module, collection database, historical alarm database, Bayesian state transition probability model, Markov chain transition probability matrix model and its training module, used to implement the above SRv6-based intelligent network and equipment fault prediction method.
  • rping remote ping, in an enterprise LAN, is responsible for: "Measuring the delay and packet loss rate between several routers.” Log in to the router and execute the ping (or extended ping) command on the router instead of the management terminal (this is the remote) to measure the delay and packet loss to other routers or specified addresses and record the results for various later analysis and comparison work. .
  • [rping program] Use the rping command to test the average delay between two adjacent nodes, complete the test of the entire line, and then sum the average delay of each adjacent node to find the delay of the entire line.
  • Network topology database stores the interactive relationships between all SRv6 network nodes and their adjacent network nodes.
  • the [Service Topology Database] stores the interactive relationships between all servers, databases, and middleware as well as server CPU, memory, disk, and process monitoring indicators.
  • Tracing database stores traceability topology: monitoring information such as CPU, memory, disk, process, etc. between adjacent network devices in the SRv6 network, network devices and servers, servers and databases, servers and middleware, network devices and the server itself interactions and relationships. Traceability topology data: corresponds to monitoring data information.
  • SRv6 is a network forwarding technology. SR refers to Segment Routing technology, v6 refers to native IPv6, and SRv6 is IPv6+Segment Routing.
  • SR-MPLS uses 4-byte labels to identify path information.
  • MPLS labels can only identify the label value, TTL, and the bottom of the label stack, and have no extended information capability.
  • the Segment of SRv6 has 128 bits and is divided into three parts:
  • Locator An identification assigned to a network node in the network, which can be used to route and forward data packets. Locator has two important properties, routable and aggregable. In SRv6 SID, Locator is a variable-length part used to adapt to networks of different sizes.
  • Function An ID value assigned by the device to the local forwarding command. This value can be used to express the forwarding action that the device needs to perform, which is equivalent to the operation code of the computer instruction.
  • function IDs are similar to MPLS labels and are used to identify VPN forwarding instances.
  • Args (variable): The parameters required when the forwarding instruction is executed. These parameters may contain streams, services or any other related variable information.
  • SRv6 has both routing and MPLS forwarding attributes. It has TE traffic engineering capabilities, scalability capabilities, and is compatible with IPv6. It also facilitates future fixed-mobile convergence and realizes the unification of IP forwarding technology.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于SRv6的智能网络及设备故障预测方法及系统,方法为:数据采集模块采集基于SRv6的网络数据和网络设备基础监控项,并将采集数据存入采集数据库;贝叶斯状态转移概率模型对采集数据库和历史告警数据库数据进行分析计算,得出本次和下次网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率;基于马尔可夫链转移概率矩阵模型,根据步骤二得到的概率构建马尔可夫链网络转移概率矩阵和马尔可夫链设备转移概率矩阵,对智能网络及设备故障进行预测。本发明通过多模型融合,以及多数据源的融合,提高了缺陷监测指标预测精度。

Description

一种基于SRv6的智能网络及设备故障预测方法及系统 技术领域
本发明属于网络故障预测技术领域,具体涉及一种基于SRv6的智能网络及设备故障预测方法及系统。
背景技术
随着数字化发展的逐渐深入,全球SRv6网的在运设备逐渐增加,相较于十年前,设备增长了10~100倍。即便运维已经在从手工运维向工具运维和平台运维发展,但仍然无法满足当前超大型组网、服务器、应用对运维监测要求。机房运维场景下网络业务规模大,应用关系复杂,依赖层次多,排查问题困难。如此大的规模下,靠人工经验、自动化运维去监测网络设备就成为了制约运维工作的技术瓶颈。
现有技术很难达到在SRv6组网监测过程中,网络设备、服务器、应用结合的问题,从而造成无法快速了解SRv6网络节点之间、网络节点与服务器之间、服务器与应用之间的综合情况。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于SRv6的智能网络及设备故障预测方法及系统。
为实现上述技术目的,本发明采取的技术方案为:
一种基于SRv6的智能网络及设备故障预测方法,包括:
步骤一、数据采集模块采集基于SRv6的网络数据和网络设备基础监控项,并将采集数据存入采集数据库;
步骤二:贝叶斯状态转移概率模型对采集数据库和历史告警数据库数据进行分析计算,得出本次和下次网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率;
步骤三、基于马尔可夫链转移概率矩阵模型,根据步骤二得到的概率构建马尔可夫链网络转移概率矩阵和马尔可夫链设备转移概率矩阵,对智能网络及设备故障进行预测。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤一包括:
1)数据采集模块采集网络数据:
通过采集程序执行rping命令获得网络设备到网络出口设备通过的每段SRv6节点相邻的网络丢包数、延迟毫秒数;
并通过snmp命令采集每段SRv6节点之间的网络流量;
2)数据采集模块采集网络设备基础监控项:
通过采集程序执行snmp命令采集网络设备各板卡上的CPU使用率、内存占用率、硬盘使用率;
3)将采集到的网络数据和网络设备基础监控项存入采集数据库。
上述的步骤二包括:
S1、构建用于计算网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的贝叶斯状态转移概率模型:
模型公式为:QZ(D|+)=QZ(+|D)QZ(D)/(QZ(+|D)QZ(D)+QZ(+|N)QZ(N));
S2、基于采集数据库和历史告警数据库数据计算网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的先验概率;
S3、基于采集数据库和历史告警数据库数据计算网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的条件概率;
S4、基于采集数据库和历史告警数据库数据计算网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的调整因子
S5、将网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的先验概率、条件概率、调整因子分别放入S1构建的模型公式中,得到本次和下次网络及设备的状态转移初始概率和转移概率,即本次和下次网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率。
上述的S2中,网络状态转移初始概率先验概率包括:
1)采集数据库的SRv6节点之间网络流量非故障总数;
2)采集数据库的SRv6节点之间网络延迟毫秒非故障总数;
3)采集数据库的SRv6节点之间网络丢包非故障数总数;
网络状态转移概率先验概率包括:
1)历史告警数据库2个SRv6节点之间网络流量故障总数;
2)延迟毫秒故障总数;
3)丢包故障数总数;
设备状态转移初始概率先验概率包括:
1)采集数据库设备CPU使用率非故障总数;
2)采集数据库内存占用率非故障总数;
3)采集数据库硬盘使用率非故障总数;
设备状态转移概率先验概率包括:
1)历史告警数据库设备CPU使用率故障总数;
2)内存占用率故障总数;
3)硬盘使用率故障总数。
上述的S3中,网络状态转移初始概率条件概率包括:
1)采集数据库的SRv6节点之间网络流量非故障总数;
2)采集数据库的SRv6节点间网络延迟毫秒非故障总数;
3)采集数据库的SRv6节点之间网络丢包非故障数总数;
网络状态转移概率条件概率包括:
1)历史告警数据库SRv6节点之间网络流量故障按IN和OUT方向统计流量占比;
2)历史告警数据库SRv6节点之间网络流量延迟故障按100毫秒以下和100毫秒以上统计故障占比;
3)历史告警数据库SRv6节点之间网络流量丢包故障按丢包比例60%以下和60%以上统计故障占比;
设备状态转移初始概率条件概率包括:
1)采集数据库设备按所在板卡划分CPU使用率占比;
2)采集数据库设备按所在板卡划分内存占用率占比;
3)采集数据库设备按所在板卡划分硬盘使用率占比;
设备状态转移概率条件概率包括:
1)历史告警数据库设备按所在板卡划分CPU使用率占比;
2)历史告警数据库设备按所在板卡划分内存占用率占比;
3)历史告警数据库设备按所在板卡划分硬盘使用率占比。
上述的S4中,网络状态转移初始概率调整因子包括:
1)采集数据库网络流量误报次数/先验概率;
2)采集数据库网络流量延迟误报次数/先验概率;
3)采集数据库网络流量丢包误报次数/先验概率;
网络状态转移概率调整因子包括:
1、历史告警数据库网络流量故障误报次数/先验概率;
2、历史告警数据库网络流量延迟误报次数/先验概率;
3、历史告警数据库网络流量丢包误报次数/先验概率;
设备状态转移初始概率条件概率包括:
1)采集数据库按板卡划分CPU使用率误报次数/先验概率;
2)采集数据库按板卡划分内存占用率误报次数/先验概率;
3)采集数据库按板卡划分硬盘使用率误报次数/先验概率;
设备状态转移概率条件概率包括:
1)历史告警数据库按板卡划分CPU使用率误报次数/先验概率;
2)历史告警数据库按板卡划分内存占用率误报次数/先验概率;
3)历史告警数据库按板卡划分硬盘使用率误报次数/先验概率。
上述的步骤三基于马尔可夫链转移概率矩阵模型,采用网络状态转移初始概率、网络状态转移概率构建马尔可夫链网络转移概率矩阵;
采用设备状态转移初始概率、设备状态转移概率构建马尔可夫链设备转移概率矩阵。
基于SRv6的智能网络及设备故障预测系统,包括数据采集模块、采集数据库、历史告警数据库、贝叶斯状态转移概率模型、马尔可夫链转移概率矩阵模型和及其训练模块,用于实现所述的基于SRv6的智能网络及设备故障预测方法。
本发明具有以下有益效果:
采用rping结合snmp命令进行网络及设备采集,并采用贝叶斯和马尔可夫链算法构建马尔可夫链设备转移概率矩阵对物理设备的多块板卡中的CPU、内存、IO等监测指标根据历史告警数据进行概率预测。同时对网络流量通过构建马尔可夫链网络转移概率矩阵根据历史告警数据进行概率预测,实现物理设备概率预测和网络流量概率预测。
本发明突出了人工智能在故障概率预测领域的地位,采用贝叶斯结合马尔科夫链算法模型相结合,结合采集的多源数据进行监测指标的故障概率预测,使运算模型更加精确,并能够满足大型和超大型SRv6组网内海量IPv6巡检、安全漏扫等场景下可实现性。同时通过对下一时段故障概率预测,更加前瞻性了解组网内各节点与相邻网络丢包和延迟情况,相关服务器及应用未来运行健康趋势情况及可能发生的故障隐匿点,通过多模型融合,以及多数据源的融合,提高了缺陷监测指标预测精度。
附图说明
图1为本发明方法流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
参见图1,本发明一种基于SRv6的智能网络及设备故障预测方法,包括:
步骤一、数据采集模块采集基于SRv6的网络数据和网络设备基础监控项,并将采集数据存入采集数据库;
数据采集模块包括:rping和snmp监控及采集、数据采集服务器、网络拓扑数据库。
网络数据采集:
首先,通过采集程序执行rping命令获得网络设备到网络出口设备通过的每段SRv6节点相邻的网络丢包数、延迟毫秒数。
并通过snmp命令采集每段SRv6节点之间的网络流量。
重复执行rping和snmp命令得出全部SRv6网络节点及相邻节点之间的网络品质信息(延迟、丢包数等)。
从而得到SRv6组网内源设备到出口网络设备的所经过节点的全路径网络品质数据。
最后将(网络流量、延迟、丢包数)三个监测指标采集到的数据进行分析,分析结果做为马尔科夫链转移概率矩阵模型的训练数据。
网络设备基础监控项采集:
首先,通过采集程序执行snmp命令采集网络设备各板卡上的(CPU使用率、内存占用率、硬盘使用率)。
重复执行snmp命令得出网络设备全部板卡监测数据。
最后将(CPU使用率、内存占用率、硬盘使用率)三个监测指标采集到的数据进行分析,分析结果作为马尔科夫链转移概率矩阵模型的训练数据。
步骤二:贝叶斯状态转移概率模型对采集数据库和历史告警数据库数据进行分析计算,得出本次和下次网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率;
通过贝叶斯公式对采集数据库和历史告警数据库数据分析计算,得出获取网络状态转移概率(网络流量、延迟、丢包数)和设备状态转移概率(CPU使用率、内存占用率、硬盘使用率)下一次监测状态转移概率。
S1、构建【网络状态转移初始概率】、【网络状态转移概率】和【设备状态转移初始概 率】、【设备状态转移概率】用的模型公式。
具体描述:得到训练模型的【先验概率】、【条件概率】、【调整因子】参数放入模型进行训练。得到平衡各种指标后的【网络状态转移概率】和【设备状态转移概率】。
公式:QZ(D|+)=QZ(+|D)QZ(D)/(QZ(+|D)QZ(D)+QZ(+|N)QZ(N))
S2、网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的【先验概率】
一、网络状态转移初始概率先验概率
1、采集数据库的SRv6节点之间网络流量非故障总数
2、采集数据库的SRv6节点之间网络延迟毫秒非故障总数
3、采集数据库的SRv6节点之间网络丢包非故障数总数
二、网络状态转移概率先验概率
1、历史告警数据库2个SRv6节点之间网络流量故障总数
2、延迟毫秒故障总数
3、丢包故障数总数
三、设备状态转移初始概率先验概率
1、采集数据库该设备CPU使用率非故障总数
2、采集数据库内存占用率非故障总数
3、采集数据库硬盘使用率非故障总数。
四、设备状态转移概率先验概率
历史告警数据库该设备CPU使用率故障总数
内存占用率故障总数
硬盘使用率故障总数。
S3、网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的【条件概率】
一、网络状态转移初始概率条件概率
1、采集数据库的SRv6节点之间网络流量非故障总数
2、采集数据库的SRv6节点间网络延迟毫秒非故障总数
3、采集数据库的SRv6节点之间网络丢包非故障数总数
二、网络状态转移概率条件概率
1、历史告警数据库SRv6节点之间网络流量故障按IN和OUT方向统计(流量占比)
2、历史告警数据库SRv6节点之间网络流量延迟故障按100毫秒以下和100毫秒以上统计(故障占比)
3、历史告警数据库SRv6节点之间网络流量丢包故障按丢包比例60%以下和60%以上统计(故障占比)。
三、设备状态转移初始概率条件概率
1、采集数据库该设备按所在板卡划分CPU使用率(占比)。
2、采集数据库该设备按所在板卡划分内存占用率(占比)。
3、采集数据库该设备按所在板卡划分硬盘使用率(占比)。
板卡划分CPU使用率(占比)=假设,该设备有四块板块。本次采集的CPU使用率占全部该设备采集的CPU使用率总数的(占比)。
注:设备可能有多块板卡且板卡上有cpu、内存及硬盘。
四、设备状态转移概率条件概率
1、历史告警数据库设备按所在板卡划分CPU使用率(占比)。
2、历史告警数据库设备按所在板卡划分内存占用率(占比)。
3、历史告警数据库设备按所在板卡划分硬盘使用率(占比)。
S4、网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的【调整因子】
一、网络状态转移初始概率调整因子
1、采集数据库网络流量误报次数/【先验概率】
2、采集数据库网络流量延迟误报次数/【先验概率】
3、采集数据库网络流量丢包误报次数/【先验概率】
二、网络状态转移概率调整因子
1、历史告警数据库网络流量故障误报次数/【先验概率】
2、历史告警数据库网络流量延迟误报次数/【先验概率】
3、历史告警数据库网络流量丢包误报次数/【先验概率】
三、设备状态转移初始概率条件概率
1、采集数据库按板卡划分CPU使用率误报次数/【先验概率】
2、采集数据库按板卡划分内存占用率误报次数/【先验概率】
3、采集数据库按板卡划分硬盘使用率误报次数/【先验概率】
四、设备状态转移概率条件概率
1、历史告警数据库按板卡划分CPU使用率误报次数/【先验概率】
2、历史告警数据库按板卡划分内存占用率误报次数/【先验概率】
3、历史告警数据库按板卡划分硬盘使用率误报次数/【先验概率】
S5、网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的【先验概率】、【条件概率】、【调整因子】放入模型公式
QZ(D|+)=QZ(+|D)QZ(D)/(QZ(+|D)QZ(D)+QZ(+|N)QZ(N))
例如:先验概率=QZ(D|+)=采集数据库的SRv6节点之间网络流量故障概率
条件概率=QZ(+|D)=历史告警数据库SRv6节点之间网络流量故障按IN和OUT方向统计故障总数/采集总数比例(故障+非故障)
调整因子=QZ(+|N)=网络流量误报次数/先验概率(误报率)
通过贝叶斯概率预测得到本次和下次网络及设备的状态转移初始概率和转移概率。
步骤三、基于马尔可夫链转移概率矩阵模型,根据步骤二得到的概率构建马尔可夫链网络转移概率矩阵和马尔可夫链设备转移概率矩阵,对智能网络及设备故障进行预测。
马尔可夫链设备转移概率矩阵,用于物理设备概率预测模型;马尔可夫链网络转移概率矩阵,用于网络流量概率预测。
构建马尔可夫链转移概率矩阵模型及训练模块
模型公式:
P(X (n+1)=i|X (n)=j,X (n-1)=i (n-1),…,X (0)=i (0))=P ij,n≥0
1、马尔可夫链网络转移概率矩阵由网络状态转移初始概率、网络状态转移概率二部分组成
2、马尔可夫链设备转移概率矩阵由设备状态转移初始概率、设备状态转移概率二部分组成
1和2通过步骤三贝叶斯模型得到网络及设备的状态初始转移概率和转移概率。
最终第二次网络及设备巡检各监测指标可能发生故障的概率。
例如:
一、网络状态转移初始概率【x1=0.6、x2=0.2、x3=0.2】
x1=本次采集网络流量发生故障概率
x2=本次采集网络延迟发生故障概率
x3=本次采集网络丢包发生故障概率
二、网络状态转移非初始概率
即:
第一次流量故障x1=0.6的情况下第二次流量故障概率
【x1=0.2、x2=0.3、x3=0.5】
第一次延迟故障x2=0.2的情况下第二次延迟故障概率【x1=0.1、x2=0.6、x3=0.3】
第一次丢包故障x3=0.2的情况下第二次丢包故障概率
【x1=0.4、x2=0.5、x3=0.1】
最后,将初始概率和非初始概率生成矩形数据集合放入【马尔可夫链模型】进行训练。具体步骤描述如下:
矩形集合为:
Figure PCTCN2022114154-appb-000001
第一次的转移矩阵【X1=0.6、X2=0.2、X3=0.2】
X1=0.6的转移矩阵【X1=0.2、X2=0.3、X3=0.5】
X2=0.2的转移矩阵【X1=0.1、X2=0.6、X3=0.3】
X3=0.6的转移矩阵【X1=0.4、X2=0.5、X3=0.1】
依据模型公式进行训练:
P(X (n+1)=i|X (n)=j,X (n-1)=i (n-1),…,X (0)=i (0))=P ij,n≥0
计算步骤1:
第一次的转移矩阵X1=0.6乘X1=0.2+
第一次的转移矩阵X2=0.2乘X1=0.1+
第一次的转移矩阵X3=0.2乘X1=0.4
第二次网络流量发生故障概率X1=0.22
计算步骤2:
第一次的转移矩阵X1=0.6乘X2=0.3+
第一次的转移矩阵X2=0.2乘X2=0.6+
第一次的转移矩阵X3=0.2乘X2=0.5
第二次网络延迟发生故障概率X2=0.4
计算步骤3:
第一次的转移矩阵X1=0.6乘X3=0.5+
第一次的转移矩阵X2=0.2乘X3=0.3+
第一次的转移矩阵X3=0.2乘X3=0.1
第二次网络丢包发生故障概率X3=0.38
第一次初始概率【0.6、0.2、0.2】
第二次马尔可夫链转移概率矩阵模型训练结果【0.22、0.4、0.38】即,最终第二次网络及设备巡检各监测指标可能发生故障的概率。
基于SRv6的智能网络及设备故障预测系统,包括数据采集模块、采集数据库、历史告警数据库、贝叶斯状态转移概率模型、马尔可夫链转移概率矩阵模型和及其训练模块,用于实现所述的基于SRv6的智能网络及设备故障预测方法。
本发明所用到的缩略语和关键术语定义如下:
rping:remote ping,在企业局域网络内,负责:“测算几台路由器之间时延和丢包率”。登录到路由器,在路由器而非管理终端(此即remote)上面执行ping(或扩展ping)命令测量到其它router或指定地址的时延和丢包并将结果记录,进行后期的各种分析比较工作。
【rping程序】:采用执行rping命令,测试相邻的两个节点之间平均延迟,完成整条线路的测试,然后对每个相邻节点的平均延迟求和,求出整条线路的延迟。
【网络拓扑数据库】存储所有SRv6网络节点及与之相邻的网络节点之间交互关系。与其相关的还有,【服务拓扑数据库】存储所有服务器、数据库、中间件之间交互关系及服务器CPU、内存、磁盘、进程监测指标。【溯源数据库】存储溯源拓扑即:SRv6组网内相邻网络设备之间、网络设备与服务器、服务器与数据库、服务器与中间件、网络设备与服务器自身的CPU、内存、磁盘、进程等监测信息的交互及关联关系。溯源拓扑数据:对应监测数据信息。
SRv6:SRv6是一种网络转发技术,SR指Segment Routing技术,v6指原生IPv6,SRv6就是IPv6+Segment Routing。
SR-MPLS使用4字节标签标识路径信息,MPLS标签仅能标识标签值、TTL、标签栈底三个信息,无扩展信息能力。与SR MPLS的Segment不同,SRv6的Segment有128bits,而且分成了三部分:
SRv6 SID
Locator(位置标识):网络中分配给一个网络节点的标识,可以用于路由和转发数据包。Locator有两个重要的属性,可路由和聚合。在SRv6 SID中Locator是一个可变长的部分,用于适配不同规模的网络。
Function(功能):设备分配给本地转发指令的一个ID值,该值可用于表达需要设备执行的转发动作,相当于计算机指令的操作码。在SRv6网络编程中,不同的转发行为由不同的功能ID来表达。一定程度上功能ID和MPLS标签类似,用于标识VPN转发实例等。
Args(变量):转发指令在执行的时候所需要的参数,这些参数可能包含流,服务或任何其他相关的可变信息。
总之,SRv6同时具有路由和MPLS两种转发属性,具备TE流量工程能力、扩展性能力、兼容IPv6,也便于未来固移融合,实现IP转发技术统一。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

  1. 一种基于SRv6的智能网络及设备故障预测方法,其特征在于,包括:
    步骤一、数据采集模块采集基于SRv6的网络数据和网络设备基础监控项,并将采集数据存入采集数据库;
    步骤二:贝叶斯状态转移概率模型对采集数据库和历史告警数据库数据进行分析计算,得出本次和下次网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率;
    步骤三、基于马尔可夫链转移概率矩阵模型,根据步骤二得到的概率构建马尔可夫链网络转移概率矩阵和马尔可夫链设备转移概率矩阵,对智能网络及设备故障进行预测。
  2. 根据权利要求1所述的一种基于SRv6的智能网络及设备故障预测方法,其特征在于,所述步骤一包括:
    1)数据采集模块采集网络数据:
    通过采集程序执行rping命令获得网络设备到网络出口设备通过的每段SRv6节点相邻的网络丢包数、延迟毫秒数;
    并通过snmp命令采集每段SRv6节点之间的网络流量;
    2)数据采集模块采集网络设备基础监控项:
    通过采集程序执行snmp命令采集网络设备各板卡上的CPU使用率、内存占用率、硬盘使用率;
    3)将采集到的网络数据和网络设备基础监控项存入采集数据库。
  3. 根据权利要求2所述的一种基于SRv6的智能网络及设备故障预测方法,其特征在于,所述步骤二包括:
    S1、构建用于计算网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的贝叶斯状态转移概率模型:
    模型公式为:QZ(D|+)=QZ(+|D)QZ(D)/(QZ(+|D)QZ(D)+QZ(+|N)QZ(N));
    QZ(D|+)为先验概率,QZ(+|D为条件概率,QZ(+|N)为调整因子;
    S2、基于采集数据库和历史告警数据库数据计算网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的先验概率;
    S3、基于采集数据库和历史告警数据库数据计算网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的条件概率;
    S4、基于采集数据库和历史告警数据库数据计算网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的调整因子;
    S5、将网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率的先验概率、条件概率、调整因子分别放入S1构建的模型公式中,得到本次和下次网络及设备的状态转移初始概率和转移概率,即本次和下次网络状态转移初始概率、网络状态转移概率和设备状态转移初始概率、设备状态转移概率。
  4. 根据权利要求3所述的一种基于SRv6的智能网络及设备故障预测方法,其特征在于,所述S2中,网络状态转移初始概率先验概率包括:
    1)采集数据库的SRv6节点之间网络流量非故障总数;
    2)采集数据库的SRv6节点之间网络延迟毫秒非故障总数;
    3)采集数据库的SRv6节点之间网络丢包非故障数总数;
    网络状态转移概率先验概率包括:
    1)历史告警数据库2个SRv6节点之间网络流量故障总数;
    2)延迟毫秒故障总数;
    3)丢包故障数总数;
    设备状态转移初始概率先验概率包括:
    1)采集数据库设备CPU使用率非故障总数;
    2)采集数据库内存占用率非故障总数;
    3)采集数据库硬盘使用率非故障总数;
    设备状态转移概率先验概率包括:
    1)历史告警数据库设备CPU使用率故障总数;
    2)内存占用率故障总数;
    3)硬盘使用率故障总数。
  5. 根据权利要求3所述的一种基于SRv6的智能网络及设备故障预测方法,其特征在于,所述S3中,网络状态转移初始概率条件概率包括:
    1)采集数据库的SRv6节点之间网络流量非故障总数;
    2)采集数据库的SRv6节点间网络延迟毫秒非故障总数;
    3)采集数据库的SRv6节点之间网络丢包非故障数总数;
    网络状态转移概率条件概率包括:
    1)历史告警数据库SRv6节点之间网络流量故障按IN和OUT方向统计流量占比;
    2)历史告警数据库SRv6节点之间网络流量延迟故障按100毫秒以下和100毫秒以上统计故障占比;
    3)历史告警数据库SRv6节点之间网络流量丢包故障按丢包比例60%以下和60%以上统计故障占比;
    设备状态转移初始概率条件概率包括:
    1)采集数据库设备按所在板卡划分CPU使用率占比;
    2)采集数据库设备按所在板卡划分内存占用率占比;
    3)采集数据库设备按所在板卡划分硬盘使用率占比;
    设备状态转移概率条件概率包括:
    1)历史告警数据库设备按所在板卡划分CPU使用率占比;
    2)历史告警数据库设备按所在板卡划分内存占用率占比;
    3)历史告警数据库设备按所在板卡划分硬盘使用率占比。
  6. 根据权利要求3所述的一种基于SRv6的智能网络及设备故障预测方法,其特征在于,所述S4中,网络状态转移初始概率调整因子包括:
    1)采集数据库网络流量误报次数/先验概率;
    2)采集数据库网络流量延迟误报次数/先验概率;
    3)采集数据库网络流量丢包误报次数/先验概率;
    网络状态转移概率调整因子包括:
    1)历史告警数据库网络流量故障误报次数/先验概率;
    2)历史告警数据库网络流量延迟误报次数/先验概率;
    3)历史告警数据库网络流量丢包误报次数/先验概率;
    设备状态转移初始概率条件概率包括:
    1)采集数据库按板卡划分CPU使用率误报次数/先验概率;
    2)采集数据库按板卡划分内存占用率误报次数/先验概率;
    3)采集数据库按板卡划分硬盘使用率误报次数/先验概率;
    设备状态转移概率条件概率包括:
    1)历史告警数据库按板卡划分CPU使用率误报次数/先验概率;
    2)历史告警数据库按板卡划分内存占用率误报次数/先验概率;
    3)历史告警数据库按板卡划分硬盘使用率误报次数/先验概率。
  7. 根据权利要求1所述的一种基于SRv6的智能网络及设备故障预测方法,其特征在于,所述步骤三基于马尔可夫链转移概率矩阵模型,采用网络状态转移初始概率、网络状态转移概率构建马尔可夫链网络转移概率矩阵;
    采用设备状态转移初始概率、设备状态转移概率构建马尔可夫链设备转移概率矩阵。
  8. 基于SRv6的智能网络及设备故障预测系统,其特征在于,包括数据采集模块、采集数据库、历史告警数据库、贝叶斯状态转移概率模型、马尔可夫链转移概率矩阵模型和及其训练模块,用于实现权利要求1-7任一所述的基于SRv6的智能网络及设备故障预测方法。
PCT/CN2022/114154 2022-05-31 2022-08-23 一种基于SRv6的智能网络及设备故障预测方法及系统 WO2023231192A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210608389.2 2022-05-31
CN202210608389.2A CN114978930A (zh) 2022-05-31 2022-05-31 一种基于SRv6的智能网络及设备故障预测方法及系统

Publications (1)

Publication Number Publication Date
WO2023231192A1 true WO2023231192A1 (zh) 2023-12-07

Family

ID=82958535

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/114154 WO2023231192A1 (zh) 2022-05-31 2022-08-23 一种基于SRv6的智能网络及设备故障预测方法及系统

Country Status (2)

Country Link
CN (1) CN114978930A (zh)
WO (1) WO2023231192A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118042492A (zh) * 2024-04-11 2024-05-14 深圳市友恺通信技术有限公司 一种基于5g通信的网络数据运维管理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020128799A1 (en) * 2000-12-14 2002-09-12 Markus Loecher Method and apparatus for providing predictive maintenance of a device by using markov transition probabilities
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
US20190319868A1 (en) * 2019-06-25 2019-10-17 Intel Corporation Link performance prediction technologies
US11138063B1 (en) * 2020-07-07 2021-10-05 Ohio State Innovation Foundation Integrated system failure analysis software toolchain (IS-FAST)
CN114244687A (zh) * 2021-12-20 2022-03-25 中国电信集团系统集成有限责任公司 基于AIOps网络故障自愈可操作性判断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020128799A1 (en) * 2000-12-14 2002-09-12 Markus Loecher Method and apparatus for providing predictive maintenance of a device by using markov transition probabilities
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
US20190319868A1 (en) * 2019-06-25 2019-10-17 Intel Corporation Link performance prediction technologies
US11138063B1 (en) * 2020-07-07 2021-10-05 Ohio State Innovation Foundation Integrated system failure analysis software toolchain (IS-FAST)
CN114244687A (zh) * 2021-12-20 2022-03-25 中国电信集团系统集成有限责任公司 基于AIOps网络故障自愈可操作性判断方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118042492A (zh) * 2024-04-11 2024-05-14 深圳市友恺通信技术有限公司 一种基于5g通信的网络数据运维管理系统及方法

Also Published As

Publication number Publication date
CN114978930A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
US11348023B2 (en) Identifying locations and causes of network faults
Jain et al. Applying big data technologies to manage QoS in an SDN
CN112564964B (zh) 一种基于软件定义网络的故障链路检测与恢复方法
US20020152185A1 (en) Method of network modeling and predictive event-correlation in a communication system by the use of contextual fuzzy cognitive maps
CN102868553B (zh) 故障定位方法及相关设备
CN109783552A (zh) 一种数据清洗修复方法
CN111835588B (zh) 一种带内网络遥测承载流选取方法及系统
WO2022000189A1 (zh) 一种带内网络遥测承载流选取方法及系统
CN105721184A (zh) 一种网络链路质量的监控方法及装置
CN106605392A (zh) 用于使用控制器在网络上进行操作的系统和方法
WO2007010763A1 (ja) 通信品質計測装置、通信品質計測方法、及びそのプログラム
CN110460454B (zh) 基于深度学习的网络设备端口故障智能预测方法
CN105099916B (zh) 开放流路由交换设备及其对数据报文的处理方法
CN102684902B (zh) 基于探针预测的网络故障定位方法
WO2023231192A1 (zh) 一种基于SRv6的智能网络及设备故障预测方法及系统
CN105141446A (zh) 一种基于客观权重确定的网络设备健康度评估方法
CN113132180A (zh) 一种面向可编程网络的协作式大流检测方法
CN112350948B (zh) 一种基于sdn的分布式网络溯源系统的分布式网络溯源方法
CN112383934A (zh) 一种5g网络切片下多域协作的服务故障诊断方法
CN109587000A (zh) 基于群智网络测量数据的高延迟异常检测方法及系统
Toka et al. Predicting cloud-native application failures based on monitoring data of cloud infrastructure
KR20200126766A (ko) Ict 인프라의 운용 관리 장치 및 방법
Guo et al. FullSight: A feasible intelligent and collaborative framework for service function chains failure detection
CN115412443B (zh) 一种基于突发检测的网络拓扑变化检测方法
Kilinçer et al. Automatic fault detection with Bayes method in university campus network

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22944503

Country of ref document: EP

Kind code of ref document: A1