WO2023170760A1 - 異常箇所推定装置、異常箇所推定方法、及びプログラム - Google Patents

異常箇所推定装置、異常箇所推定方法、及びプログラム Download PDF

Info

Publication number
WO2023170760A1
WO2023170760A1 PCT/JP2022/009801 JP2022009801W WO2023170760A1 WO 2023170760 A1 WO2023170760 A1 WO 2023170760A1 JP 2022009801 W JP2022009801 W JP 2022009801W WO 2023170760 A1 WO2023170760 A1 WO 2023170760A1
Authority
WO
WIPO (PCT)
Prior art keywords
causal model
observation
abnormality
router
communication network
Prior art date
Application number
PCT/JP2022/009801
Other languages
English (en)
French (fr)
Inventor
洋一 松尾
敬志郎 渡辺
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/009801 priority Critical patent/WO2023170760A1/ja
Publication of WO2023170760A1 publication Critical patent/WO2023170760A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Definitions

  • the present invention relates to a technology for estimating abnormalities in a communication network from logs collected from the communication network.
  • Non-Patent Document 1 As a method for estimating abnormal locations, a Bayesian network is used to model (called a causal model) the relationship between an abnormal location and the changes caused by it in data (called observed data) in the communication network. A method for estimating abnormal locations from observed data has been proposed (Non-Patent Document 1).
  • the communication network uses routing within an autonomous system (AS) such as iBGP (https://datatracker.ietf.org/doc/html/rfc4271) or OSPF (https://datatracker.ietf.org/doc/html/rfc5340). It is operated by the Interior Gateway Protocol (IGP) communication protocol, which performs Using syslog related to link downs that occur, it is possible to determine whether the router is normal or abnormal.
  • AS autonomous system
  • IGP Interior Gateway Protocol
  • an abnormality in a router affects only the observed data of the router in the abnormal state and the observed data of neighboring routers.
  • a causal model consisting of a device node that represents the status of each device and an observation node that represents whether a syslog related to a link down has occurred from that device, and determine the location of the abnormality.
  • a causal model was created based on the assumption that an abnormality in a router affects only the observed data of the router in the abnormal state and the observed data of neighboring routers.
  • the router in the abnormal state may not necessarily be able to generate a syslog indicating link down.
  • the router in which the failure has occurred will be unable to process programs, and will therefore be unable to generate syslogs. Therefore, in the conventional technology, the input (observation data) to the causal model may be contrary to the assumption (syslog related to link down is generated from the adjacent router, but no syslog is generated from the abnormal router). As a result, there is a problem in that the accuracy of estimating abnormal locations decreases.
  • the present invention has been made in view of the above points, and an object of the present invention is to improve the accuracy of estimating anomalies in a technology for estimating anomalies in a communication network using logs collected from a communication network. .
  • an abnormality location estimation device for estimating an abnormality location in a communication network having a plurality of devices, an observation data collection unit that collects logs generated from the second device indicating that communication with the first device is no longer possible;
  • a causal model consisting of a device node representing the state of each device and an observation node representing the observation result of each device, an input value to the observation node corresponding to the first device is determined based on the log.
  • An abnormality location estimation device comprising: a causal model inference unit that estimates an abnormality location from a causal model to which input values are applied.
  • FIG. 2 is a configuration diagram of an abnormality location estimation device. It is a diagram showing an example of the hardware configuration of the device.
  • FIG. 1 is a diagram showing an example of a configuration of a communication network. It is a diagram showing a causal model.
  • FIG. 3 is a diagram showing input to a causal model.
  • FIG. 3 is a diagram showing input to a causal model.
  • FIG. 1 shows a configuration example of an abnormality location estimation device 100 in this embodiment.
  • the abnormality location estimation device 100 includes a causal model construction engine 110, a causal model inference engine 120, an observed data collection engine 130, an observed data DB 140, and an output interface 150.
  • causal model construction engine 110 the causal model inference engine 120, and the observed data collection engine 130 may be referred to as the causal model construction section 110, the causal model inference section 120, and the observed data collection section 130, respectively.
  • the causal model construction engine 110, the causal model inference engine 120, and the observed data collection engine 130 may be referred to as the causal model construction circuit 110, the causal model inference circuit 120, and the observed data collection circuit 130, respectively.
  • An outline of the operation of the abnormality location estimation device 100 is as follows.
  • the observation data collection engine 130 collects observation data (logs generated from devices, etc.) from the communication network, and stores the occurrence status of logs related to link down in the observation data DB 140.
  • observation data logs generated from devices, etc.
  • syslog as an example of the log.
  • the causal model construction engine 110 receives expert knowledge and the like as input, and constructs a causal model based on the communication network information obtained from the observation data collection engine 130.
  • the causal model inference engine 120 determines the value of the observation node based on the occurrence status of syslog related to link down stored in the observation data DB 140, estimates the location of the abnormality, and outputs the estimated result to the output interface 150. Output the location.
  • the output interface 150 displays to the user the location where an abnormality has occurred in the communication network and the maximum a posteriori probability at that time. Further, when a new machine is added to the operational system, the output interface 150 can add a node to the causal graph, or allow the user to modify the accompanying change in the causal relationship.
  • the abnormality location estimation device 100 can be realized, for example, by causing a computer to execute a program.
  • This computer may be a physical computer or a virtual machine on the cloud.
  • the abnormality location estimation device 100 can be realized by using hardware resources such as a CPU and memory built into a computer to execute a program corresponding to the processing performed by the abnormality location estimation device 100. It is.
  • the above program can be recorded on a computer-readable recording medium (such as a portable memory) and can be stored or distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
  • FIG. 2 is a diagram showing an example of the hardware configuration of the computer.
  • the computer in FIG. 2 includes a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, an output device 1008, etc., which are interconnected by a bus BS.
  • a program that realizes processing on the computer is provided, for example, on a recording medium 1001 such as a CD-ROM or a memory card.
  • a recording medium 1001 such as a CD-ROM or a memory card.
  • the program is installed from the recording medium 1001 to the auxiliary storage device 1002 via the drive device 1000.
  • the program does not necessarily need to be installed from the recording medium 1001, and may be downloaded from another computer via a network.
  • the auxiliary storage device 1002 stores installed programs as well as necessary files, data, and the like.
  • the memory device 1003 reads and stores the program from the auxiliary storage device 1002 when there is an instruction to start the program.
  • the CPU 1004 implements functions related to the abnormality location estimation device 100 according to the program stored in the memory device 1003.
  • Interface device 1005 is used as an interface for connecting to a network.
  • a display device 1006 displays a GUI (Graphical User Interface) and the like based on a program.
  • the input device 1007 is composed of a keyboard, a mouse, buttons, a touch panel, or the like, and is used to input various operation instructions.
  • An output device 1008 outputs the calculation result.
  • FIG. 3 shows an example of a communication network from which the observation data collection engine 130 collects observation data.
  • this communication network is a network in which routers 1 to 6 are connected as shown.
  • router 1 and router 2 are directly connected and are adjacent to each other.
  • Router 1 and router 4 are not directly connected and are not in an adjacent relationship.
  • the causal model construction engine 110 constructs the causal model shown in FIG. 4 for the communication network shown in FIG. 3 based on the knowledge of the expert operator.
  • the causal model consists of a device node representing the state of each device (router) in a communication network, and an observation node representing whether a syslog related to a link down is generated from the device.
  • the observation node represents the observation result of each device.
  • the causal model may also be called a Bayesian network.
  • the causal model for the communication network in FIG. 3 is as shown in FIG. 4.
  • router 1 of the equipment node is connected to routers 1 and 2 of the observation node. This indicates that when an abnormality occurs in the router 1, the observed data of the router 1 and the observed data of the router 2 may be affected.
  • the device node router 2 is connected to the observation node routers 1, 2, 3, and 6. This indicates that when an abnormality occurs in router 2, there is a possibility that the observed data of routers 1, 2, 3, and 6 will be affected.
  • the accuracy of estimating abnormal locations is improved by defining inputs to observation nodes of a causal model in consideration of the contents of the syslog generated by the IGP protocol. Details are as follows.
  • the IGP protocols iBGP and OSPF will be explained as examples, but it can be implemented in the same way for other protocols as well.
  • the syslog generated by iBGP and OSPF will be explained as an example, but in monitoring a communication network, messages etc. are normalized based on the generated syslog, generated as a new log, and notified to the operator.
  • a tool such as ping is used to perform life-or-death monitoring, and the result is notified to the operator as an alarm. Even in the case of an alarm in that case, as long as there is information about the opposite router (another router adjacent to a certain router) in the message, the technology according to the present invention can be implemented.
  • iBGP and OSPF syslog will be explained.
  • OSPF when a router cannot communicate with an adjacent router due to an abnormality in the communication network, a syslog is generated.
  • An example of a syslog message is shown below.
  • the problem is solved by defining the value of the observation node based on the information of the opposite router.
  • the device node in the causal model of the system (communication network) targeted for abnormality point estimation is x i and the observation node is y i , i ⁇ (1,...N).
  • N is the number of devices.
  • each x i takes a value of 0 (normal state) or 1 (abnormal state).
  • the minimum value is the normal state
  • the maximum value is the abnormal state
  • the value c in between is "c/( It is defined as a value that means that the ratio of "maximum value - minimum value)" is abnormal.
  • Each y i takes a value of 0 or 1, and if a BGP/OSPF syslog indicating that communication with the i-th router has been generated is generated on a router other than the i-th router, then y i is set to 1, and If not, it is set to 0. Note that it is also possible to take a multi-value of 3 or more instead of a binary value of 0 or 1, and in that case, the value can be set to the number of occurrences of syslog related to link down of the i-th router on other nodes. Define it as follows.
  • the input values to the above causal model are determined (calculated) by the causal model inference engine 120 from the syslog read from the observed data DB 140.
  • the observation data collection engine 130 may determine an input value from the collected syslog and store it in the observation data DB 140.
  • the causal model inference engine 120 can use the value read from the observed data DB 140 as it is as the value of y i .
  • FIGS. 5 and 6 input to the observation node when a syslog indicating that communication with the opposing router (router 2) is not generated occurs in routers 1, 3, and 6.
  • shaded nodes indicate a value of 1 (abnormal state)
  • unshaded nodes indicate a value of 0 (normal state).
  • FIG. 5 shows the input to the causal model in the prior art.
  • the input value as an observation node for routers 1, 3, and 6 that observed the syslog is 1, and the input value as an observation node for router 2, which is considered to have a high possibility of an abnormality occurring, is 0. Become.
  • FIG. 6 shows the input to the causal model in the technology according to the present invention.
  • the input value as an observation node for routers 1, 3, and 6 that observed the syslog becomes 0, and the input value as an observation node for router 2, which is considered to have a high possibility of an abnormality occurring, becomes 1.
  • the causal model shown in FIG. 4 (information indicating which nodes are connected by edges) is created by the causal model construction engine 110 based on information obtained from the communication network, and passed to the causal model inference engine 120.
  • a causal model (information indicating which nodes are connected by edges) may be created in advance and stored in a storage unit (memory, etc.) included in the causal model inference engine 120.
  • the prior probability P(x i ) is determined in advance and stored, for example, in a storage unit (memory, etc.) included in the causal model inference engine 120.
  • X (x i , x 2 ,..., x N ), x i ⁇ 0,1 ⁇
  • X is an equipment node, that is, an estimation target
  • Y is an observation node, that is, a value of an observation result obtained based on a log.
  • the causal model estimation engine 120 uses the observed results (the input value Y to the causal model) to obtain X' expressed by the following formula. argmax in the equation below is argmax for X, and X' is X that maximizes the posterior probability P(X
  • the output interface 150 may output a device with a value of 1 as the estimated failure location, or output a device with a value of 1 and an opposing device connected to the device. The link between the two may be output as the estimated failure location.
  • the input value (value of y i ) of the observed node of router i is determined based on the log generated in another router that indicates that it cannot communicate with router i, so the i-th router is in an abnormal state. Therefore, even if a syslog related to a link down cannot be generated, the abnormal location can be estimated based on information from the opposite router in a normal state, and the accuracy of abnormal location estimation can be improved.
  • An abnormality location estimation device for estimating an abnormality location in a communication network having a plurality of devices, memory and at least one processor connected to the memory; including; The processor includes: Collecting logs generated from the second device indicating that it has become unable to communicate with the first device, In a causal model consisting of a device node representing the state of each device and an observation node representing the observation result of each device, an input value to the observation node corresponding to the first device is determined based on the log.
  • An anomaly location estimation device that estimates anomaly locations from a causal model that applies input values.
  • An anomaly location estimation method that estimates anomaly locations from a causal model that applies input values.
  • a non-temporary storage medium storing a program that causes a computer to execute each process in the abnormality location estimating device described in Supplementary Note 1 or 2.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置であって、第1の機器と通信できなくなったことを示す、第2の機器から発生したログを収集する観測データ収集部と、各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第1の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する因果モデル推論部とを備える。

Description

異常箇所推定装置、異常箇所推定方法、及びプログラム
 本発明は、通信ネットワークから収集したログから、通信ネットワークの異常箇所を推定する技術に関連するものである。
 通信事業者にとって、通信ネットワーク内に発生する異常に対して、異常の状態の把握や迅速な対応は重要である。こうした中で、通信ネットワーク内の異常を早期に検知するための研究や、異常箇所の推定を行う研究が行われている。
 異常箇所を推定する手法として、ベイジアンネットワークを用いて、異常箇所とそれによって引き起こされる通信ネットワーク内のデータ(観測データと呼ぶ)の変化の関係性をモデル化(因果モデルと呼ぶ)し、異常時の観測データから異常箇所を推定する手法が提案されている(非特許文献1)。
 通信ネットワークはiBGP(https://datatracker.ietf.org/doc/html/rfc4271)やOSPF(https://datatracker.ietf.org/doc/html/rfc5340)などの自律システム(AS)内のルーティングを行うInterior Gateway Protocol(IGP)の通信プロトコルによって運用されており、ルータ間で通信ができなくなると、対向ルータと通信できなくなったことを表すsyslogが生成されるため、エキスパートオペレーターは異常時にはルータから発生するリンクダウンに関するsyslogを用いて、ルータの正常・異常を判定することができる。
 従来技術では、エキスパートオペレーターの知識から、ルータの異常は、異常状態になったルータの観測データと隣接しているルータの観測データのみに影響があるという仮定をもとに、通信ネットワーク内の機器に対して、各機器の状態を表す機器ノードと、その機器からリンクダウンに関するsyslogが発生したかどうかを表す観測ノードからなる因果モデルを構築し、異常箇所の判定を行っている。
Srikanth Kandula, Dina Katabi, and Jean-philippe Vasseur. Shrink: A tool for failure diagnosis in IP networks. Proceedings of the 2005 ACM SIGCOMM workshop on Mining network data, pages 173-178, 2005.
 従来技術では、ルータの異常は、異常状態になったルータの観測データと隣接しているルータの観測データのみに影響があるという仮定をもとに因果モデルを作成していたが、通信ネットワークの異常においては、異常状態となったルータがリンクダウンを表すsyslogを生成できるとは限らない。
 例えば、CPUチップの故障などでは、故障が発生したそのルータではプログラムを処理できなくなるため、syslogを生成できなくなる。そのため、従来技術では、因果モデルへの入力(観測データ)が、仮定に反する(隣接ルータからはリンクダウンに関するsyslogが発生するが、異常ルータからはsyslogが発生しない)ものとなる場合があり、結果として異常箇所の推定精度が下がるという課題がある。
 本発明は上記の点に鑑みてなされたものであり、通信ネットワークから収集したログを利用して、通信ネットワークの異常箇所推定を行う技術において、異常箇所の推定精度を向上させることを目的とする。
 開示の技術によれば、複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置であって、
 第1の機器と通信できなくなったことを示す、第2の機器から発生したログを収集する観測データ収集部と、
 各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第1の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する因果モデル推論部と
 を備える異常箇所推定装置が提供される。
 開示の技術によれば、通信ネットワークから収集したログを利用して、通信ネットワークの異常箇所推定を行う技術において、異常箇所の推定精度を向上させることが可能となる。
異常箇所推定装置の構成図である。 装置のハードウェア構成例を示す図である。 通信ネットワークの構成例を示す図である。 因果モデルを示す図である。 因果モデルへの入力を示す図である。 因果モデルへの入力を示す図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 (装置構成例)
 図1に、本実施の形態における異常箇所推定装置100の構成例を示す。図1に示すように、異常箇所推定装置100は、因果モデル構築エンジン110、因果モデル推論エンジン120、観測データ収集エンジン130、観測データDB140、及び出力インターフェース150を有する。
 なお、因果モデル構築エンジン110、因果モデル推論エンジン120、観測データ収集エンジン130をそれぞれ、因果モデル構築部110、因果モデル推論部120、観測データ収集部130と呼んでもよい。また、因果モデル構築エンジン110、因果モデル推論エンジン120、観測データ収集エンジン130をそれぞれ、因果モデル構築回路110、因果モデル推論回路120、観測データ収集回路130と呼んでもよい。異常箇所推定装置100の動作概要は下記のとおりである。
 観測データ収集エンジン130は、通信ネットワークムから観測データ(機器から発生するログ等)を収集し、リンクダウンに関するログの発生状況を観測データDB140へ格納する。以降、本実施の形態では、ログとしてsyslogを例に挙げて説明する。
 因果モデル構築エンジン110は、エキスパートの知識等を入力とし、観測データ収集エンジン130から取得された通信ネットワークの情報に基づいて、因果モデルを構築する。因果モデル推論エンジン120は観測データDB140へ格納されたリンクダウンに関するsyslogの発生状況をもとに、観測ノードの値を決定し、異常箇所の推定を実施し、出力インターフェース150に推定結果である異常箇所を出力する。
 出力インターフェース150は、利用者に対して通信ネットワークの中の異常発生箇所とその際の最大事後確率等を表示する。また、出力インターフェース150は、運用システムに新たにマシンが追加された際などは、因果グラフへのノードの追加を行なったり、また、それに伴う因果関係の変化を利用者に修正させることもできる。
 (ハードウェア構成例)
 異常箇所推定装置100は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。
 すなわち、異常箇所推定装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、異常箇所推定装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図2は、上記コンピュータのハードウェア構成例を示す図である。図2のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インターフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、異常箇所推定装置100に係る機能を実現する。インターフェース装置1005は、ネットワークに接続するためのインターフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
 (動作例)
 以下では、異常箇所推定装置100の動作を、より具体的な例を用いて説明する。なお、本実施の形態では、ルータにより構成される通信ネットワークを示しているが、これは一例である。本発明は、通信ネットワークを構成するノードの種類に依らずに適用可能である。
 <因果モデルについて>
 図3に、観測データ収集エンジン130が観測データを収集する対象となる通信ネットワークの例を示す。図3に示すように、この通信ネットワークは、ルータ1~6が図示するとおりに接続されたネットワークである。例えば、ルータ1とルータ2は直接に接続されたおり、これらは互いに隣接関係にある。ルータ1とルータ4は直接には接続されておらず、これらは隣接関係にない。
 因果モデル構築エンジン110は、エキスパートオペレーターの知識等に基づいて、図3に示す通信ネットワークに対して、図4に示す因果モデルを構築する。因果モデルは、通信ネットワーク内の機器(ルータ)に対して、各機器の状態を表す機器ノードと、その機器からリンクダウンに関するsyslogが発生したかどうかを表す観測ノードからなる。つまり、観測ノードは、各機器の観測結果を表す。なお、因果モデルをベイジアンネットワークと呼んでもよい。
 図3の通信ネットワークに対する因果モデルは、図4に示すとおりとなる。例えば、図4の因果モデルにおいて、機器ノードのルータ1は、観測ノードのルータ1、2と接続されている。これは、ルータ1に異常が発生した場合に、ルータ1の観測データとルータ2の観測データに影響する可能性があるということを示している。
 また、例えば、図4の因果モデルにおいて、機器ノードのルータ2は、観測ノードのルータ1、2、3、6と接続されている。これは、ルータ2に異常が発生した場合に、ルータ1、2、3、6のそれぞれの観測データに影響する可能性があるということを示している。
 <因果モデルへの入力について>
 本実施の形態では、IGPプロトコルより生成されるsyslogの中身を考慮して、因果モデルの観測ノードへの入力を定義することで、異常箇所の推定精度を向上させる。詳細は以下のとおりである。
 なお、本実施の形態では、IGPプロトコルのiBGPとOSPFを例にとって説明するが、他のプロトコルに対しても同様に実施可能である。また、本実施の形態では、iBGPとOSPFが生成するsyslogを例にとって説明するが、通信ネットワークの監視においては、生成されたsyslogを基にメッセージ等を正規化し新たなログとして生成しオペレーターへ通知する場合や、ping等のツールを用いて死活監視を実施し、その結果をアラームとしてオペレーターへ通知する場合もある。その場合のアラームにおいてもメッセージ内に対向ルータ(あるルータに隣接する他のルータ)の情報がある限り、本発明に係る技術を実施可能である。
 まず、iBGPとOSPFのsyslogについて説明する。iBGPやOSPFでは通信ネットワークの異常により、あるルータから隣接ルータに疎通できない場合、syslogが生成される。syslogメッセージの一例を以下に示す。
 2021-12-21 13:00:00 Router1 192.168.10.1 OSPF neighbor down (Router2 192.168.10.2)
 syslogはiBGP/OSPFのバージョンや、iBGP/OSPFのsyslogを加工して生成されるアラームなどにより違いはあるものの、上記のように、タイムスタンプ、ホスト名、ホスト情報(IPアドレスなど)、疎通できなくなった対向ルータの情報(対向ルータのホスト名やIPアドレスなど)、などが記載されている。
 本実施の形態では、対向ルータの情報をもとに観測ノードの値を定義することで、課題を解決する。
 ここで、異常箇所推定の対象となるシステム(通信ネットワーク)の因果モデルにおける機器ノードをx、観測ノードをy、i∈(1,…N)とする。Nは機器数である。
 各xは0(正常状態)か1(異常状態)の値を取るとする。なお、0か1の2値ではなく、3値以上の多値を取ることも可能であり、その場合は最小値が正常状態、最大値が異常状態、その間の値cは、「c/(最大値-最小値)」の割合で異常となっていることを意味する値、などのように定義する。
 各yは0か1の値を取るとし、i番目のルータと疎通できなくなったことを表すBGP/OSPFのsyslogがi番目以外のルータで発生していた場合、yを1とし、そうでない場合を0とすることとする。なお、0か1の2値ではなく、3値以上の多値を取ることも可能であり、その場合はi番目のルータのリンクダウンに関するsyslogの他ノードでの発生件数を値とするなどのように定義する。
 上記の因果モデルへの入力値については、因果モデル推論エンジン120が、観測データDB140から読み出したsyslogから決定(計算)する。あるいは、観測データ収集エンジン130が、収集したsyslogから入力値を決定し、それを観測データDB140に格納してもよい。この場合、因果モデル推論エンジン120は、観測データDB140から読み出した値をyの値としてそのまま使用できる。
 因果モデルへの入力に関して、従来技術(非特許文献1)と本発明に係る技術との違いを図5、図6を用いて説明する。ここでは、ルータ1、3,6において、対向ルータ(ルータ2)と疎通できないことを示すsyslogが発生した場合の観測ノードへの入力を説明する。図5、図6の観測ノードにおいて、網掛けのされたノードが値1(異常状態)を示し、網掛けなしのノードが値0(正常状態)を示す。
 図5は、従来技術での因果モデルへの入力を示している。図5に示すとおり、syslogを観測したルータ1、3、6の観測ノードとしての入力値が1となり、異常が発生した可能性が高いと考えられるルータ2の観測ノードとしての入力値が0となる。
 図6は、本発明に係る技術での因果モデルへの入力を示している。図6に示すとおり、syslogを観測したルータ1、3、6の観測ノードとしての入力値が0となり、異常が発生した可能性が高いと考えられるルータ2の観測ノードとしての入力値が1となる。このように、実際に発生した可能性が高い事象に合った入力値を得ることができるので、推定精度を高めることができる。
 <因果モデルを用いた推論>
 因果モデルを用いた推論自体は従来技術(例えば非特許文献1)と同じであり、事前確率P(x)と条件付き確率P(y|x)を規定し、推論を行う。以下、因果モデルを用いた推論処理の概要を説明する。
 図4に示した因果モデル(どのノード間をエッジで接続するかを示す情報)は、通信ネットワークから得られる情報に基づいて、因果モデル構築エンジン110が作成し、因果モデル推論エンジン120へ渡す。なお、因果モデル(どのノード間をエッジで接続するかを示す情報)を予め作成しておき、因果モデル推論エンジン120が備える記憶部(メモリ等)に格納しておくこととしてもよい。
 事前確率P(x)は予め定めておき、例えば、因果モデル推論エンジン120が備える記憶部(メモリ等)に格納しておく。
 ここで、X=(x,x,…,x),x∈{0,1}、Y=(y,y,…,y),y∈{0,1}とする。Xは機器ノード、すなわち推定対象であり、Yは観測ノード、すなわちログに基づき得られた観測結果の値である。
 因果モデル推定エンジン120は、観測結果(因果モデルへの入力値Y)を用いて、下記の式で示されるX'を求める。下記の式のargmaxはXについてのargmaxであり、X'は事後確率P(X|Y)を最大にするXである。
 X'=argmaxP(X|Y)=argmax(P(Y|X)P(X))
 条件付き確率P(y|X)の計算については、例えば、観測ノードyに接続する全ての機器ノードの状態が正常であれば、観測ノードyが0(正常)になる確率はほぼ1であり、観測ノードyに接続する全ての機器ノードのうちの一部の機器ノードのみの状態が正常であれば、観測ノードyが0(正常)になる確率は、全ての機器ノードのうちの正常な機器ノードの数に依存する値になる、といった計算ができる方法であればどのような方法で計算してもよい。
 因果モデル推定エンジン120により得られた推定結果に関して、出力インターフェース150は、値が1の機器を推定故障個所として出力してもよいし、値が1の機器と、当該機器に接続される対向機器との間のリンクを推定故障個所として出力してもよい。
 (効果について)
 上記のように、あるルータiと疎通できないことを示す別のルータで発生したログにより、そのルータiの観測ノードの入力値(yの値)を定めるので、i番目のルータが異常状態になり、リンクダウンに関するsyslogを生成できない場合においても、正常状態の対向ルータからの情報により異常箇所の推定が可能となり、異常箇所推定の精度向上が可能となる。
 (付記)
 以上の実施形態に関し、更に以下の付記項を開示する。
(付記項1)
 複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置であって、
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 第1の機器と通信できなくなったことを示す、第2の機器から発生したログを収集し、
 各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第1の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する
 異常箇所推定装置。
(付記項2)
 前記プロセッサは、前記第1の機器に対応する観測ノードへの入力値として、異常を示す値を決定する
 付記項1に記載の異常箇所推定装置。
(付記項3)
 複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置として使用されるコンピュータが実行する異常箇所推定方法であって、
 第1の機器と通信できなくなったことを示す、第2の機器から発生したログを収集し、
 各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第1の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する
 異常箇所推定方法。
(付記項4)
 コンピュータに、付記項1又は2に記載の異常箇所推定装置における各処理を実行させるプログラムを記憶した非一時的記憶媒体。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 異常箇所推定装置
110 因果モデル構築エンジン
120 因果モデル推論エンジン
130 観測データ収集エンジン
140 観測データDB
150 出力インターフェース
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インターフェース装置
1006 表示装置
1007 入力装置
1008 出力装置

Claims (4)

  1.  複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置であって、
     第1の機器と通信できなくなったことを示す、第2の機器から発生したログを収集する観測データ収集部と、
     各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第1の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する因果モデル推論部と
     を備える異常箇所推定装置。
  2.  前記因果モデル推論部は、前記第1の機器に対応する観測ノードへの入力値として、異常を示す値を決定する
     請求項1に記載の異常箇所推定装置。
  3.  複数の機器を有する通信ネットワークにおける異常箇所を推定する異常箇所推定装置として使用されるコンピュータが実行する異常箇所推定方法であって、
     第1の機器と通信できなくなったことを示す、第2の機器から発生したログを収集し、
     各機器の状態を表す機器ノードと、各機器の観測結果を表す観測ノードからなる因果モデルにおいて、前記ログに基づいて前記第1の機器に対応する観測ノードへの入力値を決定し、決定した入力値を適用した因果モデルから異常箇所を推定する
     異常箇所推定方法。
  4.  コンピュータを、請求項1又は2に記載の異常箇所推定装置における各部として機能させるためのプログラム。
PCT/JP2022/009801 2022-03-07 2022-03-07 異常箇所推定装置、異常箇所推定方法、及びプログラム WO2023170760A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/009801 WO2023170760A1 (ja) 2022-03-07 2022-03-07 異常箇所推定装置、異常箇所推定方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/009801 WO2023170760A1 (ja) 2022-03-07 2022-03-07 異常箇所推定装置、異常箇所推定方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023170760A1 true WO2023170760A1 (ja) 2023-09-14

Family

ID=87936237

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/009801 WO2023170760A1 (ja) 2022-03-07 2022-03-07 異常箇所推定装置、異常箇所推定方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023170760A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350739A (zh) * 2008-09-05 2009-01-21 北京邮电大学 一种ip网络中的故障定位方法
JP2018124829A (ja) * 2017-02-01 2018-08-09 日本電信電話株式会社 状態判定装置、状態判定方法及びプログラム
WO2019104196A1 (en) * 2017-11-27 2019-05-31 Google Llc Real-time probabilistic root cause correlation of network failures

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350739A (zh) * 2008-09-05 2009-01-21 北京邮电大学 一种ip网络中的故障定位方法
JP2018124829A (ja) * 2017-02-01 2018-08-09 日本電信電話株式会社 状態判定装置、状態判定方法及びプログラム
WO2019104196A1 (en) * 2017-11-27 2019-05-31 Google Llc Real-time probabilistic root cause correlation of network failures

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WATANABE OSAMU, KOYANAGI KEIICHI: "Distributed and Co-operated Fault Processing for Various Virtual Networks over MPLS", IPSJ JOURNAL, vol. 52, no. 3, 15 March 2011 (2011-03-15), pages 1280 - 1290, XP093090772 *

Similar Documents

Publication Publication Date Title
Kimura et al. Spatio-temporal factorization of log data for understanding network events
US8583779B2 (en) Root cause analysis approach with candidate elimination using network virtualization
Sundaram et al. Distributed function calculation via linear iterative strategies in the presence of malicious agents
US7500142B1 (en) Preliminary classification of events to facilitate cause-based analysis
US10728085B1 (en) Model-based network management
JP4786908B2 (ja) 障害検出および診断
US20120221898A1 (en) System and method for determination of the root cause of an overall failure of a business application service
US8156319B2 (en) Self-restarting network devices
CN113973042B (zh) 用于网络问题的根本原因分析的方法和系统
US11582255B2 (en) Dysfunctional device detection tool
JP6280862B2 (ja) イベント分析システムおよび方法
Kobayashi et al. Mining causes of network events in log data with causal inference
Li et al. Dlog: diagnosing router events with syslogs for anomaly detection
JP6649294B2 (ja) 状態判定装置、状態判定方法及びプログラム
WO2023170760A1 (ja) 異常箇所推定装置、異常箇所推定方法、及びプログラム
CN112822032B (zh) 网络的网络模型感知诊断
Matsuo et al. Root-cause diagnosis for rare failures using bayesian network with dynamic modification
WO2021245853A1 (ja) モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム
US20210406081A1 (en) Method For Detecting System Problems In A Distributed Control System And A Method For Allocating Foglets In A Fog Network
JP6787873B2 (ja) 異常種別判定装置、異常種別判定方法及びプログラム
WO2021245854A1 (ja) モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム
Gupta et al. NEWS: Towards an Early Warning System for Network Faults.
Schoenfisch et al. Root cause analysis through abduction in markov logic networks
Kimura et al. Network event extraction from log data with nonnegative tensor factorization
WO2023157280A1 (ja) 探索装置、探索方法、及び、探索プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22930746

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2024505678

Country of ref document: JP