WO2021214979A1 - トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム - Google Patents

トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム Download PDF

Info

Publication number
WO2021214979A1
WO2021214979A1 PCT/JP2020/017704 JP2020017704W WO2021214979A1 WO 2021214979 A1 WO2021214979 A1 WO 2021214979A1 JP 2020017704 W JP2020017704 W JP 2020017704W WO 2021214979 A1 WO2021214979 A1 WO 2021214979A1
Authority
WO
WIPO (PCT)
Prior art keywords
alarm
topology
alarms
topology detection
unit
Prior art date
Application number
PCT/JP2020/017704
Other languages
English (en)
French (fr)
Inventor
高田 篤
瑞人 中村
登志彦 関
恭子 山越
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022516796A priority Critical patent/JP7469697B2/ja
Priority to PCT/JP2020/017704 priority patent/WO2021214979A1/ja
Publication of WO2021214979A1 publication Critical patent/WO2021214979A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks

Definitions

  • the present invention relates to a topology detection device, a topology detection method, and a topology detection program.
  • Patent Document 1 describes a technique for detecting a topology between devices using traffic information.
  • Patent Document 2 describes a technique for determining an error in network equipment data by combining the result of a light receiving level confirmation test, which is a kind of traffic information, and the result of an ONU state confirmation test.
  • the conventional topology detection technology is premised on the acquisition of traffic information.
  • some devices cannot acquire traffic information. Therefore, there is a problem that the conventional topology detection technique cannot be applied to the device that cannot acquire the traffic information.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a topology detection device, a topology detection method, and a topology detection program capable of detecting a topology even for a device that cannot acquire traffic information. To do.
  • one aspect of the present invention is a topology detection device 1, a collection unit that collects alarm information of a network device, and a plurality of units whose occurrence times are within a predetermined time width from the alarm information.
  • a candidate selection unit for extracting the alarms of the above and a detection unit for detecting the connection relationship between the network devices that issued each of the plurality of alarms are provided.
  • One aspect of the present invention is a topology detection method performed by a topology detection device, in which a collection step for collecting alarm information of a network device and a plurality of alarms whose occurrence times are within a predetermined time width are generated from the alarm information. A candidate selection step to be extracted and a detection step to detect the connection relationship between the network devices that have issued each of the plurality of alarms are performed.
  • One aspect of the present invention is a topology detection program that causes a computer to function as the topology detection device.
  • FIG. 1 It is a block diagram of the topology detection apparatus of embodiment of this invention. It is a figure which shows typically two cases of alarm occurrence. It is a figure which shows the image of the alarm model. It is a figure which shows the section of the topology to detect on a network. It is a flowchart which shows the operation of the topology detection apparatus. It is explanatory drawing explaining the modification. This is a hardware configuration example.
  • FIG. 1 is a configuration diagram showing a configuration of the topology detection device 1 of the present embodiment.
  • NW device a network device
  • the connected NW devices are close to each other (for example, from several seconds to several seconds). Detect the topology by using the characteristic of issuing an alarm (around 10 seconds).
  • the topology shows the connection relationship of which interface (hereinafter, “IF”) connects the NW devices constituting the network.
  • the NW device issues an alarm indicating an IF-related abnormality at the moment when it detects that the connection has been lost with the opposite device that has a connection relationship.
  • NW devices having different layers such as a layer 3 router (hereinafter, “router"), a layer 2 switch (hereinafter, “switch”), and a layer 1 optical transmission device (hereinafter, “optical transmission device”). doing. Therefore, in the present embodiment, layer-independent topology detection is realized by utilizing this characteristic.
  • the illustrated topology detection device 1 includes a collection unit 11, a conversion unit 12, a candidate selection unit 13, a detection unit 14, an alarm information DB 15, and a configuration information DB 16.
  • the collecting unit 11 collects the history information of the alarm issued by the plurality of NW devices (hereinafter, "alarm information") and stores it in the alarm information DB 15. For example, the collection unit 11 collects alarm information from at least one OpS (Operation System) (not shown). NW equipment of general telecommunications carriers is monitored by OpS (Network Monitoring Equipment). OpS provides maintenance users with functions such as collecting alarm information from NW devices and displaying alarm screens. Normally, OpS is deployed for hundreds of thousands of NW devices in layers with different technologies and specifications. The collecting unit 11 collects alarm information stored by a plurality of OpS at a predetermined timing (for example, every n minutes), stores the collected alarm information in the alarm information DB 15, and sends it to the conversion unit 12.
  • OPS Operation System
  • the conversion unit 12 When the conversion unit 12 collects alarm information from a plurality of OpS, the conversion unit 12 merges the plurality of alarm information.
  • the conversion unit 12 converts each alarm included in the alarm information into an alarm model including the alarm type, the occurrence time, the NW device, and the physical position, and sorts the alarms in chronological order according to the occurrence time.
  • the purpose of the modeling is to enable the alarm information to be handled abstractly in the algorithm, and to minimize the influence on the algorithm for the introduction and addition of new types of NW devices that have not been introduced in the past. ..
  • the occurrence of an alarm can be classified into two cases, one is a case where an abnormality occurs in the NW device itself due to a failure or construction, and the other is a case where an abnormality occurs in the cable connecting the devices.
  • FIG. 2 is a diagram schematically showing two cases of alarm generation.
  • Case 1 is, for example, a case where a port of a transmission device (NW device) fails. At this time, the transmission device provided with the failed port issues an alarm indicating a device failure indicating that the port is abnormal. At this time, the adjacent layer 2 switch (NW device) issues an alarm indicating an IF-related abnormality.
  • Case 2 is, for example, a case where a cable between NW devices is inserted and removed by construction. At this time, the layer 2 switches and the transmission device at both ends of the cable both issue an alarm indicating an IF-related abnormality.
  • the conversion unit 12 defines an alarm type such as a type indicating a device failure (example: Eqp failure alarm) and a type indicating an IF-related abnormality (example: Linkdown alarm) as v. Further, the conversion unit 12 defines the alarm generation time as t, and inputs the NW device that issued the alarm and the IF information (device type (device ID), IF name (IF ID) that detected the abnormality) of the NW device. Defined as e. Further, the conversion unit 12 defines the physical position (installed building, area, etc.) of the NW device that issued the alarm as l. Then, the conversion unit 12 models the alarm including the four elements t, e, l, and v as ⁇ .
  • an alarm type such as a type indicating a device failure (example: Eqp failure alarm) and a type indicating an IF-related abnormality (example: Linkdown alarm) as v.
  • the conversion unit 12 defines the alarm generation time as t, and inputs
  • FIG. 3 is a diagram showing an image of the alarm model.
  • the alarm ⁇ 1 (t1, e1, l1, v1) generated by the event A caused by the same construction or failure with the occurrence time t close (within a predetermined time width) and the physical position l close to each other.
  • ⁇ 2 (t2, e2, l1, v1).
  • the topology is detected in ⁇ 3 (t3, e3, l2, v1) and ⁇ 4 (t4, e4, l2, v2) of the same event B.
  • the alarms generated by these same events are extracted from the alarms that have occurred in large numbers, and the IFs indicated by these alarms are determined to have a connection relationship to detect the topology.
  • the candidate selection unit 13 extracts a plurality of alarms whose occurrence time is within a predetermined time width from the alarm information. In particular. The candidate selection unit 13 extracts a plurality of alarms whose occurrence times are within a predetermined time width, generates a candidate list including the extracted plurality of alarms, and issues each alarm in the candidate list to the NW device. Narrow down using the physical position of.
  • the candidate selection unit 13 narrows down the alarms in the candidate list using the alarm model. That is, the candidate selection unit 13 narrows down the alarms generated by the same event (failure or construction) from the alarms generated on a scale of tens of thousands per day based on the alarm model. Specifically, the candidate selection unit 13 extracts an alarm whose alarm type indicates a device failure and an IF-related abnormality from the alarm model, and generates an alarm list. The candidate selection unit 13 reads each alarm in order from the top of the alarm list, generates a candidate list described below for each alarm, and narrows down the alarms in the candidate list.
  • the candidate selection unit 13 extracts another alarm ⁇ m generated before and after the read alarm ⁇ n generation time tn (within a predetermined time width) from the alarm list.
  • the candidate selection unit 13 determines that there is a topology between the devices that issued these alarms ⁇ n and ⁇ m and the IF information en and em, and generates a candidate list. Multiple ⁇ m may be extracted.
  • the candidate selection unit 13 identifies the alarm ⁇ m generated at a position lm close to the physical position ln of the device that issued the alarm ⁇ n from the candidate list, and deletes the other alarm ⁇ m.
  • the position close to the ln to be narrowed down (within a predetermined range (within a distance) from the ln) is set according to the deployment status of the NW device. That is, the predetermined range is set according to the section (type) of the topology to be detected.
  • FIG. 4 is a diagram showing a section of the topology to be detected in a network of a general telecommunications carrier.
  • Router-switch topology This topology is a logical connection and is actually connected via a transmission device.
  • C Topology between PON (Passive Optical Network) devices: This topology is the connection between the OLT (Optical Line Terminal) deployed in the telecommunications carrier's building and the ONU (Optical Network Unit) at the user's home.
  • OLT Optical Line Terminal
  • ONU Optical Network Unit
  • the candidate selection unit 13 leaves ⁇ m in which the lm of the same building as the ln of ⁇ n is set from the candidate list, and deletes ⁇ m in which the other lm is set.
  • the connection is made across buildings, so the same area as ⁇ n ln (prefectures, etc.) Leave ⁇ m with lm set, and delete ⁇ m with other lm set.
  • different values may be set for a predetermined time width of the occurrence time that associates the alarm ⁇ n and the alarm ⁇ m according to the section of the topology to be detected.
  • the candidate selection unit 13 may use the alarm type v from the candidate list to delete alarms having a pattern that does not occur in the same failure or construction among a plurality of alarms. For example, there is a case where both alarms indicate a device failure, which does not exist in the use case of FIG. In this case, the candidate selection unit 13 leaves the ⁇ m in which the alarm type vm indicating the IF-related abnormality is set from the ⁇ m in the candidate list, and deletes the ⁇ m in which the alarm type vm indicating the type device failure is set.
  • the candidate selection unit 13 deletes one of them and integrates them into one candidate list.
  • the detection unit 14 When only one ⁇ m alarm remains in the finally narrowed down candidate list, the detection unit 14 considers the alarm ⁇ m and the alarm ⁇ n to be alarms caused by the same event, and each of them It is determined that the NW device and IF indicated by the alarm e have a connection relationship. On the other hand, if multiple ⁇ m alarms remain in the finally narrowed candidate list, the NW devices and IFs indicated by ⁇ n en and the NW devices and IFs indicated by multiple alarm ⁇ m ems. It is determined that one of them has a connection relationship. That is, the detection unit 14 determines that the NW device and the IF indicated by the information e of the NW device of each alarm in the candidate list have a connection relationship with each other.
  • the detection unit 1 detects the connection relationship between the NW devices that have issued each of the plurality of alarms.
  • the detection unit 14 detects the connection relationship between the NW devices that have issued each alarm in the candidate list after narrowing down.
  • the detection unit 14 outputs the topology of the NW device which is the detection result.
  • the output detection result is, for example, output in association with the NW device name and IF information (port) indicated by e of each alarm in the narrowed-down candidate list.
  • the detection unit 14 may also output a candidate list before or after narrowing down as a detection result.
  • the detection unit 14 may update the configuration information DB 16 with the detected topology.
  • the configuration information DB 16 is a database in which information related to the network configuration is stored. Information on the network configuration includes the device name, IP address, port (IF), and port connection destination information of each NW device. By updating the configuration information DB 16 with the topology detected by the detection unit 14, the configuration information DB 16 can be brought to the latest state reflecting the current network configuration.
  • FIG. 5 is a flowchart showing the operation of the topology detection device 1.
  • the collecting unit 11 acquires the alarm information issued by the NW device from the network monitoring device at a predetermined timing (time interval) (S11).
  • the conversion unit 12 converts each alarm included in the alarm information into an alarm model and sorts it in order of occurrence time (S12).
  • the candidate selection unit 13 extracts an alarm whose alarm type indicates a device failure and an IF-related abnormality from the alarm model, and generates an alarm list (S13).
  • the candidate selection unit 13 reads one alarm in order from the top of the alarm list (S14).
  • the alarm list includes the time when the read alarm is generated and another alarm within a predetermined time width (S15: YES)
  • the candidate selection unit 13 includes the alarm read in S14 and the other alarm.
  • Generate a list S16).
  • the candidate selection unit 13 narrows down other alarms in the candidate list by using the physical position of the NW device that issued the alarm, and the detection unit 14 detects the topology between the NW devices of the narrowed down candidate list alarms. (S17).
  • the candidate selection unit 13 proceeds to S14 and reads the next alarm in the alarm list.
  • the process proceeds to S14 and the subsequent processing is repeated.
  • the detection unit 14 outputs the topology between the NW devices detected in S17 (S19).
  • the detection unit 14 may output the candidate list generated in S16 together with the topology between the detected NW devices.
  • the topology detection device 1 of the present embodiment includes a conversion unit 12 that models each alarm of the alarm information, but the topology detection device 1 does not have to include the conversion unit 12.
  • FIG. 6 is an explanatory diagram illustrating a modified example of detecting the topology without converting it into an alarm model.
  • the collecting unit 11 collects the alarm information 6 of the transmission device collected from the OpS for the transmission layer and the alarm information 7 of the IP device collected from the OpS for the transfer layer.
  • the candidate selection unit 13 extracts a plurality of alarm sets from each of the alarms 6 and 7 using the occurrence time and the physical position of the NW device.
  • the candidate selection unit 13 extracts a set of the alarm 61 of the IF-1 of the optical transmission device-A from the alarm information 6 and the alarm 71 of the IF-3 of the router-A from the alarm information 7.
  • the occurrence time of the alarm 61 is 2:40:12
  • the occurrence time of the alarm 71 is 2:40:15
  • these occurrence times are within a predetermined time width.
  • the detection unit 14 detects the connection relationship between the IF-1 of the optical transmission device-A and the IF-3 of the router-A (detection 1).
  • the candidate selection unit 13 extracts a set of the alarm 62 and the alarm 72 from each of the alarms 6 and 7 by using the occurrence time and the physical position of the device.
  • the time when the alarm 62 is generated (2:41:01) and the time when the alarm 72 is generated (2:40:59) are within a predetermined time width.
  • the physical positions of the alarm 62 and the alarm 72 are both Tokyo Building 4.
  • the detection unit 14 detects the connection relationship between the IF-3 of the optical transmission device-E and the IF-4 of the switch-B (detection 2).
  • the topology detection device 1 of the present embodiment described above is a collection unit 11 that collects alarm information of the NW device, and a candidate selection unit that extracts a plurality of alarms whose occurrence times are within a predetermined time width from the alarm information.
  • a 13 and a detection unit 14 for detecting a topology between NW devices that have issued each of the plurality of alarms are provided.
  • the NW devices having the topology use the characteristic of issuing an alarm at the same time without depending on the layer. It is possible to detect the topology between NW devices. That is, in the present embodiment, the topology can be detected even for the NW device that cannot acquire the traffic information.
  • the candidate selection unit 13 of the present embodiment generates a candidate list including a plurality of extracted alarms, narrows down each alarm in the candidate list using the physical position of the NW device that issued the alarm, and detects the detection unit 14. Detects the connection relationship between the NW devices that issued each alarm in the candidate list after narrowing down. By using the physical position of the NW device, it is possible to detect the topology with high accuracy in this embodiment.
  • the topology detection device 1 of the present embodiment includes a conversion unit 12 that converts each alarm of alarm information into an alarm model including an alarm type, an occurrence time, a NW device, and a physical position, and a candidate selection unit 13 includes an alarm model. Use to narrow down the alerts in the candidate list. As a result, in the present embodiment, the alarm information can be handled abstractly in the algorithm, and the influence on the algorithm for the introduction and addition of a new NW device can be minimized.
  • FIG. 7 a general-purpose computer system as shown in FIG. 7 can be used.
  • the computer system shown is a CPU (Central Processing Unit, processor) 901, a memory 902, a storage 903 (HDD: Hard Disk Drive, SSD: Solid State Drive), a communication device 904, an input device 905, and an output device. 906 and.
  • the memory 902 and the storage 903 are storage devices.
  • each function of the topology detection device 1 is realized by executing a predetermined program loaded on the memory 902 by the CPU 901.
  • the topology detection device 1 may be mounted on one computer or may be mounted on a plurality of computers. Further, the topology detection device 1 may be a virtual machine mounted on a computer.
  • the program for the topology detection device 1 can be stored in a computer-readable recording medium such as an HDD, SSD, USB (Universal Serial Bus) memory, CD (Compact Disc), DVD (Digital Versatile Disc), or via a network. It can also be delivered.
  • a computer-readable recording medium such as an HDD, SSD, USB (Universal Serial Bus) memory, CD (Compact Disc), DVD (Digital Versatile Disc), or via a network. It can also be delivered.
  • Topology detection device 11 Collection unit 12: Conversion unit 13: Candidate selection unit 14: Detection unit 15: Alarm information DB 16: Configuration information DB

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

トポロジ検出装置1であって、ネットワーク装置の警報情報を収集する収集部11と、前記警報情報から、発生時刻が所定の時間幅内にある複数の警報を抽出する候補選定部13と、前記複数の警報の各々を発出したネットワーク装置間の接続関係を検出する検出部14と、を備える。

Description

トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム
 本発明は、トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラムに関する。
 通信事業者のサービス保守業務では、装置の故障発生時に、迅速な影響範囲の把握や故障箇所の特定が求められる。これらの実現には、ネットワーク装置間の接続関係を示すトポロジの正確な情報が必要となる。しかし、通信事業者のネットワークは装置数が数十万台存在し、日々の工事や故障対応でトポロジの変更も頻繁に発生する。これらのすべてのトポロジの変更の記録を自動化することは難しく、誤ったトポロジ情報が混入し易い。そのため、トポロジを検出する技術が検討されている。
 特許文献1には、トラヒック情報を用いて装置間のトポロジを検出する技術が記載されている。特許文献2には、トラヒック情報の一種である受光レベルの確認試験の結果と、ONUの状態確認試験の結果とを組み合わせて、ネットワーク設備データの誤りを判定する技術が記載されている。
特開2014-49851号公報 特開2009-100336号公報
 従来のトポロジ検出技術では、トラフィック情報の取得が前提となっている。しかし、装置によっては、トラフィック情報を取得できないものがある。このため、トラフィック情報を取得できない装置においては、従来のトポロジ検出技術を適用できないという課題がある。
 本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、トラフィック情報を取得できない装置に対してもトポロジの検出が可能なトポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラムを提供することにある。
 上記目的を達成するため、本発明の一態様は、トポロジ検出装置1であって、ネットワーク装置の警報情報を収集する収集部と、前記警報情報から、発生時刻が所定の時間幅内にある複数の警報を抽出する候補選定部と、前記複数の警報の各々を発出したネットワーク装置間の接続関係を検出する検出部と、を備える。
 本発明の一態様は、トポロジ検出装置が行うトポロジ検出方法であって、ネットワーク装置の警報情報を収集する収集ステップと、前記警報情報から、発生時刻が所定の時間幅内にある複数の警報を抽出する候補選択ステップと、前記複数の警報の各々を発出したネットワーク装置間の接続関係を検出する検出ステップと、を行う。
 本発明の一態様は、上記トポロジ検出装置として、コンピュータを機能させるトポロジ検出プログラムである。
 本発明によれば、トラフィック情報を取得できない装置に対しても、トポロジの検出が可能なトポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラムを提供することにある。
本発明の実施形態のトポロジ検出装置の構成図である。 警報発生の2つのケースを模式的に示す図である。 警報モデルのイメージを示す図である。 ネットワーク上で検出するトポロジの区間を示す図である。 トポロジ検出装置の動作を示すフローチャートである。 変形例を説明する説明図である。 ハードウェア構成例である。
 以下、本発明の実施の形態について、図面を参照して説明する。
 (トポロジ検出装置の構成)
 図1は、本実施形態のトポロジ検出装置1の構成を示す構成図である。本実施形態では、工事や故障によって、ネットワーク装置(以下、「NW装置」)が対向装置との接続に関する異常を検知した場合、接続関係があるNW装置同士が近い時刻に(例えば、数秒から数十秒の前後で)警報を発出する特性を利用して、トポロジを検出する。トポロジは、ネットワークを構成するNW装置間をどのインタフェース(以下、「IF」)同士で接続しているかの接続関係を示すものである。
 通常、NW装置は、接続関係がある対向装置との間で、接続が失われたことを検知した瞬間にIF関連の異常を示す警報を発出する。これはレイヤ3のルータ(以下、「ルータ」)、レイヤ2のスイッチ(以下、「スイッチ」)、レイヤ1の光伝送装置(以下、「光伝送装置」)などのレイヤが違うNW装置において共通している。このため、本実施形態では、この特性を利用することで、レイヤに依存しないトポロジの検知を実現する。
 図示するトポロジ検出装置1は、収集部11と、変換部12と、候補選定部13と、検出部14と、警報情報DB15、構成情報DB16とを備える。
 収集部11は、複数のNW装置で発出される警報の履歴情報(以下、「警報情報」)を収集し、警報情報DB15に記憶する。例えば、収集部11は、少なくとも1つのOpS(Operation System)(不図示)から、警報情報を収集する。一般的な通信事業者のNW装置は、OpS(ネットワーク監視装置)で監視されている。OpSは、NW装置からの警報情報の収集、警報の画面表示などの機能を保守者向けに提供する。通常は、数十万台のNW装置に対して、技術や仕様の異なるレイヤ毎にOpSが配備されている。収集部11は、複数のOpSが保存する警報情報を所定のタイミングで(例えばn分毎に)収集し、収集した警報情報を警報情報DB15に格納するとともに、変換部12に送出する。
 変換部12は、複数のOpSから警報情報を収集した場合、複数の警報情報をマージする。変換部12は、警報情報に含まれる各警報を、警報種別、発生時刻、NW装置および物理的位置を含む警報モデルに変換し、発生時刻で時系列にソートする。
 モデル化の目的は、警報情報をアルゴリズムの中で抽象的に扱えるようにし、従来導入されていなかった,新たな種類のNW装置の導入、追加に対するアルゴリズムへの影響を最小限にとどめることである。通常、警報の発生は、故障や工事に伴い、NW装置自体に異常が発生するケースと、装置同士をつなぐケーブルに異常が発生するケースの2つに分類できる。
 図2は、警報発生の2つのケースを模式的に示す図である。ケース1は、例えば伝送装置(NW装置)のポートが故障した場合である。この時、故障したポートを具備する伝送装置は、ポートが異常であることを示す装置故障を示す警報を発出する。このとき、隣接するレイヤ2スイッチ(NW装置)はIF関連の異常を示す警報を発出する。ケース2は、例えば、工事によってNW装置間のケーブルが挿抜された場合である。このとき、ケーブルを挟んだ両端のレイヤ2スイッチおよび伝送装置が、共にIF関連の異常を示す警報を発出する。
 変換部12は、装置故障を示す種別(例:Eqp故障警報)、IF関連の異常を示す種別(例:Link down警報)などの警報種別をvと定義する。また、変換部12は、警報の発生時刻をtと定義し、警報を発出したNW装置及び当該NW装置のIF情報(装置種別(装置ID)、異常を検知したIF名称(IF ID))をeと定義する。また、変換部12は、警報を発出したNW装置の物理的な位置(設置されているビル、エリア等)をlと定義する。そして、変換部12は、t,e,l,vの4つの要素を含む警報を、αとしてモデル化する。
 図3は、警報モデルのイメージを示す図である。図示する例では、発生時刻tが近く(所定の時間幅内で)、物理的位置lが近い同一の工事や故障が起因した事象Aによって発生した警報α1(t1,e1,l1,v1)と、α2(t2,e2,l1,v1)とを示していている。同様に、同一の事象Bのα3(t3,e3,l2,v1)と、α4(t4,e4,l2,v2)とでトポロジが検出されることを示している。本実施形態では、多数発生している警報から、これらの同一の事象で発生した警報を抽出し、これらの警報が示すIF同士を接続関係がある判断して、トポロジを検出する。
 候補選定部13は、警報情報から、発生時刻が所定の時間幅内にある複数の警報を抽出する。具体的には。候補選定部13は、発生時刻が所定の時間幅内にある複数の警報を抽出して、抽出した複数の警報を含む候補リストを生成し、候補リストの各警報を当該警報を発出したNW装置の物理的位置を用いて絞り込む。
 本実施形態では、候補選定部13は、警報モデルを用いて候補リストの警報を絞り込む。すなわち、候補選定部13は、警報モデルを基に、一日で数万件の規模で発生する警報の中から、同一の事象(故障や工事)で発生した警報を絞り込む。具体的には、候補選定部13は、警報モデルの中から、警報種別が装置故障およびIF関連の異常を示す種別の警報を抽出して、警報リストを生成する。候補選定部13は、警報リストの先頭から順に各警報を読み込み、各警報について以下に説明する候補リストを生成し、候補リストの警報を絞り込む。
 すなわち、候補選定部13は、読み込んだ警報αnの発生時刻tnの前後(所定の時間幅内)で発生した別の警報αmを警報リストから抽出する。候補選定部13は、これらの警報αn、αmを発出した装置及びIFの情報en,em同士にトポロジがあると判定して候補リストを生成する。αmは、複数抽出される場合がある。
 候補選定部13は、候補リストの中から、警報αnを発出した装置の物理的位置lnと近い位置lmで発生した警報αmを特定し、それ以外の警報αmを削除する。絞り込み対象のlnに近い位置(lnから所定の範囲内(距離内))は、NW装置の配備状況に合わせて設定する。すなわち、所定の範囲内は、検出するトポロジの区間(種類)に応じて、設定される。
 図4は、一般的な通信事業者のネットワークにおいて、検出するべきトポロジの区間を示す図である。
 (a)ルータ-スイッチ間のトポロジ:本トポロジは、論理的な接続であり、実際には伝送装置を介して接続される。
 (b)伝送装置間のトポロジ:本トポロジは、数キロ離れたビルに配備された伝送装置の接続である。
 (c)PON(Passive Optical Network)装置間のトポロジ:本トポロジは、通信事業者のビルに配備するOLT (Optical Line Terminal)とユーザ宅のONU (Optical Network Unit)の接続である。
 (d)ルータやスイッチを含む転送レイヤ(以下、「転送レイヤ」)-伝送装置やPONを含む伝送レイヤ(以下、「伝送レイヤ」)の間のトポロジ:本トポロジは、レイヤを横断した接続である。
 例えば、伝送レイヤと転送レイヤ間のトポロジ(図4の(d))を検出する場合は、基本的に2つのNW装置は同一ビルに収容される。この場合、候補選定部13は、候補リストから、αnのlnと同一ビルのlmが設定されたαmを残し、それ以外のlmが設定されたαmを削除する。一方、ルータ-スイッチ間および伝送装置間(図4の(a)、(c))のトポロジを検出する場合は、ビルを跨いだ接続となるため、αnのlnと同一エリア(都道府県等)のlmが設定されたαmを残し、それ以外のlmが設定されたαmを削除する。
 なお、警報αnと警報αmとを関連付ける発生時刻の所定の時間幅についても、検出するトポロジの区間に応じて、異なる値(最適値)を設定してもよい。
 また、候補選定部13は、候補リストの中から、警報種別vを用いて、複数の警報同士で同一の故障や工事では発生しないパターンの警報を削除してもよい。例えば、図2のユースケースには存在しない、両方の警報が装置故障を示す警報の場合が挙げられる。この場合、候補選定部13は、候補リストのαmから、IF関連の異常を示す警報種別vmが設定されたαmを残し、種別装置故障を示す警報種別vmが設定されたαmを削除する。
 そして、候補選定部13は、絞り込まれた候補リストの内、重複する接続関係を示す候補が複数ある場合は、いずれか一方を削除し1つの候補リストに統合する。
 検出部14は、最終的に絞り込まれた候補リストの内、αmの警報が一つしか残っていない場合、当該警報αmと警報αnは同一の事象が起因となって発生した警報をみなし、各警報のeで示されるNW装置およびIFに接続関係があると判定する。一方で、最終的に絞り込まれた候補リストに複数のαmの警報が残っている場合、αnのenで示されているNW装置およびIFと、複数の警報αmのemが示すNW装置およびIFのどれかに接続関係があると判定する。すなわち、検出部14は、候補リストの各警報のNW装置の情報eで示されているNW装置およびIF同士に接続関係があると判定する。
 このように、検出部1は、複数の警報の各々を発出したNW装置間の接続関係を検出する。具体的は、検出部14は、絞り込み後の候補リストの各警報を発出したNW装置間の接続関係を検出する。
 そして、検出部14は、検出結果であるNW装置のトポロジを出力する。出力される検出結果は、例えば、絞り込み後の候補リストの各警報のeで示されるNW装置名およびIF情報(ポート)が対応付けて出力される。検出部14は、絞り込みを行う前、もしくは後の候補リストも、検出結果として出力してもよい。
 また、検出部14は、検出したトポロジで構成情報DB16を更新してもよい。構成情報DB16は、ネットワーク構成に関する情報が格納されたデータベースである。ネットワーク構成に関する情報は、各NW装置の装置名、IPアドレス、ポート(IF)、ポートの接続先情報などが含まれる。検出部14が検出したトポロジで構成情報DB16を更新することで、構成情報DB16を現況のネットワーク構成を反映した最新状態にすることができる。
 (トポロジ検出装置の動作)
 図5は、トポロジ検出装置1の動作を示すフローチャートである。収集部11は、所定のタイミング(時間間隔)で、ネットワーク監視装置からNW装置が発出した警報情報を取得する(S11)。変換部12は、警報情報に含まれる各警報を警報モデルに変換し、発生時刻順にソートする(S12)。
 候補選定部13は、警報モデルの中から、警報種別が装置故障およびIF関連の異常を示す種別の警報を抽出して、警報リストを生成する(S13)。候補選定部13は、警報リストの先頭から順に1つの警報を読み込む(S14)。候補選定部13は、読み込んだ警報の発生時刻と所定の時間幅内にある他の警報が警報リストにある場合(S15:YES)、S14で読み込んだ警報と、前記他の警報とを含む候補リストを生成する(S16)。候補選定部13は、候補リストの他の警報を、当該警報を発出したNW装置の物理的位置などを用いて絞り込み、検出部14は絞り込んだ候補リストの警報のNW装置間のトポロジを検出する(S17)。
 読み込んだ警報の発生時刻と所定の時間幅内にある他の警報が警報リストにない場合(S15:NO)、候補選定部13は、S14に進み、警報リストの次の警報を読み込む。
 警報リストに次の(未処理の)警報がある場合は(S18:YES)、S14に進み以降の処理が繰り返し行われる。警報リストの全ての警報についてS14~S17の処理が行われた場合(S18:NO)、検出部14は、S17で検出したNW装置間のトポロジを出力する(S19)。検出部14は、S16で生成した候補リストを、検出したNW装置間のトポロジとともに出力してもよい。
 (本実施形態の変形例)
 本実施形態のトポロジ検出装置1は、警報情報の各警報をモデル化する変換部12を備えるが、トポロジ検出装置1は変換部12を備えなくてもよい。
 図6は、警報モデルに変換せずにトポロジを検出する変形例を説明する説明図である。図示する例では、収集部11は、伝送レイヤ用のOpSから収集した伝送装置の警報情報6と、転送レイヤ用のOpSから収集したIP装置の警報情報7とを収集する。
 候補選定部13は、これらの警報情報6、7の各警報から、発生時刻およびNW装置の物理的位置を用いて、複数の警報の組を抽出する。図示する例では、候補選定部13は、警報情報6から光伝送装置-AのIF-1の警報61と、警報情報7からルータ-AのIF-3の警報71との組を抽出する。警報61の発生時刻は2時40分12秒で、警報71の発生時刻は2時40分15秒であり、これらの発生時刻は所定の時間幅内である。ここでは、伝送レイヤと転送レイヤ間のトポロジ(図4の(d))を検出する場合であって、警報61と警報72の物理的位置は、ともに東京ビル5である。すなわち、光伝送装置-Aとルータ-A とは、同一ビルに収容されている。したがって、検出部14は、光伝送装置-AのIF-1と、ルータ-AのIF-3との接続関係を検出する(検出1)。
 同様に、候補選定部13は、警報情報6、7の各警報から、発生時刻および装置の物理的位置を用いて、警報62と警報72の組を抽出する。警報62の発生時刻(2時41分01秒)と、警報72の発生時刻(2時40分59秒)とは、所定の時間幅内である。また、警報62と警報72の物理的位置は、ともに東京ビル4である。検出部14は、光伝送装置-EのIF-3と、スイッチ-BのIF-4との接続関係を検出する(検出2)。
 (本実施形態の効果)
 以上説明した本実施形態のトポロジ検出装置1は、NW装置の警報情報を収集する収集部11と、前記警報情報から、発生時刻が所定の時間幅内にある複数の警報を抽出する候補選定部13と、前記複数の警報の各々を発出したNW装置間のトポロジを検出する検出部14と、を備える。
 これにより、本実施形態では、レイヤに依存せず、あるNW装置が、対向装置との接続に関する異常を検知した際に、トポロジがあるNW装置同士が同時刻に警報を発出する特性を利用して、NW装置間のトポロジを検出することができる。すなわち、本実施形態では、トラフィック情報を取得できないNW装置に対してもトポロジの検出が可能となる。
 本実施形態の候補選定部13は、抽出した複数の警報を含む候補リストを生成し、前記候補リストの各警報を、当該警報を発出したNW装置の物理的位置を用いて絞り込み、検出部14は、絞り込み後の候補リストの各警報を発出したNW装置間の接続関係を検出する。NW装置の物理的位置を用いることで、本実施形態では、高い精度のトポロジを検出することができる。
 本実施形態のトポロジ検出装置1は、警報情報の各警報を、警報種別、発生時刻、NW装置および物理的位置を含む警報モデルに変換する変換部12を備え、候補選定部13は、警報モデルを用いて候補リストの警報を絞り込む。これにより本実施形態では、警報情報をアルゴリズムの中で抽象的に扱えるようにし、新たなNW装置の導入、追加に対するアルゴリズムへの影響を最小限にとどめることができる。
 (ハードウェア構成)
 上記説明したトポロジ検出装置1は、例えば、図7に示すような汎用的なコンピュータシステムを用いることができる。図示するコンピュータシステムは、CPU(Central Processing Unit、プロセッサ)901と、メモリ902と、ストレージ903(HDD:Hard Disk Drive、SSD:Solid State Drive)と、通信装置904と、入力装置905と、出力装置906とを備える。メモリ902およびストレージ903は、記憶装置である。このコンピュータシステムにおいて、CPU901がメモリ902上にロードされた所定のプログラムを実行することにより、トポロジ検出装置1の各機能が実現される。
 また、トポロジ検出装置1は、1つのコンピュータで実装されてもよく、あるいは複数のコンピュータで実装されても良い。また、トポロジ検出装置1は、コンピュータに実装される仮想マシンであっても良い。
 トポロジ検出装置1用のプログラムは、HDD、SSD、USB(Universal Serial Bus)メモリ、CD (Compact Disc)、DVD (Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
 なお、本発明は上記実施形態および変形例に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
 1 :トポロジ検出装置
 11:収集部
 12:変換部
 13:候補選定部
 14:検出部
 15:警報情報DB
 16:構成情報DB

Claims (5)

  1.  ネットワーク装置の警報情報を収集する収集部と、
     前記警報情報から、発生時刻が所定の時間幅内にある複数の警報を抽出する候補選定部と、
     前記複数の警報の各々を発出したネットワーク装置間の接続関係を検出する検出部と、を備える
     トポロジ検出装置。
  2.  前記候補選定部は、前記抽出した複数の警報を含む候補リストを生成し、前記候補リストの各警報を、当該警報を発出したネットワーク装置の物理的位置を用いて絞り込み、
     前記検出部は、絞り込み後の候補リストの各警報を発出したネットワーク装置間の接続関係を検出する
     請求項1記載のトポロジ検出装置。
  3.  前記警報情報の各警報を、警報種別、発生時刻、ネットワーク装置および物理的位置を含む警報モデルに変換する変換部を備え、
     前記候補選定部は、警報モデルを用いて前記候補リストの警報を絞り込む
     請求項2記載のトポロジ検出装置。
  4.  トポロジ検出装置が行うトポロジ検出方法であって、
     ネットワーク装置の警報情報を収集する収集ステップと、
     前記警報情報から、発生時刻が所定の時間幅内にある複数の警報を抽出する候補選択ステップと、
     前記複数の警報の各々を発出したネットワーク装置間の接続関係を検出する検出ステップと、を行う
     トポロジ検出方法。
  5.  請求項1から3のいずれか1項に記載のトポロジ検出装置として、コンピュータを機能させるトポロジ検出プログラム。
PCT/JP2020/017704 2020-04-24 2020-04-24 トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム WO2021214979A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022516796A JP7469697B2 (ja) 2020-04-24 2020-04-24 トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム
PCT/JP2020/017704 WO2021214979A1 (ja) 2020-04-24 2020-04-24 トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/017704 WO2021214979A1 (ja) 2020-04-24 2020-04-24 トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム

Publications (1)

Publication Number Publication Date
WO2021214979A1 true WO2021214979A1 (ja) 2021-10-28

Family

ID=78270667

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/017704 WO2021214979A1 (ja) 2020-04-24 2020-04-24 トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム

Country Status (2)

Country Link
JP (1) JP7469697B2 (ja)
WO (1) WO2021214979A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08506947A (ja) * 1993-02-23 1996-07-23 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 事象相関
JPH08288944A (ja) * 1995-04-18 1996-11-01 Hitachi Ltd 通信設備管理システム
JPH10257054A (ja) * 1997-03-11 1998-09-25 Sumitomo Electric Ind Ltd ネットワーク管理装置およびネットワーク管理方法
JP2017085220A (ja) * 2015-10-23 2017-05-18 日本電信電話株式会社 ネットワーク監視装置およびネットワーク監視方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08506947A (ja) * 1993-02-23 1996-07-23 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 事象相関
JPH08288944A (ja) * 1995-04-18 1996-11-01 Hitachi Ltd 通信設備管理システム
JPH10257054A (ja) * 1997-03-11 1998-09-25 Sumitomo Electric Ind Ltd ネットワーク管理装置およびネットワーク管理方法
JP2017085220A (ja) * 2015-10-23 2017-05-18 日本電信電話株式会社 ネットワーク監視装置およびネットワーク監視方法

Also Published As

Publication number Publication date
JPWO2021214979A1 (ja) 2021-10-28
JP7469697B2 (ja) 2024-04-17

Similar Documents

Publication Publication Date Title
JP4318643B2 (ja) 運用管理方法、運用管理装置および運用管理プログラム
US5771274A (en) Topology-based fault analysis in telecommunications networks
CN102713861B (zh) 操作管理装置、操作管理方法以及程序存储介质
US11533216B2 (en) Aggregating alarms into clusters to display service-affecting events on a graphical user interface
EP3663919B1 (en) System and method of automated fault correction in a network environment
WO2001077828A2 (en) Incremental alarm correlation method and apparatus
WO2006117833A1 (ja) 監視シミュレーション装置,方法およびそのプログラム
CN103392176A (zh) 网络事件管理
GB2517147A (en) Performance metrics of a computer system
CN112671767B (zh) 一种基于告警数据分析的安全事件预警方法及装置
JP5292929B2 (ja) 監視装置
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN109818795B (zh) 一种智能业务动态倒换的故障分析方法及系统
WO2021214979A1 (ja) トポロジ検出装置、トポロジ検出方法およびトポロジ検出プログラム
KR101770066B1 (ko) 분산시스템에서 애플리케이션 호출 로그를 이용한 비즈니스 트랜잭션의 실시간 추적 및 분석 방법, 그리고 그 시스템
KR100964392B1 (ko) 망 관리에서의 장애 관리 시스템 및 그 방법
JPH09307550A (ja) ネットワークシステム監視装置
US20230011129A1 (en) Log analyzer for fault detection
JP4850733B2 (ja) ヘルスチェック装置及びヘルスチェック方法及びプログラム
WO2021249629A1 (en) Device and method for monitoring communication networks
KR100658298B1 (ko) 통신망의 고장회선 상세연결내역 추출 방법
CN112817827A (zh) 运维方法、装置、服务器、设备、系统及介质
KR20100137731A (ko) 고객 고장 신고 정보를 이용한 네트워크 장애 감시 시스템과 그 방법
KR101520103B1 (ko) It서비스에서의 어플리케이션 장애 분석 감시 시스템 및 방법
WO2022259307A1 (ja) 警報解析装置、警報解析方法、ベイジアンネットワークモデルおよび警報解析プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20932285

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022516796

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20932285

Country of ref document: EP

Kind code of ref document: A1