WO2024034024A1 - 因果モデル構築装置、異常箇所推定装置、因果モデル構築方法、異常箇所推定方法、及びプログラム - Google Patents

因果モデル構築装置、異常箇所推定装置、因果モデル構築方法、異常箇所推定方法、及びプログラム Download PDF

Info

Publication number
WO2024034024A1
WO2024034024A1 PCT/JP2022/030489 JP2022030489W WO2024034024A1 WO 2024034024 A1 WO2024034024 A1 WO 2024034024A1 JP 2022030489 W JP2022030489 W JP 2022030489W WO 2024034024 A1 WO2024034024 A1 WO 2024034024A1
Authority
WO
WIPO (PCT)
Prior art keywords
abnormality
observation data
causal model
estimating
model construction
Prior art date
Application number
PCT/JP2022/030489
Other languages
English (en)
French (fr)
Inventor
洋一 松尾
敬志郎 渡辺
雄介 中野
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/030489 priority Critical patent/WO2024034024A1/ja
Publication of WO2024034024A1 publication Critical patent/WO2024034024A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present disclosure relates to a causal model construction device, an abnormal location estimation device, a causal model construction method, an abnormal location estimation method, and a program.
  • ICT Information and Communication Technology
  • Non-Patent Documents 1 to 3 A method of estimating an abnormal location from observation data at the time of an abnormality has been proposed (Non-Patent Documents 1 to 3). These techniques can be classified as either rule-based techniques or data-driven techniques.
  • the rule-based method is a method of modeling according to predefined rules.
  • the relationship between abnormal locations and changes in observed data is modeled mainly using the knowledge of experts such as ICT system operators.
  • ICT system operators such as ICT system operators.
  • a rule is created based on expert knowledge that the normality or abnormality of a router affects only the observed data of adjacent links, and this rule and the adjacency relationship in the network topology of an ICT system are used to We are building a causal model.
  • Non-Patent Document 2 proposes to facilitate the construction of a causal model by creating an abstract rule called a template.
  • the data-driven method is a method of modeling from data.
  • observation data from when abnormalities occurred in the past is used to model the relationship between abnormal locations and changes in observed data at that time.
  • the relationship of a certain disorder is modeled using data of a plurality of past cases.
  • the present disclosure has been made in view of the above points, and aims to provide a technology that can construct causal models from network topology information when constructing causal models for various types of observed data.
  • a causal model construction device uses a collection unit configured to acquire network topology information representing the network topology of an ICT system that is a target for estimating an abnormal location, and the network topology information, and a model construction unit configured to construct a causal model for estimating the location of the abnormality from observed data when an abnormality occurs in the ICT system.
  • causal models for various types of observed data
  • a technology is provided that can construct causal models from network topology information.
  • FIG. 1 is a diagram illustrating an example of a hardware configuration of an abnormal location estimation device according to the present embodiment.
  • 1 is a diagram illustrating an example of a functional configuration of an abnormality location estimation device according to the present embodiment. It is a flowchart which shows an example of causal model construction processing concerning this embodiment. It is a flowchart which shows an example of abnormality point estimation processing concerning this embodiment.
  • an anomaly location estimation device 10 that constructs a causal model from network topology information of an ICT system and uses this causal model to estimate an anomaly location in an ICT system from various types of observed data.
  • the abnormal location estimation device 10 includes a "model construction phase” in which a causal model is constructed from network topology information of the ICT system, and an abnormal location estimation phase based on observation data when an abnormality occurs using this causal model.
  • model construction phase in which a causal model is constructed from network topology information of the ICT system
  • an abnormal location estimation phase based on observation data when an abnormality occurs using this causal model.
  • the abnormal location estimation device 10 in the model construction phase may be referred to as a "model construction device” or the like, for example.
  • network topology information is information representing the network topology of an ICT system.
  • Network topology information is, for example, information expressing a graph structure in which various devices (eg, routers, servers, etc.) constituting an ICT system are used as nodes, and communication paths between the nodes are used as links.
  • N ⁇ be a device constituting an ICT system targeted for causal model construction and abnormal location estimation
  • x i ⁇ 0,1 ⁇ be the state of device i.
  • N represents the number of devices
  • x i represents a normal state when 0 and an abnormal state when 1.
  • the observed data be j ⁇ 1,...,M ⁇
  • the state of the observed data j be y j ⁇ 0,1 ⁇ .
  • M represents the number of observation data
  • yj represents a normal state when it is 0, and an abnormal state when it is 1.
  • the observation data j includes, for example, various data that can be obtained from devices that constitute the ICT system (for example, syslog, traffic information, flow data, telemetry data, sensor data, etc.).
  • a representative node k ⁇ 1, . . . , N ⁇ is introduced for each device i, and the state of the representative node k is set to r k ⁇ 0,1 ⁇ .
  • r k represents a normal state when it is 0, and an abnormal state when it is 1.
  • x i , y j , and r k may not be binary values of 0 or 1, but may be multi-valued with three or more values.
  • Each device i has one representative node k.
  • the representative node k is a node representing the state of observation data that can be obtained from the corresponding device i.
  • the state r k of the representative node k is determined based on the degree of contribution to the abnormality of observation data (described later).
  • a causal model of r k representing the state of observed data that can be obtained from device i corresponding to state x i that is, a causal model regarding state r k of representative node k is constructed.
  • ⁇ ) and a conditional probability P (R r 1 ,..., r N
  • the prior probability is a probability that represents the likelihood of each device becoming abnormal, and is defined as follows.
  • is a hyperparameter representing the ease with which a device is likely to fall into an abnormal state, and takes a value of 0 or more and 1 or less.
  • conditional probability represents the causal relationship between the device and the representative node and its degree. Furthermore, when a certain device i has a causal relationship with a certain representative node k, the causal relationship is represented by adding an edge e i,k between x i and r k .
  • the causal relationship between device X and representative node R is defined as follows using network topology information.
  • neig(i) is a set of indexes of nodes adjacent to device i.
  • conditional probability is defined as follows using ⁇ i,k .
  • is a hyperparameter representing the degree of causality, and takes a value of 0 or more and 1 or less.
  • ⁇ ( ⁇ ) is a delta function, which returns 1 when the input is true and 0 when the input is false.
  • the abnormal location is estimated by solving the following using the prior probability and conditional probability.
  • causal models for various types of observed data can be constructed using only network topology information.
  • c be an M-dimensional vector
  • each element cj of the vector represents the degree of contribution to the abnormality of observation data j.
  • the degree of contribution to the abnormality is a value representing how much each observation data influences the abnormality. Therefore, observation data obtained from a device close to the device that has become abnormal has a higher degree of contribution than observation data obtained from a device that is far from the device that has become abnormal.
  • the degree of contribution as an input instead of directly using the value of observed data, it can be assumed that a device in an abnormal state only affects the observed data obtained from nearby devices.
  • the degree of contribution to an anomaly represents the degree to which each observational data influences the anomaly, there is no need to consider the diversity of characteristics of each observational data, and the degree of contribution can be expressed as a binary value. It becomes possible to set a threshold for
  • the degree of contribution to anomalies can be determined by applying, for example, the methods described in References 3 and 4 to AutoEncoder (References 2) that has been trained using M-dimensional normal observation data. It can be calculated with.
  • v is the input to AutoEncoder
  • ⁇ v is the output from AutoEncoder.
  • is a preset constant. This means finding ⁇ such that the value of L(v) decreases (that is, the degree of abnormality decreases). This is because the found ⁇ is thought to lower the degree of abnormality, that is, to contribute to the abnormality.
  • the second term in the equation for calculating the above contribution c is a penalty term for ensuring that ⁇ satisfies sparsity.
  • D s be a set of the top s values of the contribution c to the abnormality in descending order of the absolute value of each element.
  • the value of s can be arbitrarily determined, but for example, it may be set to an integer part of 1% of the number M of types of observation data.
  • f is a function that returns a set of indexes of observation data obtained from device k.
  • FIG. 1 shows an example of the hardware configuration of an abnormality location estimation device 10 according to this embodiment.
  • the abnormality location estimation device 10 includes an input device 101, a display device 102, an external I/F 103, a communication I/F 104, and a RAM (Random Access Memory) 105. It has a ROM (Read Only Memory) 106, an auxiliary storage device 107, and a processor 108. Each of these pieces of hardware is communicably connected via a bus 109.
  • the input device 101 is, for example, a keyboard, a mouse, a touch panel, a physical button, or the like.
  • the display device 102 is, for example, a display, a display panel, or the like. Note that the abnormal location estimation device 10 does not need to have at least one of the input device 101 and the display device 102.
  • the external I/F 103 is an interface with an external device such as the recording medium 103a.
  • the abnormality location estimation device 10 can read and write data on the recording medium 103a via the external I/F 103.
  • the recording medium 103a include a flexible disk, a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), and a USB (Universal Serial Bus) memory card.
  • the communication I/F 104 is an interface for connecting the abnormality location estimation device 10 to a communication network.
  • the RAM 105 is a volatile semiconductor memory (storage device) that temporarily holds programs and data.
  • the ROM 106 is a nonvolatile semiconductor memory (storage device) that can retain programs and data even when the power is turned off.
  • the auxiliary storage device 107 is, for example, a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), or a flash memory.
  • the processor 108 is, for example, an arithmetic device such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).
  • the abnormality location estimation device 10 can realize a causal model construction process and an abnormality location estimation process, which will be described later.
  • the hardware configuration shown in FIG. 1 is an example, and the hardware configuration of the abnormal location estimation device 10 is not limited to this.
  • the abnormality location estimation device 10 may include multiple auxiliary storage devices 107 and multiple processors 108, may not include some of the illustrated hardware, or may include the illustrated hardware. It may also include various other hardware.
  • FIG. 2 shows an example of the functional configuration of the abnormal location estimation device 10 according to this embodiment.
  • the abnormality location estimation device 10 includes a collection section 201, a causal model construction section 202, a contribution calculation section 203, an estimation section 204, and a user interface section 205.
  • Each of these units is realized, for example, by one or more programs installed in the abnormal location estimation device 10 causing the processor 108 or the like to execute the process.
  • the abnormality location estimation device 10 according to this embodiment includes an ICT system data DB 301, a causal model DB 302, and a contribution degree DB 303. Each of these DBs is realized by, for example, the auxiliary storage device 107 or the like.
  • the collection unit 201 collects network topology information and each observation data j from the ICT system.
  • the network topology information and each observation data j collected by the collection unit 201 are stored in the ICT system data DB 301.
  • ⁇ ) and the conditional probability P (R r 1 , . . . , r N
  • the causal model constructed by the causal model construction unit 202 is stored in the causal model DB 302.
  • the contribution calculation unit 203 calculates the contribution c to the abnormality using each observation data j stored in the ICT system data DB 301.
  • the contribution degree c calculated by the contribution degree calculation unit 203 is stored in the contribution degree DB 303.
  • the estimation unit 204 estimates the abnormal location ⁇ X using the causal model stored in the causal model DB 302 and the contribution degree c stored in the contribution degree DB 303. That is, the estimating unit 204 determines the state r k of the representative node k from the contribution c, and then estimates the abnormal location ⁇ X using the above equation 5 using the state r k of the representative node k.
  • the user interface unit 205 presents the abnormal location ⁇ X estimated by the estimation unit 204 to the user (for example, an operator of the ICT system).
  • the causal model construction process is a process executed in the model construction phase. Note that in the following, it is assumed that the network topology information collected by the collection unit 201 is stored in the ICT system data DB 301.
  • the causal model construction unit 202 inputs network topology information stored in the ICT system data DB 301 (step S101).
  • ⁇ ) and the conditional probability P (R r 1 , . . . , r N
  • the causal model construction unit 202 stores the causal model constructed in step S102 above in the causal model DB 302 (step S103).
  • the abnormal location estimation process is a process executed in the abnormal location estimation phase. In the following, it is assumed that some kind of abnormality has occurred in the ICT system, and each observation data j at that time has been collected by the collection unit 201 and stored in the ICT system data DB 301.
  • the contribution calculation unit 203 inputs each observation data j at the time of occurrence of the abnormality (step S201).
  • , for example, assuming that the loss function used for AutoEncoder learning is L(v)
  • the contribution calculation unit 203 stores the contribution c calculated in step S202 above in the contribution DB 303 (step S203).
  • the estimation unit 204 estimates the abnormal location ⁇ X using the causal model stored in the causal model DB 302 and the contribution degree c stored in the contribution degree DB 303 (step S204). That is, the estimating unit 204 determines the state r k of the representative node k from the contribution c using the above equation 6, and then determines the abnormal location ⁇ X using the above equation 5 using the state r k of the representative node k. presume.
  • the user interface unit 205 outputs the abnormal location ⁇ X estimated in step S204 above to the display device 102, such as a display, and presents it to the user (step S205).
  • the abnormality location estimation device 10 is based on the assumption that "if an abnormality occurs in a certain device, the observation data of that device and adjacent devices will be affected." , a causal model (Bayesian network) regarding the state r k of the representative node k is constructed using only network topology information. Furthermore, in the abnormality location estimation phase, the abnormality location estimation device 10 according to the present embodiment estimates the abnormality location using a causal model (Bayesian network) using the degree of contribution c calculated from each observation data j at the time of occurrence of the abnormality. can do. Thereby, the abnormal location estimation device 10 according to the present embodiment can solve the above problems 1 to 4.
  • the abnormality location estimation device 10 solves the problem 1 that "the abnormality spreads and affects various observation data” by using data called “degree of contribution to the abnormality”.
  • the problem of ⁇ difficulty in establishing rules for the relationships between anomalies and various types of observed data'' is solved by introducing a node called a representative node into the Bayesian network.
  • problem 4 is solved because a causal model can be constructed from only network topology information, and problem 3 is not a problem because past abnormal data is not used.
  • the abnormality location estimation device 10 solves the above problems 1 to 4 and estimates the abnormality location of the ICT system using a causal model for various types of observation data that can be obtained from the ICT system. becomes possible.
  • Reference 1 Kazuyuki Tanaka, [Tutorial lecture] Fundamentals of probabilistic information processing and probability propagation algorithms, IEICE Technical Report, 2004.
  • Reference 2 M. Sakurada and T. Yairi, "Anomaly detection using autoencoders with nonlinear dimensionality reduction," in Proc. MLSDA, ser. MLSDA'14, 2014, p. 4-11.
  • Reference 3 Y. Ikeda, K. Tajiri, Y. Nakano, K. Watanabe, and K. Ishibashi, "Estimation of contributing dimensions to detected anomalies with variational autoencoders," arXiv preprint arXiv:1811.04576, 2018.
  • Reference 4 Scott Lundberg, Su-In Lee, "A Unified Approach to Interpreting Model Predictions," in Proc. NIPS 2017.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本開示の一態様による因果モデル構築装置は、異常箇所の推定対象となるICTシステムのネットワークトポロジーを表すネットワークトポロジー情報を取得するように構成されている収集部と、前記ネットワークトポロジー情報を用いて、前記ICTシステムに異常が発生したときの観測データから前記異常箇所を推定するための因果モデルを構築するように構成されているモデル構築部と、を有する。

Description

因果モデル構築装置、異常箇所推定装置、因果モデル構築方法、異常箇所推定方法、及びプログラム
 本開示は、因果モデル構築装置、異常箇所推定装置、因果モデル構築方法、異常箇所推定方法、及びプログラムに関する。
 ICT(Information and Communication Technology)事業者にとって、ICTシステム内で発生する異常の状態を把握し、その対応を迅速に行うことは重要な業務である。こうした中で、ICTシステム内で発生した異常を早期に検知するための手法や異常箇所を推定するための手法の研究が従来から行われている。
 異常箇所を推定するための手法として、異常箇所とその異常によって引き起こされるICTシステム内のデータ(以下、「観測データ」ともいう。)の変化との関係性を因果モデルとしてベイジアンネットワークによりモデル化し、異常時の観測データから異常箇所を推定する手法が提案されている(非特許文献1~3)。これらの手法は、ルールベース手法又はデータドリブン手法のいずれかに分類することができる。
 ルールベース手法は、事前に定義したルールに従ってモデル化する手法である。ルールベース手法では、主にICTシステムのオペレータ等のエキスパートの知識を用いて、異常箇所と観測データの変化との関係性をモデル化する。例えば、非特許文献1では、ルータの正常・異常は隣接しているリンクの観測データのみに影響するというルールをエキスパートの知識から作成し、このルールとICTシステムのネットワークトポロジーにおける隣接関係とを用いて因果モデルを構築している。また、非特許文献2では、テンプレートという抽象的なルールを作成することで、因果モデルの構築を容易するための提案がなされている。
 データドリブン手法は、データからモデル化する手法である。データドリブン手法では、過去に異常が発生したときの観測データを用いて、異常箇所とそのときの観測データの変化との関係性をモデル化する。例えば、非特許文献3では、或る障害に関して過去の複数の事例のデータを用いてその関係性をモデル化している。
 ところで、異常箇所を推定するための手法ではICTシステムのsyslogやトラヒック情報を用いて異常箇所を推定しているが、近年では、syslogやトラヒック情報以外にも、例えば、フローデータやテレメトリーデータ、通信機器に関するセンサデータ等の多様な種類の観測データが容易に取得できるようになってきている。このため、これらの多様な種類の観測データを用いることで、より細かい粒度で異常箇所を推定することができるようになると考えられる。
Srikanth Kandula, Dina Katabi, and Jean-philippe Vasseur. Shrink: A tool for failure diagnosis in IP networks. Proceedings of the 2005 ACM SIGCOMM workshop on Mining network data, pages 173-178, 2005. He Yan, Lee Breslau, Zihui Ge, Dan Massey, Dan Pei, and Jennifer Yates. G-RCA: A Generic Root Cause Analysis Platform for Service Quality Management in Large IP Networks. IEEE/ACM Transactions on Networking, 20(6):1734-1747, 2012. Kandula, Srikanth and Mahajan, Ratul and Verkaik, Patrick and Agarwal, Sharad and Padhye, Jitendra and Bahl, Paramvir. Detailed diagnosis in enterprise networks. ACM SIGCOMM Computer Communication Review, vol.39, num.4, pp.243-254, 2009.
 しかしながら、多様な種類の観測データを用いて因果モデルを構築する場合、以下の課題がある。
 課題1:ルールベース手法ではモデル化のために事前にエキスパートの知識が必要となるが、従来技術で使用していた観測データの種類数は非常に少なく、また、ICTシステムで発生する異常は波及して様々な観測データに影響を及ぼすため、ICTシステムで発生する異常と多様な種類の観測データとの関係性を一つ一つルール化することは困難である。
 課題2:多様な種類の観測データをベイジアンネットワークに入力する場合、ICTシステムから取得した各観測データの値が正常又は異常のいずれであるかを決定しなければならない(これは2値化とも呼ばれる。)。従来技術では観測データの種類数が非常に少なく、また2値化が容易な観測データ(例えば、「アラートが発生したか否か」を表すアラート情報等)を対象としているが、多様な種類の観測データを入力とする場合、各観測データの正常範囲はそれぞれ特性があり、それらを考慮して2値化をすることは困難である。
 課題3:データドリブン手法では過去に異常が発生したときの観測データが必要であるが、ICTシステムでは異常が頻発することは一般に少なく、また、観測データの種類が多様になることにより異常に対して観測データが取り得るパターン数が増加する。このため、その増加分を補うだけの異常事例を収集することは一般に困難である。
 課題4:更に、近年では、ICTシステムの仮想化技術により、ICTシステムのネットワークトポロジーが高頻度で変化することが増えている。また、それに伴い、ICTシステムから取得される観測データも高頻度で変化する。このため、ルールベース手法では異常と観測データとの関係性を一つ一つルール化することが困難であり、データドリブン手法では十分な異常事例を収集することが困難である。
 本開示は、上記の点に鑑みてなされたもので、多様な種類の観測データに対する因果モデルを構築する際に、ネットワークトポロジー情報から因果モデルを構築できる技術を提供することを目的とする。
 本開示の一態様による因果モデル構築装置は、異常箇所の推定対象となるICTシステムのネットワークトポロジーを表すネットワークトポロジー情報を取得するように構成されている収集部と、前記ネットワークトポロジー情報を用いて、前記ICTシステムに異常が発生したときの観測データから前記異常箇所を推定するための因果モデルを構築するように構成されているモデル構築部と、を有する。
 多様な種類の観測データに対する因果モデルを構築する際に、ネットワークトポロジー情報から因果モデルを構築できる技術が提供される。
本実施形態に係る異常箇所推定装置のハードウェア構成の一例を示す図である。 本実施形態に係る異常箇所推定装置の機能構成の一例を示す図である。 本実施形態に係る因果モデル構築処理の一例を示すフローチャートである。 本実施形態に係る異常箇所推定処理の一例を示すフローチャートである。
 以下、本発明の一実施形態について説明する。以下の実施形態では、ICTシステムのネットワークトポロジー情報から因果モデルを構築し、この因果モデルを用いて多様な種類の観測データからICTシステムの異常箇所を推定する異常箇所推定装置10について説明する。ここで、本実施形態に係る異常箇所推定装置10には、ICTシステムのネットワークトポロジー情報から因果モデルを構築する「モデル構築フェーズ」と、この因果モデルを用いて異常発生時の観測データから異常箇所を推定する「異常箇所推定フェーズ」とが存在する。なお、モデル構築フェーズにおける異常箇所推定装置10は、例えば、「モデル構築装置」等と称されてもよい。また、ネットワークトポロジー情報とは、ICTシステムのネットワークトポロジーを表す情報のことである。ネットワークトポロジー情報は、例えば、ICTシステムを構成する種々の機器(例えば、ルータやサーバ等)をノード、ノード間の通信経路等をリンクとするグラフ構造を表現する情報のことである。
 <理論的構成>
 まず、モデル構築フェーズにおける因果モデル構築と、異常箇所推定フェーズにおける異常箇所推定との理論的構成について説明する。
 因果モデル構築及び異常箇所推定の対象とするICTシステムを構成する機器をi∈{1,・・・,N}として、機器iの状態をx∈{0,1}とする。ここで、Nは機器数を表し、xは0のとき正常状態、1のとき異常状態を表すものとする。
 また、観測データをj∈{1,・・・,M}として、観測データjの状態をy∈{0,1}とする。ここで、Mは観測データ数を表し、yは0のとき正常状態、1のとき異常状態を表すものとする。なお、観測データjとしては、例えば、ICTシステムを構成する機器から取得可能な様々なデータ(例えば、syslog、トラヒック情報、フローデータ、テレメトリーデータ、センサデータ等)が挙げられる。
 各機器iに対して代表ノードk∈{1,・・・,N}を導入し、代表ノードkの状態をr∈{0,1}とする。ここで、rは0のとき正常状態、1のとき異常状態を表すものとする。
 なお、x、y及びrは0又は1の2値ではなく、3値以上の多値を取るものとすることも可能である。
 各機器iは代表ノードkを1つ持つ。代表ノードkは、それに対応する機器iから取得できる観測データの状態を表すノードである。代表ノードkの状態rは、観測データの異常への寄与度(後述)をもとに決定される。本実施形態では、状態xに対応する機器iから取得できる観測データの状態を表すrの因果モデル(つまり、代表ノードkの状態rに関する因果モデル)を構築する。
 以下、因果モデルの構築方法と異常箇所推定方法を説明した後、異常への寄与度と代表ノードの状態の決定方法について説明する。
 ・因果モデルの構築方法と異常箇所推定方法
 因果モデルは、事前確率P(X=x,・・・,x|α)と条件付き確率P(R=r,・・・,r|X,β,φ)を規定することにより構築する。事前確率は各機器の異常状態へのなりやすさを表す確率であり、以下のように規定する。
Figure JPOXMLDOC01-appb-M000001
 ここで、αは機器の異常状態へのなりやすさを表すハイパーパラメータであり、0以上1以下を取る。
 次に、条件付き確率を規定する。条件付き確率は、機器と代表ノードの因果関係と、その度合いとを表す。また、因果関係は、或る機器iが或る代表ノードkと因果関係がある場合、xとrの間にエッジei,kを加えることで表す。ここで、機器Xと代表ノードRとの間の因果関係は、ネットワークトポロジー情報を用いて、以下のように規定する。
Figure JPOXMLDOC01-appb-M000002
 ここで、neig(i)は、機器iに隣接するノードのインデックスの集合である。
 そして、機器Xと代表ノードRとの間のすべてのエッジの集合をEとして、エッジei,kのインデックスを表すパラメータをφi,kとすると、以下のようになる。
Figure JPOXMLDOC01-appb-M000003
 このとき、φi,kを用いて、条件付き確率を以下のように規定する。
Figure JPOXMLDOC01-appb-M000004
 ここで、βは因果関係の度合いを表すハイパーパラメータであり、0以上1以下を取る。また、δ(・)はデルタ関数であり、入力が真であるとき1、偽であるとき0を返す。
 最後に、代表ノードの状態が与えられたとき、事前確率と条件付き確率を用いて、以下を解くことにより異常箇所を推定する。
Figure JPOXMLDOC01-appb-M000005
 上記の式は、例えば、確率伝搬法(参考文献1)等により解くことができる。なお、以下、本明細書のテキスト中では、異常箇所の推定結果を「^X」と表す。
 以上のように、ネットワークトポロジー情報のみを用いて、様々な種類の観測データに対する因果モデルを構築することができる。
 ・異常への寄与度と代表ノードの状態の決定方法
 次に、異常への寄与度と代表ノードの決定方法について説明する。cをM次元のベクトルで、各ベクトルの要素cが観測データjの異常への寄与度を表しているものとする。ここで、異常への寄与度は、各観測データが異常にどの程度影響しているかを表す値である。このため、異常状態になった機器に近い機器から取得される観測データは、異常になった機器から遠い機器から取得される観測データよりも寄与度が高くなる。このように、観測データの値を直接使うのではなく、寄与度を入力として使うことで、異常状態の機器はその近傍の機器から取得した観測データのみに影響を与えると仮定することができる。また、異常への寄与度は各観測データが異常にどの程度影響しているかを表しているため、各観測データの特性の多様性を考慮する必要がなく、寄与度の大きさだけで2値化の閾値を設定することが可能となる。
 異常への寄与度は、M次元の正常な観測データを用いて学習を行ったAutoEncoder(参考文献2)に対して、例えば、参考文献3や参考文献4に記載されている手法を適用することで計算することができる。
 例えば、AutoEncoderの学習に使用した損失関数をL(v)=||v-^v||とする。ただし、vはAutoEncoderへの入力、^vはAutoEncoderからの出力である。このとき、寄与度cは、c=argminγL(v+γ)+λ|γ|により計算することができる。ここで、λは予め設定された定数である。これは、L(v)の値が下がる(つまり、異常度が下がる)ようなγを見つけるということを意味している。見つかったγは異常度を下げる、つまり異常へ寄与しているものであると考えられるためである。なお、上記の寄与度cを計算するための式の第2項は、γがスパース性を満たすようにするためのペナルティ項である。
 次に、代表ノードの状態の決定方法について説明する。異常への寄与度cの各要素の絶対値が大きい順に上位s個の値を集めた集合をDとする。ここで、sの値は任意に決めることができるが、例えば、観測データの種類数Mの1%の整数部分、等とすることが考えられる。そして、cの各要素の要素番号のうち、Dに含まれる値に対応する要素の要素番号の集合Ωとする。すなわち、Ω={j||c|∈D}とする。
 そして、代表ノードの状態rを以下の式により決定する。
Figure JPOXMLDOC01-appb-M000006
 ここで、fは機器kから取得される観測データのインデックスの集合を返す関数である。
 すなわち、各k∈{1,・・・,N}に対してf(k)を計算し、その計算の結果を表すインデックス集合の中にΩの要素が1つでも入っていればr=1、そうでなければr=0とする。
 <異常箇所推定装置10のハードウェア構成例>
 本実施形態に係る異常箇所推定装置10のハードウェア構成例を図1に示す。図1に示すように、本実施形態に係る異常箇所推定装置10は、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、RAM(Random Access Memory)105と、ROM(Read Only Memory)106と、補助記憶装置107と、プロセッサ108とを有する。これらの各ハードウェアは、それぞれがバス109を介して通信可能に接続されている。
 入力装置101は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置102は、例えば、ディスプレイ、表示パネル等である。なお、異常箇所推定装置10は、入力装置101及び表示装置102のうちの少なくとも一方を有していなくてもよい。
 外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。異常箇所推定装置10は、外部I/F103を介して、記録媒体103aの読み取りや書き込み等を行うことができる。なお、記録媒体103aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
 通信I/F104は、異常箇所推定装置10を通信ネットワークに接続するためのインタフェースである。RAM105は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM106は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置107は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等のストレージ装置(記憶装置)である。プロセッサ108は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置である。
 本実施形態に係る異常箇所推定装置10は、図1に示すハードウェア構成を有することにより、後述する因果モデル構築処理や異常箇所推定処理を実現することができる。なお、図1に示すハードウェア構成は一例であって、異常箇所推定装置10のハードウェア構成はこれに限られるものではない。例えば、異常箇所推定装置10は、複数の補助記憶装置107や複数のプロセッサ108を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。
 <異常箇所推定装置10の機能構成例>
 本実施形態に係る異常箇所推定装置10の機能構成例を図2に示す。図2に示すように、本実施形態に係る異常箇所推定装置10は、収集部201と、因果モデル構築部202と、寄与度計算部203と、推定部204と、ユーザインタフェース部205とを有する。これら各部は、例えば、異常箇所推定装置10にインストールされた1以上のプログラムが、プロセッサ108等に実行させる処理により実現される。また、本実施形態に係る異常箇所推定装置10は、ICTシステムデータDB301と、因果モデルDB302と、寄与度DB303とを有する。これら各DBは、例えば、補助記憶装置107等により実現される。
 収集部201は、ネットワークトポロジー情報と各観測データjとをICTシステムから収集する。収集部201によって収集されたネットワークトポロジー情報及び各観測データjはICTシステムデータDB301に格納される。
 因果モデル構築部202は、ICTシステムデータDB301に格納されているネットワークトポロジー情報を用いて、因果モデル(つまり、上記の数1に示す事前確率P(X=x,・・・,x|α)と上記の数4に示す条件付き確率P(R=r,・・・,r|X,β,φ))を構築する。因果モデル構築部202によって構築された因果モデルは因果モデルDB302に格納される。
 寄与度計算部203は、異常箇所を推定する際に、ICTシステムデータDB301に格納されている各観測データjを用いて、異常への寄与度cを計算する。寄与度計算部203によって計算された寄与度cは寄与度DB303に格納される。
 推定部204は、因果モデルDB302に格納されている因果モデルと、寄与度DB303に格納されている寄与度cとを用いて、異常箇所^Xを推定する。すなわち、推定部204は、寄与度cから代表ノードkの状態rを決定した上で、これら代表ノードkの状態rを用いて上記の数5により異常箇所^Xを推定する。
 ユーザインタフェース部205は、推定部204によって推定された異常箇所^Xをユーザ(例えば、ICTシステムのオペレータ等)に提示する。
 <因果モデル構築処理>
 以下、本実施形態に係る因果モデル構築処理について、図3を参照しながら説明する。因果モデル構築処理は、モデル構築フェーズで実行される処理である。なお、以下では、収集部201によって収集されたネットワークトポロジー情報がICTシステムデータDB301に格納されているものとする。
 因果モデル構築部202は、ICTシステムデータDB301に格納されているネットワークトポロジー情報を入力する(ステップS101)。
 次に、因果モデル構築部202は、上記のステップS101で入力したネットワークトポロジー情報を用いて、因果モデル(上記の数1に示す事前確率P(X=x,・・・,x|α)と上記の数4に示す条件付き確率P(R=r,・・・,r|X,β,φ))を構築する(ステップS102)。
 そして、因果モデル構築部202は、上記のステップS102で構築した因果モデルを因果モデルDB302に格納する(ステップS103)。
 <異常箇所推定処理>
 以下、本実施形態に係る異常箇所推定処理について、図4を参照しながら説明する。異常箇所推定処理は、異常箇所推定フェーズで実行される処理である。なお、以下では、ICTシステムで何等かの異常が発生しており、そのときの各観測データjが収集部201によって収集されてICTシステムデータDB301に格納されているものとする。
 寄与度計算部203は、当該異常発生時の各観測データjを入力する(ステップS201)。
 次に、寄与度計算部203は、上記のステップS201で入力した各観測データjを用いて、当該異常への寄与度cを計算する(ステップS202)。すなわち、寄与度計算部203は、例えば、AutoEncoderの学習に使用した損失関数をL(v)=||v-^v||として、c=argminγL(v+γ)+λ|γ|により寄与度cを計算する。
 次に、寄与度計算部203は、上記のステップS202で計算した寄与度cを寄与度DB303に格納する(ステップS203)。
 次に、推定部204は、因果モデルDB302に格納されている因果モデルと、寄与度DB303に格納されている寄与度cとを用いて、異常箇所^Xを推定する(ステップS204)。すなわち、推定部204は、上記の数6により寄与度cから代表ノードkの状態rを決定した上で、これら代表ノードkの状態rを用いて上記の数5により異常箇所^Xを推定する。
 そして、ユーザインタフェース部205は、上記のステップS204で推定された異常箇所^Xをディスプレイ等の表示装置102に出力し、ユーザに提示する(ステップS205)。
 <まとめ>
 以上により、モデル構築フェーズにおいて、本実施形態に係る異常箇所推定装置10は、「或る機器で異常が発生した場合はその機器と隣接する機器の観測データに影響が出る」という仮定の下で、ネットワークトポロジー情報のみを用いて、代表ノードkの状態rに関する因果モデル(ベイジアンネットワーク)を構築する。また、異常箇所推定フェーズにおいて、本実施形態に係る異常箇所推定装置10は、異常発生時の各観測データjから計算される寄与度cを用いて、因果モデル(ベイジアンネットワーク)により異常箇所を推定することができる。これにより、本実施形態に係る異常箇所推定装置10は、上記の課題1~課題4を解決することができる。
 すなわち、本実施形態に係る異常箇所推定装置10は、課題1の「異常が波及して様々な観測データに影響を及ぼす」という点を「異常への寄与度」というデータを用いることで解決し、また「異常と多様な種類の観測データとの関係性を一つ一つルール化することが困難」という点をベイジアンネットワークに代表ノードというノードを導入することで解決している。
 また、「異常への寄与度」というデータを用いることで、各観測データjの正常状態を考える必要がなく、寄与度の値の大きさのみで2値化することが可能となり、課題2を解決している。更に、ネットワークトポロジー情報のみから因果モデルを構築できるため課題4を解決しており、加えて過去の異常データを使用しないため課題3が問題とならない。
 以上により、本実施形態に係る異常箇所推定装置10では、上記の課題1~課題4を解決し、ICTシステムから取得できる多様な種類の観測データに対する因果モデルにより当該ICTシステムの異常箇所を推定することが可能となる。
 本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
 [参考文献]
 参考文献1:田中和之, [チュートリアル講演] 確率的情報処理と確率伝搬アルゴリズムの基礎, 信学技報, 2004.
 参考文献2:M. Sakurada and T. Yairi, "Anomaly detection using autoencoders with nonlinear dimensionality reduction," in Proc. MLSDA, ser. MLSDA'14, 2014, p. 4-11.
 参考文献3:Y. Ikeda, K. Tajiri, Y. Nakano, K. Watanabe, and K. Ishibashi, "Estimation of dimensions contributing to detected anomalies with variational autoencoders," arXiv preprint arXiv:1811.04576, 2018.
 参考文献4:Scott Lundberg, Su-In Lee,"A Unified Approach to Interpreting Model Predictions,", in Proc. NIPS 2017.
 10    異常箇所推定装置
 101   入力装置
 102   表示装置
 103   外部I/F
 103a  記録媒体
 104   通信I/F
 105   RAM
 106   ROM
 107   補助記憶装置
 108   プロセッサ
 109   バス
 201   収集部
 202   因果モデル構築部
 203   寄与度計算部
 204   推定部
 205   ユーザインタフェース部
 301   ICTシステムデータDB
 302   因果モデルDB
 303   寄与度DB

Claims (8)

  1.  異常箇所の推定対象となるICTシステムのネットワークトポロジーを表すネットワークトポロジー情報を取得するように構成されている収集部と、
     前記ネットワークトポロジー情報を用いて、前記ICTシステムに異常が発生したときの観測データから前記異常箇所を推定するための因果モデルを構築するように構成されているモデル構築部と、
     を有する因果モデル構築装置。
  2.  前記モデル構築部は、
     前記ICTシステムを構成する機器の異常状態へのなりやすさを表す事前確率と、前記機器と該機器から取得される観測データの状態を表す代表ノードの状態との因果関係及び該因果関係の度合いを表す条件付き確率とで規定されるベイジアンネットワークを前記因果モデルとして構築するように構成されている、請求項1に記載の因果モデル構築装置。
  3.  異常箇所の推定対象となるICTシステムの異常時の複数の観測データを収集するように構成されている収集部と、
     前記観測データを用いて、前記複数の観測データの各々の前記異常への寄与度を計算するように構成されている寄与度計算部と、
     前記寄与度を用いて、前記複数の観測データの各々の状態を表す複数の代表ノードの状態を決定するように構成されている決定部と、
     前記複数の代表ノードの状態を用いて、前記代表ノードの状態が与えられたときに前記異常の箇所を推定するためのベイジアンネットワークで表された因果モデルにより前記異常の箇所を推定するように構成されている推定部と、
     を有する異常箇所推定装置。
  4.  前記寄与度計算部は、
     前記観測データの各々に関して、前記観測データが前記異常に対してどの程度影響を及ぼすかを表す値を前記寄与度として計算するように構成されている、請求項3に記載の異常箇所推定装置。
  5.  前記代表ノードの状態は、前記ICTシステムを構成する機器から取得される観測データの状態を表す、請求項3又は4に記載の異常箇所推定装置。
  6.  異常箇所の推定対象となるICTシステムのネットワークトポロジーを表すネットワークトポロジー情報を取得する収集手順と、
     前記ネットワークトポロジー情報を用いて、前記ICTシステムに異常が発生したときの観測データから前記異常箇所を推定するための因果モデルを構築するモデル構築手順と、
     をコンピュータが実行する因果モデル構築方法。
  7.  異常箇所の推定対象となるICTシステムの異常時の複数の観測データを収集する収集手順と、
     前記観測データを用いて、前記複数の観測データの各々の前記異常への寄与度を計算する寄与度計算手順と、
     前記寄与度を用いて、前記複数の観測データの各々の状態を表す複数の代表ノードの状態を決定する決定手順と、
     前記複数の代表ノードの状態を用いて、前記代表ノードの状態が与えられたときに前記異常の箇所を推定するためのベイジアンネットワークで表された因果モデルにより前記異常の箇所を推定する推定手順と、
     をコンピュータが実行する異常箇所推定方法。
  8.  コンピュータに、請求項6に記載の因果モデル構築方法、又は、請求項7に記載の異常箇所推定方法、を実行させるプログラム。
PCT/JP2022/030489 2022-08-09 2022-08-09 因果モデル構築装置、異常箇所推定装置、因果モデル構築方法、異常箇所推定方法、及びプログラム WO2024034024A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/030489 WO2024034024A1 (ja) 2022-08-09 2022-08-09 因果モデル構築装置、異常箇所推定装置、因果モデル構築方法、異常箇所推定方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/030489 WO2024034024A1 (ja) 2022-08-09 2022-08-09 因果モデル構築装置、異常箇所推定装置、因果モデル構築方法、異常箇所推定方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2024034024A1 true WO2024034024A1 (ja) 2024-02-15

Family

ID=89851272

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/030489 WO2024034024A1 (ja) 2022-08-09 2022-08-09 因果モデル構築装置、異常箇所推定装置、因果モデル構築方法、異常箇所推定方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024034024A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016118436A (ja) * 2014-12-19 2016-06-30 三菱電機株式会社 目標類識別装置
JP2019101712A (ja) * 2017-12-01 2019-06-24 日本電信電話株式会社 異常推定装置、異常推定方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016118436A (ja) * 2014-12-19 2016-06-30 三菱電機株式会社 目標類識別装置
JP2019101712A (ja) * 2017-12-01 2019-06-24 日本電信電話株式会社 異常推定装置、異常推定方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
松尾洋一ほか, 異常への寄与度を用いた異常箇所推定手法, 2019年電子情報通信学会総合大会講演論文集 通信2, 2019, p. 100, ISSN 1349-1369, non-official translation (MATSUO, Yoichi et al. Anomaly location estimation method using contribution to anomaly. Proceedings of 2019 IEICE General Conference, Communication 2.) *

Similar Documents

Publication Publication Date Title
US10701093B2 (en) Anomaly alert system for cyber threat detection
CN110574338B (zh) 根本原因发现方法及系统
WO2009090939A1 (ja) ネットワーク異常検出装置及び方法
KR102440335B1 (ko) 이상 감지 관리 방법 및 그 장치
Niu et al. A practical bounding algorithm for computing two-terminal reliability based on decomposition technique
Dash et al. Network reliability optimization problem of interconnection network under node-edge failure model
EP3956771B1 (en) Timeout mode for storage devices
JP6649294B2 (ja) 状態判定装置、状態判定方法及びプログラム
Ghalem et al. A probabilistic multivariate copula-based technique for faulty node diagnosis in wireless sensor networks
Han et al. On the complexity of counterfactual reasoning
WO2024034024A1 (ja) 因果モデル構築装置、異常箇所推定装置、因果モデル構築方法、異常箇所推定方法、及びプログラム
JP7414135B2 (ja) モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム
Chouliaras et al. Detecting performance degradation in cloud systems using LSTM autoencoders
CN116991615A (zh) 一种基于在线学习的云原生系统故障自愈方法及装置
JP7414136B2 (ja) モデル構築装置、推定装置、モデル構築方法、推定方法及びプログラム
JP6835702B2 (ja) 異常推定装置、異常推定方法及びプログラム
Rouf et al. InstantOps: A Joint Approach to System Failure Prediction and Root Cause Identification in Microserivces Cloud-Native Applications
US11115280B2 (en) Data-driven identification of features related to a state change of a network component
JP6787873B2 (ja) 異常種別判定装置、異常種別判定方法及びプログラム
Bădică et al. Cascaded anomaly detection with coarse sampling in distributed systems
Stegehuis et al. Efficient inference in stochastic block models with vertex labels
Ramoliya et al. Advanced techniques to predict and detect cloud system failure: A survey
WO2023188017A1 (ja) 学習用データ生成装置、学習用データ生成方法及びプログラム
Wang et al. SaaS software performance issue identification using HMRF‐MAP framework
US12008418B2 (en) Automated causal analysis of issues affecting workloads executing in an information technology infrastructure

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22954943

Country of ref document: EP

Kind code of ref document: A1