WO2023100242A1 - 障害情報推定装置、障害情報推定方法、および障害情報推定プログラム - Google Patents

障害情報推定装置、障害情報推定方法、および障害情報推定プログラム Download PDF

Info

Publication number
WO2023100242A1
WO2023100242A1 PCT/JP2021/043844 JP2021043844W WO2023100242A1 WO 2023100242 A1 WO2023100242 A1 WO 2023100242A1 JP 2021043844 W JP2021043844 W JP 2021043844W WO 2023100242 A1 WO2023100242 A1 WO 2023100242A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
time
failure information
information estimation
failure
Prior art date
Application number
PCT/JP2021/043844
Other languages
English (en)
French (fr)
Inventor
展和 福田
超 呉
信吾 堀内
健一 田山
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/043844 priority Critical patent/WO2023100242A1/ja
Priority to JP2023564300A priority patent/JPWO2023100242A1/ja
Publication of WO2023100242A1 publication Critical patent/WO2023100242A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring

Definitions

  • the present invention relates to a failure information estimation device, a failure information estimation method, and a failure information estimation program.
  • failure information be estimated efficiently and in a short time.
  • the present invention has been made in view of the above circumstances, and its object is to provide a failure information estimating apparatus, a failure information estimating method, and a failure information estimation method for efficiently and quickly estimating failure information of a monitored object in which a failure has occurred. It is to provide an information estimation program.
  • a failure information estimating device includes: a data acquisition unit that acquires data having time-series data and metadata of multiple metrics of multiple monitoring targets in a monitored system; and a failure information estimation unit that estimates failure information of a monitoring target in which a failure has occurred, based on the data extracted by the pruning unit.
  • a method for estimating failure information includes obtaining data having time-series data and metadata of multiple metrics of multiple monitoring targets in a monitored system; and estimating fault information of a faulty monitored object based on the data of the metrics related to the fault.
  • the fault information estimation program causes a computer to execute the function of each component of the fault information estimation device.
  • a failure information estimation device for efficiently and quickly estimating failure information of a monitoring target in which a failure has occurred.
  • FIG. 1 is a block diagram illustrating an example of a functional configuration of a failure information estimation device according to an embodiment
  • FIG. 2 is a block diagram illustrating an example of the hardware configuration of the failure information estimation device according to the embodiment
  • FIG. 3 is a diagram schematically showing the flow of failure information estimation processing executed by the failure information estimation device according to the embodiment.
  • FIG. 4 is a diagram schematically showing an overview of an example in which anomalies are detected by one-dimensional time-series anomaly detection.
  • FIG. 5 is a diagram schematically showing an example of time stamp conversion.
  • FIG. 6 is a diagram schematically showing an example of how metrics data is pruned.
  • FIG. 7 is a diagram schematically showing an example of abnormal termination of an application.
  • FIG. 8 is a diagram schematically showing an example of container scale-out.
  • FIG. 9 is a diagram schematically showing an example of inputs and outputs in the failure information estimation device according to the embodiment.
  • FIG. 10 is a flow chart showing a processing procedure and processing details of
  • FIG. 1 is a block diagram showing an example of the functional configuration of a failure information estimation device 30 according to the embodiment.
  • FIG. 1 is a block diagram showing an example of the functional configuration of a failure information estimation device 30 according to the embodiment.
  • FIG. 1 Although there are many nodes 10 in the monitored system, only one node 10 is representatively illustrated in FIG. 1 for convenience.
  • each node 10 has an application 11, a monitoring agent 12, and a data recording unit 13.
  • the monitoring agent 12 is arranged in the same node 10 and collects time-series data and metadata of monitoring items related to the application 11 and records them in the data recording unit 13 .
  • the monitoring agent 12 also transmits the time-series data and metadata recorded in the data recording unit 13 to the monitoring system 20 by polling/telemetry.
  • the monitoring system 20 collects metrics data for each monitoring target from multiple nodes 10 in the monitoring target system.
  • metrics data is also referred to as metrics data for convenience.
  • the failure information estimation device 30 is a device that acquires a plurality of metrics data of a plurality of monitoring targets from the monitoring system 20, estimates failure information, and outputs a failure report.
  • the failure information estimation device 30 has a data acquisition unit 31, a pruning unit 33, a time-series data encoder 34, a metadata encoder 35, a failure information estimation unit 36, and a failure report output unit 37.
  • the data acquisition unit 31 acquires data of multiple metrics of multiple monitoring targets from the monitoring system 20 .
  • Each metric data has time-series data and metadata.
  • Each piece of time-series data consists of a set of time stamps and other data values at each point in time.
  • Each piece of metadata consists of text information such as names given to metrics, variable names, and container names.
  • the pruning unit 33 extracts (prunes) only failure-related metrics data from among the plurality of metrics data acquired by the data acquisition unit 31 . For example, the pruning unit 33 extracts dozens of metrics data from thousands of metrics data. This reduces the metrics data used for estimating failure information.
  • Failure-related metric data is time-series data with anomalous fluctuations during a time window and corresponding metadata. Metrics data is extracted, for example, by calculating an anomaly score for time-series data using a one-dimensional time-series anomaly detection model. Methods such as Spectral Residual (SR method) and Fourier transform-based anomaly detection methods can be used for one-dimensional time series anomaly detection.
  • the pruning unit 33 supplies the extracted metrics data to the time-series data encoder 34 and the metadata encoder 35 .
  • the time-series data encoder 34 simultaneously encodes time stamps and data values of time-series data. Encoding includes conversion of time stamps of time-series data. Timestamp conversion converts timestamps representing absolute times to timestamps representing relative times within a time window. In addition, for each metric, time series data encoder 34 computes and aggregates vector representations from timestamps representing relative times and other data values. This makes it possible to handle asynchronous time-series data in a unified manner. The time-series data encoder 34 supplies the encoded result to the metadata encoder 35 .
  • the metadata encoder 35 simultaneously learns the time-series data supplied from the time-series data encoder 34 and the metadata supplied from the pruning unit 33 for each metric. As a result, the meaning of the time-series data can be understood from the text information of the metadata. Also, relationships between time-series data can be captured. The metadata encoder 35 supplies the encoding result to the failure information estimation unit 36 .
  • the failure information estimating unit 36 estimates failure information such as the status and cause of the failure of the monitoring target in which the failure is occurring based on the encoding result of the time-series data encoder 34 and the encoding result of the metadata encoder 35 .
  • the failure information estimation unit 36 also creates a failure report based on the estimation result and supplies it to the failure report output unit 37 .
  • the trouble report output unit 37 receives the trouble report from the trouble information estimation unit 36 and outputs it.
  • the failure information estimation device 30 is configured by a computer.
  • the failure information estimation device 30 is configured by a personal computer, a server computer, or the like.
  • FIG. 2 is a block diagram showing an example of the hardware configuration of the failure information estimation device 30 according to the embodiment.
  • the failure information estimation device 30 has an input device 41 , a CPU 42 , a storage device 45 and an output device 48 .
  • the failure information estimation device 30 may further have other peripheral devices in addition to these.
  • the input device 41, the CPU 42, the storage device 45, and the output device 48 are electrically connected to each other via the bus 49, and exchange data and commands via the bus 49.
  • the input device 41 is a device that receives data from the monitoring system 20 .
  • the input device 41 is configured by a receiving device or the like.
  • the input device 41 is not limited to this, and may be composed of any other input device.
  • the output device 48 is a device that outputs failure reports.
  • the output device 48 is composed of a display, a transmission device, and the like.
  • the output device 48 is not limited to this, and may be composed of any other output device.
  • the storage device 45 stores programs and data necessary for processing executed by the CPU 42 .
  • the CPU 42 performs various processes by reading and executing necessary programs and data from the storage device 45 .
  • the storage device 45 has a main storage device 46 and an auxiliary storage device 47 .
  • the main memory device 46 and the auxiliary memory device 47 exchange programs and data between them.
  • the main storage device 46 stores programs and data temporarily required for processing by the CPU 42 .
  • the main memory 46 is composed of volatile memory such as RAM (Random Access Memory).
  • the auxiliary storage device 47 stores programs and data supplied via an external device or network, and provides the main storage device 46 with the programs and data temporarily required for processing by the CPU 42 .
  • the auxiliary storage device 47 is composed of a non-volatile memory such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • the CPU 42 is a processor and hardware that processes data and instructions.
  • the CPU 42 has a control device 43 and an arithmetic device 44 .
  • the control device 43 controls the input device 41 , arithmetic device 44 , storage device 45 and output device 48 .
  • the arithmetic device 44 reads programs and data from the main storage device 46 , executes the programs to process data, and provides the processed data to the main storage device 46 .
  • the input device 41 constitutes the data acquisition section 31.
  • the CPU 42 and the storage device 45 constitute a pruning section 33 , a time series data encoder 34 , a metadata encoder 35 and a fault information estimation section 36 .
  • the output device 48 constitutes the failure report output section 37 .
  • the CPU 42 reads a program for executing the functions of the pruning section 33, the time-series data encoder 34, the metadata encoder 35, and the failure information estimation section 36 from the auxiliary storage device 47 to the main storage device 46, and executes the read program. By doing so, the operations of the pruning unit 33, the time-series data encoder 34, the metadata encoder 35, and the failure information estimation unit 36 are performed.
  • FIG. 3 is a diagram schematically showing the flow of fault information estimation processing executed by the fault information estimation device 30. As shown in FIG. 3
  • the data acquisition unit 31 acquires multiple metrics data.
  • Each metric data has time-series data and metadata.
  • the pruning unit 33 calculates an anomaly score (td2) by applying one-dimensional time-series anomaly detection to the time-series data (td1) using Spectral Residual (p1).
  • FIG. 4 is a diagram schematically showing an overview of an example in which anomalies are detected by one-dimensional time-series anomaly detection.
  • the left side of FIG. 4 shows time-series data as input data.
  • Time-series data is a set of time stamps and data values at each time.
  • the center of FIG. 4 shows a graph of time-series data obtained for this input data.
  • This graph contains a point a1 that has a particularly high value compared to other points due to the occurrence of a fault.
  • the right side of FIG. 4 shows the anomaly scores obtained by processing the middle graph of FIG.
  • This anomaly score includes the anomaly point a2 which has a particularly high value while the other points have a value of almost 0 due to the occurrence of the fault.
  • the pruning unit 33 extracts failure-related time-series data (td3), anomaly score (td4), and metadata (md2) based on the anomaly score (td2) by pruning (p3). Pruning (p3) compares the anomaly score with a predetermined threshold to determine the presence or absence of an anomaly point, an anomaly score (td4) including an anomaly point, and corresponding time-series data (td3) and metadata ( md2) is extracted.
  • the time series data encoder 34 uses Transformer (p4) or other models to simultaneously encode the time stamps and data values of the time series data (td3, td4).
  • Transformer p4 or other models to simultaneously encode the time stamps and data values of the time series data (td3, td4).
  • This encoding converts timestamps that represent absolute times to timestamps that represent relative times within a time window. This makes it possible to handle asynchronous time-series data in a unified manner.
  • FIG. 5 is a diagram schematically showing an example of time stamp conversion.
  • the left side of FIG. 5 shows time-series data before timestamp conversion, and the right side of FIG. 5 shows time-series data after timestamp conversion.
  • the time stamp of the time series data after conversion is obtained by subtracting a certain time stamp (1628143990) from the time stamp of the time series data before conversion.
  • a certain time stamp (1628143990)
  • the metadata encoder 35 simultaneously learns time-series data and metadata (md2) using Transformer (p3) or other models. As a result, the encoding result (d1) by the time-series data encoder 34 and the metadata encoder 35 is obtained.
  • FIG. 6 is a diagram schematically showing an example of pruning of metrics data by the pruning unit 33. As shown in FIG. The left side of FIG. 6 shows the metrics data before pruning, and the right side of FIG. 6 shows the metrics data after pruning. In the metrics data before pruning on the left side of FIG. 6, a time-series graph and anomaly scores obtained by the one-dimensional time-series anomaly detection described with reference to FIG. 4 are drawn together.
  • the metric data after pruning consists of time-series data corresponding to anomaly scores with anomalous values and metadata corresponding to the time-series data.
  • the time-series data after pruning is composed of time-series data before pruning and anomaly scores.
  • the number of monitored metrics in a monitored system is enormous.
  • the metric data includes a lot of time-series data that is not related to failures. This is a factor that increases the time required for analysis work for estimating failure information.
  • the pruning layer extracts failure-related metrics data from a plurality of metrics data acquired in the input layer. This reduces the metrics data used in the analysis work for estimating failure information. This contributes to shortening the time required for analysis work for estimating fault information.
  • time-series data of the monitored metrics distributed within the monitored system are collected asynchronously, so the timestamps do not match. For this reason, missing values occur when aggregating time-series data into a matrix format. In that case, preprocessing of missing values, such as interpolation of missing values and correction of data, is required. This is a factor that increases the labor and cost required for the analysis work for estimating failure information.
  • the time-series data encoder 34 converts timestamps representing absolute times to timestamps representing relative times, and computes vector representations from the timestamps representing relative times and other data values to express these. Aggregate As a result, asynchronous time-series data can be handled in a unified manner without processing missing values. Therefore, relationships between asynchronous metrics can be captured.
  • the number and types of monitored metrics in the monitored system may change dynamically. Causes of metric changes include application crashes and container scaling out.
  • FIG. 7 schematically shows an example of abnormal termination of an application.
  • FIG. 8 schematically shows an example of how containers are scaled out. If the metrics change, the meaning of the time-series data cannot be understood without the metadata of the metrics.
  • the metadata encoder 35 simultaneously learns time-series data and metadata. This makes it possible to grasp the meaning of the time-series data from the text information of the metadata. Also, relationships between time-series data can be grasped. This allows for dynamic changes in the number and types of metrics. In other words, even if the number and types of metrics change, it is possible to grasp the correspondence before and after the change.
  • the failure information estimator 36 uses Transformer (p5) or another model to obtain failure information ( d2) is estimated. Subsequently, the fault information estimation unit 36 creates a fault report (d3) based on the fault information (d2) using Fault Report Decoder (p6) or another model.
  • the failure report output unit 37 outputs a failure report.
  • FIG. 9 is a diagram schematically showing an example of inputs and outputs in the fault information estimation device 30 according to the embodiment.
  • FIG. 9 shows an example of metrics data, that is, time-series data and metadata as inputs, and the right side of FIG. 9 shows an example of an output failure report.
  • FIG. 10 is a flow chart showing the processing procedure and processing details of failure information estimation executed by the failure information estimation device 30 according to the embodiment.
  • step S ⁇ b>1 the data acquisition unit 31 acquires a plurality of metrics data, that is, time-series data and metadata from the monitoring system 20 .
  • step S2 the pruning unit 33 extracts only failure-related time-series data from a plurality of metrics data.
  • the pruning unit 33 supplies the extracted time-series data and metadata corresponding thereto to the time-series data encoder 34 and the metadata encoder 35 . This reduces the metrics data used for estimating failure information.
  • step S3 the time-series data encoder 34 simultaneously encodes the time-series data and the time stamp. This encoding converts timestamps that represent absolute times into timestamps that represent relative times within a time window. In addition, for each metric, compute a vector representation from timestamps representing relative times and other data values and aggregate them. This makes it possible to handle asynchronous time-series data in a unified manner.
  • step S4 the metadata encoder 35 encodes the metadata. This encoding learns time-series data and metadata at the same time. As a result, the meaning of the time-series data can be understood from the text information of the metadata. Also, relationships between time-series data can be captured.
  • step S5 the failure information estimator 36 obtains failure information such as the status and cause of failures occurring in the failure monitoring system based on the encoding result of the time-series data encoder 34 and the encoding result of the metadata encoder 35. presume.
  • the failure information estimator 36 also creates a failure report based on the estimation results.
  • step S6 the failure report output unit 37 receives the failure report from the failure information estimation unit 36 and outputs the failure report.
  • the pruning unit 33 extracts failure-related metrics data from a plurality of metrics data acquired by the data acquisition unit 31 . This reduces the metrics data used for the analysis work of estimating failure information, and shortens the time required for the analysis work of estimating failure information.
  • the time-series data encoder 34 also converts timestamps representing absolute times to timestamps representing relative times, and calculates vector representations from the timestamps representing relative times and other data values. Aggregate these. As a result, it becomes possible to handle asynchronous time-series data in a unified manner without processing missing values, and it is possible to capture the relationship between asynchronous metrics.
  • the metadata encoder 35 learns time-series data and metadata at the same time. This makes it possible to grasp the meaning of the time-series data from the text information of the metadata, and also to grasp the relationship between the time-series data. This allows for dynamic changes in the number and types of metrics.
  • the present invention is not limited to the above-described embodiments, and can be variously modified in the implementation stage without departing from the gist of the present invention. Further, each embodiment may be implemented in combination as appropriate, in which case the combined effect can be obtained. Furthermore, various inventions are included in the above embodiments, and various inventions can be extracted by combinations selected from a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiments, if the problem can be solved and effects can be obtained, the configuration with the constituent elements deleted can be extracted as an invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

障害情報推定装置は、監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得するデータ取得部と、前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出する枝刈り部と、前記枝刈り部によって抽出されたデータに基づいて、障害が発生している監視対象の障害情報を推定する障害情報推定部を有する。

Description

障害情報推定装置、障害情報推定方法、および障害情報推定プログラム
 本発明は、障害情報推定装置、障害情報推定方法、および障害情報推定プログラムに関する。
 サービス保守業務においては、サービスに障害が発生した際に、監視対象システム内の多数の監視対象(装置やアプリケーションなど)からデータを取得して解析することにより、障害が発生している監視対象の障害の状況・原因等の障害情報を推定することが行われる。
 監視対象システムにおいて、障害発生後のユーザへの悪影響を最小限にするため、障害情報の推定は効率良く短時間で行われることが望まれる。
 本発明は、上記事情に着目してなされたもので、その目的は、障害が発生している監視対象の障害情報を効率良く短時間で推定する障害情報推定装置、障害情報推定方法、および障害情報推定プログラムを提供することにある。
 本発明の一態様は、障害情報推定装置である。障害情報推定装置は、監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得するデータ取得部と、前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出する枝刈り部と、前記枝刈り部によって抽出されたデータに基づいて、障害が発生している監視対象の障害情報を推定する障害情報推定部を有する。
 本発明の一態様は、障害情報推定方法である。障害情報推定方法は、監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得することと、前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出することと、障害に関連する前記メトリクスのデータに基づいて、障害が発生している監視対象の障害情報を推定することを有する。
 本発明の一態様は、障害情報推定プログラムである。障害情報推定プログラムは、上記の障害情報推定装置の各構成要素の機能をコンピュータに実行させる。
 本発明によれば、障害が発生している監視対象の障害情報を効率良く短時間で推定する障害情報推定装置、障害情報推定方法、および障害情報推定プログラムが提供される。
図1は、実施形態に係る障害情報推定装置の機能構成の一例を示すブロック図である。 図2は、実施形態に係る障害情報推定装置のハードウェア構成の一例を示すブロック図である。 図3は、実施形態に係る障害情報推定装置が実行する障害情報の推定の処理の流れを模式的に示す図である。 図4は、1次元時系列異常検知によって異常が検知される一例の概要を模式的に示す図である。 図5は、タイムスタンプの変換の一例の様子を模式的に示す図である。 図6は、メトリクスデータの枝刈りの一例の様子を模式的に示す図である。 図7は、アプリケーションの異常終了の一例の様子を模式的に示す図である。 図8は、コンテナのスケールアウトの一例の様子を模式的に示す図である。 図9は、実施形態に係る障害情報推定装置における入力と出力の一例を模式的に示す図である。 図10は、実施形態に係る障害情報推定装置が実行する障害情報の推定の処理手順と処理内容を示すフローチャートである。
 以下、図面を参照して本発明に係る実施形態について説明する。
 [構成例]
 (機能構成)
 まず、実施形態に係る障害情報推定装置の機能構成について説明する。図1は、実施形態に係る障害情報推定装置30の機能構成の一例を示すブロック図である。図1には、障害情報推定装置30に加えて、監視対象システム内のノード10と監視システム20が併せて図示されている。監視対象システム内には多数のノード10が存在するが、図1には、便宜上、代表的に1つのノード10だけが図示されている。
 図1に示されるように、各ノード10は、アプリケーション11と、監視エージェント12と、データ記録部13を有する。監視エージェント12は、同じノード10に配置されアプリケーション11に関する監視項目の時系列データとメタデータを収集し、これをデータ記録部13に記録する。監視エージェント12はまた、データ記録部13に記録した時系列データとメタデータを監視システム20にポーリング/テレメトリで送信する。
 監視システム20は、監視対象システム内の複数のノード10から各監視対象のメトリクスのデータを収集する。以下では、メトリクスのデータを便宜的にメトリクスデータとも称する。
 障害情報推定装置30は、監視システム20から複数の監視対象の複数のメトリクスデータを取得して障害情報を推定して障害レポートを出力する装置である。
 障害情報推定装置30は、データ取得部31と、枝刈り部33と、時系列データエンコーダ34と、メタデータエンコーダ35と、障害情報推定部36と、障害レポート出力部37を有する。
 データ取得部31は、監視システム20から複数の監視対象の複数のメトリクスのデータを取得する。各メトリクスデータは、時系列データとメタデータを有する。各時系列データは、各時刻におけるタイムスタンプと他のデータ値の集合で構成される。各メタデータは、メトリクスに付与された名前、変数名、コンテナ名などのテキスト情報で構成される。
 枝刈り部33は、データ取得部31が取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータだけを抽出(枝刈り)する。例えば、枝刈り部33は、数千個のメトリクスデータから数十個のメトリクスデータを抽出する。これにより、障害情報の推定に使用するメトリクスデータを低減する。障害に関連するメトリクスデータは、時間ウィンドウ中に異常な変動のある時系列データと、これに対応するメタデータである。メトリクスデータの抽出は、例えば、時系列データに対して1次元時系列異常検知モデルを用いて異常スコアを計算することにより行う。1次元時系列異常検知には、Spectral Residual(SR法)や、フーリエ変換ベースの異常検知手法などの手法が利用可能である。枝刈り部33は、抽出したメトリクスデータを、時系列データエンコーダ34とメタデータエンコーダ35に供給する。
 時系列データエンコーダ34は、時系列データのタイムスタンプとデータ値を同時にエンコードする。エンコードは、時系列データのタイムスタンプの変換を含む。タイムスタンプの変換は、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。さらに、時系列データエンコーダ34は、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、非同期的な時系列データを統一的に扱える。時系列データエンコーダ34は、エンコード結果をメタデータエンコーダ35に供給する。
 メタデータエンコーダ35は、メトリクス毎に、時系列データエンコーダ34から供給される時系列データと、枝刈り部33から供給されるメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えられる。また、時系列データ間の関係性を捉えられる。メタデータエンコーダ35は、エンコード結果を障害情報推定部36に供給する。
 障害情報推定部36は、時系列データエンコーダ34のエンコード結果とメタデータエンコーダ35のエンコード結果に基づいて、障害が発生している監視対象の障害の状況・原因等の障害情報を推定する。障害情報推定部36はまた、推定結果に基づいて障害レポートを作成し、これを障害レポート出力部37に供給する。
 障害レポート出力部37は、障害情報推定部36から障害レポートを受け取り、これを出力する。
 (ハードウェア構成)
 次に、障害情報推定装置30のハードウェア構成について説明する。障害情報推定装置30は、コンピュータで構成される。例えば、障害情報推定装置30は、パーソナルコンピュータやサーバコンピュータ等で構成される。
 図2は、実施形態に係る障害情報推定装置30のハードウェア構成の一例を示すブロック図である。図2に示されるように、障害情報推定装置30は、入力装置41と、CPU42と、記憶装置45と、出力装置48を有する。障害情報推定装置30はさらに、これらに加えて、他の周辺装置を有していてもよい。
 入力装置41とCPU42と記憶装置45と出力装置48は、バス49を介して互いに電気的に接続されており、バス49を介してデータや命令のやりとりを行う。
 入力装置41は、監視システム20からデータを受け取る装置である。例えば、入力装置41は、受信装置などで構成される。入力装置41は、これに限らず、他の任意の入力機器で構成されてもよい。
 出力装置48は、障害レポートを出力する装置である。例えば、出力装置48は、ディスプレーや送信装置などで構成される。出力装置48は、これに限らず、他の任意の出力機器で構成されてもよい。
 記憶装置45は、CPU42が実行する処理に必要なプログラムとデータを記憶している。CPU42は、記憶装置45から必要なプログラムとデータを読み出して実行することにより、各種の処理を行う。
 記憶装置45は、主記憶装置46と、補助記憶装置47を有する。主記憶装置46と補助記憶装置47は、相互間でプログラムとデータのやりとりを行う。
 主記憶装置46は、CPU42の処理に一時的に必要なプログラムとデータを記憶する。例えば、主記憶装置46は、RAM(Random Access Memory)等の揮発性メモリで構成される。
 補助記憶装置47は、外部機器やネットワークを介して供給されるプログラムやデータを記憶しており、CPU42の処理に一時的に必要なプログラムとデータを主記憶装置46に提供する。例えば、補助記憶装置47は、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性メモリで構成される。
 CPU42は、プロセッサであり、データや命令を処理するハードウェアである。CPU42は、制御装置43と、演算装置44を有する。
 制御装置43は、入力装置41と演算装置44と記憶装置45と出力装置48を制御する。
 演算装置44は、主記憶装置46からプログラムとデータを読み込み、プログラムを実行してデータを処理し、処理したデータを主記憶装置46に提供する。
 このようなハードウェア構成において、入力装置41は、データ取得部31を構成する。CPU42と記憶装置45は、枝刈り部33と時系列データエンコーダ34とメタデータエンコーダ35と障害情報推定部36を構成する。出力装置48は、障害レポート出力部37を構成する。
 例えば、CPU42は、枝刈り部33と時系列データエンコーダ34とメタデータエンコーダ35と障害情報推定部36の機能を実行するプログラムを補助記憶装置47から主記憶装置46に読み込み、読み込んだプログラムを実行することによって、枝刈り部33と時系列データエンコーダ34とメタデータエンコーダ35と障害情報推定部36の動作を行う。
 [動作例]
 (障害情報の推定の処理)
 次に、図3を参照して、障害情報推定装置30が実行する障害情報の推定の処理の流れについて説明する。図3は、障害情報推定装置30が実行する障害情報の推定の処理の流れを模式的に示す図である。
 入力層において、データ取得部31は、複数のメトリクスデータを取得する。各メトリクスデータは、時系列データとメタデータを有する。
 枝刈り層において、枝刈り部33は、Spectral Residual(p1)により、時系列データ(td1)に1次元時系列異常検知を適用して異常スコア(td2)を算出する。
 図4は、1次元時系列異常検知によって異常が検知される一例の概要を模式的に示す図である。図4の左側は、入力データである時系列データを示す。時系列データは、各時刻におけるタイムスタンプとデータ値の集合である。図4の中央は、この入力データに対して得られる時系列データのグラフを示す。このグラフは、障害の発生に起因して、他の点と比較して特出して高い値を持つ点a1を含んでいる。図4の右側は、図4の中央のグラフを処理して得られる異常スコアを示す。この異常スコアは、障害の発生に起因して、他の点がほぼ0の値であるのに対して、特出して高い値を持つ異常点a2を含んでいる。
 次に、枝刈り部33は、Pruning(p3)により、異常スコア(td2)に基づいて、障害に関連する時系列データ(td3)と異常スコア(td4)とメタデータ(md2)を抽出する。Pruning(p3)は、異常スコアを所定のしきい値と比較して異常点の有無を判断し、異常点を含む異常スコア(td4)と、それに対応する時系列データ(td3)とメタデータ(md2)を抽出する。
 次に、図3に示されるエンコード層において、時系列データエンコーダ34は、Transformer(p4)または他のモデルを用いて、時系列データ(td3,td4)のタイムスタンプとデータ値を同時にエンコードする。このエンコードでは、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。これにより、非同期的な時系列データを統一的に扱える。さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。
 図5は、タイムスタンプの変換の一例の様子を模式的に示す図である。図5の左側がタイムスタンプの変換前の時系列データを示し、図5の右側がタイムスタンプの変換後の時系列データを示している。
 変換後の時系列データのタイムスタンプは、変換前の時系列データのタイムスタンプから一定のタイムスタンプ(1628143990)を減算したものとなっている。例えば、1行目の変換後のタイムスタンプは、1628142121-1628143990=-1866となっている。
 さらに、図3に示されるエンコード層において、メタデータエンコーダ35は、Transformer(p3)または他のモデルを用いて、時系列データとメタデータ(md2)を同時に学習する。その結果、時系列データエンコーダ34とメタデータエンコーダ35によるエンコード結果(d1)が得られる。
 これまでに述べた一連の処理は、メトリクス毎に行われる。この一連の処理は、図3において、破線の四角で囲んで示される。メトリクスの数をMとすると、この一連の処理は、M回、繰り返し行われる。
 図6は、枝刈り部33によるメトリクスデータの枝刈りの一例の様子を模式的に示す図である。図6の左側が枝刈り前のメトリクスデータを示し、図6の右側が枝刈り後のメトリクスデータを示している。図6の左側の枝刈り前のメトリクスデータには、図4を参照して説明した1次元時系列異常検知により得られる時系列グラフと異常スコアが併せて描かれている。
 図6から分かるように、枝刈り後のメトリクスデータは、異常値を持つ異常スコアに対応する時系列データと、その時系列データに対応するメタデータで構成されている。また、枝刈り後の時系列データは、枝刈り前の時系列データと、異常スコアで構成されている。
 一般に監視対象システム内の監視対象のメトリクスの数は膨大である。また、それらメトリクスのデータには、障害に関連しない時系列データが多数含まれる。これは、障害情報の推定の解析作業に要する時間を増大させる要因である。
 実施形態では、枝刈り層において、入力層において取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータを抽出する。これにより、障害情報の推定の解析作業に使用するメトリクスデータを低減する。これは、障害情報の推定の解析作業に要する時間の短縮に貢献する。
 監視対象システム内に分散した監視対象のメトリクスの時系列データは、非同期的に収集されるため、タイムスタンプが一致していない。このため、時系列データを行列形式に集約する際に欠損値が生じる。その場合、欠損値の前処理、例えば、欠損値の補間やデータの補正が必要となる。これは、障害情報の推定の解析作業に要する手間やコストを増大させる要因である。
 時系列データエンコーダ34は、絶対的な時刻を表すタイムスタンプを相対的な時刻を表すタイムスタンプに変換するとともに、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、欠損値の処理をすることなく、非同期的な時系列データを統一的に扱える。このため、非同期的なメトリクス間の関係性を捉えることができる。
 監視対象システム内の監視対象のメトリクスの数と種類が動的に変化する場合がある。メトリクスが変化する原因としては、アプリケーションの異常終了、コンテナのスケールアウトなどがある。図7は、アプリケーションの異常終了の一例の様子を模式的に示している。また、図8は、コンテナのスケールアウトの一例の様子を模式的に示している。メトリクスが変化した場合、メトリクスのメタデータが無ければ時系列データの意味を把握できない。
 メタデータエンコーダ35は、時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えることができる。また、時系列データ間の関係性を捉えることができる。これにより、メトリクスの数と種類の動的な変化に対応できる。つまり、メトリクスの数と種類が変化しても、変化前後の対応関係を把握できる。
 次に、図3に示されるエンコード層において、障害情報推定部36は、Transformer(p5)または他のモデルを用いて、エンコード結果(d1)に基づいて、障害の状況・原因等の障害情報(d2)を推定する。続いて、障害情報推定部36は、Fault Report Decorder(p6)または他のモデルを用いて、障害情報(d2)に基づいて、障害レポート(d3)を作成する。
 次に、出力層において、障害レポート出力部37は、障害レポートを出力する。
 図9は、実施形態に係る障害情報推定装置30における入力と出力の一例を模式的に示す図である。図9の入力であるメトリクスデータすなわち時系列データとメタデータの一例を示し、図9の右側が出力である障害レポートの一例を示している。
 (フローチャート)
 次に、図10を参照して、障害情報推定装置30が実行する障害情報の推定の処理手順と処理内容について説明する。図10は、実施形態に係る障害情報推定装置30が実行する障害情報の推定の処理手順と処理内容を示すフローチャートである。
 ステップS1において、データ取得部31は、監視システム20から複数のメトリクスデータすなわち時系列データとメタデータを取得する。
 ステップS2において、枝刈り部33は、複数のメトリクスデータの中から、障害に関連する時系列データだけを抽出する。枝刈り部33は、抽出した時系列データと、それに対応するメタデータを時系列データエンコーダ34とメタデータエンコーダ35に供給する。これにより、障害情報の推定に使用するメトリクスデータを低減する。
 ステップS3において、時系列データエンコーダ34は、時系列データとタイムスタンプを同時にエンコードする。このエンコードでは、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、非同期的な時系列データを統一的に扱える。
 ステップS4において、メタデータエンコーダ35は、メタデータをエンコードする。このエンコードでは、時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えられる。また、時系列データ間の関係性を捉えられる。
 ステップS5において、障害情報推定部36は、時系列データエンコーダ34のエンコード結果とメタデータエンコーダ35のエンコード結果に基づいて、障害監視システム内に発生している障害の状況・原因等の障害情報を推定する。障害情報推定部36はまた、推定結果に基づいて障害レポートを作成する。
 ステップS6において、障害レポート出力部37は、障害情報推定部36から障害レポートを受け取り、障害レポートを出力する。
 [効果]
 実施形態では、データ取得部31が取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータを枝刈り部33が抽出する。これにより、障害情報の推定の解析作業に使用するメトリクスデータを低減し、障害情報の推定の解析作業に要する時間が短縮される。
 また、時系列データエンコーダ34が、絶対的な時刻を表すタイムスタンプを相対的な時刻を表すタイムスタンプに変換し、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、欠損値の処理をすることなく、非同期的な時系列データを統一的に扱えるようになり、非同期的なメトリクス間の関係性を捉えることができる。
 さらに、メタデータエンコーダ35が時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えることができ、また、時系列データ間の関係性を捉えることができる。これにより、メトリクスの数と種類の動的な変化に対応できる。
 その結果、監視システムの監視対象の適用範囲が広がり、開発コストの削減につながる。さらに、メトリクスを用いた障害検知の精度が向上する。
 なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
  10…ノード
  11…アプリケーション
  12…監視エージェント
  13…データ記録部
  20…監視システム
  30…障害情報推定装置
  31…データ取得部
  33…枝刈り部
  34…時系列データエンコーダ
  35…メタデータエンコーダ
  36…障害情報推定部
  37…障害レポート出力部
  41…入力装置
  42…CPU
  43…制御装置
  44…演算装置
  45…記憶装置
  46…主記憶装置
  47…補助記憶装置
  48…出力装置
  49…バス

Claims (7)

  1.  監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得するデータ取得部と、
     前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出する枝刈り部と、
     前記枝刈り部によって抽出されたデータに基づいて、障害が発生している監視対象の障害情報を推定する障害情報推定部を有する、
     障害情報推定装置。
  2.  前記枝刈り部は、前記時系列データに対して1次元時系列異常検知モデルを用いて異常スコアを計算することによりデータの抽出を行う、
     請求項1に記載の障害情報推定装置。
  3.  前記枝刈り部によって抽出された時系列データの絶対的な時刻を表すタイムスタンプを、時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する時系列データエンコーダをさらに有する、
     請求項1または請求項2に記載の障害情報推定装置。
  4.  前記時系列データエンコーダは、さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する、
     請求項3に記載の障害情報推定装置。
  5.  メトリクス毎に、前記時系列データエンコーダから供給される時系列データと、前記枝刈り部から供給されるメタデータを同時に学習するメタデータエンコーダをさらに有する
     請求項3または請求項4に記載の障害情報推定装置。
  6.  監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得することと、
     前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出することと、
     障害に関連する前記メトリクスのデータに基づいて、障害が発生している監視対象の障害情報を推定することを有する、
     障害情報推定方法。
  7.  請求項1から請求項5までのいずれかひとつに記載の障害情報推定装置の各構成要素の機能をコンピュータに実行させる障害情報推定プログラム。
PCT/JP2021/043844 2021-11-30 2021-11-30 障害情報推定装置、障害情報推定方法、および障害情報推定プログラム WO2023100242A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/043844 WO2023100242A1 (ja) 2021-11-30 2021-11-30 障害情報推定装置、障害情報推定方法、および障害情報推定プログラム
JP2023564300A JPWO2023100242A1 (ja) 2021-11-30 2021-11-30

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/043844 WO2023100242A1 (ja) 2021-11-30 2021-11-30 障害情報推定装置、障害情報推定方法、および障害情報推定プログラム

Publications (1)

Publication Number Publication Date
WO2023100242A1 true WO2023100242A1 (ja) 2023-06-08

Family

ID=86611721

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/043844 WO2023100242A1 (ja) 2021-11-30 2021-11-30 障害情報推定装置、障害情報推定方法、および障害情報推定プログラム

Country Status (2)

Country Link
JP (1) JPWO2023100242A1 (ja)
WO (1) WO2023100242A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009076056A (ja) * 2007-07-27 2009-04-09 General Electric Co <Ge> 異常集約方法
US20150205692A1 (en) * 2014-01-23 2015-07-23 Concurix Corporation Behavior clustering analysis and alerting system for computer applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009076056A (ja) * 2007-07-27 2009-04-09 General Electric Co <Ge> 異常集約方法
US20150205692A1 (en) * 2014-01-23 2015-07-23 Concurix Corporation Behavior clustering analysis and alerting system for computer applications

Also Published As

Publication number Publication date
JPWO2023100242A1 (ja) 2023-06-08

Similar Documents

Publication Publication Date Title
JP7100155B2 (ja) アラームログ圧縮方法、装置、およびシステム、並びに記憶媒体
US11657309B2 (en) Behavior analysis and visualization for a computer infrastructure
US11010223B2 (en) Method and system of automatic event and error correlation from log data
US7421351B2 (en) Monitoring and fault detection in dynamic systems
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
US9804909B1 (en) Scalable predictive early warning system for data backup event log
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
CN110888788A (zh) 异常检测方法、装置、计算机设备及存储介质
EP3663919B1 (en) System and method of automated fault correction in a network environment
JP2006318263A (ja) 情報分析システム、情報分析方法及びプログラム
EP3163519A1 (en) Methods for detecting one or more aircraft anomalies and devices thereof
CN107733737A (zh) 一种监控网络流量异常的方法
US20170024400A1 (en) Method for automatic processing of a number of protocol files of an automation system
CN110968061A (zh) 设备故障的预警方法、装置、存储介质和计算机设备
CN111858265A (zh) 一种存储系统的存储故障预测方法、系统及装置
US20190265088A1 (en) System analysis method, system analysis apparatus, and program
JP7296548B2 (ja) 作業効率評価方法、作業効率評価装置、及びプログラム
Gurumdimma et al. Towards detecting patterns in failure logs of large-scale distributed systems
CN115878598A (zh) 监控数据处理方法、电子设备及存储介质
CN111767193A (zh) 一种服务器数据异常检测方法、装置、存储介质及设备
US20220027332A1 (en) Time-series data condensation and graphical signature analysis
CN111078457A (zh) 一种基于大数据的存储故障分析方法与装置
WO2024104406A1 (zh) 异常检测的方法和云网络平台
US12019595B2 (en) Failure probability evaluation system
CN116975938B (zh) 一种产品制造过程中的传感器数据处理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21966328

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023564300

Country of ref document: JP