WO2023100242A1

WO2023100242A1 - 障害情報推定装置、障害情報推定方法、および障害情報推定プログラム

Info

Publication number: WO2023100242A1
Application number: PCT/JP2021/043844
Authority: WO
Inventors: 展和福田; 超呉; 信吾堀内; 健一田山
Original assignee: 日本電信電話株式会社
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-06-08
Also published as: JPWO2023100242A1

Abstract

障害情報推定装置は、監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得するデータ取得部と、前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出する枝刈り部と、前記枝刈り部によって抽出されたデータに基づいて、障害が発生している監視対象の障害情報を推定する障害情報推定部を有する。

Description

障害情報推定装置、障害情報推定方法、および障害情報推定プログラム

　本発明は、障害情報推定装置、障害情報推定方法、および障害情報推定プログラムに関する。

　サービス保守業務においては、サービスに障害が発生した際に、監視対象システム内の多数の監視対象（装置やアプリケーションなど）からデータを取得して解析することにより、障害が発生している監視対象の障害の状況・原因等の障害情報を推定することが行われる。

Zhang, Chuxu et al. "A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data." ArXiv abs/1811.08055 (2019).

　監視対象システムにおいて、障害発生後のユーザへの悪影響を最小限にするため、障害情報の推定は効率良く短時間で行われることが望まれる。

　本発明は、上記事情に着目してなされたもので、その目的は、障害が発生している監視対象の障害情報を効率良く短時間で推定する障害情報推定装置、障害情報推定方法、および障害情報推定プログラムを提供することにある。

　本発明の一態様は、障害情報推定装置である。障害情報推定装置は、監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得するデータ取得部と、前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出する枝刈り部と、前記枝刈り部によって抽出されたデータに基づいて、障害が発生している監視対象の障害情報を推定する障害情報推定部を有する。

　本発明の一態様は、障害情報推定方法である。障害情報推定方法は、監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得することと、前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出することと、障害に関連する前記メトリクスのデータに基づいて、障害が発生している監視対象の障害情報を推定することを有する。

　本発明の一態様は、障害情報推定プログラムである。障害情報推定プログラムは、上記の障害情報推定装置の各構成要素の機能をコンピュータに実行させる。

　本発明によれば、障害が発生している監視対象の障害情報を効率良く短時間で推定する障害情報推定装置、障害情報推定方法、および障害情報推定プログラムが提供される。

図１は、実施形態に係る障害情報推定装置の機能構成の一例を示すブロック図である。図２は、実施形態に係る障害情報推定装置のハードウェア構成の一例を示すブロック図である。図３は、実施形態に係る障害情報推定装置が実行する障害情報の推定の処理の流れを模式的に示す図である。図４は、１次元時系列異常検知によって異常が検知される一例の概要を模式的に示す図である。図５は、タイムスタンプの変換の一例の様子を模式的に示す図である。図６は、メトリクスデータの枝刈りの一例の様子を模式的に示す図である。図７は、アプリケーションの異常終了の一例の様子を模式的に示す図である。図８は、コンテナのスケールアウトの一例の様子を模式的に示す図である。図９は、実施形態に係る障害情報推定装置における入力と出力の一例を模式的に示す図である。図１０は、実施形態に係る障害情報推定装置が実行する障害情報の推定の処理手順と処理内容を示すフローチャートである。

　以下、図面を参照して本発明に係る実施形態について説明する。

　［構成例］
　（機能構成）
　まず、実施形態に係る障害情報推定装置の機能構成について説明する。図１は、実施形態に係る障害情報推定装置３０の機能構成の一例を示すブロック図である。図１には、障害情報推定装置３０に加えて、監視対象システム内のノード１０と監視システム２０が併せて図示されている。監視対象システム内には多数のノード１０が存在するが、図１には、便宜上、代表的に１つのノード１０だけが図示されている。

　図１に示されるように、各ノード１０は、アプリケーション１１と、監視エージェント１２と、データ記録部１３を有する。監視エージェント１２は、同じノード１０に配置されアプリケーション１１に関する監視項目の時系列データとメタデータを収集し、これをデータ記録部１３に記録する。監視エージェント１２はまた、データ記録部１３に記録した時系列データとメタデータを監視システム２０にポーリング／テレメトリで送信する。

　監視システム２０は、監視対象システム内の複数のノード１０から各監視対象のメトリクスのデータを収集する。以下では、メトリクスのデータを便宜的にメトリクスデータとも称する。

　障害情報推定装置３０は、監視システム２０から複数の監視対象の複数のメトリクスデータを取得して障害情報を推定して障害レポートを出力する装置である。

　障害情報推定装置３０は、データ取得部３１と、枝刈り部３３と、時系列データエンコーダ３４と、メタデータエンコーダ３５と、障害情報推定部３６と、障害レポート出力部３７を有する。

　データ取得部３１は、監視システム２０から複数の監視対象の複数のメトリクスのデータを取得する。各メトリクスデータは、時系列データとメタデータを有する。各時系列データは、各時刻におけるタイムスタンプと他のデータ値の集合で構成される。各メタデータは、メトリクスに付与された名前、変数名、コンテナ名などのテキスト情報で構成される。

　枝刈り部３３は、データ取得部３１が取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータだけを抽出（枝刈り）する。例えば、枝刈り部３３は、数千個のメトリクスデータから数十個のメトリクスデータを抽出する。これにより、障害情報の推定に使用するメトリクスデータを低減する。障害に関連するメトリクスデータは、時間ウィンドウ中に異常な変動のある時系列データと、これに対応するメタデータである。メトリクスデータの抽出は、例えば、時系列データに対して１次元時系列異常検知モデルを用いて異常スコアを計算することにより行う。１次元時系列異常検知には、Spectral Residual（ＳＲ法）や、フーリエ変換ベースの異常検知手法などの手法が利用可能である。枝刈り部３３は、抽出したメトリクスデータを、時系列データエンコーダ３４とメタデータエンコーダ３５に供給する。

　時系列データエンコーダ３４は、時系列データのタイムスタンプとデータ値を同時にエンコードする。エンコードは、時系列データのタイムスタンプの変換を含む。タイムスタンプの変換は、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。さらに、時系列データエンコーダ３４は、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、非同期的な時系列データを統一的に扱える。時系列データエンコーダ３４は、エンコード結果をメタデータエンコーダ３５に供給する。

　メタデータエンコーダ３５は、メトリクス毎に、時系列データエンコーダ３４から供給される時系列データと、枝刈り部３３から供給されるメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えられる。また、時系列データ間の関係性を捉えられる。メタデータエンコーダ３５は、エンコード結果を障害情報推定部３６に供給する。

　障害情報推定部３６は、時系列データエンコーダ３４のエンコード結果とメタデータエンコーダ３５のエンコード結果に基づいて、障害が発生している監視対象の障害の状況・原因等の障害情報を推定する。障害情報推定部３６はまた、推定結果に基づいて障害レポートを作成し、これを障害レポート出力部３７に供給する。

　障害レポート出力部３７は、障害情報推定部３６から障害レポートを受け取り、これを出力する。

　（ハードウェア構成）
　次に、障害情報推定装置３０のハードウェア構成について説明する。障害情報推定装置３０は、コンピュータで構成される。例えば、障害情報推定装置３０は、パーソナルコンピュータやサーバコンピュータ等で構成される。

　図２は、実施形態に係る障害情報推定装置３０のハードウェア構成の一例を示すブロック図である。図２に示されるように、障害情報推定装置３０は、入力装置４１と、ＣＰＵ４２と、記憶装置４５と、出力装置４８を有する。障害情報推定装置３０はさらに、これらに加えて、他の周辺装置を有していてもよい。

　入力装置４１とＣＰＵ４２と記憶装置４５と出力装置４８は、バス４９を介して互いに電気的に接続されており、バス４９を介してデータや命令のやりとりを行う。

　入力装置４１は、監視システム２０からデータを受け取る装置である。例えば、入力装置４１は、受信装置などで構成される。入力装置４１は、これに限らず、他の任意の入力機器で構成されてもよい。

　出力装置４８は、障害レポートを出力する装置である。例えば、出力装置４８は、ディスプレーや送信装置などで構成される。出力装置４８は、これに限らず、他の任意の出力機器で構成されてもよい。

　記憶装置４５は、ＣＰＵ４２が実行する処理に必要なプログラムとデータを記憶している。ＣＰＵ４２は、記憶装置４５から必要なプログラムとデータを読み出して実行することにより、各種の処理を行う。

　記憶装置４５は、主記憶装置４６と、補助記憶装置４７を有する。主記憶装置４６と補助記憶装置４７は、相互間でプログラムとデータのやりとりを行う。

　主記憶装置４６は、ＣＰＵ４２の処理に一時的に必要なプログラムとデータを記憶する。例えば、主記憶装置４６は、ＲＡＭ（Random Access Memory）等の揮発性メモリで構成される。

　補助記憶装置４７は、外部機器やネットワークを介して供給されるプログラムやデータを記憶しており、ＣＰＵ４２の処理に一時的に必要なプログラムとデータを主記憶装置４６に提供する。例えば、補助記憶装置４７は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の不揮発性メモリで構成される。

　ＣＰＵ４２は、プロセッサであり、データや命令を処理するハードウェアである。ＣＰＵ４２は、制御装置４３と、演算装置４４を有する。

　制御装置４３は、入力装置４１と演算装置４４と記憶装置４５と出力装置４８を制御する。

　演算装置４４は、主記憶装置４６からプログラムとデータを読み込み、プログラムを実行してデータを処理し、処理したデータを主記憶装置４６に提供する。

　このようなハードウェア構成において、入力装置４１は、データ取得部３１を構成する。ＣＰＵ４２と記憶装置４５は、枝刈り部３３と時系列データエンコーダ３４とメタデータエンコーダ３５と障害情報推定部３６を構成する。出力装置４８は、障害レポート出力部３７を構成する。

　例えば、ＣＰＵ４２は、枝刈り部３３と時系列データエンコーダ３４とメタデータエンコーダ３５と障害情報推定部３６の機能を実行するプログラムを補助記憶装置４７から主記憶装置４６に読み込み、読み込んだプログラムを実行することによって、枝刈り部３３と時系列データエンコーダ３４とメタデータエンコーダ３５と障害情報推定部３６の動作を行う。

　［動作例］
　（障害情報の推定の処理）
　次に、図３を参照して、障害情報推定装置３０が実行する障害情報の推定の処理の流れについて説明する。図３は、障害情報推定装置３０が実行する障害情報の推定の処理の流れを模式的に示す図である。

　入力層において、データ取得部３１は、複数のメトリクスデータを取得する。各メトリクスデータは、時系列データとメタデータを有する。

　枝刈り層において、枝刈り部３３は、Spectral Residual（ｐ１）により、時系列データ（ｔｄ１）に１次元時系列異常検知を適用して異常スコア（ｔｄ２）を算出する。

　図４は、１次元時系列異常検知によって異常が検知される一例の概要を模式的に示す図である。図４の左側は、入力データである時系列データを示す。時系列データは、各時刻におけるタイムスタンプとデータ値の集合である。図４の中央は、この入力データに対して得られる時系列データのグラフを示す。このグラフは、障害の発生に起因して、他の点と比較して特出して高い値を持つ点ａ１を含んでいる。図４の右側は、図４の中央のグラフを処理して得られる異常スコアを示す。この異常スコアは、障害の発生に起因して、他の点がほぼ０の値であるのに対して、特出して高い値を持つ異常点ａ２を含んでいる。

　次に、枝刈り部３３は、Pruning（ｐ３）により、異常スコア（ｔｄ２）に基づいて、障害に関連する時系列データ（ｔｄ３）と異常スコア（ｔｄ４）とメタデータ（ｍｄ２）を抽出する。Pruning（ｐ３）は、異常スコアを所定のしきい値と比較して異常点の有無を判断し、異常点を含む異常スコア（ｔｄ４）と、それに対応する時系列データ（ｔｄ３）とメタデータ（ｍｄ２）を抽出する。

　次に、図３に示されるエンコード層において、時系列データエンコーダ３４は、Transformer（ｐ４）または他のモデルを用いて、時系列データ（ｔｄ３，ｔｄ４）のタイムスタンプとデータ値を同時にエンコードする。このエンコードでは、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。これにより、非同期的な時系列データを統一的に扱える。さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。

　図５は、タイムスタンプの変換の一例の様子を模式的に示す図である。図５の左側がタイムスタンプの変換前の時系列データを示し、図５の右側がタイムスタンプの変換後の時系列データを示している。

　変換後の時系列データのタイムスタンプは、変換前の時系列データのタイムスタンプから一定のタイムスタンプ（１６２８１４３９９０）を減算したものとなっている。例えば、１行目の変換後のタイムスタンプは、１６２８１４２１２１－１６２８１４３９９０＝－１８６６となっている。

　さらに、図３に示されるエンコード層において、メタデータエンコーダ３５は、Transformer（ｐ３）または他のモデルを用いて、時系列データとメタデータ（ｍｄ２）を同時に学習する。その結果、時系列データエンコーダ３４とメタデータエンコーダ３５によるエンコード結果（ｄ１）が得られる。

　これまでに述べた一連の処理は、メトリクス毎に行われる。この一連の処理は、図３において、破線の四角で囲んで示される。メトリクスの数をＭとすると、この一連の処理は、Ｍ回、繰り返し行われる。

　図６は、枝刈り部３３によるメトリクスデータの枝刈りの一例の様子を模式的に示す図である。図６の左側が枝刈り前のメトリクスデータを示し、図６の右側が枝刈り後のメトリクスデータを示している。図６の左側の枝刈り前のメトリクスデータには、図４を参照して説明した１次元時系列異常検知により得られる時系列グラフと異常スコアが併せて描かれている。

　図６から分かるように、枝刈り後のメトリクスデータは、異常値を持つ異常スコアに対応する時系列データと、その時系列データに対応するメタデータで構成されている。また、枝刈り後の時系列データは、枝刈り前の時系列データと、異常スコアで構成されている。

　一般に監視対象システム内の監視対象のメトリクスの数は膨大である。また、それらメトリクスのデータには、障害に関連しない時系列データが多数含まれる。これは、障害情報の推定の解析作業に要する時間を増大させる要因である。

　実施形態では、枝刈り層において、入力層において取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータを抽出する。これにより、障害情報の推定の解析作業に使用するメトリクスデータを低減する。これは、障害情報の推定の解析作業に要する時間の短縮に貢献する。

　監視対象システム内に分散した監視対象のメトリクスの時系列データは、非同期的に収集されるため、タイムスタンプが一致していない。このため、時系列データを行列形式に集約する際に欠損値が生じる。その場合、欠損値の前処理、例えば、欠損値の補間やデータの補正が必要となる。これは、障害情報の推定の解析作業に要する手間やコストを増大させる要因である。

　時系列データエンコーダ３４は、絶対的な時刻を表すタイムスタンプを相対的な時刻を表すタイムスタンプに変換するとともに、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、欠損値の処理をすることなく、非同期的な時系列データを統一的に扱える。このため、非同期的なメトリクス間の関係性を捉えることができる。

　監視対象システム内の監視対象のメトリクスの数と種類が動的に変化する場合がある。メトリクスが変化する原因としては、アプリケーションの異常終了、コンテナのスケールアウトなどがある。図７は、アプリケーションの異常終了の一例の様子を模式的に示している。また、図８は、コンテナのスケールアウトの一例の様子を模式的に示している。メトリクスが変化した場合、メトリクスのメタデータが無ければ時系列データの意味を把握できない。

　メタデータエンコーダ３５は、時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えることができる。また、時系列データ間の関係性を捉えることができる。これにより、メトリクスの数と種類の動的な変化に対応できる。つまり、メトリクスの数と種類が変化しても、変化前後の対応関係を把握できる。

　次に、図３に示されるエンコード層において、障害情報推定部３６は、Transformer（ｐ５）または他のモデルを用いて、エンコード結果（ｄ１）に基づいて、障害の状況・原因等の障害情報（ｄ２）を推定する。続いて、障害情報推定部３６は、Fault Report Decorder（ｐ６）または他のモデルを用いて、障害情報（ｄ２）に基づいて、障害レポート（ｄ３）を作成する。

　次に、出力層において、障害レポート出力部３７は、障害レポートを出力する。

　図９は、実施形態に係る障害情報推定装置３０における入力と出力の一例を模式的に示す図である。図９の入力であるメトリクスデータすなわち時系列データとメタデータの一例を示し、図９の右側が出力である障害レポートの一例を示している。

　（フローチャート）
　次に、図１０を参照して、障害情報推定装置３０が実行する障害情報の推定の処理手順と処理内容について説明する。図１０は、実施形態に係る障害情報推定装置３０が実行する障害情報の推定の処理手順と処理内容を示すフローチャートである。

　ステップＳ１において、データ取得部３１は、監視システム２０から複数のメトリクスデータすなわち時系列データとメタデータを取得する。

　ステップＳ２において、枝刈り部３３は、複数のメトリクスデータの中から、障害に関連する時系列データだけを抽出する。枝刈り部３３は、抽出した時系列データと、それに対応するメタデータを時系列データエンコーダ３４とメタデータエンコーダ３５に供給する。これにより、障害情報の推定に使用するメトリクスデータを低減する。

　ステップＳ３において、時系列データエンコーダ３４は、時系列データとタイムスタンプを同時にエンコードする。このエンコードでは、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、非同期的な時系列データを統一的に扱える。

　ステップＳ４において、メタデータエンコーダ３５は、メタデータをエンコードする。このエンコードでは、時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えられる。また、時系列データ間の関係性を捉えられる。

　ステップＳ５において、障害情報推定部３６は、時系列データエンコーダ３４のエンコード結果とメタデータエンコーダ３５のエンコード結果に基づいて、障害監視システム内に発生している障害の状況・原因等の障害情報を推定する。障害情報推定部３６はまた、推定結果に基づいて障害レポートを作成する。

　ステップＳ６において、障害レポート出力部３７は、障害情報推定部３６から障害レポートを受け取り、障害レポートを出力する。

　［効果］
　実施形態では、データ取得部３１が取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータを枝刈り部３３が抽出する。これにより、障害情報の推定の解析作業に使用するメトリクスデータを低減し、障害情報の推定の解析作業に要する時間が短縮される。

　また、時系列データエンコーダ３４が、絶対的な時刻を表すタイムスタンプを相対的な時刻を表すタイムスタンプに変換し、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、欠損値の処理をすることなく、非同期的な時系列データを統一的に扱えるようになり、非同期的なメトリクス間の関係性を捉えることができる。

　さらに、メタデータエンコーダ３５が時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えることができ、また、時系列データ間の関係性を捉えることができる。これにより、メトリクスの数と種類の動的な変化に対応できる。

　その結果、監視システムの監視対象の適用範囲が広がり、開発コストの削減につながる。さらに、メトリクスを用いた障害検知の精度が向上する。

　なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

　　１０…ノード
　　１１…アプリケーション
　　１２…監視エージェント
　　１３…データ記録部
　　２０…監視システム
　　３０…障害情報推定装置
　　３１…データ取得部
　　３３…枝刈り部
　　３４…時系列データエンコーダ
　　３５…メタデータエンコーダ
　　３６…障害情報推定部
　　３７…障害レポート出力部
　　４１…入力装置
　　４２…ＣＰＵ
　　４３…制御装置
　　４４…演算装置
　　４５…記憶装置
　　４６…主記憶装置
　　４７…補助記憶装置
　　４８…出力装置
　　４９…バス

Claims

　監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得するデータ取得部と、
　前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出する枝刈り部と、
　前記枝刈り部によって抽出されたデータに基づいて、障害が発生している監視対象の障害情報を推定する障害情報推定部を有する、
　障害情報推定装置。
　前記枝刈り部は、前記時系列データに対して１次元時系列異常検知モデルを用いて異常スコアを計算することによりデータの抽出を行う、
　請求項１に記載の障害情報推定装置。
　前記枝刈り部によって抽出された時系列データの絶対的な時刻を表すタイムスタンプを、時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する時系列データエンコーダをさらに有する、
　請求項１または請求項２に記載の障害情報推定装置。
　前記時系列データエンコーダは、さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する、
　請求項３に記載の障害情報推定装置。
　メトリクス毎に、前記時系列データエンコーダから供給される時系列データと、前記枝刈り部から供給されるメタデータを同時に学習するメタデータエンコーダをさらに有する
　請求項３または請求項４に記載の障害情報推定装置。
　監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得することと、
　前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出することと、
　障害に関連する前記メトリクスのデータに基づいて、障害が発生している監視対象の障害情報を推定することを有する、
　障害情報推定方法。
　請求項１から請求項５までのいずれかひとつに記載の障害情報推定装置の各構成要素の機能をコンピュータに実行させる障害情報推定プログラム。