WO2022168269A1

WO2022168269A1 - 情報処理装置、情報処理方法、及び、情報処理プログラム

Info

Publication number: WO2022168269A1
Application number: PCT/JP2021/004347
Authority: WO
Inventors: 優酒井; 謙輔高橋
Original assignee: 日本電信電話株式会社
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2022-08-11
Also published as: US20240152427A1; JPWO2022168269A1; JP7513921B2

Abstract

サービス回復方法策定装置（情報処理装置）１６は、アプリケーションプログラムのサービスに対する複数の回復作業について、各回復作業内容のパターンをそれぞれ認識し、前記複数の回復作業を回復作業内容のパターン毎にグルーピングして複数の回復作業グループを形成し、前記複数の回復作業がそれぞれ行われる直前と直後にそれぞれ監視された前記サービスに関する複数の監視データについて、各監視内容のパターンをそれぞれ認識し、前記複数の監視データを監視内容のパターン毎にグルーピングして複数の監視データグループを形成する回復方法学習部（学習部）１６５、を備える。

Description

情報処理装置、情報処理方法、及び、情報処理プログラム

　本発明は、情報処理装置、情報処理方法、及び、情報処理プログラムに関する。

　アプリケーションプログラムが提供するサービスを保守する技術が知られている。

　例えば、階層化及び分散化された複数のコンポーネントのうち所定のコンポーネントを規定順に連携動作させることでサービスを提供するマイクロサービスがある。当該マイクロサービスの保守では、各コンポーネントに対してヘルスチェックを実行し、ヘルスチェックの実行結果を基に各コンポーネントの正常又は異常を監視し、想定外の結果を返す異常なコンポーネントに対して回復作業を実行する。その他、コンポーネント単位での監視だけではなく、サービスの一連の流れを俯瞰した上で異常を検知する方法もある。

　一方、マイクロサービスの回復作業は、使用コンポーネントやリソースの変更等といった流動性があるために様々な回復方法が考えられ、複数のコンポーネントが階層化及び分散化しているためにコンポーネントの回復作業の適用範囲にも多様な選択肢が存在する。また、回復作業は事前定義されていなければならないが、多様な選択肢を持つ回復作業を様々な異常パターンを網羅した上で適切に定義することは困難である。そのため、サービス提供時に実際に回復作業を行っていく中でノウハウを蓄積し、異常パターンや回復作業に関する知識を成熟させていく必要がある。

　そこで、実際のサービスで想定される多様な障害を不規則に発生させ、各障害の回復作業を持続的に行うカオスエンジニアリングという技術がある（非特許文献１）。

"ChaosKube"、［2021年1月20日検索］、インターネット＜URL: https://github.com/linki/chaoskube＞

　しかしながら、カオスエンジニアリングの技術においても、回復作業の継続的な改善は、実施組織の保守者が人手で解析を行い、回復手順を詳細化していく必要があり、多大な労力を必要としていた。

　本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、保守者の多大な労力がなくても回復作業による異常状態から正常状態への状態遷移をノウハウとして形式知化し、障害発生時等の回復の方針を策定可能な技術を提供することである。

　本発明の一態様の情報処理装置は、アプリケーションプログラムのサービスに対する複数の回復作業について、各回復作業内容のパターンをそれぞれ認識し、前記複数の回復作業を回復作業内容のパターン毎にグルーピングして複数の回復作業グループを形成し、前記複数の回復作業がそれぞれ行われる直前と直後にそれぞれ監視された前記サービスに関する複数の監視データについて、各監視内容のパターンをそれぞれ認識し、前記複数の監視データを監視内容のパターン毎にグルーピングして複数の監視データグループを形成する学習部、を備える。

　本発明の一態様の情報処理方法は、情報処理装置で行う情報処理方法において、アプリケーションプログラムのサービスに対する複数の回復作業について、各回復作業内容のパターンをそれぞれ認識し、前記複数の回復作業を回復作業内容のパターン毎にグルーピングして複数の回復作業グループを形成するステップと、前記複数の回復作業がそれぞれ行われる直前と直後にそれぞれ監視された前記サービスに関する複数の監視データについて、各監視内容のパターンをそれぞれ認識し、前記複数の監視データを監視内容のパターン毎にグルーピングして複数の監視データグループを形成するステップと、を行う。

　本発明の一態様の情報処理プログラムは、上記情報処理装置としてコンピュータを機能させる。

　本発明によれば、保守者の多大な労力がなくても回復作業による異常状態から正常状態への状態遷移をノウハウとして形式知化し、障害発生時等の回復の方針を策定可能な技術を提供できる。

図１は、サービス提供システムの構成を示す図である。図２は、サービス回復方法策定装置の機能ブロック構成を示す図である。図３は、回復アクションデータの保存処理を示す図である。図４は、回復アクションデータの具体例を示す図である。図５は、監視データの保存処理を示す図である。図６は、監視データと回復アクションデータの学習処理を示す図である。図７は、監視データと回復アクションデータの具体例を示す図である。図８は、監視データと回復アクションデータのグルーピング例を示す図である。図９は、学習結果データの具体例を示す図である。図１０は、回復方法の決定処理を示す図である。図１１は、回復方法の決定例を示す図である。図１２は、回復方法の表示例を示す図である。図１３は、サービス回復方法策定装置のハードウェア機能を示す図である。

　以下、図面を参照して、本発明の実施形態を説明する。図面の記載において同一部分には同一符号を付し説明を省略する。

　［発明の概要］
　本発明は、サービス障害と回復作業との事例を継続的に蓄積しておき、各事例が十分に蓄積された際に、各サービス障害と各回復作業とをそれぞれパターン認識してグルーピングし、サービス障害同士を回復作業を介して関連付けて予め学習しておく。そして、当該学習結果を用いて、発生したサービス障害に適した回復作業、つまり障害パターンに対応した回復アクションを保守者へ提示する。

　すなわち、本発明は、複数の回復作業と各回復作業の直前と直後の監視データとをそれぞれパターン認識してそれぞれグルーピングするので、グルーピングされた監視データグループ間における正常、異常の状態遷移を把握可能となることから、保守者の多大な労力がなくても回復作業による異常状態から正常状態への状態遷移をノウハウとして形式知化し、障害発生時等の回復の方針を策定できる。

　また、本発明は、回復作業によって直前の監視データが直後の監視データへ遷移することを踏まえ、複数の監視データグループの監視データグループ同士を回復作業グループを介して関連付けて学習しておくので、異常状態から正常状態への状態遷移をノウハウとして明瞭に形式知化し、障害発生時等の回復の方針を迅速に策定できる。

　［サービス提供システムの構成］
　図１は、サービス提供システム１の構成を示す図である。当該サービス提供システム１は、開発用装置１１と、実行部１２と、監視部１３と、流通部１４と、解析部１５と、サービス回復方法策定装置１６と、管理部１７と、を備える。

　開発用装置１１は、プログラム開発者がアプリケーションプログラムの開発作業を行うための開発環境用装置である。開発用装置１１は、プログラム開発者が作成したアプリケーションプログラム、一部の機能プログラム、サービス更新情報等を実行部１２と解析部１５へ送信する。

　実行部１２は、自部にインストールされたアプリケーションプログラムを実行し、当該アプリケーションプログラムで実行されるサービスをユーザへ提供する機能部である。サービスとは、例えば、階層化及び分散化された複数のコンポーネントのうち所定のコンポーネントを規定順に連携動作させることでサービスを提供するマイクロサービスである。

　監視部１３は、実行部１２が実行中のアプリケーションプログラムの動作を定期的に監視するアプリケーション監視を行い、当該アプリケーション監視で得られたアプリケーションプログラムのサービス動作情報を監視データとして保存する機能部である。

　また、監視部１３は、実行部１２のリソース（物理サーバ、仮想サーバ、コンテナ、ホスト、ＣＰＵ、ディスク、メモリ等）を定期的に監視するリソース監視を行い、当該リソース監視で得られたリソースのメトリクス情報（ＣＰＵ、メモリの使用率等）を監視データとして保存する機能部である。

　流通部１４は、監視部１３から監視データを取得し、当該監視データを解析部１５とサービス回復方法策定装置１６へ送信する機能部である。

　解析部１５は、開発用装置１１から送信された機能プログラムやサービス更新情報等を用いて、流通部１４から送信された監視データが正常か異常かを既存手法で解析し、当該監視データに対する正常又は異常の解析結果データをサービス回復方法策定装置１６と保守者へ送信する機能部である。

　サービス回復方法策定装置（情報処理装置）１６は、流通部１４及び解析部１５から送信された監視データ及び当該監視データに対する正常又は異常の解析結果データと、管理部１７から取得した異常の監視データに対して行われた過去の障害事例・対処方法データと、を関連付けて学習する装置である。

　また、サービス回復方法策定装置１６は、当該学習した学習結果データを用いて、将来発生するサービス障害に対応する回復方法を保守者へ提示する装置である。

　管理部１７は、保守者が入力したサービス障害発生時の回復作業や当該回復作業の作業開始及び作業完了の各タイムスタンプを障害事例・対処方法データとして保存する機能部である。

　［サービス回復方法策定装置の機能］
　図２は、サービス回復方法策定装置１６の機能ブロック構成を示す図である。当該サービス回復方法策定装置１６は、回復作業データ抽出部１６１と、回復作業データ時系列保存部１６２と、監視データ受信部１６３と、監視データ時系列保存部１６４と、回復方法学習部１６５と、回復方法決定部１６６と、回復方法出力部１６７と、を備える。

　回復作業データ抽出部１６１は、管理部１７から障害事例・対処方法データを取得し、当該障害事例・対処方法データから回復作業の内容を特徴付ける表現（以降、回復アクション）を抽出する機能部である。

　回復作業データ時系列保存部１６２は、回復作業の作業開始及び作業完了の各タイムスタンプを基に、複数の回復アクションデータを時系列に保存する機能部である。

　監視データ受信部１６３は、流通部１４から監視データを受信し、解析部１５から当該監視データに対する正常又は異常の解析結果を受信する機能部である。

　監視データ時系列保存部１６４は、監視データのタイムスタンプを基に、複数の監視データを時系列に保存する機能部である。

　回復方法学習部（学習部）１６５は、回復アクションデータ及び監視データが十分に蓄積された際に、回復作業データ時系列保存部１６２から複数の回復アクションデータを取得するとともに、監視データ時系列保存部１６４から複数の監視データを取得して、当該複数の監視データと当該複数の回復アクションデータとを関連付けて学習し、当該学習した学習結果データを保存する機能部である。

　具体的には、回復方法学習部１６５は、アプリケーションプログラムのサービスに対する複数の回復アクションについて、各回復アクション内容のパターンをそれぞれ認識し、複数の回復アクションを回復アクション内容のパターン毎にグルーピングして複数の回復アクショングループを形成し、複数の回復アクションがそれぞれ行われる直前と直後にそれぞれ監視された上記サービスに関する複数の監視データについて、各監視内容のパターンをそれぞれ認識し、複数の監視データを監視内容のパターン毎にグルーピングして複数の監視データグループを形成する機能を備える。

　また、回復方法学習部１６５は、回復アクションによって直前の監視データが直後の監視データへ遷移するように、複数の監視データグループの監視データグループ同士を回復アクショングループを介して関連付けた学習結果データを生成して保存する機能を備える。

　回復方法決定部（決定部）１６６は、解析部１５から監視データに対する正常又は異常の解析結果を受信し、解析結果が異常である異常の監視データを監視データ受信部１６３から取得し、回復方法学習部１６５の学習結果データを用いて、当該異常の監視データに関するサービス障害に対応する回復アクションデータを回復方法として決定する機能部である。

　具体的には、回復方法決定部１６６は、異常状態であると解析された異常の監視データについて、学習結果データから当該異常の監視データに合う監視データグループを検索し、決定した監視データグループから正常な監視データがグルーピングされた監視データグループへ遷移する１つ以上の経路を検索し、選択した経路上の回復アクショングループの回復アクションを回復方法として決定する機能を備える。

　回復方法出力部１６７は、回復方法決定部１６６が決定した回復方法を保守者の備える端末装置のディスプレイや印刷装置等へ出力する機能部である。

　［サービス提供システムの動作］
　［回復アクションデータの保存処理］
　図３は、回復アクションデータの保存処理を示す図である。

　ステップＳ１０１；
　まず、回復作業データ抽出部１６１は、管理部１７から障害事例・対処方法データを取得する。

　ステップＳ１０２；
　次に、回復作業データ抽出部１６１は、取得した障害事例・対処方法データから回復作業の内容を特徴付ける回復アクションデータを抽出する。管理部１７に保存されている障害事例・対処方法データは様々なフォーマットで入力されていると考えられるため、このステップでは、障害事例・対処方法データ間のフォーマットの差分を吸収して必要な回復アクションデータのみを抽出する。

　回復アクションデータとは、例えば、回復アクションの種類を示すアクション名称、回復アクションの対象を示す変数、である。回復アクションデータの具体例を図４に示す。アクション名称とは、例えば、（１）コンテナ、仮想マシンを別のホストへ移動する移行、（２）コンテナ、仮想マシン、ホスト等を増設するスケールアウト、（３）コンテナ、仮想マシン、ホスト等の性能を増強するスケールアップ、（４）過負荷なコンテナ、仮想マシン、ホストから負荷の少ないものへ処理を割り当てる負荷分散、（５）コンテナ、仮想マシン、ホスト等を再起動する再起動である。変数とは、例えば、アクション名称が移動である場合、移行対象（種別（コンテナ、仮想マシン）、コンポーネント名、ＩＰアドレス）、移行前の場所（ＩＰアドレス、リソース名）、移行後の場所である。その他のアクション名称に関する各変数については、図４に示す通りである。

　ステップＳ１０３；
　次に、回復作業データ抽出部１６１は、抽出した回復アクションデータ（アクション名称、変数）を回復作業データ時系列保存部１６２へ渡す。

　ステップＳ１０４；
　最後に、回復作業データ時系列保存部１６２は、渡された回復アクションデータを、当該回復アクションデータの回復アクションの作業開始及び作業完了の各タイムスタンプを基に、作業時間とともに、時系列に保存する。

　上記処理を繰り返し実行することにより、回復作業データ時系列保存部１６２には、複数の回復アクションデータ（アクション名称、変数、作業時間）が時系列に保存される。

　［監視データの保存処理］
　図５は、監視データの保存処理を示す図である。

　ステップＳ２０１；
　まず、監視データ受信部１６３は、流通部１４から監視データ（サービス動作情報、メトリクス情報）を受信する。

　ステップＳ２０２；
　次に、監視データ受信部１６３は、解析部１５から当該監視データに対する正常又は異常の解析結果を受信する。

　ステップＳ２０３；
　次に、監視データ受信部１６３は、受信した正常又は異常の解析結果に基づき、流通部１４から受信していた監視データに対して、正常又は異常のラベリング情報を付与する。

　ステップＳ２０４；
　次に、監視データ受信部１６３は、正常又は異常のラベリング情報が付与された監視データを監視データ時系列保存部１６４へ渡す。

　ステップＳ２０５；
　最後に、監視データ時系列保存部１６４は、渡された監視データを、当該監視データのタイムスタンプを基に、時系列に保存する。

　上記処理を繰り返し実行することにより、監視データ時系列保存部１６４には、複数の監視データ（サービス動作情報、メトリクス情報、正常又は異常のラベリング情報）が時系列に保存される。

　［監視データと回復アクションデータの学習処理］
　図６は、監視データと回復アクションデータの学習処理を示す図である。回復方法学習部１６５は、回復アクションデータ及び監視データが十分に蓄積された後、以降の処理を実行する。

　ステップＳ３０１；
　まず、回復方法学習部１６５は、回復作業データ時系列保存部１６２から複数の回復アクションデータ（アクション名称、変数、作業時間）の時系列データを取得する。

　ステップＳ３０２；
　次に、回復方法学習部１６５は、監視データ時系列保存部１６４から複数の監視データ（サービス動作情報、メトリクス情報、正常又は異常のラベリング情報）の時系列データを取得する。

　ステップＳ３０３；
　次に、回復方法学習部１６５は、取得した複数の回復アクションデータの時系列データと取得した複数の監視データの時系列データとを用いて、複数の監視データと複数の回復アクションデータとを関連付けて学習する。以降、学習方法について説明する。

　まず、回復方法学習部１６５は、回復アクションデータと、当該回復アクションデータの回復アクションが発生する直前の監視データと、当該回復アクションデータの回復アクションが完了した直後の監視データとを、当該回復アクションデータの「実績」として保存する。

　例えば、図７に示すように、「１の直前監視データ」に対して、「ｉの回復アクション」が実施され、「Ａの直後監視データ」が得られていた場合、「１の直前監視データ」と「ｉの回復アクション」と「Ａの直後監視データ」とを関連付けて「実績データ」として保存する。非特許文献１に開示されたカオスエンジニアリングのツールを用いて障害に対する保守演習を継続的に行うことで、無数の回復アクションに対する「実績データ」が蓄積される。

　次に、十分な量の「実績データ」が蓄積された後、回復方法学習部１６５は、複数の回復アクションデータにそれぞれ含まれる各回復アクションの回復アクションパターン（移行、スケールアウト、スケールアップ、負荷分散、再起動等）を把握するパターン認識を行い、複数の回復アクションデータを回復アクションパターン毎に分類するグルーピングを行う。グルーピングの具体例を図８に示す。

　同様に、回復方法学習部１６５は、複数の監視データ（直前と直後の両方を含む）にそれぞれ含まれる各監視データの監視データパターン（サービス動作情報の内容、メトリクス情報の内容（ＣＰＵの使用率等）、正常又は異常のラベリング情報等）を把握するパターン認識を行い、複数の監視データを監視データパターン毎に分類するグルーピングを行う。

　なお、グルーピングは回復アクションデータや監視データのフォーマット等に合わせて、一般的なクラスタリング手法等を用いる。

　そして、回復アクションによって直前の監視データが直後の監視データへ遷移すると考えられるため、回復方法学習部１６５は、「実績データ」より、回復アクションによる直前の監視データから直後の監視データへの遷移関係を把握し、グルーピングされた各監視データグループについて当該遷移関係を基に監視データグループ同士を遷移元・遷移先が把握できるように矢印線で接続する。

　例えば、図９に示すように、回復アクショングループ２を介して、監視データグループ１に含まれる監視データを監視データグループ４に含まれる監視データへ遷移させる。その結果、「回復アクショングループ」を遷移アークとし、「監視データグループ」をノードとする有向グラフが生成される。

　ステップＳ３０４；
　最後に、回復方法学習部１６５は、生成した有向グラフを学習結果データとして保存する。当該学習結果データは、将来発生するサービス障害に対して回復方法を決定する際に用いられる。

　［回復方法の決定処理］
　次に、将来発生するサービス障害に対する回復方法の決定方法について説明する。

　まず、上記学習結果データの性質について説明する。学習結果データは、将来発生するサービス障害に応じた回復方法を決定するための実績ノウハウを有向グラフとして一般化したものである。回復方法の決定（つまり、経路の決定）は、異常状態の監視データグループから正常状態の監視データグループまでの経路の探索問題となる。また、経路を形成する遷移アークは必ず回復アクショングループと紐づいており、当該回復アクショングループに含まれる回復アクションの作業時間や回復アクショングループの総数等をコスト（重み）として定義し、当該コストを用いて経路全体のコストを算出する。

　例えば、実績ノウハウＧを（Ｖ，Ｅ）とする。Ｖは、ノードであり監視データグループｕの集合である。Ｅは、遷移アークである。遷移アークＥは、必ず回復アクショングループを持つ。遷移アークＥに対して作業時間等の重みｗを与えることで、回復アクショングループのコストを表現する。始点となる監視データグループｕ_１∈Ｖから正常状態の監視データグループｕ_２∈Ｖまでの経路を探索することで回復方法を決定し、探索した経路を形成する全ての遷移アークＥの重みｗを合計して当該経路全体のコストを評価する。以降、回復方法の決定処理について説明する。

　図１０は、回復方法の決定処理を示す図である。

　ステップＳ４０１；
　まず、流通部１４は、監視部１３から取得した監視データを解析部１５と監視データ受信部１６３へ送信する。

　ステップＳ４０２；
　次に、解析部１５は、送信された監視データが正常か異常かを解析する。

　ステップＳ４０３；
　次に、解析部１５は、解析した正常又は異常の解析結果データを監視データ受信部１６３と回復方法決定部１６６へ送信する。その後、監視データ受信部１６３は、正常又は異常のラベリング情報を付与した監視データを監視データ時系列保存部１６４に保存し、回復方法学習部１６５は、監視データ及び当該監視データに対する過去の回復アクションを用いて学習結果データを生成（更新）する。当該学習結果データの生成方法は、既に説明した通りである。

　ステップＳ４０４；
　次に、回復方法決定部１６６は、送信された正常又は異常の解析結果データの中から異常の解析結果を有する異常の監視データを監視データ受信部１６３から取得する。

　ステップＳ４０５；
　次に、回復方法決定部１６６は、回復方法学習部１６５から学習結果データを取得する。

　ステップＳ４０６；
　次に、回復方法決定部１６６は、取得した学習結果データを用いて、取得していた異常の監視データに関するサービス障害に対応する回復作業を回復方法として決定する。以降、回復方法の決定方法について説明する。

　このステップでは、サービス障害発生時に、当該サービス障害を回復するために適切と考えられる回復アクションを決定する。つまり、予め生成していた学習結果データと、サービス障害発生時の監視データと、を照合し、経路上のコストを評価した上で回復アクションの計画を導出する。

　まず、回復方法決定部１６６は、取得していた異常の監視データに含まれる監視データパターンを把握するパターン認識を行い、当該異常の監視データが、学習結果データ内の複数の監視データグループのうちどの監視データグループに最もよく当てはまるかを検索する。図１１の例では、当該異常の監視データに最も類似する監視データグループとして、監視データグループ１が検索されている。

　次に、回復方法決定部１６６は、検索した監視データグループから正常状態の監視データグループへ至るまでの全ての経路を検索する。図１１の例では、異常状態の監視データグループ１から正常状態の監視データグループ４への経路として、回路アクショングループ２を経由する経路１と、回復アクショングループ１及び回復アクショングループ３を経由する経路２と、の２つの経路が検索されている。

　そして、回復方法決定部１６６は、検索した全ての経路をコスト（作業時間）の小さい順にソートして回復方法として決定する。例えば、経路１の回復アクショングループ２に含まれる回復アクションの作業時間が３０分であり、経路２の回復アクショングループ１と回復アクショングループ３とに含まれる回復アクションの総作業時間が３５分である場合、経路１、経路２の順にソートする。１つの経路が１つの回復方法となる。また、１つの経路に含まれる全ての回復アクショングループが回復手順となる。

　ステップＳ４０７；
　次に、回復方法決定部１６６は、検索した全ての回復方法（１つ以上の経路）を含む回復方法データを回復方法出力部１６７へ渡す。

　ステップＳ４０８；
　最後に、回復方法出力部１６７は、渡された回復方法データに含まれる各回復方法を、回復手順とともに、コスト（作業時間）の小さい順に上から、保守者の備える端末装置のディスプレイへ表示する。

　例えば、図１２に示すように、図１１に示していた経路１を１番目の回復方法とし、「回復アクショングループ２の回復アクションのみ」を回復手順として、作業完了推定時間や回復作業実績詳細へのリンク先とともに、表示する。経路１よりもコストの大きい経路２については、２番目の回復方法とし、「回復アクショングループ１の回復アクション→回復アクショングループ３の回復アクション」を回復手順として、表示する。作業完了推定時間については、例えば、回復アクショングループに含まれる全ての回復アクションの作業時間の平均時間とする。回復作業実績詳細へのリンク先の情報については、回復アクションに対応する過去の回復作業とする。

　（変形例）
　ステップＳ４０６では、作業時間をコストとし、作業時間の大小に基づき各回復方法の表示順を決定していた。作業時間の他、経路上の回復アクショングループの総数をコストとし、回復アクショングループの総数の大小に基づき表示順を決定してもよい。図１１の例では、経路１の回復アクショングループの総数は１つであり、経路２の回復アクショングループの総数は２つであるため、経路１、経路２の順に上から表示する。

　［効果］
　本実施形態によれば、回復方法学習部１６５が、アプリケーションプログラムのサービスに対する複数の回復アクションについて、各回復アクション内容のパターンをそれぞれ認識し、複数の回復アクションを回復アクション内容のパターン毎にグルーピングして複数の回復アクショングループを形成し、複数の回復アクションがそれぞれ行われる直前と直後にそれぞれ監視された上記サービスに関する複数の監視データについて、各監視内容のパターンをそれぞれ認識し、複数の監視データを監視内容のパターン毎にグルーピングして複数の監視データグループを形成するので、グルーピングされた監視データグループ間における正常、異常の状態遷移を把握可能となることから、保守者の多大な労力がなくても回復作業による異常状態から正常状態への状態遷移をノウハウとして形式知化し、障害発生時等の回復の方針を策定できる。

　また、本実施形態によれば、回復方法学習部１６５が、回復アクションによって直前の監視データが直後の監視データへ遷移するように、複数の監視データグループの監視データグループ同士を回復アクショングループを介して関連付けた学習結果データを生成するので、異常状態から正常状態への状態遷移をノウハウとして明瞭に形式知化し、障害発生時等の回復の方針を迅速に策定できる。

　［その他］
　本発明は、上記実施形態に限定されない。本発明は、本発明の要旨の範囲内で数々の変形が可能である。

　上記説明した本実施形態のサービス回復方法策定装置１６は、例えば、図１３に示すように、ＣＰＵ９０１と、メモリ９０２と、ストレージ９０３と、通信装置９０４と、入力装置９０５と、出力装置９０６と、を備えた汎用的なコンピュータシステムを用いて実現できる。メモリ９０２及びストレージ９０３は、記憶装置である。当該コンピュータシステムにおいて、ＣＰＵ９０１がメモリ９０２上にロードされた所定のプログラムを実行することにより、サービス回復方法策定装置１６の各機能が実現される。

　サービス回復方法策定装置１６は、１つのコンピュータで実装されてもよい。サービス回復方法策定装置１６は、複数のコンピュータで実装されてもよい。サービス回復方法策定装置１６は、コンピュータに実装される仮想マシンであってもよい。サービス回復方法策定装置１６用のプログラムは、ＨＤＤ、ＳＳＤ、ＵＳＢメモリ、ＣＤ、ＤＶＤ等のコンピュータ読取り可能な記録媒体に記憶できる。サービス回復方法策定装置１６用のプログラムは、通信ネットワークを介して配信することもできる。

　１：サービス提供システム
　１１：開発用装置
　１２：実行部
　１３：監視部
　１４：流通部
　１５：解析部
　１６：サービス回復方法策定装置
　１７：管理部
　１６１：回復作業データ抽出部
　１６２：回復作業データ時系列保存部
　１６３：監視データ受信部
　１６４：監視データ時系列保存部
　１６５：回復方法学習部
　１６６：回復方法決定部
　１６７：回復方法出力部
　９０１：ＣＰＵ
　９０２：メモリ
　９０３：ストレージ
　９０４：通信装置
　９０５：入力装置
　９０６：出力装置

Claims

　アプリケーションプログラムのサービスに対する複数の回復作業について、各回復作業内容のパターンをそれぞれ認識し、前記複数の回復作業を回復作業内容のパターン毎にグルーピングして複数の回復作業グループを形成し、前記複数の回復作業がそれぞれ行われる直前と直後にそれぞれ監視された前記サービスに関する複数の監視データについて、各監視内容のパターンをそれぞれ認識し、前記複数の監視データを監視内容のパターン毎にグルーピングして複数の監視データグループを形成する学習部、
　を備える情報処理装置。
　前記学習部は、
　回復作業によって直前の監視データが直後の監視データへ遷移するように、前記複数の監視データグループの監視データグループ同士を前記回復作業グループを介して関連付けた学習結果データを生成する請求項１に記載の情報処理装置。
　異常状態であると解析された異常の監視データについて、前記学習結果データから前記異常の監視データに合う監視データグループを検索し、決定した監視データグループから正常な監視データがグルーピングされた監視データグループへ遷移する１つ以上の経路を検索し、選択した経路上の回復作業グループの回復作業を回復方法として決定する決定部、
　を更に備える請求項２に記載の情報処理装置。
　情報処理装置で行う情報処理方法において、
　アプリケーションプログラムのサービスに対する複数の回復作業について、各回復作業内容のパターンをそれぞれ認識し、前記複数の回復作業を回復作業内容のパターン毎にグルーピングして複数の回復作業グループを形成するステップと、
　前記複数の回復作業がそれぞれ行われる直前と直後にそれぞれ監視された前記サービスに関する複数の監視データについて、各監視内容のパターンをそれぞれ認識し、前記複数の監視データを監視内容のパターン毎にグルーピングして複数の監視データグループを形成するステップと、
　を行う情報処理方法。
　請求項１乃至３のいずれかに記載の情報処理装置としてコンピュータを機能させる情報処理プログラム。