WO2016013056A1 - 計算機システムを管理する方法 - Google Patents
計算機システムを管理する方法 Download PDFInfo
- Publication number
- WO2016013056A1 WO2016013056A1 PCT/JP2014/069293 JP2014069293W WO2016013056A1 WO 2016013056 A1 WO2016013056 A1 WO 2016013056A1 JP 2014069293 W JP2014069293 W JP 2014069293W WO 2016013056 A1 WO2016013056 A1 WO 2016013056A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- plan
- analysis rule
- rule
- general
- analysis
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
Abstract
管理システムは、計算機システムの構成情報と、それぞれが、計算機システムで発生し得る1つ以上の条件イベントと、1以上の条件イベントの障害原因とされる結論イベントと、の関係を、構成要素種別によって示す、複数汎用ルールを保持する。管理システムは、計算機システムの構成変更の操作の実行を契機に、当該操作の対象の種別を結論イベントに含む第1汎用ルールを選択する。管理システムは、構成情報に基づき、第1汎用ルールを、1つ以上の条件イベントと結論イベントとの関係を構成要素識別子で示す第1解析ルール、に変換する。管理システムは、計算機システムにおいて障害が発生した場合に、障害原因を特定するために、第1解析ルールを参照する。
Description
本発明は、計算機システムを管理する方法に関する。
本技術分野の背景技術として、米国特許7107185号(特許文献1)がある。この文献には、「コンピュータ可読媒体上のコンピュータ実装方法は、症状に基づいて管理されたコンポーネントの複雑なシステムにおける問題の原因を決定するために提供される。問題元特定プロセスは、様々な活動に分割される。管理されるコンポーネント、それらの問題、症状、そして問題又は症状が伝搬する関係の種類の明示的構造非特異表現が生成され、実行可能なコンピュータコードによって操作することができる。データ構造は、システム内の管理されたコンポーネントの特定インスタンスの情報に基づいて、1又は複数の表現を組み合わせることによって、問題の原因を決定するために生成される。コンピュータ・コードが実行され、データ構造体を使用して1又は複数の症状から問題の原因を決定する。」と記載されている(要約参照)。
本技術分野の背景技術として、特開2010-86115号(特許文献2)がある。この文献には、「運用管理サーバにて、イベント情報取得対象の情報処理装置をイベント取得対象装置として構成情報に登録し、運用管理サーバに格納した複数のイベント情報か ら、予め格納したルールに適合するイベント情報を特定し、当該イベント情報が関連するネットワークサービスのサーバ装置を特定し、イベント情報を生成した クライアント情報処理装置で発生した当該イベントの要因がサーバ装置で発生したネットワークサービスに関するイベントであることを表示する。」と記載されている(要約参照)。
本技術分野の背景技術として、国際公開2013/046287号(特許文献3)がある。この文献には、「大規模又は多数のイベント伝播モデルが必要な複雑な計算機システムを解析する際の因果律行列のサイズが大きくなり、管理計算機の記憶資源を大量に消費して いた。以上の課題を解決するため、計算機システムを管理する管理計算機は、トポロジと、イベント伝播モデルと、一つ以上の因果律を含む因果律情報と、を記 憶資源に格納し、管理計算機がイベントを解析又は検知した契機で、解析対象イベントに対応する所定の因果律が作成済みか否か判断し、未作成の場合はトポロジとイベント伝播モデルとに基づいて前記所定の因果律を作成する。」と記載されている(要約参照)。
特許文献1や特許文献2のようなEvent Correlation技術により障害を特定する場合、障害の影響が装置間でどのように波及するかを表したデータ構造を、装置間の接続関係に応じて予め構築できていないと、短時間で障害原因を特定できない。
特許文献3は、障害発生時に障害の発生した装置に限定してデータ構造を構築しており、構築に要する時間自体は特許文献1や特許文献2に対して短くできる。しかし、特許文献3は、データ構造の構築を障害発生時に実施するために、障害が発生した時点で迅速に原因を特定できない。
したがって、これら既存の公知技術を利用しても、障害発生時に迅速に障害回復を実現できないことが多く、運用管理者が障害からの回復を試みる場合のコスト増加を招き得る。
本発明の代表的な一例は、監視の対象である複数ノード装置を含む計算機システムに接続された管理システムが、前記計算機システムを管理する方法である。前記管理システムは、前記計算機システムの構成情報と、それぞれが、前記計算機システムで発生し得る1つ以上の条件イベントと、当該1以上の条件イベントの障害原因とされる結論イベントと、の関係を、構成要素種別によって示す、複数汎用ルールを保持する。前記方法は、前記管理システムが、前記計算機システムの構成変更の操作の実行を契機に、当該操作の対象の種別を結論イベントに含む第1汎用ルールを、前記複数汎用ルールから選択し、前記管理システムが、前記構成情報に基づき、前記第1汎用ルールを、1つ以上の条件イベントと結論イベントとの関係を構成要素識別子で示す第1解析ルール、に変換し、前記管理システムが、前記計算機システムにおいて障害が発生した場合に、障害原因を特定するために、前記第1解析ルールを参照する、ことを含む。
本発明の一態様は、障害が発生した際に、障害原因を迅速に特定できる。
以下、本発明の実施例を図面により詳細に説明する。尚、本発明は、以下で説明される実施形態に限定されるものではない。なお、以後の説明では「aaa表」、「aaaリスト」、「aaaDB」、「aaaキュー」等の表現にて本発明の情報を説明するが、これら情報はテーブル、リスト、DB、キュー、等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「aaaテーブル」、「aaaリスト」、「aaaDB」、「aaaキュー」等について「aaa情報」と呼ぶことがある。さらに、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いるが、これらについてはお互いに置換が可能である。
以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御デバイス)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。
また、各種プログラムはプログラム配布サーバや、計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。
以後、情報処理システムを管理し、本願発明の表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理計算機が表示用情報を表示する場合は管理計算機が管理システムである、また、管理計算機と表示用計算機の組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合は当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含め)が管理システムである。
以後、情報処理システムを管理し、本願発明の表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理計算機が表示用情報を表示する場合は管理計算機が管理システムである、また、管理計算機と表示用計算機の組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合は当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含め)が管理システムである。
本実施形態は、計算機システムの障害を管理する技術に関する。管理システムは、計算機システムに発生する障害の影響波及ルールと、発生した障害に対して実施するプランを事前に形式化しておく。形式化された影響波及ルールを汎用ルール、形式化されたプランを汎用プランとも呼ぶ。汎用ルール及び汎用プランは、構成要素種別によって定義される。
計算機システムにおいて構成変更が実施された場合、管理システムは、構成変更に関係のある汎用ルールを、計算機システムの実際の接続関係に合わせて変換し、計算機システムの構成に即した影響波及ルールを作成する。当該ルールを、解析ルールとも呼ぶ。解析ルールは、計算機システムの構成要素識別子によってルールを示す。
さらに、管理システムは、解析ルールにより指示される障害原因装置において障害が発生したと仮定し、障害回復のための実際の対処プランを、汎用プランと実際の計算機システム構成に基づいて作成する。対処プランは、計算機システムの構成要素識別子によってプランを示す。
障害の発生時、管理システムは、構成変更時に事前に作成した解析ルールから、実際の障害発生状況と合致している解析ルールを選択し、選択した解析ルールにより障害原因を特定する。管理システムは、特定した障害原因に対応する対処プランを、構成変更時に事前に作成した対処プランから選択し、ユーザである運用管理者に提示する。
計算機システムの構成が変更された場合、当該変更部分に起因して障害が発生する可能性が高い。本実施形態は、構成に関連する操作が実施された場合に、障害原因を特定して対策を講じる情報を、操作実施部分について予め用意する。したがって、障害が発生した際に、障害原因と障害原因を解消するための対処プランを、運用管理者に迅速に提示することができ、運用管理者が障害から回復するためのプランを選択して実行した場合に、障害回復までの時間を短縮できる。
実施例1は、管理ソフトウェア(例えば、管理サーバ計算機において実行される)による障害原因候補の表示と、その原因候補から導出される障害回復手順の表示を記述する。
<システム構成>
図1は、実施例1による計算機システムの概念を示す。当該計算機システムは、管理対象計算機システム11と、計算機システム11に対してネットワーク介して接続された管理サーバ計算機10とを含んで構成される。
図1は、実施例1による計算機システムの概念を示す。当該計算機システムは、管理対象計算機システム11と、計算機システム11に対してネットワーク介して接続された管理サーバ計算機10とを含んで構成される。
本開示において、各モジュールはメモリのソフトウェアモジュールとして提供されてもよいし、ハードウェアモジュールとして提供されてもよい。また、各モジュールが行う処理が一つ以上のプログラムコードとして提供されてもよく、モジュール間の明確な境界が存在しなくてもよい。モジュールは、プログラムと読み替えてもよい。
メインモジュール100は、各モジュールの動作を制御する他、リポジトリを管理する。装置性能取得モジュール110と構成情報取得モジュール120とは、管理対象計算機システム11を監視している。構成情報取得モジュール120は、管理対象計算機システム11の構成が変更される度、構成情報リポジトリ130において、管理対象計算機システム11の構成情報を更新する。
構成変更実行モジュール145は、管理対象計算機システム11に対して構成の変更を指示する。構成変更実行モジュール145は、管理対象計算機システム11における構成変更が発生すると、解析ルールを作成するため、ルール変換モジュール150を呼び出す。
なお、構成変更実行モジュール145が直接ルール変換モジュール150を呼び出してもよいし、後述するように、他のモジュールを介してルール変換モジュール150を呼び出してもよい。例えば、メインモジュール100に構成変更を通知し、当該メインモジュール100がルール変換モジュール150を呼び出してもよい。モジュールの呼び出しは、他のモジュールについて同様である。
障害波及関係は予め定義されており、汎用ルールとしてルール化され、汎用ルールリポジトリ155に格納されている。ルール変換モジュール150は、構成情報リポジトリ130が示す構成変更に関係のある汎用ルールを汎用ルールリポジトリ155から選択し、計算機システムの実際の接続関係に合わせて変換し、解析ルールを作成する。解析ルールは、解析ルールリポジトリ165に格納される。
ルール変換モジュール150は、対処プランを作成するため、プラン変換モジュール180を呼び出す。障害と対応するプランとの関係は、あらかじめ汎用プランとして形式化されている。汎用プランは、汎用プランリポジトリ160に格納されている。プラン変換モジュール180は、解析ルールにより指示される障害原因装置において障害が発生したと仮定し、障害回復のための対処プランを、汎用プランと構成情報リポジトリ130の構成情報に基づいて作成する。対処プランは、対処プランリポジトリ170に格納される。
装置性能取得モジュール110は、動作中の管理対象計算機システム11から、装置性能についての情報を随時取得する。装置性能取得モジュール110は、取得している性能情報から、管理対象計算機システム11に障害が発生していることを検知すると、原因特定のために障害原因特定モジュール140を呼び出す。
障害原因特定モジュール140は、予め作成されている解析ルールと装置性能取得モジュール1110が検知した障害事象とを利用することにより、障害原因の候補を特定する。
プラン選択モジュール175は、予め作成されている対処プランから、障害原因特定モジュール140が特定した原因候補に対応する対処プランを選択する。画像表示モジュール190は、運用管理者に障害原因候補と、その候補に対応する対処プランを併せて表示する。
図2は、本実施例における計算機システムの物理的構成例を示す。管理サーバ計算機10は、計算機システムの運用を管理する。計算機システムは、ストレージ装置211、212、ホスト計算機241から243、管理サーバ計算機10、WEBブラウザ起動サーバ計算機250と、IPスイッチ221、222とを含み、それらが、ネットワーク230によって接続される。なお、図2に存在する装置の一部のみが存在し、又、図2に存在する装置が部分的に接続されていてもよい。
ホスト計算機241から243は、例えば、それらに接続された、図示しないクライアント計算機からファイルのI/O要求を受信し、それに基づいてストレージ装置211、212へアクセスする。ホスト計算機241から243は、それらが互いにネットワーク230を介してプログラム間で通信を実施し、ファイルを交換する。そのために、ホスト計算機241から243は、ネットワーク230に接続するためのポート251から253をそれぞれ有する。
WEBブラウザ起動サーバ計算機250は、ネットワーク230を介して、管理サーバ計算機10の画像表示モジュール190と通信し、WEBブラウザ上に各種情報を表示する。図1に記載している画像表示モジュール190は、画像データを生成し、WEBブラウザ上で表示するために、WEBブラウザ起動サーバ計算機250に画像データを送信する。
ユーザはWEBブラウザ起動サーバ計算機250上のWEBブラウザに表示された情報を参照することで、計算機システム内の装置を管理する。管理サーバ計算機10と、WEBブラウザ起動サーバ計算機250とは、1台の計算機で構成されていてもよい。
<状況>
図3は、実施例1で説明する状況を示す概念図である。図3において、IPスイッチIPSW1およびIPSW2は、それぞれ図2におけるIPスイッチ221およびIPスイッチ222に対応する。IPスイッチ221は、ネットワーク230に接続するためのポート351から353を、IPスイッチ222は、ネットワーク230に接続するためのポート354、355を有する。Server10、Server11、Server20は、それぞれ、図2におけるホスト計算機241から243を示しており、それぞれポート251から253を介してネットワーク230に接続している。
図3は、実施例1で説明する状況を示す概念図である。図3において、IPスイッチIPSW1およびIPSW2は、それぞれ図2におけるIPスイッチ221およびIPスイッチ222に対応する。IPスイッチ221は、ネットワーク230に接続するためのポート351から353を、IPスイッチ222は、ネットワーク230に接続するためのポート354、355を有する。Server10、Server11、Server20は、それぞれ、図2におけるホスト計算機241から243を示しており、それぞれポート251から253を介してネットワーク230に接続している。
この実施例で説明する状況では、それぞれのホスト計算機241から243上では、仮想化機構が動作しており、それぞれHOST10からHOST13で示される仮想マシン(VM)310から313が動作している。図示していないが、HOST10からHOST13のVM310から313上には、OSがインストールされ、その上でウェブサービスが動作しているものとする。
<管理サーバ計算機の内部構成>
図2に示すように、管理サーバ計算機10は、ネットワーク230に接続するためのポート203、プロセッサ201、キャッシュメモリ等のメモリ202、HDD等の二次メモリ204、を含む。メモリ202及び二次メモリ204は、それぞれ、揮発性メモリデバイス及び/又は不揮発性メモリデバイスで構成される。
図2に示すように、管理サーバ計算機10は、ネットワーク230に接続するためのポート203、プロセッサ201、キャッシュメモリ等のメモリ202、HDD等の二次メモリ204、を含む。メモリ202及び二次メモリ204は、それぞれ、揮発性メモリデバイス及び/又は不揮発性メモリデバイスで構成される。
管理サーバ計算機10は、さらに、後述する処理結果を出力するためのディスプレイ装置等の出力デバイス205と、ストレージ管理者が指示を入力するためのキーボード等の入力デバイス206とを含む。これらは、内部バスを介して相互に接続されている。
メモリ202は、図1に示すモジュール及びデータに加え、他のモジュール及びデータを格納している。具体的には、メモリ202は、装置性能管理表40、ファイルトポロジ管理表45、ネットワークトポロジ管理表50、VM構成管理表55、イベント管理表60、を格納する。
メモリ202は、さらに、解析結果管理表75、ルール・プラン対応管理表90、操作実行履歴キュー95を格納する。図1における構成情報リポジトリ1130は、ファイルトポロジ管理表45、ネットワークトポロジ管理表50、VM構成管理表55を格納する。構成情報リポジトリ1130は、さらに、不図示の装置管理表を保持し、装置管理表は、装置それぞれの装置部位を示す。
画像表示モジュール190は、入力デバイス206を介した管理者からの要求に応じ、取得した構成管理情報を出力デバイス205によって表示する。入力デバイスと出力デバイスは別々なデバイスでもよく、一つ以上のまとまったデバイスでもよい。
管理サーバ計算機10は、例えば、入力デバイス206としてキーボードとポインタデバイス等、出力デバイス205としてディスプレイやプリンタ等とを有しているが、これ以外の装置であってもよい。
管理サーバ計算機10が表示用情報を表示する場合は、管理サーバ計算機10が管理システムであり、また、管理サーバ計算機10と表示用計算機(例えば図2のWEBブラウザ起動サーバ計算機250)の組み合わせも管理システムである。
<装置性能管理表の構成>
図4は、管理サーバ計算機10が有する装置性能管理表40の構成例を示す。フィールド401は、管理対象となる機器の識別子である装置IDを格納する。フィールド402は、管理対象機器内部の部位の識別子である装置部位IDを格納する。フィールド403は、管理対象装置部位の性能情報のメトリック名称を格納する。フィールド404は、閾値異常を検知した機器のOS種別を格納する。閾値異常を検知した機器は、閾値に基づいて異常であると判定された機器である。
図4は、管理サーバ計算機10が有する装置性能管理表40の構成例を示す。フィールド401は、管理対象となる機器の識別子である装置IDを格納する。フィールド402は、管理対象機器内部の部位の識別子である装置部位IDを格納する。フィールド403は、管理対象装置部位の性能情報のメトリック名称を格納する。フィールド404は、閾値異常を検知した機器のOS種別を格納する。閾値異常を検知した機器は、閾値に基づいて異常であると判定された機器である。
フィールド405は、管理対象装置から取得された、該当装置の装置部位の性能値を格納する。フィールド406は、性能値の正常範囲の上限もしくは下限である閾値(アラート実行閾値)を、ユーザからの入力を受けて格納する。フィールド407は、閾値が正常値の上限であるのか下限であるのかを示す。フィールド408は、性能値についての装置部位の状態を示し、性能値が正常値であるか異常値であるかを示す。
例えば、図4の第1行目(1つ目のエントリ)は、以下のことを示す。HOST11上で動作するWebService1におけるレスポンスタイムが、現時点で、1500msec(フィールド405参照)である。WebService1のレスポンスタイムが10msecを超えた場合(フィールド406参照)に、管理サーバ計算機10はWebService1が過負荷であると判定する。
さらに、当該具体例では、性能値が異常値であると判定されている(フィールド408参照)ことが分かる。この値が異常値であると判定した場合、管理サーバ計算機10は、後述のイベント管理表60に、イベントとして異常状態を書きこむ。
なお、図4では、管理サーバ計算機10が管理するデバイスの性能値としてレスポンスタイムや単位時間当たりのI/O量やI/Oエラー率を例として挙げられているが、管理サーバ計算機10が管理する性能値はこれ以外でもよい。
<ファイルトポロジ管理表の構成>
図5は、管理サーバ計算機10の有するファイルトポロジ管理表45の構成例を示す。ファイルトポロジ管理表45は、ボリュームとファイルシステムとの間の関係を示す。フィールド451は、ホストの識別子であるホストIDを格納する。ホストは、物理計算機又は仮想計算機である。
図5は、管理サーバ計算機10の有するファイルトポロジ管理表45の構成例を示す。ファイルトポロジ管理表45は、ボリュームとファイルシステムとの間の関係を示す。フィールド451は、ホストの識別子であるホストIDを格納する。ホストは、物理計算機又は仮想計算機である。
フィールド452は、ホストが有するボリュームの識別子であるボリュームIDを格納する。フィールド453は、ボリュームがホスト上でマウントされているときの識別名称であるパス名を示す。
フィールド454は、ホストが他のホストにパス名で示されるファイルシステムを公開している場合に、その公開先のエキスポート先ホストを示す。フィールド455は、エキスポート先ホストにおいて当該ファイルシステムがマウントされているパス名を示す。
例えば、図5の第1行目(1つ目のエントリ)は、以下のことを示す。ホストIDがHOST10のホストは、ボリュームVOL101を、/var/www/dataというパス名のパスにマウントしている。
上記パス名のファイルシステムは、HOST11、HOST12、HOST13で示されるホストに公開されている。それぞれのホストにおいて、ボリュームVOL101を、は、/mnt/www/data、/var/www/data、¥¥host1¥www_dataのパス名のパスにマウントされている。
<ネットワークトポロジ管理表の構成>
図6は、管理サーバ計算機10の有するネットワークトポロジ管理表50の構成例を示す。フィールド501は、ネットワーク装置であるIPスイッチの識別子である装置IDを格納する。フィールド502は、IPスイッチが有するポートの識別子であるポートIDを格納する。フィールド503は、ポートが接続されている装置のIDを示す。フィールド504は、接続先装置における接続されているポートのIDを示す。
図6は、管理サーバ計算機10の有するネットワークトポロジ管理表50の構成例を示す。フィールド501は、ネットワーク装置であるIPスイッチの識別子である装置IDを格納する。フィールド502は、IPスイッチが有するポートの識別子であるポートIDを格納する。フィールド503は、ポートが接続されている装置のIDを示す。フィールド504は、接続先装置における接続されているポートのIDを示す。
例えば、図6の第1行目(1つ目のエントリ)は、以下のことを示す。装置IDがIPSW1であるIPスイッチの、ポートIDがポート1であるポートが、装置IDがServer10であるサーバの、ポートIDがポート101であるポートに接続している。
<VM構成管理表の構成>
図7は、管理サーバ計算機10の有するVM構成管理表55の構成例を示す。フィールド551は、仮想マシン(VM)が動作する物理マシンのIDを格納する。フィールド552は、物理マシンで動作している仮想マシンのホストIDを格納する。
図7は、管理サーバ計算機10の有するVM構成管理表55の構成例を示す。フィールド551は、仮想マシン(VM)が動作する物理マシンのIDを格納する。フィールド552は、物理マシンで動作している仮想マシンのホストIDを格納する。
例えば、図7の第1行目(1つ目のエントリ)は、以下のことを示す。物理マシンIDがServer10である物理サーバ上では、ホストIDがHOST10である仮想マシンが動作している。
<イベント管理表の構成>
図8は、管理サーバ計算機10が有するイベント管理表60の構成例を示す。イベント管理表60は、後述する障害原因の特定及び解析ルールの生成において適宜参照される。フィールド601は、イベントの識別子であるイベントIDを格納する。イベントは、例えば、取得した性能値における閾値異常である。フィールド602は、イベントの発生した機器の識別子である装置IDを格納する。フィールド603は、イベントの発生した機器内の部位の識別子を格納する。
図8は、管理サーバ計算機10が有するイベント管理表60の構成例を示す。イベント管理表60は、後述する障害原因の特定及び解析ルールの生成において適宜参照される。フィールド601は、イベントの識別子であるイベントIDを格納する。イベントは、例えば、取得した性能値における閾値異常である。フィールド602は、イベントの発生した機器の識別子である装置IDを格納する。フィールド603は、イベントの発生した機器内の部位の識別子を格納する。
フィールド604は、イベントを検知したメトリックの名称を格納する。フィールド605は、イベントが検知された機器のOS種別を格納する。フィールド606は、機器内の部位のイベント発生時の状態を格納する。フィールド607は、イベントが解析済みかどうかを示す。フィールド608は、イベントが発生した日時を格納する。
例えば、図8の第1行目(1つ目のエントリ)は、以下のことを示す。管理サーバ計算機10が、HOST11上で動作するWebService1におけるレスポンスタイムの閾値異常を検知し、そのイベントIDはEV1である。
<汎用ルールの構成>
図9A、9Bは、管理サーバ計算機10が有する汎用ルールリポジトリ155内の汎用ルールの構成例を示す。図9A、9Bは、異なる汎用ルール示し、これらは、同様の構成を有する表65A、65Bでそれぞれ表わされている。
図9A、9Bは、管理サーバ計算機10が有する汎用ルールリポジトリ155内の汎用ルールの構成例を示す。図9A、9Bは、異なる汎用ルール示し、これらは、同様の構成を有する表65A、65Bでそれぞれ表わされている。
汎用ルールは、計算機システムを構成するノード装置で発生し得る1つ以上の条件イベントの組み合わせと、その条件イベントの組み合わせに対して障害原因とされる結論イベントと、の関係を示す。
汎用ルールは、障害原因を特定するためのイベント伝播モデルに従い形成されており、ある障害の結果発生することが予想されるイベントの組み合わせと、その原因とを、”IF-THEN”形式で記載する。なお、図9A、9Bは、汎用ルールの例を示し、他の汎用ルールも汎用ルールリポジトリ155に格納され得る。
フィールド653は、汎用ルールの識別子である汎用ルールIDを格納する。フィールド651は、”IF-THEN”形式で記載した汎用ルールのIF部(条件部)に相当する、観測事象を格納する。フィールド652は、”IF-THEN”形式で記載した汎用ルールのTHEN部(結論部)に相当する原因事象を登録する。観測事象及び原因事象は、構成要素の種別で記述されている。具体的には、装置種別及び装置部位種別により記述されている。装置種別及び装置部位種別はそれぞれ構成要素種別である。事象は、装置種別のみを示すこともある。
フィールド654は、汎用ルールを実システムにマッチングする際に適用するトポロジを格納する。フィールド655は、条件部651のイベントに対するイベントIDを格納する。条件部651のイベントが検知された場合、結論部652のイベントが障害の原因である。結論部652のステータスが正常になれば、条件部651の問題も解決しているという関係にある。条件部651は、一つの原因イベント及び当該原因イベントから派生するイベントを示す。図9A、9Bの例では、条件部651には2つのイベントが記述されているが、イベント数に制限はない。
例えば、図9Aの汎用ルール表65Aは、汎用ルールIDがRULE1である汎用ルールを示す。汎用ルール表65Aは、観測事象として、サーバ上で動作するWebサービスのレスポンスタイムの閾値異常と、ファイルサーバにおけるボリュームのI/Oエラー率の閾値異常とを定義する。汎用ルール表65Aは、上記二つのイベントが検知されている場合、ファイルサーバにおけるボリュームのI/Oエラー率の閾値異常が、原因と結論付けるとことを示す。
つまり、ファイルサーバにおけるボリュームのI/Oエラー率の閾値異常が原因イベントであり、サーバ上で動作するWebサービスのレスポンスタイムの閾値異常は、当該原因イベントを起因としては派生するイベントである。なお、汎用ルールは、条件部651に含まれるイベントとして、ある構成要素が正常であることを定義してもよい。
<解析ルールの構成>
図10Aから10Dは、管理サーバ計算機10が有する解析ルールリポジトリ165内の解析ルールの構成例を示す。図10Aから10Dは、異なる解析ルール示し、これらは、同様の構成を有するテーブル75Aから70Dでそれぞれ表わされている。
図10Aから10Dは、管理サーバ計算機10が有する解析ルールリポジトリ165内の解析ルールの構成例を示す。図10Aから10Dは、異なる解析ルール示し、これらは、同様の構成を有するテーブル75Aから70Dでそれぞれ表わされている。
解析ルールは、汎用ルールを計算機システムの実構成に依存する形式に変換した情報であり、汎用ルール(図9A、9B)に、ファイルトポロジ管理表45とネットワークトポロジ管理表50の情報を適用することによって生成される。解析ルールは、ルール変換モジュール150により作成される。
図10Aを参照して、解析ルールのテーブル構成を説明する。フィールド703は、解析ルールの識別子である解析ルールIDを登録する。フィールド704は、解析ルールの基となった汎用ルールのIDを格納する。
フィールド701は、”IF-THEN”形式で記載した解析ルールのIF部(条件部)に相当する観測事象を登録する。フィールド702は、”IF-THEN”形式で記載した解析ルールのTHEN部(結論部)に相当する原因事象を登録する。観測事象及び原因事象は、構成要素の識別子で記述されている。具体的には、装置ID及び装置部位IDにより記述されている。装置ID及び装置部位IDはそれぞれ構成要素識別子である。事象は、装置IDのみを示すこともある。
フィールド705は、事前作成フラグを格納する。事前作成フラグは、当該解析ルールが、障害事象発生を契機として作成されたものでないことを示す。フィールド706は、最終参照日時を格納する。最終参照日時は、当該解析ルールが参照された最終の日時を示す。
例えば、図10Aの解析ルール表70Aは、汎用ルールIDがRULE1である汎用ルール表65Aに、ファイルトポロジ管理表45における第1エントリ(HOST10、HOST11)の情報を格納することにより生成される。
具体的には、汎用ルール表65Aの装置種別のフィールドに、HOST11と、HOST10とが、格納される。HOST11、HOST10はVMであり、その装置種別はサーバとファイルサーバである。装置部位種別のフィールドに、HOST11が提供するWEBSERVICE1と、HOST10が提供するVOLUME101が格納される。不図示の装置管理表は、装置と装置部位との関係を示し、装置管理表から、各装置の装置部位の情報が取得できる。装置性能管理表40からも、各装置の装置部位の情報が取得できる。
解析ルール表70Aは、解析ルールIDがEXRULE1-1で示される解析ルールが、汎用ルールIDがRULE1で示される汎用ルールから変換されたことを示す。さらに、解析ルール表70Aは、観測事象としてホスト計算機HOST11上のWEBWERVICE1のレスポンスタイムの閾値異常と、ホスト計算機HOST10上のVOLUME101の単位時間のI/O量の閾値異常が検知されたとき、VOLUME101の単位時間のI/O量の閾値異常が原因と結論付けられることを示す。
<解析結果管理表の構成>
図11は、管理サーバ計算機10の有する解析結果管理表75の構成例を示す。解析結果管理表75は、障害イベントの発生の解析結果を格納する。フィールド751は、原因装置IDを格納する。原因装置IDは、障害原因解析処理において障害の原因と判定されたイベントの発生した機器の識別子である。フィールド752は、当該イベントの発生した機器内の部位の識別子である、原因部位IDを格納する。フィールド753は、閾値異常を検知したメトリックの名称を格納する。
図11は、管理サーバ計算機10の有する解析結果管理表75の構成例を示す。解析結果管理表75は、障害イベントの発生の解析結果を格納する。フィールド751は、原因装置IDを格納する。原因装置IDは、障害原因解析処理において障害の原因と判定されたイベントの発生した機器の識別子である。フィールド752は、当該イベントの発生した機器内の部位の識別子である、原因部位IDを格納する。フィールド753は、閾値異常を検知したメトリックの名称を格納する。
フィールド754は、解析ルールにおいて条件部に記載されたイベントの発生割合を示す確信度を格納する。フィールド755は、イベントを障害の原因と判定した根拠となる解析ルールのIDを格納する。フィールド756は、検知イベントIDを格納する。検知イベントIDは、解析ルールにおいて条件部に記載されたイベントのうち、実際に発生したイベントのIDである。フィールド757は、解析を実行した日時を格納する。例えば、イベント発生に伴う障害解析処理を開始した日時を格納する。
例えば、解析結果管理表75における第1段目(1つ目のエントリ)は、解析ルールEXRULE1-1に基づき、管理サーバ計算機10がHOST10のVOLUME1で示されるボリュームのI/Oエラー率の閾値異常を障害原因と判定したことを示す。さらに、当該エントリは、その根拠としてイベントIDがEV1及びEV4で示されるイベントを検知したことを示す。そのため、当該エントリは、条件イベントの発生割合を示す確信度が、2/2であることを示す。
<汎用プランの構成>
図12は、管理サーバ計算機10の有する汎用プランリポジトリ160の構成例を示す。汎用プランリポジトリ160は、計算機システムにおいて実行可能な機能の一覧を示す。フィールド801は、汎用プランの識別子である汎用プランIDを格納する。
図12は、管理サーバ計算機10の有する汎用プランリポジトリ160の構成例を示す。汎用プランリポジトリ160は、計算機システムにおいて実行可能な機能の一覧を示す。フィールド801は、汎用プランの識別子である汎用プランIDを格納する。
フィールド802は、各プランの詳細情報を格納し、具体的には、計算機システムにおいて実行可能な操作とその実行順の情報を格納する。各プランは、構成要素種別によって記述されている。たとえば、ホストの停止や起動、スイッチでの設定変更や、ストレージ装置でのボリューム移行やVMの移動などのプランを示す。
フィールド803は、プランが要するコスト示し、フィールド804はプランを実行するための時間を示す。なお、図12は、プランの例を示すに過ぎず、汎用プランリポジトリ160が格納するプランは、例示されたプランに限定されない。
<対処プランの構成>
図13は、管理サーバ計算機10の有する対処プランリポジトリ170に格納される、対処プランの一例を示す。対処プランは、汎用プランを計算機システムの実構成に依存する形式に変換した情報であり、障害原因に対する具体的な処理内容を示す。対処プランは、構成要素識別子によって記述される。
図13は、管理サーバ計算機10の有する対処プランリポジトリ170に格納される、対処プランの一例を示す。対処プランは、汎用プランを計算機システムの実構成に依存する形式に変換した情報であり、障害原因に対する具体的な処理内容を示す。対処プランは、構成要素識別子によって記述される。
図13に示す対処プラン表85は、プラン変換モジュール180により作成される。プラン変換モジュール180は、汎用プランリポジトリ160から選択した汎用プランに対して、ファイルトポロジ管理表45、ネットワークトポロジ管理表50、VM構成管理表55及び装置性能管理表40から取得した情報を適用することによって、対処プランを生成する。
対処プラン表85は、プラン対象に対するプランの具体的内容を示す。具体的には、汎用プランID852、対処プランID853、解析ルールID854、事前作成フラグ860、最終参照日時861、プラン対象862、コスト858、時間859、のフィールドを含む。汎用プランIDフィールド852は、対処プランの基となった汎用プランの汎用プランIDを格納する。
対処プランIDフィールド853は、対処プランの識別子である対処プランIDを格納する。解析ルールIDフィールド854は、変換されたプランが、どの障害原因に対するプランなのかを識別するための情報として、解析ルールの解析ルールIDを格納する。
事前作成フラグフィールド860は、このプランが障害事象発生前に、予め作成されたものか否かを示す。本例では、構成変更に応じて作成されたものか否かを示す。最終参照日時フィールド861は、このプランが参照された最終の日時を示す。
プラン対象フィールド862は、プランの実行対象装置のフィールド855、実行前構成情報のフィールド856、及びプランの実行後構成情報のフィールド857を含む。これらは、構成要素識別子で記述される。
コストフィールド858及び時間フィールド859は、プランを実施することに対する作業量を記述する。なおコストおよび時間は、プランを評価する尺度であれば、作業量を表す値としていかなる値であってもよく、またプランを実施することによりどの程度改善するかという効果を含んでもよい。
図13の対処プラン表85は、汎用プランリポジトリ160が示すPLAN1(VM移動プラン)の例を示す。プラン実行対象装置のフィールド855は、ホストIDによって、移動対象VMを示す。実行前構成情報フィールド856は、装置IDによってVMの移動元装置を示す。実行後構成情報857は、装置IDによってVMの移動先装置を示す。プラン変換モジュール180は、これらフィールドの情報を、VM構成管理表55から取得する。
コストフィールド858及び時間フィールド859は、それぞれ、VMの移動に要するコスト及び時間を示す。プラン実行における作業量を示す値及びプランによる改善効果を示す値は、どのような方法で算出されてもよい。ここでは、図12の汎用プランリポジトリ160に示すように、説明の簡単化のために、予め各プランに対して定義されているとする。
図13を参照してPLAN1(VM移動プラン)の対処プラン例を説明した。図12の汎用プランリポジトリ160が保持する他の汎用プランに対応する対処プランも、同様に生成される。
<ルール・プラン対応管理表の構成>
図14は、管理サーバ計算機10の有するルール・プラン対応管理表90の構成例を示す。ルール・プラン対応管理表90は、汎用ルールIDで示されるルールと、そのルールを適用して障害原因を特定した場合に実施可能なプランとの関係を示す。実行可能なプランは、当該プランの実行によって障害が解消し得るプランである。
図14は、管理サーバ計算機10の有するルール・プラン対応管理表90の構成例を示す。ルール・プラン対応管理表90は、汎用ルールIDで示されるルールと、そのルールを適用して障害原因を特定した場合に実施可能なプランとの関係を示す。実行可能なプランは、当該プランの実行によって障害が解消し得るプランである。
ルール・プラン対応管理表90は、汎用ルールIDフィールド901と、汎用プランIDフィールド902と、を含む。汎用ルールIDフィールド901は、汎用ルールの識別子である汎用ルールIDを格納する。汎用ルールIDは、汎用ルールリポジトリ155における汎用ルールIDと同様の識別子である。汎用プランIDフィールド902は、汎用プランの識別子である汎用プランIDを格納する。ここでの汎用プランIDは、汎用プランリポジトリ160における汎用プランIDと同様の識別子である。
<構成情報及び性能情報の更新処理>
メインモジュール100は、構成情報取得モジュール120に対し、例えばポーリング処理によって、計算機システム内のノード装置、例えば、ストレージ装置、ホスト計算機及びIPスイッチ等から、構成情報を定期的に取得するよう指示する。構成情報取得モジュール120は、ノード装置から構成情報を取得するとともに、ファイルトポロジ管理表45、ネットワークトポロジ管理表50、及びVM構成管理表55を更新する。
メインモジュール100は、構成情報取得モジュール120に対し、例えばポーリング処理によって、計算機システム内のノード装置、例えば、ストレージ装置、ホスト計算機及びIPスイッチ等から、構成情報を定期的に取得するよう指示する。構成情報取得モジュール120は、ノード装置から構成情報を取得するとともに、ファイルトポロジ管理表45、ネットワークトポロジ管理表50、及びVM構成管理表55を更新する。
メインモジュール100は、装置性能取得モジュール110に対し、例えばポーリング処理によって、計算機システム内のノード装置から、装置性能情報を定期的に取得するよう指示する。装置性能取得モジュール110は、ノード装置から装置性能情報を取得するとともに、装置性能管理表40を更新する。
<全体の流れ>
図15のフローチャートは、管理サーバ計算機10が、計算機システム11の構成操作に起因して、障害原因の解析ルールを作成し、さらに、作成した解析ルールに対応する対処プランを作成する全体処理の流れを示す。
図15のフローチャートは、管理サーバ計算機10が、計算機システム11の構成操作に起因して、障害原因の解析ルールを作成し、さらに、作成した解析ルールに対応する対処プランを作成する全体処理の流れを示す。
管理サーバ計算機10のメインモジュール100は、構成変更実行モジュール145によって、計算機システム11における構成変更操作が実施されたことを検知する(S101)。
ここでは、構成変更実行モジュール145によって構成変更操作が実行されたことを前提とするが、それ以外のプログラムや、運用管理者の操作によって構成変更操作が実行されてもよい。構成変更操作は、計算機システム11の何らかの構成を変更する操作であって、構成情報リポジトリ130内の情報の変化を伴ってもよいし、伴わなくてもよい。
構成操作によって変更される構成を、構成情報取得モジュール120によって取得することを前提にしてもよいし、構成変更実行モジュール145自身によってメインモジュール100に通知されてもよいし、それ以外の方法によってメインモジュール100に通知されてもよく、その方法を限定されない。
メインモジュール100は、構成変更操作が実施された装置に関係する解析ルールと対処プランとを、解析ルールリポジトリ165と対処プランリポジトリ170から削除する(S102)。これにより、構成変更に伴い有効でなくなった解析ルール及び対処プランを削除できる。その後、操作実行対象の装置に対する障害原因の解析ルール作成処理及び対処プラン作成処理を実行する(S103)。
本実施例は、構成変更操作の実行をトリガに、長時間を要する障害原因解析ルール作成処理及び対処プラン作成処理を実行する。これにより、障害発生の蓋然性が高い箇所に対する解析ルール及び対処プランを予め作成し、障害発生時の対応処理の時間を短縮できる。また、障害発生の蓋然性が高い箇所の解析ルールと対処プランを選択的に作成することで、これらの作成に要する時間を短縮できる。
なお、メインモジュール100は、障害原因解析ルール作成処理及び対処プラン作成処理の実行時間と、構成変更操作の実行時間とを見積もり、双方の実行時間を比較して、所定基準に基づいてステップS103をスキップしてもよい。
図16A、16Bのフローチャートは、図15に示した流れを具体的に示す。ここに示した方法は一例である。本例において、構成変更実行モジュール145は、構成変更操作の実行を、メインモジュール100に通知する。構成変更実行モジュール145は、通知される情報を、図17に示すような操作実行履歴キュー95に保持する。
操作実行履歴キュー95は、履歴のIDを格納するフィールド951と、実行対象の操作内容を格納するためのフィールド952を有する。操作実行履歴キュー95は、実行操作の履歴が格納できれば、どのような構成でもよい。
図16Aは、構成変更実行モジュール145が実行する構成変更操作の流れを示す。構成変更実行モジュール145は、実行対象の操作を開始する(S151)。構成変更実行モジュール145は、操作実行履歴キュー95に実行対象の操作の情報を追加する(S152)。構成変更実行モジュール145は、実行対象の操作の実行完了を待つ(S153)。
図16Bは、メインモジュール100が実行する構成操作の検知と、それに対する解析ルール作成処理及び対処プラン作成処理と、の流れを示す。本例では、メインモジュール100は、定期的に構成操作の実行を監視している(S201)。操作実行履歴キュー95にエントリがある場合(S202:YES)、メインモジュール100は、格納されている各エントリに対して、次のステップS204からS206の処理を実施する(S203)。
メインモジュール100は、操作実行履歴キュー95における先頭エントリを選択し、操作実行履歴キュー95から削除する(S204)。当該エントリの選択順序は一例であって、特に限定されない。
次に、メインモジュール100は、構成変更操作が実施された装置に関係する解析ルールと対処プランを、解析ルールリポジトリ165と対処プランリポジトリ170から削除する(S205)。次に、メインモジュール100は、他のプログラムを利用して、操作実行対象の装置に対する解析ルール作成処理と対処プラン作成処理を行う(S206)。
<解析ルール作成処理(S103、S206、S658)>
図18のフローチャートは、ルール変換モジュール150が実行する解析ルール作成処理の詳細を示す。ルール変換モジュール150は、メインモジュール100から呼び出され、図18に示す処理を実行する。なお、本フローチャートは、プラン変換モジュール180による対処プラン作成処理のステップを含むが、当該ステップの詳細は図19を参照して後述される。
図18のフローチャートは、ルール変換モジュール150が実行する解析ルール作成処理の詳細を示す。ルール変換モジュール150は、メインモジュール100から呼び出され、図18に示す処理を実行する。なお、本フローチャートは、プラン変換モジュール180による対処プラン作成処理のステップを含むが、当該ステップの詳細は図19を参照して後述される。
図18のフローチャートにおいて、ルール変換モジュール150は、汎用ルールリポジトリ155から汎用ルールを取得し(S251)、取得した汎用ルールそれぞれに対して、ステップS253からS258を繰り返して実行する(S252)。
ルール変換モジュール150は、構成変更操作の対象装置の装置種別が、汎用ルールの結論部652のイベントとマッチするかを判定する(S253)。ここでは装置部位種別は問わない。管理サーバ計算機10は、構成要素識別子と構成要素種別とを対応づける情報を構成情報リポジトリ130内に保持しており、当該情報を参照することで、対象装置の種別を決定する。
装置内のいずれかの装置部位に変更が生じた場合、当該装置が、構成変更操作の対象装置である。上述のように、構成変更操作は、装置が自動的に実行する操作及び管理者が実行する操作を含む。
例えば、移行元装置から移行先装置にボリュームを移動する場合、移行元装置及び移行先装置がそれぞれ操作対象装置である。移行元装置がVMである場合、当該VMは操作対象装置である。VMが動作している物理マシンも操作対象装置に含めてもよい。VM移動の例において、構成操作対象装置は、移動元物理マシン、移動先物理マシン、及び移動されるVMである。
対象装置の種別が汎用ルールの結論部652のイベントにマッチする場合(S253:YES)、ルール変換モジュール150は、構成変更操作を起因とした解析ルールを作成する。
本実施例は構成変更操作を起因として発生する障害のために、事前に解析ルールを作成する。汎用ルールの結論部652の条件イベントに現れるイベントは、そのイベントを発生させている装置が障害の原因になり得ることを示している。本例は、構成変更操作に起因した障害の発生を想定しており、構成変更操作の対象装置と汎用ルールの結論部の条件イベントとを比較する。
解析ルールの作成は、次のステップS254からS258で実行される。ルール変換モジュール150は、対象装置に対して、汎用ルール表内の結論部フィールド652におけるイベントが示す関連を持つ、対象装置の装置部位を、構成情報リポジトリ130から取得する(S254)。本例では、ファイルトポロジ管理表45、ネットワークトポロジ管理表50、VM構成管理表55から、必要な情報が取得される。
ルール変換モジュール150は、対象装置と取得した装置部位の各組み合わせを作成する。結論部のイベントにマッチする装置及び装置部位の組み合わせを構成情報リポジトリ130から取得できない場合、当該汎用ルールに対応する解析ルールは作成されない。
次に、ルール変換モジュール150は、構成情報リポジトリ130を参照して、関連を持つ装置と装置部位の組み合わせごとに、解析ルールを作成する(S255)。ルール変換モジュール150は、解析ルールリポジトリ165に同じ解析ルールが既に存在するかどうかを調べる(S256)。以下の処理により、解析ルールリポジトリ165が適切に更新される。
同じ解析ルールが既に存在する場合(S256:YES)、ルール変換モジュール150は、解析ルールリポジトリ165における既存エントリの最終参照日時を更新する(S257)。同じ解析ルール存在しない場合(S256:NO)、ルール変換モジュール150は、解析ルールリポジトリ165に作成した解析を格納する。この際に、ルール変換モジュール150は、事前作成フラグを“YES”にセットする(S258)。
例えば、図16Bに示す流れの一例において、図17に示す操作実行履歴キュー95から履歴IDがEX1の”VOLUME101マウント(HOST11)”が抽出され、それに対して図18の処理が実施されたとする。なお、VOLUME101は、HOST10に提供されている。
HOST11は、変更が加えられる可能性がある操作対象装置である。ルール変換モジュール150は、HOST11を結論部に持つ汎用ルールを選択し、それらから障害原因の解析ルールを作成する。
具体的には、ステップS252に示すように、ルール変換モジュール150は、全ての汎用ルールに対してステップS253からS258を繰り返す。選択された汎用ルールが、操作対象の装置であるHOST11の装置種別(サーバ)にマッチする結論部のイベントを有する場合、ルール変換モジュール150は、当該汎用ルールを選択する。
例えば、図9Aに示す汎用ルール表65Aは、汎用ルールRULE1を示し、汎用ルールRULEは、ファイルサーバのボリュームを結論部に持つ。したがって、汎用ルールRULE1は、操作対象の装置HOST11にマッチする結論部の条件イベントを有する。
汎用ルールRULE1の結論部は、ファイルサーバに関連する装置部位としてVOLUMEを示す。HOST10とVOLUME101の組み合わせは、当該結論部のイベントにマッチする。したがって、ルール変換モジュール150は、汎用ルールRULE1から、解析ルールを作成する。
なお、ルール変換モジュール150は、操作対象部位であるVOLUME101の装置である、HOST10についても解析ルールを作成してもよい。また、ルール変換モジュール150は、操作対象の装置及び装置部位の組み合わせに基づき、操作対象に対応する汎用ルールを選択してもよい。上記例において、ルール変換モジュール150は、HOST11とVOLUME101の組み合わせに結論部がマッチする汎用ルールのみを選択してもよい。
図9Aの示す汎用ルールに、ファイルトポロジ管理表45とネットワークトポロジ管理表50の各エントリの項目を挿入することで、ルール変換モジュール150は、図10Aから図10Cに示す解析ルールを生成する。ルール変換モジュール150は、解析ルール表70Aから70Cにおいて、事前作成フラグフィールド705に、“YES”を格納する。
解析ルール作成が終了すると、メインモジュール100は、解析ルールリポジトリ165に新規エントリが追加されたかどうかをチェックする(S259)。新規エントリが追加されている場合(S259:YES)、メインモジュール100は、障害回復のための対処プラン作成処理(S260)を、プラン変換モジュール180に指示する。
<対処プラン作成処理(S260、S563)>
図19は、プラン変換モジュール180が実行する、プラン作成処理のフローチャートを示す。プラン変換モジュール180は、解析ルールリポジトリ165に存在する解析ルールのうち、新規追加された解析ルールそれぞれに対して、次に示す処理を実施する(S301)。
図19は、プラン変換モジュール180が実行する、プラン作成処理のフローチャートを示す。プラン変換モジュール180は、解析ルールリポジトリ165に存在する解析ルールのうち、新規追加された解析ルールそれぞれに対して、次に示す処理を実施する(S301)。
プラン変換モジュール180は、解析ルールから、汎用ルールIDを取得する(S63020)。次に、プラン変換モジュール180は、ルール・プラン対応管理表90、及び汎用プランリポジトリ160を参照し、汎用ルールIDに対応する汎用プランIDを取得する(S63030)。プラン変換モジュール180は、取得した汎用プランIDのプランに全てに対して、ステップ63050からステップ63080の処理を実施する(S63040)。
プラン変換モジュール180は、ファイルトポロジ管理表45と、ネットワークトポロジ管理表50と、VM構成管理表55とを参照し、汎用プランに対応する対処プランを生成する(S63050)。例えば、プラン変換モジュール180は、VM移動の汎用プランから対処プランを作成する場合、移動先となり得るサーバを、VM構成管理表55から取得して汎用プランに適用する。
プラン変換モジュール180は、対処プランリポジトリ170に同じ対処プランが既に存在するかどうかを調べる(S306)。以下の処理により、対処プランリポジトリ170が適切に更新される。
同じ対処プランが既に存在する場合(S30:YES)、プラン変換モジュール180は、対処プランリポジトリ170に存在する既存エントリの最終参照日時を更新し、対処プランテーブルの解析ルールIDフィールド854に、当該対処プランを作成する際に利用した解析ルールIDを追加する(S308)。
同じ対処プランが存在しない場合(S306:NO)、プラン変換モジュール180は、対処プランリポジトリ170に新たに作成した対処プランを追加する。プラン変換モジュール180は、対処プランテーブルの事前作成フラグフィールド860に “YES”に設定し、解析ルールIDフィールド854に、当該対処プランを作成する際に利用した解析ルールのIDを追加する(S307)。
<障害発生時の処理>
図20は、メインモジュール100が実行制御する、装置性能情報取得処理、イベント検知処理、障害原因特定処理、対処プラン作成処理の流れを示すフローチャートである。メインモジュール100は、各処理を他のモジュールによって実行する。
図20は、メインモジュール100が実行制御する、装置性能情報取得処理、イベント検知処理、障害原因特定処理、対処プラン作成処理の流れを示すフローチャートである。メインモジュール100は、各処理を他のモジュールによって実行する。
メインモジュール100は、プログラム起動時、もしくは前回の装置性能情報取得処理から所定時間経過後するたびに、装置性能取得モジュール110に装置性能情報取得処理S351を実行するよう指示する。当該実行指示を繰り返し出す場合、指示間の期間は一定でなくてもよい。
ステップS351において、装置性能取得モジュール110は、監視対象の各装置に対し、性能値を送信するように指示する。装置性能取得モジュール110は、受信した性能値を装置性能管理表40の各エントリに格納する。
装置性能管理表40の更新後、装置性能取得モジュール110は、装置性能管理表40の各エントリに対して、ステップS353からステップS355を実施する(S352)。装置性能取得モジュール110は、性能値が閾値を超えているか否かを判定する。前回に性能値を取得できている場合で、性能値のステータスが変化している場合(S354:YES)に、装置性能取得モジュール110は、イベント管理表60にイベントを登録する(S355)。
装置性能管理表40の全ての性能値についてチェックを行った後、メインモジュール100は、イベント管理表60に新規登録されたイベントがあるか否か判定する(S356)。新規登録されたイベントがある場合(S356:YES)、新規登録されたイベントについて、ステップS358からS362までが実行される(S357)。
メインモジュール100からの指示に応じて、障害原因特定モジュール140は、解析ルールリポジトリ165において、対象イベントを結論部に持ち、事前作成フラグが“YES”の解析ルールを検索する(S358)。該当する解析ルールが存在する場合(S358:YES)、事前作成の解析ルールとそれに関連して作成された対処プランが利用される。
障害原因特定モジュール140は、該当解析ルールの最終参照日時を更新する(S359)。次に、障害原因特定モジュール140は、解析ルールと発生イベント情報を、解析結果管理表75に格納する(S360)。障害原因特定モジュール140は、解析ルールに対して、イベント管理表60に登録された障害イベントのうち所定期間内に登録された障害イベントを対比する。障害原因特定モジュール140は、解析ルールの条件部に存在する種別の装置からイベントが発生している場合に、確信度を計算して解析結果管理表75に書き出す。
プラン選択モジュール175は、該当解析ルールのIDを利用して、対処プランリポジトリ170において関連する対処プランを検索する。プラン選択モジュール175は、該当する対処プランにおいて、最終参照日時を更新する(S361)。
ステップS358において、該当する解析ルールが解析ルールリポジトリ165に存在しない場合(S358:NO)、イベント起因の解析ルール作成処理・対処プラン作成処理が実行される(S362)。
<イベント起因の解析ルール作成(S362)>
図21は、ルール変換モジュール150が実行する、イベント起因の解析ルール作成処理を示すフローチャートである。本フローチャートで示される処理は、障害イベントの検知に起因して実施されるが、その処理の多くは、図18に示される構成変更操作に起因して事前に実施する処理と同一である。
図21は、ルール変換モジュール150が実行する、イベント起因の解析ルール作成処理を示すフローチャートである。本フローチャートで示される処理は、障害イベントの検知に起因して実施されるが、その処理の多くは、図18に示される構成変更操作に起因して事前に実施する処理と同一である。
ルール変換モジュール150は、汎用ルールリポジトリ155から汎用ルールを取得し(S401)、取得した汎用ルールそれぞれに対して、ステップS253からS258を繰り返して実行する(S402)。
ルール変換モジュール150は、対象のイベント情報における装置と装置部位とメトリックの組み合わせがルールの条件イベントとマッチするかを判定する(S403)。マッチする場合(S403:YES)、ルール変換モジュール150は、イベントを起因とした解析ルールを作成する。
解析ルールの作成は、次のステップS404からS408で実行される。ルール変換モジュール150は、汎用ルール表内の条件部フィールド651における条件イベントに対応する装置及び装置部位のペアを、構成情報リポジトリ130から取得する(S404)。本例では、ファイルトポロジ管理表45、ネットワークトポロジ管理表50、VM構成管理表55から、必要な情報が取得される。
次に、ルール変換モジュール150は、関連を持つ組み合わせごとに、解析ルールを作成する(S405)。ルール変換モジュール150は、解析ルールリポジトリ165に同じ解析ルールが既に存在するかどうかを調べる(S406)。
同じ解析ルールが既に存在する場合(S406:YES)、ルール変換モジュール150は、解析結果管理表75に当該解析ルールの情報を格納する(S408)。その際に、ルール変換モジュール150は、解析ルールとイベント管理表60に登録された障害イベントのうち所定期間内に登録されたものを比較し、解析ルールの条件部に存在する種別の装置からイベントが発生している場合に、確信度を計算して解析結果管理表75に書き出す。
同じ解析ルールが存在しない場合(S406:NO)、ルール変換モジュール150は、解析ルールリポジトリ165に作成した解析ルールを格納する。この際に、ルール変換モジュール150は、事前作成フラグを“NO”にセットする。さらに、ルール変換モジュール150は、ステップS408と同様の方法で、解析結果管理表75に解析結果を格納する(S407)。
例えば、図8に示すイベントEV5が発生したとする。イベントEV5は、IPSW1のポート1における、単位時間I/O量の閾値異常である。図9Bに示す汎用ルール表65Bの条件部フィールド651に存在する条件イベントが、イベントEV5にマッチする。
ルール変換モジュール150は、ネットワークトポロジ管理表50を利用し、図10Dに示す解析ルール表70Dを作成する。その結果、解析結果管理表75の4エントリ目に示す解析結果が得られる。当該解析結果は、SERVER10のポート101が原因であることを示す。
障害原因解析が終了すると、メインモジュール100は、解析ルールリポジトリ165に新規エントリが追加されたかどうかをチェックする(S409)。新規エントリが追加されている場合(S409:YES)、メインモジュール100は、障害回復のための対処プラン作成処理(S410)を、プラン変換モジュール180に指示する。
<対処プラン作成処理(S410)>
図22は、プラン変換モジュール180が実行する、プラン作成処理を示すフローチャートである。本フローチャートで示される処理の流れは、障害イベントの検知に起因して実施されるが、その処理の多くは図19に示される構成変更操作に起因して事前に実施される処理と同一である。ここでは、異なるステップのみ記載する。ステップS451からS455は、それぞれ、図19のフローチャートにおけるステップS301からS305に相当する。
図22は、プラン変換モジュール180が実行する、プラン作成処理を示すフローチャートである。本フローチャートで示される処理の流れは、障害イベントの検知に起因して実施されるが、その処理の多くは図19に示される構成変更操作に起因して事前に実施される処理と同一である。ここでは、異なるステップのみ記載する。ステップS451からS455は、それぞれ、図19のフローチャートにおけるステップS301からS305に相当する。
プラン変換モジュール180は、対処プラン作成後、対処プランリポジトリ170に同じ対処プランが既に存在するかどうかを調べる(S456)。同じ対処プランが既に存在する場合(S456:YES)、対処プランリポジトリに存在する既存エントリに含まれる解析ルールID33833に、プラン変換モジュール180は、当該対処プランを作成する際に利用した解析ルールのIDを追加する(S458)。
同じ対処プランが存在しない場合(S456:NO)、プラン変換モジュール180は、対処プランリポジトリ170に登録する。プラン変換モジュール180は、事前作成フラグフィールドに“NO”をセットし、解析ルールIDフィールドに、この対処プランを作成する際に利用した解析ルールのIDを追加する(S457)。
<プラン提示処理(S363)>
図23は、画像表示モジュール190が実行する、プラン提示処理を示すフローチャートである。画像表示モジュール190は、解析結果管理表75から障害原因と確信度情報を取得する(S501)。
図23は、画像表示モジュール190が実行する、プラン提示処理を示すフローチャートである。画像表示モジュール190は、解析結果管理表75から障害原因と確信度情報を取得する(S501)。
画像表示モジュール190は、障害原因のうち新規登録エントリそれぞれについて、ステップS503を実施する(S502)。ステップS503において、画像表示モジュール190は、障害原因エントリから解析ルールIDを選択し、その解析ルールIDを持つ対処プランを対処プランリポジトリ170から選択する。
新規登録エントリ全てについてステップS503を実行した後、画像表示モジュール190は、障害原因と確信度と取得した対処プランの情報とを合わせて画像データを作成し、表示する(S504)。
図26は、ステップS504において出力される、対策プラン一覧画像の一例である。図26の対策プラン一覧画像において、表示領域621は、計算機システムにおける障害発生時、管理者がその原因を追究して対策を実施する際に、その障害の原因の可能性のある部位と、その障害に対して取り得る対処プランの対応関係を表示する。プラン実行ボタン622は、対処プランを実行するための選択ボタンである。ボタン623は、画像表示をキャンセルするためのボタンである。
障害原因と障害に対する対処プランの対応を表示する表示領域621は、障害原因の情報として、障害原因の装置のID、障害原因の装置部位のID、障害と判定されたメトリックの種別、解析ルールによると発生するはずのイベント数に対する、実際に発生したイベント数の割合を示す確信度情報を示す。画像表示モジュール190は、解析結果管理表75から、障害原因(原因装置ID751、原因部位ID752、メトリック753)及び確信度754を取得することにより、これらの値を表示する。
障害に対するプランの情報として、候補となる対処プラン、対処プラン実行にかかるコスト、対処プラン実行によりかかる時間、すなわち障害が残り続ける時間が示される。画像表示モジュール190は、対処プランから取得したプラン対象862、コスト858、時間859の情報を取得することにより、これらの値を表示する。
なお、表示領域621は、候補となる対処プランそれぞれに対して、後述のプラン実行ボタン622を押下した際に実行する対処プランをユーザに選択させるためのチェックボックスを表示する。
プラン実行ボタン622は、選択されたプランの実行を指示するためのアイコンである。プラン実行ボタン622を押下することにより、候補となる対処プランのうちチェックボックスにおいて選択されている一つの対処プランが実行される。管理サーバ計算機10は、対処プランに対応づけられた具体的なコマンド群を実行することにより、対処プランを実現する。
管理者に障害原因と対処プラン候補を合わせて表示することで、管理者に障害対応に必要な情報を与えると共に、管理者が望む対処プランを選択させることができる。なお、図26の画像は一例であり、表示画像は、対処プラン実行にかかるコスト、対処プラン実行にかかる時間以外の、対処プランの特徴を示す情報を表示領域621にあわせて表示してもよく、他の表示態様に従ってもよい。たとえば、障害原因のみを提示してもよいし、対処プランの選択を受け付けなくてもよい。
<解析ルール、対処プランの削除処理(S102、S205、S654)>
図24は、メインモジュール100が実行する、解析ルールと対処プランの削除処理を示すフローチャートである。このフローチャートは、構成変更操作対象の装置が指定されることにより実施される。
図24は、メインモジュール100が実行する、解析ルールと対処プランの削除処理を示すフローチャートである。このフローチャートは、構成変更操作対象の装置が指定されることにより実施される。
メインモジュール100は、解析ルールリポジトリ165の全ての解析ルールに対して、ステップS552からS555を実行する(S551)。まず、メインモジュール100は、解析ルールリポジトリ165から、構成変更操作対象の装置を条件部に含む解析ルールを選択する(S552:YES)。構成変更操作の影響がある場合は、解析ルールの結論部に記述される装置だけでなく、条件部に記述される装置の構成も変化する可能性があるためである。
解析ルールが、構成変更操作対象の装置を条件部に含む場合(S552:YES)、メインモジュール100は、その解析ルールを解析ルールリポジトリ165から削除する(S553)。メインモジュール100は、当該解析ルールのIDを含む対処プランを、対処プランリポジトリ170から選択し(S554)、選択した各対処プランについて、ステップS556からS558を実行する(S555)。
まず、メインモジュール100は、対象の解析ルールIDを対処プランから削除する(S556)。対処プランに含まれる解析ルールIDが無くなった場合(S557:YES)、メインモジュール100は、対処プランを対処プランリポジトリ170から削除する(S558)。ここまでのステップにより、構成変更操作が実施される装置に関係する解析ルールと、それに関連した対処プランを削除できる。
次に、メインモジュール100は、構成変更操作対象の装置を、プラン対象に含む対処プランについての処理を行う。まず、メインモジュール100は、対処プランリポジトリ170から、構成変更操作対象の装置を対象装置に含む対処プランを選択する(S559)。メインモジュール100は、各対処プランについて、ステップS561からS563を実行する(S560)。
まず、メインモジュール100は、対処プランに含まれる解析ルールIDを取得する(S561)。次に、メインモジュール100は、対処プランを対処プランリポジトリ170から削除する(S562)。メインモジュール100は、ステップS561で取得した解析ルールIDを利用して、プラン作成処理を実施する(S563)。プラン作成処理は、図19を参照して説明した処理と同様であるため、説明を省略する。
<所定時間利用されない解析ルールと対処プランの削除処理>
本実施例は、障害原因解析に必要な解析ルールと対処に必要な対処プランを事前に作成した後、任意の方法で削除してもよい。例えば、作成後所定時間利用されない場合や、対処プラン実行に失敗した場合等の条件に基づき、メインモジュール100は、関連する解析ルールや対処プランを削除してもよい。
本実施例は、障害原因解析に必要な解析ルールと対処に必要な対処プランを事前に作成した後、任意の方法で削除してもよい。例えば、作成後所定時間利用されない場合や、対処プラン実行に失敗した場合等の条件に基づき、メインモジュール100は、関連する解析ルールや対処プランを削除してもよい。
図25には、メインモジュール100が定期的に実行する、解析ルールと対処プランの削除処理を示すフローチャートである。メインモジュール100は、まず、解析ルールリポジトリ165から、最終参照日時が特定の時刻より前の解析ルールを選択する(S601)。そして抽出した各解析ルールに対して、ステップS603からS609を実行する(S602)。
まず、メインモジュール100は、対象の解析ルールのIDを含む対処プランを対処プランリポジトリ170から選択する(S603)。選択した全ての対処プランの最終参照日時が特定の時間より前である場合(S604:YES)、メインモジュール100は、解析ルールを削除する(S605)。
メインモジュール100は、全ての対処プランについて、ステップS607からS609を実行する(S606)。メインモジュール100は、対象の解析ルールIDが対処プランに含まれていれば、当該解析ルールIDを当該対処プランから削除する(S607)。その結果として、対処プランに含まれる解析ルールIDが無くなった場合(S608:YES)、メインモジュール100は、当該対処プランを対処プランリポジトリ170から削除する(S609)。
上記例は、所定時間参照されていない解析ルールと、所定時間参照されていない対処プランと、を削除する。そのために、解析ルールや対処プランは、最終参照日時のフィールドを含む。削除のための方法は、この限りではない。削除の方法に合わせて必要とする任意のフィールドが、解析ルール及び対処プランに含まれる。
以上本実施例によれば、構成変更操作を実施した段階で、その操作に関係して発生すると予測される障害に対する障害原因解析用のルールと、その原因に対処するためのプランを、あらかじめ用意することが可能である。これにより、障害発生時の障害原因の分析と対処プランの提示を迅速に行うことができる。障害発生時に運用管理者は対処プランの実行を決定できるため、障害発生時の運用管理コストを削減できる。
上記例は、解析ルールと共に対処プランを、構成変更を契機として作成する。管理サーバ計算機10は、対処プランを障害発生後に作成してもよい。管理サーバ計算機10は、対処プランを管理者に提示することなく障害原因のみ表示してもよいし、障害原因及び対処プランの情報を提示することなく、自装置が選択した対処プランを自動実行してもよい。管理サーバ計算機10は、上記解析ルール及び対処プランの削除処理を実行しなくてもよいし、一方の処理のみを行ってもよい。
以下では、実施例1との差異を中心に説明し、実施例1と同等の構成要素、同等の機能を持つプログラム、同等の項目を持つテーブルについては、説明を省略する。
実施例1は、何らかの構成変更操作が実施された段階で、その操作に関係して発生する障害に対する解析ルール及び対処プランを作成する。図16Aに示すように、実施例1は、操作実行順に解析ルール及び対処プランを作成する。実行例2は、対処プラン実行時に対処プランに含まれる操作に基づき解析ルール及び対処プランを作成する。
運用管理者は、図26に示す対策プラン一覧画像より、候補となる対処プランを選択し、プラン実行ボタン622の押下により、選択した対処プランを実行する。実施例2は、当該選択操作に基づき、解析ルール及び対処プランを作成する。
運用管理者が選択した対処プランを実行する際に、その対処プランに含まれるいくつもの操作の対象になる装置は、そうでない装置に比べ障害が発生し易い。この考えに基づき、実施例2は、対処プランに含まれる装置ごとに、その装置を含む操作の数をカウントし、操作数の多い順に解析ルール作成と対処プラン作成を実行する。これにより、より障害の発生し易い機器に対して、優先的に解析ルール及び対処プランを事前準備できる。
図27は、解析ルールと対処プランの事前作成処理を示すフローチャートである。まず、メインモジュール100は、プラン実行ボタン622されたことを検知する(S651)。次に、メインモジュール100は、選択された対処プランに含まれる装置を、対処プランリポジトリ170から選択する(S652)。選択した各装置について、ステップS654及びS655が実行される(S653)。
メインモジュール100は、装置に関係する解析ルールと対処プランを、解析ルールリポジトリ165と対処プランリポジトリ170とから削除する(S654)。これは、図24に示す削除処理と同様である。当該ステップは、実行しようとする対処プランの対象となる装置に対する事前作成の解析ルール及び対処プランの削除である。次に、メインモジュール100は、対処プラン内で装置が含まれる操作数をカウントする(S655)。
全ての装置に対してステップS654及びS655が終了すると、メインモジュール100は、対処プランに含まれる装置を操作数の多い順に整列する(S656)。ステップS656で整列した順に、ステップS658が実行される(S657)。
ステップS658において、ルール変換モジュール150及びプラン変換モジュール180は、選択した装置に対する解析ルール作成及び対処プラン作成処理を実行する。解析ルール作成処理及び対処プラン作成処理は、図18及び図19に示したフローと同様であり、説明を省略する。
以上本実施例によれば、実施例1での構成変更操作に起因した解析ルール及び対処プランの事前作成に加え又は代えて、対処プラン実行時にプラン実行に影響を受けやすい装置に対する解析ルール及び対処プランを事前作成できる。実施例1は、各構成変更操作間に関連はなく実行順に解析ルール及び対処プランを生成する。一方、プラン実行の場合はプランの範囲内での操作については連続実行されることがあらかじめ予測できるため、本実施例は、操作が多く実施され障害の発生の可能性の高いと考えられる装置から順に優先的に解析ルール及び対処プランを生成できる。
管理サーバ計算機10は、実行順序の優先度を、操作数と異なる基準で決定してもよい。たとえば、対処プランの操作の実行順序、過去の履歴から計算される障害発生確率の高い順序、又は接続する他の構成要素が多い順序、に基づき、実行順序の優先度を決定してもよい。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
Claims (15)
- 監視の対象である複数ノード装置を含む計算機システムに接続された管理システムが、前記計算機システムを管理する方法であって、
前記管理システムは、
前記計算機システムの構成情報と、
それぞれが、前記計算機システムで発生し得る1つ以上の条件イベントと、当該1以上の条件イベントの障害原因とされる結論イベントと、の関係を、構成要素種別によって示す、複数汎用ルールを保持し、
前記方法は、
前記管理システムが、前記計算機システムの構成変更の操作の実行を契機に、当該操作の対象の種別を結論イベントに含む第1汎用ルールを、前記複数汎用ルールから選択し、
前記管理システムが、前記構成情報に基づき、前記第1汎用ルールを、1つ以上の条件イベントと結論イベントとの関係を構成要素識別子で示す第1解析ルール、に変換し、
前記管理システムが、前記計算機システムにおいて障害が発生した場合に、障害原因を特定するために、前記第1解析ルールを参照する、ことを含む方法。 - 請求項1に記載の方法であって、
前記管理システムは、障害原因を解消するためのプランを構成要素種別によって示す、複数汎用プランを保持し、
前記方法は、
前記管理システムが、前記第1解析ルールの作成を契機に、第1解析ルールの前記第1解析ルールに対応する第1汎用プランを前記複数汎用プランから選択し、
前記管理システムが、前記第1解析ルール及び前記構成情報に基づき、前記第1汎用プランを、前記計算機システムにおける障害原因に対するプランを構成要素識別子で示す第1対処プランに変換する、方法。 - 請求項2に記載の方法であって、
前記管理システムが、前記第1解析ルールにより特定された障害原因と前記第1対処プランとを関連付けて表示する、ことを含む方法。 - 請求項3に記載の方法であって、
前記管理システムが、前記第1対処プランのユーザによる選択を検知し、
前記管理システムが、前記第1対処プランの実行における操作対象に対して、規定基準に基づく優先度を付与し、
前記管理システムが、前記優先度の順で、前記第1対処プランの実行における前記操作対象の解析ルール及び対処プランを作成する、ことを含む方法。 - 請求項4に記載の方法であって、
前記管理システムが、前記第1対処プランの実行における操作数に基づいて、前記操作対象に対して前記優先度を付与する、方法。 - 請求項2に記載の方法であって、
前記管理システムは、
前記複数汎用ルール及び前記構成情報に基づき作成された複数解析ルール、を格納する解析ルールリポジトリと、
前記複数解析ルール、前記構成情報、及び前記複数汎用ルールに基づき作成された複数対処プラン、を格納する対処プランリポジトリと、を保持し、
前記複数対処プランそれぞれは、最終参照日時を示す情報を含み、
前記方法は、
前記管理システムが、前記解析ルールリポジトリから第2解析ルールを選択し、
前記管理システムが、前記第2解析ルールに対応する全ての対処プランを前記対処プランリポジトリから選択し、
前記管理システムが、前記全ての対処プランそれぞれの最終参照日時に基づき、前記第2解析ルールを前記解析ルールリポジトリから削除するか否か判定する、ことを含む方法。 - 請求項1に記載の方法であって、
前記管理システムは、前記複数汎用ルール及び前記構成情報に基づき作成された複数解析ルールを格納する解析ルールリポジトリを保持し、
前記方法は、
前記管理システムが、前記計算機システムの構成変更の操作を検知し、
前記管理システムが、検知された前記操作に関係する解析ルールを前記解析ルールリポジトリから削除する、ことを含む方法。 - 請求項1に記載の方法であって、
前記管理システムは、前記複数汎用ルール及び前記構成情報に基づき作成された複数解析ルール、を格納する解析ルールリポジトリを保持し、
前記複数解析ルールそれぞれは、最終参照日時を示す情報を含み、
前記方法は、
前記管理システムが、前記複数解析ルールそれぞれ最終参照日時に基づき、前記解析ルールリポジトリから削除する解析ルールを選択する、ことを含む方法。 - 監視の対象である複数ノード装置を含む管理対象計算機システムと、
前記管理対象計算機システムに接続され、前記管理対象計算機システムを管理する管理システムと、を含み、
前記管理システムは、
前記管理対象計算機システムの構成情報と、
それぞれが、前記複数ノード装置で発生し得る1つ以上の条件イベントと、前記1以上の条件イベントの障害原因とされる結論イベントと、の関係を、構成要素種別によって示す、複数汎用ルールを保持し、
前記管理対象計算機システムの構成変更の操作の実行を契機に、当該操作の対象の種別を結論イベントに含む第1汎用ルールを、前記複数汎用ルールから選択し、
前記構成情報に基づき、前記第1汎用ルールを、1つ以上の条件イベントと結論イベントとの関係を構成要素識別子で示す第1解析ルール、に変換し、
前記管理対象計算機システムにおいて障害が発生した場合に、障害原因を特定ために、前記第1解析ルールを参照する、システム。 - 請求項9に記載のシステムであって、
前記管理システムは、
障害原因を解消するためのプランを構成要素種別によって示す、複数汎用プランを保持し、
前記第1解析ルールの作成を契機に、前記第1汎用ルールに対応する第1汎用プランを前記複数汎用プランから選択し、
前記管理システムが、前記第1解析ルール及び前記構成情報に基づき、前記第1汎用プランを、前記管理対象計算機システムにおける障害原因に対するプランを構成要素識別子で示す、第1対処プランに変換し、
前記管理システムが、前記第1解析ルールにより特定された障害原因と前記第1対処プランとを関連付けて表示する、システム。 - 請求項10に記載のシステムであって、
前記管理システムは、
前記複数汎用ルール及び前記構成情報に基づき作成された複数解析ルール、を格納する解析ルールリポジトリと、
前記複数解析ルール、前記構成情報、及び前記複数汎用ルールに基づき作成された複数対処プラン、を格納する対処プランリポジトリと、を保持し、
前記複数対処プランそれぞれは、最終参照日時を示す情報を含み、
前記管理システムは、
前記解析ルールリポジトリから第2解析ルールを選択し、
前記第2解析ルールに対応する全ての対処プランを前記対処プランリポジトリから選択し、
前記全ての対処プランそれぞれの最終参照日時に基づき、前記第2解析ルールを前記解析ルールリポジトリから削除するか否か判定する、システム。 - 請求項10に記載のシステムであって、
前記管理システムは、
前記第1対処プランのユーザによる選択を検知し、
前記第1対処プランの実行における操作対象に対して、規定基準に基づく優先度を付与し、
前記優先度の順で、前記第1対処プランの実行における前記操作対象の解析ルール及び対処プランを作成する、システム。 - 請求項12に記載のシステムであって、
前記管理システムは、前記第1対処プランの実行における操作数に基づいて、前記操作対象に対して前記優先度を付与する、システム。 - 請求項9に記載のシステムであって、
前記管理システムは、
前記複数汎用ルール及び前記構成情報に基づき作成された複数解析ルール、を格納する解析ルールリポジトリを保持し、
前記管理対象計算機システムの構成変更の操作を検知し、
検知された前記操作に関係する解析ルールを前記解析ルールリポジトリから削除する、システム。 - 請求項9に記載のシステムであって、
前記管理システムは、前記複数汎用ルール及び前記構成情報に基づき作成された複数解析ルール、を格納する解析ルールリポジトリを保持し、
前記複数解析ルールそれぞれは、最終参照日時を示す情報を含み、
前記管理システムは、前記複数解析ルールそれぞれ最終参照日時に基づき、前記解析ルールリポジトリから削除する解析ルールを選択する、システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/069293 WO2016013056A1 (ja) | 2014-07-22 | 2014-07-22 | 計算機システムを管理する方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/069293 WO2016013056A1 (ja) | 2014-07-22 | 2014-07-22 | 計算機システムを管理する方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016013056A1 true WO2016013056A1 (ja) | 2016-01-28 |
Family
ID=55162613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2014/069293 WO2016013056A1 (ja) | 2014-07-22 | 2014-07-22 | 計算機システムを管理する方法 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2016013056A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010137063A1 (ja) * | 2009-05-26 | 2010-12-02 | 株式会社日立製作所 | 管理サーバ及び管理システム |
WO2013046287A1 (ja) * | 2011-09-26 | 2013-04-04 | 株式会社日立製作所 | 根本原因を解析する管理計算機及び方法 |
WO2013128550A1 (ja) * | 2012-02-27 | 2013-09-06 | 株式会社日立製作所 | 監視システム及び監視プログラム |
WO2014033945A1 (ja) * | 2012-09-03 | 2014-03-06 | 株式会社日立製作所 | 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム |
-
2014
- 2014-07-22 WO PCT/JP2014/069293 patent/WO2016013056A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010137063A1 (ja) * | 2009-05-26 | 2010-12-02 | 株式会社日立製作所 | 管理サーバ及び管理システム |
WO2013046287A1 (ja) * | 2011-09-26 | 2013-04-04 | 株式会社日立製作所 | 根本原因を解析する管理計算機及び方法 |
WO2013128550A1 (ja) * | 2012-02-27 | 2013-09-06 | 株式会社日立製作所 | 監視システム及び監視プログラム |
WO2014033945A1 (ja) * | 2012-09-03 | 2014-03-06 | 株式会社日立製作所 | 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム |
Non-Patent Citations (1)
Title |
---|
FUMIHIKO KOBAYASHI ET AL.: "Design of Personal Firewall using Dynamic Filtering", IPSJ SIG NOTES, vol. 2002, no. 12, 15 February 2002 (2002-02-15), pages 151 - 156, ISSN: 0919-6072 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5719974B2 (ja) | 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム | |
JP6114818B2 (ja) | 管理システム及び管理プログラム | |
US8924798B2 (en) | Grouping related errors in a distributed computing environment | |
JP6307453B2 (ja) | リスク評価システムおよびリスク評価方法 | |
US9223604B2 (en) | Control method of virtual machine and virtual machine system | |
JP6009089B2 (ja) | 計算機システムを管理する管理システム及びその管理方法 | |
JP2008293117A (ja) | 仮想計算機の性能監視方法及びその方法を用いた装置 | |
US9696982B1 (en) | Safe host deployment for a heterogeneous host fleet | |
US20140310409A1 (en) | Computer product, monitoring method, and monitoring apparatus | |
JP6692454B2 (ja) | 継続的インテグレーションシステム及びリソース制御方法 | |
US20140325277A1 (en) | Information processing technique for managing computer system | |
JP5597293B2 (ja) | 計算機システム及びプログラム | |
WO2016013056A1 (ja) | 計算機システムを管理する方法 | |
US11374815B2 (en) | Network configuration diagram generate method and recording medium | |
US20160004584A1 (en) | Method and computer system to allocate actual memory area from storage pool to virtual volume | |
US20160371324A1 (en) | System for observing and analyzing configurations using dynamic tags and queries | |
Gönczy et al. | MDD-based design, configuration, and monitoring of resilient cyber-physical systems | |
JP2018063518A5 (ja) | ||
JP5993052B2 (ja) | 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム | |
Baset et al. | Toward achieving operational excellence in a cloud | |
JP2009217709A (ja) | 仮想マシン管理システムおよび計算機、並びに、プログラム | |
US20210191833A1 (en) | Component detection and awareness in a computing environment by automatically identifying physcial components housing the component within the computing environment | |
JP2012089109A (ja) | コンピュータリソース制御システム | |
Nicolaescu et al. | On Adequate Behavior-based Architecture Conformance Checks | |
JP6588956B2 (ja) | 計算機、ボトルネック特定方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14898323 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14898323 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |