JPWO2015063889A1 - 管理システム、プラン生成方法、およびプラン生成プログラム - Google Patents

管理システム、プラン生成方法、およびプラン生成プログラム Download PDF

Info

Publication number
JPWO2015063889A1
JPWO2015063889A1 JP2015544695A JP2015544695A JPWO2015063889A1 JP WO2015063889 A1 JPWO2015063889 A1 JP WO2015063889A1 JP 2015544695 A JP2015544695 A JP 2015544695A JP 2015544695 A JP2015544695 A JP 2015544695A JP WO2015063889 A1 JPWO2015063889 A1 JP WO2015063889A1
Authority
JP
Japan
Prior art keywords
plan
performance
information
resource
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015544695A
Other languages
English (en)
Other versions
JP6190468B2 (ja
Inventor
中島 淳
淳 中島
名倉 正剛
正剛 名倉
幸徳 坂下
幸徳 坂下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2015063889A1 publication Critical patent/JPWO2015063889A1/ja
Application granted granted Critical
Publication of JP6190468B2 publication Critical patent/JP6190468B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

計算機システムで発生したイベントに対する対処策であるプランを生成する管理システムであって、前記イベントに応じてプランを生成するプラン生成手段と、前記プラン生成手段によって生成されたプランを実行した場合に、前記プランの主体と異なる他主体によって実行される他主体処理により生じる可能性がある、前記計算機システムのリソースの性能変化に関する情報を、前記プランについての性能変化評価指標として生成する指標生成手段と、を有している。

Description

本発明は、例えば、ホストコンピュータ、ネットワークスイッチ、及びストレージ装置等の監視対象装置を含む計算機システムを管理する技術に関する。
一般に計算機システムには、記憶デバイスとして、HDD(ハードディスクドライブ)やSSD(ソリッドステートドライブ)等を用いるストレージ装置が備えられる。そして、そのストレージ装置を含む計算機システムは、ストレージエリアネットワーク(SAN:Storage Area Network)経由で、複数の上位装置(たとえばホストコンピューター)からアクセスされる。
一般に、ストレージ装置では、RAID(Redundant Array of Independent(or Inexpensive) Disks)技術に従う高信頼化方法が採用されることで、ドライブ単体を超えた耐障害性を持つ記憶領域をストレージ装置において提供している。しかし、近年の情報化社会の進化によって、上記RAIDによる耐障害性に基づいたシステムの可用性(サービスの継続性)でも十分でない場合が生じている。
これに対し、リモートコピーまたはリモートミラーリングと呼ばれる技術によりHigh Availability構成が可能である。リモートコピーで同期させたボリュームを異なる複数のストレージ装置にて保持し、ストレーム装置の障害時にパスの切り替えによりアプリケーション処理を継続させる。
また、障害復旧に利用可能なデータ移動技術として、仮想マシン(VM)の動作環境を物理的なホスト計算機間で引き継がせるVM移動、VMを記憶領域間で移動させるVM利用データ移動、ストレージ装置のボリューム間でVMなどのデータを移動させる(ボリュームマイグレーション)といった技術がある。
計算機システムの障害を原因解析により得られた復旧方法(プラン)で障害を復旧させるという手法がある。特許文献2には、汎用ルールと障害の復旧方法とを対応付けて保持しており、障害の原因イベントに基づいて復旧方法を選択する技術が開示されている。
特開平7−244597号公報 米国特許第8429453号明細書
システムが冗長化された環境では、可用性を高めるために自動的に起動される処理がある。例えば、High Availability構成における第一のストレージから第二のストレージへのパス切り替え処理などがそれにあたる。
そのため、自動的に可用性を高める処理など、注目している問題への対処とは別の制御下で処理が計算機システム内で実施されることがある。しかし、上述した特許文献2に開示されたような技術では、計算機システム内で発生した問題に対する対処計画を作成しようとする際に、注目している問題への対処とは別の制御下で実施される処理の影響について考慮されていなかった。
本発明の目的は、計算機システムに発生する問題に対する対処計画の作成において、その対処とは異なる制御下で実施される処理の影響を考慮することを可能にする技術を提供することである。
課題を解決しようとするための手段
本発明の一態様による管理システムは、計算機システムで発生したイベントに対する対処策であるプランを生成する管理システムであって、前記イベントに応じてプランを生成するプラン生成手段と、前記プラン生成手段によって生成されたプランを実行した場合に、前記プランの主体と異なる他主体によって実行される他主体処理により生じる可能性がある、前記計算機システムのリソースの性能変化に関する情報を、前記プランについての性能変化評価指標として生成する指標生成手段と、を有している。
これによれば、計算機システムに発生する問題に対する対処計画の作成において、その対処とは異なる制御下で実施される処理の影響を考慮することが可能になる。
実施例に係る概略を示す図である。 実施例に係る計算機システムの一例の構成図である。 実施例に係る構成情報テーブルの一例の構成図である。 実施例に係る性能情報テーブルの一例の構成図である。 実施例に係る性能変化情報テーブルの一例の構成図である。 実施例に係るプラン情報テーブルの一例の構成図である。 実施例に係るプラン詳細情報テーブルの一例の構成図である。 実施例に係るイベント履歴情報テーブルの一例の構成図である。 実施例に係る他主体処理を加味したプラン生成処理のフローチャートである。 実施例に係る他主体が実行する処理のプランに対する影響を加味する処理のフローチャートである。 実施例に係る他主体処理の発生した場合の性能情報を見積もる処理のフローチャートである。 実施例に係る他主体処理の発生率を算出する処理のフローチャートである。 実施例に係るプラン提示処理のフローチャートである。 実施例に係るプラン提示画面の一例の構成図である。 実施例に係るプラン詳細提示画面の一例の構成図である。 実施例に係るプラン提示処理のフローチャートである。 実施例に係るプラン提示画面の一例の構成図である。
本発明の実施例について説明する。
なお、以下に説明する実施例は、請求の範囲にかかる発明を限定するものではなく、また実施例の中で説明されている諸要素及びその組み合わせの全てが発明の解決に必須であるとは限らない。また図面において複数の図を通じて同一の符号は同一の構成要素を示している。
また、以後、計算機システムを管理し、本発明の表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理サーバが表示用情報を表示する場合は管理サーバが管理システムである。また、管理サーバと表示用計算機との組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理サーバと同等の処理を実現してもよく、この場合は当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含む)が管理システムである。
なお、以後の説明では「aaaテーブル」等の表現を用いるが、これらの表現で表される情報はテーブル等のデータ構造以外で表すこともできる。そのため、データ構造に依存しないことを示すために「aaaテーブル」等について「aaa情報」と呼ぶことがある。さらに、各情報の内容を説明する際に、「識別子」、「ID」という表現を用いるが、これらはお互いに置換が可能である。
以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理をメモリ及び通信ポート(通信デバイス、管理I/F、データI/F)を用いながら行うものである。そのため、プロセッサを主語として説明することも可能である。また、プログラムを主語として開示された処理は、管理サーバ等の計算機、情報処理装置が行う処理ということもできる。また、プログラムの一部または全てを実行するプロセッサに代えて専用ハードウェアによって実現することもできる。また、各種プログラムは、プログラム配布サーバや計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。
実施例に係る計算機システムについて説明する。
図1は、本実施例の概略を示す図である。個々の構成要素の説明は後述する。
管理サーバ1000は、冗長構成における切り替え処理など、対策案であるプランの実行とは別の制御下で動作する他主体処理の設定情報、その設定情報による他主体処理の実行履歴に関する情報、プランを実行した場合に利用されるリソースに対する他主体処理の設定情報が存在するか否かを示す情報、及びシステムの構成/性能の情報を、ストレージ装置2000及びサーバ3000から収集する。そして、管理サーバ1000は、それらの情報を、他主体処理が実行された場合のI/Oの変化に関する予め保持している情報とあわせて、システム内で発生したイベントへの対処策となるプランを生成するときに、他主体処理を考慮したプランの情報を生成する。
本実施形態の技術を用いることで、例えば、他主体処理である冗長構成における切り替え処理を考慮してプランを導出することが可能となる。システムにおいて、冗長構成が組まれていることは一般的である。そのような冗長構成は一般的なシステムにおける運用管理作業のコスト低減にもつながる。
しかし、冗長構成が採られている場合、通常運用で動作している現用系が壊れなければ、待機系のリソースは利用されないため、リソースの有効活用が阻害されるとも言える。これに対して、本実施形態による技術を利用することで、可用性を重視したために利用していなかった待機系のリソースについて、それを利用した場合にどの程度のリスクがあるかを含めてユーザ(管理者)に提示することも可能となる。ユーザが、そのリスクとリソースの有効活用とを比較考量して、リソースを利用するか否かを判断できるようになり、リソースの有効活用につながる。
図2は、実施例に係る計算機システムの一例の構成図である。本実施例に係る計算機システムは、1台以上の管理サーバ1000(図2では管理サーバA)、1台以上のストレージ装置2000(図2ではストレージ装置A)、及び1台以上のサーバ3000(図2ではサーバA)を備える。サーバ3000及びストレージ装置2000は、SAN(Storage Area Network)4000を介して互いに接続される。SANの具体例としてファイバチャネルがある。管理サーバ1000、ストレージ装置2000、サーバ3000は、管理用ネットワーク5000を介して互いに接続される。
管理サーバ1000は、メモリ1100、通信デバイス1200、プロセッサ1300、出力デバイス1400、入力デバイス1500、および記憶デバイス1600を備え、これらは内部バス1700を介して互いに接続される。
メモリ1100は、他主体処理考慮型プラン生成プログラム1110、他主体処理考慮型プラン提示プログラム1120、他主体処理発生率算出プログラム1130、及び構成情報テーブル1140、性能情報テーブル1150、性能変化情報テーブル1160、プラン情報テーブル1170、プラン詳細情報テーブル1180、イベント履歴情報テーブル1190を格納する。
他主体処理考慮型プラン生成プログラム1110は、計算機システムで発生するイベントに応じて、その対処策であるプランを生成するプラン生成プログラムである。
他主体処理発生率算出プログラム1130は、他主体処理考慮型プラン生成プログラム1110によって生成されたプランを実行した場合に、そのプランを実行する主体の制御下で動作する処理を把握していない他の主体(以下「他主体」ともいう)によって実行される処理(以下「他主体処理」ともいう)により生じる可能性がある、計算機システムのリソースの性能変化に関する情報を、そのプランについての性能変化評価指標として生成する指標生成プログラムである。リソースの例として、計算機システムに用いられているディスクドライブ、通信インタフェース、記憶装置などがある。リソースの性能変化に関する情報の具体例が他主体処理発生率である。なお、ここでは必ずしもプランを実行する主体と他主体とが物理的に異なる計算機上に存在することを意味してはおらず、プランを実行する主体と他主体とが物理的に同一の計算機上に存在してもよい。
本実施例によれば、計算機システムに発生する問題に対する対処計画のプラン評価において、その対処とは異なる制御下で実施される可能性のある処理によるリソースの変化の影響を考慮することが可能になる。
他主体処理考慮型プラン提示プログラム1120は、例えば、他主体処理考慮型プラン生成プログラム1110によって生成されたプランと、他主体処理発生率算出プログラム1130によって生成された性能変化評価指標(他主体処理発生率)とを提示する。提示は、例えばディスプレイ画面への表示である。これによれば、計算機システムを管理する管理者は、管理システム10によって提示されたプランを実行するか否かを、リソースの性能変化の可能性を考慮して判断することが可能となる。
また、他主体処理考慮型プラン提示プログラム1120は、性能変化評価指標を、プラン実行に関する他の効果指標と共に提示することにしてもよい。これによれば、管理者は、リソースの性能変化の可能性を含む効果指標から総合的にプランを評価することができる。
上述した他主体処理は、例えば、装置障害あるいは性能変動によって実行される、クラスタにおける冗長パスの切り替え処理、クラスタにおける冗長パス間での負荷分散処理、データ移動処理、のいずれかひとつ、あるいは複数、あるいは全部であってもよい。これによれば、装置障害や性能変動によってクラスタの冗長パスの切り替えが生じた場合に生じるリソースの性能変化を考慮して、プランを評価することができる。
また、上述した性能変化評価指標は、計算機システムに含まれるリソースについて、リソースの性能が変化する可能性を示す情報と、当該性能の変化量を示す情報とを含む。これによれば、管理者は、リソースの性能変化の可能性とその変化量とを考慮して、プランを評価することができる。
また、他主体処理発生率算出プログラム1130は、上述したリソースの性能の変化量を、読み出し処理と書き込み処理のそれぞれについて算出することにしてもよい。これによれば、読み出し処理と書き込み処理とで性能変化が異なる場合に、それぞれの変化を考慮してプランを評価することができる。
また、他主体処理発生率算出プログラム1130は、リソースの性能の変化量を、他主体処理のタイプとリソースのタイプとに応じて、それぞれに算出することにしてもよい。これによれば、どの他主体処理による影響の可能性があるか、どのリソースへの影響の可能性があるかを考慮してプランを評価することができる。
また、上述したリソースの性能が変化する可能性を示す情報が、計算機システムにおいて収集されたイベント発生の履歴情報に基づいて算出されるイベントの発生頻度に関する情報であってもよい。これによれば、イベントの発生頻度を考慮してプランを評価することができる。
あるいは、リソースの性能が変化する可能性を示す情報が、計算機システムのハードウェア構成と計算機システムにおいて収集された障害履歴情報とに基づいて算出されるハードウェア障害の発生頻度に関する情報であってもよい。これによれば、ハードウェア構成とハードウェア障害の発生頻度を考慮してプランを評価することができる。
また、上述したハードウェア障害の発生頻度というのは、計算機システムのハードウェア構成から算出される故障間隔時間と、障害履歴情報から算出される故障間隔時間と、を用いて算出される値であってもよい。これによれば、ハードウェア構成から想定される故障間隔時間と、過去に実際に発生したハードウェア障害の故障間隔時間とに基づく指標から、プランを評価することができる。
上述した障害履歴情報は、例えば、交替パスソフトウェアが発行するパス障害メッセージと、計算機システム内で発生するイベント情報とから生成されるものである。
また、他主体処理考慮型プラン提示プログラム1120は、他主体処理考慮型プラン生成プログラム1110によって生成されたプラン(以下「第1のプラン」という)が、他主体処理により性能変化が生じるリソースに影響するならば、他主体処理により性能変化が生じるリソースに影響しないプラン(以下「第2のプラン」という)について、第1のプランの実行後に第2のプランを実行できるか否か判定し、実行できるならば、第1のプランおよび第2のプランの実行を含む一連のプラン(スケジュールプラン)を提示することにしてもよい。これによれば、他主体処理で性能変化するリソースへの影響がある第1のプランを提示するとき、そのリソースへの影響を解消できる第2のプランがあれば、それも含めたスケジュールを提示するので、リソースへの影響とその解消ができるかどうかを考慮してプランの評価を行うことができる。
構成情報テーブル1140は、サーバ3000から、サーバ3000が使用している論理ボリュームを構成するディスクプールまでのI/O(入出力)経路上に存在する装置及びデバイスを示す情報、すなわちI/O経路上の装置及びデバイスの接続関係を示す情報と、当該接続関係に対する他主体処理の設定を示す情報と、他主体処理における当該I/O経路のActiveあるいはStandbyといった役割と、他主体処理の設定におけるリソース占有の有無に関する情報とを格納する。これらの情報を以下「構成情報」という。
性能情報テーブル1150は、SAN4000に接続された監視対象の各装置、及び監視対象の装置内の各デバイス(監視対象デバイス)についての性能情報を格納する。性能変化情報テーブル1160は、他主体処理の設定内容を示す情報と、他主体処理が実行されることによって、どのように性能が変化するかの情報を格納する。プラン情報テーブル1170は、システムで問題が発生した場合などに実施する対策処理の情報を格納する。プラン詳細情報テーブル1180は、プラン情報テーブル1170に格納された対策処理の情報の詳細を格納する。イベント履歴情報テーブル1190は、計算機システム内のどのデバイスにいつイベントが発生し、いつ復旧したかに関する情報を格納する。
通信デバイス1200は、管理用ネットワーク5000に接続するためのデバイスである。プロセッサ1300は、メモリ1100上に展開されているプログラムを実行する。出力デバイス1400は、管理サーバ1000が実行した処理の結果、例えば、他主体処理考慮型プラン提示プログラム1120の実行結果等を出力するデバイス、例えばディスプレイ等である。入力デバイス1500は、管理者が管理サーバ1000に指示を入力するためのデバイス、例えばキーボード等である。記憶デバイス1600は、情報を格納するHDD(Hard Disk Drive)、SSD(Solid State Drive)等である。
図2に示す例では、各種プログラム及びテーブルは、メモリ1100に格納されているが、記憶デバイス1600または他の記憶媒体(図示しない)に格納されても良い。この場合、プロセッサ1300は、プログラム実行時にメモリ1100上に対象のプログラムを読みだし、読みだしたプログラムを実行する。また、ストレージ装置2000のメモリ2100またはサーバ3000のメモリ3100に、前述のプログラム及びテーブルが格納され、ストレージ装置2000またはサーバ3000が、格納されたプログラムを実行しても良い。また、他のサーバ3000またはスイッチ(図示しない)等の他の装置が、前述のプログラム及びテーブルを格納し、格納したプログラムを実行しても良い。
管理サーバ1000は、管理用ネットワーク5000を通して、サーバ3000上で動作するプログラムと通信できる。
ストレージ装置2000は、メモリ2100、論理ボリューム提供部2200、ディスクI/Fコントローラ2300、管理I/F2400、プロセッサ2500、及びディスクI/F2600を備え、これらは内部バス等の通信路2700を介して接続される。
メモリ2100は、ディスクキャッシュ2110を有する。また、メモリ2100は、構成性能情報収集プログラム2120を格納する。ディスクキャッシュ2110は、情報を一時格納するための記憶領域である。構成性能情報収集プログラム2120は、ストレージ装置2000の管理情報及び性能情報等を管理サーバ1000との間で送受信するためのプログラムである。
論理ボリューム提供部2200は、1以上の物理ディスク(図示しない)の記憶領域によって構成されるディスクプール2220を備え、ディスクプール2220の記憶領域を論理的に分割し、当該論理的に分割された記憶領域を論理ボリューム2210として提供する。これによって、当該ストレージ装置2000外の装置から論理ボリューム2210に対するアクセスを可能としている。なお、ディスクプールにはディスクプール番号が付され、論理ボリューム2210には論理ボリューム番号が付される。これによって、ストレージ装置2000は、ディスクプール2220及び論理ボリューム2210をそれぞれ一意に識別することができる。
図2に示す例では、1つのディスクプール2220(POOL1)が論理的に分割され、1つの論理ボリューム2210(LV1)がストレージ装置2000外の装置(例えば、サーバ3000)に提供される。ディスクI/Fコントローラ2300は、論理ボリューム提供部2200に接続するためのインタフェースデバイスである。
管理I/F2400は管理用ネットワーク5000に接続するためのインタフェースデバイスである。プロセッサ2500は、メモリ2100上に展開されたプログラムを実行する。ディスクI/F2600は、SAN4000に接続するためのインタフェースデバイスである。
図2に示す例では、ストレージ装置2000は、ディスクI/F(P1)を備える。図2に示す例では、構成性能情報収集プログラム2120は、メモリ2100に格納されているが、他の記憶装置(図示しない)または、他の記憶媒体(図示しない)に格納されても良い。この場合、プロセッサ2500は、処理実行時にメモリ2100上に構成性能情報収集プログラム2120を読みだし、読みだした構成性能情報収集プログラム2120を実行する。
また、管理サーバ1000のメモリ1100に構成性能情報収集プログラム2120が格納され、管理サーバ1000が、その格納された構成性能情報収集プログラム2120を実行しても良い。また、他のストレージ装置2000が、構成性能情報収集プログラム2120を格納し、格納した構成性能情報収集プログラム2120を実行しても良い。また、論理ボリューム提供部2200は、1つのディスクプール2220の全記憶領域を1つの論理ボリューム2210として作成しても良い。また、論理ボリューム提供部2200は、物理ディスク以外の記憶媒体、例えばフラッシュメモリ等の記憶領域によりディスクプール2220を作成しても良い。
サーバ3000は、メモリ3100、データI/F3200、プロセッサ3300、及び管理I/F3400を備え、これらは内部バス等の通信路3500を介して互いに接続される。
メモリ3100は、構成情報収集プログラム3110、業務プログラム3120、ボリューム管理プログラム3130、およびパス管理プログラム3140を格納する。
構成性能情報収集プログラム3110は、サーバ3000の管理情報、性能情報等を管理サーバ1000との間で送受信するためのプログラムである業務プログラム3120は、3000が実行する業務を実現するためのプログラムであり、例えば、DBMS(Data Base Management System)やファイルシステム等である。ボリューム管理プログラム3130は、ストレージ装置2000によって提供される論理ボリューム2210をサーバ3000に割り当てるためのプログラムである。サーバ3000は、ストレージ装置2000から提供された論理ボリューム2210を用いて、各種業務を実行する。パス管理プログラム3140は、サーバ3000と論理ボリューム2210の間のパスの状態を管理し、ボリュームまでのパスの異常を検出した場合には、パスの切り替え処理等をおこなうプログラムである。
図2に示す例では、各種プログラムはメモリ3100上に格納されているが、他の記憶装置(図示しない)に格納されていても良い。この場合、プロセッサ3300は、処理実行時にメモリ3100上の対象のプログラムを読みだし、読みだしたプログラムを実行する。
図2に示す例では、サーバAとストレージ装置Aとは、SAN4000を介して互いに接続される。ストレージ装置2000と物理サーバであるサーバ3000との間の接続は、ファイバチャネルを介して直接接続されるものに限定されず、1台以上のファイバチャネルスイッチ等のネットワーク機器を介して接続されても良い。また、ストレージ装置2000とサーバ3000との間の接続は、データ通信用のネットワークであれば良く、IP(Internet Protocol)ネットワークでも良い。
図3は、実施例に係る構成情報テーブルの一例の構成図である。
構成情報テーブル1140は、サーバ3000から当該サーバ3000に提供された論理ボリューム2210を構成するディスクプールまでのI/O経路に関する情報と、当該I/O経路の接続関係に対する他主体処理の設定を示す情報、他主体処理の設定における当該I/O経路の役割、そして他主体処理の設定におけるリソース占有有無情報から構成される。
構成情報テーブル1140は、サーバ401、VM402、ドライブ403、サーバデータI/F404、ストレージ405、ストレージデータI/F406、論理ボリューム407、及びディスクプール408、他主体処理設定409、他主体処理での役割410、リソース占有411のフィールドを含む。サーバ401には、サーバ3000を一意に識別するための識別子が格納される。VM402には、サーバ401上で動作するVMを一意に識別するための識別子が格納される。ドライブ403には、サーバ3000のマウントポイントをサーバ内で一意に識別するための識別子が格納される。サーバデータI/F404には、サーバ3000が、論理ボリューム407の識別子によって示される論理ボリューム2210にアクセスする際に利用されるサーバ3000のデータI/F3200(以下「サーバデータI/F」という場合がある)を一意に識別するための識別子が格納される。ストレージ405には、サーバ3000のアクセス先となるストレージ装置2000を一意に識別するための識別子が格納される。ストレージデータI/F406には、サーバ3000が、論理ボリューム407の識別子によって示される論理ボリューム2210にアクセスする際に利用される、ストレージ装置2000のデータI/F2600(以下「ストレージデータI/F」という場合がある)を一意に識別するための識別子が格納される。論理ボリューム407には、論理ボリューム2210を一意に識別するための識別子が格納される。ディスクプール408には、論理ボリューム407の識別子によって示される論理ボリューム2210が作成されているディスクプール2220を一意に識別するための識別子が格納される。401〜408のカラムには、計算機システムから収集した情報を追加すれば良く、一般的などのような手段によっても良い。
他主体処理設定409には、401から408までのカラムによって示されるI/O経路上に設定されている自動実行の他主体処理を一意に識別するための識別子が格納される。他主体処理での役割410には、他主体処理設定409の設定における、当該I/O経路の役割を示す。ここで、役割とは、例えば、クラスタ構成における「Active」パス、か「Standby」パスかなどのことを指す。408〜410のカラムにはパス管理プログラム3140等の持つ管理情報に基づきエントリが追加される。リソース占有411には、他主体処理が設定されている構成のリソースが占有されるかどうかを示す情報が格納される。例では、カラムの値が「占有」の場合、他主体処理が設定されている構成のリソースは占有されて他の処理からは利用できず、カラムの値が「非占有」の場合、他主体処理が設定されている構成のリソースは占有されておらず、他の処理から利用できる。411のカラムは例えば、管理者が登録する等して追加されるがこれに限定されない。
ここで、本実施例に係る構成情報テーブル1140は、アクセス経路上に存在する装置及びデバイスとして、サーバ3000、ストレージ装置2000等があるという情報を含んでいるが、これに限定されない。例えば、構成情報テーブル1140は、スイッチ、スイッチのデータI/F等の情報を含んでもよく、また、所定業務用のサーバ3000上の業務プログラム(DBMS等)の情報、VMのスナップショットを保存するスナップショットボリュームや、クローンを保存するクローンボリューム等を関連付けて格納してもよい。また、構成情報テーブル1140は、構成管理操作の履歴情報を保持していてもよく、syslog(シスログ)サーバ等と連携して、システム動作を表す詳細なログ情報を保持していてもよい。
図4は、実施例に係る性能情報テーブルの一例の構成図である。
性能情報テーブル1150には、計算機システムを構成する装置または装置内のデバイスに関する性能情報、例えば、各ストレージ装置2000における論理ボリューム2210、ディスクプール2220等に関する性能情報が格納される。性能情報テーブル1150にエントリを追加する手段は、一般的など、どのような手段によっても良い。
性能情報テーブル1150は、装置ID1151、デバイスID1152、メトリック1153、機器OS1154、性能値1155、アラート実行閾値1156、閾値種別1157、及びStatus1158のフィールドを含む。
装置ID1151には、装置を一意に特定する識別子(装置ID)が格納される。デバイスID1152には、性能情報の取得対象となるデバイスを一意に識別するための識別子(デバイスID)が格納される。メトリック1153には、CPU使用率、記憶装置に対する単位時間(例えば、1秒)あたりのI/O回数(IOPS)、リクエストに対するレスポンスの時間等の、性能情報の種類を示す情報が格納される。機器OS1154には、装置ID1151に示された装置IDに対応する装置上で動作するOS(Operating System)の種別を示すデータが格納される。性能値1155には、デバイスID1152によって示されたデバイスの、メトリック1153によって示された種類の性能情報の値が、デバイスを含む装置から取得されて格納される。アラート実行閾値1156には、管理対象の性能値の正常範囲の上限もしくは下限等の閾値(以下「アラート実行閾値」という)が、ユーザから指定されて格納される。閾値種別1157には、アラート実行閾値が正常値の上限であるのか下限であるのかを示すデータが格納される。Status1158には、性能値1155が正常値であるか異常値であるかを示すデータが格納される。
ここで、図4に示す性能情報テーブル1150では、任意の1つの装置の任意の1つのデバイスの任意の1つのメトリックに性能値が1つだけ対応しているが、性能情報テーブル1150の各情報を、各装置が保持する情報を取得した時刻と共に格納するようにし、取得した時刻に対応する複数の時点の性能値を履歴情報として保持してもよい。デバイスID1152に示されたデバイスIDによって示される、性能情報の取得対象のデバイスとして、ストレージデータI/F、論理ボリューム2210、ディスクプール2220、VM(図示しない)をあげたが、これらに限定されず、サーバデータI/Fや物理ディスク、スイッチやスイッチのポート等でもよい。
また、メトリックの一例として、CPU使用率、IOPS、リクエストに対するレスポンスの時間等を示したが、I/Oビジー率、転送レート、スループット、データベース管理ソフトのバッファヒット率や挿入・更新・削除レコード数、Webサーバのレスポンスの時間、ファイルシステムやディスクの空き容量や利用率、入出力データ量、利用時刻、ネットワークインタフェースのエラー回数、バッファのオーバーフロー、及びフレームのエラー等の他の性能指標が用いられてもよい。
また、アラート実行閾値1156に格納するアラート実行閾値として、ユーザによって指定された閾値ではなく、例えば、性能情報の履歴情報の平均値等を利用し、ベースライン値との差分値によるアラートを通知する契機となる閾値が採用されてもよい。
図5は、実施例に係る性能変化情報テーブルの一例の構成図である。性能変化情報テーブル1160には、システムにおける自動実行処理の設定情報、及び当該処理によってどのように性能が変化するかを示す情報が格納される。本実施例で、性能変化情報テーブル1160の情報はあらかじめ他主体処理タイプとリソースタイプ毎に、設定されているものとするが、これに限定されない。
他主体処理タイプ1161には、システムにおいて自動実行が設定されている他主体処理のタイプを示す情報が格納される。他主体処理タイプの例として、クラスタの冗長パス切り替え、冗長パス間での負荷分散処理、データ移動などがある。リソースタイプ1162には、他主体処理タイプ1161の設定において利用されるリソースのタイプを示す情報が格納される。設定1163には、他主体処理タイプ1161の設定における役割を示す情報が格納される。性能情報1164には、設定1163における役割を持つ場合に、他主体処理の実行により性能情報がどのようになるかを示す値が格納される。例えば、他主体処理設定がクラスタである場合、リソースタイプがディスクI/Fで設定が「Active」の場合、「All」によって全てのI/Oが当該ディスクI/Fを経由していることを表す。リソースタイプがディスクI/Fで、設定(役割)が「Standby」の場合、「0」によってI/Oは全く当該ディスクI/Fを経由しないことを表している。また、リソースタイプが論理ボリュームで設定が「Standby」の場合、「write only」によって、書き込みI/Oのみが当該ボリュームを経由することを表している。これにより、クラスタ構成でStandbyからActiveになると、ディスクI/Fについては、Active側を経由していたI/Oが全てStandby側を経由するようにI/O量が変化し、論理ボリュームについては、Active側を経由していた読み出しI/O分がStandby側を経由するようにI/O量が変化することが分かる。
図6は、実施例に係るプラン情報テーブルの一例の構成図である。プラン情報テーブル1170には、システム内で性能劣化等の問題があった場合の対処策(プラン)のリストが格納される。本テーブルに情報を格納する方法はどのような手段であっても良い。図6はプランがVM利用データ移動の例を示す。プランID1171には、プランを一意に識別するための識別子を格納する。プラン対象の移動対象1172には、移動対象となるVMを一意に識別するための識別子を格納し、移動元ストレージ1173にはVMのデータが格納されているストレージを、移動元プール1174にはVMのデータが格納されているプールを、移動元ボリューム1175にはVMのデータが格納されているボリュームを、それぞれ一意に識別するための識別子を格納する。
移動先ストレージ1176にはVMのデータが格納されているストレージを、移動先プール1177にはVMのデータが格納されているプールを、移動先ボリューム1178にはVMのデータが格納されているボリュームを、それぞれ一意に識別するための識別子を格納する。本実施例では、VM利用データ移動のプランの場合を記載しているが、その他の対処策、例えば、POOLへのディスク追加や、VM移動等でも良い。
図7は、実施例に係るプラン詳細情報テーブルの一例の構成図である。プラン詳細情報テーブル1180は、プランID1182には、プランを一意に識別するための識別子を格納する。リソースID1183には、リソースを一意に識別するための識別子を格納する。プラン実行後(IOPS)1184には、プランが発生したと仮定した場合に、どの程度の性能になりそうかを見積もった情報を格納する。他主体処理タイプ1185には、当該プランにおいて利用するリソースに対して、自動実行設定されている処理のタイプを示す情報が格納される。他主体処理が発生した場合の性能(IOPS)1186には、他主体処理が発生したと仮定した場合に、どの程度の性能になりそうかを見積もった情報を格納する。閾値超過フラグ1187には、ここで、全てのリソースに対して他主体処理が設定されていない場合であっても、プランにおいて関係するリソースについては、全て見積もりを実施することとしているが、これに限定されない。
図8は、実施例に係るイベント履歴情報テーブルの一例の構成図である。イベント履歴情報テーブル1190には、計算機システム内のどのデバイスにどのようなイベントが発生したかを示す情報を管理する。
イベント履歴情報テーブル1190は、イベントID1191、発生時刻1192、装置ID1193、リソースタイプ1194、リソースID1195、発生事象1196、影響波及範囲1197、回復時刻1198のフィールドを含む。イベントID1191には、イベント自身の識別子であるイベントIDが格納される。発生時刻1192には、イベントが発生した日時を示すデータが格納される。装置ID1193には、イベントが発生した装置の識別子が格納される。リソースタイプ1194には、イベントが発生したリソースの種別が格納される。リソースID1195には、イベントが発生したリソースの識別子が格納される。発生事象1196には、発生したイベントの内容を示す情報が格納される。影響波及範囲1197には、当該イベントに伴って発生したイベントのリソースの種別が格納される。ここで影響波及範囲を出すために、同時刻に発生したイベントを全て、当該イベントに伴って発生したとする、あるいは一般にRCA(Root Cause Analysis)と呼ばれる方法等の持つイベント間の関連情報を利用する等しても良く、どのような手段であっても良い。回復時刻1198は、当該イベントの発生事象が回復した時刻を示す。ここで、回復時刻には、イベントが発生しなくなったか時刻、あるいは当該リソースID1195で示されるリソースから情報を取得でき、取得情報が閾値超過していないことを確認できた時刻等が格納される。
次に、管理サーバ1000が実行する各処理について説明する。図9は、他主体処理を加味したプラン生成処理のフローチャートである。本処理は、管理サーバ1000のプロセッサ1300がメモリ1100上に展開された他主体処理考慮型プラン生成プログラム1110を実行することによって、実現される。
まず、他主体処理考慮型プラン生成プログラム1110は、プラン生成処理を実施する(ステップ3001)。ステップ3001は問題に対するプランを生成することができればよく、どのような方法によっても良い。プラン生成処理の結果生成されるプランの情報は、プラン情報テーブル1170、及びプラン詳細情報テーブル1180に格納され、その一例は、図6のプラン情報テーブル1170、及び図7のプラン詳細情報テーブル1180のプランID1182、リソースID1183、性能1184に示した通りである。
次に、他主体処理考慮型プラン生成プログラム1110は、プランに対する他主体処理の影響を加味する処理を実行し(ステップ3002)、続いて、プラン提示処理を実行し(ステップ3003)、処理を終了する。
図10は、プランに対する他主体が実行する処理の影響を加味する処理のフローチャートである。本処理は、管理サーバ1000のプロセッサ1300がメモリ1100上に展開された他主体処理考慮型プラン生成プログラム1110を実行することによって、実行される。
まず、他主体処理考慮型プラン生成プログラム1110は、図3の構成情報テーブル1140を参照し、システム内で設定されている他主体処理の情報を取得する(ステップ30021)。本実施例では、サーバA上の業務に対して、ストレージ装置Aの論理ボリュームLV1と、ストレージ装置Bの論理ボリュームLV2とでクラスタ構成が組まれている情報を取得する。
次に、プラン実行で利用するリソースと、プランを実行する主体と異なる他主体が実行する処理で利用するリソースをそれぞれ取得する(ステップ30022)。具体的にこの処理では、まずプラン詳細情報テーブル1180のリソースID1183を取得し、構成情報テーブル1140のエントリのうち、他主体処理設定409に値が格納されているエントリの各カラムのリソースをプラン実行に関連するリソースとして取得する。
続いて、プランと、他主体処理とでリソースの共用があるか否かを、ステップ30022で取得したリソースの重複の有無によって判定する(ステップ30023)。ステップ30023の判定の結果、リソースの共用が無い場合は処理を終了する。ステップ30023の判定の結果、リソースの共用がある場合は、構成情報テーブル1140のリソース占有411カラムの情報を参照し、リソースを共有する他主体処理が、リソースを占有するか否かを判定する(ステップ30024)。他主体処理がリソースを占有する場合は、処理を終了する。他主体処理がリソースを占有しない場合は、他主体処理が発生したと仮定した場合の性能情報の見積もりを実施する(ステップ30025)。見積もりの結果と条件を比較し(ステップ30026)、性能が条件を満たさない場合、プランを実行した場合に要件を満たさない可能性の高いプランであるとして、図7のプラン詳細情報テーブルの閾値超過フラグ1187を、閾値超過を表す状態に変更し(ステップ30027)、当該他主体処理の発生率を算出する(ステップ30028)。ここでは、閾値超過を表す状態の一例として、閾値超過フラグ1187に「Yes」を格納している。性能が条件を満たす場合、フラグをたてずに、当該他主体処理の発生率を算出する(ステップ30028)。他主体処理の発生率は、その他主体処理によるリソースの性能が変化する可能性を表している。なお、他主体処理が起動するイベントの発生率もリソースの性能が変化する可能性を表すので、イベント発生履歴情報(イベント履歴情報テーブル1190)に基づいて算出されるイベントの発生率(発生頻度)を用いることにしてもよい。
ここで、条件として、例えば性能情報テーブル1150に示したアラート実行閾値1156などを用いることができる。実行閾値の値は、管理者によって事前に設定された値でも良く、また、システムの過去の平均性能履歴の1.2倍の値を設定するなどして値を算出するなどしても良く、また、システムに要求されるSLA(Service Level Agreement)などから一定の値を設定しても良く、その方法は問わない。また、本実施例では、性能及び性能要件をプランの判断材料として利用したが、性能以外の指標、例えば容量や信頼性などをプランの判断材料として利用しても良い。
最後に、プラン情報テーブル1170及びプラン詳細情報テーブル1180の情報を更新する(ステップ30029)。
図11は、他主体処理が発生した場合の性能情報の見積もりを実施する処理のフローチャートである。本処理は、図10に示したステップ30025の詳細を示し、管理サーバ1000のプロセッサ1300がメモリ1100上に展開された他主体処理考慮型プラン生成プログラム1110を実行することによって、実行される。この処理により他主体処理による性能の変化量が得られる。
まず、図9のステップ3001において実施した性能見積もり結果の性能情報を参照する(ステップ251)。
次に、図5の性能変化情報テーブル1160を参照し、処理が発生した場合に性能がどのように変化するかに関する情報を取得する(ステップ252)。
例えば、図5に示した例の場合、他主体処理タイプがクラスタでリソースタイプがディスクI/Fの場合、ActiveのディスクI/FにすべてのI/Oが送られ、他主体処理タイプがクラスタでリソースタイプが論理ボリュームの場合、ActiveのボリュームにすべてのI/Oが送られ、Standbyの論理ボリュームに書き込みのI/Oが送られることがわかる。そして、取得した情報に基づいて、他主体処理が発生した場合に性能見積もりに変化が発生するかどうかを判定する(ステップ253)。
性能見積もりに変化がない場合は、処理を終了する。変化がある場合は、図4の性能情報テーブル1150から、他主体処理により利用されるリソースの性能情報を取得する(ステップ254)。処理が発生した場合に性能見積もりに発生する変化分、例えば、論理ボリュームの読み出しのI/O(図示しない)を性能値として取得する。続いて、ステップ251で取得した見積もり結果の情報とあわせて、他主体処理が発生したと仮定した場合の見積もり値を算出する(ステップ255)。ここで、算出する値は、他主体処理がActive−Standby構成のクラスタのような切り替え処理の場合は、性能の変化量が見積もり値となり、負荷分散構成(Active−Active構成)の場合は、性能の変化幅が見積もり値となる。見積もり方法としては、例えば、性能値として、性能情報テーブル1150から移動対象ボリューム、移動元プール、及び移動先プールの単位時間当たりのI/O量を取得し、移動対象ボリュームの単位時間当たりのI/O量の値を、移動元プールの単位時間当たりのI/O量から減算し、移動先プールの単位時間当たりのI/O量に加算して、ボリュームマイグレーション実行後の移動元プール及び移動先プールのI/O量を予測するなどしても良い。ここでは、単位時間のI/O量の値を性能値として利用したが、I/Oのレスポンスタイムなどを用いても良い。
図12は、他主体処理の発生率を算出する処理のフローチャートである。本処理は、図10に示したステップ30028の詳細を示し、管理サーバ1000のプロセッサ1300がメモリ1100上に展開された他主体処理発生率算出プログラム1130を実行することによって、開始される。
まず、他主体処理発生率算出プログラム1130は、イベント履歴情報テーブル1190から他主体処理で利用するリソースの障害履歴情報を取得する。この際、図10のステップ30022で取得したリソースの情報を利用して、障害履歴情報を取得し(ステップ281)、複数の履歴情報が存在するか否かを判定する(ステップ282)。複数の履歴情報が存在する場合は、当該履歴情報を用いて、処理の発生率を算出する(ステップ283)。ここで、同種の影響波及範囲1197を持つ履歴情報のみを発生率の算出に利用しても良い。
処理の発生率の求め方としては、例えば、基準値としてHW部品の仕様から算出した故障発生率<1÷MTBF(Mean Time Between Failure)>を利用し、その基準値と、過去の履歴から算出されたMTBF値(履歴値)との両方を用いる等すれば良いが、これに限定されるものではない。基準値と履歴値の両方を用いて処理の発生率を求める方法として、例えば<1÷((MTBF(基準値)+MTBF(履歴値))/2)>などがある。また、障害履歴が含まれている共有リソースが複数存在する場合、複数のリソースの稼働率を考慮して求めてもよい。たとえば、1−<1−1/MTBF(第一のリソース)>×<1−1/MTBF(第二のリソース)>などによって、複数リソース分の情報を考慮した故障率を算出することができる。ここで、発生率として、故障率を利用したが、稼働停止率、すなわち<1−(MTBF/MTTR(Mean Time To Repair)+MTBF)>などを用いても良い。
続いて、ステップ282の判定において、複数の履歴情報が含まれていない場合は、障害履歴情報テーブルから、他主体処理で利用するリソースと同じリソースタイプ1194の障害履歴情報を取得し(ステップ284)、複数の履歴情報が存在するか否かを判定する(ステップ285)。複数の履歴情報が存在する場合は、収集した履歴情報から発生率を算出し(ステップ286)、処理を終了する。複数の履歴情報が存在しない場合は、基準値を発生率として設定する(ステップ287)。
障害発生履歴テーブルの発生時刻1192、装置ID1193、リソースタイプ1194、リソースID1195、発生事象1196、回復時刻1198については、パス管理プログラム3140が発行するパス障害メッセージ、及びストレージ装置2000が発行するSIM(Service Information Message)の情報を取得して、管理サーバ1000の他主体処理考慮型プラン生成プログラム1110が取得した値を設定する。また、影響波及範囲1197については、一定時刻内に発生したイベントを全て、当該イベントに伴って発生したとして、各イベントのリソースタイプの情報を参照して設定する。障害発生履歴テーブルへの値の設定方法について、これに限定されるものではない。
図13は、プラン提示処理のフローチャートである。本処理は、図9に示したステップ3003の詳細であり、管理サーバ1000のプロセッサ1300がメモリ1100上に展開された他主体処理考慮型プラン提示プログラム1120を実行することによって、開始される。
まず、ステップ31で図6のプラン情報テーブル1170、及び図7のプラン詳細情報テーブル1180に格納したプラン情報を取得する(ステップ31)。次に、取得したプラン詳細情報テーブル1180の情報のうち、他主体処理タイプカラムにエントリがあるかどうかを判定し(ステップ32)、エントリが存在しない場合、ステップ34の処理に進む。エントリが存在する場合、プラン性能の信頼度を算出し(ステップ33)、当該情報、他主体処理が発生した場合の性能1186、および閾値超過フラグ1187も含めてプランの情報を画面に表示し(ステップ34)、処理を終了する。
ここで、プラン性能の信頼度は、図12のフロー30028で求めた発生率に基づき算出される。例えば、他主体処理の発生率が0%以上、0.1%未満であれば、信頼度を「High」に設定し、0.1%以上、1%未満であれば、信頼度を「Middle」に設定し、1%以上であれば、信頼度を「Low」に設定するなど、他主体処理の発生率に基づき複数レベルの信頼度を設定すればよい。
図14は、実施例に係るプラン提示画面の一例の構成図である。プラン提示画面9000は、計算機システムにおいて問題が発生した場合に、管理者が対策を実施する際に参照する情報を表示した画面である。具体的には、プラン提示画面9000に、問題に対する対策として取り得るプランのリストを示す表示領域9001と、各プランを実行したと仮定した場合の見積もり性能を正規化した情報を示す表示領域9002と、プランの見積もりがどの程度変動しにくいかを表す、見積もり性能の信頼度の情報を示す表示領域9003と、プランの見積もり性能が変動する要因となり得る影響事象の情報を示す表示領域9004と、プランの詳細を表示する操作のためのプラン詳細ボタン9005と、プランを実行する操作のためのプラン実行ボタン9006が表示されている。
表示領域9001には、プランの情報として、例えば、プランの内容を示す情報、プランを実行するのにかかるコスト、プランの実行に要する時間(すなわち、障害が残り続ける時間であり、「ダウンタイム」ともいう)、プランを実行した場合の見積もり性能情報(「性能ランク」と呼ぶこともある)などが表示される。加えて、性能の信頼度を示す情報と、見積もり性能情報に影響を与える契機となる事象を示す情報が含まれている。
表示領域9002に示すプランを実行したと仮定した場合の性能情報としては、例えば、図9に示したプラン生成処理のステップ3001で見積もられ、図7に示したプラン情報テーブル1170のプラン対象に格納されたプラン実行した場合の性能の見積もり値、例えば、プラン詳細情報テーブル1180のプランを実行した場合の性能1184の値が利用される。本実施例では、IOPSの見積もり値を性能の優劣に応じて分類し、星型のマークの数によって表現しているが、これ以外の表現、例えば、I/Oのレスポンスタイムの見積もり値が表示されてもよいし、そのほかの性能の見積もり値が表示されてもよい。また、複数の指標の性能の見積もり値が表示されてもよい。
ここで、候補となる複数のプランの表示順序を、プランを実行したと仮定した場合の見積もり値の良いものから順番に並べたり、実行に要する時間の短いものから順番に並べたりする等、プランの特徴に基づいて並べ替えを行えるようにしてもよい。
性能の信頼度(表示領域9003)として、他主体処理によって影響を受けるか否かの情報を提示する。本実施例では、影響を受ける、すなわち信頼度の低いものを「×Low」とし、影響を受けない、すなわち信頼度の高いものを「○High」と示したが、これに限定されるものでなく、どの程度の影響を受けるか、例えばIOPSの変化量などによって、より多段階の判定指標を表示しても良い。
影響事象(表示領域9004)として、他主体処理の設定タイプを示す情報を提示する。他主体処理の設定に影響を与えないプランの場合は「−」としてしたが、これに限定されるものではない。
図15は、実施例に係るプラン詳細提示画面の一例の構成図である。
プラン詳細提示画面9100は、計算機システムにおいて問題が発生した場合に、管理者が対策を実施する際に参照する情報として、プランの詳細を表示する際に選択され、プラン詳細9005が押下された場合に、プランについての詳細を表す情報を示す画面である。
具体的には、プランの実行によって影響を受けるリソースを示す表示領域9101と、プランの実行が行われる前の性能、すなわち現時点での性能を示す表示領域9102と、プランを実行したと仮定した場合の見積もり性能を示す表示領域9103と、影響が発生する他主体処理のタイプを示す表示領域9104と、他主体処理の発生確率を示す表示領域9105と、他主体処理が実行されたと仮定した場合の見積もり性能を示す表示領域9106を提示する。
なお、例えば、表示領域9001において、プラン実行前の性能値及びプラン実行後の性能値の予測値がトレンド情報としてグラフ形式で表示されてもよい。
図14、図15は、プラン表示画面の一例であり、プラン実行にかかるコスト、プラン実行に要する時間以外のプランの特徴を表す情報、例えば、プランに関係するリソースを利用している業務であってプラン実行時に影響が波及する可能性のある業務の一覧等が、表示領域9001にあわせて表示されてもよく、更に他の表示態様が採用されてもよい。
図16は、プラン提示処理の変形例のフローチャートである。図13に示したプラン提示処理のうち、31〜34については、図13のものと同一の処理のため、説明を省略する。
ステップ35では、システム内で実行予定のタスクのスケジュール情報を取得する。ここで、スケジュール情報については、あるプランを実行した後に他のプランを実行するというようにスケジュール化された一連のプランを示す情報であり、管理者の手入力あるいは管理サーバ1000上のプログラムによって生成され、システム内で保持される(図示しない)。次に、スケジュールされているタスクを実行した場合の性能見積もりを実施する。ここで、見積もりは、プランの見積もりと同様の方法により実行することとする(ステップ36)。続いて、ステップ37では、スケジュールされているタスクを実行した場合の性能見積もりに基づき、プラン生成処理を実施する。本処理は、図9に示したステップ3001の処理と同様のため説明を省略する。
例えば、迅速に実行可能な暫定的な最初のプランが、他主体処理により性能変化が生じるリソースに影響するならば、他主体処理により性能変化が生じるリソースに影響しない次のプランを後刻に実行するというようなスケジュールプランをスケジュール情報として予めシステム内に保持しておくことが考えられる。そして、最初のプランを実行した後に次のプランを実行できるか否か判定し、実行できるならば、そのようなスケジュールプランを提示すればよい。
図17は、変形例におけるプラン提示画面の一例である。プラン提示画面9000の表示領域9001〜9004は図14と、表示領域9106は図15とそれぞれ同一の内容のため、説明を省略する。図17の例では、POOL3からPOOL2へのVM1のデータ移動プランStep(1)だけでなく、図16に示したフローのステップ37において生成されたプランの情報を元に、POOL2からPOOL6へのVM1のデータ移動プランStep(2)も提示し、一連のスケジュールプランを提示している。加えて、Step(1)からStep(2)と続くスケジュールプランをガントチャートとして表すことで、管理者の判断を容易にしている。この際、プランの実行に要する時間を、合わせて提示することで、実行にかかる時間を、実行をするか否かの判断材料として提示している。
プラン実行にかかる時間については、例えば、データ移動のプランの場合、管理サーバ1000は、移動元及び移動先のそれぞれの記憶デバイスのメディア種別とRAIDレベルとの組み合わせごとに、単位時間(例えば1秒)当たりにどの程度の容量のデータを移動できるかを示すデータをあらかじめ保持しておき、移動する容量に応じて算出してもよい。ここで、管理サーバ1000は、実環境における利用状況に応じて、移動にかかる時間が変動することを考慮し、過去の履歴情報を利用して、単位時間当たりの移動可能容量を算出し、あらかじめ保持している情報を、履歴情報を利用して補正してもよい。例えば、あらかじめ保持している情報と履歴情報との平均をとるなどが考えられる。ここで、求め方の一例を示したが、上記方法に限定されず、他の求め方が採用されてもよい。
本実施例では、他主体処理として、クラスタ構成におけるパス切り替えの処理を主に取り上げたが、その他の例として、例えば、VMのホスト間で自動的にロードバランシングや、ストレージの負荷分散構成(Active−Active構成)の場合にも同様に適用できる。
システム内で発生したイベントへの対処策を生成する際に、対処策となるプランを実行した場合の構成で利用するリソースに関連する、他主体処理によって、プランを実行した場合の構成で利用するリソースの性能が変化する可能性を示す情報と、その性能の変化量を、プラン実行の効果指標として算出し、提示することで、冗長構成における切り替え処理など、プランの実行とは別の制御下で動作する他主体処理を考慮してプランを導出することが可能となる。
なお、本発明は、以上説明した実施例に限定されるものでなく、その趣旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
1000…管理サーバ、1100…メモリ、1200…通信デバイス、1300…プロセッサ、1400…出力デバイス、1500…入力デバイス、1600…記憶デバイス、1700…内部バス、2000…ストレージ装置、2100…メモリ、2110…ディスクキャッシュ、2200…論理ボリューム提供部、2210…論理ボリューム、2220…ディスクプール、2300…ディスクI/Fコントローラ、2400…管理I/F、2500…プロセッサ、2600…データI/F、2700…通信路、3000…サーバ、3100…メモリ、3200…データI/F、3300…プロセッサ、3400…管理I/F、3500…通信路、4000…SAN、401…サーバ、402…VM、403…ドライブ、404…サーバデータI/F、405…ストレージ、406…ストレージデータI/F、5000…管理用ネットワーク



Claims (14)

  1. 計算機システムで発生したイベントに対する対処策であるプランを生成する管理システムであって、
    前記イベントに応じてプランを生成するプラン生成手段と、
    前記プラン生成手段によって生成されたプランを実行した場合に、前記プランの主体と異なる他主体によって実行される他主体処理により生じる可能性がある、前記計算機システムのリソースの性能変化に関する情報を、前記プランについての性能変化評価指標として生成する指標生成手段と、
    を有する、管理システム。
  2. 前記プラン生成手段によって生成されたプランと、前記指標生成手段によって生成された性能変化評価指標とを提示するプラン提示手段を更に有する、
    請求項1に記載の管理システム。
  3. 前記プラン提示手段は、前記性能変化評価指標を、前記プラン実行に関する他の効果指標と共に提示する、
    請求項2に記載の管理システム。
  4. 前記他主体処理は、
    装置障害あるいは性能変動によって実行される、
    クラスタにおける冗長パスの切り替え処理、
    クラスタにおける冗長パス間での負荷分散処理、
    データ移動処理、の少なくとも一つを含む、
    請求項1に記載の管理システム。
  5. 前記性能変化評価指標は、前記計算機システムに含まれるリソースについて、前記リソースの性能が変化する可能性を示す情報と、当該性能の変化量を示す情報とを含む、
    請求項1に記載の管理システム。
  6. 前記リソースの性能の変化量は、読み出し処理と書き込み処理のそれぞれについて算出される、
    請求項5に記載の管理システム。
  7. 前記リソースの性能の変化量は、前記他主体処理のタイプと前記リソースのタイプとに応じて、それぞれに算出される、
    請求項5に記載の管理システム。
  8. 前記リソースの性能が変化する可能性を示す情報は、前記計算機システムにおいて収集されたイベント発生の履歴情報に基づいて算出されるイベントの発生頻度に関する情報である、
    請求項5に記載の管理システム。
  9. 前記リソースの性能が変化する可能性を示す情報は、前記計算機システムのハードウェア構成と前記計算機システムにおいて収集された障害履歴情報とに基づいて算出されるハードウェア障害の発生頻度に関する情報である、
    請求項5に記載の管理システム。
  10. 前記ハードウェア障害の発生頻度は、前記計算機システムのハードウェア構成から算出される故障間隔時間と、前記障害履歴情報から算出される故障間隔時間と、を用いて算出される、
    請求項9に記載の管理システム。
  11. 前記障害履歴情報は、交替パスソフトウェアが発行するパス障害メッセージと、前記計算機システム内で発生するイベント情報とから生成される、
    請求項9に記載の管理システム。
  12. 前記プラン提示手段は、前記プラン生成手段によって生成された第1のプランが、前記他主体処理により性能変化が生じるリソースに影響するならば、前記他主体処理により性能変化が生じるリソースに影響しない第2のプランについて、前記第1のプランの実行後に前記第2のプランを実行できるか否か判定し、実行できるならば、前記第1のプランおよび前記第2のプランの実行を含むスケジュールプランを提示する、
    請求項2に記載の管理システム。
  13. 計算機システムで発生したイベントに対する対処策であるプランを生成するプラン生成方法であって、
    プラン生成手段が、前記イベントに応じてプランを生成し、
    指標生成手段が、前記プラン生成手段によって作成されたプランを実行した場合に、前記プランの主体と異なる他主体によって実行される他主体処理により生じる可能性がある、前記計算機システムのリソースの性能変化に関する情報を、前記プランについての性能変化評価指標として生成する、プラン生成方法。
  14. 計算機システムで発生したイベントに対する対処策であるプランをコンピュータに生成させるためのプラン生成プログラムであって、
    前記イベントに応じてプランを生成する手順と、
    前記プラン生成手段によって作成されたプランを実行した場合に、前記プランの主体と異なる他主体によって実行される他主体処理により生じる可能性がある、前記計算機システムのリソースの性能変化に関する情報を、前記プランについての性能変化評価指標として生成する手順とをコンピュータに実行させるためのプラン生成プログラム。

JP2015544695A 2013-10-30 2013-10-30 管理システム、プラン生成方法、およびプラン生成プログラム Expired - Fee Related JP6190468B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/079411 WO2015063889A1 (ja) 2013-10-30 2013-10-30 管理システム、プラン生成方法、およびプラン生成プログラム

Publications (2)

Publication Number Publication Date
JPWO2015063889A1 true JPWO2015063889A1 (ja) 2017-03-09
JP6190468B2 JP6190468B2 (ja) 2017-08-30

Family

ID=53003537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015544695A Expired - Fee Related JP6190468B2 (ja) 2013-10-30 2013-10-30 管理システム、プラン生成方法、およびプラン生成プログラム

Country Status (3)

Country Link
US (1) US9747156B2 (ja)
JP (1) JP6190468B2 (ja)
WO (1) WO2015063889A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9052938B1 (en) * 2014-04-15 2015-06-09 Splunk Inc. Correlation and associated display of virtual machine data and storage performance data
US20160170821A1 (en) * 2014-12-15 2016-06-16 Tata Consultancy Services Limited Performance assessment
US10726366B2 (en) * 2015-04-14 2020-07-28 International Business Machines Corporation Scheduling and simulation system
US10599509B2 (en) 2015-12-21 2020-03-24 Hitachi, Ltd. Management system and management method for computer system
US11307950B2 (en) * 2019-02-08 2022-04-19 NeuShield, Inc. Computing device health monitoring system and methods
US10877820B1 (en) * 2019-09-30 2020-12-29 Arm Limited Application event delivery
JP7163341B2 (ja) * 2020-06-10 2022-10-31 株式会社日立製作所 計算機システム及び計算機システムの制御方法
JP2022053363A (ja) * 2020-09-24 2022-04-05 株式会社日立製作所 ストレージ装置および管理処理方法
US20220121394A1 (en) * 2020-10-20 2022-04-21 Micron Technology, Inc. Identifying memory hotspots

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005141605A (ja) * 2003-11-10 2005-06-02 Hitachi Ltd 予測に基づいた計算機リソース配分方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0128271B1 (ko) * 1994-02-22 1998-04-15 윌리암 티. 엘리스 재해회복을 위한 일관성 그룹 형성방법 및 레코드갱싱의 섀도잉 방법, 주시스템, 원격데이타 섀도잉 시스템과 비동기 원격데이타 복제 시스템
JP2006065659A (ja) * 2004-08-27 2006-03-09 Fujitsu Ltd コンピュータ動作記録プログラム、コンピュータ動作解決プログラム、コンピュータ、管理装置、および方法
JP4900784B2 (ja) * 2006-04-13 2012-03-21 株式会社日立製作所 ストレージシステム及びストレージシステムのデータ移行方法
US7814369B2 (en) * 2008-06-12 2010-10-12 Honeywell International Inc. System and method for detecting combinations of perfomance indicators associated with a root cause
US8112378B2 (en) * 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
JP5237034B2 (ja) * 2008-09-30 2013-07-17 株式会社日立製作所 イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
US8166351B2 (en) * 2008-10-21 2012-04-24 At&T Intellectual Property I, L.P. Filtering redundant events based on a statistical correlation between events
US7954010B2 (en) * 2008-12-12 2011-05-31 At&T Intellectual Property I, L.P. Methods and apparatus to detect an error condition in a communication network
US8055945B2 (en) * 2009-02-02 2011-11-08 International Business Machines Corporation Systems, methods and computer program products for remote error resolution reporting
JP5385982B2 (ja) * 2009-07-16 2014-01-08 株式会社日立製作所 障害の根本原因に対応した復旧方法を表す情報を出力する管理システム
JP5719974B2 (ja) * 2012-09-03 2015-05-20 株式会社日立製作所 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005141605A (ja) * 2003-11-10 2005-06-02 Hitachi Ltd 予測に基づいた計算機リソース配分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
永井崇之,外4名: "ITシステム向け障害対処プラン自動生成システムの検討", 電子情報通信学会技術研究報告, vol. 第112巻、第492号, JPN6014003618, 7 March 2013 (2013-03-07), JP, pages 125 - 130, ISSN: 0003603527 *

Also Published As

Publication number Publication date
US20150370627A1 (en) 2015-12-24
WO2015063889A1 (ja) 2015-05-07
JP6190468B2 (ja) 2017-08-30
US9747156B2 (en) 2017-08-29

Similar Documents

Publication Publication Date Title
JP6190468B2 (ja) 管理システム、プラン生成方法、およびプラン生成プログラム
JP5719974B2 (ja) 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
JP6373482B2 (ja) コンピュータ環境を統制し分析するためのインターフェース
JP5427011B2 (ja) 仮想ハードディスクの管理サーバおよび管理方法、管理プログラム
US8738961B2 (en) High-availability computer cluster with failover support based on a resource map
US9652326B1 (en) Instance migration for rapid recovery from correlated failures
US9841986B2 (en) Policy based application monitoring in virtualized environment
US9037826B1 (en) System for optimization of input/output from a storage array
US9146793B2 (en) Management system and management method
US9658778B2 (en) Method and system for monitoring and analyzing quality of service in a metro-cluster
US20160020965A1 (en) Method and apparatus for dynamic monitoring condition control
JP6009089B2 (ja) 計算機システムを管理する管理システム及びその管理方法
JP2010086516A (ja) 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム
US8904063B1 (en) Ordered kernel queue for multipathing events
JP4920248B2 (ja) サーバの障害回復方法及びデータベースシステム
US10225158B1 (en) Policy based system management
US9804993B1 (en) Data volume placement techniques
US20150074251A1 (en) Computer system, resource management method, and management computer
EP2645635B1 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
US9021078B2 (en) Management method and management system
US9130880B2 (en) Management system and information acquisition method
JP5684640B2 (ja) 仮想環境管理システム
US20200394091A1 (en) Failure analysis support system, failure analysis support method, and computer readable recording medium
JP5993052B2 (ja) 複数の監視対象デバイスを有する計算機システムの管理を行う管理システム
US11379354B1 (en) Data volume placement techniques

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170804

R150 Certificate of patent or registration of utility model

Ref document number: 6190468

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees