WO2015037103A1

WO2015037103A1 - サーバシステム、計算機システム、サーバシステムの管理方法、及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: WO2015037103A1
Application number: PCT/JP2013/074725
Authority: WO
Inventors: 鉄夫河村; 俊治梅原
Original assignee: 株式会社日立製作所
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2015-03-19
Also published as: US20160266987A1; JP6063576B2; JPWO2015037103A1; US9792189B2

Abstract

　物理計算機として利用する現用サーバと予備サーバのＨ／Ｗ構成が異なる場合であっても予備サーバへの引き継ぎを可能とし、Ｈ／Ｗリソースを活用することでサーバの可用性を向上させる。本発明では、現用サーバと予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、ハードウェア構成一致ポリシー情報を参照して、現用サーバと予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定する。また、現用サーバと予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出する。そして、現用サーバと予備サーバの組み合わせのそれぞれについての、ハードウェア構成の隠蔽の有無の情報及び引き継ぎ可否の情報と、構成一致率の情報に基づいて、現用サーバの引き継ぎ先である予備サーバを割り当てる（図１参照）。

Description

サーバシステム、計算機システム、サーバシステムの管理方法、及びコンピュータ読み取り可能な記憶媒体

　本発明は、サーバシステム、計算機システム、サーバシステムの管理方法、及びコンピュータ読み取り可能な記憶媒体に関し、例えば、計算機システムのサーバで障害が発生した際にサーバを交替し、障害からサーバを回復させるための技術に関するものである。

　複数のサーバを備える計算機システムにおいては、業務が稼動中であるサーバ（現用サーバ）で障害が発生したとき、現用サーバで稼動中の業務を予備サーバへ引き継ぐことにより計算機システムの可用性を向上させる場合がある。

　この引き継ぎ方法の１つとして、障害の発生した現用サーバが利用していたブートディスク（論理ユニット）を、業務の稼動していない予備サーバが起動することによって、現用サーバの業務を予備サーバへ引き継ぐ障害回復方法がある。この方法では、計算機システムに複数の現用サーバが存在する場合に、どの現用サーバで障害が発生しても障害の回復が可能であり、多数の現用サーバに対して少数の予備サーバを準備することによって、高い信頼性を得ることができる。

　しかしながら、本方式は引き継ぎ時に業務を稼動するＯＳの設定は最小限のため、高い信頼性を得るには引き継ぎ前と引き継ぎ後のＨ／Ｗ（Hardware）構成の差異が最小限であることが望ましい。特に、Ｈ／Ｗ構成が大きく異なる場合、引き継ぎできない可能性がある。この引き継ぎできない可能性をなくすには、異なるＨ／Ｗ構成でもＯＳが正常に動作するように専用のシステムやＯＳの設計をする必要がある。

　また、物理的なＨ／Ｗ構成に対しては多くの制約があるため、一般的に計算機の物理構成を合わせるためには、予め同一のＨ／Ｗ構成の計算機を用意することで対応する必要がある。このような状況に対処するため、特許文献１で示されるように、仮想計算機を構築する方法が挙げられる。仮想計算機の構成を同一にすることで物理構成が異なる場合に引き継ぎできない問題を解決する。

特開２００８－２９３２４５号公報

　しかしながら、特許文献１に示される方法を用いた場合、物理計算機から仮想計算機間の引き継ぎはできない。このため、現用サーバが物理計算機でシステムを稼動していた場合には特許文献１による方法を用いたとしてもサーバを引き継ぐことができない。

　そこで、物理計算機からの引き継ぎにおいて、Ｈ／Ｗ構成が一致する必要のある部分に関して、ソフトウェア上で認識する物理構成を一致させることにより、異なるＨ／Ｗ構成を持つ物理計算機へ引き継ぐことを可能にする必要がある。

　しかし、構成を一致させることのみを考慮して引き継ぐと、Ｈ／Ｗリソースの非効率な引き継ぎを行ってしまう可能性がある。

　また、Ｈ／Ｗ構成が異なる場合にサーバの引き継ぎを行う場合には、次のような課題が生じる。つまり、まず、Ｉ／Ｏ構成が異なる場合に、引き継ぎ前と後のＩ／Ｏのブートオーダが変わることで、論理ユニットを正しく読み込むことができずＯＳが起動できないことである。また、ＯＳが起動した場合においても、Ｉ／Ｏの数に応じてＯＳ上でＩ／Ｏの認識作業が必要なことである。さらに、ＣＰＵコアのソケット数やコア数が増加する場合、ソフトウェアライセンスの制約を受ける可能性があることである。

　そして、従来の計算機システムの構成では、隠蔽可能なＨ／Ｗの差分情報が無いことや、構成一致のための隠蔽を行う機構が無いことから、構成を一致させるためのＨ／Ｗ隠蔽処理を機械的に実行することができない。また、上述のように、物理構成を一致させて引き継ぐことにより単に構成を一致させて引き継ぐのみでは、Ｈ／Ｗリソースを最大限活用できず、非効率な引き継ぎを行ってしまう可能性もある。元々構成が一致しているサーバではなく、構成が一致していないサーバを構成一致のために隠蔽して引き継ぐと、構成が一致しているサーバに引き継ぐ場合に比べて無駄なＨ／Ｗリソースが発生する可能性がある。また、１台の予備サーバに引き継ぎ可能な現用サーバが集中している場合、構成を一致させてそのサーバに引き継ぐと、他の現用サーバが引き継ぐことができなくなるといった事態が生じる。

　本発明はこのような状況に鑑みてなされたものであり、他の現用サーバの状態を加味し、Ｈ／Ｗリソースを効率的に利用した引き継ぎを実現するための技術を提供するものである。

　上記課題を解決するために、本発明では、現用サーバ及び予備サーバ間でＨ／Ｗ構成が同一である必要のある部分に関して、ソフトウェア上で認識する物理構成を同一にすることで物理計算機への引き継ぎを行う。

　より具体的には、本発明によるサーバシステムは、業務を処理し、稼働中の少なくとも１つの現用サーバと、現用サーバが故障した際に当該故障した現用サーバの業務を引き継がせるために用意された少なくとも１つの予備サーバと、現用サーバ及び前記予備サーバを監視し、サーバの切り替えを制御するローカル管理計算機と、を有する。このローカル管理計算機は、現用サーバの業務の引き継ぎ先である予備サーバの割り当て処理を実行するプロセッサと、サーバの引き継ぎを可能とするハードウェア構成の条件を示すハードウェア構成一致ポリシー情報を少なくとも格納するメモリと、を有している。そして、ローカル管理計算機のプロセッサは、現用サーバ及び予備サーバからそれぞれのハードウェア構成情報を取得する処理と、取得したハードウェア構成情報に基づいて、現用サーバと予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、メモリから読み出したハードウェア構成一致ポリシー情報を参照して、現用サーバと予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定する処理と、現用サーバと予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出する処理と、現用サーバと予備サーバの組み合わせのそれぞれについての、ハードウェア構成の隠蔽の有無の情報及び引き継ぎ可否の情報と、構成一致率の情報に基づいて、現用サーバの引き継ぎ先である予備サーバを割り当てる処理と、
を実行する。

　本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。

　本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。

　本発明によれば、他の現用サーバの状態を加味して、Ｈ／Ｗリソースを効率的に利用し、現用サーバから予備サーバへの引き継ぎを実行することができるようになる。

本発明の実施の形態の計算機システム１の全体構成例を示すブロック図である。引き継ぎ機能有効時の引き継ぎ先サーバ決定の手順を説明するための図である。障害発生時の現用サーバから予備サーバへの切り替えの手順を説明するための図である。隠蔽可能なＨ／Ｗ情報を示すＨ／Ｗ構成テーブルの構成例を示す図である。Ｈ／Ｗ構成を一致させるポリシーを示すＨ／Ｗ構成一致ポリシーテーブルの構成例を示す図である。Ｈ／Ｗ構成一致処理を説明するためのフローチャートである。Ｈ／Ｗ構成一致処理によって生成される構成一致情報テーブルの構成例を示す図である。割り当て決定情報テーブル更新処理を説明するためのフローチャートである。割り当て決定情報テーブル更新処理によって得られる割り当て決定情報テーブルの構成例を示す図である。現用サーバの割り当て変更ポリシーの構成例（１）を示す図である。現用サーバの割り当て変更ポリシーの構成例（２）を示す図である。割り当て決定処理を説明するためのフローチャートである。新規作成時（初期化時）の割り当てテーブルの例を示す図である。図１０の割り当て変更ポリシーを用いて割り当てを変更した際に得られる割り当てテーブルの例を示す図である。図１１の割り当て変更ポリシーを用いて割り当てを変更した際に得られる割り当てテーブルの例を示す図である。

　以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

　本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

　更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

　なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。

　また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ＩＤ」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。

　以下で各種制御部を主語（動作主体）として本発明の実施形態における各処理について説明を行うが、各種制御部の動作はプログラムとして記述することも可能であり、このプログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート（通信制御装置）を用いながら行う。このため、プロセッサを主語とした説明としてもよい。また、プログラムがプロセッサと協働して実行する処理に関し、プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによってインストールされてもよい。

　＜計算機システムの構成＞
　図１は、本発明の実施形態による計算機システムの全体構成を示すブロック図である。計算機システム１は、現在サーバとして動作している現用サーバ１００と、現用サーバが故障したときに当該現用サーバの動作を引き継ぐ予備サーバ１０１と、現用サーバ１００や予備サーバ１０１を監視するＳＶＰ１０２（Service Processor：ローカル管理計算機ということもできる）と、計算機システム１における現用サーバ１００、予備サーバ１０１、及びＳＶＰ１０２を監視するための管理プログラム１０３を有する管理計算機（グローバル管理計算機）と、を有している。現用サーバ１００、予備サーバ１０１、及びＳＶＰ１０２は、例えば１つのシャーシに格納された１つのブレードサーバを構成している。管理計算機（グローバル管理計算機）の管理プログラム１０３は、複数のブレードサーバに亘って現用サーバ１００、予備サーバ１０１、及びＳＶＰ１０２の動作を監視している。

　現用サーバ１００と予備サーバ１０１は、ＢＭＣ１１０（Baseboard Management Controller）とＣＰＵソケット１２０及び１２１と、ＣＰＵコア１３０及び１３１、ＤＩＭＭ（Dual Inline Memory Module）１４０と、Ｉ／Ｏスロット１５０と、を有する。そして、ＢＭＣ１１０は、ＣＰＵ隠蔽制御部１１１と、ＤＩＭＭ隠蔽制御部１１２と、Ｉ／Ｏ隠蔽制御部１１３と、を有している。なお、各制御部は、上述のように、プログラムで構成しても良い。

　ＳＶＰ１０２は、業務を引き継ぐための制御部であるＮ＋Ｍ制御部１６０と、Ｈ／Ｗ構成情報を持つＨ／Ｗ構成テーブル１６５（図４参照）と、Ｈ／Ｗ（Hardware）構成を一致させる時のポリシーを定義するＨ／Ｗ構成一致ポリシー格納部（格納領域）１６６（図５参照）と、現用サーバと予備サーバの構成を一致させるための予備サーバの設定情報である構成一致情報テーブル１６７（図７参照）と、割り当て変更ポリシーを格納する割り当て変更ポリシー格納部（格納領域）１６８（図１０又は１１参照）と、を有している。なお、Ｎ＋Ｍ制御部１６０のＮは現用サーバの数を示し、Ｍは予備サーバの数を示している。単に、制御部と言い換えても良い。

　Ｎ＋Ｍ制御部１６０は、引き継ぎに必要な設定情報（各サーバのＢＭＣの情報）を取得するＣｏｎｆ取得制御部１６１と、サーバの切り替えを制御する引き継ぎ制御部１６２と、サーバの隠蔽可能なＨ／Ｗ情報を取得するＨ／Ｗ構成取得制御１６３と、現用サーバと予備サーバのＨ／Ｗ構成を一致させるための情報を作成しＢＭＣ１１０へ送信するＨ／Ｗ構成一致制御部１６４と、を有している。なお、各制御部は、上述のように、プログラムで構成しても良い。

　現用サーバ１００は、ＯＳを起動して、業務が稼動しているサーバである。予備サーバ１０１は現用サーバの故障に対し、業務を引き継ぐための待機サーバである。予備サーバ１０１は現用サーバとＨ／Ｗ構成が異なっていても良く、必ずしも稼動している必要は無い。また、本実施例での現用サーバ及び予備サーバのモジュールはＣＰＵ１２０－１２１、ＤＩＭＭ１４０、Ｉ／Ｏスロット１５０であるが、ＢＭＣ１１０に隠蔽制御がありモジュールを隠蔽することができれば、モジュールの種別は問わない。

　ＳＶＰ１０２のＮ＋Ｍ制御部１６０のＨ／Ｗ構成取得制御部１６３は、現用サーバ１００、予備サーバ１０１、及び管理プログラム１０３からＨ／Ｗ構成情報を取得し、Ｈ／Ｗ構成テーブル１６５を作成する。取得されたＨ／Ｗ構成情報は、Ｈ／Ｗの縮退（隠蔽）やＰＣＩスロットの閉塞などを決定し実行するために必要なＨ／Ｗ情報である。なお、本実施形態では、現用サーバ１００と予備サーバ１０１とＳＶＰ１０２が搭載されるサーバシステム（システム単位：ブレードサーバ）について説明している。ただし、管理プログラム１０３を通じて他のシステム単位（別シャーシのブレードサーバ）の現用サーバ１００と予備サーバ１０１を利用した引き継ぎ処理を実行することも可能である。

　Ｈ／Ｗ構成一致制御部１６３は、Ｈ／Ｗ構成テーブル１６５と、現用サーバ１００及び予備サーバ１０１の構成一致基準を示したＨ／Ｗ構成一致ポリシー１６５を読み込む。そして、Ｈ／Ｗ構成一致制御部１６３は、読み込んだ情報に基づいて、現用サーバ１００と予備サーバ１０１の構成を一致させるための設定情報である構成一致情報テーブル１６７を作成する。

　また、Ｈ／Ｗ構成一致制御部１６３は、構成一致情報テーブル１６７における構成一致情報を予備サーバ１０１のＢＭＣ１１０へ送信する。ＢＭＣ１１０は、受信した構成一致情報に基づいて隠蔽制御を行い、現用サーバ１００と予備サーバ１０１のＨ／Ｗ構成を一致させる。そして、現用サーバ１００と予備サーバ１０１のＨ／Ｗ構成が一致した状態で、業務の引き継ぎ処理が実行される。ただし、Ｈ／Ｗ構成が一致しなくても引き継ぐことができる場合がある。例えば、ＣＰＵコア数については、数が変化してもＯＳが対応できる。構成が一致する必要の無い部分はＨ／Ｗ構成一致ポリシー１６５で定義されている。

　＜処理手順＞
　図２は、引き継ぎ機能有効時に実行される引き継ぎ先サーバ決定処理の手順を説明するための図である。引き継ぎ先サーバ決定処理（予備サーバの割り当て処理）は、現用サーバに故障が発生する前の段階で実行される。現用サーバに故障が発生してからでは現用サーバがどのような動作をするか分からないため、予備サーバの割り当ての判断が正しく行えないからであり、故障してから割り当ててみて引き継げなかったという事態とならないようにするためである。

　ＳＶＰ１０２は、引き継ぎ機能が有効化された後、ＳＶＰ１０２のＨ／Ｗ構成取得制御部を用いて、現用サーバ１００と予備サーバ１０１のＨ／Ｗ情報の取得処理２００を実行する。なお、ここで、現用サーバ１００と予備サーバ１０１は必ずしも同一の筐体に格納されている必要は無く（管理主体が同じＳＶＰでなくても良い）、管理プログラム１０３を通じて別の筐体の現用サーバ１００と予備サーバ１０１のＨ／Ｗ情報を取得するようにしても良い。そのため、現用サーバ１００か予備サーバ１０１のどちらかが別の筐体でも引き継ぎを実施できる。

　ＳＶＰ１０は、取得したＨ／Ｗ構成情報を基に、Ｈ／Ｗ構成取得制御部を用いて、Ｈ／Ｗ構成テーブル作成処理２０１を実行する。

　次に、ＳＶＰ１０２は、Ｈ／Ｗ構成一致制御部１６４を用いて、Ｈ／Ｗ構成テーブル１６５とＨ／Ｗ構成一致ポリシー１６６を読み込み、現用サーバ１００と予備サーバ１０１のＨ／Ｗ構成を一致させるための情報であって、予備サーバのモジュールの隠蔽処理に必要な情報（構成一致情報）を作成する（構成一致処理２０２：詳細については図６参照）。ここで、モジュールとは、ＣＰＵ、ＤＩＭＭ、及びＩ／Ｏなどの計算機のＨ／Ｗの部位のことであり、ＣＰＵ、ＤＩＭＭ、Ｉ／Ｏに限らないが、隠蔽が可能であることが求められる。より具体的には、Ｈ／Ｗ構成一致ポリシー１６６（図５）を参照し、構成が一致しなければならないＨ／Ｗ部位に注目し、図４の予備サーバと現用サーバの構成を比較して一致するか否か判断されることになる。

　ＳＶＰ１０２は、現用サーバ１００及び予備サーバ１０１のサーバ状態情報と、構成一致情報１６７を読み込み、現用サーバ１００にどの予備サーバ１０１を割り当てるかについての判断基準となる情報を作成する処理（割り当て決定情報テーブル更新処理２０３：詳細は図８）を実行する。ここで、各サーバから取得するサーバ状態情報とは、割り当てを決定するのに必要な追加情報であり、例えば、ＤＩＭＭのＥＣＣエラーやＣＰＵの稼働率などの情報である。なお、別の筐体の情報が必要な場合は管理プログラム１０３から情報を取得しても良い。

　次に、ＳＶＰ１０２は、割り当てテーブルの初期化処理２０４（図１２のＳ１２０６の処理に相当）を実行する。割り当てテーブル（初期化時のテーブルについては図１３参照）は、事前に現用サーバをどの予備サーバに引き継ぐのかを示す情報である。割り当て１回目である場合に、この割り当てテーブル初期化処理２０４が実行される。

　続いて、ＳＶＰ１０２は、割り当て決定情報テーブル（図９参照）と割り当て変更ポリシー（図１０又は１１参照）を読み込み、現用サーバをどの予備サーバに割り当てるのか決定する処理（割り当て決定処理２０５：図１２のＳ１２０７の処理に相当）を実行する。当該割り当て決定処理が実行されると、ＳＶＰ１０２は障害通知受信待機状態に入ることになる。

　そして、ＳＶＰ１０２は、随時（定期的に）、割り当て決定情報テーブル更新処理２０３を実施し、さらに、割当情報テーブル更新後に割り当て決定処理２０５を実施することにより、サーバの状況に合わせて割り当てを決定する（更新後のテーブルについては図１４又は１５参照）。更新の頻度は、処理の重さによるが、所定時間（例えば、１時間）に１回の割合で行われる。このように定期的に割り当て決定情報テーブルを更新するのは、ＥＣＣエラー（メモリのエラー）が増加しているサーバを優先的に予備サーバに引き継ぎさせた方が故障する危険性を効率よく回避することができるためである。つまり、計算機システム１を運用していくうちに、ＥＣＣエラー等が初期段階（割り当てテーブルの初期化処理時）に割り当てたときと比べて変化していることもあり、より現状を反映した割り当て処理を実行する必要があるからである。

　＜サーバ切り替え処理＞
　図３は、障害発生時に現用サーバから予備サーバに切り替える処理の手順を説明するための図である。

　現用サーバ１００にＨ／Ｗ障害３００が発生した場合、現用サーバ１００は、障害ログをＳＶＰ１０２に通知する。その通知を受け、ＳＶＰ１０２は、管理プログラム１０３に障害通知をする。

　管理プログラム１０３は、現用サーバ１００と予備サーバ１０１の割り当て情報（割り当てテーブルの情報）を持っており、対象の現用サーバ１００及び予備サーバ１０１を監視しているＳＶＰ１０２にサーバの切り替え要求（Ｎ＋Ｍ切り替え要求）を出す。なお、割り当てテーブル（図１３乃至１５のいずれか）はＳＶＰ１０２で作成され、必要に応じて管理プログラム１０３が取得する。これにより、管理プログラム１０３が対象の現用サーバ１００及び予備サーバ１０１を把握することが可能である。本実施形態では、ＳＶＰ１０２が割り当てテーブルを管理しているが、割り当てテーブルの保有自体はＳＶＰ１０２と管理プログラム１０３のどちらでも良い。管理プログラム１０３からＳＶＰ１０２へ割り当ての情報を送信すれば、管理プログラム１０３で割り当てテーブルを管理することも可能である。

　ＳＶＰ１０２は、管理プログラム１０３からＮ＋Ｍ切り替え要求を受け、割り当てテーブルを参照して、引き継ぎ先となる予備サーバのＢＭＣへ構成一致情報を送信３０１する。構成一致情報はＢＭＣの設定情報であり、特定のモジュールを隠蔽するかしないかを示している。送信される構成一致情報は、対象の現用サーバと予備サーバに関する情報のみである。例えば、障害が発生した現用サーバがサーバ３で、引き継ぎ先として割り当てられた予備サーバがサーバ１である場合、サーバ１とサーバ３の構成一致に関する情報（図７参照）のみが送信されることになる。

　予備サーバ１０１のＢＭＣ１１０は、受信した構成一致情報に基づいて、Ｈ／Ｗ構成の隠蔽処理３０２を実行する。隠蔽処理３０２を実行することにより、予備サーバ１０１のＨ／Ｗ構成は予備サーバ１０１のＨ／Ｗ構成と一致もしくは引き継ぐことが可能な構成になる。

　そして、予備サーバ１０１は、構成一致情報に基づくＨ／Ｗ隠蔽処理後に、隠蔽処理が終了したことをＳＶＰ１０２へ通知する。

　一方、通知を受けたＳＶＰ１０２は、従来技術の切り替え処理であるＮ＋Ｍ切り替え処理３０３を実行する。

　なお、構成一致情報の一例として、ＣＰＵソケット、ＣＰＵコア、ＤＩＭＭ、Ｉ／Ｏスロットの隠蔽の実施をするかどうかの情報が記載されているとする。構成一致情報のＣＰＵソケット１の項目に隠蔽する設定が記載されていた場合は、対象の予備サーバのＢＭＣのＣＰＵ隠蔽制御部はＣＰＵソケット１の隠蔽を実施する。

　＜Ｈ／Ｗ構成テーブル＞
　図４は、各サーバのＨ／Ｗ構成を示すＨ／Ｗ構成テーブル１６５の構成例を示す図である。このＨ／Ｗ構成テーブルを用いることにより、隠蔽可能なＨ／Ｗ構成情報を知ることが可能となる。

　Ｈ／Ｗ構成テーブル１６５は、サーバ名４００と、サーバの用途４０１と、モジュール名４０２と、各モジュールの搭載或いは非搭載を示す搭載情報４０３と、を構成項目として有している。

　サーバ名４００は、サーバ固有の識別子を示し、ユニークな識別子であれば何でも良い。用途４０１は、業務が稼動している現用サーバであるか予備サーバであるかを示している。モジュール名４０２は、計算機システムを構成しているＨ／Ｗ部位であって、隠蔽可能なものを示し、モジュールの追加情報を含んでいる。搭載情報４０３は、各モジュールが搭載されているか否かを示す情報である。また、構成一致の判定材料となるモジュールの追加情報を含む。例えば、ＣＰＵ周波数やメモリの容量などである。

　＜Ｈ／Ｗ構成一致ポリシー＞
　図５は、Ｈ／Ｗ構成を一致させるポリシーを示すＨ／Ｗ構成一致ポリシーテーブル１６６の構成例を示す図である。

　Ｈ／Ｗ構成一致ポリシーテーブル１６６は、現用サーバ名５００と、モジュール名５０１と、ポリシー５０２と、を構成項目として有している。

　現用サーバ名５００は、サーバ固有の識別子であり、図４のサーバ名４００と同一である。モジュール名５０１は、ポリシー設定対象となっているＨ／Ｗ部位を示す情報である。ポリシー５０２は、引き継ぎ時のＨ／Ｗ構成の合わせ方を定義する情報である。

　本実施形態では、モジュールの構成一致させない場合は「隠蔽無し」とし、搭載一致させる場合は「構成一致」を指定することとする。ポリシーの定義の一例として、Ｉ／Ｏスロットが搭載されていないと正常に引き継ぎできない場合は「構成一致」と設定し、ＣＰＵのように業務の引き継ぎ前と後で構成が変わっても引き継ぎが正常にできる場合は「隠蔽なし」と設定する。

　＜Ｈ／Ｗ構成一致処理＞
　図６は、Ｈ／Ｗ構成を一致させるための隠蔽モジュールを決定する処理（Ｈ／Ｗ構成一致処理）を説明するためのフローチャートである。

　Ｈ／Ｗ構成一致制御部（Ｈ／Ｗ構成一致制御プログラムと言い換えても良い）１６４は、図４のＨ／Ｗ構成テーブルを参照し、予備サーバからモジュールを１つ選択する（Ｓ６０１）。

　Ｈ／Ｗ構成一致制御部１６４は、Ｓ６０１で選択されたモジュールが現用サーバに搭載されているか判定する（Ｓ６０２）。選択されたモジュールが搭載されている場合、処理はＳ６０５に移行し、搭載されていない場合には、処理はＳ６０３に移行する。

　選択したモジュールが搭載されていない場合、Ｈ／Ｗ構成一致制御部１６４は、図５のＨ／Ｗ一致ポリシーが構成一致であるか判定する（Ｓ６０３）。ポリシーが「構成一致」である場合、Ｈ／Ｗ構成一致制御部１６４は、構成一致情報に選択したモジュールの隠蔽設定を書き込む（Ｓ６０４）。Ｈ／Ｗ構成一致ポリシーが構成一致でない場合、Ｈ／Ｗ構成一致制御部１６４は、「隠蔽なし」設定を書き込む（Ｓ６０５）。

　一方、Ｓ６０２で選択されたモジュールが搭載されていると判断された場合、Ｈ／Ｗ構成一致制御部１６４は、構成が一致しているので「隠蔽無し」設定を書き込む（Ｓ６０６）。

　続いて、Ｈ／Ｗ構成一致制御部１６４は、Ｈ／Ｗ構成テーブル１６５の予備サーバに別モジュールがあるか判定する（Ｓ６０７）。Ｓ６０１乃至Ｓ６０６の処理は、対象の予備サーバに搭載されている全てのモジュールの処理が終了するまで繰り返えされる。搭載されているモジュールの処理が終了した場合、処理はＳ６０８に移行する。

　Ｓ６０８において、Ｈ／Ｗ構成一致制御部１６４は、構成一致情報テーブル１６７の隠蔽情報に設定が無いモジュールを選択する。つまり、「隠蔽なし」とも「隠蔽」とも設定されていないモジュールが選択される。Ｓ６０２乃至Ｓ６０７の処理は現用サーバにのみ搭載されているモジュールがある場合に実施される処理であるため、設定のないモジュールが存在する可能性が出てくるのである。

　そして、Ｈ／Ｗ構成一致制御部１６４は、Ｓ６０８で選択されたモジュールのＨ／Ｗ構成一致ポリシー１６６が「隠蔽なし」であるか判定する（Ｓ６０９）。

　「隠蔽なし」となっている場合（Ｓ６０９でＹｅｓの場合）には、Ｈ／Ｗ構成一致制御部１６４は、「隠蔽なし」を対象モジュールの隠蔽情報として書き込む（Ｓ６１０）。

　一方、「隠蔽なし」となっていない場合、つまり「構成一致」となっている場合（Ｓ６０９でＮｏの場合）、Ｈ／Ｗ構成一致制御部１６４は、「引継不可」設定を隠蔽情報として書き込む（Ｓ６１１）。これは、予備サーバにモジュールがないため構成を一致させることができないためである。

　Ｈ／Ｗ構成一致制御部１６４は、隠蔽情報の設定が無いモジュールについて設定が完了するまで、Ｓ６０８乃至６１２の処理を繰り返す。

　＜構成一致情報テーブル＞
　図７は、Ｈ／Ｗ構成を一致させるための隠蔽設定を示す構成一致情報テーブル１６７の構成例を示す図である。当該構成一致情報テーブル１６７は、図６に示されるＨ／Ｗ構成一致処理の結果作成される情報である。また、構成一致情報テーブル１６７は、予備サーバのＢＭＣへ送信する情報を管理している。当該情報を受信したＢＭＣは、隠蔽情報を基にモジュールを隠蔽する処理を実行する。

　構成一致情報テーブル１６７は、現用／予備７００と、モジュール名７０２と、隠蔽情報７０２乃至７０５と、を構成項目として有している。

　現用／予備７００は、現用サーバと予備サーバの識別子の組合せを示す情報であり、サーバ名４００（図４参照）や現用サーバ５００（図５参照）と同じ識別子が用いられている。隠蔽情報７０２乃至７０５は、各モジュールの設定を示す情報である。隠蔽情報における「隠蔽なし」は、予備サーバのモジュールを隠蔽しない設定を意味している。また、「隠蔽」は予備サーバのモジュールを隠蔽する設定を意味している。さらに、「引継不可」は、現用サーバと予備サーバの構成が一致しないため、引き継ぎができないことを意味している。

　＜割り当て決定情報テーブル更新処理＞
　図８は、現用サーバをどの予備サーバに割り当てるか判定するための情報を取得する処理（割り当て決定情報テーブル更新処理）を説明するためのフローチャートである。

　ＳＶＰ１０２は、まず、割り当て決定情報を取得する現用サーバと予備サーバの組合せを１つ選択し（Ｓ８００）、Ｈ／Ｗ構成一致情報テーブル１６７（図７参照）を読み込む（Ｓ８０１）。なお、Ｓ８００の処理とＳ８０１の処理の順番は逆であっても良い。

　ＳＶＰ１０２は、当該選択した現用サーバと予備サーバの組合せに関し、Ｈ／Ｗ構成一致情報テーブル１６７の隠蔽情報に「引継不可」があるか判定する（Ｓ８０２）。「引継不可」がない場合（Ｓ８０２でＮｏの場合）、処理はＳ８０３に移行し、「引継不可」がある場合（Ｓ８０２でＹｅｓの場合）、処理はＳ８０５に移行する。

　Ｓ８０３において、ＳＶＰ１０２は、割り当て決定情報テーブル（図９）の引き継ぎ可否９０１の欄に引き継ぎ「可」を書き込み（Ｓ８０３）、その後、隠蔽するモジュール数を合計し、その値を割り当て決定情報テーブルの隠蔽モジュール数９０４の欄に書き込む（Ｓ８０４）。ここで、本実施形態ではＣＰＵに関しては隠蔽コア数／総コア数とするとしている。コア１個のみ隠蔽することとＣＰＵ１個全体を隠蔽することを同列に扱うのは適切ではないからである。ただし、隠蔽するモジュール数の合計方法は問わない。

　一方、Ｓ８０５（引継不可ある場合の処理）では、ＳＶＰ１０２は、割り当て決定テーブルの引き継ぎ可否９０１の欄に引き継ぎ不可を意味する「否」を書き込む（Ｓ８０５）。

　続いて、ＳＶＰ１０２は、現用サーバから予備サーバに引き継いだ場合の、平均ＣＰＵ周波数増加率９０５、ＣＰＵコア数増加率９０６、及びメモリ容量増加率９０７を算出する（Ｓ８０６）。

　また、ＳＶＰ１０２は、当該現用サーバと予備サーバとの組み合わせにおける構成一致率を算出する（Ｓ８０７）。当該構成一致率を算出する際に考慮するモジュールは、ＣＰＵソケット、ＤＩＭＭ、及びＩ／Ｏスロットである。図４を例にすると、ＣＰＵソケット０、１、２、及び３、ＤＩＭＭ０及び１、Ｉ／Ｏスロット０、１、及び２の合計９個である。ＣＰＵコアはモジュール数には数えない。ＣＰＵソケットに含まれるものと考えるからである。また、構成一致の条件は、現用サーバと予備サーバにおいて搭載／非搭載が一致していること、周波数、容量が一致していることである。ＣＰＵソケットの構成一致については、ＣＰＵコアの構成が一致していることである（ＣＰＵコアを反映していると考えたため）。よって、図４の例では、構成一致率を算出するための計算式は、（一致するモジュール数）／（全モジュール数＝９）である。

　次に、ＳＶＰ１０２は、Ｈ／Ｗ構成テーブル１６７に別の現用サーバと予備サーバの組み合わせがあるか判定する（Ｓ８０８）。現用サーバと予備サーバの組み合わせがある場合（Ｓ８０８でＹｅｓの場合）、組み合わせがなくなるまでＳ８０２乃至Ｓ８０７の処理が繰り返えされる。現用サーバと予備サーバの組み合わせがない場合（Ｓ８０８でＮｏの場合）は、処理はＳ８０９に移行する。

　Ｓ８０９において、ＳＶＰ１０２は、現用サーバのＥＣＣエラー数の情報を取得する（Ｓ８０９）。また、ＳＶＰ１０２は、現用サーバのＣＰＵ稼働率の情報を取得する（Ｓ８１０）。これらの情報は、ＳＶＰ１０２が各現用サーバに対して現在のＥＣＣエラー数及び稼働率の情報の送信を要求することにより取得される。

　＜割り当て決定情報テーブル＞
　図９は、現用サーバをどの予備サーバに割り当てるか判定するための情報を管理するための割り当て決定情報テーブルの構成例を示す図である。この割り当て決定情報テーブルと後述の割り当て変更ポリシーとを用いて現用サーバに対して引き継ぐべき予備サーバの割り当てが決定されることになる。

　割り当て決定情報テーブルは、引き継ぎ可否９０１と、引き継ぎ「可」の合計を示す可合計９０２と、引き継ぎ先候補数９０３と、隠蔽モジュール数９０４と、平均ＣＰＵ周波数増加率９０５と、ＣＰＵコア数増加率９０６と、メモリ容量増加率９０７と、Ｈ／Ｗ構成一致率９０８と、ＥＣＣエラー数９０９と、稼働率９１０と、を構成項目として有している。

　引き継ぎ可否９０１は、Ｈ／Ｗ構成上引き継ぐことが可能かどうかを示す情報である。可合計９０２は、予備サーバを基準として、現用サーバを引き継ぐことができる数を示す情報である。引き継ぎ先候補数９０３は、現用サーバを基準として、引き継げる予備サーバがいくつあるのかを示す情報である。隠蔽モジュール数９０４は、引き継ぐ際に、隠蔽するモジュール数を示す情報である。平均ＣＰＵ周波数増加率９０５は、引き継ぎ後にＣＰＵ周波数がどのくらい増加するかを示す情報である。ＣＰＵコア数増加率９０６は、引き継ぎ後にＣＰＵコア数がどれだけ増加するのか示す情報である。メモリ容量増加率９０７は、引き継ぎ後にメモリの容量がどのくらい増加するのかを示す情報である。Ｈ／Ｗ構成一致率９０８は、隠蔽しない時の現用サーバと予備サーバの構成がどれだけ一致しているかを示す情報である。ＥＣＣエラー数９０９は、ＤＩＭＭのＥＣＣエラーの数を示す情報であり、ＤＩＭＭの障害の可能性を図る指標として用いられるものである。ＥＣＣエラー数が多い場合は、業務の引き継ぎが実施される可能性が高いことになる。ＣＰＵ稼働率９１０は、ＣＰＵの使用率を示す情報であり、ＣＰＵ使用率が高い場合はより性能の高い予備サーバへ引き継ぐ為の指標として用いられるものである。

　＜割り当て変更ポリシー＞
　図１０及び図１１は、現用サーバの割り当て方法のポリシーを示す割り当て変更ポリシーテーブル１６８の例を示す図である。図１０のポリシーと図１１のポリシーは別のポリシー例を示している。

　割り当て変更ポリシー１６８は、優先度１０００と、ポリシー１００１と、ポリシー内容１００２乃至１００５、或いは１１００及び１１０１と、を構成項目として有している。

　優先度１０００は、ポリシー１００１の実行優先順位を示す情報である。ポリシー１００１は、現用サーバと予備サーバの割り当て基準を示す情報である。ポリシー内容１００２は、図１０のポリシーテーブルにおける優先度１のポリシー内容を示している。ポリシー内容１００３は、図１０のポリシーテーブルにおける優先度２のポリシー内容を示している。ポリシー内容１００４は、図１０のポリシーテーブルにおける優先度３のポリシー内容を示している。ポリシー内容１００５は、図１０のポリシーテーブルにおける優先度４のポリシー内容を示している。ポリシー内容１１００は、図１１のポリシーテーブルにおける優先度１のポリシー内容を示している。ポリシー内容１１０１は、図１１のポリシーテーブルにおける優先度２のポリシー内容を示している。

　なお、割り当て変更ポリシーを設けなくても現用サーバに対する予備サーバの割り当ては可能であるが、当該変更ポリシーを設けずに適当に予備サーバを現用サーバに割り振った場合は予備サーバの割り振りに偏りが生じる可能性がある。例えば、構成が現用サーバよりも大きい予備サーバと構成が現用サーバよりも小さい予備サーバが存在する場合を考える。最初に現用サーバを大きい構成の予備サーバに割り振ったとしたら、残された現用サーバを予備サーバに割り振ることができなくなってしまう。残された割り振り先の予備サーバの構成が現用サーバよりも構成が小さいからである。従って、小さい構成の現用サーバは小さい構成の予備サーバに引き継ぎ、大きい構成の現用サーバは大きい構成の予備サーバに引き継がせる方がリソースを効率的に利用することができる。このような予備サーバの割り当ての効率化を実現するために割り当て変更ポリシーは有益である。

　＜割り当て決定処理＞
　図１２は、現用サーバをどの予備サーバに割り当てるか決定する割り当て決定処理を説明するためのフローチャートである。

　まず、ＳＶＰ１０２は、割り当て決定情報テーブル（図９）を読み込み（Ｓ１２０１）、既に作成されている割り当てテーブル（例えば、図１３乃至１５）があるか判定する（Ｓ１２０２）。割り当てテーブルがない場合（Ｓ１２０２でＮｏの場合）、処理はＳ１２０５に移行する。割り当てテーブルがある場合（Ｓ１２０２でＹｅｓの場合）、処理はＳ１２０３に移行する。

　Ｓ１２０５において、ＳＶＰ１０２は、割り当てテーブルを作成する（割り当てテーブルの初期化処理２０４（図２参照）に対応）。

　そして、ＳＶＰ１０２は、現用サーバを構成一致率が最も高い予備サーバへ割り当てる（Ｓ１２０６）。同率の場合は予備サーバの識別子が最も小さく割り振り可能な予備サーバへ割り振ることとする。ただし、必ずしも最も小さくなくても良く、同率の場合にサーバを割り当てる基準があればよい。なお、Ｓ１２０６は、初回の割り当て処理のときのみ実行される処理である。

　一方、Ｓ１２０３において、ＳＶＰ１０２は、割り当て決定情報テーブル（図９）を参照し、候補数が「１」のサーバを引き継ぎ可否が可のサーバに割り振る（Ｓ１２０３）。候補数が１のサーバは引き継ぎ先が１つであるため、必然的に割り振り先が決定する。

　次に、ＳＶＰ１０２は、候補数が２のサーバの割り振りを行うために、候補数Ｘを２に設定する（Ｓ１２０４）。

　そして、ＳＶＰ１０２は、Ｘが予備サーバ数よりも大きいか判定する（Ｓ１２０７）。Ｘが予備サーバよりも大きい値である場合（Ｓ１２０７でＹｅｓの場合）、処理は終了する。一方、Ｘが予備サーバ数以下である場合（Ｓ１２０７でＮｏの場合）、処理はＳ１２０８に移行する。

　Ｓ１２０８において、ＳＶＰ１０２は、候補数Ｘの値を取る予備サーバがあるか判定する（Ｓ１２０８）。そのような予備サーバがある場合（Ｓ１２０８でＹｅｓの場合）、処理はＳ１２０９に移行し、そのような予備サーバない場合（Ｓ１２０８でＮｏの場合）、処理はＳ１２１５に移行する。

　Ｓ１２０９では、ＳＶＰ１０２は、優先度ｙ＝１に設定する（Ｓ１２０９）。そして、ＳＶＰ１０２は、割り当て変更ポリシー（図１０或いは１１参照）を参照し、優先度ｙ＝１の割り当て変更ポリシーを読み込む（Ｓ１２１０）。

　次に、ＳＶＰ１０２は、割り当て変更ポリシーが読み込めたか否か判定する（Ｓ１２１１）。読み込めなかった場合（Ｓ１２１１でＮｏ）、処理はＳ１２１５に移行する。読み込めた場合（Ｓ１２１１でＹｅｓの場合）、処理はＳ１２１２に移行する。優先度ｙ＝１の場合には、割り当て変更ポリシーは読み込めるので、処理はＳ１２１２に移行することになる。

　割り当て変更ポリシーを読み込めない場合（Ｓ１２１１でＮｏの場合）、Ｓ１２１５において、ＳＶＰ１０２は、割り当て変更ポリシーの割り当て方法に従って引き継ぐ条件を決定することができないので、識別子（予備サーバ番号（予備サーバ名））が最も小さく割り当て可能な予備サーバに割り当てる（Ｓ１２１４）。そして、処理はＳ１２１５に移行し、候補数Ｘに１を加えてＳ１２０７以降の処理が繰り返されることになる。なお、Ｓ１２１４の処理について、必ずしも識別子が最小である必要は無いが、現用サーバを予備サーバに必ず割り振りができる条件である必要がある。

　一方、割り当て変更ポリシーが読み込めた場合（Ｓ１２１１でＹｅｓの場合）、Ｓ１２１２において、ＳＶＰ１０２は、候補数がＸを取る現用サーバの全てが予備サーバに割り振れたか（引き継ぎ可能か）判定する（Ｓ１２１２）。割り振れた場合（Ｓ１２１２でＹｅｓの場合）、処理はＳ１２１５に移行し、候補数Ｘに１が加えられ、Ｓ１２０７以降の処理が繰り返される。割り振れなかった場合（Ｓ１２１２でＮｏの場合）、処理はＳ２１３に移行する。

　Ｓ１２１３において、ＳＶＰ１０２は、次の優先度（前回の優先度をｙとすると（ｙ＋１）の優先度）を選択する。そして、Ｓ１２１０以降の処理が優先度（ｙ＋１）について繰り返されることになる。このようにして、Ｓ１２１０乃至Ｓ１２１３の処理によって、優先度ｙが高い順に割り当て変更ポリシーを読み込んで候補数Ｘの現用サーバ（全ての現用サーバ）に予備サーバが割り当てられる。候補数Ｘが予備サーバ数よりも多くなった場合（Ｓ１２０７でＹｅｓの場合）、処理は終了する。

　＜割り当て結果＞
　図１３乃至１５は、現用サーバをどの予備サーバに割り当てるのかの情報を管理する割り当てテーブルの構成例を示す図である。割り当てテーブルの情報は、割り当てのタイミングや図９の割り当て決定情報テーブル、図１０及び１１の割り当て変更ポリシー１６８の状態によってとりうる値が変化する。

　割り当てテーブルは、割り当て先の予備サーバの情報を示す割り当て１３００と、現用サーバに割り当てられた予備サーバの情報と、ＥＣＣエラー合計１３０１と、割り当てサーバ数１３０２と、を構成情報として有している。ＥＣＣエラー合計１３０１は、予備サーバに割り当てられている現用サーバのＥＣＣエラー数の合計を示す情報である。割り当てサーバ数１３０２は、予備サーバに割り当てられている現用サーバの数を示す情報である。図１３は、初回割り当て処理の結果（Ｓ１２０６の結果）を示している。図１４は、図１０の割り当て変更ポリシーに従って割り当て更新処理がなされた結果（Ｓ１２０２乃至Ｓ１２１５の結果）、図１５は、図１１の割り当て変更ポリシーに従って割り当て更新処理がなされた結果（Ｓ１２０２乃至Ｓ１２１５の結果）を示している。

（i）図１３（初回割り当て処理の結果）
　図１３の初回割り当てでは、現用サーバは、図９の割り当て決定情報テーブルの構成一致率９０８が最も高いサーバに割り当てられる。現用サーバ３に関し、予備サーバ１の構成一致率は６６で、予備サーバ２の構成一致率は４４である。このため、現用サーバ３の引き継ぎ先は予備サーバ１となる。現用サーバ４、５、６、及び７についても同様の処理が実行されて予備サーバが割り当てられる。

（ii）図１４（図１０の割り当て変更ポリシーに基づく割り当て更新処理の結果）
　図１４は、図１０の割り当て変更ポリシーを用いて割り当て処理を行った場合の結果を示している。

　図１０の割り当て変更処理（割り当て更新処理）では、まず、現用サーバ６は引き継ぎ先が１つしかないため予備サーバ２へ割り当てられる。その後、現用サーバ３、４、５、及び７について、図１０の割り当て変更ポリシーの優先度１のポリシー１００２が実行される。ＥＣＣエラー数が５０を超えるサーバは、図９の割り当て決定テーブルのＥＣＣエラー数９０９から現用サーバ５及び７が該当する。また、現用サーバ７の方がＥＣＣエラー数の値は大きいため現用サーバ５よりも先に割り当て処理が実行される。ポリシー１００２の（１）に関し、引き継ぎ元である現用サーバ７を割り当てる段階ではＥＣＣエラー数合計１３０１が０のため、（２）が実行される。図９の引き継ぎ先候補の「可合計」９０２は予備サーバ１のほうが小さいため、現用サーバ７は予備サーバ１に割り当てられる。

　次に、現用サーバ５に関して（１）が実行される。既に現用サーバ７が割り当てられており、予備サーバ１のＥＣＣエラー数合計１３０１は８０であり、予備サーバ２のＥＣＣエラー合計１３０１は０である。そのため、現用サーバ５はＥＣＣエラー数合計１３０１の小さい予備サーバ２に割り当てられる。ＥＣＣエラー数が５０を超えるサーバがなくなったため、ポリシー１００２に基づく割り当て処理は終了する。

　次に、ポリシー１００３が実行される。図９の稼働率９１０が９０％を超えるサーバには、現用サーバ３が該当する。現用サーバ３は、ＣＰＵコア数増加率が２．０以上となる予備サーバに割り当てられる。この条件に当てはまるのは予備サーバ２に割り当てた場合であり、現用サーバ３は予備サーバ２に割り当てられることになる。

　続いて、ポリシー１００４が実行される。割り当て処理の対象は現用サーバ４である。現用サーバ４の図９のＣＰＵコア数増加率９０６は予備サーバ１及び２において同率となっている。このため、ポリシー１００４を用いても割り当てを決定できない。よって、ポリシー１００４の実行は終了する。

　ポリシー１００５では、隠蔽モジュール数で割り当てを決定する。しかし、現用サーバ４の図９の隠蔽モジュール数は、予備サーバ１及び２において同率である。このため割り当てを決定できない。よって、ポリシー１００５は終了する。

　ポリシーを全て読み込み、これ以上ポリシーを読み込むことはできない。その場合は図１２の１２１４の処理が実行され、サーバ名（予備サーバ番号）が最も小さい予備サーバに割り当てられることになる。よって、現用サーバ４は予備サーバ１へ割り当てられる。

　これにより全ての現用サーバの割り当てが完了し、結果が図１４となる。

（iii）図１５（図１１の割り当て変更ポリシーに基づく割り当て更新処理の結果）
　図１５は、図１１の割り当て変更ポリシーを用いて割り当て処理を行った場合の結果を示している。

　図１１の割り当て変更処理（割り当て更新処理）では、現用サーバ６は引き継ぎ先が１つのため予備サーバ１へ割り当てられる。その後、図１１の割り当て変更ポリシーの優先度１のポリシー１１００が実行される。本処理は図１４のケースと同じのため割愛する。

　次に、ポリシー１１０１が実施される。処理対象は、現用サーバ３及び４であり、（１）が実行され、割り当てサーバ数１３０２の数が最も小さい予備サーバへ割り振る。予備サーバ１の割り当てサーバ数は１、予備サーバ２は２であるため、現用サーバ３は予備サーバ１へ割り振られる。

　続いて、現用サーバ４の割り当てが実行される。しかし、現用サーバ３の割り当ての結果、割り当てサーバ数が予備サーバ１及び２において同率となるため、（２）の処理が実行されることになる。（２）ではＥＣＣエラー数合計１３０１が最も小さい予備サーバに割り当てられる。このため、現用サーバ４は、予備サーバ２に割り当てられる。

　これにより全ての現用サーバの割り当てが完了し、結果が図１５に示す通りとなる。

　＜まとめ＞
（i）本発明の実施形態では、現用サーバと予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、ハードウェア構成一致ポリシー情報を参照して、現用サーバと予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定する。また、現用サーバと予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出する。そして、現用サーバと予備サーバの組み合わせのそれぞれについての、ハードウェア構成の隠蔽の有無の情報及び引き継ぎ可否の情報と、構成一致率の情報に基づいて、現用サーバの引き継ぎ先である予備サーバを割り当てる。このようにすることにより、現用サーバと予備サーバのＨ／Ｗ構成が異なる場合でも、ＯＳに影響なく業務を引き継ぐことが可能な引き継ぎ先の予備サーバを決定することができる。また、切り替え後にＯＳ上でＩ／Ｏの認識作業を必要とせず、ＣＰＵソケット／コアに連動するライセンスの制約を受けないという効果も期待できる。さらに、ＯＳ上で動作するプログラムがライセンスの制約を受けない。このように、Ｈ／Ｗリソースを効率よく利用することで、引き継ぎ可能なサーバ数を保つことで可用性を向上させることができ、故障しそうなサーバを優先してサーバの割り当てを決定することで可用性を向上させることができる。

　いずれかの現用サーバに障害が発生した場合には、この現用サーバの引き継ぎ先として割り当てられた予備サーバにハードウェアの隠蔽の有無の情報が送信される。当該予備サーバは、ハードウェアの隠蔽の有無の情報に基づいてハードウェアの隠蔽処理を実行し、当該隠蔽処理の完了通知をＳＶＰ（ローカル管理計算機）に送信する。そして、ＳＶＰは、障害が発生した現用サーバを引き継ぎ先として割り当てられた予備サーバに切り替える処理を実行する。このようにすることで、現用サーバと予備サーバのＨ／Ｗ構成が異なる場合でも、Ｈ／Ｗリソースを効率よく利用しながら、障害が発生した現用サーバから予備サーバに業務を引き継ぐことができるようになる。

　また、本実施形態では、一旦決定した引き継ぎ先の予備サーバの割り当てを動的に変更（更新）する。例えば、現用サーバのＥＣＣエラー数に基づいて、既に実行された予備サーバの割り当てを変更する。或いは、ＥＣＣエラー数に加えて、現用サーバのＣＰＵ稼働率の情報と、現用サーバと予備サーバの組み合わせのそれぞれにおけるＣＰＵコア数増加率の情報と、を用いて、動的に予備サーバの割り当てを変更する。この場合、予め、割り当て変更処理のためのポリシーを規定しておくことも可能である。この変更ポリシーには、ＥＣＣエラー数に基づく予備サーバの割り当ての条件が規定されたり、或いは、ＥＣＣエラー数に基づく予備サーバの割り当ての条件、ＣＰＵの稼働率に基づく予備サーバの割り当ての条件、及びＣＰＵコア数増加率に基づく予備サーバの割り当ての条件が規定されたりする。複数の条件がポリシーに含まれる場合には、各条件に対する検討順を示す優先度が設定されるようにしても良い。このようにすることで、単純に現用サーバと予備サーバとの構成の差異のみを考慮して引き継ぎ先を決定する場合に比べて、予備サーバの割り振り偏りが生じることを回避することができるようになる。つまり、例えば、構成が現用サーバよりも大きい予備サーバと構成が現用サーバよりも小さい予備サーバが存在する場合を考える。最初に現用サーバを大きい構成の予備サーバに割り振ったとしたら、残された現用サーバを予備サーバに割り振ることができなくなってしまう。残された割り振り先の予備サーバの構成が現用サーバよりも構成が小さいからである。従って、小さい構成の現用サーバは小さい構成の予備サーバに引き継ぎ、大きい構成の現用サーバは大きい構成の予備サーバに引き継がせる方がリソースを効率的に利用することができる。このような予備サーバの割り当ての効率化を実現するために割り当て変更ポリシーを設けることは有益である。

　なお、本実施形態では、１つのシャーシに含まれるＳＶＰ、現用サーバ、及び予備サーバを１つのサーバシステム（ブレードサーバ）として捉えている。実際のシステム（計算機システム）は、このようなサーバシステムが複数個設けられて構成されている。この複数のサーバシステムを管理するために、管理プログラムを有するグローバル管理計算機が設けられている。このグローバル管理計算機は、複数のサーバシステムにおけるＳＶＰ（ローカル管理計算機）間の通信を管理する。基本的なサーバの引き継ぎ先決定処理（予備サーバの割り当て処理）は、まず同一シャーシ内の予備サーバを候補として検討するが、異なるシャーシ（サーバシステム）に格納される予備サーバを候補としてもよい。これを実現するために、グローバル管理計算機を介して、各ＳＶＰは、異なるサーバシステムに配置された現用サーバ及び予備サーバのハードウェア構成情報を取得する。そして、各ＳＶＰは、自身のサーバシステムにおける現用サーバの引き継ぎ先として、自身のサーバシステムとは異なるサーバシステムにおける予備サーバを割り当てるようにする。これにより、同一サーバシステム（シャーシ）内に引き継ぎ先として適切な予備サーバが無い場合であっても他のサーバシステムにおける予備サーバに引き継ぐことが可能となるので、より効率よくハードウェアリソースを活用することが可能となる。

（ii）本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

　また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

　さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ）が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

　最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

　上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。

１００・・・現用サーバ
１０１・・・予備サーバ
１０２・・・ＳＶＰ（Service Processor）
１０３・・・管理プログラム
１１０・・・ＢＭＣ（Baseboard Management Controller）
１１１・・・ＣＰＵ隠蔽制御部
１１２・・・ＤＩＭＭ隠蔽制御部
１１３・・・Ｉ／Ｏ隠蔽制御部
１２０－１２１・・・ＣＰＵソケット
１３０－１３１・・・ＣＰＵコア
１４０・・・ＤＩＭＭ
１５０・・・Ｉ／Ｏスロット
１６０・・・Ｎ＋Ｍ制御部
１６１・・・Ｃｏｎｆ取得制御部
１６２・・・引き継ぎ制御部
１６３・・・Ｈ／Ｗ構成取得制御部
１６４・・・Ｈ／Ｗ構成一致制御部
１６５・・・Ｈ／Ｗ構成テーブル
１６６・・・Ｈ／Ｗ構成一致ポリシー
１６７・・・構成一致情報テーブル
１６８・・・割り当て変更ポリシー

Claims

　業務を処理し、稼働中の少なくとも１つの現用サーバと、
　前記現用サーバが故障した際に当該故障した現用サーバの業務を引き継がせるために用意された少なくとも１つの予備サーバと、
　前記現用サーバ及び前記予備サーバを監視し、サーバの切り替えを制御するローカル管理計算機と、を有し、
　前記ローカル管理計算機は、
　前記現用サーバの業務の引き継ぎ先である予備サーバの割り当て処理を実行するプロセッサと、
　サーバの引き継ぎを可能とするハードウェア構成の条件を示すハードウェア構成一致ポリシー情報を少なくとも格納するメモリと、を有し、
　前記プロセッサは、
　　前記現用サーバ及び前記予備サーバからそれぞれのハードウェア構成情報を取得する処理と、
　　前記取得したハードウェア構成情報に基づいて、前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、前記メモリから読み出した前記ハードウェア構成一致ポリシー情報を参照して、前記現用サーバと前記予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定する処理と、
　　前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出する処理と、
　　前記現用サーバと前記予備サーバの組み合わせのそれぞれについての、前記ハードウェア構成の隠蔽の有無の情報及び前記引き継ぎ可否の情報と、前記構成一致率の情報に基づいて、前記現用サーバの引き継ぎ先である予備サーバを割り当てる処理と、
を実行することを特徴とするサーバシステム。
　請求項１において、
　前記プロセッサは、さらに、
　　前記現用サーバのＥＣＣエラー数の情報を取得する処理と、
　　前記取得したＥＣＣエラー数に基づいて、既に実行された予備サーバの割り当てを変更し、動的に予備サーバを現用サーバに割り当てる処理と、
を実行することを特徴とするサーバシステム。
　請求項２において、
　前記プロセッサは、さらに、
　　前記現用サーバのＣＰＵ稼働率の情報と、前記現用サーバと前記予備サーバの組み合わせのそれぞれにおけるＣＰＵコア数増加率の情報と、を取得する処理と、
　　前記ＥＣＣエラー数に加えて、前記ＣＰＵ稼働率及び前記ＣＰＵコア数増加率の情報を用いて、動的に予備サーバを現用サーバに割り当てる処理と、
を実行することを特徴とするサーバシステム。
　請求項２において、
　前記メモリは、さらに、少なくとも前記ＥＣＣエラー数に基づく予備サーバの割り当ての条件を規定する割り当て変更ポリシー情報を格納し、
　前記プロセッサは、前記メモリから前記割り当て変更ポリシー情報を読み出し、前記動的に予備サーバを現用サーバに割り当てる処理を実行することを特徴とするサーバシステム。
　請求項３において、
　前記メモリは、さらに、前記ＥＣＣエラー数に基づく予備サーバの割り当ての条件、前記ＣＰＵの稼働率に基づく予備サーバの割り当ての条件、及び前記ＣＰＵコア数増加率に基づく予備サーバの割り当ての条件を規定する割り当て変更ポリシー情報を格納し、
　前記割り当て変更ポリシー情報における各割り当ての条件には検討の優先度が設定されており、
　前記プロセッサは、前記メモリから前記割り当て変更ポリシー情報を読み出し、前記検討の優先度に従って前記割り当て変更ポリシー情報を検討し、前記動的に予備サーバを現用サーバに割り当てる処理を実行することを特徴とするサーバシステム。
　請求項１において、
　前記プロセッサは、さらに、
　　前記現用サーバの何れかについての障害通知に応答して、障害が発生した前記現用サーバの引き継ぎ先として割り当てられた前記予備サーバに前記ハードウェアの隠蔽の有無の情報を送信する処理と、
　　前記予備サーバから、前記ハードウェアの隠蔽の有無の情報に基づいて実行されたハードウェアの隠蔽処理の完了通知を受信する処理と、
　　前記障害が発生した現用サーバを前記引き継ぎ先として割り当てられた前記予備サーバに切り替える処理と、
を実行することを特徴とするサーバシステム。
　複数の、請求項１に記載のサーバシステムと、
　前記複数のサーバシステムを管理するグローバル管理計算機と、を有する計算機システムであって。
　前記グローバル管理計算機は、前記複数のサーバシステムにおける前記ローカル管理計算機間の通信を管理することにより、前記ローカル管理計算機が異なるサーバシステムに配置された前記現用サーバ及び前記予備サーバのハードウェア構成情報を取得することを可能にし、
　前記ローカル管理計算機は、自身のサーバシステムにおける現用サーバの引き継ぎ先として、自身のサーバシステムとは異なるサーバシステムにおける予備サーバを割り当てることを特徴とする計算機システム。
　業務を処理し、稼働中の少なくとも１つの現用サーバと、前記現用サーバが故障した際に当該故障した現用サーバの業務を引き継がせるために用意された少なくとも１つの予備サーバと、前記現用サーバ及び前記予備サーバを監視し、サーバの切り替えを制御するローカル管理計算機と、を有するサーバシステムの管理方法であって、
　前記ローカル管理計算機は、前記現用サーバの業務の引き継ぎ先である予備サーバの割り当て処理を実行するプロセッサと、サーバの引き継ぎを可能とするハードウェア構成の条件を示すハードウェア構成一致ポリシー情報を少なくとも格納するメモリと、を有し、
　前記管理方法は、
　前記プロセッサが、前記現用サーバ及び前記予備サーバからそれぞれのハードウェア構成情報を取得するステップと、
　前記プロセッサが、前記取得したハードウェア構成情報に基づいて、前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、前記メモリから読み出した前記ハードウェア構成一致ポリシー情報を参照して、前記現用サーバと前記予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定するステップと、
　前記プロセッサが、前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出するステップと、
　前記プロセッサが、前記現用サーバと前記予備サーバの組み合わせのそれぞれについての、前記ハードウェア構成の隠蔽の有無の情報及び前記引き継ぎ可否の情報と、前記構成一致率の情報に基づいて、前記現用サーバの引き継ぎ先である予備サーバを割り当てるステップと、
を含むことを特徴とするサーバシステムの管理方法。
　請求項８において、さらに、
　前記プロセッサが、前記現用サーバのＥＣＣエラー数の情報を取得するステップと、
　前記プロセッサが、前記取得したＥＣＣエラー数に基づいて、既に実行された予備サーバの割り当てを変更し、動的に予備サーバを現用サーバに割り当てるステップと、
を含むことを特徴とするサーバシステムの管理方法。
　請求項９において、さらに、
　前記プロセッサが、前記現用サーバのＣＰＵ稼働率の情報と、前記現用サーバと前記予備サーバの組み合わせのそれぞれにおけるＣＰＵコア数増加率の情報と、を取得するステップと、
　前記プロセッサが、前記ＥＣＣエラー数に加えて、前記ＣＰＵ稼働率及び前記ＣＰＵコア数増加率の情報を用いて、動的に予備サーバを現用サーバに割り当てるステップと、
を含むことを特徴とするサーバシステムの管理方法。
　請求項９において、
　前記メモリは、さらに、少なくとも前記ＥＣＣエラー数に基づく予備サーバの割り当ての条件を規定する割り当て変更ポリシー情報を格納し、
　前記動的に予備サーバを現用サーバに割り当てるステップにおいて、前記プロセッサは、前記メモリから前記割り当て変更ポリシー情報を読み出し、前記動的に予備サーバを現用サーバに割り当てることを特徴とするサーバシステムの管理方法。
　請求項１０において、
　前記メモリは、さらに、前記ＥＣＣエラー数に基づく予備サーバの割り当ての条件、前記ＣＰＵの稼働率に基づく予備サーバの割り当ての条件、及び前記ＣＰＵコア数増加率に基づく予備サーバの割り当ての条件を規定する割り当て変更ポリシー情報を格納し、
　前記割り当て変更ポリシー情報における各割り当ての条件には検討の優先度が設定されており、
　前記動的に予備サーバを現用サーバに割り当てるステップにおいて、前記プロセッサは、前記メモリから前記割り当て変更ポリシー情報を読み出し、前記検討の優先度に従って前記割り当て変更ポリシー情報を検討し、前記動的に予備サーバを現用サーバに割り当てることを特徴とするサーバシステムの管理方法。
　請求項８において、さらに、
　前記プロセッサが、前記現用サーバの何れかについての障害通知に応答して、障害が発生した前記現用サーバの引き継ぎ先として割り当てられた前記予備サーバに前記ハードウェアの隠蔽の有無の情報を送信するステップと、
　前記引き継ぎ先として割り当てられた予備サーバが、前記ハードウェアの隠蔽の有無の情報に基づいてハードウェアの隠蔽処理を実行するステップと、
　前記プロセッサが、前記予備サーバから前記隠蔽処理の完了通知を受信するステップと、
　前記プロセッサが、前記障害が発生した現用サーバを前記引き継ぎ先として割り当てられた前記予備サーバに切り替えるステップと、
を含むことを特徴とするサーバシステムの管理方法。
　業務を処理し、稼働中の少なくとも１つの現用サーバと、前記現用サーバが故障した際に当該故障した現用サーバの業務を引き継がせるために用意された少なくとも１つの予備サーバと、前記現用サーバ及び前記予備サーバを監視し、サーバの切り替えを制御するローカル管理計算機と、を有するサーバシステムにおける前記ローカル管理計算機のプロセッサに、前記現用サーバの業務の引き継ぎ先である予備サーバの割り当て処理を実行させるためのプログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、
　前記プログラムは、前記プロセッサに、
　　前記現用サーバ及び前記予備サーバからそれぞれのハードウェア構成情報を取得する処理と、
　　前記取得したハードウェア構成情報に基づいて、前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成を比較し、サーバの引き継ぎを可能とするハードウェア構成の条件を示すハードウェア構成一致ポリシー情報を少なくとも格納するメモリから読み出した前記ハードウェア構成一致ポリシー情報を参照して、前記現用サーバと前記予備サーバの組み合わせのそれぞれについてハードウェア構成の隠蔽の有無、及び引き継ぎの可否について決定する処理と、
　　前記現用サーバと前記予備サーバの組み合せのそれぞれについてハードウェア構成の一致割合を示す構成一致率を算出する処理と、
　　前記現用サーバと前記予備サーバの組み合わせのそれぞれについての、前記ハードウェア構成の隠蔽の有無の情報及び前記引き継ぎ可否の情報と、前記構成一致率の情報に基づいて、前記現用サーバの引き継ぎ先である予備サーバを割り当てる処理と、
を実行するためのプログラムコードを含む特徴とするコンピュータ読み取り可能な記憶媒体。