WO2015114816A1

WO2015114816A1 - 管理計算機および管理プログラム

Info

Publication number: WO2015114816A1
Application number: PCT/JP2014/052334
Authority: WO
Inventors: 智之鷺山; 智斉内田
Original assignee: 株式会社日立製作所
Priority date: 2014-01-31
Filing date: 2014-01-31
Publication date: 2015-08-06
Also published as: US20160239391A1; US9990258B2

Abstract

　仮想計算機が物理リソースを過度に破壊することを防ぐ。　管理計算機において、メモリは、第一物理計算機と、第一物理計算機により実行されている仮想計算機と、仮想計算機へ割り当てられている第一物理リソースと、仮想計算機を使用するユーザとの対応情報を記憶し、故障した物理リソースを示す故障情報を記憶し、ユーザによる使用に起因して故障した物理リソースの量である破壊量に対し、上限値を記憶する。プロセッサは、破壊量を算出し、第一物理リソースが故障したと判定され、且つ破壊量が上限値以下であると判定され、且つ複数の物理計算機の何れかに第二物理リソースが有ると判定された場合、第一物理リソースに代えて第二物理リソースを仮想計算機へ割り当てる指示を第一物理計算機へ送信する。

Description

管理計算機および管理プログラム

　本発明は、計算機を管理する管理計算機に関する。

　物理計算機がＬＰＡＲ（Logical　Partition：論理区画）やＶＭ（Virtual　Machine）などの仮想計算機を提供する技術が知られている。

　特許文献１には、物理サーバが複数のＬＰＡＲを構築し、物理サーバの障害が発生した時、管理サーバはその障害の影響を受けるＬＰＡＲを特定し、特定されたＬＰＡＲのみをフェイルオーバすることで、他のＬＰＡＲを継続させる技術が記載されている。

特開２０１１－２５８２３３号公報

　仮想計算機に割り当てられている物理リソースが故障し、その故障の影響を受けた仮想計算機が、故障した物理リソースの代わりに新たな物理リソースを用いて動作する場合、その仮想計算機の動作に起因して新たな物理リソースも故障することがある。これにより、他の仮想計算機も故障の影響を受けることがある。

　上記課題を解決するために、本発明の一態様である管理計算機は、メモリと、複数の物理計算機に接続されるネットワークインターフェースと、メモリおよびネットワークインターフェースに接続されるプロセッサと、を備える。メモリは、複数の物理計算機の中の第一物理計算機と、第一物理計算機により実行されている仮想計算機と、第一物理計算機に含まれており且つ仮想計算機へ割り当てられている第一物理リソースと、仮想計算機を使用するユーザとの対応付けを示す対応情報を記憶し、故障した物理リソースを示す故障情報を記憶し、第一物理リソースと同じ種類の物理リソースでユーザによる使用に起因して故障した物理リソースの量である破壊量に対し、上限値を記憶する。プロセッサは、対応情報および故障情報に基づいて破壊量を算出し、破壊量が上限値以下であるか否かを判定し、故障情報に基づいて第一物理リソースが故障したか否かを判定し、第一物理リソースが故障したと判定され且つ破壊量が上限値以下であると判定された場合、対応情報に基づいて、複数の物理計算機の何れかに第一物理リソースの代替として使用できる第二物理リソースが有るか否かを判定し、第二物理リソースが有ると判定された場合、第一物理リソースに代えて第二物理リソースを仮想計算機へ割り当てる指示を第一物理計算機へ送信する。

　本発明の一態様によれば、仮想計算機が物理リソースを過度に破壊することを防ぐことができる。

本発明の実施例の計算機システムの構成を示す。物理サーバ２００の論理構成を示す。管理サーバ１００の構成を示す。計算機システムの動作の概要を示す。サーバ構成情報６５０を示す。ＬＰＡＲ構成情報６６０を示す。テナント対応情報６７０を示す。破壊量上限値情報６８０を示す。リソース使用履歴情報６９０を示す。障害検知プログラム６１１の動作を示す。障害対処プログラム６１４の第一の動作を示す。障害対処プログラム６１４の第一の動作に続く第二の動作を示す。影響ＬＰＡＲ障害対処プログラム６１５の動作を示す。上限値超過チェックプログラム６１６の動作を示す。破壊量算出プログラム６１７の動作を示す。復旧後処理プログラム６１８の動作を示す。リソース状態入力画面を示す。監視画面を示す。破壊量上限値入力画面を示す。

　なお、以後の説明では「ａａａテーブル」、「ａａａリスト」、「ａａａＤＢ」、「ａａａキュー」等の表現にて本発明の情報を説明するが、これら情報はテーブル、リスト、ＤＢ、キュー、等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「ａａａテーブル」、「ａａａリスト」、「ａａａＤＢ」、「ａａａキュー」等について「ａａａ情報」と呼ぶことがある。

　さらに、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ＩＤ」という表現を用いるが、これらについてはお互いに置換が可能である。

　以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート（通信制御デバイス）を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。

　また、各種プログラムはプログラム配布サーバや、計算機が読み取り可能な記憶メディア（computer-readable　memory　media）によって各計算機にインストールされてもよい。この場合、プログラム配布サーバはＣＰＵと記憶資源を含み、記憶資源はさらに配布プログラムと配布対象であるプログラムを記憶している。そして、配布プログラムをＣＰＵが実行することで、プログラム配布サーバのＣＰＵは配布対象のプログラムを他の計算機に配布する。

　なお、管理計算機は入出力デバイスを有する。入出力デバイスの例としてはディスプレイとキーボードとポインタデバイスが考えられるが、これ以外のデバイスであってもよい。また、入出力デバイスの代替としてシリアルインターフェースやイーサーネットインターフェースを入出力デバイスとし、当該インターフェースにディスプレイ又はキーボード又はポインタデバイスを有する表示用計算機を接続し、表示用情報を表示用計算機に送信したり、入力用情報を表示用計算機から受信することで、表示用計算機で表示を行ったり、入力を受け付けることで入出力デバイスでの入力及び表示を代替してもよい。

　以後、情報処理システムを管理し、本願発明の表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理計算機が表示用情報を表示する場合は管理計算機が管理システムである。また、管理計算機と表示用計算機の組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合は当該複数の計算機（表示を表示用計算機が行う場合は表示用計算機も含め）が管理システムである。

　以下、本発明の実施例について図面を用いて説明する。

　本実施例では、ＬＰＡＲやＶＭなどの仮想計算機をユーザに提供する複数の物理サーバと、それらを管理する管理サーバとを含む計算機システムについて説明する。

　図１は、本発明の実施例の計算機システムの構成を示す。

　本実施例の計算機システムは、管理サーバ１００と、複数の物理サーバ２００と、ディスクアレイ装置３００と、表示用計算機４００とを含む。管理サーバ１００と、複数の物理サーバ２００と、表示用計算機４００とは、ＬＡＮ（Local　Area　Network）５１０を介して互いに接続されている。複数の物理サーバ２００と、ディスクアレイ装置３００とは、ＳＡＮ（Storage　Area　Network）５２０を介して互いに接続されている。

　ディスクアレイ装置３００は、ＨＤＤ（Hard　Disk　Drive）やフラッシュデバイスなどの複数の記憶媒体を有し、それらの記憶媒体に基づいて複数のＬＵ（Logical　Unit）３１０を物理サーバ２００に提供する。

　物理サーバ２００は、複数のＮＩＣ（Network　Interface　Card）２１０と、ＢＭＣ（Base　Management　Controller）２２０と、複数のメモリ２３０と、複数のＣＰＵ（Central　Processing　Unit）２４０と、複数のフラッシュデバイス２５０と、メモリ２６０と、複数のＨＢＡ（Host　Bus　Adaptor）２７０とを含む。なお、ＮＩＣ２１０と、メモリ２３０と、ＣＰＵ２４０と、フラッシュデバイス２５０と、ＨＢＡ２７０とのそれぞれは、一つであっても良い。フラッシュデバイス２５０は、記憶媒体としてフラッシュメモリなどの不揮発性半導体メモリを有する記憶デバイスである。フラッシュデバイス２５０は、書き込み回数の増大に伴って劣化する。

　ＮＩＣ２１０は、ＬＡＮ５１０に接続されており、管理サーバ１００との通信を行う。ＢＭＣ２２０は、ＬＡＮ５１０に接続されており、物理サーバ２００のハードウェアの監視、リモートコントロール、ハードウェアイベントの記録などを行う。メモリ２３０は、物理サーバ２００の処理のためのプログラムおよびデータを格納する。ＣＰＵ２４０は、メモリ２３０に格納されているプログラムおよびデータに基づいて処理を実行する。フラッシュデバイス２５０は、フラッシュメモリなどの不揮発性半導体メモリを含み、データを格納する。メモリ２６０は、論理分割（Logical　Partitioning）機構２８０のプログラムを格納する。なお、メモリ２６０は、ＨＤＤやフラッシュデバイスなどのローカルストレージであっても良い。ＨＢＡ２７０は、ＳＡＮ５２０に接続されており、ディスクアレイ装置３００との通信を行う。

　複数の物理サーバ２００は、マルチテナント環境を提供する。マルチテナント環境は、幾つかの物理サーバ２００を、複数の組織で共同利用する環境である。マルチテナント環境の全体管理者は、マルチテナント環境を提供する物理サーバ２００や、マルチテナント環境全体のリソース（物理リソース）に対して管理者権限を持つ。マルチテナント環境におけるテナントは、マルチテナント環境を利用する組織に対応付けられたリソースのグループである。リソースは、物理サーバ２００内のＣＰＵ２４０、メモリ２３０、フラッシュデバイス２５０、ＮＩＣ２１０、ＨＢＡ２７０など、物理サーバ２００に搭載される物理リソースの一部である。テナントユーザは、テナントのリソースに対して管理者権限を持つユーザである。ＬＰＡＲは、物理サーバ２００内のリソースを論理的に分割して得られる区画である。論理分割機構２８０は、物理サーバ２００上にＬＰＡＲを構築するためのファームウェアである。本実施例では、ＬＰＡＲ上でハイパーバイザが動作する。ハイパーバイザは、物理サーバ２００又はＬＰＡＲを仮想化することにより、複数のＶＭを並列に実行するプログラムである。各ＶＭは、業務のためのＯＳ（Operating　System）やアプリケーションを実行する。

　以下、物理サーバ２００を構成するリソースが、物理的な損傷により、計算機システムから利用できなくなる状態になることを、故障と呼ぶ。物理的な損傷は、例えば、ＣＰＵ２４０の場合、過電流、過電圧、過熱などであり、フラッシュデバイス２５０の場合、書き込み過多によるメモリセルの劣化などである。ＬＰＡＲがリソースを破壊する場合とは、ＣＰＵ２４０の長時間の高負荷処理による加熱を原因とするＣＰＵの故障や、フラッシュデバイス２５０の書き込み過多によるメモリセルの劣化を原因とするフラッシュデバイス２５０の故障などである。

　図２は、物理サーバ２００の論理構成を示す。

　ここでは、複数の物理サーバ２００の中の物理サーバ（１）および物理サーバ（２）について説明する。物理サーバ（１）は、論理分割機構（１）を実行する。物理サーバ（２）は、論理分割機構（２）を実行する。

　テナントＡのテナントユーザは、管理サーバ１００または表示用計算機４００を介して、論理分割機構（１）にＬＰＡＲ－Ａ１の作成を指示し、論理分割機構（２）にＬＰＡＲ－Ａ２の作成を指示する。テナントＢのテナントユーザは、管理サーバ１００または表示用計算機４００を介して、論理分割機構（１）にＬＰＡＲ－Ｂ１の作成を指示し、論理分割機構（２）にＬＰＡＲ－Ｂ２の作成を指示する。論理分割機構（１）は、ＬＰＡＲ－Ａ１およびＬＰＡＲ－Ｂ１のそれぞれに対し、物理サーバ（１）内のＣＰＵ、メモリ、フラッシュデバイス、ＮＩＣ、ＨＢＡなどのリソースを割り当てる。論理分割機構（２）は、ＬＰＡＲ－Ａ１およびＬＰＡＲ－Ｂ１のそれぞれに対し、物理サーバ（２）内のＣＰＵ２４０、メモリ２３０、フラッシュデバイス２５０、ＮＩＣ２１０、ＨＢＡ２７０などのリソースを割り当てる。

　テナントＡのテナントユーザは、管理サーバ１００または表示用計算機４００を介して、ＬＰＡＲ－Ａ１にハイパーバイザ（Ａ１）を実行させ、ＬＰＡＲ－Ａ２にハイパーバイザ（Ａ２）を実行させる。更にテナントＡのテナントユーザは、管理サーバ１００または表示用計算機４００を介して、ハイパーバイザ（Ａ１）にＶＭ（Ａ１１）およびＶＭ（Ａ１２）の作成を指示し、ハイパーバイザ（Ａ２）にＶＭ（Ａ２１）およびＶＭ（Ａ２２）の作成を指示する。更にテナントＡのテナントユーザは、管理サーバ１００または表示用計算機４００を介して、ＶＭ（Ａ１１）、ＶＭ（Ａ１２）、ＶＭ（Ａ２１）、ＶＭ（Ａ２２）にそれぞれ、業務のためのＯＳ（Ａ１１）、ＯＳ（Ａ１２）、ＯＳ（Ａ２１）、ＯＳ（Ａ２２）を実行させる。同様にして、テナントＢのテナントユーザは、管理サーバ１００または表示用計算機４００を介して、ＬＰＡＲ－Ｂ１にハイパーバイザ（Ｂ１）を実行させ、ＬＰＡＲ－Ｂ２にハイパーバイザ（Ｂ２）を実行させる。更にテナントＢのテナントユーザは、管理サーバ１００または表示用計算機４００を介して、ハイパーバイザ（Ｂ１）にＶＭ（Ｂ１１）およびＶＭ（Ｂ１２）の作成を指示し、ハイパーバイザ（Ｂ２）にＶＭ（Ｂ２１）およびＶＭ（Ｂ２２）の作成を指示する。更にテナントＢのテナントユーザは、管理サーバ１００または表示用計算機４００を介して、ＶＭ（Ｂ１１）、ＶＭ（Ｂ１２）、ＶＭ（Ｂ２１）、ＶＭ（Ｂ２２）にそれぞれ、業務のためのＯＳ（Ｂ１１）、ＯＳ（Ｂ１２）、ＯＳ（Ｂ２１）、ＯＳ（Ｂ２２）を実行させる。

　論理分割機構（１）は、物理サーバ（１）内の正常なリソースのうち、共有リソースおよびＬＰＡＲに割り当てられていないリソースを、リソースプール（１）として管理する。同様に、論理分割機構（２）は、物理サーバ（２）内の正常なリソースのうち、共有リソースおよびＬＰＡＲに割り当てられていないリソースを、リソースプール（２）として管理する。

　図３は、管理サーバ１００の構成を示す。

　管理サーバ１００は、メモリ１１０と、ＣＰＵ１２０と、ＮＩＣ１３０と、入出力デバイス１４０とを含む。メモリ１１０は、管理サーバ１００の処理のためのプログラムおよびデータを格納する。なお、メモリ１１０は、フラッシュメモリやＨＤＤなどのローカルストレージであっても良い。ＣＰＵ１２０は、メモリ１１０に格納されたプログラムおよびデータに基づいて処理を実行する。ＮＩＣ１３０は、ＬＡＮ５１０に接続されており、物理サーバ２００および表示用計算機４００との通信を行う。入出力デバイス１４０は、キーボードやポインティングデバイスなどの入力デバイスと、ディスプレイやプリンタなどの出力デバイスとを含む。

　メモリ１１０は、管理プログラム６１０と、構成情報６３０と、テナント情報６４０とを格納する。構成情報６３０は、物理サーバ２００の構成を示す。テナント情報６４０は、どのテナントがどのＬＰＡＲを使用しているかなど、テナントとＬＰＡＲの対応関係を示す。

　管理プログラム６１０は、障害検知プログラム６１１と、構成情報収集プログラム６１２と、テナント定義プログラム６１３と、障害対処プログラム６１４と、影響ＬＰＡＲ障害対処プログラム６１５と、上限値超過チェックプログラム６１６と、破壊量算出プログラム６１７と、復旧後処理プログラム６１８と、リソース状態入力プログラム６２１と、監視画面出力プログラム６２２と、破壊量上限値入力プログラム６２３とを含む。

　構成情報６３０は、サーバ構成情報６５０と、ＬＰＡＲ構成情報６６０とを含む。テナント情報６４０は、テナント対応情報６７０と、破壊量上限値情報６８０と、リソース使用履歴情報６９０とを含む。

　構成情報収集プログラム６１２は、物理サーバ２００に搭載されている物理リソースの情報を物理サーバ２００から収集し、収集された情報に基づいてサーバ構成情報６５０を作成する。更に構成情報収集プログラム６１２は、物理サーバ２００中に構築されたＬＰＡＲの情報などを収集し、収集された情報に基づいてＬＰＡＲ構成情報６６０を作成する。ＬＰＡＲ構成情報６６０は、どのＬＰＡＲがどの物理リソースをどれくらい使用しているかなど、ＬＰＡＲと物理リソースの対応関係を示す。構成情報収集プログラム６１２は、ＬＰＡＲの構築時に物理サーバ２００から構成情報を取得しても良いし、定期的に物理サーバ２００から構成情報を取得しても良いし、物理サーバ２００から通知されるイベントに応じて物理サーバ２００から構成情報を取得しても良い。

　テナント定義プログラム６１３は、全体管理者により管理サーバ１００または表示用計算機４００を用いて入力されるテナントの定義情報を物理サーバ２００へ送信する。更にテナント定義プログラム６１３は、物理サーバ２００中に格納されているテナントの定義情報を取得し、受信された情報に基づいてテナント対応情報６７０およびリソース使用履歴情報６９０を作成する。テナントの定義情報は、物理サーバ２００内に格納されているが、管理サーバ１００内に格納されていても良い。この場合、物理サーバ２００からテナントの定義情報を受信することは不要である。テナントユーザはテナントの定義情報を操作できない。

　表示用計算機４００は、管理サーバ１００と同様、メモリとＣＰＵとＮＩＣと入出力デバイスを含む。

　図４は、計算機システムの動作の概要を示す。

　この図は、物理サーバ（１）内に構築されているマルチテナント環境において、テナントＡのテナントユーザにより利用されているＬＰＡＲ－Ａ１に対する、物理サーバ（１）のリソースの割り当ての状態の遷移を示している。

　物理サーバ（１）は、ＬＰＡＲにより使用可能なリソースである使用可能リソースとして、ＣＰＵ（１）、ＣＰＵ（２）、メモリ（１）、メモリ（２）、フラッシュデバイス（１）、フラッシュデバイス（２）、フラッシュデバイス（３）、ＮＩＣ（１）、ＮＩＣ（２）、ＨＢＡ（１）、ＨＢＡ（２）を有する。テナントＡのＬＰＡＲ－Ａ１には、使用可能リソースのうち、ＣＰＵ（１）とメモリ（１）とフラッシュデバイス（１）とＮＩＣ（１）とＨＢＡ（１）が割り当てられているとする。これらをそれぞれ、割り当てＣＰＵ、割り当てメモリ、割り当てフラッシュデバイス、割り当てＮＩＣ、割り当てＨＢＡと呼ぶ。

　ここで、フラッシュデバイス（１）の故障が発生したとする（Ｓ１０）。その後、管理サーバ１００は、ＬＰＡＲ－Ａ１へのフラッシュデバイス（１）の割り当てを解除する。ここで、これまでにテナントＡにより使用されて故障したフラッシュデバイスのリソース量の合計である破壊量が予め定められた上限値以下であるという条件を満たすとする。この場合、管理サーバ１００は、ＬＰＡＲ－Ａ１に対し、故障したフラッシュデバイス（１）の代わりに正常なフラッシュデバイス（２）を割り当て、ＬＰＡＲ－Ａ１を復旧させる（Ｓ２０）。

　その後、ＬＰＡＲ－Ａ１に割り当てられているフラッシュデバイス（２）の故障が発生したとする（Ｓ３０）。管理サーバ１００は、ＬＰＡＲ－Ａ１へのフラッシュデバイス（２）の割り当てを解除する。ここで、これまでにテナントＡにより使用されたリソース量が予め定められた上限値以下であるという条件を満たさないとする。この場合、管理サーバ１００は、ＬＰＡＲ－Ａ１に正常なフラッシュデバイスを割り当てない（Ｓ４０）。

　この動作により、あるテナントのＬＰＡＲがリソースの破壊と再割り当てを繰り返すことによる過度のリソース破壊を防ぐことができる。これにより、他のテナントに割り当てることができるリソースプール内のリソース量の低下を抑止することができる。

　なお、管理サーバ１００は、後述するように、故障が発生したＬＰＡＲを別の物理サーバへフェイルオーバしても良い。

　以下、管理サーバ１００に格納される構成情報６３０およびテナント情報６４０について説明する。

　図５は、サーバ構成情報６５０を示す。

　サーバ構成情報６５０は、構成情報収集プログラム６１２により作成される。サーバ構成情報６５０は、物理サーバＩＤ６５１と、論理分割機構ＩＤ６５２と、保有リソース情報６５３とを関連付けている。物理サーバＩＤ６５１は、物理サーバ２００を示す識別子である。論理分割機構ＩＤ６５２は、論理分割機構を示す識別子である。保有リソース情報６５３は、論理分割機構により分割された各リソースを示す。或るリソースの保有リソース情報６５３は、リソース種類６５４と、リソースＩＤ６５５と、リソース量６５６と、リソース状態６５７と、使用中情報６５８と、占有情報６５９とを含む。リソース種類６５４は、当該リソースの種類を示す。例えば、リソース種類６５４は、ＣＰＵ、メモリ、フラッシュデバイス、ＮＩＣ、ＨＢＡなどである。リソースＩＤ６５５は、当該リソースを示す識別子である。リソース量６５６は、当該リソースの量を示す。例えば、リソース量６５６は、ＣＰＵのコア数、メモリの記憶容量、フラッシュデバイスの記憶容量などである。リソース状態６５７は、当該リソースが正常か故障かを示す。使用中情報６５８は、当該リソースがＬＰＡＲにより使用されているか否かを示す。占有情報６５９は、当該リソースが一つのＬＰＡＲにより占有される占有リソースであるか、複数のＬＰＡＲにより共有可能な共有リソースであるかを示す。

　図６は、ＬＰＡＲ構成情報６６０を示す。

　ＬＰＡＲ構成情報６６０は、構成情報収集プログラム６１２により作成される。ＬＰＡＲ構成情報６６０は、ＬＰＡＲ－ＩＤ６６１と、論理分割機構ＩＤ６６２と、ＬＰＡＲ稼働状況６６３と、割当リソース情報６６４とを関連付けている。ＬＰＡＲ－ＩＤ６６１は、ＬＰＡＲを示す識別子である。論理分割機構ＩＤ６６２は、当該ＬＰＡＲを構築している論理分割機構を示す識別子である。ＬＰＡＲ稼働状況６６３は、当該ＬＰＡＲが、稼働中であるか停止中であるかを示す。或るリソースの割当リソース情報６６４は、リソース種類６６５と、リソースＩＤ６６６と、リソース量６６７とを含む。リソース種類６６５は、当該リソースの種類を示す。リソースＩＤ６６６は、当該リソースを示す識別子である。リソース量６６７は、当該リソースの量を示す。

　図７は、テナント対応情報６７０を示す。

　テナント対応情報６７０は、テナント定義プログラム６１３により作成される。テナント対応情報６７０は、テナントＩＤ６７１と、使用ＬＰＡＲ－ＩＤ６７２と、ハイパーバイザ情報６７３とを関連付けている。テナントＩＤ６７１は、テナントを示す識別子である。使用ＬＰＡＲ－ＩＤ６７２は、当該テナントにより使用されているＬＰＡＲを示す識別子である。ハイパーバイザ情報６７３は、当該ＬＰＡＲがハイパーバイザを実行しているか否かを示す。

　図８は、破壊量上限値情報６８０を示す。

　破壊量上限値情報６８０は、破壊量上限値入力プログラム６２３により作成される。破壊量上限値情報６８０は、テナントＩＤ６８１と、リソース種類６８２と、破壊量上限値６８３と、上限値超過情報６８４とを関連付けている。テナントＩＤ６８１は、テナントを示す識別子である。リソース種類６８２は、当該テナントにより使用されるリソースの種類を示す。破壊量上限値６８３は、当該テナントが故障させても良い当該リソース種類のリソース量の上限値を示す。上限値超過情報６８４は、当該テナントが原因となって故障した当該リソース種類のリソース量が破壊量上限値６８３を超えたか否かを示す。当該テナントが原因となって故障した当該リソース種類のリソース量が破壊量上限値６８３を超えた場合、管理サーバ１００は、新たに当該リソース種類のリソースを当該テナントに割り当てることが抑止する。

　破壊量上限値６８３は、テナントユーザとの契約などにより決定され、全体管理者により管理サーバ１００へ入力される。破壊量上限値６８３は、テナントユーザに提供されるサービスの階級により予め定められていても良いし、テナントが実際に使用する予定のリソース量にマージンを加えた値であっても良い。

　図９は、リソース使用履歴情報６９０を示す。

　リソース使用履歴情報６９０は、テナント定義プログラム６１３により作成される。リソース使用履歴情報６９０は、リソースＩＤ６９１と、使用テナントＩＤ６９２と、使用ＬＰＡＲ－ＩＤ６９３と、使用履歴６９４と、割当量６９５とを関連付けている。リソースＩＤ６９１は、リソースを示す識別子である。使用テナントＩＤ６９２は、当該リソースを使用したテナントを示す識別子である。使用ＬＰＡＲ－ＩＤ６９３は、当該リソースが割り当てられているＬＰＡＲを示す識別子である。使用履歴６９４は、当該ＬＰＡＲが当該リソースを使用した状況を示す。割当量６９５は、当該リソースの量のうち当該ＬＰＡＲに割り当てられた量を示し、ＬＰＡＲ構成情報６６０の当該ＬＰＡＲおよび当該リソースに対応するリソース量６６７に等しい。フラッシュデバイスの使用履歴６９４は当該ＬＰＡＲによる書き込み回数である。ＣＰＵの使用履歴６９４は、割当量６９５と同じ値に設定される。

　故障がリソースの使用履歴６９４に依存するリソース種類がある。例えば、フラッシュデバイス２５０の故障は使用履歴６９４である書き込み回数に依存する。一方、故障がリソースの使用履歴６９４に依存しないリソース種類がある。例えば、ＣＰＵ２４０は、オーバーヒートのように瞬間的な現象によって故障する。フラッシュデバイス２５０の書き込み回数は、物理サーバ２００により記録されても良いし、フラッシュデバイス２５０により記録されても良い。テナント定義プログラム６１３は、物理サーバ２００から書き込み回数を取得し、リソース使用履歴情報６９０の使用履歴６９４に反映する。当該ＬＰＡＲが削除され、当該リソースの割り当てが解除されても、当該リソースが交換されるまで使用履歴６９４は残る。

　以下、管理サーバ１００における各プログラムの動作について説明する。

　図１０は、障害検知プログラム６１１の動作を示す。

　物理サーバ２００は、リソースの故障を検出すると、障害アラートを管理サーバ１００へ送信する。障害アラートは、ＣＰＵのオーバーヒートなどの障害の種類や、故障したリソースである故障リソースなどを示す。

　障害検知プログラム６１１は、Ｓ１１０において物理サーバ２００から障害アラートを受信すると、障害アラートを送信した物理サーバ２００を影響物理サーバとし、処理をＳ１２０へ移行させる。障害検知プログラム６１１は、Ｓ１２０において、障害アラートに基づいて故障リソースのリソースＩＤである故障リソースＩＤを特定し、Ｓ１３０において、故障リソースＩＤを障害対処プログラム６１４へ通知し、このフローを終了する。その後、障害検知プログラム６１１は、このフローを繰り返す。

　以上の障害検知プログラム６１１によれば、管理サーバ１００は、影響物理サーバにおけるリソースの故障の情報を取得し、その取得に応じて動作することができる。

　図１１は、障害対処プログラム６１４の第一の動作を示し、図１２は、障害対処プログラム６１４の第一の動作に続く第二の動作を示す。

　障害対処プログラム６１４は、Ｓ２１０において、障害検知プログラム６１１から故障リソースＩＤを受信すると、処理をＳ２２０へ移行させる。障害対処プログラム６１４は、Ｓ２２０において、サーバ構成情報６５０における故障リソースのリソース状態６５７を、「正常」から「故障」に書き換える。障害対処プログラム６１４は、Ｓ２３０において、ＬＰＡＲ構成情報６６０に基づいて故障リソースに関連付けられたＬＰＡＲを影響ＬＰＡＲとして特定し、テナント対応情報６７０に基づいて影響ＬＰＡＲに関連付けられたテナントを影響テナントとして特定する。

　障害対処プログラム６１４は、Ｓ２４０において、故障が使用履歴に依存するか否かを判定する。例えば、障害対処プログラム６１４は、故障リソースのリソース種類がフラッシュデバイスである場合、使用履歴が書き込み回数であり、故障が使用履歴に依存すると判定し、故障リソースのリソース種類がフラッシュデバイス以外である場合、故障が使用履歴に依存しないと判定する。

　Ｓ２４０において、故障が使用履歴に依存すると判定された場合、障害対処プログラム６１４は、処理をＳ２６０へ移行させる。この場合、リソース使用履歴情報６９０の使用履歴６９４には既に、故障リソースのＬＰＡＲ毎の使用履歴が格納されている。

　Ｓ２４０において、故障が使用履歴に依存しないと判定された場合、障害対処プログラム６１４は、Ｓ２５０において、リソース使用履歴情報６９０に故障リソースの情報を追加し、処理をＳ２６０へ移行させる。ここで、障害対処プログラム６１４は、故障リソースに関連付けられたすべてのＬＰＡＲについて故障リソースの情報を追加する。影響ＬＰＡＲの使用履歴６９４および割当量６９５のそれぞれに設定される使用リソース量は、次式で表される。

　使用リソース量
　＝　影響ＬＰＡＲに割り当てられている故障リソースのリソース量の合計
　　÷影響ＬＰＡＲの数

　ＣＰＵのリソース量はコア数で表されても良い。例えば、ＣＰＵの１個のコアが、テナントＡの１個のＬＰＡＲと、テナントＢの３個のＬＰＡＲとに割り当てられている場合、各ＬＰＡＲに設定される使用リソース量は、１コア÷４個＝０．２５コアとなる。

　障害対処プログラム６１４は、Ｓ２６０において、故障の影響を受ける影響ＬＰＡＲがあるか否かを判定する。ここで、障害対処プログラム６１４は、ＬＰＡＲ構成情報６６０内に、故障リソースＩＤに関連付けられたＬＰＡＲ－ＩＤがある場合、影響ＬＰＡＲがあると判定する。

　Ｓ２６０において、影響ＬＰＡＲがない（Ｎｏ）と判定された場合、障害対処プログラム６１４は、処理をＳ３８０へ移行させる。このケースは、例えば、ＣＰＵのコアに故障が発生したが、それがＬＰＡＲに割り当てられていない場合である。

　Ｓ２６０において、影響ＬＰＡＲがある（Ｙｅｓ）と判定された場合、障害対処プログラム６１４は、処理をＳ３１０へ移行させる。

　Ｓ３１０において、障害対処プログラム６１４は、影響ＬＰＡＲの一つを選択し、影響ＬＰＡＲ毎にＳ３１０－Ｓ３７０の処理を実行する。

　障害対処プログラム６１４は、Ｓ３２０において、破壊量上限値情報６８０の中で影響テナントに対応する上限値超過情報６８４にＹｅｓのものがあるか否かを判定する。

　Ｓ３２０において、影響テナントに対応する上限値超過情報６８４がすべてＮｏである（Ｎｏ）と判定された場合、障害対処プログラム６１４は、Ｓ３３０において、影響ＬＰＡＲ障害対処プログラム６１５を起動し、処理をＳ３７０へ移行させる。

　Ｓ３２０において、影響テナントに対応する上限値超過情報６８４にＹｅｓのものがある（Ｙｅｓ）と判定された場合、障害対処プログラム６１４は、Ｓ３４０において、テナント対応情報６７０に基づいて、影響テナントが影響ＬＰＡＲ以外であってハイパーバイザを実行しているＬＰＡＲである受容可能ＬＰＡＲを有しているか否かを判定する。

　Ｓ３４０において、影響テナントが受容可能ＬＰＡＲを有している（Ｙｅｓ）と判定された場合、障害対処プログラム６１４は、Ｓ３５０において、影響ＬＰＡＲ上のＶＭを受容可能ＬＰＡＲ上へ移動させるＶＭ移動処理を行い、ＶＭを移動させる旨をテナントユーザへ通知し、処理をＳ３７０へ移行させる。ＶＭ移動処理は、フェイルオーバ（コールド・マイグレーション）であっても良いし、マイグレーション（ホット・マイグレーション）であってもよい。ここでのフェイルオーバは、影響ＬＰＡＲ上のすべてのＶＭをシャットダウンし、受容可能ＬＰＡＲ上でＶＭを立ち上げ直す処理である。ここでのマイグレーションは、影響ＬＰＡＲ上のすべてのＶＭの動作中のインスタンスを、受容可能ＬＰＡＲ上のハイパーバイザへ移動させる処理である。ここで、障害対処プログラム６１４は、影響物理サーバと受容可能ＬＰＡＲを実行している物理サーバとへ、ＶＭ移動処理の指示を送信する。障害対処プログラム６１４は、テナントユーザへの通知を、管理サーバ１００や表示用計算機４００の入出力デバイスに表示させても良いし、電子メールなどにより予め設定されたアドレスへ送信しても良い。

　Ｓ３４０において、影響テナントが受容可能ＬＰＡＲを有していない（Ｎｏ）と判定された場合、障害対処プログラム６１４は、Ｓ３６０において、影響ＬＰＡＲをシャットダウンし、ＶＭ移動処理ができない旨と、影響ＬＰＡＲを起動（リブート）できない旨とを、テナントユーザへ通知し、処理をＳ３７０へ移行させる。ここで、障害対処プログラム６１４は、影響物理サーバへ、影響ＬＰＡＲのシャットダウンの指示を送信する。

　Ｓ３７０において、障害対処プログラム６１４は、次の影響ＬＰＡＲがあれば、Ｓ３１０へ戻り、そうでなければ、Ｓ３８０において、上限値超過チェックプログラム６１６を起動し、このフローを終了する。

　なお、障害対処プログラム６１４は、障害アラートに示されている障害の種類に応じてＶＭ移動処理の対象とするか否かを判定しても良い。

　以上の障害対処プログラム６１４によれば、影響テナントにより使用されたリソース量が予め定められた破壊量上限値を超過している場合でも影響テナントが受容可能ＬＰＡＲを有していれば、影響ＬＰＡＲ上のＶＭを受容可能ＬＰＡＲ上へ移動させ、ＶＭの実行を継続させることができる。これにより、影響テナントは、全体のリソースが減るものの、業務を継続させることができる。また、影響テナントにより使用されたリソース量が予め定められた破壊量上限値を超過し、且つ影響テナントが受容可能ＬＰＡＲを有していない場合、影響ＬＰＡＲをシャットダウンすることにより、影響ＬＰＡＲ上で稼働している業務を安全に停止することができる。また、影響テナントが更にリソースを破壊することを防ぐことができる。

　図１３は、影響ＬＰＡＲ障害対処プログラム６１５の動作を示す。

　影響ＬＰＡＲ障害対処プログラム６１５は、Ｓ４１０において、サーバ構成情報６５０に基づいて、影響物理サーバ内に故障リソースの代替リソースが存在するか否かを判定する。ここで、影響ＬＰＡＲ障害対処プログラム６１５は、影響物理サーバのリソースプールの中から、故障リソースの代わりとなるリソースを代替リソースとする。代替リソースは、故障リソースと同じリソース種類を有し、且つ故障リソースのリソース量以上のリソース量を有する。

　Ｓ４１０において、代替リソースが存在すると判定された場合（Ｙｅｓ）、影響ＬＰＡＲ障害対処プログラム６１５は、Ｓ４２０において、影響ＬＰＡＲへの故障リソースの割り当てを解除し、故障リソースの代わりに代替リソースを割り当てて影響ＬＰＡＲを再構築し、このフローを終了する。ここで、影響ＬＰＡＲ障害対処プログラム６１５は、影響ＬＰＡＲの再構築の指示を影響物理サーバへ送信する。

　Ｓ４１０において、代替リソースが存在しないと判定された場合（Ｎｏ）、影響ＬＰＡＲ障害対処プログラム６１５は、Ｓ４３０において、影響物理サーバ以外の物理サーバ２００上に影響ＬＰＡＲと同スペックの（等価な）ＬＰＡＲを構築するための空きリソースがあるか否かを判定する。ここでの空きリソースは、影響ＬＰＡＲに割り当てられているすべてのリソースと同一のリソース種類および同一のリソース量を有する。

　Ｓ４３０において、同スペックのＬＰＡＲを構築するための空きリソースがあると判定された場合（Ｙｅｓ）、影響ＬＰＡＲ障害対処プログラム６１５は、Ｓ４４０において、その空きリソースを有する物理サーバ２００を受容可能物理サーバとし、受容可能物理サーバ上に空きリソースを用いてＬＰＡＲを構築し、影響物理サーバ上の影響ＬＰＡＲを受容可能物理サーバ上へ移動させるＬＰＡＲ移動処理を行う。ここで、ＬＰＡＲ移動処理は、ＶＭ移動処理と同様、フェイルオーバであっても良いし、マイグレーションであっても良い。ここで、影響ＬＰＡＲ障害対処プログラム６１５は、影響ＬＰＡＲに割り当てられている正常リソースの割り当てを解除し、その正常リソースをリソースプールに含める。これにより、その正常リソースは、他のＬＰＡＲにより使用可能となる。ここで、影響ＬＰＡＲ障害対処プログラム６１５は、影響物理サーバと受容可能物理サーバへＬＰＡＲ移動処理の指示を送信する。

　Ｓ４３０において、同スペックのＬＰＡＲを構築するための空きリソースがない（Ｎｏ）と判定された場合、影響ＬＰＡＲ障害対処プログラム６１５は、Ｓ４５０において、テナント対応情報６７０に基づいて、影響テナントが影響ＬＰＡＲ以外であってハイパーバイザを実行しているＬＰＡＲである受容可能ＬＰＡＲを有しているか否かを判定する。

　Ｓ４５０において、影響テナントが受容可能ＬＰＡＲを有している（Ｙｅｓ）と判定された場合、影響ＬＰＡＲ障害対処プログラム６１５は、Ｓ４６０において、ＶＭ移動処理を行い、ＶＭを移動させる旨をテナントユーザへ通知し、このフローを終了する。ここで、影響ＬＰＡＲ障害対処プログラム６１５は、影響物理サーバおよび受容可能物理サーバへＶＭ移動処理の指示を送信する。

　Ｓ４５０において、影響テナントが受容可能ＬＰＡＲを有していない（Ｎｏ）と判定された場合、影響ＬＰＡＲ障害対処プログラム６１５は、Ｓ４７０において、影響ＬＰＡＲをシャットダウンし、ＶＭ移動処理ができない旨と、影響ＬＰＡＲのＶＭを起動できない旨とを、テナントユーザへ通知し、このフローを終了する。ここで、影響ＬＰＡＲ障害対処プログラム６１５は、影響ＬＰＡＲのシャットダウンの指示を影響物理サーバへ送信する。

　なお、影響ＬＰＡＲ障害対処プログラム６１５は、影響テナントがハイパーバイザを実行している受容可能ＬＰＡＲを有している場合、ＬＰＡＲ移動処理を行う前に、影響ＬＰＡＲから受容可能ＬＰＡＲへのＶＭ移動処理を行っても良い。例えば、影響ＬＰＡＲ障害対処プログラム６１５は、ＶＭ毎に優先度を予め設定し、優先度に応じてＶＭ移動処理およびＬＰＡＲ移動処理を選択しても良い。例えば、高、中、低の３段階の優先度がＶＭに設定されている場合、影響ＬＰＡＲ障害対処プログラム６１５は、優先度が高であるＶＭをＶＭ移動処理により優先的に退避させ、優先度が低であるＶＭについては移動せずにシャットダウンし、優先度が中であるＶＭはＬＰＡＲ移動処理によりハイパーバイザごと退避させる。このように優先度に応じてＶＭ移動処理およびＬＰＡＲ移動処理を使い分けることにより、柔軟な対処が可能になる。また、ＶＭ移動処理により影響ＬＰＡＲ上の稼働ＶＭの数が減り、影響ＬＰＡＲ上のハイパーバイザのメモリ使用量が減ることにより、ＬＰＡＲ移動処理の処理および通信の負荷を軽減することができる。

　以上の影響ＬＰＡＲ障害対処プログラム６１５によれば、影響物理サーバ内に代替リソースがあれば、故障リソースの代わりに代替リソースを影響ＬＰＡＲに割り当て、影響ＬＰＡＲ上のＶＭの実行を継続させることができる。また、受容可能物理サーバ内に影響ＬＰＡＲと同じリソース量の空きリソースがあれば、影響物理サーバ上の影響ＬＰＡＲを受容可能物理サーバへ移動させ、ＶＭの実行を継続させることができる。これにより、影響テナントは、リソースを減らさずに業務を継続させることができる。また、影響物理サーバ内の代替リソースや受容可能物理サーバ内の空きリソースがない場合でも、影響テナントがハイパーバイザを実行している受容可能ＬＰＡＲを有していれば、影響ＬＰＡＲから受容可能ＬＰＡＲへＶＭを移動させることができる。これにより、影響テナントは、全体のリソースが減るものの、業務を継続させることができる。また、影響物理サーバ内の代替リソースや受容可能物理サーバ内の空きリソースがなく、且つ影響テナントが受容可能ＬＰＡＲを有していない場合、影響ＬＰＡＲをシャットダウンすることにより、影響ＬＰＡＲ上で稼働している業務を安全に停止することができる。また、影響テナントが更にリソースを破壊することを防ぐことができる。

　障害対処プログラム６１４および影響ＬＰＡＲ障害対処プログラム６１５によれば、破壊量が上限値以下であると判定された場合、複数の物理サーバ２００の何れかに故障リソースの代替として使用できる物理リソースである受容可能物理リソースが有るか否かを判定し、受容可能物理リソースが有ると判定された場合、故障リソースに代えて受容可能物理リソースを前記仮想計算機へ割り当てる。受容可能物理リソースは、影響物理サーバ内の代替リソース、受容可能物理サーバ内の空きリソース、受容可能ＬＰＡＲに割り当てられている物理リソースの何れかを含む。これにより、影響ＬＰＡＲ上のＶＭの動作を継続させることができる。

　図１４は、上限値超過チェックプログラム６１６の動作を示す。

　上限値超過チェックプログラム６１６は、Ｓ５００において、リソース使用履歴情報６９０の使用テナント６９２から全てのテナントを取得し、取得されたテナントの一つを対象テナントとして選択し、対象テナント毎にＳ５００－Ｓ５９０の処理を実行する。

　上限値超過チェックプログラム６１６は、Ｓ５１０において、リソース使用履歴情報６９０のリソースＩＤ６９１から全てのリソースＩＤを取得し、サーバ構成情報６５０のリソース種類６５４から、取得されたリソースＩＤに対応するすべてのリソース種類を取得し、取得されたリソース種類の一つを対象リソース種類として選択し、対象リソース種類毎にＳ５１０－Ｓ５８０の処理を実行する。

　上限値超過チェックプログラム６１６は、Ｓ５２０において、破壊量算出プログラム６１７を起動し、対象テナントおよび対象リソース種類に対応するすべてのリソースＩＤのリストと、対象テナントのテナントＩＤとを破壊量算出プログラム６１７へ渡す。上限値超過チェックプログラム６１６は、Ｓ５３０において、破壊量算出プログラム６１７から破壊量を受け取る。

　上限値超過チェックプログラム６１６は、Ｓ５４０において、破壊量上限値情報６８０の対象テナントおよび対象リソース種類に対応する破壊量上限値６８３を取得し、破壊量が破壊量上限値より多いか否かを判定する。

　Ｓ５４０において、破壊量が破壊量上限値以下である（Ｎｏ）と判定された場合、上限値超過チェックプログラム６１６は、Ｓ５５０において、取得された破壊量上限値に対応する上限値超過情報６８４を「Ｎｏ」に設定し、処理をＳ５８０へ移行させる。

　Ｓ５４０において、破壊量が破壊量上限値より多い（Ｙｅｓ）と判定された場合、上限値超過チェックプログラム６１６は、Ｓ５６０において、取得された破壊量上限値に対応する上限値超過情報６８４を「Ｙｅｓ」に設定し、Ｓ５７０において、対象テナントのテナントユーザに、これ以上のリソースの割り当てができない旨を通知し、処理をＳ５８０へ移行させる。

　上限値超過チェックプログラム６１６は、Ｓ５８０において、次の対象リソース種類があれば、Ｓ５１０へ戻り、そうでなければ処理をＳ５９０へ移行させる。上限値超過チェックプログラム６１６は、Ｓ５９０において、次の対象テナントがあれば、Ｓ５００へ戻り、そうでなければ、このフローを終了する。

　以上の上限値超過チェックプログラム６１６によれば、各テナントが現在までに使用したリソース量が予め定められた破壊量上限値より多いか否かを判定することができる。

　図１５は、破壊量算出プログラム６１７の動作を示す。

　破壊量算出プログラム６１７は、Ｓ６１０において、上限値超過チェックプログラム６１６から対象テナントおよび対象リソース種類に属するリソースＩＤのリストを取得する。破壊量算出プログラム６１７は、Ｓ６２０において、破壊量を０に初期化する。

　破壊量算出プログラム６１７は、Ｓ６３０において、リスト内のリソースＩＤの一つを対象リソースとして選択し、対象リソース毎にＳ６３０－Ｓ６８０の処理を実行する。

　破壊量算出プログラム６１７は、Ｓ６４０において、サーバ構成情報６５０において対象リソースのリソース状態６５７が故障を示すか否かを判定する。

　Ｓ６４０において、対象リソースに対応するリソース状態６５７が故障を示す（Ｙｅｓ）と判定された場合、破壊量算出プログラム６１７は、Ｓ６５０において、対象テナントへの対象リソースの配分量を算出し、算出された配分量を破壊量に加算し、処理をＳ６８０へ移行させる。配分量は、対象リソースのリソース量のうち、対象テナントの使用履歴に応じて配分されたリソース量を示し、リソース使用履歴情報６９０に基づいて次式により表される。

　配分量　＝　全テナントへの対象リソースの割当量６９５の合計値
　　　　　　×対象テナントによる対象リソースの使用履歴６９４の合計値
　　　　　　÷全テナントによる対象リソースの使用履歴６９４の合計値

　例として、図９におけるテナントＡへのフラッシュデバイスＦｌａｓｈ１－１の配分量について説明する。全テナントへの対象リソースの割当量６９５の合計値は、１００ＧＢ＋１００ＧＢ＋１００ＧＢ＝３００ＧＢである。対象テナントによる対象リソースの使用履歴６９４の合計値は、８０００回＋１０００回＝９０００回である。全テナントによる対象リソースの使用履歴６９４の合計値は、８０００回＋１０００回＋１０００回＝１００００回である。したがって、テナントＡへのＦｌａｓｈ１－１の配分量は、３００ＧＢ×９０００回／１００００回＝２７０ＧＢである。

　この配分量の式によれば、対象リソースのリソース量のうち影響ＬＰＡＲに割り当てられていないリソース量は、破壊量として加算されない。例えば、４コアを有するＣＰＵのうち、テナントに３コアが割り当てられ、残りの１コアが未割当であり、このＣＰＵが故障した場合、各テナントには３コア分が配分量として計上され、残りの１コア分は配分量として計上されない。なお、テナントに割り当てられていないリソース量を影響テナントの配分量として計上してもよい。

　ここで、対象リソースが占有リソースである場合、対象テナントに割り当てられている対象リソースの割当量６９５が配分量となる。配分量の計算式は、リソース種類に応じて異なる式であってもよい。

　Ｓ６４０において、対象リソースに対応するリソース状態６５７が正常を示す（Ｎｏ）と判定された場合、破壊量算出プログラム６１７は、Ｓ６６０において、ＬＰＡＲ構成情報６６０に基づいて、対象リソースが影響ＬＰＡＲに割り当てられているか否かを判定する。

　Ｓ６６０において、対象リソースが影響ＬＰＡＲに割り当てられていない（Ｎｏ）と判定された場合、破壊量算出プログラム６１７は、処理をＳ６８０へ移行させる。この場合、対象リソースは、かつて影響ＬＰＡＲに割り当てられていたが現在は影響ＬＰＡＲに割り当てられていない正常リソースである。

　Ｓ６６０において、対象リソースが影響ＬＰＡＲに割り当てられている（Ｙｅｓ）と判定された場合、破壊量算出プログラム６１７は、Ｓ６７０において、対象リソースのうち影響ＬＰＡＲに割り当てられているリソース量、即ちＬＰＡＲ構成情報６６０の影響ＬＰＡＲおよび対象リソースの組み合わせに対応するリソース量６６７を破壊量に加算し、処理をＳ６８０へ移行させる。

　Ｓ６８０において、破壊量算出プログラム６１７は、次の対象リソースＩＤがあれば、Ｓ６３０へ戻り、そうでなければ、Ｓ６９０において、上限値超過チェックプログラム６１６に破壊量を渡し、このフローを終了する。

　以上の破壊量算出プログラム６１７によれば、テナントが現在までに使用して故障させた対象リソース種類のリソース量の合計を算出することができる。また、故障リソースのリソース量を、故障リソースを使用するテナントへ使用履歴に応じて配分することにより、テナントによる使用を破壊量に反映させることができる。フラッシュメモリのように故障が累積的な使用量に依存する場合、各テナントによる故障リソースの累積的な使用量に応じて故障リソースのリソース量を各テナントへ配分することができる。ＣＰＵのように故障が累積的な使用量に依存しない場合、各テナントへの故障リソースの割当量に応じて故障リソースのリソース量を各テナントへ配分することができる。或るテナントの或るリソース種類について、故障リソースのリソース量を当該テナントの使用履歴に応じて配分したリソース量と、故障リソース以外のリソース量のうち影響ＬＰＡＲに割り当てられているリソース量とを加算して破壊量を算出することにより、当該テナントにより使用された当該リソース種類のリソース量を破壊量に反映させることができる。

　図１６は、復旧後処理プログラム６１８の動作を示す。

　物理サーバ２００において、故障リソースが、同一のリソース種類および同一のリソース量を有する新たなリソースである復旧リソースに交換されると、その物理サーバ２００は、復旧アラートを管理サーバ１００へ送信する。復旧アラートは、復旧の種類や復旧リソースなどを示す。

　復旧後処理プログラム６１８は、Ｓ７１０において、物理サーバ２００から復旧アラートを受信すると、処理をＳ７２０へ移行させる。復旧後処理プログラム６１８は、Ｓ７２０において、復旧アラートに基づいて復旧リソースのリソースＩＤである復旧リソースＩＤを特定する。

　復旧後処理プログラム６１８は、Ｓ７３０において、サーバ構成情報６５０における復旧リソースのリソース状態６５７を、「故障」から「正常」に書き換える。復旧後処理プログラム６１８は、Ｓ７４０において、リソース使用履歴情報６９０内の復旧リソースＩＤに対応する使用履歴６９４を初期化し、割当量６９５を更新する。例えば、復旧リソースがフラッシュデバイスである場合、使用履歴６９４における書き込み回数が初期化される。復旧後処理プログラム６１８は、Ｓ７５０において、上限値超過チェックプログラム６１６を起動し、このフローを終了する。これにより、故障リソースのリソース種類の破壊量から、故障リソースに基づくリソース量が除かれる。上限値超過チェックプログラム６１６の動作により、破壊量上限値情報６８０の上限値超過情報６８４がＹｅｓからＮｏに変化した場合、復旧後処理プログラム６１８は、リソースの割り当てが可能になった旨をテナントユーザへ通知しても良い。

　以上の復旧後処理プログラム６１８によれば、故障リソースが交換されたことに応じて、管理サーバ１００がリソースの使用履歴を更新することができる。また、テナントのＬＰＡＲに故障リソースが割り当てられている場合、故障リソースの使用履歴が初期化される。これにより、テナントにより使用されたリソース量が予め定められた破壊量上限値を超過した状態から超過しない状態に変化する場合がある。この場合、そのテナントのＬＰＡＲに新たなリソースを割り当てることができるようになる。

　図１７は、リソース状態入力画面を示す。

　リソース状態入力プログラム６２１は、全体管理者による管理サーバ１００または表示用計算機４００の操作に応じて、管理サーバ１００または表示用計算機４００の入出力デバイスにリソース状態入力画面を表示させ、全体管理者からの入力を受け付ける。リソース状態入力画面は、リソース状態情報７１０と、故障ボタン７２１と、復旧ボタン７２２と、割当解除フラグ７２３とを含む。

　リソース状態入力プログラム６２１は、サーバ構成情報６５０およびＬＰＡＲ構成情報６６０に基づいて、リソース状態情報７１０を作成する。リソース状態情報７１０は、リソース毎のエントリを有する。一つのリソースのエントリは、指定フラグ（＃）７１１と、リソース７１２と、割当先ＬＰＡＲ７１３と、ＬＰＡＲ稼働状況７１４と、物理サーバ情報７１５と、リソース状態７１６とを含む。指定フラグ７１１は、チェックボックスであり、真にされることにより、当該リソースを指定リソースとして指定する。リソース７１２は、当該リソースを示すリソースＩＤであり、サーバ構成情報６５０のリソースＩＤ６５５に基づいている。割当先ＬＰＡＲ７１３は、当該リソースの割当先のＬＰＡＲを示すＬＰＡＲ－ＩＤであり、ＬＰＡＲ構成情報６６０のＬＰＡＲ－ＩＤ６６１に基づいている。ＬＰＡＲ稼働状況７１４は、当該ＬＰＡＲが稼働中か停止中かを示し、ＬＰＡＲ構成情報６６０のＬＰＡＲ稼働状況６６３に基づいている。物理サーバ情報７１５は、当該リソースを有する物理サーバ２００の物理サーバＩＤを示し、サーバ構成情報６５０の物理サーバＩＤ６５１に基づいている。リソース状態７１６は、当該リソースが正常か故障かを示し、サーバ構成情報６５０のリソース状態６５７に基づいている。

　影響物理サーバおよび管理サーバ１００は、故障の発生後すぐに故障リソースを特定できるとは限らず、その後に行われる原因分析により故障リソースが特定される場合がある。このように原因分析により故障リソースが特定された場合や、管理サーバ１００が物理サーバ２００から障害アラートを受信していないが、全体管理者がリソースの故障と判断した場合などにおいて、全体管理者は、リソース状態入力画面を用いて故障リソースを設定することができる。指定フラグ７１１により指定リソースが指定されている状態で、故障ボタン７２１が押下された場合、リソース状態入力プログラム６２１は、サーバ構成情報６５０において指定リソースのリソース状態６５７を「故障」に変更する。ここで、リソース状態入力プログラム６２１は、リソース状態入力画面により入力された故障を、物理サーバ２００により検出された故障と区別しても良い。例えば、リソース状態入力プログラム６２１は、リソース状態入力画面により入力された故障について、サーバ構成情報６５０のリソース状態６５７を「故障（手動）」と書き換える。

　故障ボタン７２１が押下された場合、障害検知プログラム６１１は、障害アラートを受信した場合と同様に処理する。そのために、リソース状態入力プログラム６２１は、故障ボタン７２１が押下されたことを示す情報を受信すると、指定リソースに対応する物理サーバ２００に対し、擬似的な障害アラートを管理サーバ１００へ送信することを要求しても良い。

　管理サーバ１００が物理サーバ２００から復旧アラートを受信していないが、全体管理者がリソースの復旧と判断した場合や、リソース状態入力画面を用いて故障と入力したが正常に戻したい場合、全体管理者は、リソース状態入力画面を用いて復旧リソースを設定することができる。指定フラグ７１１により指定リソースが指定されている状態で、復旧ボタン７２２が押下された場合、リソース状態入力プログラム６２１は、サーバ構成情報６５０において指定リソースのリソース状態６５７を「正常」に変更する。

　復旧ボタン７２２が押下された場合、復旧後処理プログラム６１８は、復旧アラートを受信した場合と同様に処理する。そのために、リソース状態入力プログラム６２１は、復旧ボタン７２２が押下されたことを示す情報を受信すると、指定リソースに対応する物理サーバ２００に対し、擬似的な復旧アラートを管理サーバ１００へ送信することを要求しても良い。

　割当解除フラグ７２３は、割り当て解除（再割り当て実行）を即時実行するか否かを設定する。故障ボタン７２１または復旧ボタン７２２が押下され、故障リソースの割り当て解除または再割り当てのためにＬＰＡＲの再起動が必要である場合で、割当解除フラグ７２３が有効であれば、管理サーバ１００は、ＬＰＡＲの再起動を行う。ＬＰＡＲの再起動が必要な場合で、割当解除フラグ７２３が無効であれば、全体管理者が手動でＬＰＡＲのシャットダウンを行い、管理サーバ１００は、指定リソースを割り当てられている対応するすべてのＬＰＡＲについて、ＬＰＡＲ構成情報６６０のＬＰＡＲ稼働状況６６３が停止中になった場合、障害アラートまたは復旧アラートを受信した場合の動作を行う。なお、割当解除フラグ７２３は省かれても良い。この場合、予め定められた方法でＬＰＡＲの再起動を行う。

　以上のリソース状態入力プログラム６２１によれば、リソース状態入力画面が、リソースＩＤと共に、割当先ＬＰＡＲ７１３および物理サーバ情報７１５のようなトポロジを示す情報や、ＬＰＡＲ稼働状況７１４およびリソース状態７１６を表示することにより、全体管理者の判断を補助し、誤判断を防止することができる。また、全体管理者が手動で故障または復旧の設定を行った場合でも、管理サーバ１００は、物理サーバ２００が故障または復旧を検出した場合と同様に動作することができる。

　図１８は、監視画面を示す。

　監視画面出力プログラム６２２は、全体管理者または特定のテナントのテナントユーザによる管理サーバ１００または表示用計算機４００の操作に応じて、管理サーバ１００または表示用計算機４００の入出力デバイスに監視画面を表示させる。監視画面は、管理サーバ１００が保持する情報をもとに、全体管理者やテナントユーザに対してモニタリングやアラートなどの情報を表示するためのインターフェースである。但し、テナントユーザは、自身のテナントに関する情報のみを閲覧することができる。監視画面は、アラート表示部８１０と、リソース種類指定部８２０と、モニタリング表示部８３０とを含む。

　リソース種類指定部８２０は、テナントユーザによるリソース種類の選択を受け付け、選択されたリソース種類を選択リソース種類とする。

　モニタリング表示部８３０は、予め設定された単位時間毎に、当該テナントによる選択リソース種類の交換回数を表示する。モニタリング表示部８３０において、横軸は時間であり、縦軸は交換回数である。モニタリング表示部８３０は更に、縦軸に交換回数上限値を表示する。ここでの交換回数および交換回数閾値は、選択リソース種類のリソースの故障により新たなリソースが当該テナントへ割り当てられた回数である。なお、交換回数に代えて破壊量が用いられても良い。当該テナントの選択リソース種類についての交換回数上限値は、例えば、破壊量上限値を割当量で除した値である。また、単位時間内の交換回数が交換回数閾値以上である場合、モニタリング表示部８３０は、警告マーク８３１を表示する。なお、監視画面は、選択リソース種類について、交換回数上限値まであと何回の交換が可能かを表示しても良い。

　アラート表示部８１０は、全体管理者またはテナントユーザへのアラートを表示する。例えば、アラート表示部８１０は、単位時間において、当該テナントおよび特定のリソース種類についての計算値が、予め設定されたアラート閾値を超えた場合、アラートを表示する。監視画面出力プログラム６２２は、全体管理者またはテナントユーザからの入力に基づいて、アラート閾値と、アラートの通知を設定することができる。但し、テナントユーザは、自身のテナントのみについて設定することができる。計算値は、例えば、リソース交換頻度やリソース交換残量である。リソース交換頻度は、特定のリソース種類について、単位時間内に故障により新たなリソースが当該テナントへ割り当てられた回数である。リソース交換残量は、破壊量上限値から破壊量を減じた値であり、破壊量上限値まであとどれだけのリソース量を割り当てることができるかを示す。あるいは、リソース交換残量は、交換回数上限値から交換回数を減じた値であり、交換回数上限値まであと何回リソース量を割り当てることができるかを示す。

　アラートの例について説明する。或るテナントのリソース交換頻度が、全体管理者により設定されたアラート閾値を超えた場合、アラート表示部８１０は、全体管理者に対し、テナントユーザにアラートを送信するか否かの問い合わせ、または、テナントのリソース交換を抑止するか否かの問い合わせを表示する。これに応じて、監視画面出力プログラム６２２は、全体管理者から送信の指示が入力された場合、テナントユーザへアラートを送信し、全体管理者からリソース交換の抑止の指示が入力された場合、当該テナントの上限値超過情報６８４をＹｅｓとする処理を行う。また、或るテナントのリソース交換頻度が、全体管理者または当該テナントのテナントユーザにより設定されたアラート閾値を超えた場合、アラート表示部８１０は、当該テナントユーザに対し、運用中のシステムに問題が無いかを見直す必要があることを示す。更にアラート表示部８１０は、稼働しているシステムに対してＣＰＵのスペックが不足している可能性があることや、フラッシュデバイスに必要以上の負荷を掛けていないか確認する必要があることを示す。また、或るテナントの破壊量が破壊量上限値に達しそうな場合や達した場合、当該テナントのテナントユーザに対し、リソース交換残量や、これ以上のリソース交換ができないことや、より上位のサービスに移行することで破壊量上限値を増加できることを示す。

　以上の監視画面出力プログラム６２２によれば、全体管理者またはテナントユーザは、テナントが安定稼働しているか、急な変化はないか、破壊量や交換回数が上限値以下となっているか、などの状況を確認することができる。

　図１９は、破壊量上限値入力画面を示す。

　破壊量上限値入力プログラム６２３は、全体管理者による管理サーバ１００または表示用計算機４００の操作に応じて、管理サーバ１００または表示用計算機４００の入出力デバイスに破壊量上限値入力画面を表示させ、全体管理者からの入力を受け付ける。これにより、破壊量上限値入力プログラム６２３は、破壊量上限値情報６８０を作成する。なお、破壊量上限値入力プログラム６２３は、破壊量上限値入力画面を用いずに、テンプレートに基づきファイルとして一括入力された破壊量上限値情報６８０を取得してもよい。破壊量上限値入力画面は、破壊量上限値情報９１０と、決定ボタン９２１と、キャンセルボタン９２２とを含む。

　破壊量上限値情報９１０は、テナントＩＤ９１１と、リソース種類９１２と、破壊量上限値９１３とを含む。破壊量上限値情報９１０は、すべてのテナントとすべてのリソース種類のエントリを有する。テナントＩＤ９１１は、テナントを示す識別子である。リソース種類９１２は、リソース種類を示す。破壊量上限値９１３は、設定値と単位で表される。全体管理者は、破壊量上限値９１３において、設定値を入力することができ、単位を選択することができる。

　決定ボタン９２１が押下された場合、破壊量上限値入力プログラム６２３は、破壊量上限値情報９１０に入力された内容を破壊量上限値情報６８０へ反映する。キャンセルボタン９２２が押下された場合、破壊量上限値入力プログラム６２３は、破壊量上限値情報９１０に入力された内容を破棄する。

　以上の破壊量上限値入力プログラム６２３によれば、全体管理者は、テナントユーザとの契約などに基づいて、リソース種類毎の破壊量上限値を設定することができる。

　なお、物理サーバ２００が障害予兆を検出する場合、障害と同様に障害アラートが管理サーバ１００へ送信され、障害検知プログラム６１１により処理されても良い。例えば、物理サーバ２００は、フラッシュデバイスの寿命となる書き込み回数の閾値より低い障害予兆閾値を設定し、書き込み回数が障害予兆閾値を超えた場合に障害アラートを管理サーバ１００へ送信する。これにより、管理サーバ１００は、障害予兆であっても障害と同様に処理することができる。

　本実施例におけるＬＰＡＲおよびＶＭは、互いにレイヤの異なる仮想計算機と見なすことができる。また、論理分割機構の代わりにハイパーバイザを用い、物理サーバ２００がハイパーバイザを実行し、そのハイパーバイザが複数のＶＭを実行しても良い。また、ハイパーバイザが階層化されていても良い。また、ＬＰＡＲがＯＳを実行しても良い。この場合、ＶＭ移動処理の代わりにＬＰＡＲ移動処理が実行される。また、計算機システムにおけるテナントが一つであっても良い。

　また、各プログラムにおける処理の順序は交換可能である。例えば、障害対処プログラム６１４におけるＳ２６０～Ｓ３７０の処理と、Ｓ３８０の処理との順序は交換可能である。

　本発明の表現のための用語について説明する。管理計算機は、管理サーバ１００などに対応する。メモリは、メモリ１１０などに対応する。ネットワークインターフェースは、ＮＩＣ１３０などに対応する。プロセッサは、ＣＰＵ１２０などに対応する。表示装置および入力装置は、入出力デバイス１４０または表示用計算機４００などに対応する。物理計算機は、物理サーバ２００などに対応する。仮想計算機は、ＬＰＡＲまたはＶＭなどに対応する。ユーザは、テナントなどに対応する。対応情報は、構成情報６３０およびテナント情報６４０などに対応する。上限値は、破壊量上限値などに対応する。故障情報は、障害アラートや故障ボタン７２１の押下を示す情報などに対応する。復旧情報は、復旧アラートや復旧ボタン７２２の押下を示す情報などに対応する。不揮発性半導体メモリは、フラッシュデバイス２５０などに対応する。入力画面は、リソース状態入力画面などに対応する。破壊量に基づく情報は、交換回数、破壊量、リソース交換頻度、リソース交換残量、全体管理者またはテナントユーザへのアラートなどに対応する。

　本発明は、以上の実施例に限定されるものでなく、その趣旨から逸脱しない範囲で、他の様々な形に変更することができる。

　１００…管理サーバ　１１０…メモリ　１２０…ＣＰＵ　１３０…ＮＩＣ　１４０…入出力デバイス　２００…物理サーバ　２３０…メモリ　２４０…ＣＰＵ　２５０…フラッシュデバイス　２６０…メモリ　２８０…論理分割機構　３００…ディスクアレイ装置　４００…表示用計算機　６１０…管理プログラム　６３０…構成情報　６４０…テナント情報

Claims

　メモリと、
　複数の物理計算機に接続されるネットワークインターフェースと、
　前記メモリおよび前記ネットワークインターフェースに接続されるプロセッサと、
を備え、
　前記メモリは、前記複数の物理計算機の中の第一物理計算機と、前記第一物理計算機により実行されている仮想計算機と、前記第一物理計算機に含まれており且つ前記仮想計算機へ割り当てられている第一物理リソースと、前記仮想計算機を使用するユーザとの対応付けを示す対応情報を記憶し、故障した物理リソースを示す故障情報を記憶し、前記第一物理リソースと同じ種類の物理リソースで前記ユーザによる使用に起因して故障した物理リソースの量である破壊量に対し、上限値を記憶し、
　前記プロセッサは、前記対応情報および前記故障情報に基づいて前記破壊量を算出し、前記破壊量が前記上限値以下であるか否かを判定し、前記故障情報に基づいて前記第一物理リソースが故障したか否かを判定し、前記第一物理リソースが故障したと判定され且つ前記破壊量が前記上限値以下であると判定された場合、前記対応情報に基づいて、前記複数の物理計算機の何れかに前記第一物理リソースの代替として使用できる第二物理リソースが有るか否かを判定し、前記第二物理リソースが有ると判定された場合、前記第一物理リソースに代えて前記第二物理リソースを前記仮想計算機へ割り当てる指示を前記第一物理計算機へ送信する、
管理計算機。
　前記第一物理リソースが故障したと判定され、且つ前記破壊量が前記上限値以下であると判定された場合、前記プロセッサは、前記対応情報に基づいて、前記第一物理計算機の中に前記第二物理リソースが有るか否かを判定し、前記第一物理計算機の中に前記第二物理リソースが有ると判定された場合、前記第一物理リソースに代えて前記第二物理リソースを前記仮想計算機へ割り当てる指示を前記第一物理計算機へ送信する、
請求項１に記載の管理計算機。
　前記第一物理リソースが故障したと判定され、且つ前記破壊量が前記上限値以下であると判定され、且つ前記第一物理計算機に前記第二物理リソースが無いと判定された場合、前記プロセッサは、前記対応情報に基づいて、前記仮想計算機へ割り当てられている物理リソース群であって前記第一物理リソースを含む前記物理リソース群と等価な代替物理リソース群であって前記第二物理リソースを含む前記代替物理リソース群が、前記複数の物理計算機の中で前記第一物理計算機以外の中に有るか否かを判定し、前記代替物理リソース群が有ると判定された場合、前記代替物理リソース群を前記仮想計算機へ割り当て且つ前記第一物理計算機から前記代替物理リソース群を含んでいる第二物理計算機へ前記仮想計算機を移動させ且つ前記物理リソース群を前記仮想計算機から解放する指示を、前記第一物理計算機および前記第二物理計算機へ送信する、
請求項２に記載の管理計算機。
　前記メモリは、複数のユーザの夫々による前記第一物理リソースの使用履歴を格納し、
　前記プロセッサは、前記複数のユーザの夫々による前記第一物理リソースの使用履歴に基づいて、前記第一物理リソースの量を前記複数のユーザへ配分することにより、前記複数のユーザの夫々に対して前記破壊量を算出する、
請求項３に記載の管理計算機。
　前記種類が、不揮発性半導体メモリである場合、前記プロセッサは、前記仮想計算機による前記不揮発性半導体メモリへの書き込み回数を前記第一物理計算機から受信し、前記使用履歴として前記メモリへ保存する、
請求項４に記載の管理計算機。
　前記種類が、不揮発性半導体メモリでない場合、前記プロセッサは、前記仮想計算機に割り当てられている前記第一物理リソースの量を、前記使用履歴として前記メモリへ保存する、
請求項５に記載の管理計算機。
　前記仮想計算機は、前記第一物理計算機を論理的に分割することにより構築される第一論理区画であり、
　前記対応情報は、前記第一論理区画により実行されているＶＭ（Virtual　Machine）を示し、
　前記破壊量が前記上限値を上回ると判定された場合、前記プロセッサは、前記対応情報に基づいて、前記ユーザにより使用されており且つ前記ＶＭを実行できる第二論理区画が、前記複数の物理計算機の何れかにより実行されているか否かを判定し、前記第二論理区画が実行されていると判定された場合、前記ＶＭを前記第一論理区画から前記第二論理区画へ移動させる指示を前記第一物理計算機へ送信する、
請求項６に記載の管理計算機。
　前記第一物理リソースが故障したと判定され、且つ前記破壊量が前記上限値以下であると判定され、且つ前記第二物理リソースが前記第一物理計算機に含まれていないと判定され、且つ前記代替物理リソース群が無いと判定された場合、前記プロセッサは、前記対応情報に基づいて、前記第二論理区画が実行されているか否かを判定し、前記第二論理区画が実行されていると判定された場合、前記ＶＭを前記第一論理区画から前記第二論理区画へ移動させる指示を前記第一物理計算機へ送信する、
請求項７に記載の管理計算機。
　前記プロセッサは、前記第一物理リソースの復旧を示す復旧情報を取得した場合、前記破壊量から前記第一物理リソースに基づく量を減じ、前記破壊量が前記上限値以下であるか否かを判定する、
請求項４に記載の管理計算機。
　前記故障情報は、前記第一物理リソースの故障に応じて前記第一物理計算機から前記プロセッサへ送信され、
　前記プロセッサは、前記第一物理計算機から前記故障情報を受信する、
請求項１に記載の管理計算機。
　前記プロセッサは、前記故障情報を入力するための入力画面を表示装置に表示させ、
　前記故障情報は、前記表示に応じて入力装置へ入力され、
　前記プロセッサは、前記入力装置から前記故障情報を受信する、
請求項１０に記載の管理計算機。
　前記プロセッサは、前記破壊量に基づく情報を表示装置に表示させる、
請求項１に記載の管理計算機。
　前記第一物理リソースが故障したと判定され、且つ前記破壊量が前記上限値を上回ると判定され、且つ前記第二論理区画が実行されていないと判定された場合、または前記破壊量が前記上限値以下であると判定され、且つ前記第二物理リソースが前記第一物理計算機に含まれていないと判定され、且つ前記代替物理リソース群が無いと判定され、且つ前記第二論理区画が実行されていないと判定された場合、前記プロセッサは、前記第一論理区画をシャットダウンする指示を前記第一物理計算機へ送信する、
請求項８に記載の管理計算機。
　前記プロセッサは、前記第一物理リソースの量のうち前記ユーザに配分された量と、前記物理リソース群のうち前記種類の物理リソースで前記第一物理リソース以外の物理リソースの量とを加算することにより、前記破壊量を算出する、
請求項４に記載の管理計算機。
　複数の物理計算機に接続されるコンピュータに実行される管理プログラムであって、
　前記複数の物理計算機の中の第一物理計算機と、前記第一物理計算機により実行されている仮想計算機と、前記第一物理計算機に含まれており且つ前記仮想計算機へ割り当てられている第一物理リソースと、前記仮想計算機を使用するユーザとの対応付けを示す対応情報を記憶し、
　故障した物理リソースを示す故障情報を記憶し、
　前記第一物理リソースと同じ種類の物理リソースで前記ユーザによる使用に起因して故障した物理リソースの量である破壊量に対し、上限値を記憶し、
　前記対応情報および前記故障情報に基づいて前記破壊量を算出し、
　前記破壊量が前記上限値以下であるか否かを判定し、
　前記故障情報に基づいて前記第一物理リソースが故障したか否かを判定し、
　前記第一物理リソースが故障したと判定され且つ前記破壊量が前記上限値以下であると判定された場合、前記対応情報に基づいて、前記複数の物理計算機の何れかに前記第一物理リソースの代替として使用できる第二物理リソースが有るか否かを判定し、
　前記第二物理リソースが有ると判定された場合、前記第一物理リソースに代えて前記第二物理リソースを前記仮想計算機へ割り当てる指示を前記第一物理計算機へ送信する、
ことをコンピュータに実行させる管理プログラム。