WO2017072904A1

WO2017072904A1 - 計算機システム、及び、障害検知方法

Info

Publication number: WO2017072904A1
Application number: PCT/JP2015/080514
Authority: WO
Inventors: 崇志重森; 安啓柴田; 修荒川
Original assignee: 株式会社日立製作所
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2017-05-04

Abstract

　計算機システムは、サーバモジュールと管理モジュールとを含む。サーバモジュールは、各スロットに係るホットプラグイベントを制御するホットプラグコントローラと、サーバモジュールの状態を監視する監視コントローラとを含む。監視コントローラとホットプラグコントローラとは、第１の通信インタフェースを介して接続されており、管理モジュールと監視コントローラとは、第２の通信インタフェースを介して接続されている。監視コントローラは、ホットプラグコントローラがホットプラグイベントを検知したことを、第１の通信インタフェースを介して検知し、管理モジュールは、監視コントローラがホットプラグイベントを検知したことを、第２の通信インタフェースを介して検知する。

Description

計算機システム、及び、障害検知方法

　本発明は、概して、計算機システムの技術に関し、特に、障害検知の技術に関する。

　ＰＣＩ拡張ブレードのホットプラグ機能に対応するサーバブレードが知られている。このようなサーバブレードは、Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ（ＰＣＩ）拡張ブレードを個別に脱着可能な構造を有する。ホットプラグ機能に対応するサーバブレードからは、サーバブレードを稼動させたまま（停止させることなく）、ＰＣＩ拡張ブレードを脱着することができる（特許文献１）。これにより、サーバの高信頼性及び高可用性が実現される。

特開２００４－２５２５９１号公報

　複数のサーバブレードを搭載するサーバブレードシャーシと、それらのサーバブレードを管理するＳｅｒｖｉｃｅ　Ｐｒｏｃｅｓｓｏｒ（ＳＶＰ）ボードと、を有する計算機システムがある。計算機システムの管理者は、ＳＶＰボードの出力から、サーバブレードに障害が発生したことを知ることができる。しかし、その計算機システムに未習熟な管理者は、その障害に対してどのように対処すれば良いか、例えばＰＣＩ拡張ブレードを交換すべきかどうか、を判断することが難しい。

　そこで本発明の目的は、障害が発生した場合の対処を容易にする計算機システムを提供することにある。

　本発明の一実施例に係る計算機システムは、複数のサーバモジュールと、それら複数のサーバモジュールを管理する管理モジュールとを含む。複数のサーバモジュールはそれぞれ、当該サーバモジュールの有する各スロットに係るホットプラグイベントを制御するホットプラグコントローラと、当該サーバモジュールに係る状態を監視する監視コントローラとを含み、監視コントローラとホットプラグコントローラとは、第１の通信インタフェースを介して接続されている。管理モジュールと各サーバモジュールの監視コントローラとは、第２の通信インタフェースを介して接続されている。監視コントローラは、ホットプラグコントローラがホットプラグイベントを検知したことを、第１の通信インタフェースを介して検知する。管理モジュールは、各サーバモジュールの監視コントローラがホットプラグイベントを検知したことを、第２の通信インタフェースを介して検知する。

　本発明によれば、計算機システムにおいて障害が発生した場合の対処が容易になる。

本実施例に係る計算機システムの構成の一例を示す図。ホットプラグ管理テーブルの一例を示す図。本実施例に係る障害検知及びホットプラグ制御の一例を示すシーケンスチャート。交換デバイス判定処理の一例を示すフローチャート。ホットプラグ制御に関する処理の一例を示すフローチャート。交換デバイス判定処理の変形例を示すフローチャート。

　以下、一実施例を説明する。以下の説明では、「ａａａテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ａａａテーブル」を「ａａａ情報」と呼ぶことができる。

　また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ（ＣＰＵ））によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）及び通信インターフェイスデバイスのうちの少なくとも１つを用いながら行うため、処理の主語が、プロセッサ、そのプロセッサを有する装置とされてもよい。プロセッサが行う処理の一部又は全部が、ハードウェア回路で行われてもよい。コンピュータプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記憶メディア（例えば可搬型の記憶メディア）であってもよい。

　また、以下の説明では、計算機システム１に含まれる少なくとも１つの装置を管理する１以上の計算機の集合を「管理システム」と呼ぶことがある。管理計算機が表示用情報を表示する場合は管理計算機が管理システムでよい。また、管理計算機と表示用計算機の組み合わせも管理システムでよい。また、管理処理の高速化や高信頼化のために複数の計算機で管理計算機と同等の処理を実現してもよく、この場合はそれら複数の計算機（表示を表示用計算機が行う場合は表示用計算機も含んでよい）が管理システムでよい。本実施例では、管理計算機が管理システムである。また、管理計算機が情報を表示するとは、管理計算機が有する表示デバイスに情報を表示することであってもよいし、管理計算機（例えばサーバ）に接続された表示用計算機（例えばクライアント）に表示用情報を送信することであってもよい。後者の場合、表示用計算機が有する表示デバイスに表示用情報が表す情報が表示用計算機によって表示される。

　以下、実施例を、図面を用いて説明する。

　図１は、本実施例に係る計算機システム１の構成の一例を示す図である。

　計算機システム１は、サーバブレードシャーシ６、バックプレーン４、ＰＣＩ拡張ブレード１２、出力部２８を含む。ＰＣＩ拡張ブレード１２は、Ｉ／Ｏボードモジュールの例である。サーバブレードシャーシ６は、複数のサーバブレード８、１以上の管理モジュール２６を含む。

　管理モジュール２６は、サーバブレードシャーシ６に搭載された複数のサーバブレード８を管理及び監視する。管理モジュール２６の例は、ＳＶＰボードである。

　サーバブレード８は、ＣＰＵ２０、汎用レジスタ２２、Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ（ＦＰＧＡ）２３、Ｂａｓｅｂｏａｒｄ　Ｍａｎａｇｅｍｅｎｔ　Ｃｏｎｔｒｏｌｌｅｒ（ＢＭＣ）２４、メザニンパススルーカード１６を含む。ＢＭＣ２４は、監視コントローラの例である。メザニンパススルーカード１６は、Ｉ／Ｏボードモジュール（ＰＣＩｅ拡張ブレード１２）を脱着可能なスロット（ＰＣＩｅスロット）を有するスロットデバイスの例である。ＣＰＵ２０、汎用レジスタ２２、ＦＰＧＡ２３、ＢＭＣ２４は、内部バスを介して、双方向通信可能に接続されている。

　ホットプラグコントローラ１８とＢＭＣ２４とは、Ｉｎｔｅｒ－Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ（Ｉ２Ｃ）インタフェース４１を介して、双方向通信可能に接続されている。ホットプラグコントローラ１８とＣＰＵ２０のルートポート３１とは、ＰＣＩｅインタフェース４３を介して、双方向通信可能に接続されている。

　管理モジュール２６は、管理用マイコン３１、メモリ３０を含む。管理用マイコン３１とメモリ３０とは、内部バスを介して、双方向通信可能に接続されている。管理用マイコン３１とＢＭＣ２４とは、バックプレーン４内のＩ２Ｃインタフェース４２を介して、双方向通信可能に接続されている。

　ＰＣＩ拡張ブレード１２は、バックプレーン４を介して、メザニンパススルーカード１６に着脱可能である。ＰＣＩ拡張ブレード１２は、ＰＣＩｅカード１４を着脱可能なＰＣＩｅスロットを有する。ＰＣＩ拡張ブレード１２は、ホットプラグボタン１０を有する。

　メザニンパススルーカード１６は、ホットプラグイベントを制御可能なホットプラグコントローラ１８を含む。

　ＰＣＩｅカード１４を装着したＰＣＩ拡張ブレード１２がメザニンパススルーカード１６に装着された場合、ＰＣＩｅカード１４とホットプラグコントローラ１８とは、ＰＣＩｅインタフェース４４を介して、双方向通信可能に接続される。そして、ホットプラグボタン１０とホットプラグコントローラ１８とは、ホットプラグ制御用信号線１３を介して接続される。そして、その場合、ＣＰＵ２０からＰＣＩｅインタフェース４３及び４４を通じてＰＣＩｅカード１４までの間に、ＰＣＩｅパスが形成される。ホットプラグコントローラ１８は、ホットプラグ制御用信号線１３を通じてホットプラグボタン１０の押下を検知し、ホットプラグ制御を開始する。

　ホットプラグ制御は、各サーバブレード８のＯＳ３２が行ってよい。ホットプラグ制御によって装着されたＰＣＩｅカード１４の動作パラメータの設定は、各サーバブレード８のＢＭＣ２４のファームウェアと、ＯＳ３２とで行ってよい。このときＯＳ３２は、Ｅｘｔｅｎｓｉｂｌｅ　Ｆｉｒｍｗａｒｅ　Ｉｎｔｅｒｆａｃｅ（ＥＦＩ）コードを実行してよい。

　管理モジュール２６は、サーバブレードシャーシ６内の各サーバブレード８を管理する。管理モジュール２６のファームウェアは、Ｉ２Ｃインタフェース４２を介して、各サーバブレード８のＢＭＣ２４を監視してよい。ＢＭＣ２４のファームウェアは、ホットプラグイベントを検知した場合、そのホットプラグイベントを管理モジュール２６に通知してよい。このホットプラグイベント通知には、ホットプラグイベントが発生したスロット番号と、そのスロット番号のスロットに装着されたＰＣＩ拡張ブレード１２のシリアルナンバー（Ｓ／Ｎ）と、そのＰＣＩ拡張ブレード１２に装着されているＰＣＩｅカードのＳ／Ｎと、が含まれてもよい。管理モジュール２６は、メモリ３０に、ホットプラグ管理テーブル９０（図２参照）を有してよい。そして、管理モジュール２６は、受領したホットプラグイベント通知に含まれている、スロット番号と、ＰＣＩ拡張ブレード１２のＳ／Ｎと、ＰＣＩｅカードのＳ／Ｎとを対応付けて、ホットプラグ管理テーブル９０に登録してよい。

　図２は、ホットプラグ管理テーブル９０の一例を示す図である。

　ホットプラグ管理テーブル９０は、ホットプラグ制御に関する情報を管理する。ホットプラグ管理テーブル９０の各レコードは、項目値として、ホットプラグ対象デバイスに関し、スロット番号３００、ＰＣＩ拡張ブレードのＳ／Ｎ３０２、ＰＣＩｅカードのＳ／Ｎ３０４を有してよい。ＰＣＩ拡張ブレードのＳ／Ｎ３０２、及び、ＰＣＩｅカードのＳ／Ｎ３０４は、デバイスの固体を判別するために使用されてよい。

　管理モジュール２６は、ＢＭＣ２４からホットプラグイベント通知を受領するたび、そのホットプラグイベント通知に含まれるスロット番号、ＰＣＩ拡張ブレードのＳ／Ｎ、ＰＣＩｅカードのＳ／Ｎを対応付けて、ホットプラグ管理テーブル９０に登録してよい。または、管理モジュール２６は、障害発生通知を受領後にホットプラグイベント通知を受領した場合、その通知に含まれる情報を、ホットプラグ管理テーブル９０に登録してもよい。

　図３は、本実施例に係る障害検知及びホットプラグ制御の一例を示すシーケンスチャートである。

　（ステップ１００）ＰＣＩｅカード１４が装着されているＰＣＩ拡張ブレード１２が、メザニンパススルーカード１６に装着されると、ＢＭＣ２４は、ＰＣＩｅカード１４及びＰＣＩ拡張ブレード１２から、これらの構成情報を取得する。構成情報は、ＰＣＩ拡張ブレード１２のＳ／Ｎと、ＰＣＩｅカード１４のＳ／Ｎとを含んでよい。

　（ステップ１０２）ＢＭＣ２４は、その取得した構成情報を、Ｉ２Ｃインタフェース４２を介して、管理モジュール２６に送信する。管理モジュール２６は、その通知された構成情報を、メモリ３０上のホットプラグ管理テーブル９０に格納する。

　（ステップ１０３）ここで、ＢＭＣ２４は、ＰＣＩパスにおいて障害（例えば訂正可能障害）が発生したことを検知したとする。

　（ステップ１０４）この場合、ＢＭＣ２４は、障害発生を検知したスロット番号を含む障害発生通知を、Ｉ２Ｃインタフェース４２を介して、管理モジュール２６に送信する。

　（ステップ１０６）管理モジュール２６は、この障害発生通知を受領すると、障害発生スロット番号において発生した障害の回数（障害発生回数）を更新（インクリメント）する。なお、管理モジュール２６は、各スロット番号の障害発生回数を管理してよい。

　（ステップ１０８）管理モジュール２６は、ステップ１０４で受領した障害発生通知に基づき、障害発生スロット番号のスロットに装着されたデバイス（ＰＣＩ拡張ブレード１３及びＰＣＩｅカード１４）について交換すべきか否かを判定する。この判定は、このスロットに装着されたデバイスの情報、過去に発生した訂正可能障害履歴情報、実際に行われたホットプラグ処理履歴情報などに基づいて行われてよい。これらの情報はメモリ３０に格納されてよい。この処理の詳細は後述する（図４、図６参照）。

　（ステップ１１０）同一デバイスに対するホットプラグ処理回数が一定数を超えているスロット番号が存在する場合、管理モジュール２６は、ＰＣＩカード１４、ＰＣＩ拡張ブレード１２、又は、障害発生スロットを有するメザニンパススルーカード１６、の何れを交換すべきかの指示を出力部２８（Ｗｅｂコンソール）に出力する。何れを交換すべきかの判定処理の詳細は後述する（図４、図６参照）。

　（ステップ１１２）ステップ１１０においてＰＣＩｅカード１４又はＰＣＩ拡張ブレード１２の交換を指示された場合、管理者は、ホットプラグボタン１０を押下し、その交換指示されたデバイスを交換する。ＰＣＩ拡張ブレード１２のホットプラグボタン１０が押下されると、ホットプラグ処理が開始される。

　（ステップ１１４）ホットプラグコントローラ１８は、ＰＣＩ拡張ブレード１２のホットプラグボタン１０の押下に基づくホットプラグイベントを検知すると、ホットプラグ状態を管理するレジスタのビットを「０」から「１」へ更新する。

　（ステップ１１６）ホットプラグコントローラ１８は、サーバブレード８のＣＰＵ２０に対して割り込み信号を送信する。

　（ステップ１１８）ＣＰＵ２０は、ＯＳ３２に対して信号割り込み信号を通知する。

　（ステップ１２０）ＯＳ３２は、ＥＦＩコードを実行し、ホットプラグ制御を開始する。

　（ステップ１２２）ＢＭＣ２４のファームウェアは、Ｉ２Ｃインタフェース４１を介して、ホットプラグ状態を管理するレジスタのビットを参照する。このレジスタのビットが「１」であることをもって、ＢＭＣ２４は、ホットプラグイベントの発生を検知する。

　（ステップ１２４）ＢＭＣ２４は、汎用レジスタ２２に対してホットプラグイベントを通知する。

　（ステップ１２６）汎用レジスタ２２は、ＯＳ３２に対してシリアル割り込み信号を送信する。

　（ステップ１２８）ＯＳ３２は、ＥＦＩコードを実行し、交換後のＰＣＩｅカード１４の動作に必要なパラメータを設定する。

　（ステップ１３０）ＢＭＣ２４は、交換後のＰＣＩｅカード１４及び／又はＰＣＩ拡張ブレード１２の構成情報を、管理モジュール２６に送信する。

　図４は、交換デバイスを判定する処理の一例を示すフローチャートである。

　（ステップ２００）計算機システム（又はサーバブレード）において訂正可能障害が発生した場合、ＢＭＣ２４は、管理モジュール２６に対して、障害発生したＰＣＩｅパスに含まれるスロット番号（「障害発生スロット番号」という）を通知する。管理モジュール２６は、その障害発生スロット番号の障害発生回数を更新する。この処理は、図３のステップ１０４、１０６に相当する。以降の処理は、図３のステップ１０８に相当する。

　（ステップ２０２）管理モジュール２６は、メモリ３０に格納されている各ＰＣＩｅスロット番号の障害発生履歴を参照し、障害発生スロット番号の障害発生回数の累計が所定回数（例えば３回）以上であるか否かを判定する。この判定が、肯定的（ＹＥＳ）ならばステップ２０４へ進み、否定的（ＮＯ）ならば本処理を終了する。

　（ステップ２０４）管理モジュール２６は、ホットプラグ管理テーブル９０を参照し、障害発生ＰＣＩｅスロット番号において、過去に所定回数（例えば３回）以上、同一Ｓ／ＮのＰＣＩ拡張ブレード１２についてホットプラグ処理を実行したか否かを判定する。この判定が、肯定的（ＹＥＳ）ならばステップ２０６へ進み、否定的ならばステップ２０８へ進む。

　（ステップ２０６）ステップ２０４の判定結果が肯定的（ＹＥＳ）な場合、管理モジュール２６は、ホットプラグ管理テーブル９０を参照し、障害発生ＰＣＩｅスロット番号において、過去に所定回数（例えば３回）以上、同一Ｓ／ＮのＰＣＩｅカード１４についてホットプラグ処理を実行したか否かを判定する。この判定が、肯定的（ＹＥＳ）ならばステップ２１４へ進み、否定的（ＮＯ）ならばステップ２１０へ進む。

　（ステップ２０８）ステップ２０４の判定結果が否定的（ＮＯ）な場合、管理モジュール２６は、ホットプラグ管理テーブル９０を参照し、障害発生ＰＣＩｅスロット番号において、過去に所定回数（例えば３回）以上、同一Ｓ／ＮのＰＣＩｅカード１４についてホットプラグ処理を実行したか否かを判定する。この判定が、肯定的（ＹＥＳ）ならばステップ２１４へ進み、否定的（ＮＯ）ならばステップ２１２へ進む。

　（ステップ２１０）ステップ２０６の判定結果が否定的（ＮＯ）な場合、出力部２８（Ｗｅｂコンソール）は、ホットプラグ対象となったＰＣＩ拡張ブレードの交換指示を出力（表示）する。実際にホットプラグ操作を行う場合、図５のステップ２１６へ進む。

　（ステップ２１２）ステップ２０８の判定結果が肯定的（ＹＥＳ）な場合、出力部２８（Ｗｅｂコンソール）は、ホットプラグ対象となったＰＣＩｅカードの交換指示を出力（表示）する。実際にホットプラグ操作を行う場合、図５のステップ２１６へ進む。

　（ステップ２１４）ステップ２０６の判定結果が肯定的（ＹＥＳ）な場合、又は、ステップ２０８の判定結果が否定的（ＮＯ）な場合、出力部２８（Ｗｅｂコンソール）は、ホットプラグ対象となったＰＣＩｅスロットに関係するメザニンパススルーカード１６の交換指示を出力する。そして、本処理を終了する。

　図５は、ホットプラグに関する処理の一例を示すフローチャートである。この処理は、図４のステップ２１０又は２１２の後の処理に相当する。

　（ステップ２１６）ＰＣＩ拡張ブレード１２のホットプラグボタン１０が押下されると、ステップ２１８へ進む。この処理は、図３のステップ１１２に相当する。

　（ステップ２１８）ＯＳ３２は、ホットプラグ制御を開始する。この処理は、図３のステップ１２０に相当する。

　（ステップ２２０）ＢＭＣ２４のファームウェアは、Ｉ２Ｃインタフェース４１を介して、メザニンパススルーカード１６上のホットプラグコントローラ１８からホットプラグイベントを検出する。この処理は、図３のステップ１２２に相当する。

　（ステップ２２２）ＢＭＣ２４は、管理モジュール２６に対して、ホットプラグ操作によって交換された後の新規デバイスに係る情報を通知する。

　（ステップ２２４）管理モジュール２６は、メモリ３０内のホットプラグ管理テーブル９０に、ステップ２２２で取得した新規デバイスに係る情報を追加する。そして、本処理を終了し、図４の最初の処理に戻る。

　以上の処理によれば、管理者は、その計算機システム１からのデバイス交換指示に従うことで、障害の原因となっているデバイスを容易に切り分けることができる。つまり、管理者は、計算機システム１に発生した障害を容易に回復させ得ることができる。

　図６は、交換デバイスを判定する処理の変形例を示すフローチャートである。本処理は、図４の変形例である。

　（ステップ４０２）管理モジュール２６は、ＢＭＣ２４から、障害発生通知を受領したか否かを判定する。障害発生通知は、障害発生したＰＣＩｅパスに関するＰＣＩｅスロット番号（障害発生スロット番号）を含む。管理モジュール２６は、当該判定結果が、肯定的（ＹＥＳ）ならばステップ４０４へ進み、否定的（ＮＯ）ならば本処理を終了する。デバイスの交換により、障害が回復したからである。

　（ステップ４０４）管理モジュール２６は、障害発生通知に含まれている障害発生スロット番号のスロットに装着されている、ＰＣＩｅ拡張ブレードのＳ／ＮとそのＰＣＩｅ拡張ブレードに装着されているＰＣＩｅカードのＳ／Ｎとを特定する。管理モジュール２６は、ホットプラグ管理テーブル９０から、障害発生スロット番号を含む最新のレコードを参照することにより、これらを特定することができる。そして、ステップ４０６へ進む。

　（ステップ４０６）管理モジュール２６は、ステップ４０４で特定したＰＣＩｅカードが、障害発生後に交換されたものであるか否かを判定する。例えば、管理モジュール２６は、ホットプラグ管理テーブル９０内の最新レコードを除くレコード（「過去のレコード」という）内に、障害発生スロット番号とステップ４０４で特定したＰＣＩｅカードのＳ／Ｎとが一致するレコードが１つ又は所定数以上存在するか否かを判定する。管理モジュール２６は、当該判定結果が、肯定的（ＹＥＳ）ならばステップ４１０へ進み、否定的（ＮＯ）ならばステップ４０８へ進む。

　（ステップ４０８）ステップ４０６の判定結果が否定的（ＮＯ）な場合、管理モジュール２６は、ステップ４０４で特定したＰＣＩｅカード１４の交換指示を、出力部２８へ出力する。すなわち、ＰＣＩｅカード１４を別のものに交換することにより、障害が回復するか否かを試みる。そして、ステップ４２２へ進む。

　（ステップ４１０）ステップ４０６の判定結果が肯定的（ＹＥＳ）な場合、管理モジュール２６は、ステップ４０４で特定したＰＣＩ拡張ブレード１２が、障害発生後に交換されたものであるか否かを判定する。例えば、管理モジュール２６は、ホットプラグ管理テーブル９０内の過去のレコード内に、障害発生スロット番号と、ステップＳ４０８で特定したＰＣＩ拡張ブレードのＳ／Ｎとが一致するレコードが１つ又は所定数以上存在するか否かを判定する。管理モジュール２６は、当該判定結果が、肯定的（ＹＥＳ）ならばステップ４３０へ進み、否定的（ＮＯ）ならばステップ４１２へ進む。

　（ステップ４１２）ステップ４１０の判定結果が否定的（ＮＯ）な場合、管理モジュール２６は、ステップ４０４で特定したＰＣＩ拡張ブレード１２の交換指示を、出力部２８へ出力する。すなわち、ＰＣＩｅカード１４が交換されたにもかかわらず障害が回復しないので、ＰＣＩ拡張ブレード１２を別のものに交換することにより、障害が回復するか否かを試みる。そして、ステップ４２２へ進む。

　（ステップ４２２）管理者が、ステップ４０８の交換指示又はステップ４１２の交換指示に従って、ＰＣＩｅカード１４又はＰＣＩ拡張ブレード１２を交換すると、ホットプラグイベント通知が発生する。管理モジュール２６は、このホットプラグイベント通知を受領したら、ステップ４２４へ進む。

　（ステップ４２４）論理モジュール２６は、ホットプラグイベント通知に含まれる、ホットプラグイベントの発生したスロット番号と、そのスロット番号のスロットに装着されたＰＣＩ拡張ブレード１４のＳ／Ｎと、そのＰＣＩ拡張ブレード１４に装着されているＰＣＩｅカード１２のＳ／Ｎとを、対応付けてホットプラグ管理テーブル９０に登録する。これにより、交換後のデバイスの識別子（Ｓ／Ｎ）が、ホットプラグ管理テーブル９０に登録される。そして、ステップ４０２へ戻る。

　（ステップ４３０）ステップ４１０の判定結果が肯定的（ＹＥＳ）な場合、管理モジュール２６は、障害発生スロット番号に関係するメザニンパススルーカード１６の交換指示を、出力部２８へ出力する。すなわち、ＰＣＩｅカード１２及びＰＣＩ拡張ブレード１４の両方を交換したにもかかわらず障害が回復しないので、メザニンパススルーカード１６を別のものに交換することにより、障害が回復するか否かを試みる。そして、ステップ４３２へ進む。

　（ステップ４３２）管理者は、ステップ４３０の交換指示に従って、メザニンパススルーカード１６を交換し、サーバを再起動する。そして、本処理を終了する。

　上述した実施例は、本発明の説明のための例示であり、本発明の範囲をそれらの実施例にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。

　１：計算機システム　４：バックプレーン　６：サーバブレードシャーシ　８：サーバブレード　１２：ＰＣＩ拡張ブレード　１４：ＰＣＩｅカード　１６：メザニンパススルーカード　２４：ＢＭＣ　２６：管理モジュール　４１、４２：Ｉ２Ｃインタフェース

Claims

　複数のサーバモジュールと、前記複数のサーバモジュールを管理する管理モジュールと、を含む計算機システムであって、
　複数のサーバモジュールはそれぞれ、
　　当該サーバモジュールの有する各スロットに係るホットプラグイベントを制御するホットプラグコントローラと、
　　当該サーバモジュールに係る状態を監視する監視コントローラと、を含み、
　　前記監視コントローラと前記ホットプラグコントローラとは、第１の通信インタフェースを介して接続されており、
　前記管理モジュールと各サーバモジュールの監視コントローラとは、第２の通信インタフェースを介して接続されており、
　前記監視コントローラは、前記ホットプラグコントローラがホットプラグイベントを検知したことを、前記第１の通信インタフェースを介して検知し、
　前記管理モジュールは、各サーバモジュールの監視コントローラがホットプラグイベントを検知したことを、前記第２の通信インタフェースを介して検知する
計算機システム。
　前記監視コントローラは、
　　障害発生の検知されたスロット番号を含む障害発生通知を、前記第２の通信インタフェースを介して、前記管理モジュールへ送信し、
　　ホットプラグイベントの検知されたスロット番号を含むホットプラグイベント通知を、前記第２の通信インタフェースを介して、前記管理モジュールへ送信し、
　前記管理モジュールは、
　　障害発生通知を受領後にホットプラグイベント通知を受領した場合、そのホットプラグイベント通知に含まれるスロット番号と、そのスロット番号のスロットに装着されたデバイスとを対応付けて、ホットプラグ情報に登録する
請求項１に記載の計算機システム。
　前記デバイスにはサブデバイスが脱着可能であり、
　前記管理モジュールは、
　　障害発生通知を受領した場合、その障害発生通知に含まれるスロット番号のスロットに装着されているデバイス及びサブデバイスを特定し、
　　前記ホットプラグ情報に基づいて、その特定したデバイス及びサブデバイスが交換されたものであるか否かを判定し、
　　　その特定したサブデバイスが未交換なものである場合、その特定したサブデバイスの交換指示を出力し、
　　　その特定したサブデバイスが交換されたものであり、かつ、その特定したデバイスが未交換なものである場合、その特定したデバイスの交換指示を出力する
請求項２に記載の計算機システム。
　前記管理モジュールは、
　　前記判定結果が、その特定したサブデバイス及びデバイスの何れもが交換されたものである場合、前記障害発生通知に含まれるスロット番号のスロットを含むスロットモジュールの交換指示を出力する
請求項３に記載の計算機システム。
　前記監視コントローラは、Ｂａｓｅｂｏａｒｄ　Ｍａｎａｇｅｍｅｎｔ　Ｃｏｎｔｒｏｌｌｅｒであり、
　前記デバイスは、ＰＣＩ拡張ボードであり、
　前記サブデバイスは、ＰＣＩ－Ｅｘｐｒｅｓｓカードであり、
　前記スロットモジュールは、メザニンパススルーカードであり、
　前記第１の通信インタフェース及び前記第２の通信インタフェースは、Ｉｎｔｅｒ－Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ　Ｉｎｔｅｒｆａｃｅである
請求項４に記載の計算機システム。
　計算機システムにおける障害検知方法であって、
　前記計算機システムは、複数のサーバモジュールと、前記複数のサーバモジュールを管理する管理モジュールと、を含み、
　複数のサーバモジュールはそれぞれ、
　　当該サーバモジュールの有する各スロットに係るホットプラグイベントを制御するホットプラグコントローラと、
　　当該サーバモジュールに係る状態を監視する監視コントローラと、を含み、
　　前記監視コントローラと前記ホットプラグコントローラとは、第１の通信インタフェースを介して接続されており、
　前記管理モジュールと各サーバモジュールの監視コントローラとは、第２の通信インタフェースを介して接続されており、
　前記監視コントローラは、前記ホットプラグコントローラがホットプラグイベントを検知したことを前記第１の通信インタフェースを介して検知すると、ホットプラグイベント通知を前記第２の通信インタフェースを介して前記管理モジュールへ送信する
障害検知方法。