JPWO2008120383A1 - 情報処理装置、障害処理方法 - Google Patents

情報処理装置、障害処理方法 Download PDF

Info

Publication number
JPWO2008120383A1
JPWO2008120383A1 JP2009507374A JP2009507374A JPWO2008120383A1 JP WO2008120383 A1 JPWO2008120383 A1 JP WO2008120383A1 JP 2009507374 A JP2009507374 A JP 2009507374A JP 2009507374 A JP2009507374 A JP 2009507374A JP WO2008120383 A1 JPWO2008120383 A1 JP WO2008120383A1
Authority
JP
Japan
Prior art keywords
failure
partition
information
management unit
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009507374A
Other languages
English (en)
Other versions
JP4495248B2 (ja
Inventor
大士 村上
大士 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of JP4495248B2 publication Critical patent/JP4495248B2/ja
Publication of JPWO2008120383A1 publication Critical patent/JPWO2008120383A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

複数のパーティションに割り当てられたハードウェア資源に接続され、ハードウェア資源の管理を行うハードウェア管理部であって、複数のパーティションのいずれかで障害が発生したことを検知した場合、障害が発生したパーティションを障害発生パーティションとし、障害の発生を報知するハードウェア管理部と、パーティション毎に備えられたパーティション管理部であって、物理分割の状態であり、且つハードウェア管理部による報知に基づいて障害の発生を認識し、且つ自己のパーティションが障害発生パーティションと異なり、且つ障害に関する情報である障害情報の取得が必要であると判定した場合、障害情報の取得を行うパーティション管理部とを備えた。

Description

本発明は、ハードウェア資源を分割してそれぞれを異なるパーティションで利用する物理分割を行うことができる情報処理装置、障害処理方法に関するものである。
基幹システムで運用されるサーバには、高い可用性や柔軟なリソース運用が要求される。この要求に対し、ASIC(Application Specific Integrated Circuit)およびFirmware(以下F/W)の機能として、従来はHardware(以下H/W)(例えば、プロセッサやメモリ等)に固定であったリソース配分をn個のパーティションに分割し、それぞれを別のOS(Operating System)で使用する物理分割機能が存在する。この機能により、H/Wに制限されない柔軟なリソース運用が可能となる。
物理分割機能を使用している場合も使用しない場合と同様に、正確な障害情報の解析と通知の機能が必要である。そのために、物理分割機能を使用しない場合と同等の障害検知機能の他に、障害を管理する機能が実装される。物理分割機能使用時の障害を管理する方法として、大きく分けて以下の3つの方法がある。
(管理方法1)H/Wリソースの配分、および情報の振り分け機能を全てASICに実装する。
(管理方法2)H/Wリソースの配分、および情報の振り分け機能をASICおよびF/Wそれぞれの特性に合わせて実装し、連携させる。
(管理方法3)H/Wリソースの配分、および情報の振り分け機能を全てF/Wに実装する。(=仮想化)
ここでは、信頼性、実装、コスト、および他機能との融合性を考慮し、H/Wの障害によるパーティションへの影響が少なく、より柔軟な機能拡張が可能な、管理方法2を対象とする。このとき、ASICはH/Wを管理し、H/Wリソースを分割し、障害情報を含むリソース管理情報をF/Wへ提供する。F/Wはそのリソース管理情報を必要に応じて解析し、OSなどの上位のレイヤにパーティションの障害情報を提供する。
なお、本発明の関連ある従来技術として、第1及び第2のデータ処理装置群にそれぞれ対応する障害処理装置が、第1及び第2のデータ処理装置群からの障害情報を切り替えて入力する障害処理システムがある(例えば、特許文献1参照)。
特開平1−50135号公報
サーバの運用時に障害が発生した場合、ほとんどの場合は障害情報が格納され、障害対策時間を短縮する役割を果たす。しかし、多重障害の発生や、障害報告パスの障害、設計時に予期し得なかったASIC、F/W障害等により障害情報が格納されない場合も存在する。
障害情報が格納されない場合とは、F/Wが利用するメモリのアドレス障害や、プロセサ情報を退避する領域の固定障害等の場合である。
本発明は上述した問題点を解決するためになされたものであり、物理分割機能の使用時に障害情報が取得できる確率を向上させる情報処理装置、障害処理方法を提供することを目的とする。
上述した課題を解決するため、本発明は、ハードウェア資源を分割してそれぞれを異なるパーティションで利用する物理分割を行うことができる情報処理装置であって、複数のパーティションに割り当てられた少なくとも1つのハードウェア資源に接続され、前記ハードウェア資源の管理を行うハードウェア管理部であって、前記複数のパーティションのいずれかで障害が発生したことを検知した場合、前記障害が発生したパーティションを障害発生パーティションとし、前記障害の発生を報知するハードウェア管理部と、前記パーティション毎に備えられたパーティション管理部であって、物理分割の状態であり、且つ前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害に関する情報である障害情報の取得が必要であると判定した場合、前記障害情報の取得を行うパーティション管理部とを備える。
また、本発明は、ハードウェア資源を分割してそれぞれを異なるパーティションで利用することができる情報処理装置の障害処理方法であって、複数のパーティションに割り当てられた少なくとも1つのハードウェア資源の管理を行い、前記複数のパーティションのいずれかで障害が発生したことを検知した場合、前記障害が発生したパーティションを障害発生パーティションとし、前記障害の発生を報知するハードウェア管理ステップと、パーティション毎に実行され、物理分割の状態であり、且つ前記ハードウェア管理ステップによる報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害に関する情報である障害情報の取得が必要であると判定した場合、前記障害情報の取得を行うパーティション管理ステップとを実行する。
本実施の形態に係るサーバの構成の一例を示すブロック図である。 本実施の形態に係るサーバの障害発生時の第1の動作を示すフローチャートである。 本実施の形態に係るサーバの障害発生時の第2の動作を示すフローチャートである。 本実施の形態に係るサーバにおける物理分割及びパーティションの構成の一例を示すブロック図である。
以下、本発明の実施の形態について図面を参照しつつ説明する。
本実施の形態においては、本発明の情報処理装置を適用したサーバについて説明する。
まず、本実施の形態に係るサーバの構成について説明する。
図1は、本実施の形態に係るサーバの構成の一例を示すブロック図である。このサーバは、筐体管理装置11、H/W12a,12b,12c,12d、ASIC13a、F/W14a,14b、OS15a,15bを備える。また、このサーバには、パーティション16a,16bが設定される。パーティション16aには、OS15a,F/W14a,ASIC13a,H/W12a,12bが割り当てられ、パーティション16bには、OS15b,F/W14b,ASIC13a,H/W12c,12dが割り当てられる。F/W14a,14b、OS15a,15bは、サーバのCPU上で動作するソフトウェアであり、F/W及びOSは、パーティション毎にそれぞれ1つずつ動作する。
物理分割により分割されたH/W12a,12b,12c,12dについて、設定された情報及び取得した障害情報は管理するASIC13aの記憶領域に保存されており、特別なプログラムやハードウェアを仲介せずにF/W14a,14bから取得することが可能である。
ASIC13aは、通信の制御を行うチップであり、例えば、CPUとインターフェースとクロスバとを接続及び制御するNorth-Bridge、メモリとインターフェースとクロスバとを接続及び制御するMLDS(Memory And Local Data Switch)、I/Oデバイスとバスとクロスバとを接続及び制御するSouth-Bridge等である。
筐体管理装置11は、F/W14a,14bから受信したサーバの障害情報の格納を行い、外部からの要求により外部へ障害情報を出力することができる。
次に、本実施の形態に係るサーバにおける障害発生時の動作の概要について説明する。
図1におけるS1〜S3は、サーバにおける障害発生時の動作の概要を示す。
(S1)ASIC13aは、自らの管理下のH/W12a,12bで障害が起きた場合、その内容を全てのパーティションへ通知する。
(S2)F/W14a,14bは、動作モードを判定し、物理分割時には障害報告にタイムアウト監視する。
(S3)F/W14a,14bは、タイムアウトが発生した場合、ASIC13aの反対側のパーティションの障害情報をASIC13aから採取して解析し、筐体管理装置11へ通知する。この図の例において、F/W14a側の多重障害によりF/W14aの障害処理が中断し、F/W14bは、タイムアウトにより、パーティション16aの障害情報をASIC13aから採取して解析し、筐体管理装置11へ通知する。
次に、本実施の形態に係るサーバにおける障害発生時の動作の詳細について説明する。
ASIC13aの記憶領域は、物理分割モードであることを示す動作モード情報(動作情報)、障害が発生したか否かを示す障害発生情報、障害が発生した物理分割位置を示す物理分割位置情報(位置情報)、障害が発生した部位(物理分割の位置)を示す障害部位情報、障害の詳細を示す障害詳細情報、異なるパーティションからのアクセスに対する障害情報(障害部位情報、障害詳細情報)の隠蔽を解除するか否かを設定する解除情報、障害処理が正常終了したか否かを示す正常終了情報を有する。解除情報、正常終了情報、障害情報は、パーティション毎に保持される。
また、ASIC13aは、誤動作防止、信頼性及びセキュリティ確保のために障害情報の隠蔽機能を有する。通常は解除情報のフラグがリセットされた状態であり、この状態でASIC13aに保持された特定のパーティションの障害情報に対して、他のパーティションからのアクセスがあった場合、隠蔽機能は障害情報の代わりに所定のデータを返す。また、特定のパーティションの解除情報のフラグがセットされると隠蔽が解除され、そのパーティションの障害情報は他のパーティションから読み出すことができる。
図2は、本実施の形態に係るサーバの障害発生時の第1の動作を示すフローチャートである。図3は、本実施の形態に係るサーバの障害発生時の第2の動作を示すフローチャートである。まず、ASIC13aが管理下のパーティションにおける障害を検知する(S11)。図1の例において、パーティション16aに所属するH/W12bで障害が発生したとする。H/W12bを管理するASIC13aは、検知した障害情報を保持すると共に、自己に割り当てられた全てのパーティション16a,16bへ障害発生を通知(ブロードキャスト)する(S12)。図1の例において、ASIC13aは、障害発生情報のフラグをセットすると共に、物理分割位置情報に障害の発生した物理分割位置(パーティション16aのH/W12b)を記録する。
次に、F/W14a,14bは、障害割り込みを受け付ける(S13)。ここで、F/W14a,14bは、ASIC13aの障害発生情報を監視しており、障害発生情報のフラグにより障害発生を認識する。次に、F/W14a,14bは、ASIC13aの動作モード情報を参照し、物理分割モードか否かの判断を行う(S14)。物理分割モードでない場合(S14,N)、処理S16へ移行する。物理分割モードである場合(S14,Y)、F/W14a,14bは、物理分割位置情報を参照して障害が発生したパーティション(障害発生パーティション)を認識し(S15)、自己のパーティションが障害発生パーティションであるか否かの判断を行う(S16)。図1の例において、F/W14a,14bは、障害発生パーティションがパーティション16aであることを認識する。
障害発生パーティションである場合(S16,Y)、F/W14a,14bは、ASIC13aから自己のパーティションの障害部位情報を収集し(S17)、処理S31へ移行する。図1の例において、障害発生パーティションに所属するF/W14aは、パーティション16aの障害部位情報を収集する。
障害の起きたパーティションでない場合(S16,N)、F/W14a,14bは、ASIC13aにおける他のパーティションの正常終了情報のフラグのタイムアウト監視を行い、タイムアウトしたか否かの判断を行う(S21)。図1の例において、障害発生パーティションに所属しないF/W14bは、このタイムアウト監視を行う。
タイムアウトしなかった場合(S21,N)、即ち、所定の時間内にASIC13aにおける障害発生パーティションの正常終了情報のフラグがセットされた場合、このフローは終了する。
タイムアウトした場合(S21,Y)、F/W14a,14bは、障害発生パーティションの解除情報を設定する(S23)。ここで、F/W14a,14bは、解除情報のフラグをセットすることにより、ASIC13aに隠蔽の解除の要求を行う。解除情報のフラグがセットされたASIC13aは、障害発生パーティションの障害情報の隠蔽を解除する(S24)。次に、F/W14a,14bは、物理位置情報と所定の算出式により、障害情報のアドレスを算出し(S25)、ASIC13aから障害部位情報を収集する(S26)。図1の例において、障害発生パーティションに所属しないF/W14bは、障害発生パーティションの正常終了情報のタイムアウト監視を行い、これがタイムアウトすると、パーティション16aの解除情報のフラグをセットし、パーティション16aの障害部位情報を収集する。
次に、F/W14a,14bは、障害詳細情報が必要であるか否かの判断を行う(S31)。障害詳細情報が必要でない場合(S31,N)、処理S33へ移行する。障害詳細情報が必要である場合(S31,Y)、F/W14a,14bは、取得した障害部位情報に対応する障害詳細情報を取得する(S32)。次に、F/W14a,14bは、取得した障害情報(障害部位情報、障害詳細情報)のマージを行い(S33)、障害情報を解析することにより、その障害の影響を受けるパーティションと影響を与える障害情報とを特定し(S34)、障害解析が正常終了したか否かの判断を行う(S35)。
正常終了しない場合(S35,N)、このフローは終了する。正常終了しない場合とは、多重障害により障害情報の収集ができなかった場合等である。図1の例において、F/W14aは、多重障害により障害処理が中断し、パーティション16aの正常終了情報のフラグはセットされない。
正常終了した場合(S35,N)、F/W14a,14bは、ASIC13aの影響範囲のうち自己の所属するパーティション以外へ障害処理の終了報告を行う(S41)。ここで、F/W14a,14bは、ASIC13aにおける自己のパーティションの正常終了情報のフラグをセットし、他のパーティションのF/Wは正常終了情報のフラグを監視することにより正常終了を認識する。図1の例において、F/W14bは、パーティション16bの正常終了情報のフラグをセットする。
次に、F/W14a,14bは、自己のパーティションが障害発生パーティションであるか否かの判断を行う(S42)。障害発生パーティションである場合(S42,Y)、F/W14a,14bは、障害解析結果を筐体管理装置11及び自己のパーティションのOSへ送信し(S43)、このフローは終了する。障害発生パーティションでない場合(S42,N)、F/W14a,14bは、障害解析結果を筐体管理装置11へ送信し(S43)、このフローは終了する。通常、筐体管理装置11へ送信される障害解析結果は、障害発生パーティションからの報告である。処理S43における障害解析結果は、障害発生パーティション以外からの報告であるが、障害発生パーティションからの報告として表される。
なお、本実施の形態において、ASIC13aは、2つのパーティションについてH/Wの管理を行うとしたが、3つ以上のパーティションについてH/Wの管理を行う場合でも本発明を適用することができる。
次に、本実施の形態の効果について、物理分割及びパーティションの具体例を用いて説明する。
図4は、本実施の形態に係るサーバにおける物理分割及びパーティションの構成の一例を示すブロック図である。この図のサーバは、ハードウェアとして、システムボード(SB)30,31,32,33と、IOユニット(IOU)40,41,42,43を備える。また、パーティション(P)50,51,52,53が設定される。SB30,31,32,33のそれぞれにおいて、上述したASICが1つずつ備えられる。また、P50,51,52,53のそれぞれにおいて、F/W及びOSが1つずつ動作する。
SB30,33は、物理分割されず、それぞれ1つのSB(PSB)300,330として利用される。SB31,32は、物理分割され、それぞれ2つの分割されたSB(XSB)310及び311、320及び321として利用される。
IOU41,43は、物理分割されず、それぞれ1つのIOU410,430として利用される。IOU40,42は、物理分割され、それぞれ2つの分割されたIOU(LIOU)400及び401、420及び421として利用される。
P50には、PSB300、LIOU400が割り当てられている。P51には、XSB310、LIOU401が割り当てられている。P52には、XSB311、IOU410が割り当てられている。P53には、XSB320,321、PSB330、LIOU420,421、IOU430が割り当てられている。
SB31のいずれかのXSBにおいて、XSB内を影響範囲とする障害が発生した場合、何らかの原因で障害処理が継続出来なければ、もう片方のXSBが属するパーティションで障害処理が続行される。このように、ハードウェアが自らのパーティション以外の障害を処理する場合、本発明の効果により障害情報の取得及び解析を行うことができる。
また、SB32のいずれかのXSBで障害が発生した場合、このパーティションに属しているP53はパーティションダウンしてしまう。このように、物理分割しているハードウェアが同一のパーティションに属している場合、本発明の効果が得られない。
本実施の形態によれば、従来、多重障害等により障害情報を採取できなかった場合でも、障害情報を採取することができ、障害対策時間を短縮することができる。
なお、ハードウェア管理部は、実施の形態におけるASICに対応する。また、パーティション管理部は、実施の形態におけるF/Wに対応する。また、障害情報記録部は、実施の形態における筐体管理装置に対応する。ハードウェア管理ステップは、実施の形態におけるASICの処理に対応する。また、パーティション管理ステップは、実施の形態におけるF/Wの処理に対応する。また、障害情報記録ステップは、実施の形態における筐体管理装置の処理に対応する。
以上説明したように、物理分割機能の使用時に障害情報が取得できる確率を向上させることができる。
タイムアウトした場合(S21,Y)、F/W14a,14bは、障害発生パーティションの解除情報を設定する(S23)。ここで、F/W14a,14bは、解除情報のフラグをセットすることにより、ASIC13aに隠蔽の解除の要求を行う。解除情報のフラグがセットされたASIC13aは、障害発生パーティションの障害情報の隠蔽を解除する(S24)。次に、F/W14a,14bは、物理分割位置情報と所定の算出式により、障害情報のアドレスを算出し(S25)、ASIC13aから障害部位情報を収集する(S26)。図1の例において、障害発生パーティションに所属しないF/W14bは、障害発生パーティションの正常終了情報のタイムアウト監視を行い、これがタイムアウトすると、パーティション16aの解除情報のフラグをセットし、パーティション16aの障害部位情報を収集する。
正常終了した場合(S35,)、F/W14a,14bは、ASIC13aの影響範囲のうち自己の所属するパーティション以外へ障害処理の終了報告を行う(S41)。ここで、F/W14a,14bは、ASIC13aにおける自己のパーティションの正常終了情報のフラグをセットし、他のパーティションのF/Wは正常終了情報のフラグを監視することにより正常終了を認識する。図1の例において、F/W14bは、パーティション16bの正常終了情報のフラグをセットする。
次に、F/W14a,14bは、自己のパーティションが障害発生パーティションであるか否かの判断を行う(S42)。障害発生パーティションである場合(S42,Y)、F/W14a,14bは、障害解析結果を筐体管理装置11及び自己のパーティションのOSへ送信し(S43)、このフローは終了する。障害発生パーティションでない場合(S42,N)、F/W14a,14bは、障害解析結果を筐体管理装置11へ送信し(S4)、このフローは終了する。通常、筐体管理装置11へ送信される障害解析結果は、障害発生パーティションからの報告である。処理S43における障害解析結果は、障害発生パーティション以外からの報告であるが、障害発生パーティションからの報告として表される。
また、SB32のいずれかのXSBで障害が発生した場合、このXSBが属しているP53はパーティションダウンしてしまう。このように、物理分割しているハードウェアが同一のパーティションに属している場合、本発明の効果が得られない。

Claims (20)

  1. ハードウェア資源を分割してそれぞれを異なるパーティションで利用する物理分割を行うことができる情報処理装置であって、
    複数のパーティションに割り当てられた少なくとも1つのハードウェア資源に接続され、前記ハードウェア資源の管理を行うハードウェア管理部であって、前記複数のパーティションのいずれかで障害が発生したことを検知した場合、前記障害が発生したパーティションを障害発生パーティションとし、前記障害の発生を報知するハードウェア管理部と、
    前記パーティション毎に備えられたパーティション管理部であって、物理分割の状態であり、且つ前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害に関する情報である障害情報の取得が必要であると判定した場合、前記障害情報の取得を行うパーティション管理部と
    を備える情報処理装置。
  2. 請求項1に記載の情報処理装置において、
    前記パーティション管理部は、取得した前記障害情報の解析を行い、該解析の結果を障害解析情報として出力し、
    更に、前記パーティション管理部により出力された障害解析情報を記録する障害情報記録部を備える情報処理装置。
  3. 請求項2に記載の情報処理装置において、
    前記パーティション管理部は、前記障害情報の解析を行い、且つ自己のパーティションが前記障害発生パーティションと異なる場合、前記障害解析情報を前記障害発生パーティションから出力された情報として出力する情報処理装置。
  4. 請求項1に記載の情報処理装置において、
    前記パーティション管理部は、前記障害発生パーティションにおいて前記障害の情報である障害情報の取得が失敗したと認識した場合、前記障害情報の取得が必要であると判定する情報処理装置。
  5. 請求項4に記載の情報処理装置において、
    前記ハードウェア管理部は、前記障害情報の取得が正常に終了したか否かを示す正常終了情報を保持し、
    前記パーティション管理部は、前記障害情報の取得を正常に終了した場合、前記正常終了情報を正常終了状態に設定する情報処理装置。
  6. 請求項5に記載の情報処理装置において、
    物理分割の状態であり、且つ前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なる場合、前記正常終了情報を監視し、前記所定の時間までに前記正常終了情報が正常終了状態にならない場合、前記障害発生パーティションにおいて前記障害情報の取得が失敗したと認識する情報処理装置。
  7. 請求項1に記載の情報処理装置において、
    前記ハードウェア管理部は、前記パーティション毎に前記障害情報を保持し、
    前記パーティション管理部は、物理分割の状態であり、且つ前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害情報の取得が必要であると判定した場合、前記ハードウェア管理部から前記障害発生パーティションの前記障害情報を取得する情報処理装置。
  8. 請求項7に記載の情報処理装置において、
    前記ハードウェア管理部は、前記障害発生パーティションの障害情報を他のパーティションから隠蔽しておき、
    前記パーティション管理部は、物理分割の状態であり、且つ前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害に関する情報である障害情報の取得が必要であると判定した場合、前記ハードウェア管理部による前記隠蔽を解除させ、前記障害情報の取得を行う情報処理装置。
  9. 請求項1に記載の情報処理装置において、
    前記ハードウェア管理部は、物理分割が設定されているか否かを示す動作情報を保持し、
    前記パーティション管理部は、前記動作情報を参照することにより物理分割の状態であるか否かの判定を行う情報処理装置。
  10. 請求項1に記載の情報処理装置において、
    前記ハードウェア管理部は、前記障害の発生した位置を位置情報として保持し、
    前記パーティション管理部は、前記ハードウェア管理部による報知に基づいて前記障害の発生を認識した場合、前記位置情報を参照することにより自己のパーティションが前記障害発生パーティションであるか否かの判定を行う情報処理装置。
  11. 請求項1に記載の情報処理装置において、
    前記パーティション管理部は、前記ハードウェア管理部による報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションである場合、前記障害の情報の収集を行う情報処理装置。
  12. 請求項1に記載の情報処理装置において、
    前記ハードウェア管理部は、障害の発生の有無を表す障害発生情報を保持し、前記複数のパーティションの1つで障害が発生した場合、前記障害発生情報に前記障害の発生を設定し、
    前記パーティション管理部は、前記ハードウェア管理部における障害発生情報を監視することにより、前記障害の発生を認識する情報処理装置。
  13. ハードウェア資源を分割してそれぞれを異なるパーティションで利用することができる情報処理装置の障害処理方法であって、
    複数のパーティションに割り当てられた少なくとも1つのハードウェア資源の管理を行い、前記複数のパーティションのいずれかで障害が発生したことを検知した場合、前記障害が発生したパーティションを障害発生パーティションとし、前記障害の発生を報知するハードウェア管理ステップと、
    パーティション毎に実行され、物理分割の状態であり、且つ前記ハードウェア管理ステップによる報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害に関する情報である障害情報の取得が必要であると判定した場合、前記障害情報の取得を行うパーティション管理ステップと
    を実行する障害処理方法。
  14. 請求項13に記載の障害処理方法において、
    前記パーティション管理ステップは、取得した前記障害情報の解析を行い、該解析の結果を障害解析情報として出力し、
    更に、前記パーティション管理ステップにより出力された障害解析情報を記録する障害情報記録ステップを実行する障害処理方法。
  15. 請求項14に記載の障害処理方法において、
    前記パーティション管理ステップは、前記障害情報の解析を行い、且つ自己のパーティションが前記障害発生パーティションと異なる場合、前記障害解析情報を前記障害発生パーティションから出力された情報として出力する障害処理方法。
  16. 請求項13に記載の障害処理方法において、
    前記パーティション管理ステップは、前記障害発生パーティションにおいて前記障害の情報である障害情報の取得が失敗したと認識した場合、前記障害情報の取得が必要であると判定する障害処理方法。
  17. 請求項16に記載の障害処理方法において、
    前記ハードウェア管理ステップは、前記障害情報の取得が正常に終了したか否かを示す正常終了情報を保持し、
    前記パーティション管理ステップは、前記障害情報の取得を正常に終了した場合、前記正常終了情報を正常終了状態に設定する障害処理方法。
  18. 請求項17に記載の障害処理方法において、
    物理分割の状態であり、且つ前記ハードウェア管理ステップによる報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なる場合、前記正常終了情報を監視し、前記所定の時間までに前記正常終了情報が正常終了状態にならない場合、前記障害発生パーティションにおいて前記障害情報の取得が失敗したと認識する障害処理方法。
  19. 請求項1に記載の障害処理方法において、
    前記ハードウェア管理ステップは、前記パーティション毎に前記障害情報を保持し、
    前記パーティション管理ステップは、物理分割の状態であり、且つ前記ハードウェア管理ステップによる報知に基づいて前記障害の発生を認識し、且つ自己のパーティションが前記障害発生パーティションと異なり、且つ前記障害情報の取得が必要であると判定した場合、前記ハードウェア管理ステップから前記障害発生パーティションの前記障害情報を取得する障害処理方法。
  20. 請求項19に記載の障害処理方法において、
    前記ハードウェア管理ステップは、前記障害発生パーティションの障害情報を他のパーティションから隠蔽しておき、
    前記パーティション管理ステップは、前記ハードウェア管理ステップによる前記隠蔽を解除させ、前記障害情報の取得を行う障害処理方法。
JP2009507374A 2007-03-29 2007-03-29 情報処理装置、障害処理方法 Active JP4495248B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/056957 WO2008120383A1 (ja) 2007-03-29 2007-03-29 情報処理装置、障害処理方法

Publications (2)

Publication Number Publication Date
JP4495248B2 JP4495248B2 (ja) 2010-06-30
JPWO2008120383A1 true JPWO2008120383A1 (ja) 2010-07-15

Family

ID=39807976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009507374A Active JP4495248B2 (ja) 2007-03-29 2007-03-29 情報処理装置、障害処理方法

Country Status (3)

Country Link
US (1) US7930599B2 (ja)
JP (1) JP4495248B2 (ja)
WO (1) WO2008120383A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5217988B2 (ja) * 2008-12-08 2013-06-19 富士通株式会社 情報処理装置、プログラムおよび情報処理装置の制御方法
US8151147B2 (en) * 2009-12-17 2012-04-03 Hewlett-Packard Development Company, L.P. Synchronize error handling for a plurality of partitions
US8850260B1 (en) * 2010-09-22 2014-09-30 Western Digital Technologies, Inc. Programmable error handling

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229811A (ja) * 2001-02-05 2002-08-16 Nec Eng Ltd 論理分割システムの制御方法
JP2003076671A (ja) * 2001-06-29 2003-03-14 Fujitsu Ltd 共有リソースを有し、区画に分割されたシステムにおけるエラー抑制及びエラー処理
JP2004062535A (ja) * 2002-07-29 2004-02-26 Nec Corp マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
JP2004213178A (ja) * 2002-12-27 2004-07-29 Hitachi Ltd 計算機システム
JP2004342109A (ja) * 2003-05-15 2004-12-02 Internatl Business Mach Corp <Ibm> 入出力ファブリックにおけるハードウェア・エラーからの自動回復
JP2005122229A (ja) * 2003-10-14 2005-05-12 Hitachi Ltd 計算機システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6450135A (en) 1987-08-20 1989-02-27 Nec Corp Fault processing system
US6633916B2 (en) * 1998-06-10 2003-10-14 Hewlett-Packard Development Company, L.P. Method and apparatus for virtual resource handling in a multi-processor computer system
US7380001B2 (en) 2001-05-17 2008-05-27 Fujitsu Limited Fault containment and error handling in a partitioned system with shared resources
US7260752B2 (en) * 2004-02-19 2007-08-21 International Business Machines Corporation Method and apparatus for responding to critical abstracted platform events in a data processing system
US7321987B2 (en) * 2005-01-04 2008-01-22 International Business Machines Corporation Error monitoring of partitions in a computer system using partition status indicators
US7325163B2 (en) * 2005-01-04 2008-01-29 International Business Machines Corporation Error monitoring of partitions in a computer system using supervisor partitions
US20060250945A1 (en) * 2005-04-07 2006-11-09 International Business Machines Corporation Method and apparatus for automatically activating standby shared Ethernet adapter in a Virtual I/O server of a logically-partitioned data processing system
JP4882736B2 (ja) * 2006-12-27 2012-02-22 富士通株式会社 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
US7783858B2 (en) * 2007-01-20 2010-08-24 International Business Machines Corporation Reducing memory overhead of a page table in a dynamic logical partitioning environment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229811A (ja) * 2001-02-05 2002-08-16 Nec Eng Ltd 論理分割システムの制御方法
JP2003076671A (ja) * 2001-06-29 2003-03-14 Fujitsu Ltd 共有リソースを有し、区画に分割されたシステムにおけるエラー抑制及びエラー処理
JP2004062535A (ja) * 2002-07-29 2004-02-26 Nec Corp マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
JP2004213178A (ja) * 2002-12-27 2004-07-29 Hitachi Ltd 計算機システム
JP2004342109A (ja) * 2003-05-15 2004-12-02 Internatl Business Mach Corp <Ibm> 入出力ファブリックにおけるハードウェア・エラーからの自動回復
JP2005122229A (ja) * 2003-10-14 2005-05-12 Hitachi Ltd 計算機システム

Also Published As

Publication number Publication date
WO2008120383A1 (ja) 2008-10-09
US7930599B2 (en) 2011-04-19
JP4495248B2 (ja) 2010-06-30
US20100011257A1 (en) 2010-01-14

Similar Documents

Publication Publication Date Title
US7917811B2 (en) Virtual computer system
CN102231681B (zh) 一种高可用集群计算机系统及其故障处理方法
US20070260910A1 (en) Method and apparatus for propagating physical device link status to virtual devices
US20100325471A1 (en) High availability support for virtual machines
CN104239161A (zh) 在虚拟化系统中实现用于共享适配器的增强错误处理
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
JP2005115751A (ja) 計算機システム及び計算機システムの障害兆候の検知方法
US10102088B2 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
JP5425720B2 (ja) 仮想化環境監視装置とその監視方法およびプログラム
JP2010134557A (ja) 仮想マシン運用管理システム、その運用管理方法、及びプログラム
CN117472623A (zh) 处理内存故障的方法、装置、设备及存储介质
JP4495248B2 (ja) 情報処理装置、障害処理方法
JP5712714B2 (ja) クラスタシステム、仮想マシンサーバ、仮想マシンのフェイルオーバ方法、仮想マシンのフェイルオーバプログラム
JP2007299213A (ja) Raid制御装置および障害監視方法
JP5625605B2 (ja) Os動作状態確認システム、確認対象装置、os動作状態確認装置、os動作状態確認方法およびプログラム
US7475076B1 (en) Method and apparatus for providing remote alert reporting for managed resources
Leangsuksun et al. A failure predictive and policy-based high availability strategy for linux high performance computing cluster
JP2011076344A (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
JP6828558B2 (ja) 管理装置、管理方法及び管理プログラム
CN113342593B (zh) 用以进行全快闪存储器阵列伺服器的高可用性管理的方法与设备
CN104618191A (zh) 一种主机与裸存储块之间的通信故障检测方法和装置
JP2006252429A (ja) コンピュータシステム、コンピュータシステムの診断方法およびコンピュータシステムの制御プログラム
JP5832408B2 (ja) 仮想計算機システム及びその制御方法
Lee et al. NCU-HA: A lightweight HA system for kernel-based virtual machine
Lundin et al. Significant advances in Cray system architecture for diagnostics, availability, resiliency and health

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100406

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100408

R150 Certificate of patent or registration of utility model

Ref document number: 4495248

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140416

Year of fee payment: 4