WO2013136462A1

WO2013136462A1 - 監視装置，情報処理装置，監視方法，および監視プログラム

Info

Publication number: WO2013136462A1
Application number: PCT/JP2012/056541
Authority: WO
Inventors: 啓宏宇都宮
Original assignee: 富士通株式会社
Priority date: 2012-03-14
Filing date: 2012-03-14
Publication date: 2013-09-19

Abstract

　監視対象（４）の制御を行なう複数の監視部（２０）を備えた監視装置（１０）であって、前記複数の監視部（２０）の起動処理に係る起動情報（３３）を保持するとともに、前記複数の監視部（２０）の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報（３１）と、前記種別情報（３１）の誤りを検出するための誤り検出情報（３２）と、を保持する保持部（３）を備え、前記複数の監視部（２０）の各々は、起動したときに前記複数の監視部（２０）のうちの他の監視部（２０）が停止状態の場合、前記保持部（３）が保持する前記種別情報（３１）と前記誤り検出情報（３２）とに基づいて、前回の停止の種別を判定する判定部（２１）と、前記判定部（２１）による判定結果に応じて、前記保持部（３）が保持する前記起動情報（３３）を用いて前記起動処理を行なう処理部（２２）と、を備える。

Description

監視装置，情報処理装置，監視方法，および監視プログラム

　本件は、監視装置，情報処理装置，監視方法，および監視プログラムに関する。

　近年、サーバ装置等の情報処理装置において、以前よりも増して高い信頼性が要求される場合がある。情報処理装置の信頼性を向上させるために、例えば、情報処理装置にメインプロセッサとは独立したサービスプロセッサ（Service Processor；以下、ＳＰという）を搭載することで、信頼性を高めることができる。この場合、さらに、ＳＰを冗長化（例えば二重化）して信頼性を向上させることができる。

　なお、ＳＰ（監視部）は、ソフトウェア（例えばファームウェア）であり、ＳＰの機能は、ハードウェアであるＳＰＢ（Service Processor Board）により実現される。以下、１つのＳＰＢにより１つのＳＰが実行されるものとし、ＳＰが冗長化される場合、情報処理装置にはＳＰと同数のＳＰＢが搭載されるものとして説明する。
　ＳＰは、情報処理装置内の監視対象装置（監視対象）として、例えばＳＰＢ，ＳＢ（System Board），ファン，ＰＳＵ（Power Supply Unit），ＳＥＮＢ（Sensor Board）等を制御する。ＳＢは、メインプロセッサが搭載されるハードウェアであり、情報処理装置が提供するサービスが実行される。ＰＳＵは、情報処理装置内のＳＰＢ，ＳＢ，ファン，ＳＥＮＢ等に電力を供給するものであり、ＳＥＮＢは、情報処理装置内の温度等を測定するセンサである。

　例えば、情報処理装置においてＳＰを二重化する場合、１つのＳＰ（ＳＰＢ）が故障すると、他方のＳＰは、故障したＳＰの動作を引き継ぎ監視対象装置の制御を行なうため、監視対象装置は動作を継続することができる。また、故障したＳＰについては、例えば保守担当者等の作業者が、監視対象装置の動作を継続させたままＳＰＢの活性交換を行なうことができる。

　なお、関連する技術として、ハードウェア状態情報及びＯＳ（Operating System）ソフトウェア状態情報の変化を認識した際に退避情報として不揮発性メモリに記憶するシステム監視装置がある。このシステム監視装置は、故障したシステム監視装置の活性交換に伴う再起動を認識した際に、不揮発性メモリから退避情報を読み出して対応する装置故障前のハードウェア状態情報及びＯＳソフトウェア状態情報を復元する。

　また、関連する他の技術として、ＲＡＩＤ（Redundant Arrays of Inexpensive Disks）コントローラを有するディスク制御システムにおいて、ライトリクエストに応答して、データを書き込むとともに、複数のディスク上の論理アドレスログ領域に、アドレス変換前のアドレス値である論理アドレスを書き込む技術がある。この技術では、書き込み中にシステムの障害が発生した場合には、書込処理途中のストライプに関して、その論理アドレスログ領域に書き込まれているチェックサム値がデータ領域の書込データから求めたチェックサム値との一致を確認して、データの有効／無効を判断する。

国際公開ＷＯ２００７／０８８５７５号パンフレット特開２００２－２０７５７２号公報

　冗長化（例えば二重化）したＳＰを搭載する情報処理装置において、一方のＳＰが故障し、故障したＳＰの活性交換中に他方のＳＰも故障した場合、監視対象装置を制御するＳＰが存在しなくなり、監視対象装置の動作を継続することが困難になる。例えば、二重化したＳＰがともに故障した場合、監視対象装置は、ＳＰへの要求が受領されず、或いはＳＰによる制御待ちの状態が続くため、他の処理を実行することができず、監視対象装置の動作を継続することが困難になる。なお、この場合、作業者は、監視対象装置の動作を停止させ、２つのＳＰを交換（停止交換）して、監視対象装置及びＳＰを再起動することになる。

　ここで、上述した関連する技術では、システム監視装置は、故障したシステム監視装置の活性交換に伴う再起動を認識した際に、不揮発性メモリから退避情報を読み出して対応する装置故障前の各情報を復元する。しかしながら、この技術では、故障したシステム監視装置の活性交換に伴う再起動を認識するための手法は開示されていない。
　例えば、上述した関連する技術において、システム監視装置が、停止処理を行なう際にハードウェアに停止の種別（システム全体の停止，システム監視装置の再起動等）を設定し、起動したときにハードウェアから停止の種別を取得するように動作させることも考えられる。しかし、例えば、システム監視装置は、故障のために正常な停止処理を行なわずに停止すると、ハードウェアに停止の種別を設定できない、或るいは誤った情報を設定することになり、再起動後に前回の停止の種別を認識できない、或いは誤認識してしまう。この場合、システム監視装置は、故障したシステム監視装置の活性交換に伴う再起動を認識できないため、不揮発性メモリから退避情報を読み出して対応する装置故障前の各情報を復元する処理も行なわれない。また、システム監視装置は、前回の停止の種別を、例えば再起動後に監視対象装置のハードウェアを初期化することになる種別と誤認識すると、活性交換に伴う再起動後に、ハードウェアの初期化により監視対象装置の電源断やセンサ誤検出等が発生する場合もある。

　このように、上述した関連する技術においても、冗長化したシステム監視装置がともに故障した場合、監視対象装置の動作を継続することが困難になる。
　また、情報処理装置は、停止交換によっても停止前の情報を引き継ぐこともできるが、活性交換ではないため監視対象装置を停止することになり、大規模なシステムにとっては停止することが致命的となる。

　１つの側面では、本発明は、複数の監視部を活性交換しても監視対象の動作を継続させることを目的とする。
　なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本発明の他の目的の１つとして位置付けることができる。

　本件の監視装置は、監視対象の制御を行なう複数の監視部を備えた監視装置であって、前記複数の監視部の起動処理に係る起動情報を保持するとともに、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、を保持する保持部を備え、前記複数の監視部の各々は、起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、前記保持部が保持する前記種別情報と前記誤り検出情報とに基づいて、前回の停止の種別を判定する判定部と、前記判定部による判定結果に応じて、前記保持部が保持する前記起動情報を用いて前記起動処理を行なう処理部と、を備えるものである。

　また、本件の情報処理装置は、監視対象と、前記監視対象の制御を行なう複数の監視部と、前記複数の監視部の起動処理に係る起動情報を保持するとともに、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、を保持する保持部と、を備え、前記複数の監視部の各々は、起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、前記保持部が保持する前記種別情報と前記誤り検出情報とに基づいて、前回の停止の種別を判定する判定部と、前記判定部による判定結果に応じて、前記保持部が保持する前記起動情報を用いて前記起動処理を行なう処理部と、を備えるものである。

　さらに、本件の監視方法は、監視対象の制御を複数の監視部により行なう監視方法であって、起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、保持部が保持する、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、に基づいて、前回の停止の種別を判定し、前記判定による判定結果に応じて、前記保持部が保持する前記複数の監視部の起動処理に係る起動情報を用いて前記起動処理を行なうものである。

　また、本件の監視プログラムは、監視対象の制御を行なう処理を複数の監視部の一つを成すコンピュータに実行させる監視プログラムであって、起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、保持部が保持する、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、に基づいて、前回の停止の種別を判定し、前記判定による判定結果に応じて、前記保持部が保持する前記複数の監視部の起動処理に係る起動情報を用いて前記起動処理を行なう、処理を前記コンピュータに実行させるものである。

　開示の技術によれば、複数の監視部を活性交換しても監視対象の動作を継続させることができる。

一実施形態に係る情報処理装置の構成例を示す図である。本実施形態に係る監視装置による監視部の起動処理の手順の一例を説明するフローチャートである。本実施形態に係る情報処理装置のハードウェア構成例を示す図である。本実施形態に係る情報処理装置の詳細な機能構成例を示す図である。本実施形態に係る保持部がそなえるリセット因子フィールド及びチェックサムフィールド内のデータ構造の一例を示す図である。本実施形態に係る保持部がそなえるシステム情報フィールド内のデータ構造の一例を示す図である。本実施形態に係る保持部がそなえるリセット因子フィールド及びチェックサムフィールド内の、ＳＰが最後に正常な停止処理を行なったときのデータの一例を示す図である。本実施形態に係る保持部がそなえるリセット因子フィールド及びチェックサムフィールド内の、ＳＰが活性交換後に起動したときの一例を示す図である。本実施形態に係る停止処理部によるＳＰ活性交換におけるＳＰ停止処理の手順の一例を示すフローチャートである。本実施形態に係る停止処理部による監視対象の電源オフにおけるＳＰ停止処理の手順の一例を示すフローチャートである。本実施形態に係る停止処理部によるＳＰ再起動におけるＳＰ停止処理の手順の一例を示すフローチャートである。本実施形態に係る監視装置によるＳＰ起動後の処理の手順の一例を示すフローチャートである。本実施形態に係る監視装置によるＳＰが活性交換された場合のＳＰ起動後の処理の手順の一例を示すシーケンス図である。本実施形態に係る監視装置による監視対象の電源が入った場合のＳＰ起動後の処理の手順の一例を示すシーケンス図である。本実施形態に係る監視装置によるＳＰが再起動した場合のＳＰ起動後の処理の手順の一例を示すシーケンス図である。本実施形態に係る監視装置によるＳＥＮＢ又は交換したＳＰが故障した場合のＳＰ起動後の処理の手順の一例を示すシーケンス図である。本実施形態に係る運用状態のＳＰに故障が発生した場合の監視装置による処理の手順の一例を示すシーケンス図である。本実施形態に係る運用状態のＳＰに故障が発生した場合の監視装置による処理の手順の一例を示すフローチャートである。本実施形態に係る監視装置における前回の停止の種別に応じた状態マトリクスを示す図である。運用状態のＳＰに故障が発生した場合のＳＰによる処理の手順の一例を示すシーケンス図である。運用状態のＳＰに故障が発生した場合のＳＰによる処理の手順の一例を示すフローチャートである。

　以下、図面を参照して実施の形態を説明する。
　〔１〕一実施形態
　　〔１－１〕情報処理装置の説明
　　　〔１－１－１〕情報処理装置の構成例
　図１は、一実施形態に係る情報処理装置１の構成例を示す図である。

　図１に示すように、情報処理装置１は、監視対象４を制御する監視装置１０及び監視対象４をそなえる。監視装置１０は、複数、例えば２つの監視部２０－１及び２０－２（以下の説明において監視部２０－１，２０－２を区別しない場合には単に符号２０で示す）及び保持部３をそなえる。なお、監視部２０－１，２０－２の各々は、監視対象４と通信可能に接続されるとともに、保持部３と書込及び読出可能に接続される。

　保持部３は、種別情報３１，誤り検出情報３２，及び起動情報３３を保持する。種別情報３１は、複数の監視部２０の各々が停止処理に応じて停止されるときの停止の種別を示す情報であり、誤り検出情報３２は、種別情報３１の誤りを検出するための情報である。また、起動情報３３は、複数の監視部２０の起動処理に係る情報であり、後述する処理部２２による起動処理で用いられる。

　監視部２０は、監視対象４の監視及び制御を行なうものであり、判定部２１及び処理部２２をそなえる。判定部２１は、起動したときに複数の監視部２０－１，２０－２のうちの他の監視部２０が停止状態の場合、保持部３が保持する種別情報３１と誤り検出情報３２とに基づいて、前回の停止の種別を判定する。処理部２２は、判定部２１による判定結果に応じて、保持部３が保持する起動情報３３を用いて起動処理を行なう。

　　　〔１－１－２〕監視装置の動作例
　次に、上述の如く構成された本実施形態の一例としての監視装置１０の動作例を、図２を参照して説明する。図２は、本実施形態に係る監視装置１０による監視部２０の起動処理の手順の一例を説明するフローチャートである。
　はじめに、図２に示すように、監視部２０が起動すると（ステップＳ１）、監視部２０（判定部２１）により他の監視部２０が停止状態か否かが判定される（ステップＳ２）。他の監視部２０が停止状態である場合（ステップＳ２のＹｅｓルート）、判定部２１により、保持部３に保持された種別情報３１及び誤り検出情報３２に基づいて、前回の停止の種別が判定される（ステップＳ３）。

　そして、処理部２２により、判定部２１による判定結果に応じて、保持部３に保持された起動情報３３を用いて起動処理が行なわれ（ステップＳ４）、監視部２０の起動処理が終了する。なお、ステップＳ２において、他の監視部２０が停止状態でない場合（ステップＳ２のＮｏルート）、例えば起動している他の監視部２０から起動処理に係る情報を取得できるため、処理部２２により、所定の起動処理が行なわれる（ステップＳ５）。

　このように、本実施形態に係る監視装置１０（情報処理装置１）によれば、例えば全ての監視部２０が停止した状態で自身の監視部２０が立ち上がった場合、判定部２１により、種別情報３１と誤り検出情報３２とに基づいて、前回の停止の種別が判定される。
　ここで、種別情報３１は、複数の監視部２０の各々が停止処理に応じて停止されるときの停止の種別を示す情報である。すなわち、前回、監視部２０が正常な停止処理を行なわずに（例えば故障や事故、災害により）停止した場合等の状況では、種別情報３１は、この監視部２０の前回の停止の種別を示すものではない。従って、例えば種別情報３１に基づいて前回の停止の種別を判定しようとすると、前回の停止の種別が分からない、或いは他の停止の種別と誤認識してしまい、監視部２０の適切な起動処理が行なえず、監視対象４の動作を継続することが困難になってしまう。

　そこで、本実施形態に係る判定部２１は、種別情報３１と種別情報３１の誤りを検出するための誤り検出情報３２とに基づいて、前回の停止の種別を判定するのである。これにより、判定部２１は、誤り検出情報３２により種別情報３１の誤りを検出して、前回の停止の種別を確実に判定することができる。
　また、処理部２２により、判定部２１による判定結果に応じて、保持部３が保持する起動情報３３を用いて起動処理が行なわれる。従って、例えば活性交換後に起動した場合であっても、起動情報が監視部２０の交換により失われずに保持部３に保持されているため、監視対象４の動作を継続したまま監視部２０の起動処理を行なうことができる。また、判定部２１により前回の停止の種別が確実に判定されるため、処理部２２は適切な起動処理を行なうことができ、例えば誤認識した停止の種別に応じた起動処理により、監視対象４に対して動作継続が困難になるような深刻な影響を与えることも抑止できる。

　以上のように、本実施形態に係る監視装置１０によれば、複数の監視部２０を活性交換しても監視対象４の動作を継続させることができる。特に、監視対象４が大規模な構成の場合、小規模構成のときと比べて監視対象４が停止（電源オフ）することの影響が非常に大きい。従って、仮に複数の監視部２０が一時的に全て故障した場合でも、本実施形態に係る監視装置１０によれば、監視部２０の活性交換によって監視対象４を動作継続させることができるため、監視対象４が停止することにより他のシステム或いは使用者等に与える影響を抑止することができる。

　　〔１－２〕情報処理装置の詳細な構成例
　図３は、本実施形態に係る情報処理装置１のハードウェア構成例を示す図であり、図４は、情報処理装置１の詳細な機能構成例を示す図である。
　上述した実施形態（図１及び図２参照）において、情報処理装置１は、図３に示すハードウェアをそなえても良く、監視装置１０は、図４に示す構成としても良い。以下、図３及び図４を参照して、本実施形態に係る情報処理装置１の詳細な構成例を説明する。

　　　〔１－２－１〕情報処理装置のハードウェア構成例
　はじめに、情報処理装置１のハードウェア構成例について図３を参照して説明する。
　図３に例示するように、情報処理装置１は、監視装置１０，複数、例えばｎ個のＳＢ６－１～６－ｎ，ファンＢＰ（Back Panel）７１，複数のファン７２，ＰＳＵＢＰ（Power Supply Unit Back Panel）８１，及び複数のＰＳＵ８２をそなえる。また、監視装置１０は、複数、例えば２つのＳＰＢ２－１及び２－２，並びにＳＥＮＢ５をそなえる。なお、以下の説明においてＳＰＢ２－１，２－２を区別しない場合には単に符号２で示し、ＳＢ６－１～６－ｎを区別しない場合には単に符号６で示す。

　監視装置１０は、複数、例えば２つの冗長化（二重化）されたＳＰ２０－１，２０－２（図４参照；以下の説明においてＳＰ２０－１，２０－２を区別しない場合には単に符号２０で示す）により、監視対象４の制御を行なうものである。
　ここで、ＳＰ２０－１，２０－２の監視対象４としては、ＳＰＢ２－１及び２－２自身，ＳＥＮＢ５，ＳＢ６，ファン７２，ＰＳＵ８２等の少なくとも１つが挙げられる。つまり、監視対象４としては、情報処理装置１の動作に関わるハードウェアが挙げられる。以下、本実施形態に係る監視対象４は、ＳＰＢ２－１及び２－２自身，ＳＥＮＢ５，ＳＢ６，ファン７２，ＰＳＵ８２であるものとして説明する。

　ＳＰＢ２－１，２－２は、それぞれ監視対象４の監視及び制御を行なうＳＰ２０－１，２０－２を実現するハードウェアである。なお、１つのＳＰＢ２により１つのＳＰ２０が実現されるため、図３に示す監視装置１０においては、ＳＰＢ２－１，２－２により、２つのＳＰ２０－１，２０－２が実現される。また、ＳＰＢ２－１，２－２は、監視対象４とバス等の通信線を介して接続される。

　各ＳＰＢ２は、ＭＰＵ（Micro Processing Unit）２ａ，ＲＡＭ（Random Access Memory）２ｂ，ＳＤＲＡＭ（Synchronous Dynamic RAM）２ｃ，ＳＰコントローラ２ｄ，及びＲＯＭ（Read Only Memory）２ｅをそなえる。また、各ＳＰＢ２はさらに、Ｉ２Ｃ（Inter-Integrated Circuit）コントローラ２ｆ，ＦＭＥＭ（Flash Memory）２ｇ，ＮＶＲＡＭ（Non Volatile RAM）２ｈ，シリアルポート２ｉ，ＬＡＮ（Local Area Network）アダプタ２ｊ，及びＬＡＮポート２ｋをそなえる。

　ＭＰＵ２ａは、種々の制御や演算を行なう処理装置（プロセッサ）であり、ＮＶＲＡＭ２ｈや図示しないＲＯＭ等に格納されたプログラムを実行することにより、ＳＰＢ２における種々の機能を実現する。本実施形態においては、ＭＰＵ２ａは、ＮＶＲＡＭ２ｈが保持する監視プログラムを実行することで、ＳＰ２０として監視対象４の監視及び制御を実行する。なお、ＭＰＵ２ａの機能は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路や、ＣＰＵ（Central Processing Unit）等の処理装置により実現されても良い。

　ＲＡＭ２ｂは、種々のデータやプログラムを一時的に格納する記憶装置であって、ＭＰＵ２ａがプログラムを実行する際に、データやプログラムを一時的に格納・展開して用いる。ＮＶＲＡＭ２ｈは、ＳＰ２０としての機能をＭＰＵ２ａに実行させる監視プログラム（例えばファームウェア）を保持する。
　ＳＤＲＡＭ２ｃは、ＳＰ２０による監視対象４の制御に係る各種情報を保持する記憶装置であり、ＳＰ２０によりデータベース（ＤＢ）として用いられる。

　ＳＰコントローラ２ｄ及びＩ２Ｃコントローラ２ｆは、それぞれ、ＳＰＢ２を監視対象４と接続して、監視対象４の監視や制御等のアクセスを制御するものであり、これらのコントローラ２ｄ及び２ｆとしては、例えばインタフェースコントローラが挙げられる。なお、ＳＰコントローラ２ｄは、例えばＳＰＢ２が起動したとき等、アクセス制御を開始するときに、ＲＯＭ２ｅに格納された初期設定の情報を読み出して初期化を行なう。

　例えば、各ＳＰＢ２のＳＰコントローラ２ｄは、制御バス１ａを介してｎ個のＳＢ６のＳＢコントローラ６ｃとそれぞれ接続され、ＳＢ６との間で監視及び制御に係るデータやコマンド等の送受信を行なう。また、各ＳＰＢ２のＩ２Ｃコントローラ２ｆは、Ｉ２Ｃバス１ｂを介してＳＥＮＢ５，ファンＢＰ７１（ファン７２），及びＰＳＵＢＰ８１（ＰＳＵ８２）とそれぞれ接続され、これらの監視対象４との間で監視及び制御に係るデータやコマンド等の送受信を行なう。

　ＦＭＥＭ２ｇは、ＳＰ２０のファームアップデータを保持する。シリアルポート２ｉは、ＳＰＢ２を他の装置とシリアル接続するためのポートであり、例えばＳＰＢ２－１とＳＰＢ２－２とがシリアルポート２ｉを介して、相互に通信可能に接続される。ＬＡＮアダプタ２ｊは、ＳＰＢ２を他の装置等とＬＡＮ経由で接続するためのインタフェースである。ＬＡＮポート２ｋは、ＳＰＢ２を他の装置とＬＡＮ接続するためのポートであり、ＳＰＢ２－１及びＳＰＢ２－２、又は、ＳＰＢ２及び情報処理装置１の外部の装置がＬＡＮポート２ｋを介して、相互に接続される。

　なお、ＲＡＭ２ｂ，ＳＤＲＡＭ２ｃとしては、他の揮発性メモリが用いられても良く、ＲＯＭ２ｅ，ＦＭＥＭ２ｇ，ＮＶＲＡＭ２ｈとしては、他の不揮発性メモリが用いられても良い。
　ＳＢ６－１～６－ｎは、それぞれ情報処理装置１が提供するサービスを実行するものであり、図示しないキーボードやマウス等の入力装置、又はＬＡＮ等のネットワーク経由で入力された指示に応じて、所定の処理を実行する。

　各ＳＢ６は、複数、例えば４つのＣＰＵ６ａ，ＤＩＭＭ（Dual Inline Memory Module）６ｂ，ＳＢコントローラ６ｃ，ＲＯＭ６ｄ，ＳＲＡＭ（Static RAM）６ｅ，ＦＭＥＭ６ｆ，温度センサ６ｇ，及びＰＯＬ（Point Of Load）６ｈをそなえる。
　各ＣＰＵ６ａは、種々の制御や演算を行なう処理装置（プロセッサ）であり、ＤＩＭＭ６ｂや図示しないＲＯＭ等に格納されたプログラムを実行することにより、ＳＢ６における種々の機能を実現する。本実施形態においては、各ＣＰＵ６ａは、ＤＩＭＭ６ｂが保持するＯＳプログラムを実行することで、それぞれがノードとして機能する。ＤＩＭＭ６ｂは、種々のデータやプログラムを一時的に格納する記憶装置であって、ＣＰＵ６ａがプログラムを実行する際に、データやプログラムを一時的に格納・展開して用いる。なお、ＤＩＭＭ６ｂに替えて、ＳＩＭＭ（Single Inline Memory Module）が用いられても良い。

　ＳＢコントローラ６ｃは、ＳＢ６を各ＳＰＢ２と接続して、ＳＰＢ２への各種要求やＳＰＢ２からのアクセスを制御するものであり、ＳＢコントローラ６ｃとしては、例えばインタフェースコントローラが挙げられる。なお、ＳＢコントローラ６ｃは、例えばＳＢ６が起動したとき等、アクセス制御を開始するときに、ＲＯＭ６ｄに格納された初期設定の情報を読み出して初期化を行なう。例えば、ＳＢコントローラ６ｃは、制御バス１ａを介して２つのＳＰＢ２のＳＰコントローラ２ｄとそれぞれ接続され、ＳＰＢ２との間で監視及び制御に係るデータやコマンド等の送受信を行なう。ＳＲＡＭ６ｅ及びＦＭＥＭ６ｆは、ＳＢコントローラ６ｃによって用いられる記憶装置であり、ＳＢコントローラ６ｃの設定情報等を保持する。

　温度センサ６ｇは、ＳＢ６周辺の温度を測定するデバイスであり、ＳＢ６の１以上の個所に接触又は非接触で設けられる。ＰＯＬ６ｈは、ＳＢ６のＣＰＵ６ａ，ＳＢコントローラ６ｃ，各記憶装置等の電力を消費するデバイスに対して、ＳＢ６の電源である複数のＰＳＵ８２からの電力を変換して供給するデバイスである。
　なお、ＣＰＵ６ａ，ＤＩＭＭ６ｂ，ＳＢコントローラ６ｃ，温度センサ６ｇ，及びＰＯＬ６ｈは、システムバスにより接続される。

　複数のファン７２は、情報処理装置１の冷却装置であり、情報処理装置１内の１以上の個所に設けられ、ＳＰ２０によりファンＢＰ７１を介して回転数等が監視及び制御される。複数のＰＳＵ８２は、情報処理装置１の外部から供給される電力を情報処理装置１内に供給する電源装置であり、ＳＰ２０によりＰＳＵＢＰ８１を介して各ＰＳＵ８２の稼働状況や電力の供給先の設定等が監視及び制御される。

　ＳＥＮＢ５は、情報処理装置１の状態を測定し保持するユニットであり、例えばＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）３及び温度センサ５１をそなえる。温度センサ５１は、情報処理装置１の温度を測定するデバイスであり、情報処理装置１内の１以上の個所に接触又は非接触で設けられ、温度の測定結果は、ＳＰ２０による監視対象４の故障等の判断に用いられる。

　ＥＥＰＲＯＭ３は、温度センサ５１の設定情報等を保持する不揮発性メモリである。また、ＥＥＰＲＯＭ３は、図４に示すように、リセット因子フィールド３Ａ，チェックサムフィールド３Ｂ，及びシステム情報フィールド３Ｃの領域をそなえ、本実施形態に係る保持部として用いられる。なお、保持部としてのＥＥＰＲＯＭ３は、ＳＥＮＢ５内にそなえられなくても良く、情報処理装置１の内部或いは外部にそなえられても良い。

　　　〔１－２－２〕情報処理装置の詳細な機能構成例
　次に、情報処理装置１の詳細な機能構成例について図４を参照して説明する。
　図４に示すように、ＳＢＰ２－１，２－２により実現されるＳＰ２０－１，２０－２は、互いに通信可能に接続されるとともに、冗長化（二重化）されており、一方がアクティブ側として監視対象４の監視及び制御を実行し、他方がスタンバイ側として待機する。なお、スタンバイ側のＳＰ２０は、アクティブ側のＳＰ２０の動作を監視し、記憶部２６（例えばＳＤＲＡＭ２ｃ）に対して更新が行なわれると、シリアル接続又はＬＡＮ経由で同期処理を行ない、自身のＤＢをアクティブ側のＳＰ２０のＤＢの内容と同期する。

　また、アクティブ側のＳＰ２０で故障が検出された場合、或いは故障等により停止した場合、スタンバイ側のＳＰ２０は、故障したＳＰ２０の動作を引き継ぎ（つまりアクティブに切り替わり）監視対象４の制御を行なう。なお、ＳＰ２０の故障が検出された場合、ＳＰ２０は、図示しないモニタ等の出力装置、或いはシリアル接続又はＬＡＮ経由で接続された他の情報処理装置に対して、故障が検出されたことを通知する。例えば保守担当者等の作業者は、この通知に応じて、故障していないＳＰ２０に監視対象４の制御を継続させたまま、つまり監視対象４の動作を継続させたまま、故障したＳＰ２０のＳＰＢ２の活性交換を行なうことができる。

　ここで、保持部としてのＥＥＰＲＯＭ３について説明する。
　図５は、本実施形態に係る保持部３がそなえるリセット因子フィールド３Ａ及びチェックサムフィールド３Ｂ内のデータ構造の一例を示す図であり、図６は、保持部３がそなえるシステム情報フィールド３Ｃ内のデータ構造の一例を示す図である。
　図４及び図５に示すように、リセット因子フィールド（第１領域）３Ａは、ＳＰ２０に関する情報が設定される領域であり、リセット因子フィールド３Ａには、リセット因子３１及びＳＰ状態情報３４が設定される。

　リセット因子（種別情報）３１は、ＳＰ２０の各々が停止処理に応じて停止されるときの停止の種別を示す情報であり、リセット因子３１には、“Clear Reset”（デフォルト値），“Preserved Reset”，及び“Replace Reset”等が含まれる。“Clear Reset”は、ＳＰ２０を含む監視対象４（情報処理装置１）全体の正常な電源オフ、つまりシャットダウンを示す停止の種別である。“Preserved Reset”は、ＳＰ２０に対する再起動によるＳＰ２０の正常な電源オフを示す停止の種別である。“Replace Reset”は、例えばＳＰＢ２の故障が検出され、ＳＰ２０を活性交換するために行なわれたＳＰ２０の正常な電源オフを示す停止の種別である。

　ＳＰ状態情報（状態情報）３４は、ＳＰ２０の状態を示す情報であり、図５に示すように、ＳＰ状態情報３４には、ＳＰＢ番号，ＳＰＢステータス，ＳＰＢエラー情報，ＳＰＢアドレス，二重化ステータス，及びＤＢ初期化情報等が含まれる。
　ＳＰＢ番号は、複数のＳＰＢ２を特定する情報であり、ＳＰＢ番号としては、例えばＳＰＢ２が取り付けられた情報処理装置１内のスロットの番号等が挙げられる。ＳＰＢステータスは、ＳＰＢ２の起動又は停止処理の進捗状況を示す情報であり、例えば起動及び停止処理における段階ごとにビットが割り当てられた所定長のデータである。ＳＰ２０は、起動又は停止処理において、各段階が完了するごとに対応するビットの値を変更することで、例えば全ての起動処理が完了したときは全ビットが“１”に、全ての停止処理が完了したときには全ビットが“０”になる。なお、起動及び停止処理における段階としては、例えばＳＰＢ２のハードウェア初期化処理，起動完了（運用状態）等が挙げられる。

　なお、起動処理は、ＳＰＢ２に電力が供給され、ＳＰ２０が立ち上がった後に、後述する起動処理部２２によって実行される処理であり、監視対象４の制御が行なえる状態（運用状態）にＳＰ２０を設定する処理である。また、停止処理は、運用状態において、図示しない入力装置や他の情報処理装置、或いはＳＢ６等（以下、入力装置等という）から停止の指示（要求）を受けて実行される、ＳＰ２０を正常に停止させる処理であり、指示（要求）に応じてＳＰＢ２単体や情報処理装置１全体を停止させる処理である。

　ＳＰＢエラー情報は、ＳＰ２０によりＳＰＢ２において故障が検出した場合に設定される情報であり、ＳＰＢエラー情報としては、故障が検出された部品や故障の程度を示す情報等が挙げられる。なお、ＳＰ２０によるＳＰＢ２の故障の検出は、既知の種々の手法により行なうことが可能であり、その詳細な説明は省略する。ＳＰＢアドレスは、ＳＰＢ２のアドレス、例えばＭＡＣ（Media Access Control address）アドレスである。ＳＰＢアドレスの値は、例えばＳＢＰ２のＭＡＣアドレスの変更に応じて変更される。二重化ステータスは、二重化されたＳＰ２０がアクティブ（Active）かスタンバイ（Standby）かを示す情報である。ＤＢ初期化情報は、ＤＢとして用いられるＳＤＲＡＭ２ｃが初期化されたか否かを示す情報である。

　チェックサムフィールド（第２領域）３Ｂは、リセット因子フィールド３Ａのチェックサム３２が設定される領域である。チェックサム（誤り検出情報）３２は、リセット因子３１の誤りを検出するための情報であり、リセット因子フィールド３Ａの各情報（リセット因子３１及びＳＰ状態情報３４）に基づいて算出される。
　システム情報フィールド（第３領域）３Ｃは、監視対象４を動作継続させるための情報であるシステム情報３３が設定される領域である。システム情報（起動情報，制御情報）３３は、ＳＰ２０が監視対象４の制御を行なうための情報のバックアップであるとともに、各ＳＰ２０の起動処理に係る起動情報である。例えば、各ＳＰ２０は、起動処理においてシステム情報フィールド３Ｃに設定されたシステム情報３３を取得することで、ＳＰ２０自身がシステム情報３３を保持していなくても、起動処理の完了後、運用状態において監視対象４に係る制御を行なうことができる。

　図６に示すように、システム情報３３には、構成情報，故障部品情報，トレース情報，及びログ情報が含まれる。構成情報は、例えば情報処理装置１内に搭載されているデバイスの情報等、システムの構成を示す情報である。故障部品情報は、監視対象４である部品（デバイス）の故障情報であり、部品ごとに“正常”，“実装”，“未実装”，“故障”等の状態が設定される。トレース情報は、ＳＰ２０（ＳＰＢ２）が故障する直前までのＳＰ２０におけるトレースの情報である。ログ情報は、故障が検出された監視対象４の部品に関する故障の詳細情報である。

　次に、ＳＰ２０について説明する。
　ＳＰ２０－１，２０－２は、それぞれ判定部２１，起動処理部２２，停止処理部２３，ＳＰ情報設定部２４，監視情報設定部２５，及び記憶部２６をそなえる。
　記憶部２６は、監視対象４を動作継続させるための情報であるシステム情報３３及びＳＰ２０の状態を示す情報であるＳＰ状態情報３４を保持するものであり、ＳＰ２０におけるデータベース（ＤＢ）として用いられる。記憶部２６が保持するシステム情報３３は、ＳＰ２０による監視対象４の制御に用いられる。なお、記憶部２６が保持する各情報は、情報処理装置１の構成が変更されたり、ＳＰ２０（ＳＰＢ２）や監視対象４で故障が検出される都度、ＳＰ２０により設定（更新）される。記憶部２６としては、上述したＳＤＲＡＭ２ｃ（図３参照）が挙げられる。

　ＳＰ情報設定部（第２設定部）２４は、ＳＰ２０の状態の変化を検出する都度、ＳＰ状態情報３４の更新データを記憶部２６に設定（更新）するとともに、記憶部２６に設定したものと同じデータをＥＥＰＲＯＭ３のリセット因子フィールド３Ａに設定（更新）する。
　監視情報設定部（第３設定部）２５は、監視対象４を制御するための情報の変化を検出する都度、システム情報３３の更新データを記憶部２６に設定（更新）するとともに、記憶部２６に設定したものと同じデータをＥＥＰＲＯＭ３に設定（更新）する。

　停止処理部（第１設定部）２３は、指示（要求）に応じてＳＰ２０の上述した停止処理を実行するものである。また、停止処理部２３は、ＳＰ２０が停止処理に応じて停止される場合に、停止処理に係るリセット因子３１をＥＥＰＲＯＭ３のリセット因子フィールド３Ａに設定（保存）する。さらに、停止処理部２３は、ＥＥＰＲＯＭ３のリセット因子フィールド３Ａに設定された情報に基づきチェックサム（第１のチェックサム，第１の誤り検出情報）３２を取得（算出）する。そして、停止処理部２３は、算出したチェックサム３２をＥＥＰＲＯＭ３のチェックサムフィールド３Ｂに設定（保存）する。

　例えば、停止処理部２３は、リセット因子フィールド３Ａ全体を下位４バイト（Byte）ずつ加算することによりチェックサム３２を算出する。なお、停止処理部２３は、例えばリセット因子フィールド３Ａ全体について、ＣＲＣ（Cyclic Redundancy Check）やハッシュを求めることにより、チェックサム３２を算出しても良い。
　判定部２１は、起動したときに複数のＳＰ２０のうちの他のＳＰ２０が停止状態の場合、例えば全てのＳＰ２０が停止した状態で自身のＳＰ２０が立ち上がった場合、ＥＥＰＲＯＭ３が保持するリセット因子３１とチェックサム３２とに基づいて、前回の停止の種別を判定する。

　なお、起動したときとは、例えばＳＰＢ２のＭＰＵ２ａに電力が供給（電源オン）され、ＭＰＵ２ａが判定部２１として動作可能になったときであって良い。
　具体的には、判定部２１は、起動したときに他のＳＰ２０が停止状態の場合、ＥＥＰＲＯＭ３のリセット因子フィールド３Ａに設定された情報に基づきチェックサム（第２のチェックサム，第２の誤り検出情報）３２を取得（算出）する。なお、判定部２１によるチェックサム３２の算出手法は、上述した停止処理部２３による算出手法と同様である。そして、判定部２１は、ＥＥＰＲＯＭ３のリセット因子フィールド３Ａに設定されたリセット因子３１と、チェックサムフィールド３Ｂに設定された第１のチェックサム３２と、起動したときに判定部２１が取得した第２のチェックサム３２と、に基づいて、前回の停止の種別を判定する。つまり、判断部２１は、リセット因子３１とともに、ＣＲＣ等によるデータの整合性チェックによってリセット要因を判断する。

　例えば、判定部２１は、リセット因子３１が活性交換を示す“Replace Reset”の場合、又は、第１のチェックサム３２と第２のチェックサム３２とが異なる、つまりチェックサムエラーが検出された場合に、前回の停止の種別が、ＳＰ２０の交換を伴う停止の種別であると判定する。また、判定部２１は、第１及び第２のチェックサム３２が一致する、つまりチェックサムエラーが未検出の場合には、リセット因子３１が正しいと判断し、前回の停止の種別はリセット因子３１が示す種別であると判定する。

　また、判定部２１は、判定した前回の停止の種別を用いて、ＥＥＰＲＯＭ３が保持するリセット因子３１を更新する。なお、このとき、判定部２１は、チェックサム３２の算出及びチェックサムフィールド３Ｂへの設定は行なわない。
　上述のように、判定部２１は、リセット因子３１，第１のチェックサム３２，並びにリセット因子３１とＳＰ状態情報３４とから算出した第２のチェックサム３２に基づいて、前回の停止の種別、つまり真のリセット要因を判定する。以下、リセット因子３１，チェックサム３２，及びＳＰ情報設定部２４は、前回の停止の種別を求めるための情報であるため、これらをまとめてリセット要因３０という場合がある。

　なお、起動したときにＳＰ情報設定部２４がＳＰ２０の状態の変化を検出した場合、判定部２１は、ＳＰ情報設定部２４がＳＰ状態情報３４をリセット因子フィールド３Ａに設定した後に、前回の停止の種別の判定を開始する。
　また、判定部２１は、起動したときに他のＳＰ２０が運用状態の場合、判定を行なわず、起動処理部２２に通知する。

　起動処理部（処理部）２２は、判定部２１による判定結果に応じて、ＥＥＰＲＯＭ３が保持するシステム情報３３を用いてＳＰ２０の上述した起動処理を行なう。
　例えば、起動処理部２２は、判定部２１による判定結果がＳＰ２０の交換（活性交換）を伴う停止の種別である場合に、ＳＰＢ２を初期化するとともに、ＥＥＰＲＯＭ３からシステム情報３３を取得してＳＰ２０の記憶部２６に設定する。つまり、起動処理部２２は、判定結果が活性交換を示す種別である場合、ＳＰＢ２活性交換前にＥＥＰＲＯＭ３に保存されたシステム情報３３を引き継ぐのである。

　また、起動処理部２２は、判定結果が監視対象４全体の電源オフを示す種別である場合、つまり監視対象４の電源オフ後１回目の電源オンにより起動したとき、各種制御を行なうため、監視対象４（情報処理装置１）の構成（各監視対象部品）の実装状態を認識する。また、起動処理部２２は、実装状態であると認識した全ての監視対象部品、例えばＳＰＢ２，ＳＥＮＢ５，ＳＢ６（ＣＰＵ６ａ，ＤＩＭＭ６ｂ等），ＦＡＮ７２，ＰＳＵ８２等に対して初期化を行なう。さらに、起動処理部２２は、初期化した各部品に対して、処理を継続するための条件を満たしているかを判定する。

　そして、起動処理部２２は、監視対象４から取得して各ＳＰ２０の記憶部２６に保持されたシステム情報３３、例えば各部品のステータスやアラーム情報等を、ＥＥＰＲＯＭ３のシステム情報フィールド３Ｃに設定する。なお、起動処理部２２は、例えば故障部品がない場合には、システム情報３３のうちのログ情報等は送信しない。
　さらに、起動処理部２２は、判定結果がＳＰ２０の再起動による電源オフを示す種別である場合に、ＳＰＢ２を初期化する。この場合、システム情報３３は、ＳＰ２０の記憶部２６に保持されているため、ＳＰ２０は、起動処理完了後に、記憶部２６に保持されたシステム情報３３を用いて監視対象４の制御を実行することができる。なお、ＳＰ２０の再起動による電源オフでは、記憶部２６であるＳＤＲＡＭ２ｃ等に供給される電力が止まるわけではないため、システム情報３３やＳＰ状態情報３４を記憶部２６に維持しておくことができる。

　なお、起動処理部２２によるハードウェアの初期化の処理では、各部品のチップやレジスタ等の設定が行なわれる。
　また、起動処理部２２は、判定結果が“Clear Reset”，“Preserved Reset”，及び“Replace Reset”のいずれにも該当しない場合、活性交換後のＳＰＢ２又はＳＥＮＢ５（ＥＥＰＲＯＭ３）が故障している可能性が高いと判断する。この場合、ＳＰ２０は、図示しないモニタ等の出力装置、或いはシリアル接続又はＬＡＮ経由で接続された他の情報処理装置に対して、故障が検出されたことを通知する。

　なお、起動処理部２２は、判定部２１から他のＳＰ２０が運用状態であると通知された場合、又は、起動処理において他のＳＰ２０が運用状態の場合、ＳＰＢ２を初期化して、システム情報３３を運用状態のＳＰ２０からＬＡＮ経由で取得する。
　　　〔１－２－３〕チェックサムについて
　ここで、判定部２１による判定において、第１のチェックサム３２と第２のチェックサム３２とがどのような場合に異なるかを、図７及び図８を参照して説明する。図７は、本実施形態に係る保持部３がそなえるリセット因子フィールド３Ａ及びチェックサムフィールド３Ｂ内の、ＳＰ２０が最後に正常な停止処理を行なったときのデータの一例を示す図であり、図８は、リセット因子フィールド３Ａ及びチェックサムフィールド３Ｂ内の、ＳＰ２０が活性交換後に起動したときのデータの一例を示す図である。

　上述の如く、ＳＰ２０が、正常に停止処理が行なわれずに異常終了すると、前回の停止の種別はＥＥＰＲＯＭ３のリセット因子３１に設定されない。そこで、判定部２１は、ＥＥＰＲＯＭ３に最後に設定されたチェックサム（第１のチェックサム）３２と、ＳＰ２０が起動したときに取得したチェックサム（第２のチェックサム）３２とにより、チェックサムエラーの有無を判断することで、リセット因子３１が正しいか否かを判断する。

　図７に示すように、ＳＰ２０が最後に正常な停止処理を行なったときの第１のチェックサム３２は、Ａで示される変更前の値に基づき取得され、チェックサムフィールド３Ｂに設定されている。一方、図８に示すように、ＳＰ２０が活性交換後に起動したときの第２のチェックサム３２は、Ａ′で示される変更後の値に基づき取得されている。従って、判定部２１は、図７及び図８に示すように、第１のチェックサム３２と第２のチェックサム３２とに基づきチェックサムエラーを検出することができる。

　例えば、Ａ，Ａ′がＳＰＢ番号である場合について説明する。ＳＰ２０において故障が発生して異常終了し、活性交換によりＳＰＢ２が搭載されたスロットが変更した場合、ＳＰ情報設定部２４は、起動処理において活性交換に係るＳＰＢ２のＳＰＢ番号の変化を検出する。そして、ＳＰ情報設定部２４は、ＥＥＰＲＯＭ３のＳＰ状態情報３４に対して変更後のＳＰＢ番号を設定する。つまり、第１のチェックサム３２は、変更前のＳＰＢ番号に基づいて設定される一方、第２のチェックサム３２は、変更後のＳＰＢ番号に基づいて取得される。従って、判定部２１は、チェックサムエラーを検出することができる。

　また、例えば、Ａ，Ａ′がＳＰＢステータスである場合について説明する。ＳＰ情報設定部２４は、ＳＰＢステータスについて、起動処理の各段階が完了するごとに対応するビットの値を例えば“１”に変更することで、運用状態のときに全てのビットを“１”にする。一方、ＳＰＢ２の停止処理が行われる場合、ＳＰ状態情報３４は、各段階の停止処理が完了するごとに対応するビットの値を例えば“０”に変更することで、ＳＰ２０の停止処理が完了したときに全てのビットを“０”にする。つまり、第１のチェックサム３２は、全てのビットが“０”のＳＰＢステータスに基づいて設定される。一方、ＳＰ２０の運用状態で故障が発生して異常終了した場合、ＳＰＢステータスは全てのビットが“１”のままであるため、第２のチェックサム３２は、全てのビットが“１”のＳＰＢステータスに基づいて取得されることになる。従って、判定部２１は、チェックサムエラーを検出することができるのである。

　さらに、例えば、Ａ，Ａ′がＳＰＢエラー情報である場合について説明する。ＳＰ２０において故障が発生して異常終了する際に、ＥＥＰＲＯＭ３にはＳＰＢエラー情報としてＳＰに発生した故障の情報が設定されるが、第１のチェックサム３２は、その前に正常に停止処理が行なわれたときのＳＰＢエラー情報に基づいて設定される。一方、活性交換によりＳＰ２０が起動したとき、ＳＰＢ２の初期化がまだ行なわれていないため、記憶部２６内のＳＰＢエラー情報は更新されておらず、第２のチェックサム３２は、異常終了した際のＳＰＢエラー情報に基づいて取得される。従って、判定部２１は、チェックサムエラーを検出することができるのである。

　　〔１－３〕監視装置の動作例
　次に、上述の如く構成された本実施形態に係る監視装置１０（図３及び図４参照）の動作例を、図９～図１８を参照して説明する。
　　　〔１－３－１〕停止処理
　はじめに、停止処理の動作例を図９～図１１を参照して説明する。図９～図１１は、本実施形態に係る停止処理部２３によるＳＰ停止処理の手順の一例を示すフローチャートであり、図９はＳＰ活性交換，図１０は監視対象４の電源オフ，図１１はＳＰ２０の再起動における停止処理である。

　図９に示すように、ＳＰ２０が、使用者等から入力装置等を介してＳＰ２０の交換作業開始要求を受信すると（ステップＡ１）、停止処理部２３により、リセット因子に“Replace Reset”が設定される（ステップＡ２）。そして、停止処理部２３により、ＥＥＰＲＯＭ３にリセット要因が保存され（ステップＡ３）、ＳＰＢ２の交換が可能な状態であることが出力装置等を介して使用者等に通知されて（ステップＡ４）、ＳＰ２０の停止処理が終了する。

　また、図１０に示すように、ＳＰ２０が、使用者等から入力装置等を介して監視対象４の電源オフに伴うＳＰ２０の停止処理要求を受信すると（ステップＢ１）、停止処理部２３により、リセット因子にデフォルト値“Clear Reset”が設定される（ステップＢ２）。そして、停止処理部２３により、ＥＥＰＲＯＭ３にリセット要因が保存され（ステップＢ３）、ＳＰ２０が停止（電源オフ）されて（ステップＢ４）、監視対象４の電源オフに伴うＳＰ２０の停止処理が終了する。

　さらに、図１１に示すように、ＳＰ２０が、使用者等から入力装置等を介してＳＰ２０の再起動処理要求を受信すると（ステップＣ１）、停止処理部２３により、リセット因子に“Preserved Reset”が設定される（ステップＣ２）。そして、停止処理部２３により、ＥＥＰＲＯＭ３にリセット要因が保存され（ステップＣ３）、ＳＰ２０が再起動されて（ステップＣ４）、ＳＰ２０の停止処理が終了する。

　　　〔１－３－２〕ＳＰ起動後の処理
　次に、ＳＰ２０の起動後の動作例を図１２～図１６を参照して説明する。図１２は、本実施形態に係る監視装置１０によるＳＰ起動後の処理の手順の一例を示すフローチャートである。また、図１３～図１６は、それぞれ、ＳＰ２０が活性交換された場合，監視対象４の電源が入った場合，ＳＰ２０が再起動した場合，ＳＥＮＢ５又は交換したＳＰ２０が故障した場合におけるＳＰ起動後の処理の手順の一例を示すシーケンス図である。

　なお、以下の説明において、ステップの符号がＡで始まるものは図１３，Ｂで始まるものは図１４，Ｃで始まるものは図１５，Ｄで始まるものは図１６に示すステップである。
　図１２に示すように、ＳＰ２０が起動すると（ステップＳ１；ステップＡ１２，Ｂ１１，Ｃ１１，Ｄ２）、判定部２１により、他系のＳＰ２０が故障又は停止しているか否かが判定される（ステップＳ２；ステップＡ１３，Ｂ１２，Ｃ１２，Ｄ３）。なお、ステップＳ１におけるＳＰ２０の起動は、例えばステップＡ１１，Ｄ１においてＳＰ２０の故障が発生した場合、故障したＳＰ２０の活性交換後の起動となる。

　ステップＳ２において、他系のＳＰが停止又は故障している場合（ステップＳ２のＹｅｓルート）、判定部２１により、リセット要因３０が採取される（ステップＳ３；ステップＡ１４，Ｂ１３，Ｃ１３，Ｄ４）。そして、判定部２１により、取得したリセット因子３１が“Replace Reset”であるか、又はチェックサムエラーが検出されたか否かが判定される（ステップＳ４）。

　リセット因子３１が“Replace Reset”である、又はチェックサムエラーが検出された場合（ステップＳ４のＹｅｓルート；ステップＡ１５）、判定部２１により、前回の停止の種別が“Replace Reset”であると判定される（ステップＡ１６）。そして、判定部２１により、ＥＥＰＲＯＭ３のリセット因子３１に、前回の停止の種別（リセット要因）、つまり“Replace Reset”が上書きされる（ステップＳ５；ステップＡ１７）。また、起動処理部２２により、ＳＰＢ２のハードウェアの初期化が行なわれ（ステップＳ６；ステップＡ１８）、ＥＥＰＲＯＭ３からシステム情報３３が採取されて（ステップＳ７；ステップＡ１９）、ＳＰ２０の起動が完了する（ステップＳ８；ステップＡ２０）。

　一方、ステップＳ４において、リセット因子３１が“Replace Reset”でなく、チェックサムエラーも未検出の場合（ステップＳ４のＮｏルート；ステップＢ１４，Ｃ１４，Ｄ５）、判定部２１により、リセット因子３１がデフォルト値“Clear Reset”であるか否かが判定される（ステップＳ９）。リセット因子３１が“Clear Reset”である場合（ステップＳ９のＹｅｓルート；ステップＢ１５）、判定部２１により、前回の停止の種別が“Clear Reset”であると判定され（ステップＢ１６）、ＥＥＰＲＯＭ３のリセット因子３１に、“Clear Reset”が上書きされる（ステップＳ１０；ステップＢ１７）。そして、起動処理部２２により、監視対象４の構成が認識されて（ステップＳ１１；ステップＢ１８）、全ての監視対象４のハードウェアの初期化が行なわれる（ステップＳ１２；ステップＢ１９）。また、起動処理部２２により、監視対象４が処理を継続する条件を満たしているか否かが判定され（ステップＳ１３；ステップＢ２０）、採取したシステム情報３３がＥＥＰＲＯＭ３に保存されて（ステップＳ１４；ステップＢ２１）、ＳＰ２０の起動が完了する（ステップＳ１５；ステップＢ２２）。

　また、ステップＳ９において、リセット因子３１が“Clear Reset”でない場合（ステップＳ９のＮｏルート；ステップＣ１５，Ｄ６）、判定部２１により、リセット因子３１が“Preserved Reset”であるか否かが判定される（ステップＳ１６）。リセット因子３１が“Preserved Reset”である場合（ステップＳ１６のＹｅｓルート；ステップＣ１６）、判定部２１により、前回の停止の種別が“Preserved Reset”であると判定され（ステップＣ１７）、ＥＥＰＲＯＭ３のリセット因子３１に、“Preserved Reset”が上書きされる（ステップＳ１７；ステップＣ１８）。そして、起動処理部２２により、ＳＰＢ２のハードウェアの初期化が行なわれ（ステップＳ１８；ステップＣ１９）、ＳＰ２０の起動が完了する（ステップＳ１９；ステップＣ２０）。

　さらに、ステップＳ１６において、リセット因子３１が“Preserved Reset”でない場合（ステップＳ１６のＮｏルート；ステップＤ７）、起動処理部２２により、ＳＥＮＢ５（ＥＥＰＲＯＭ３）又は活性交換後の交換部材であるＳＰＢ２が故障している可能性が高いと判断される。そして、起動処理部２２により、使用者等にハードウェアの交換が要求され（ステップＳ２０；ステップＤ８）、処理が終了する。

　また、ステップＳ２において、他系のＳＰ２０が故障又は停止していない場合（ステップＳ２のＮｏルート）、起動処理部２２により、他系のＳＰ２０とシステム情報３３等のデータが同期される（ステップＳ２１）。また、起動処理部２２により、ＳＰＢ２のハードウェアの初期化が行なわれ（ステップＳ２２）、ＳＰ２０の起動が完了する（ステップＳ２３）。

　　　〔１－３－３〕運用状態のＳＰに故障が発生した場合の処理
　次に、運用状態のＳＰ２０に故障が発生した場合の動作例を図１２，図１７，及び図１８を参照して説明する。図１７及び図１８は、それぞれ、本実施形態に係る運用状態のＳＰに故障が発生した場合の監視装置１０による処理の手順の一例を示すシーケンス図，フローチャートである。なお、以下の説明において、ステップの符号がＳで始まるものは図１２，Ｅで始まるものは図１８に示すステップである。

　図１７に示すように、ＳＰ２０－１（ＳＰ＃０）がアクティブ、ＳＰ２０－２（ＳＰ＃１）がスタンバイの状態である監視装置１０において、ＳＰ２０－１が起動すると、ＳＰ２０－１の判定部２１により、ＥＥＰＲＯＭ３からＩ２Ｃバス１ｂ経由でリセット要因３０が取得される（ステップＴ１；ステップＳ３）。
　そして、ＳＰ２０－１の判定部２１及び起動処理部２２により、ＳＰ２０－１の起動処理が実行される（ステップＴ２）。なお、図１７に示す例では、ステップＴ２において、判定部２１によりリセット要因が“Clear Reset”と判定され、監視対象４が電源オンになった場合の起動処理（ステップＳ４，Ｓ９～Ｓ１３，Ｅ３１～Ｅ３４）が実行される。

　また、アクティブ側のＳＰ２０－１でＤＢ（ＳＤＲＡＭ２ｃ）への書き込み処理が発生する度に、ＳＰ２０間のＳＰ二重化ＬＡＮ／シリアル経由でスタンバイ側のＳＰ２０－２のＤＢと同期処理が行なわれる（ステップＴ３；ステップＥ３５）。次いで、各ＳＰ２０内の監視情報設定部２５により、システム情報３３がＩ２Ｃバス１ｂ経由でＥＥＰＲＯＭ３に保存される（ステップＴ４；ステップＳ１４，Ｅ３６）。

　ここで、アクティブ側のＳＰ２０－１で故障が発生し（ステップＴ５）、ＳＰ２０－１がオフライン（停止）になったとする。スタンバイ側ＳＰ２０－２は、定期的にＳＰ二重化ＬＡＮ／シリアル経由でアクティブ側のＳＰ２０－１の生存確認を行なっており、生存が確認できない際には、二重化の切り替えを行ない、自身がアクティブ側のＳＰ２０に切り替わる処理を行なう（ステップＴ６；ステップＥ３７，Ｅ３８）。

　なお、ＳＰ２０がオフラインになった場合、各ＳＢ６の各ノードに対して割り込みによってオフラインが通知され、各ノードからのＳＰ２０へのアクセスは抑止される。
　ここで、アクティブ側になったＳＰ２０－２で故障が発生すると（ステップＴ７）、ＳＰ２０－２がオフラインになる。一方、ＳＰ２０－１ではＳＰＢ２－１の活性交換が行なわれ（ステップＴ８）、ＳＰ２０－１が起動すると、ＥＥＰＲＯＭ３からＩ２Ｃバス１ｂ経由でリセット要因３０が取得される（ステップＴ９；ステップＳ３）。

　そして、ＳＰ２０－１の判定部２１及び起動処理部２２により、ＳＰ２０－１の起動処理が実行される（ステップＴ１０）。なお、図１７に示す例では、ステップＴ１０において、判定部２１によりリセット要因が“Replace Reset”と判定され、ＳＰＢ２－１が活性交換された場合の起動処理（ステップＳ４～Ｓ６，Ｅ３９，Ｅ４０）が実行される。
　また、ＳＰ２０－１の起動処理部２２により、システム情報３３がＥＥＰＲＯＭ３から採取される（ステップＴ１１；ステップＳ７，Ｅ４１）。

　さらに、ＳＰ２０－２ではＳＰＢ２－２の活性交換が行なわれ（ステップＴ１２）、起動したＳＰ２０－２により、ＳＰ２０の二重化同期が行なわれて、ＳＰ２０－１からシステム情報３３が採取される（ステップＴ１３；ステップＳ２２）。そして、ＳＰ２０－２の起動処理部２２により、ＳＰＢ２－２のハードウェアの初期化が行なわれ（ステップＴ１４；ステップＳ２３）、処理が終了する。

　　〔１－４〕まとめ
　上述したように、本実施形態に係る監視装置１０（図３及び図４参照）によれば、上述した図１に係る監視装置１０と同様の効果を奏することができる。
　ここで、本実施形態に係る監視装置１０による、前回の停止の種別に応じた監視対象４の動作継続の有無について、図１９を参照して説明する。図１９は、本実施形態に係る監視装置１０における前回の停止の種別に応じた状態マトリクスを示す図である。

　図１９に示すように、停止の種別（１）～（４）は、それぞれＳＰ２０が単体（一重化）の状態であり、スタンバイの状態のＳＰ２０は存在しないため、全て“－”としている。また、停止の種別（５）は二重化の状態であり、スタンバイの状態のＳＰ２０は有“○”としている。
　停止の種別（１），（３），（５）は、監視対象４の停止が発生しないため、監視対象４の動作継続を有効“○”としている。また、停止の種別（４）の場合は、ＥＥＰＲＯＭ３への書き込みさえできない状況であるため、ＳＰ２０を不用意に立ち上げることなくバックアップシステムへの切り替えを使用者等に指示した後に停止させ、ＳＥＮＢ５と交換部材であるＳＰＢ２の交換を行なう。

　なお、停止の種別（１）は、ＳＰ２０が一重化の状態でＳＰ２０の故障又は停止を判定してＳＰＢ２の活性交換を行なう場合であり、停止の種別（２）は、ＳＰ２０が一重化の状態で監視対象４の電源オンを判定してＳＰ２０が起動する場合である。また、停止の種別（３）は、ＳＰ２０が一重化の状態でＳＰ２０がＳＰ自身のみをリブート（ＳＰリブート）する場合であり、停止の種別（４）は、ＳＰ２０が一重化の状態でＳＥＮＢ５又は交換部材のＳＰＢ２が故障している場合である。さらに、停止の種別（５）は、ＳＰ２０が二重化の状態でＳＰ２０の故障又は停止を判定してＳＰＢ２の活性交換を行なう場合である。

　次に、各ＳＰがＥＥＰＲＯＭ３を用いず、判定部２１によるリセット要因の判定を行なわない情報処理装置において、運用状態のＳＰに故障が発生した場合のＳＰによる処理の手順の一例を、図２０及び図２１を用いて説明する。
　図２０及び図２１は、それぞれ、運用状態のＳＰに故障が発生した場合のＳＰによる処理の手順の一例を示すシーケンス図，フローチャートである。なお、以下の説明において、ステップの符号がＳで始まるものは図２１に示すステップである。

　図２０に示すように、ＳＰ＃０がアクティブ、ＳＰ＃１がスタンバイの状態であり、ＳＰ＃０が起動すると、ＳＰ＃０による起動処理が実行される（ステップＴ１０１；ステップＳ１０１～Ｓ１０３）。なお、図２０に示す例では、ステップＴ１０１において、監視対象部品の構成認識（ステップＳ１０１），ハードウェア（ＳＰＢ／ＳＢ／ファン／ＰＳＵ／ＳＥＮＢ）の初期化，及び各部品の構成判定（ステップＳ１０３）が行なわれる。

　また、アクティブ側のＳＰ＃０でＤＢへの書き込み処理が発生する度に、ＳＰ間でスタンバイ側のＳＰ＃１のＤＢと同期処理が行なわれる（ステップＴ１０２；ステップＳ１０４）。
　ここで、アクティブ側のＳＰ＃０で故障が発生し（ステップＴ１０３）、ＳＰ＃０がオフライン（停止）になったとする。スタンバイ側ＳＰ＃１は、定期的にアクティブ側のＳＰ＃０の生存確認を行なっており、生存が確認できない際には、二重化の切り替えを行ない、自身がアクティブ側のＳＰに切り替わる処理を行なう（ステップＴ１０４；ステップＳ１０５，Ｓ１０６）。

　また、アクティブ側になったＳＰ＃１で故障が発生すると（ステップＴ１０５）、ＳＰ＃１がオフラインになる。一方、ＳＰ＃０ではＳＰＢの活性交換が行なわれ（ステップＴ１０６）、ＳＰ＃０が起動すると、ＳＰ＃０による起動処理が実行される（ステップＴ１０７）。なお、図２０に示す例では、ステップＴ１０７において、ハードウェア（ＳＰＢ／ＳＢ／ファン／ＰＳＵ／ＳＥＮＢ）の初期化が行なわれる。

　このように、図２０及び図２１に示す例では、監視対象４を制御するための情報をＳＰ＃０自身でのみ保持しているため、図２０のステップＴ１０３において故障停止した場合に、監視対象の動作継続ができない。また、ＳＰ＃０の活性交換後に、前回の停止の種別を判断することができず、ステップＴ１０７において再度監視対象全体のハードウェアの初期化が行なわれており、監視対象に対して与える影響が大きい。

　これに対して、本実施形態に係る監視装置１０によれば、判定部２１による判定結果に応じて、起動処理部２２により監視対象４の動作継続に用いる情報をＥＥＰＲＯＭ３から採取し、引き継ぐ処理を行なうことができる。従って、二重化したＳＰ２０が同時に２つとも故障した場合であっても、監視対象４を動作継続したままＳＰ２０の活性交換を行なうことができる。

　なお、ＳＰ２０を２つ同時に活性交換した後のＳＰ２０の起動において、ＳＰ２０がリセット要因を監視対象４の電源オンによる停止の種別であると誤認識すると、ＳＰ２０の制御対象４の全てのハードウェア（ＳＰＢ２／ＳＢ６／ファン７２／ＰＳＵ８２／ＳＥＮＢ５）が再度初期化されてしまう（図２０のステップＴ１０７参照）。その結果、ＳＢ２０上で動作中のノードが電源断され、さらにＰＯＬ６ｈや温度センサ６ｇ等の異常検出機能も動作しなくなり、監視対象４に重大な影響を与えてしまう。本実施形態に係る監視装置１０によれば、このような監視対象４に重大な影響を与えてしまう事象を回避するために、判定部によりリセット因子３１とチェックサム３２とに基づいて前回の停止の種別を確実に判定することができる。従って、ＳＰ２０は、活性交換後の起動でＥＥＰＲＯＭ３からシステム情報３３を確実に引き継ぐことができる。

　さらに、本実施形態に係る監視装置１０によれば、判定部２１により、起動したＳＰ２０の前回の停止の種別の判定後に、ＥＥＰＲＯＭ３に対してリセット因子３１が書き換えられる。これにより、不意なＳＰ２０の故障が発生した際には、書き換えたリセット因子３１の値によって、チェックサム３２の値が食い違うために、ＳＰ２０の故障を検知することができる。

　〔２〕その他
　以上、本発明の好ましい実施形態について詳述したが、本発明は、かかる特定の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において、種々の変形、変更して実施することができる。
　例えば、上述した一実施形態に係る監視装置１０は、二重化した２つの監視部２０をそなえるものとして説明したが、これに限定されるものではなく、多重化した複数の監視部２０をそなえても良い。

　また、ＳＰ情報設定部２４及び監視情報設定部２５は、ＳＰ状態情報３４及びシステム情報３３の更新の都度、更新データをＥＥＰＲＯＭ３に保存するものとして説明したが、これに限定されるものではない。例えば、ＳＰ情報設定部２４及び監視情報設定部２５は、運用状態における所定のタイミングで、運用状態のＳＰ２０が記憶部２６に保持するＳＰ状態情報３４及びシステム情報３３をＥＥＰＲＯＭ３に設定しても良い。ここで、所定のタイミングとは、例えば一定時間ごとであっても良く、所定の指示（要求）があったとき等が挙げられる。

　さらに、リセット因子３１には“Clear Reset”，“Preserved Reset”，“Replace Reset”が含まれるものとして説明したが、これに限定されるものではなく、監視装置１０や監視対象４の構成，機能等に応じて他の停止の種別が含まれても良い。この場合、起動処理部２２及び停止処理部２３により、他の停止の種別に応じた起動／停止処理が行なわれても良い。

　また、例えば判定部２１は、必要に応じて部分的にリセット因子３１を用いた前回の停止の種別の判定を省略しても良い。
　さらに、上述した判定部２１，起動処理部２２，停止処理部２３，ＳＰ情報設定部２４，及び監視情報設定部２５としての機能を任意の組み合わせで統合又は分散しても良い。
　なお、監視部２０は、上述の如く、判定部２１及び起動処理部２２としての機能をそなえ、さらに、停止処理部２３，ＳＰ情報設定部２４，及び監視情報設定部２５としての機能もそなえても良い。この監視部２０としての機能を実現するためのプログラム（監視プログラム）は、例えばフレキシブルディスク，ＣＤ（ＣＤ－ＲＯＭ，ＣＤ－Ｒ，ＣＤ－ＲＷ等），ＤＶＤ（ＤＶＤ－ＲＯＭ，ＤＶＤ－ＲＡＭ，ＤＶＤ－Ｒ，ＤＶＤ＋Ｒ，ＤＶＤ－ＲＷ，ＤＶＤ＋ＲＷ，ＨＤ　ＤＶＤ等），ブルーレイディスク，磁気ディスク，光ディスク，光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供されても良い。そして、コンピュータは例えば読取装置によりその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。また、そのプログラムを、例えば磁気ディスク，光ディスク，光磁気ディスク等の記憶装置（記録媒体）に記録しておき、その記憶装置から通信回線を介してコンピュータに提供するようにしても良い。

　監視部２０としての機能を実現する際には、内部記憶装置（本実施形態ではＲＡＭ２ｂ，ＳＤＲＡＭ２ｃ，ＦＭＥＭ２ｇ，ＮＶＲＡＭ２ｈ，又は図示しないＲＯＭ）に格納されたプログラムがコンピュータのマイクロプロセッサ（本実施形態ではＭＰＵ２ａ）によって実行される。このとき、記録媒体に記録されたプログラムを例えば読取装置によりコンピュータが読み取って実行するようにしても良い。

　なお、本実施形態において、コンピュータとは、ハードウェアとオペレーティングシステムとを含む概念であり、オペレーティングシステムの制御の下で動作するハードウェアを意味している。また、オペレーティングシステムが不要でアプリケーションプログラム単独でハードウェアを動作させるような場合には、そのハードウェア自体がコンピュータに相当する。ハードウェアは、少なくとも、ＣＰＵ等のマイクロプロセッサと、記録媒体に記録されたコンピュータプログラムを読み取るための手段とをそなえており、本実施形態においては、監視装置１０（ＳＰＢ２）がコンピュータとしての機能を有しているのである。

　１　　情報処理装置
　１ａ　　制御バス
　１ｂ　　Ｉ２Ｃバス
　２，２－１，２－２　　サービスプロセッサボード
　２ａ　　ＭＰＵ
　２ｂ　　ＲＡＭ
　２ｃ　　ＳＤＲＡＭ
　２ｄ　　ＳＰコントローラ
　２ｅ，６ｄ　　ＲＯＭ
　２ｆ　　Ｉ２Ｃコントローラ
　２ｇ，６ｆ　　フラッシュメモリ
　２ｈ　　ＮＶＲＡＭ
　２ｉ　　シリアルポート
　２ｊ　　ＬＡＮアダプタ
　２ｋ　　ＬＡＮポート
　２０，２０－１，２０－２　　サービスプロセッサ（監視部）
　２１　　判定部
　２２　　起動処理部（処理部）
　２３　　停止処理部（第１設定部）
　２４　　ＳＰ情報設定部（第２設定部）
　２５　　監視情報設定部（第３設定部）
　２６　　記憶部
　３　　ＥＥＰＲＯＭ（保持部）
　３Ａ　　リセット因子フィールド（第１領域）
　３Ｂ　　チェックサムフィールド（第２領域）
　３Ｃ　　システム情報フィールド
　３０　　リセット要因
　３１　　リセット因子（種別情報）
　３２　　チェックサム（誤り検出情報，第１の誤り検出情報，第２の誤り検出情報）
　３３　　システム情報（起動情報，制御情報）
　３４　　ＳＰ状態情報（状態情報）
　４　　監視対象
　５　　センサボード
　５１，６ｇ　　温度センサ
　６，６－１～６－ｎ　　システムボード
　６ａ　　ＣＰＵ
　６ｂ　　ＤＩＭＭ
　６ｃ　　ＳＢコントローラ
　６ｅ　　ＳＲＡＭ
　６ｈ　　ＰＯＬ
　７１　　ファンバックパネル
　７２　　ファン
　８１　　ＰＳＵバックパネル
　８２　　ＰＳＵ　

Claims

　監視対象の制御を行なう複数の監視部を備えた監視装置であって、
　前記複数の監視部の起動処理に係る起動情報を保持するとともに、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、を保持する保持部を備え、
　前記複数の監視部の各々は、
　起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、前記保持部が保持する前記種別情報と前記誤り検出情報とに基づいて、前回の停止の種別を判定する判定部と、
　前記判定部による判定結果に応じて、前記保持部が保持する前記起動情報を用いて前記起動処理を行なう処理部と、
　を備えたことを特徴とする、監視装置。
　前記複数の監視部の各々は、
　前記停止処理に応じて停止される場合に、前記停止処理に係る種別情報を前記保持部の第１領域に設定するとともに、前記保持部の前記第１領域に設定された情報に基づき取得した第１の誤り検出情報を前記保持部の第２領域に設定する第１設定部をさらに備え、
　前記判定部は、起動したときに前記他の監視部が停止状態の場合、前記保持部の前記第１領域に設定された前記種別情報と、前記保持部の前記第２領域に設定された前記第１の誤り検出情報と、前記保持部の前記第１領域に設定された情報に基づき起動したときに取得した第２の誤り検出情報と、に基づいて、前記前回の停止の種別を判定することを特徴とする、請求項１記載の監視装置。
　前記複数の監視部の各々は、
　状態の変化に応じて自身の状態情報を前記保持部の前記第１領域に設定する第２設定部をさらに備え、
　前記第２の誤り検出情報は、前記第１設定部により設定された前記種別情報と、前記第２設定部により設定された前記状態情報と、を含む前記第１領域に設定された情報に基づき取得されることを特徴とする、請求項２記載の監視装置。
　前記状態情報は、前記第２設定部を備える監視部に係る、識別情報，起動処理又は停止処理の進捗情報，及びエラー情報のうちの少なくとも１つであることを特徴とする、請求項３記載の監視装置。
　前記判定部は、起動したときに前記他の監視部が停止状態の場合であって、前記種別情報が活性交換を示す情報の場合又は前記第１の誤り検出情報と前記第２の誤り検出情報とが異なる場合に、前記前回の停止の種別が、監視部の交換を伴う停止の種別であると判定することを特徴とする、請求項３記載の監視装置。
　前記判定部は、判定した前記前回の停止の種別を用いて、前記保持部が保持する前記種別情報を更新することを特徴とする、請求項１～５のいずれか１項記載の監視装置。
　前記起動情報は、前記監視対象の制御を行なうための制御情報であり、
　前記複数の監視部の各々は、
　前記制御情報を保持する記憶部をさらに備え、
　前記処理部は、
　前記判定部による判定結果が前記監視部の交換を伴う停止の種別である場合に、前記保持部から前記制御情報を取得して前記記憶部に設定することを特徴とする、請求項５記載の監視装置。
　前記複数の監視部の各々は、
　前記制御情報の変化に応じて、前記運用状態の監視部が前記記憶部に保持する前記制御情報を前記保持部に設定する第３設定部をさらに備えることを特徴とする、請求項７記載の監視装置。
　前記複数の監視部の各々は、互いに通信可能に接続され、
　前記処理部は、前記起動処理において前記他の監視部が運用状態の場合に、前記制御情報を前記他の監視部から取得して、前記起動処理を行なうことを特徴とする、請求項７記載の監視装置。
　前記保持部は、前記複数の監視部の各々に接続された不揮発性メモリであることを特徴とする、請求項１～９のいずれか１項記載の監視装置。
　監視対象と、
　前記監視対象の制御を行なう複数の監視部と、
　前記複数の監視部の起動処理に係る起動情報を保持するとともに、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、を保持する保持部と、を備え、
　前記複数の監視部の各々は、
　起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、前記保持部が保持する前記種別情報と前記誤り検出情報とに基づいて、前回の停止の種別を判定する判定部と、
　前記判定部による判定結果に応じて、前記保持部が保持する前記起動情報を用いて前記起動処理を行なう処理部と、
　を備えたことを特徴とする、情報処理装置。
　監視対象の制御を複数の監視部により行なう監視方法であって、
　起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、保持部が保持する、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、に基づいて、前回の停止の種別を判定し、
　前記判定による判定結果に応じて、前記保持部が保持する前記複数の監視部の起動処理に係る起動情報を用いて前記起動処理を行なう、
　ことを特徴とする、監視方法。
　前記停止処理に応じて停止される場合に、前記停止処理に係る種別情報を前記保持部の第１領域に設定するとともに、前記保持部の前記第１領域に設定された情報に基づき取得した第１の誤り検出情報を前記保持部の第２領域に設定し、
　前記判定する処理において、起動したときに前記他の監視部が停止状態の場合、前記保持部の前記第１領域に設定された前記種別情報と、前記保持部の前記第２領域に設定された前記第１の誤り検出情報と、前記保持部の前記第１領域に設定された情報に基づき起動したときに取得した第２の誤り検出情報と、に基づいて、前記前回の停止の種別を判定することを特徴とする、請求項１２記載の監視方法。
　状態の変化に応じて前記起動した監視部の状態情報を前記保持部の前記第１領域に設定し、
　前記第２の誤り検出情報は、前記種別情報と、前記状態情報と、を含む前記第１領域に設定された情報に基づき取得されることを特徴とする、請求項１３記載の監視方法。
　前記状態情報は、前記状態情報を設定した監視部に係る、識別情報，起動処理又は停止処理の進捗情報，及びエラー情報のうちの少なくとも１つであることを特徴とする、請求項１４記載の監視方法。
　前記判定する処理において、起動したときに前記他の監視部が停止状態の場合であって、前記種別情報が活性交換を示す情報の場合又は前記第１の誤り検出情報と前記第２の誤り検出情報とが異なる場合に、前記前回の停止の種別が、監視部の交換を伴う停止の種別であると判定することを特徴とする、請求項１４記載の監視方法。
　前記判定する処理において、判定した前記前回の停止の種別を用いて、前記保持部が保持する前記種別情報を更新することを特徴とする、請求項１２～１６のいずれか１項記載の監視方法。
　前記起動情報は、前記監視対象の制御を行なうための制御情報であり、
　前記起動処理を行なう処理において、前記判定する処理による判定結果が前記監視部の交換を伴う停止の種別である場合に、前記保持部から前記制御情報を取得して前記監視部が備える前記制御情報を保持する記憶部に設定することを特徴とする、請求項１６記載の監視方法。
　前記制御情報の変化に応じて、前記運用状態の監視部が前記記憶部に保持する前記制御情報を前記保持部に設定することを特徴とする、請求項１８記載の監視方法。
　監視対象の制御を行なう処理を複数の監視部の一つを成すコンピュータに実行させる監視プログラムであって、
　起動したときに前記複数の監視部のうちの他の監視部が停止状態の場合、保持部が保持する、前記複数の監視部の各々が停止処理に応じて停止されるときの停止の種別を示す種別情報と、前記種別情報の誤りを検出するための誤り検出情報と、に基づいて、前回の停止の種別を判定し、
　前記判定による判定結果に応じて、前記保持部が保持する前記複数の監視部の起動処理に係る起動情報を用いて前記起動処理を行なう、
　処理を前記コンピュータに実行させることを特徴とする、監視プログラム。