WO2011061828A1

WO2011061828A1 - 情報処理装置、情報処理装置の制御方法及び制御プログラム

Info

Publication number: WO2011061828A1
Application number: PCT/JP2009/069626
Authority: WO
Inventors: 行展野々村
Original assignee: 富士通株式会社
Priority date: 2009-11-19
Filing date: 2009-11-19
Publication date: 2011-05-26

Abstract

　情報処理装置の制御を行う第１の演算処理装置と、定期通知信号を定期的に送信するとともに、自己の異常を検出した場合、第１の演算処理装置による情報処理装置の制御を停止させる第１の制御部とを備えるシステム制御装置と、情報の処理を行う第２の演算処理装置と、定期通知信号の受信に基づきシステム制御装置の異常を検出した場合、情報処理装置の制御を第１の制御部に替わって行う第２の制御部とを備える処理装置とを有する。

Description

情報処理装置、情報処理装置の制御方法及び制御プログラム

　本発明は、情報処理装置、情報処理装置の制御方法及び制御プログラムに関する。

　電源の供給を受ける電子機器が電源オフ信号の受付から電源投入時におけるリセット信号の受付までの期間内にハードウェアの初期化処理等の各種処理を行うことを可能にするため、電源スイッチのオフ操作後所定期間、電源出力電圧を規定値に保持する電源制御回路が知られている。

　又、電源制御ユニットの異常動作による電源ユニットの誤動作を防止するため、当該電源制御ユニットを制御する上位の制御ユニットが出力するイネーブル信号に応じて電源制御ユニットが出力するオンオフ信号を電源ユニットに出力する電源制御システムが知られている。

特公平６－１００９４７号公報特開平１１－２０６０１３号公報

　処理装置の異常の報告に応じて当該処理装置をシャットダウンするとともに当該処理装置の電源をオフするシステム制御装置が異常の場合を想定する。当該場合において、処理装置の運用を継続可能とする構成を提供することを目的とする。

　情報処理装置の制御を行う第１の演算処理装置と、定期通知信号を定期的に送信するとともに、自己の異常を検出した場合、第１の演算処理装置による情報処理装置の制御を停止させる第１の制御部とを備えるシステム制御装置を有する。更に、情報の処理を行う第２の演算処理装置と、定期通知信号の受信に基づきシステム制御装置の異常を検出した場合、情報処理装置の制御を第１の制御部に替わって行う第２の制御部とを備える処理装置を有する。

　このように本発明によれば、システム制御装置が異常の場合、システム制御装置が正常時に実行する、処理装置が異常の際の動作を、処理装置が実行する。したがってシステム制御装置が異常の場合でも、処理装置の動作を停止することなく、そのまま継続することができる。

参考例の計算機のブロック図である。図１に示されるシステムボードのブロック図である。実施例の計算機のブロック図である。図３に示されるシステムボードのブロック図である。図３に示されるサービスプロセッサに固定的な障害が発生した場合の、実施例の計算機における動作の流れを示す図である。電源がオンされた場合の、図３に示されるサービスプロセッサの動作の流れを示すフローチャートである。図３に示されるサービスプロセッサに固定的な障害が発生した場合の、図４に示されるシステムボードの動作の流れを示すフローチャートである。図４に示されるシステムボードから環境異常を示す情報が受信された場合の、図３に示されるサービスプロセッサの正常時の動作の流れを示すフローチャートである。

　以下に実施例について詳細に説明する。

　実施例による情報処理装置としての計算機は、演算を行う演算処理装置をそれぞれ有する複数の処理装置としてのシステムボードとシステム制御装置としてのサービスプロセッサ（ＳＶＰ：Ｓｅｒｖｉｃｅ　Ｐｒｏｃｅｓｓｏｒ）とを有する計算機である。複数のシステムボードはそれぞれが計算機の情報処理機能を有し、サービスプロセッサは複数のシステムボードのシステム制御および監視を行う。当該計算機では、これら複数のシステムボードおよびサービスプロセッサが一の筐体内に設けられる。また当該計算機では、各システムボードに、サービスプロセッサからアクセス可能な、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ，オペレーティングシステム、以下同様）の稼働状況等を示すシステム個別情報を設ける。システム個別情報は、システムボードのシステムの稼働状態を示す情報、例えばＯＢＰ（Ｏｐｅｎ　Ｂｏｏｔ　ＰＲＯＭ）状態(ファームウェア動作中の旨)、ＯＳブート中の旨、ＯＳランニング中の旨、およびシャットダウンした旨の各情報を含む（以下同様）。また当該計算機では、各システムボードが、システムボード自身に対する環境監視、制御を行い、システムボード自身の電源遷移状態および監視状態を保持する機能を有する。

　近年、基幹システム等で使用される計算機においては高い信頼性が要求される。具体的には、一部のハードウェアが故障しても代替機能等により継続した動作が可能であり、ハードウェアの交換の際にも計算機全体を停止させる必要のない計算機が要求される。

　図１に参考例の計算機としての計算機１１００のブロック図を示す。参考例の計算機１１００は複数のシステムボード１２０－１，１２０－２，...，１２０－ｎ、サービスプロセッサ１１０，パワーサプライユニット（以下単にＰＳＵ（Ｐｏｗｅｒ　Ｓｕｐｐｌｙ　Ｕｎｉｔ）と称する）１３０、オペレータパネル１４０，ファンユニット１６０およびファン制御ボード１５０を有する。

　各システムボード１２０－１，１２０－２，...，１２０－ｎ（以下総称してシステムボード１２０と称する場合がある）ではＯＳが動作する。サービスプロセッサ１１０は複数のシステムボード１２０の電源制御、初期化、監視等を行う。ＰＳＵ１３０は複数のシステムボード１２０に一次直流電圧を供給する。オペレータパネル１４０はオペレータが計算機のシステムの操作を行うものであり、計算機のシステム情報を保持する。ファンユニット１６０は複数のシステムボード１２０を冷却し、ファン制御ボード１５０はファンユニット１６０を制御する。

　サービスプロセッサ１１０はシステムボードに搭載されるメインプロセッサ１２２Ｐとは異なる演算処理装置としてのサブプロセッサ１１２を有し、サブプロセッサ１１２に接続されるバス上に、メモリ１１３、ＦＭＥＭ（Ｆｌａｓｈ　ＭＥＭＯＲＹ：フラッシュメモリ、以下同様）１１４、メンテナンスバスコントローラ１１１が接続される。メンテナンスバスコントローラ１１１は複数のシステムボード１２０と接続され、全てのシステムボード１２０に対する電源制御、冷却制御、温度監視、電圧監視、ログ収集等の制御を一括して行う。

　またサービスプロセッサ１１０において、各システムボード１２０の電源投入状態、ＯＳ稼働状態等のシステム情報がメモリ１３３に保持され、メモリ１３３に保持されるシステム情報はシステムの状態が遷移した場合はその都度更新される。メンテナンスバスコントローラ１１１はＰＳＵ１３０と接続され、メンテナンスバスコントローラ１１１が有するオンレジスタ１１１Ｒに情報を書き込むことでＰＳＵ１３０の電源を制御する。また、メンテナンスバスコントローラ１１１はＰＳＵ１３０から各種電源異常信号を受け取る。

　メンテナンスバスコントローラ１１１はウォッチドッグタイマ(以下単にＷＤＴ（Ｗａｔｃｈ　Ｄｏｇ　Ｔｉｍｅｒ）と称する)１１１Ｔを有し、サブプロセッサ１１２のハングアップ等のエラーを検出する。ここで上記ハングアップ等のエラーが一過性の障害であれば、ＷＤＴ１１１Ｔが働きサービスプロセッサ１１０のシステムが再起動（リブート）され、サービスプロセッサ１１０は再起動後に通常の運用状態に戻る。他方ハングアップ等のエラーが固定障害による場合、ＷＤＴ１１１Ｔによるリセットおよび再起動が繰り返され、繰り返し回数が規定回数Ｎに達した後、サービスプロセッサ１１０は停止し、システムの制御が不能となる。この点は図６とともに後述する。

　サービスプロセッサ１１０は、オペレータ操作用スイッチ、状態表示ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）（いずれも図示を省略）、およびシステム全体情報を保持するＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１４０Ｍを搭載するオペレータパネル１４０とＩ２Ｃ（Ｉｎｔｅｒ－Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）で接続され、オペレータパネル１４０の制御を行う。サービスプロセッサ１１０はまた、ファンユニット１６０を制御するファン制御ＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）１５０Ｉが搭載されたファン制御ボード１５０とＩ２Ｃで接続され、当該計算機１１００の冷却用のファンの回転数の制御および監視を行う。より信頼性を求められるシステムではサービスプロセッサ１１０が二重化され、一のサービスプロセッサの故障時には他のサービスプロセッサが代替処理を行うことでシステムを落とすことなくサービスプロセッサの交換が可能となる。

　次に参考例の計算機１１００における各システムボード１２０について説明する。図２は各システムボード１２０（図中、１２０－ｉ）のブロック図を示す。システムボード１２０は計算機の基本構成であるメインプロセッサ１２２Ｐ、メモリ１２２Ｍ、システムコントーラ（ＳＣ：Ｓｙｓｔｅｍ　Ｃｏｎｔｒｏｌｌｅｒ）１２２Ｃ、ＩＯコントローラ(ＩＯＣ：Ｉｎｐｕｔ　Ｏｕｔｐｕｔ　Ｃｏｎｔｒｏｌｌｅｒ）１２２Ｉを有する。システムボード１２０は更に、外部Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ：インタフェース、以下同様）（ＰＣＩ－Ｅ：Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ　Ｅｘｐｒｅｓｓ）１２２Ｅを有する。

　システムボード１２０はまたＤＣ－ＤＣ（Ｄｉｒｅｃｔ　Ｃｕｒｒｅｎｔ－Ｄｉｒｅｃｔ　Ｃｕｒｒｅｎｔ）コンバータ１２７を有し、ＤＣ－ＤＣコンバータ１２７は、上記ＰＳＵ１３０から供給された、システムで共通のメイン電源電圧(１次直流電圧)を、当該システムボード１２０で使用される複数のメイン電源電圧(２次直流電圧)に変換する。メイン電源電圧(２次直流電圧)はメンテナンスバスコントローラ(メインシステム)１２１によってオン/オフ制御、設定および監視がなされる。ここでメンテナンスバスコントローラは、システムボード１２０とサービスプロセッサとの双方に設けられている。そこでシステムボード１２０内のメンテナンスバスコントローラをメンテナンスバスコントローラ（メインシステム）と称し、サービスプロセッサ１１０内のメンテナンスバスコントローラをメンテナンスバスコントローラ（サブシステム）と称する場合がある。

　システムボード１２０はまた温度センサ１２５および上記２次直流電源の電圧センサ１２６を有し、Ｉ２Ｃを介してメンテナンスバスコントローラ(メインシステム)１２１に接続される。上記各センサ１２５，１２６には異常を検出する閾値が設定され、異常の発生時にはメンテナンスバスコントローラ１２１に割り込みを発生させる。

　システムボード１２０はＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１２４、ＦＭＥＭ１２３を有する。ＳＲＡＭ１２４、ＦＭＥＭ１２３は当該システムボード１２０のＯＳとサービスプロセッサ１１０との共有メモリ、ＯＳのブートプログラムの格納用等に使用され、メンテナンスバスコントローラ(メインシステム)１２１にバス接続される。

　メンテナンスバスコントローラ(メインシステム)１２１はサービスプロセッサ１１０と通信を行い、当該システムボード１２０のシステム制御を行う。メンテナンスバスコントローラ(メインシステム)１２１はＳＣバス制御部１２１Ｂを有する。ＳＣバス制御部１２１ＢはＯＳへのシャットダウン要求を行うシャットダウン要求レジスタ１２１Ｒを有する。サービスプロセッサ１１０は必要に応じ、当該シャットダウン要求レジスタ１２１Ｒを使用してＳＣバスを経由してシステムボード１２０の上で動作するＯＳへシャットダウンを要求する。

　メンテナンスバスコントローラ（メインシステム）１２１はまた電源制御部１２１Ｄを有する。電源制御部１２１ＤはＤＣ－ＤＣコンバータ１２７の設定、監視を行い、また、サービスプロセッサ１１０から電源オンオフ指示を受けて電源制御情報１２１Ｉを更新することにより、ＤＣ－ＤＣコンバータ１２７のオンオフ制御を行う。また温度センサ１２５、電圧センサ１２６へ環境異常を検出する閾値の設定を行い、また環境異常の発生時には温度センサ１２５、電圧センサ１２６から割り込みを受け取りサービスプロセッサ１１０に通知する。

　メンテナンスバスコントローラ（メインシステム）１２１はメモリバス制御部１２１Ａを有し、メモリバス制御部１２１Ａはサービスプロセッサ１１０あるいはＯＳがＦＭＥＭ１２３、ＳＲＡＭ１２４にアクセスする際の調停を行う。

　メンテナンスバスコントローラ（メインシステム）１２１はＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｅｄ　ｃｉｒｃｕｉｔ）制御部１２１Ｃを有する。ＬＳＩ制御部１２１Ｃはシステムコントローラ１２２Ｃ、メインプロセッサ１２２Ｐ、ＩＯコントローラ１２２Ｉ等の各種ＬＳＩを制御し、サービスプロセッサ１１０からの指示に基づき初期設定、ログ収集を行う。

　メンテナンスバスコントローラ(メインシステム)１２１はサブプロセッサＩ／Ｆ１２１Ｆを有する。サブプロセッサＩ／Ｆ１２１Ｆはメンテナンスバスコントローラ（メインシステム）１２１がサービスプロセッサ１１０との通信を行う際に使用される。

　上述の計算機１１００では、サービスプロセッサ１１０から各システムボード１２０の電源投入、電源切断、再起動等の指示が出されると、当該指示に基づいて各種の制御が行われる。この場合、サービスプロセッサ１１０及び各システムボード１２０の夫々のメンテナンスバスコントローラ１１１，１２１が上記各種の制御を行う。また各システムボード１２０で発生したエラー、環境異常の報告も上記同様メンテナンスバスコントローラ１１１，１２１が行う。サービスプロセッサ１１０のメンテナンスバスコントローラ１１１は、環境異常の報告を受けると該当するシステムボード１２０のＤＣ－ＤＣコンバータ１２７をオフして当該システムボード１２０の電源を落とす。一つ以上のシステムボード１２０が電源投入されている場合はＰＳＵ１３０がオンされ、全てのシステムボード１２０で電源切断されている場合はＰＳＵ１３０がオフされる。

　以下にサービスプロセッサ１１０が故障した際の計算機１１００の動作を説明する。サービスプロセッサ１１０の故障が一過性の障害の場合、サービスプロセッサ１１０のＷＤＴ１１１Ｔが働きＰＳＵ１３０の電源投入状態を保持したまま、サービスプロセッサ１１０がリセットされ、再起動後通常運用に戻る。他方サービスプロセッサ１１０の故障が固定的な障害の場合、ＷＤＴ１１１Ｔによるリセットおよび再起動が繰り返され、繰り返し回数が規定回数Ｎに達した後サービスプロセッサ１１０は停止する。この点は図６とともに後述する。サービスプロセッサ１１０を交換する場合は、全てのシステムボード１２０の電源をオフした後、ＰＳＵ１３０に供給されるＡＣ電源をオフして行う。サービスプロセッサ１１０が交換された場合、新たなサービスプロセッサ１１０はオペレータパネル１４０内のＥＥＰＲＯＭ１４０Ｍに格納されたシステム全体情報を読み出す。更にサービスプロセッサ１１０は、メモリ１１３Ｉに、収集した各システムボード１２０のシステム情報を格納する。

　上述の参考例の計算機１１００の場合、サービスプロセッサ１１０の故障時には、サービスプロセッサ１１０が行っていたシステムボード１２０の電源制御、監視、シャットダウン、再起動、エラーログ収集等の機能が停止する。このためサービスプロセッサ１１０を早急に交換する必要がある。またサービスプロセッサ１１０の交換の際には上記の如く、全てのシステムボード１２０の電源をオフする必要がある。なお、サービスプロセッサ１１０を二重化することも考えられるが、その場合物量及びコストが増大する。また、サービスプロセッサ１１０の二重化の制御を担う共通部分(セレクタ等)が故障の場合は二重化の利点が発揮されない。

　以下に述べる実施例では、サービスプロセッサが故障した際、各システムボードが当該故障を検出し、各システムボードにおいては電源投入状態を継続したまま自装置の環境監視を行う。この場合各システムボードは環境異常を検出した際にのみ、システムボード自身が実行するＯＳに対してシャットダウンを要求し、２次側直流電源をオフする。
　ここで、システムボード自身が実行するＯＳに対してシャットダウンを要求する場合に、併せて当該システムボードの計算機からの切り離しをＯＳに対して要求することにより、システムボードの縮退をすることもできる。

　また実施例では各システムボードにて、自システムボードの電源投入に関する電源制御情報およびＯＳ稼働状態等のシステム情報を保持する。その結果実施例では、各システムボードの機能を維持したままサービスプロセッサの交換を行い得る。なお上記環境異常とは、後述する電圧センサ２６によって検出されるＤＣ－ＤＣコンバータ２７の電源電圧の異常、あるいは温度センサ２５によって検出されるメインプロセッサ２２Ｐの温度の異常等を意味する。

　以下に図とともに実施例の計算機の詳細について説明する。図３は実施例の計算機１００である計算機システムのブロック図を示す。計算機１００は複数のシステムボード２０－１，２０－２，...，２０－ｎ（以下単にシステムボード２０と総称する場合がある）、サービスプロセッサ１０，ＰＳＵ３０を有する。計算機１００は更に，オペレータパネル４０，ファンユニット６０およびファン制御ボード５０を有する。各システムボード２０は当該計算機１００本来の情報処理機能を有し、個々のシステムボード２０において個別にＯＳが動作する。サービスプロセッサ１０は複数のシステムボード２０の電源制御、初期化、監視等を行う。

　ＰＳＵ３０は複数のシステムボード２０に一次直流電源を供給する。オペレータパネル４０はオペレータが当該計算機１００のシステムの操作を行うものであり、内部に設けられたＥＥＰＲＯＭ４０Ｍにシステム全体情報４０Ｉを保持する。システム全体情報４０Ｉとは、例えば、当該計算機１００の装置名称、シリアル番号、装置の構成情報等を含む。ファンユニット６０は複数のシステムボード２０を冷却し、ファン制御ボード５０はファンユニット６０を制御する。

　サービスプロセッサ１０はプロセッサであるサブプロセッサ１２を有する。サブプロセッサ１２のバスには、メモリ１３、ＦＭＥＭ１４、およびメンテナンスバスコントローラ１１が接続される。メンテナンスバスコントローラ１１は複数のシステムボード２０と接続され、全てのシステムボード２０に対する、電源制御、冷却制御、温度監視、電圧監視、ログ収集等の制御を一括して行う。例えばサービスプロセッサ１０のメンテナンスバスコントローラ１１は、システムボード２０のメンテナンスバスコントローラ２１から送信される環境異常情報信号ＥＡにより、当該システムボード２０における環境異常を検出する。サービスプロセッサ１０のメンテナンスバスコントローラ１１は環境異常の検出により、当該システムボード２０をシャットダウンし当該システムボード２０の電源をオフする制御を行う。更にサービスプロセッサ１０のメンテナンスバスコントローラ１１は当該システムボード２０のシャットダウンおよび電源のオフの事実を把握し、当該事実をシステム情報テーブル１３Ｔ内の該当するシステム情報１３Ｉに書き込む。　サービスプロセッサ１０において各システムボード２０の電源オンオフ状態、ＯＳ稼働状態等を示す情報はシステム情報１３Ｉとして、メモリ１３に設けられたシステム情報テーブル１３Ｉにシステムボード２０毎に保持される。各システムボード２０の状態が遷移した場合は上記の如く、その都度該当するシステム情報１３Ｉが更新される。
　ここで、システムボード自身に対してシャットダウンを要求する場合に、併せて当該システムボードの計算機からの切り離しをＯＳに対して要求することにより、システムボードの縮退をすることもできる。

　サービスプロセッサ１０のメンテナンスバスコントローラ１１はまたＰＳＵ３０とＩ２Ｃで接続され、当該計算機１００のシステムにおいて共通して供給される電源を制御する。またメンテナンスバスコントローラ１１は、割り込み信号(ＩＮＴ：Ｉｎｔｅｒｒｕｐｔ）によりＰＳＵ３０から電源異常報告を受け取る。

　サービスプロセッサ１０のメンテナンスバスコントローラ１１はウォッチドッグタイマ(以下単にＷＤＴ１と称する)１１Ｔを有し、サブプロセッサ１２のハングアップ等のエラーを検出する。上記ハングアップ等のエラーが一過性の障害であれば、ＷＤＴ１、１１Ｔが働きサービスプロセッサ１０のシステムが再起動され、再起動後、通常運用に戻る。他方ハングアップ等のエラーが固定的な障害の場合、ＷＤＴ１、１１Ｔによる再起動が繰り返され、繰り返し回数が規定回数Ｎに達した後、サービスプロセッサ１０は停止する。この点は図６とともに後述する。サービスプロセッサ１０が停止すると、サービスプロセッサ１０と各システムボード２０との通信は遮断される。

　サービスプロセッサ１０はオペレータ操作用スイッチ、状態表示ＬＥＤ（いずれも図示を省略）、およびシステム全体情報４０Ｉを保持するＥＥＰＲＯＭ、４０Ｍを搭載するオペレータパネル４０とＩ２Ｃで接続され、オペレータパネル４０の制御を行う。

　サービスプロセッサ１０はまた、ファンユニット６０を制御するファン制御ＩＣ、５０Ｉが搭載されるファン制御ボード５０とＩ２Ｃで接続され、ファンユニット６０のファンの回転数制御および監視を行う。ファンユニット６０を制御するファン制御情報は制御ＩＣ、５０Ｉに保持され、当該保持されたファン制御情報により、サービスプロセッサ１０との通信が遮断されてもファンが停止することはない。

　サービスプロセッサ１０は起動時にオペレータパネル４０のＥＥＰＲＯＭ、４０Ｍに格納されるシステム全体情報、およびＰＳＵ３０のオンレジスタ３０Ｒの情報を読み込む。サービスプロセッサ１０は起動時更に、各システムボード２０が有する電源制御情報２１Ｉ、およびＯＳ稼働状態の情報を含むシステム個別情報２４Ｉを読み込む。サービスプロセッサ１０は起動時にこれらの情報を読み込むことにより、サービスプロセッサ１０が起動された際の状況を判断する。すなわちサービスプロセッサ１０が当該計算機１００へのＡＣ電源の投入によって起動されたのか、あるいは当該計算機１００のシステム稼働中に故障等により交換されて起動されたのかを判断する。ここでは例えば上記ＰＳＵ３０のオンレジスタ３０Ｒの情報が「ＰＳＵ３０がメイン電源を供給中」を示す場合、サービスプロセッサ１０は計算機１００のシステム稼働中に交換されて起動されたと判断する。また上記ＰＳＵ３０のオンレジスタ３０Ｒの情報が「ＰＳＵ３０がメイン電源を切断中」を示す場合、サービスプロセッサ１０は計算機１００自体のＡＣ電源が投入されて起動されたと判断する。あるいはサービスプロセッサ１０は、起動時に各システムボード２０から読み込んだ電源制御情報２１Ｉに基づいて上記判断を行っても良い。この場合、サービスプロセッサ１０は、当該計算機１００へのＡＣ電源の投入によって起動されたのか、当該計算機１００のシステム稼働中に交換されて起動されたのかを電源制御情報２１Ｉから判断する。すなわち、電源制御情報２１Ｉが「ＤＣ－ＤＣコンバータ２７がオン」を示す場合、サービスプロセッサ１０は計算機１００のシステム稼働中に交換されて起動されたと判断する。また「ＤＣ－ＤＣコンバータ２７がオフ」を示す場合、サービスプロセッサ１０は計算機１００自体のＡＣ電源が投入されて起動されたと判断する。

　サービスプロセッサ１０が計算機１００のシステム稼働中に交換された起動された場合、上記の如く起動時に読み込む情報に基づき、サービスプロセッサ１０はメモリ１３のシステム情報テーブル１３Ｔの各システムボード２０のシステム情報を復元する。この場合、交換前のサービスプロセッサ１０の停止前の各システムボード２０のシステム情報を復元するようにしてもよいし、あるいは更に、サービスプロセッサ１０の停止中に生じたシステム情報を併せて復元しても良い（以下同様）。

　図４は上記複数のシステムボード２０のうちの一のシステムボード２０（図中、２０－ｉ）のブロック図であり、以下に当該一のシステムボード２０について説明する。なお複数のシステムボード２０は夫々同様の構成および機能を有するため、複数のシステムボード２０のうちの他の各々のシステムボード２０についての説明を省略する。

　システムボード２０は、計算機の基本構成であるメインプロセッサ２２Ｐ、メモリ２２Ｍ、システムコントーラ(ＳＣ）２２Ｃ、ＩＯコントローラ(ＩＯＣ）２２Ｉ、および外部Ｉ／Ｆ（ＰＣＩ－Ｅ）２２Ｅを有する。

　またシステムボード２０はＤＣ－ＤＣコンバータ２７を有する。ＤＣ－ＤＣコンバータ２７は、ＰＳＵ３０から供給される、当該計算機１００のシステムで共通のメイン電源(１次直流電源)を、当該システムボード２０で使用される複数のメイン電源(２次直流電源)に変換する。当該メイン電源(２次直流電源)はメンテナンスバスコントローラ(メインシステム)２１により、オンオフ制御、設定、監視がなされる。

　システムボード２０は温度センサ２５，および上記２次ＤＣ電源の電圧センサ２６を有し、これら温度センサ２５および電圧センサ２６はＩ２Ｃを介してメンテナンスバスコントローラ(メインシステム)２１に接続される。各センサ２５，２６には環境異常を検出する閾値が設定され、環境異常の発生時には各センサ２５，２６からメンテナンスバスコントローラ２１に対し、割り込み信号ＩＮＴが発信される。

　システムボード２０はＳＲＡＭ２４、ＦＭＥＭ２３を有する。ＳＲＡＭ２４、ＦＭＥＭ２３には、当該システムボード２０のＯＳの稼働状態を示すシステム個別情報が保持される。またＳＲＡＭ２４、ＦＭＥＭ２３は当該システムボード２０のＯＳとサービスプロセッサ１０との共有メモリとして使用され、またＯＳのブートプログラムの格納等に使用される。ＳＲＡＭ２４、ＦＭＥＭ２３はメンテナンスバスコントローラ(メインシステム)２１にバス接続される。

　ここでシステムボード２０のＳＲＡＭ２４に保持される上記システム個別情報２４Ｉは、上記の如く、システムボード２０のシステムの稼働状態を示す情報、例えばＯＢＰ（ＯｐｅｎＢｏｏｔ　ＰＲＯＭ）状態(ファームウェア動作中の旨)、ＯＳブート中の旨、ＯＳランニング中の旨、およびシャットダウンした旨の各情報を含む。システム個別情報２４Ｉはシステムの稼働委状態の変化に応じ、その都度メインプロセッサ２２Ｐが更新する。ここで上記の如くシステム個別情報２４Ｉはシャットダウンした旨の情報を含むが、シャットダウンの際、必ずしもＤＣ－ＤＣコンバータ２７がオフするとは限らない。このため、シャットダウンした旨の情報を含むシステム個別情報２４Ｉと、ＤＣ－ＤＣコンバータ２７がオフした旨の情報を含む電源制御情報２１Ｉとを個別に保持する必要がある。

　システムボード２０のメンテナンスバスコントローラ(メインシステム)２１はサービスプロセッサ１０と通信を行い、当該システムボード２０のシステム制御を行う。システムボード２０のメンテナンスバスコントローラ（メインシステム）２１はＳＣバス制御部２１Ｂを有する。ＳＣバス制御部２１Ｂは当該システムボード２０のＯＳへシャットダウンを要求するシャットダウン要求レジスタ２１Ｒを有する。サービスプロセッサ１０または後述する代替監視回路２１Ｅは必要に応じ、サブプロセッサＩ／Ｆ２１Ｆ又は内部バスを経由して上記シャットダウン要求レジスタ２１Ｒに情報を書き込むことにより、ＳＣバスを経由して当該システムボード２０のＯＳへシャットダウンを要求（停止要求）する。シャットダウン要求レジスタ２１Ｒにシャットダウンを要求する旨の情報が書き込まれると、ＯＳはこれを検出し、システムボード２０をシャットダウンする。その結果当該システムボード２０のメインプロセッサ２２ＰによるＯＳの実行が停止される。
　ここで、システムボード２０が自身に対してシャットダウンを要求する場合に、併せて当該システムボード２０の計算機からの切り離しをＯＳに対して要求することにより、システムボード２０の縮退をすることもできる。

　システムボード２０のメンテナンスバスコントローラ(メインシステム)２１はまた電源制御部２１Ｄを有する。電源制御部２１Ｄは、ＤＣ－ＤＣコンバータ２７の設定、監視を行う。電源制御部２１Ｄはサービスプロセッサ１０から電源オンオフ指示を受けて電源制御情報２１Ｉを更新する。そして電源制御部２１Ｄは電源制御情報２１Ｉに基づいてＤＣ－ＤＣコンバータ２７のオンオフ制御を行う。また電源制御部２１ＤはＤＣ－ＤＣコンバータ２７の稼働状態を監視し、稼働状態が変化すると、その都度電源制御情報２１Ｉを更新する。例えば環境異常の検出によりＤＣ－ＤＣコンバータ２７が停止された場合、当該停止による電源オフの事実が電源制御情報２１Ｉに書き込まれる。電源制御部２１Ｄはまた温度センサ２５、電圧センサ２６へ環境異常を検出する閾値を設定する。温度センサ２５または電圧センサ２６にて環境異常が検出された場合、電源制御部２１Ｄは該当するセンサから割り込み信号ＩＮＴを受け取り、当該割り込み信号をサービスプロセッサ１０に送信する。

　システムボード２０のメンテナンスバスコントローラ(メインシステム)２１は代替監視回路２１Ｅを有する。代替監視回路２１Ｅはウォッチドッグタイマ(以下単にＷＤＴ２と称する)２１Ｔを有し、サービスプロセッサ１０のメンテナンスバスコントローラ１１からハートビート信号ＨＢを受信する。ここでハートビート信号ＨＢ（定期通知信号）とは、サービスプロセッサ１０のメンテナンスバスコントローラ１１が定期的に送信する信号である。代替監視回路２１Ｅはハートビート信号ＨＢを受信することにより、サービスプロセッサ１０が正常に動作していることを確認する。なおサービスプロセッサ１０のメンテナンスバスコントローラ１１がハートビート信号ＨＢを送信する代わりに、代替監視回路２１Ｅがメンテナンスバスコントローラ１１に対しコマンドを送信するようにしてもよい。この場合代替監視回路２１Ｅはメンテナンスバスコントローラ１１から当該コマンドに対する所定の応答を得ることによりサービスプロセッサ１０が正常に動作していることを確認する（以下同様）。ＷＤＴ２、２１Ｔはサービスプロセッサ１０が規定回数Ｎ、再起動した後に停止する際に要する時間以上サービスプロセッサ１０のメンテナンスバスコントローラ１１からのハートビート信号ＨＢが受信されない場合にタイムアウトを検出し、代替監視回路２１Ｅはサービスプロセッサ１０の故障と判断する。この点は図６とともに後述する。この場合代替監視回路２１Ｅは電源制御部２１Ｄに対し、温度センサ２５あるいは電圧センサ２６によって環境異常が検出された場合のサービスプロセッサ１０への報告動作を抑止する指示を行う。そして温度センサ２５あるいは電圧センサ２６によって環境異常が検出された場合には、代替監視回路２１Ｅがサービスプロセッサ１０に代わって当該システムボード２０のＯＳにシャットダウンを要求する。更にこの場合代替監視回路２１ＥはＤＣ－ＤＣコンバータ２７を停止して当該システムボードの電源をオフする処理を行う。このように代替監視回路２１Ｅが異常の検出によりＤＣ－ＤＣコンバータ２７を停止する場合、ＤＣ－ＤＣコンバータ２７の動作状態及び監視情報を電源制御情報２１Ｉに反映する。監視情報とは温度センサ２５あるいは電圧センサ２６によって環境異常が検出された旨を示す情報である。

　システムボード２０のメンテナンスバスコントローラ(メインシステム)２１はメモリバス制御部２１Aを有する。メモリバス制御部２１Aはサービスプロセッサ１０および当該システムボード２０のＯＳがＦＭＥＭ２３、ＳＲＡＭ２４にアクセスする際の調停を行う。

　システムボード２０のメンテナンスバスコントローラ(メインシステム)２１はＬＳＩ制御部２１Ｃを有する。ＬＳＩ制御部２１Ｃはシステムコントローラ２２Ｃ、メインプロセッサ２２Ｐ、ＩＯコントローラ２２Ｉ等の各種ＬＳＩを制御し、サービスプロセッサ１０からの指示に基づいて初期設定、ログ収集を行う。

　システムボード２０のメンテナンスバスコントローラ(メインシステム)２１はサブプロセッサＩ／Ｆ２１Ｆを有する。サブプロセッサＩ／Ｆ２１Ｆはメンテナンスバスコントローラ(メインシステム)２１がサービスプロセッサ１０と通信を行う際に使用される。

　計算機１００のＰＳＵ３０はＡＣ電源をＤＣ電源に変換する電源ユニットである。ＰＳＵ３０は冗長構成を有し、当該計算機１００のシステム稼働中に交換が可能である。ＰＳＵ３０はサービスプロセッサ１０および計算機１００のシステム制御に係る回路にスタンバイ電源を供給する。ＰＳＵ３０は更に、複数のシステムボード２０、およびファンユニット６０にメイン電源(１次ＤＣ)を供給する。ＰＳＵ３０はサービスプロセッサ１０とＩ２Ｃで接続され、サービスプロセッサ１０はＰＳＵ３０の電源投入、電源切断、電源監視等を行う。

　ＰＳＵ３０が供給するスタンバイ電源のオンオフは計算機１００に対するＡＣ電源のオンオフと連動する。ＰＳＵ３０が供給するメイン電源(１次ＤＣ)は、サービスプロセッサ１０がオンレジスタ３０Ｒに情報を書き込むことにより、オンオフ制御される。メイン電源(１次ＤＣ)のオンオフを制御するオンレジスタ３０Ｒは、サービスプロセッサ１０とＰＳＵ３０との通信が遮断されてもその保持情報を維持する。したがってサービスプロセッサ１０が故障で交換される際にも、各システムボード２０等に対するメイン電源（１次ＤＣ）の供給は維持される。

　次に図５，図６，図７、図８とともに、実施例の計算機１００の動作について説明する。ここでも複数のシステムボード２０のうちの一のシステムボード２０（図５中、２０－ｉ）について説明を行う。複数のシステムボード２０のうちの他の各々のシステムボード２０も夫々同様の動作を行うため、他の各々のシステムボード２０についての説明を省略する。

　図５はサービスプロセッサ１０に固定的な障害が発生した際の、ＰＳＵ３０，オペレータパネル４０，サービスプロセッサ１０，システムボード２０のそれぞれの状態の遷移を示す図である。

　図５中、ステップＳ１にて、システムボード２０は電源オン状態であり、サービスプロセッサ１０がシステムボード２０の電源監視を行う。

　ステップＳ２にて、サービスプロセッサ１０で障害が発生し、ＷＤＴ１、１１Ｔがタイムアウトを検出し、その結果サービスプロセッサ１０が再起動する。固定障害の場合、ＷＤＴ１，１１Ｔによるタイムアウトの検出および再起動が繰り返され、規定回数Ｎの繰り返しの後サービスプロセッサ１０は停止する。またシステムボード２０のＷＤＴ２、２１Ｔがサービスプロセッサ１０のメンテナンスバスコントローラ１１からのハートビート信号ＨＢを監視している。サービスプロセッサ１０の固定障害の場合にはサービスプロセッサ１０が規定回数Ｎ、再起動する時間以上サービスプロセッサ１０からのハートビート信号ＨＢが受信されないため、ＷＤＴ２、２１Ｔがタイムアウトを検出する。この点は図６とともに後述する。

　ステップＳ３にて、上記ＷＤＴ２、２１Ｔによるタイムアウトの検出の結果、代替監視回路２１Ｅは、環境監視モードを、サービスプロセッサ１０による監視モードから、システムボード２０の代替監視回路２１Ｅによる自己監視モードへ変更する。環境監視モードとは、当該システムボード２０の温度センサ２５および電圧センサ２６による環境異常の検出を監視するモードを言う。

　ステップＳ４にて、オペレータにより、システムボード２０のシステム稼働中にサービスプロセッサ１０が交換される。なお、システムボード２０が上記自己監視モードの状態で環境異常が発生した場合、代替監視回路２１Ｅはシャットダウン要求レジスタ２１Ｒに情報を書き込むことによりＯＳにシャットダウンを要求する。上記の如くシャットダウン要求レジスタ２１Ｒにシャットダウンを要求する旨の情報が書き込まれると、ＯＳはこれを検出し、システムボード２０のシステムをシャットダウンする。ＯＳがシステムボード２０のシステムのシャットダウンを行うと、メインプロセッサ２２ＰはＳＲＡＭ２４に保持されるシステム個別情報として当該シャットダウンした旨を書き込む。代替監視回路２１Ｅはさらに、電源制御部２１Ｄの電源制御情報２１Ｉを更新することによりＤＣ－ＤＣコンバータ２７を停止し、システムボード２０の電源をオフする。

　上記したオペレータによるサービスプロセッサ１０の交換後、当該交換に係る新たなサービスプロセッサ１０は、オペレータパネル４０のＥＥＰＲＯＭ、４０Ｍのシステム全体情報４０ＩおよびＰＳＵ３０のオンレジスタ３０Ｒの情報を読み込む。更に上記新たなサービスプロセッサ１０は、複数のシステムボード２０の夫々のＳＲＡＭ２４に格納されるシステム個別情報２４Ｉおよび電源制御部２１Ｄに格納される電源制御情報２１Ｉを読み込む。その結果当該新たなサービスプロセッサ１０は、計算機１００の稼働中に交換されたことを認識する。ここでは上記の如く、当該サービスプロセッサ１０は、例えば読み込んだＰＳＵ３０のオンレジスタ３０Ｒの情報が「ＰＳＵ３０がメイン電源を供給中」を示すことから、計算機１００が稼働中にサービスプロセッサ１０が交換されて起動されたと認識する。また起動時に各システムボード２０から読み込んだ電源制御情報２１Ｉに基づいて上記認識を行うことも可能である。この場合、読み込んだ電源制御情報２１Ｉが「ＤＣ－ＤＣコンバータ２７が稼働中」を示すことから、サービスプロセッサ１０は計算機１００のシステム稼働中に交換されて起動されたと認識する。尚実施例の場合サービスプロセッサ１０の交換中もＰＳＵ３０のオンレジスタ３０Ｒの保持情報が維持されるため、サービスプロセッサ１０の交換中もＰＳＵ３０はメイン電源を各システムボード２０に供給し続ける。その結果サービスプロセッサ１０の交換中もシステムボード２０のＤＣ－ＤＣコンバータ２７は稼働し続ける。

　また当該新たなサービスプロセッサ１０は、上記の如く複数のシステムボード２０の夫々から読み込んだシステム個別情報２４Ｉおよび電源制御情報２１Ｉに基づき、メモリ１３のシステム情報テーブル１３Ｔのシステム情報１３Ｉを復元する。システム情報テーブル１３Ｔのシステム情報１３Ｉは上記の如く、複数のシステムボード２０の各々につき個別に保持される。

　ステップＳ５にて、サービスプロセッサ１０のメンテナンスバスコントローラ１１はハートビート信号ＨＢの発信を開始し、代替監視回路２１Ｅは当該ハートビート信号ＨＢを受信すると、環境監視モードを代替監視回路２１Ｅによる自己監視モードからサービスプロセッサ１０による監視モードに戻す。

　次に図６とともに、サービスプロセッサ１０の起動時および故障時の動作について説明する。図６はサービスプロセッサ１０の起動時および故障時の動作の流れを示すフローチャートである。

　図６中、ステップＳ１１にて、計算機１００のＡＣ電源が投入され、サービスプロセッサ１０が起動される。あるいはサービスプロセッサ１０の故障等により、計算機１００のＡＣ電源がオンの状態でサービスプロセッサ１０が交換され、交換後にサービスプロセッサ１０に電源が供給されてサービスプロセッサ１０が起動される。

　ステップＳ１２にてサービスプロセッサ１０はメモリ１３を初期化し、ステップＳ１３でメンテナンスバスコントローラ１１を初期化する。

　更にステップＳ１４にてサービスプロセッサ１０はＷＤＴ１、１１Ｔを有効にし、ステップＳ１５で、サービスプロセッサ１０はオペレータパネル４０からシステム全体情報４０Ｉを読み込み、ＰＳＵ３０からオンレジスタ３０Ｒの情報を読み込む。サービスプロセッサ１０は、更に複数のシステムボード２０の各々からシステム個別情報２４Ｉを読み込む。

　次にステップＳ１６にてサービスプロセッサ１０は、ステップＳ１５にて読み込んだ各種の情報に基づき、当該起動が、計算機１００のシステム稼働中に故障等により交換されて起動されたのか否かを判断する。サービスプロセッサ１０が計算機１００のシステム稼働中に故障等により交換されて起動されたのではない場合（ＮＯ）、サービスプロセッサ１０はステップＳ１８でシステム情報テーブル１３Ｔを初期化する。システム情報テーブル１３Ｔの初期化とはシステム情報テーブル１３Ｔに初期情報を書き込むことを言い、初期情報とは計算機１００のＡＣ電源がオンされた際にシステム情報テーブル１３Ｔに書き込む内容として予め用意する情報を言う。他方、サービスプロセッサ１０は計算機１００のシステム稼働中に故障等により交換されて起動された場合（ＹＥＳ）、ステップＳ１７でシステム情報テーブル１３Ｔを復元する。すなわち、ステップＳ１５で複数のシステムボード２０の各々から読み込んだシステム個別情報２４Ｉに基づき、各システムボード２０の個別のシステム情報をシステム情報テーブル１３Ｔに書き込む。

　次にステップＳ１９でサービスプロセッサ１０は、サービスプロセッサ１０による監視モードで環境監視を開始する。当該環境監視は、複数のシステムボード２０の各々の温度センサ２５，電圧センサ２６のそれぞれによる環境異常の検出の有無の監視を含む。上記環境監視の詳細につき、図８とともに後述する。

　次にステップＳ２０でサービスプロセッサ１０は、上記ステップＳ１４で有効化したＷＤＴ１、１１Ｔによるタイムアウトの検出の有無を判断する。ＷＤＴ１，１１Ｔによるタイムアウトが検出されない場合（「正常」）、ステップＳ１９に戻り、サービスプロセッサ１０による監視モードで環境監視を続行する。他方ＷＤＴ１，１１Ｔによるタイムアウトが検出された場合（「異常」）、サービスプロセッサ１０はステップＳ２１に移行し、サービスプロセッサ１０自体のシステムを再起動するとともに、リブートカウンタをカウントアップする。そしてステップＳ２２にて、リブートカウンタの計数値が所定値Ｎ以上か否かを判定する。リブートカウンタの計数値が所定値Ｎ以上の場合（ＹＥＳ）、サービスプロセッサ１０は動作を停止する。他方リブートカウンタの計数値の所定値Ｎ未満の場合（ＮＯ），ステップＳ２４でサービスプロセッサ１０のシステムの再起動を行う。

　サービスプロセッサ１０はその後ステップＳ１４に戻り、上記したＳ１４、Ｓ１５，Ｓ１６，Ｓ１７またはＳ１８，Ｓ１９，Ｓ２０を実行する。ここでサービスプロセッサ１０が固定的な故障の場合、ステップＳ１５，Ｓ１６，Ｓ１７またはＳ１８，Ｓ１９は実行されず、直接ステップＳ１４からステップＳ２０に移行し、再びＷＤＴ１によるタイムアウトが検出される（「異常」）。その結果ステップＳ２１に戻る。このように、サービスプロセッサ１０が固定的な故障の場合、ステップＳ１４，Ｓ２０，Ｓ２１，Ｓ２２，Ｓ２４，Ｓ１４のループ動作が繰り返される。当該繰り返し動作の繰り返し回数がＮに達するとステップＳ２２の判断結果がＹＥＳとなり、ステップＳ２３でサービスプロセッサ１０が停止する。

　尚、図６中、ステップＳ１２、Ｓ１３，Ｓ１４，Ｓ１５，Ｓ１６，Ｓ１７，Ｓ１８，Ｓ１９，Ｓ２０は、主に、メモリ１３またはＦＭＥＭ１４に格納されたファームウェアプログラムをサブプロセッサ１２が実行することにより実行される。ステップＳ２１，Ｓ２２，Ｓ２３，Ｓ２４はハードウェア（メンテナンスバスコントローラ１１）によって実行される（ステップＳ２１，Ｓ２２，Ｓ２３，Ｓ２４はソフトウェアによって実行することも可能委である）。

　次に図７とともに、システムボード２０の代替監視回路２１Ｅによるサービスプロセッサ１０の故障の検出動作およびサービスプロセッサ１０の故障が検出された場合の、その後のシステムボード２０の動作について説明する。図７はシステムボード２０の代替監視回路２１Ｅによるサービスプロセッサ１０の故障の検出動作およびサービスプロセッサ１０の故障が検出された場合の、その後のシステムボード２０の動作の流れを示すフローチャートである。

　図７中、ステップＳ３１でシステムボード２０の代替監視回路２１Ｅは、ＷＤＴ２、２１Ｔが、サービスプロセッサ１０のメンテナンスバスコントローラ１１からハートビート信号ＨＢを受信することによってクリアされたか否かを判断する。すなわちＷＤＴ２，２１Ｔによってタイムアウトが検出されなかった否かを判断する。

　ここで上記の如く、ＷＤＴ２、２１Ｔはサービスプロセッサ１０が規定回数Ｎ，再起動した後に停止する際に要する時間以上サービスプロセッサ１０のメンテナンスバスコントローラ１１からのハートビート信号ＨＢが受信されない場合にタイムアウトを検出する。図６とともに上述した如く、サービスプロセッサ１０が固定的な故障の場合、ステップＳ１４，Ｓ２０，Ｓ２１，Ｓ２２，Ｓ２４，Ｓ１４のループ動作が繰り返される。当該繰り返し動作の繰り返し回数が規定回数Ｎに達するとステップＳ２２の判断結果がＹＥＳとなり、ステップＳ２３でサービスプロセッサ１０が停止する。したがって上記サービスプロセッサ１０が規定回数Ｎ，再起動した後に停止する際に要する時間とは、ＷＤＴ２，２１Ｔは、上記ループ動作がＮ回繰り返され、その後にサービスプロセッサ１０が停止する（ステップＳ２３）迄の時間を意味する。ＷＤＴ２，２１Ｔは当該時間を計測し、その間サービスプロセッサ１０からのハートビート信号ＨＢが受信されなかった場合タイムアウトを検出することにより、サービスプロセッサ１０の固定的な故障を検出する。他方サービスプロセッサ１０が正常の場合あるいは一過性の故障の場合、サービスプロセッサ１０は少なくとも、上記サービスプロセッサ１０が規定回数Ｎ，再起動した後に停止する際に要する時間内にハートビート信号ＨＢを送信する。このためＷＤＴ２，２１Ｔによってタイムアウトが検出されない（ステップＳ３１の「正常」）。ステップＳ３１でＷＤＴ２，２１Ｔによってタイムアウトが検出されなかった場合（「正常」）、ステップＳ３２にて、サービスプロセッサ１０による環境監視および電源制御がなされる。サービスプロセッサ１０による環境監視および電源制御の詳細につき、図８とともに後述する。

　他方ステップＳ３１でＷＤＴ２，２１Ｔによるタイムアウトが検出された場合（「異常」）、ステップＳ３３に移行する。ステップＳ３３にて、代替監視回路２１Ｅは、環境監視モードをサービスプロセッサ１０による監視モードからシステムボード２０の代替監視回路２１Ｅによる自己監視モードに切り替える。そしてステップＳ３４にて、代替監視回路２１Ｅによる自己監視モードにおいて環境異常が検出されたか判断する。環境異常が検出されなかった場合（ステップＳ３４のＮＯ），ステップＳ３５でサービスプロセッサ１０からのハートビート信号ＨＢが受信されたかを判断する。サービスプロセッサ１０からのハートビート信号ＨＢが受信された場合（ステップＳ３５の「正常」）、ステップＳ３２に移行し、代替監視回路２１Ｅは環境監視モードを、自己監視モードからサービスプロセッサ１０による監視モードに戻す。そしてサービスプロセッサ１０による環境監視および電源制御が実行される。ここで、上記ステップＳ３５でサービスプロセッサ１０からのハートビート信号ＨＢが受信された場合（「正常」）とは、例えば固定的な故障のサービスプロセッサ１０がオペレータにより交換され、正常なサービスプロセッサ１０となった場合である。

　他方、ステップＳ３５でサービスプロセッサ１０からのハートビート信号ＨＢが受信されなかった場合、ステップＳ３４に戻り、代替監視回路２１Ｅによる自己監視モードにおいて環境異常が検出されたか判断する。ここで、上記ステップＳ３５でサービスプロセッサ１０からのハートビート信号ＨＢが受信されなかった場合（「異常」）とは、例えば固定的な故障のサービスプロセッサ１０が未だ交換されておらず、サービスプロセッサ１０の異常状態が継続している場合である。

　またステップＳ３４で代替監視回路２１Ｅによる自己監視モードにおいて環境異常が検出された場合（ＹＥＳ），ステップＳ３６にて、代替監視回路２１Ｅは当該システムボード２０のＯＳに対し、システムのシャットダウンを要求する。具体的にはシャットダウン要求レジスタ２１Ｒにシャットダウンを要求する旨を書き込む。シャットダウン要求レジスタ２１Ｒにシャットダウンを要求する旨の情報が書き込まれると、ＯＳはこれを検出し、システムボード２０のシステムをシャットダウンする。そしてステップＳ３７にてシステムボード２０のメインプロセッサ２２Ｐがシステム個別情報２４Ｉを更新する。すなわち上記の如くのシステムのシャットダウンの要求によりシステムボード２０のシステムがシャットダウンすると、メインプロセッサ２２Ｐが当該シャットダウンの旨をシステム個別情報２４Ｉに書き込む。

　次に代替監視回路２１ＥはステップＳ３８にて電源制御情報２１Ｉに電源オフの旨を書き込み、その結果ステップＳ３９にて電源制御部２１ＤはＤＣ－ＤＣコンバータ２７を停止する。その結果システムボード２０の電源はオフする。また当該ＤＣ－ＤＣコンバータ２７の停止によるシステムボード２０の電源のオフの事実が電源制御情報２１Ｉに書き込まれる。そして代替監視回路２１ＥはステップＳ４０でサービスプロセッサ１０からのハートビート信号ＨＢが受信されたか判断する。サービスプロセッサ１０からのハートビート信号ＨＢが受信された場合（ステップＳ４０の「正常」）、ステップＳ３２に移行し、代替監視回路２１Ｅは環境監視モードを、自己監視モードからＳＶＰ１０による監視モードに戻す。そしてサービスプロセッサ１０による環境監視および電源制御が実行される。ここで、上記ステップＳ４０でサービスプロセッサ１０からのハートビート信号ＨＢが受信された場合（「正常」）とは、例えば固定的な故障のサービスプロセッサ１０がオペレータにより交換され、正常なサービスプロセッサ１０となった場合である。

　他方、ステップＳ４０でサービスプロセッサ１０からのハートビート信号ＨＢが受信されなかった場合、更にステップ４０に戻り、サービスプロセッサ１０からのハートビート信号ＨＢが受信されたか判断する。ここで、上記ステップＳ４０でサービスプロセッサ１０からのハートビート信号ＨＢが受信されなかった場合（「異常」）とは、例えば固定的な故障のサービスプロセッサ１０が未だ交換されておらず、サービスプロセッサ１０の異常状態が継続している場合である。

　図７中、ステップＳ３７はメモリ２２Ｍに格納されたＯＳ(ソフトウェアプログラム)またはＦＭＥＭ２３に格納されたＯＢＰ(ファームウェアプログラム)をメインプロセッサ２２Ｐが実行することにより実行される。ステップＳ３１，Ｓ３３，Ｓ３４，Ｓ３５，Ｓ３６，Ｓ３８，Ｓ３９，Ｓ４０は代替監視回路２１Ｅ（ハードウェア）によって実行される。ステップＳ３２はサービスプロセッサ１０の制御の下、ＳＣバス制御部２１Ｂ（ハードウェア）および電源制御部２１Ｄ（ハードウェア）によって実行される。但しステップＳ３２に関し、環境異常が検出された場合のシステムのシャットダウンは、メモリ２２Ｍに格納されたＯＳ（ソフトウェアプログラム）をメインプロセッサ２２Ｐが実行することにより実行される。

　次に図８とともに、図６中、ステップＳ１９の動作である、サービスプロセッサ１０が正常時に行う環境監視および電源制御について説明する。図８はサービスプロセッサ１０が正常時に行う環境監視および電源制御の動作の流れを示すフローチャートである。

　図８中、ステップＳ５１で、複数のシステムボード２０のいずれかのメンテナンスバスコントローラ２１から送信された環境異常情報信号ＥＡが受信された場合（ＹＥＳ），ステップＳ５２に移行する。他方ステップＳ５１で複数のシステムボード２０のいずれかのメンテナンスバスコントローラ２１からも環境異常情報信号ＥＡが受信されなかった場合（ＮＯ），ステップＳ５１に戻る。そしてステップＳ５１で引き続き複数のシステムボード２０のいずれかのメンテナンスバスコントローラ２１から環境異常情報信号ＥＡが受信されたかを判断する。

　ステップＳ５２では、ステップＳ５１で環境異常情報信号ＥＡを送信したシステムボード２０のＯＳに対し、システムのシャットダウンを要求する。具体的には当該システムボード２０のサブプロセッサＩ／Ｆ、２１Ｆを介し、シャットダウン要求レジスタ２１Ｒにシャットダウンを要求する旨を書き込む。その結果当該システムボード２０のＯＳがメインプロセッサ２２Ｐを制御して当該システムボード２０のシステムをシャットダウンする。そしてステップＳ５３にて、当該メインプロセッサ２２Ｐは当該シャットダウンの旨をシステム個別情報２４Ｉに書き込む。またサービスプロセッサ１０は当該システムボード２０のサブプロセッサＩ／Ｆ、２１Ｆを介してシャットダウンの事実を把握し、当該事実をシステム情報テーブル１３Ｔに含まれる当該システムボード２０に係るシステム情報１３Ｉに書き込む。

　次にサービスプロセッサ１０はステップＳ５４にて、当該環境異常を生じたシステムボード２０のサブプロセッサＩ／Ｆ、２１Ｆを介し、電源制御情報２１Ｉに電源をオフする旨を書き込む。その結果ステップＳ５５にて電源制御部２１ＤはＤＣ－ＤＣコンバータ２７を停止し、当該システムボード２０電源がオフする。また当該ＤＣ－ＤＣコンバータ２７の停止によるシステムボード２０の電源のオフの事実が電源制御情報２１Ｉに書き込まれる。またサービスプロセッサ１０は当該システムボード２０のサブプロセッサＩ／Ｆ、２１Ｆを介してＤＣ－ＤＣコンバータ２７の停止によるシステムボード２０の電源のオフの事実を把握する。そしてサービスプロセッサ１０は当該事実をシステム情報テーブル１３Ｔに含まれる当該システムボード２０に係るシステム情報１３Ｉに書き込む。

　上述の実施例によれば計算機１００の全てのシステムボード２０を停止することなく、サービスプロセッサ１０の交換が可能となる。結果として、計算機１００のシステム全体の信頼性・可用性向上につながる。ここで「可用性」とはＡｖａｉｌａｂｉｌｉｔｙを意味し、システムの壊れにくさを意味する。可用性はシステムにおける障害の発生しにくさや、障害発生時の修復速度などによって計られる。つまり、障害が発生しなければ可用性は高くなり、また、障害が発生してもシステムが動き続けられれば同様に当該システムは高い可用性を持つことになる。またサービスプロセッサ１０を二重化する必要がなくなるため、物量・コスト削減が可能となる。

　１０　サービスプロセッサ
　１１Ｔ　ウオッチドックタイマ（ＷＤＴ１）
　１２　サブプロセッサ
　１３　メモリ
　１３Ｔ　システム情報テーブル
　１３Ｉ　システム情報
　２０，２０－１，２０－２，...，２０－ｎ　システムボード
　２１Ｄ　電源制御部
　２１Ｅ　代替監視回路　
　２１Ｉ　電源制御情報
　２１Ｒ　システムシャットダウン要求レジスタ
　２１Ｔ　ウオッチドックタイマ（ＷＤＴ２）
　２２Ｐ　メインプロセッサ
　２４Ｉ　システム個別情報
　２５　温度センサ
　２６　電圧センサ
　３０　パワーサプライユニット（ＰＳＵ）
　３０Ｒ　オンレジスタ（ＯＮレジスタ）
　４０Ｉ　システム全体情報

Claims

　情報の処理を行う情報処理装置であって、
　前記情報処理装置の制御を行う第１の演算処理装置と、定期通知信号を定期的に送信するとともに、自己の異常を検出した場合、前記第１の演算処理装置による前記情報処理装置の制御を停止させる第１の制御部とを備えるシステム制御装置と、
　前記情報の処理を行う第２の演算処理装置と、前記定期通知信号の受信に基づき前記システム制御装置の異常を検出した場合、前記情報処理装置の制御を前記第１の制御部に替わって行う第２の制御部とを備える処理装置とを有することを特徴とする情報処理装置。
　前記第１の制御部から前記第２の制御部に前記定期通知信号を送信する代わりに、前記第２の制御部から前記第１の制御部にコマンドを送信することを特徴とする請求項１記載の情報処理装置。
　前記情報処理装置は更に、前記システム制御装置が有する、前記情報処理装置の第１の状態情報を格納する第１の記憶部と、
　前記処理装置が有する、前記情報処理装置の第２の状態情報を格納する第２の記憶部とを有し、
　前記第１の制御部は前記処理部が有する前記第２の記憶部に格納された第２の状態情報に基づき、前記第１の演算処理装置による前記情報処理装置の制御の停止前における、前記システム制御装置が有する前記第１の記憶部に格納された前記第１の状態情報を復元することを特徴とする請求項１記載の情報処理装置。
　前記情報処理装置はさらに、
　前記処理装置に電力を供給する電源装置を有し、
　前記第１の制御部は、環境異常情報信号の受信に基づき、前記処理装置の異常を検出した場合、前記電源装置による前記処理装置への電力の供給を停止させることを特徴とする請求項１記載の情報処理装置。
　前記情報処理装置において、
　前記第２の演算処理装置は、オペレーティングシステムを実行し、
　前記処理装置は、前記オペレーティングシステムへの停止要求を保持する第３の記憶部を有し、
　前記システム制御装置は、前記第３の記憶部に前記停止要求を出力することにより、前記第２の演算処理装置による前記オペレーティングシステムの実行を停止させることを特徴とする請求項１記載の情報処理装置。
　情報の処理を行う処理装置と、前記処理装置の制御を行うシステム制御装置とを有する情報処理装置の制御方法において、
　前記システム制御装置が有する第１の演算処理装置が、前記情報処理装置の制御を行うステップと、
　前記システム制御装置が有する第１の制御部が、定期通知信号を定期的に送信するステップと、
　前記第１の制御部が、前記第１の制御部の異常を検出した場合、前記第１の演算処理装置による前記情報処理装置の制御を停止させるステップと、
　前記処理装置が有する第２の演算処理装置が、前記情報の処理を行うステップと、
　前記処理装置が有する第２の制御部が、前記定期通知信号の受信に基づき前記システム制御装置の異常を検出した場合、前記情報処理装置の制御を前記第１の制御部に替わって行うステップを有することを特徴とする情報処理装置の制御方法。
　前記第１の制御部から前記第２の制御部に前記定期通知信号を送信する代わりに、前記第２の制御部から前記第１の制御部にコマンドを送信することを特徴とする請求項６記載の情報処理装置の制御方法。
　前記情報処理装置は更に、前記システム制御装置が有する、前記情報処理装置の第１の状態情報を格納する第１の記憶部と、
　前記処理装置が有する、前記情報処理装置の第２の状態情報を格納する第２の記憶部とを有し、
　前記第１の制御部は前記処理部が有する前記第２の記憶部に格納された第２の状態情報に基づき、前記第１の演算処理装置による前記情報処理装置の制御の停止前における、前記システム制御装置が有する前記第１の記憶部に格納された前記第１の状態情報を復元することを特徴とする請求項６記載の情報処理装置の制御方法。
　前記情報処理装置はさらに、
　前記処理装置に電力を供給する電源装置を有し、
　前記第１の制御部は、環境異常情報信号の受信に基づき、前記処理装置の異常を検出した場合、前記電源装置による前記処理装置への電力の供給を停止させることを特徴とする請求項６記載の情報処理装置の制御方法。
　前記第２の演算処理装置は、オペレーティングシステムを実行し、
　前記処理装置は、前記オペレーティングシステムへの停止要求を保持する第３の記憶部を有し、
　前記システム制御装置は、前記第３の記憶部に前記停止要求を出力することにより、前記第２の演算処理装置による前記オペレーティングシステムの実行を停止させることを特徴とする請求項６記載の情報処理装置の制御方法。
　情報の処理を行う処理装置と、前記処理装置の制御を行うシステム制御装置とを有する情報処理装置の制御プログラムにおいて、
　前記システム制御装置が有する第１の演算処理装置が、前記情報処理装置の制御を行うステップと、
　前記システム制御装置が有する第１の制御部が、定期通知信号を定期的に送信するステップと、
　前記第１の制御部が、前記第１の制御部の異常を検出した場合、前記第１の演算処理装置による前記情報処理装置の制御を停止させるステップと、
　前記処理装置が有する第２の演算処理装置が、前記情報の処理を行うステップと、
　前記処理装置が有する第２の制御部が、前記定期通知信号の受信に基づき前記システム制御装置の異常を検出した場合、前記情報処理装置の制御を前記第１の制御部に替わって行うステップを前記第１の演算処理装置に実行させることを特徴とする情報処理装置の制御プログラム。
　前記第１の制御部から前記第２の制御部に前記定期通知信号を送信する代わりに、前記第２の制御部から前記第１の制御部にコマンドを送信することを特徴とする請求項１１記載の情報処理装置の制御プログラム。
　前記情報処理装置は更に、前記システム制御装置が有する、前記情報処理装置の第１の状態情報を格納する第１の記憶部と、
　前記処理装置が有する、前記情報処理装置の第２の状態情報を格納する第２の記憶部とを有し、
　前記第１の制御部は前記処理部が有する前記第２の記憶部に格納された第２の状態情報に基づき、前記第１の演算処理装置による前記情報処理装置の制御の停止前における、前記システム制御装置が有する前記第１の記憶部に格納された前記第１の状態情報を復元することを特徴とする請求項１１記載の情報処理装置の制御プログラム。
　前記情報処理装置はさらに、
　前記処理装置に電力を供給する電源装置を有し、
　前記第１の制御部は、環境異常情報信号の受信に基づき、前記処理装置の異常を検出した場合、前記電源装置による前記処理装置への電力の供給を停止させることを特徴とする請求項１１記載の情報処理装置の制御プログラム。
　前記第２の演算処理装置は、オペレーティングシステムを実行し、
　前記処理装置は、前記オペレーティングシステムへの停止要求を保持する第３の記憶部を有し、
　前記システム制御装置は、前記第３の記憶部に前記停止要求を出力することにより、前記第２の演算処理装置による前記オペレーティングシステムの実行を停止させることを特徴とする請求項１１記載の情報処理装置の制御プログラム。