WO2006082657A1

WO2006082657A1 - マルチｃｐｕコンピュータおよびシステム再起動方法

Info

Publication number: WO2006082657A1
Application number: PCT/JP2005/001770
Authority: WO
Inventors: Ryo Tabei; Hiroshi Kondo
Original assignee: Fujitsu Limited
Priority date: 2005-02-07
Filing date: 2005-02-07
Publication date: 2006-08-10
Also published as: JPWO2006082657A1; US20080010506A1; US7716520B2; JP4489802B2

Abstract

　致命的なＣＰＵのエラーが発生した場合であっても、エラー処理を確実に実行し、システムを再起動させることができるようにする。　第１のＣＰＵ（２）でハードウェアエラーが発生すると、第１のＣＰＵ（２）の第１のエラー通知回路（２ａ）により、第２のＣＰＵ（３）にエラー情報が通知される。すると、第２のＣＰＵ（３）の第２のエラー通知回路（３ａ）により、第１のＣＰＵ（２）から通知されたエラー情報が取得され、エラー情報に基づくエラー処理がオペレーティングシステム（４）に依頼される。そして、第２のＣＰＵ（３）により、オペレーティングシステム（４）に従って、エラー情報を含む障害情報の記憶装置（１）への格納処理、およびシステムの再起動処理が実行される。

Description

明細書

マルチ CPUコンピュータおよびシステム再起動方法

技術分野

[0001] 本発明は共通のオペレーティングシステムで動作する複数の CPUを搭載したマルチ CPUコンピュータおよびそのようなマルチ CPUコンピュータにおけるシステム再起動方法に関し、特にハードウェアエラー発生時にシステムを緊急停止させるマルチ C PUコンピュータおよびそのようなマルチ CPUコンピュータにおけるシステム再起動方法に関する。

背景技術

[0002] 近年、 UNIX (登録商標）サーバ、 IAサーバ（Intel社のマイクロプロセッサを搭載したサーバ機）が基幹システムに導入されるようになっている。これらの UNIXサーバや

IAサーバの多くは、マルチプロセッサ化により性能向上が図られている。なお、基幹システムに利用するサーバに関しては、性能向上のみならず信頼性の向上が重要視されている。特に、致命的なハードウェアのエラーが発生した場合は、システムの暴走やデータ破壊を防止する必要がある。そこで、致命的なハードウェアのエラーが発生すると、システムを緊急停止させていた。

[0003] ただし、基幹システムの場合、停止期間を長期化させるわけには!、かな!/、。そのため、マルチプロセッサのサーバでは、ハードウェアのエラーに起因してシステムを緊急停止させた場合でも、エラーが発生した部分のみを切り離して、速やかにかつ自動的にシステムを再起動することが重要な要件となっている。サーバで発生するハードウエアエラーとしては、例えば、 CPU (Central Processing Unit)キャッシュのマルチビットエラーの連続発生がある。

[0004] 従来の技術では、 CPUキャッシュのマルチビットエラーなどの致命的な CPUのエラ一が発生した場合、次のような処理が行われていた。まず、エラーが発生した CPUがエラー情報をレジスタに設定する。そして、 CPUは、トラップを生成してオペレーティングシステムにエラーの発生を通知する。

[0005] オペレーティングシステムは、エラーが発生した CPUでトラップ処理を実行する。トラップ処理では、オペレーティングシステムによりハードウェアのレジスタが参照され、エラー情報が取得される。

[0006] その後、エラーが発生した CPUがパニック処理を実行する。パニック処理とは、システムの暴走やデータ破壊を防止するために、システムを緊急停止して再起動することである。パニック処理では、 CPUが、エラー情報を表示/記録し、ファイルシステムの同期処理を実施してメモリダンプを採取した後、システムを再起動する。

[0007] 図 8は、従来のエラー発生時の再起動方法を示す図である。サーバ 900は、 CPU 910と CPU920とを有している。 CPU910の CPU番号は「CPU # 0」であり、 CPU9 20の CPU番号は「CPU # 1」である。 CPU910と CPU920とが実行する処理には、ハードウェアロジック回路 901で実行される処理と、オペレーティングシステム 902に従って実行される処理とがある。

[0008] CPU910と CPU920とは、ハードウェアロジック回路 901で実行する処理機能として、エラー通知回路 911, 921を有している。また、エラー通知回路 911, 921は、 C PU内で発生したノヽードウエアエラーを示す情報をオペレーティングシステムに通知する。なお、オペレーティングシステムへのエラー情報の通知とは、オペレーティングシステムのエラー処理を行うプロセスにエラー情報を渡す処理である。具体的には、 CPU910, 920は、ハードウェアエラー発生時に所定のレジスタにエラー情報を設定し、トラップを発生させる。エラー情報には、エラーの種別、 CPU番号、エラーが発生したデータのアドレスなどが含まれる。エラー情報が格納されたレジスタを、オペレーティングシステムに基づくプロセスが参照することで、エラー情報が通知される。

[0009] オペレーティングシステム 902に従って実行される処理機能としては、トラップ処理機會 912, 922とノニック処理機會 913, 923と力 ^ある。トラップ処理機會 912, 922 は、エラー情報が格納されたレジスタを参照して、エラー種別、 CPU番号、アドレスなどを獲得する機能である。パニック処理機能 913, 923は、エラー情報を表示すると共に記録し、ファイルシステムの同期を取り、メモリダンプを採取し、システムを再起動する機能である。

[0010] 図 8の例では、 CPU910でエラーが発生した場合を示している。この場合、 CPU9 10のエラー通知回路 911により、オペレーティングシステム 902に対してエラー情報が通知される。そして、 CPU910力オペレーティングシステム 902に従って実行するトラップ処理機能 912によってトラップ処理が行われ、エラー種別、 CPU番号、アドレスなどの情報がオペレーティングシステム 902で獲得される。その後、パニック処理機能 913により、エラー情報を表示 Z記録し、ファイルシステムの同期処理が実施され、メモリダンプを採取した後、システムの再起動が行われる。

[0011] このようにオペレーティングシステムでエラー処理（トラップ処理やパニック処理）を実行する場合、下位計算機のオペレーティングシステムで採取した障害情報を、上位計算機に通知することもできる (特許文献 1参照)。

[0012] さらに、障害プロセッサ力の障害情報を採取した診断プロセッサが上位プロセッサに障害の発生を通知し、上位プロセッサが障害プロセッサを初期化し再起動することで、障害プロセッサを動作状態に復帰させる技術もある (例えば、特許文献 2参照

) o

[0013] また、マルチ CPUシステムにおける障害発生時の障害情報採取技術として、障害情報採取を複数のプロセッサで並列に実行することで障害情報採取時間を短縮する技術がある。この技術では、障害発生を検出したプロセッサ力も他のプロセッサに対して、障害情報採取を指示し、指示を受けた他のプロセッサが障害情報の採取を行う（例えば、特許文献 3参照)。

特許文献 1：特開平 4 340631号公報

特許文献 2：特開平 2-71336号公報

特許文献 3：特開平 11 338838号公報

発明の開示

発明が解決しょうとする課題

[0014] しかし、図 8に示した手順では、エラーが発生した CPUでトラップ処理、パニック処理を行い、システムを再起動している。そのため、 CPUキャッシュのマルチビットエラ一が連続発生した場合は、その CPUは、正常に動作できないことがある。正常に動作できな、CPUによって、システムのトラップ処理やパニック処理を実行させようとしても、正しく処理できるとは限らない。そのため、ハードウェアエラー発生時に、動作中のシステムがハングアップしたり、システムの再起動に失敗したりする虞がある。その結果、システムの運用が長時間停止するなどの深刻な問題を引き起こす危険があつた o

[0015] システムのエラー処理が正しく実行されない場合、具体的には、以下の問題の発生が予想される。

エラー情報が表示されない場合は、再発防止のために交換すべき CPUが特定できない。この場合、問題発生後にシステムを手動で再起動しても、再度同じエラーによる問題が再発する可能性がある。

[0016] ファイルシステムの同期処理が実施できな!/、場合は、ファイルキャッシュ（メモリ）上に存在するデータをディスクに書き出すことができない。そのため、ファイル破壊、データ破壊が発生する可能性がある。

[0017] メモリダンプの採取に失敗した場合は、メモリダンプから、いつ、どの処理を実行中に、何のエラーが発生した力などの詳細情報を解析する作業ができない。例えば、 C PUのエラーに基づくエラー処理におけるパニック処理で再度 CPUのエラーが発生して、正しくエラー情報を表示できない場合がある。この場合、メモリダンプの採取までも失敗していると、一次要因を特定する手段が無くなってしまう。

[0018] システムの再起動に失敗する場合は、システムの運用が長時間停止する深刻な問題になることがある。基幹業務のシステムの運用停止期間が長期化すると、社会問題に発展する可能性もある。

[0019] なお、特許文献 1に記載された技術では、障害が発生した下位計算機のオペレーティングシステムにより障害情報を通知する。そのため、障害を有する下位計算機上でオペレーティングシステムが正常に動作する保証はなぐ上位計算機に対して障害情報が通知できない事態に陥る虞がある。

[0020] また、特許文献 2に記載された技術では、診断プロセッサが他のプロセッサから障害情報を採取し、上位プロセッサが障害プロセッサの初期化および再起動を行う。すなわち、各プロセッサが個別に動作しており、単独で再起動可能であることが前提となっている。ところが、多くのマルチ CPUコンピュータでは、共通のオペレーティングシステムで複数の CPUが動作している。そのようなマルチ CPUコンピュータでは、複数の CPUで共有するデータが存在し、 1つの CPUを再起動するにはデータの整合性を確保する処理などが必要である。従って、共通のオペレーティングシステムで複数の CPUが動作するマルチ CPUコンピュータに、特許文献 2に記載された技術を適用するのは困難である。

[0021] さらに、特許文献 3に記載された技術では、障害が発生したプロセッサとは別のプロセッサで障害情報を採取するため、障害情報の採取に関しては正常なプロセッサで行うことができる。ただし、システムの再起動については、障害が発生したプロセッサで行っている。その結果、正常に動作しないプロセッサで再起動処理を実行しても、正しく再起動できない可能性がある。再起動に失敗すれば、システム停止時間が長期化し、運用効率が悪化してしまう。

[0022] 本発明はこのような点に鑑みてなされたものであり、致命的な CPUのエラーが発生した場合であっても、エラー処理を確実に実行し、システムを再起動させることができるマルチ CPUコンピュータおよびシステム再起動方法を提供することを目的とする。課題を解決するための手段

[0023] 本発明では上記課題を解決するために、図 1に示すような共通のオペレーティングシステム 4で動作する複数の CPUを搭載したマルチ CPUコンピュータが提供される。本発明に係るマルチ CPUコンピュータは、不揮発性の記憶装置 1と、第 1の CPU2 と第 2の CPU3とを有する。第 1の CPU2は、ハードウェアエラーが発生した場合に他の CPUにエラー情報を通知する第 1のエラー通知回路 2aが組み込まれて、る。第 2 の CPU3は、第 1の CPU2から通知されたエラー情報を取得し、エラー情報をォペレ一ティングシステム 4に通知する第 2のエラー通知回路 3aが組み込まれており、第 2 のエラー通知回路 3aによりオペレーティングシステム 4に対してエラー情報が通知された場合、オペレーティングシステム 4に従って、エラー情報を含む障害情報の記憶装置への格納処理、およびシステムの再起動処理を実行する。

[0024] このようなマルチ CPUコンピュータによれば、第 1の CPU2でハードウェアエラーが発生すると、第 1の CPU2の第 1のエラー通知回路 2aにより、第 2の CPU3にエラー情報が通知される。すると、第 2の CPU3の第 2のエラー通知回路 3aにより、第 1の C PU2から通知されたエラー情報が取得され、エラー情報がオペレーティングシステム 4に通知される。そして、第 2の CPU3により、オペレーティングシステム 4に従って、エラー情報を含む障害情報の記憶装置 1への格納処理、およびシステムの再起動処理が実行される。

[0025] また、本発明では上記課題を解決するために、共通のオペレーティングシステムで動作する複数の CPUを搭載したマルチ CPUコンピュータのシステム再起動方法において、第 1の CPUにおいてハードウェアエラーが発生した場合に、前記第 1の CP Uに組み込まれた第 1のエラー通知回路が第 2の CPUにエラー情報を通知し、前記第 2の CPUに組み込まれた第 2のエラー通知回路力前記第 1の CPU力通知された前記エラー情報を取得し、前記エラー情報を前記オペレーティングシステムに通知し、前記第 2のエラー通知回路により前記オペレーティングシステムに対して前記エラー情報が通知された場合、前記第 2の CPUが前記オペレーティングシステムに従って、前記エラー情報を含む障害情報の不揮発性の記憶装置への格納処理、およびシステムの再起動処理を実行する、ことを特徴とするシステム再起動方法が提供される。

[0026] 共通のオペレーティングシステムで動作する複数の CPUを搭載したマルチ CPUコンピュータのシステム再起動方法において、第 1の CPUにおいてハードウェアエラーが発生した場合、前記第 1の CPUに組み込まれた第 1のエラー通知回路が第 2の C

PUにエラー情報を通知し、前記第 2の CPUに組み込まれた第 2のエラー通知回路力前記第 1の CPUから通知された前記エラー情報を取得し、前記エラー情報を前記オペレーティングシステムに通知し、前記第 2のエラー通知回路により前記オペレ一ティングシステムに対してエラー情報が通知された場合、前記第 2の CPUが前記オペレーティングシステムに従って、前記エラー情報を含む障害情報の不揮発性の記憶装置への格納処理、およびシステムの再起動処理を実行する、ことを特徴とするシステム再起動方法が提供される。

[0027] このようなシステム再起動方法によれば、第 1の CPUにおいてハードウェアエラーが発生した場合、第 1の CPUに組み込まれた第 1のエラー通知回路により、第 2の C PUにエラー情報が通知される。すると、第 2の CPUに組み込まれた第 2のエラー通知回路により、第 1の CPU力通知されたエラー情報が取得され、エラー情報がオペレーティングシステムに通知される。そして、第 2の CPUにより、オペレーティングシステムに従って、エラー情報を含む障害情報の不揮発性の記憶装置への格納処理、およびシステムの再起動処理が実行される。

発明の効果

[0028] 本発明では、ハードウェアエラーが発生した CPU力エラー情報を受け取った他の

CPUで障害情報の格納およびシステムの再起動処理を実行するようにした。これにより、 1つの CPUに致命的なエラーが発生した場合でも、障害情報格納力もシステム再起動までの処理を確実に行うことが可能となる。

[0029] 本発明の上記および他の目的、特徴および利点は本発明の例として好ま U、実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

図面の簡単な説明

[0030] [図 1]本実施の形態の概略を示す図である。

[図 2]本発明の実施に用いるサーバのハードウェア構成例を示す図である。

[図 3]サーバの主な機能を示すブロック図である。

[図 4]CPUのエラー通知回路とオペレーティングシステムのエラー処理機能との関係を示す図である。

[図 5]エラー情報のデータ構造例を示す図である。

[図 6]他の CPUで正常にエラー処理が実行された場合を示すシーケンス図である。

[図 7]他の CPUによるエラー処理が失敗した場合を示すシーケンス図である。

[図 8]従来のエラー発生時の再起動方法を示す図である。

発明を実施するための最良の形態

[0031] 以下、本発明の実施の形態を図面を参照して説明する。

図 1は、本実施の形態の概略を示す図である。図 1には、本実施の形態に係るマルチ CPUコンピュータの機能の概略が示されている。マルチ CPUコンピュータは、記憶装置 1、第 1の CPU2、および第 2の CPU3を有している。第 1の CPU2と第 2の CP U3とは、共通のオペレーティングシステム 4で動作して!/、る。

[0032] 記憶装置 1は、不揮発性であり、電源遮断時もデータを保持することができる。記憶装置 1としては、例えば、ハードディスクドライブなどの磁気記憶装置が使用できる。第 1の CPU2は、ハードウェアエラーが発生した場合に他の CPUにエラー情報を通知する第 1のエラー通知回路 2aが組み込まれて、る。ハードウェアエラーとしては、例えば、キャッシュメモリのマルチビットエラーがある。エラー情報には、例えば、ェラー種別、エラーが発生した CPUの CPU番号、エラーが発生したデータのアドレスが含まれる。

[0033] 第 2の CPU3は、第 1の CPU2から通知されたエラー情報を取得し、エラー情報をオペレーティングシステム 4に通知する第 2のエラー通知回路 3aが組み込まれている。第 2のエラー通知回路 3aによりオペレーティングシステム 4に対してエラー情報が通知された場合、第 2の CPU3は、オペレーティングシステム 4に従って、エラー情報を含む障害情報の記憶装置 1への格納処理 (ステップ S1)、およびシステムの再起動処理 (ステップ S2)を実行する。障害情報には、例えば、エラー情報以外にメモリダンプ情報を含めることができる。

[0034] このようなマルチ CPUコンピュータによれば、第 1の CPU2でハードウェアエラーが発生すると、第 1の CPU2の第 1のエラー通知回路 2aにより、第 2の CPU3にエラー情報が通知される。すると、第 2の CPU3の第 2のエラー通知回路 3aにより、第 1の C PU2から通知されたエラー情報が取得され、エラー情報がオペレーティングシステム 4に通知される。そして、第 2の CPU3により、オペレーティングシステム 4に従って、エラー情報を含む障害情報の記憶装置 1への格納処理 (ステップ S1)、およびシステムの再起動処理 (ステップ S 2)が実行される。これにより、マルチ CPUコンピュータ全体の再起動が行われる。

[0035] このように正常な CPUがオペレーティングシステムにエラー情報を通知するようにすれば、エラー情報を含む障害情報の格納およびシステムの再起動を確実に行うことができる。例えば、 CPUキャッシュのマルチビットエラーが発生した場合は、 CPUキャッシュのマルチビットエラーの影響を受けず、確実にエラー情報の格納およびシステムの再起動を行うことができる。

[0036] なお、第 1の CPU2では、エラー情報を通知後、オペレーティングシステム 4に従つて、一定時間、第 1の CPU2で実行する処理を停止することができる。このように、ェラーの発生した CPUの処理を一時的に停止することにより、障害を有する第 1の CP U2が正常な第 2の CPU3の処理に影響を与えな、ようにすることができる。その結果、第 2の CPU3によるエラー処理を確実に行うことができる。

[0037] また、エラーの発生した第 1の CPU2は、処理を一定時間停止している間にシステムの再起動が行われなければ、処理を再開し、エラー処理を実行することができる。すなわち、エラーが発生した CPUでも、念のため一定時間後にトラップ処理とパニツク処理を実行するようにする。これは、他の CPUで発生したエラーが伝播した場合など、エラーを検出した CPUは正常であり、本当に故障している CPUは他に存在する場合を考慮した対策である。

[0038] ところで、図 1の例では、第 1の CPU2でエラーが発生し、第 2の CPU3でエラー処理を実行する場合の構成を示している力マルチ CPUコンピュータ内の各 CPUに第 1のエラー通知回路 2aと第 2のエラー通知回路 3aとを組み込むことができる。これにより、どの CPUでエラーが発生しても、他の CPUがエラー処理を実行できるようになる。以下、全ての CPU力他の CPU力ものエラー情報に基づいてエラー処理を実行できるようなマルチ CPUコンピュータの例を採り、本発明の実施の形態の詳細を説明する。

[0039] 図 2は、本実施の形態に用いるサーバのハードウェア構成例を示す図である。サーノ 100は、例えば UNIXサーバであり、複数の CPU110, 120, 130, 140を有している。各 CPU110, 120, 130, 140には、サーノ 100内で一意に識另 Uするための C PU番号が設定されている。 CPU110の CPU番号は「CPU # 0」である。 CPU120 の CPU番号は「CPU # 1」である。 CPU 130の CPU番号は「CPU # 2」である。 CP U140の CPU番号は「CPU # 3」である。

[0040] CPU110, 120, 130, 140に ίま、システムノス 106を介して共有メモリ 101、ノヽードディスクドライブ（HDD:Hard Disk Drive) 102、通信インタフェース 103、グラフイツク処理装置 104、および入力インタフェース 105が接続されて!、る。

[0041] 共有メモリ 101には、 CPU110, 120, 130, 140に実行させる才ぺレーティングシステムのプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、共有メモリ 101に ίま、 CPU110, 120, 130, 140による処理に必要な各種データが格納される。 HDD102には、オペレーティングシステムやアプリケーションプログラムが格納される。 [0042] 通信インタフェース 103は、ネットワーク 10に接続されている。通信インタフェース 1 03は、ネットワーク 10を介して、他のコンピュータとの間でデータの送受信を行う。

[0043] グラフィック処理装置 104には、モニタ 11が接続されている。グラフィック処理装置 1 04ίま、 CPU110, 120, 130, 140力らの命令に従って、画像をモニタ 11の画面に表示させる。入力インタフェース 105には、キーボード 12とマウス 13とが接続されている。入力インタフェース 105は、キーボード 12やマウス 13から送られてくる信号を、システムノス 106を介して CPU110, 120, 130, 140【こ送信する。

[0044] 以上のようなハードウェア構成のサーバ 100において、オペレーティングシステムが実行される。この結果、オペレーティングシステムで定義されている各種機能が、サーノ 100内の各 CPU110, 120, 130, 140で実現される。

[0045] 図 3は、サーバの主な機能を示すブロック図である。サーバ 100には、ハードウェアロジック回路 100aによって実現される機能と、オペレーティングシステム 200などのソフトウェアを CPU110, 120, 130, 140が実行することによって実現される機能とがある。図 3では、点線を境界にして上段にハードウアの機能が示されており、下段にソフトウェアの機能が示されて、る。

[0046] ハードウェアロジック回路 100aの機能としては、主に各 CPU110, 120, 130, 14 0の処理演算機能、共有メモリ 101のデーター時記憶機能、 HDD102のデータ保存機會カ Sある。各 CPU110, 120, 130, 140に ίま、エラー通知回路 111, 121, 131, 141力設けられている。エラー通知回路 111, 121, 131, 141は、オペレーティングシステム 200へのエラー情報の通知、および他の CPUとの間のエラー情報の受け渡しを行う処理機能である。

[0047] 共有メモリ 101には、 CPU間通信領域 101aが設けられている。 CPU間通信領域 1 Olaには、 CPU110, 120, 130, 140力 ^互いに受け渡すべき†青報を格糸内するための記憶領域である。

[0048] なお、共有メモリ 101の CPU間通信領域 101aを利用した CPU間通信技術は、例えば、特開平 6— 243104号公報、特開平 6— 243101号公報、特開平 6— 332864号公報に記載されている。

[0049] オペレーティングシステム 200には、ハードウェアエラー発生時のリカバリ機能として、トラップ処理部 210、およびパニック処理部 220が設けられている。トラップ処理部 210は、ハードウェアエラー発生時にトラップ処理を実行する。パニック処理部 220 は、パニック処理を行う。

[0050] パニック処理部 220には、エラー情報表示 Z記録部 221、ファイルシステム同期部 222、メモリダンプ部 223、システム再起動部 224が含まれる。エラー情報表示/記録部 221は、エラー情報の表示や HDD102への記録処理を行う。ファイルシステム同期部 222は、ファイルシステムの整合性のチェックや不整合の修正などの処理を行う。メモリダンプ部 223は、共有メモリ 101内のデータのダンプ処理を行う。システム再起動部 224は、システムの再起動処理を行う。

[0051] また、オペレーティングシステム 200の他の機能としては、ファイル管理部 240、メモリ管理部 241、プロセス管理部 242、割り込み処理部 243、システムコール 244、ドライノく 245、スケジューラ 246、シェル 247、デーモン 248、コマンド処理部 249、ライブラリ 250などがある。

[0052] ファイル管理部 240は、 HDD102内のファイルを管理する。メモリ管理部 241は、共有メモリ 101内のデータを管理する。プロセス管理部 242は、各 CPUで実行されるプロセスを管理する。割り込み処理部 243は、 CPUへの割り込み処理を管理する。システムコール 244は、 CPUで実行されるプロセスからの要求に基づくオペレーティングシステムの呼び出し機能である。ドライバ 245は、周辺機器の制御機能である。スケジューラ 246は、実行する処理のスケジュールを管理する機能である。シェル 24 7は、ユーザからの支持を OSに伝える機能である。デーモン 248は、メモリに常駐して各種サービスを提供する機能である。コマンド処理部 249は、入力されたコマンドを解釈し、コマンドに応じた処理を実行する機能である。ライブラリ 250、他のプロダラムから利用できるように部品化された各種機能をまとめたものである。

[0053] なお、オペレーティングシステム 200の各機能は、 CPU110, 120, 130, 140力オペレ一ティングシステム 200用のプログラムを実行することで、それぞれ CPU110, 1 20, 130, 140上で個別に実現される。

[0054] 図 4は、 CPUのエラー通知回路とオペレーティングシステムのエラー処理機能との関係を示す図である。なお、図 4では、 CPU110と CPU120、およびそれらの CPU1 10, 120で実行されるオペレーティングシステム 201, 202でのエラー通知処理を示している。

[0055] CPU110のエラー通知回路 111は、 CPU110で発生したエラーのエラー情報 31 を他の CPU120へ通知する機能、他の CPU120で発生したエラーのエラー情報 32 を CPU110が実行するオペレーティングシステム 201へ通知する機能、および CPU 110で発生したエラーのエラー情報 31を CPUl 10が実行するオペレーティングシステム 201へ通知する機能を有している。同様に、 CPU120のエラー通知回路 121は、 CPU120で発生したエラーのエラー情報 32を他の CPU110へ通知する機能、他の CPU110で発生したエラーのエラー情報 31を CPU120が実行するオペレーティングシステム 202へ通知する機能、および CPU120で発生したエラーのエラー情報 32を CPU120が実行するオペレーティングシステム 202へ通知する機能を有している。

[0056] これにより、 CPU110で発生したエラーのエラー情報 31は、 CPU120のエラー通知回路 121を介して、 CPU120が実行するオペレーティングシステム 202に通知されると共に、 CPU110が実行するオペレーティングシステム 201にも通知される。また、 CPU120で発生したエラーのエラー情報 32は、 CPU110のエラー通知回路 11 1を介して、 CPU110が実行するオペレーティングシステム 201に通知されると共に、 CPU120が実行するオペレーティングシステム 202にも通知される。

[0057] CPU110が実行するオペレーティングシステム 201では、 CPU110で発生したェラーのエラー情報をトラップ処理部 211が受け取る。その場合、トラップ処理部 211は、 CPU110で実行する処理を一時停止する。トラップ処理部 211は、 CPU110の処理を停止する際には、例えば、ハードウェアに CPUの動作を一時的に停止する機能があれば、その機能を使用することができる。また、トラップ処理部 211は、ソフトゥェァで単純なループ処理を実行させることで、 CPU110における他の処理を停止させることちでさる。

[0058] このように、 CPU110自身でエラーが発生した場合に CPU110の処理を一時停止させるのは、エラー発生時の情報を保持させるためである。すなわち、エラー発生後も CPU110が通常動作を継続して、ると、メモリ内のエラー発生の原因を特定するための有効な情報が、他の情報で上書きされる可能性がある。そこで、 CPU110の処理を一時的に停止させることで、エラー発生時の正確な情報取得を可能としている。また、障害を有する CPU110を停止させることで、 CPU120におけるエラー処理を安定して実行することが可能となる。

[0059] CPU110の処理を停止させた場合、トラップ処理部 211は所定の時間経過後、 CP U110の処理を再開させる。 CPU110の処理を再開させるのは、他の CPU120によるエラー処理が失敗した場合、 CPU110自らがエラー処理を実行するためである。なお、他の CPU120においてエラー処理が正常に実行された場合、エラー処理の最後にシステムの再起動処理が実行される。その結果、 CPU110の内部パラメタも初期化され、 CPU110におけるエラー処理はその時点で取りやめとなる。

[0060] トラップ処理部 211は、 CPU110のエラー通知回路 111から他の CPU120のエラ一情報を受け取った場合、および CPU110のエラー情報を受け取り、処理を一時停止させた後に再開した場合、トラップ処理を実行する。具体的には、トラップ処理部 2 11は、 CPU110内の所定のレジスタを参照してエラー種別、 CPU番号、アドレスなどを獲得する。トラップ処理部 211は、トラップ処理終了後、エラー情報をパニック処理部 231に渡す。

[0061] パニック処理部 231は、パニック処理を行う。パニック処理では、エラー情報表示 Z 記録部 221が、エラー情報をモニタに表示すると共に、エラー情報を HDD102に格納する。また、ファイルシステム同期部 222が、ファイルシステムと実際のファイルの内容との同期をとる（HDD102内に保持されているファイルシステムの構造データを実際のファイルの更新に同期させて更新する）。さらに、メモリダンプ部 223が、共有メモリ 101の内容のダンプ処理を行う（共有メモリ 101の内容を HDD 102に格納する）。最後に、システム再起動部 224が、サーバ 100全体のシステムを再起動させる。

[0062] CPU120で実行されるオペレーティングシステム 202も、 CPU110で実行されるォペレ一ティングシステム 201と同様の処理機能を有する。

図 5は、エラー情報のデータ構造例を示す図である。エラー情報 31には、エラー種別、 CPU番号、アドレスなどが含まれる。エラー種別は、発生したエラーの種別を表す識別コードによって表される。 CPU番号は、エラーが発生した CPUの識別番号である。アドレスは、エラーが発生したデータのアドレスである。

[0063] 次に、 CPU110でノヽードウエアエラーが発生した場合の処理手順を以下に示す。

図 6は、他の CPUで正常にエラー処理が実行された場合を示すシーケンス図である。 CPU番号が「CPU # 0」の CPU110でハードウェアエラーが発生すると、 CPU1 10のエラー通知回路 111にお、て、正常な他の CPUの検索が行われる（ステップ S 11)。例えば、 CPU110でキャッシュのマルチビットエラーなどの致命的なエラーが発生した場合に、エラー通知回路 111が正常な CPUを検索する。具体的には、エラ一通知回路 111は、エラーを検出してヽな、CPUの中で最も CPU番号の小さ!/、ものを正常な CPUとして選択する。なお、エラーを検出していない CPUは、共有メモリ 101に格納されて、る各 CPUのステータス（正常動作中力否かが設定されて、る）の情報を取得し、そのステータスを参照することで判断できる。

[0064] 次に、 CPU110のエラー通知回路 111は、ステップ S 11で選択された CPU 120に対して、エラー情報を通知する (ステップ S 12)。すなわち、エラー通知回路 111が、共有メモリ 101の CPU間通信領域 101aにエラー情報を書き込み、 CPU120のエラ一通知回路 121がそのエラー情報を読み込む。これにより、 CPU110によるエラーの発生が CPU120に通知される。

[0065] CPU110のエラー通知回路 111は、 CPU110で発生したエラーのエラー情報を、 CPU110が実行するオペレーティングシステム 201に通知する（ステップ S13)。具体的には、エラー通知回路 111は、エラー種別、エラーが発生した CPU番号、ァドレスなどのエラー情報を所定のレジスタに格納する。その後、エラー通知回路 111は、トラップを発生させる（オペレーティングシステム 201のトラップ処理部 211を起動する ) oすると、オペレーティングシステム 201のトラップ処理部 211が、エラー情報が書き込まれたレジスタの内容を参照する。これにより、オペレーティングシステム 201にェラー情報が通知される。

[0066] CPU110が実行するオペレーティングシステム 201では、トラップ処理部 211が CP Ul 10の通常処理 (停止した処理を再開させるための最低限の処理を除く全ての処理）を一時停止させる（ステップ S 14)。

[0067] CPU110からエラー情報を受け取った CPU120では、エラー通知回路 121が CP U110のエラー情報を CPU120が実行するオペレーティングシステム 202に通知する（ステップ S15)。これは、正常な CPU120が、エラー種別、エラーが発生した CPU 番号、アドレスなどのエラー情報をレジスタに設定した後、トラップを生成してォペレ一ティングシステムにエラーの発生を通知する処理である。

[0068] トラップの発生が通知されることにより、オペレーティングシステム 202によりトラップ処理が行われる（ステップ S16)。トラップ処理では、オペレーティングシステム 202のトラップ処理部 212が、レジスタを参照して CPU110のエラー情報（エラー種別、 CP U番号、アドレスなど)を獲得する。

[0069] その後、オペレーティングシステム 202によりパニック処理が行われる（ステップ S17 )。パニック処理では、パニック処理部 232内の各処理機能力次の処理を行う。エラ一情報表示 Z記録部は、 CPU110のエラー情報を表示 Z記録する。ファイルシステム同期部は、ファイルシステムの同期処理を実施する。メモリダンプ部は、メモリダンプを採取する。システム再起動部は、他のパニック処理終了後にシステムの再起動処理を行う。その結果、サーバ 100がシャットダウンされた後、再起動される。

[0070] このようにして、 CPU110でエラーが発生した場合、他の CPU120によってエラー処理が実行されるため、エラー情報やメモリダンプの採取やシステムの再起動を確実に行うことができる。なお、処理を依頼した CPU120が、何らかの原因でエラー処理を実行できない場合もあり得る。その場合、 CPU110自らがエラー処理を続行する。

[0071] 図 7は、他の CPUによるエラー処理が失敗した場合を示すシーケンス図である。この例は、 CPU120でのパニック処理 (ステップ S 17)に失敗した場合である。ステップ S11からステップ S17までの処理は図 6と同様であるため、説明を省略する。

[0072] CPU120におけるパニック処理に失敗すると、システムの再起動が行われない。そのため、 CPU110のオペレーティングシステム 201におけるトラップ処理部 211では、処理の一時停止（ステップ S15)力所定時間経過後、 CPU110での処理を再開する（ステップ S 18)。

[0073] そして、 CPU110で実行されるオペレーティングシステム 201のトラップ処理部 211 によってトラップ処理が行われる（ステップ S 19)。さらに、パニック処理部 231によつて、パニック処理が行われる（ステップ S20)。その結果、サーバ 100が再起動される [0074] 以上説明したように、マルチ CPUコンピュータシステムにお、て、従来技術ではェラー発生 CPUでエラー情報の記録などの後処理を行って、たが、本実施の形態によれば、他の正常な CPUがエラー発生 CPUの後処理を行う。この方式を採ることで、システムの信頼性を向上させることができる。

[0075] 具体的には、 CPUキャッシュのマルチビットエラーが連続発生する場合などに、トラップ処理やパニック処理で同じエラーが発生して、システムがハングアップしたり、システムの再起動に失敗したりする問題を防止できる。これにより、システムの運用が長時間停止する問題も防止できる。

[0076] し力も、故障 CPUを早期に交換することができ、同一 CPUのエラーにより、繰り返しシステムに被害を及ぼす問題も防止できる。その結果、ファイルシステムの同期処理が実行できなヽことに起因するファイル破壊、データ破壊を防止できる。

[0077] また、メモリダンプが確実に採取できることで、メモリダンプが採取できないことにより、エラーの一次要因を特定できない事態を防止できる。

また、エラーの発生した CPUの処理を一時停止させることにより、正常な CPUの処理への影響を無くすことができ、確実、安全にトラップ処理、パニック処理を行うことができる。

[0078] さらに、エラーの発生した CPUの処理を再開してトラップ処理、パニック処理を実行することにより、万が一、エラーを検出していない CPUでのトラップ処理やパニック処理がハングアップする場合でも、エラー処理を実行することができる。

[0079] すなわち、エラーを検出されていない CPUでトラップ処理、パニック処理などのエラ一処理を実行するが、実際にはエラーが検出されていない CPUの障害で、他の CP Uにおけるエラーが誘発される場合もある。その場合、正常な CPUでエラーが検出され、故障している CPUでトラップ処理、パニック処理が実行され、システムがハングァップしてしまう可能性もある。

[0080] そこで、本実施の形態では、万が一に備えて、一定時間後にエラーを検出した CP uでも、トラップ処理、パニック処理を実行する。これにより、エラー情報の表示 Z記録、ファイルシステムの同期、メモリダンプの採取、システムの再起動を、確実に実施できる。

[0081] なお、上記の処理機能は、コンピュータによって実現することができる。その場合、オペレーティングシステムに基づいてサーバ上で実現される機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置 (HDD)、フレキシブルディスク（FD)、磁気テープなどがある。光ディスクには、 DVD (Digital Versatile Disc)、 DVD-RAM (Random Access Memory)、 CD-ROM (Compact Disc Read Only Memory)、 CD— R (Recordable) ZRW (Rewritable)などがある。光磁気記録媒体には、 MO (Magneto-Optical disk)などがある。

[0082] プログラムを流通させる場合には、例えば、そのプログラムが記録された DVD、 CD

ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータ力他のコンピュータにそのプログラムを転送することもできる。

[0083] プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータ力転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置力プログラムを読み取り、プロダラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンビュータは、サーバコンピュータ力もプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。

[0084] 上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなぐ対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

符号の説明記憶装置

第 1の CPU

a 第 1のエラー通知回路第 2の CPU

a 第 2のエラー通知回路オペレーティングシステム

Claims

請求の範囲

[1] 共通のオペレーティングシステムで動作する複数の CPUを搭載したマルチ CPUコンピュータにおいて、

不揮発性の記憶装置と、

ハードウェアエラーが発生した場合に他の CPUにエラー情報を通知する第 1のエラ一通知回路が組み込まれた第 1の CPUと、

前記第 1の CPUから通知された前記エラー情報を取得し、前記エラー情報を前記オペレーティングシステムに通知する第 2のエラー通知回路が組み込まれており、前記第 2のエラー通知回路により前記オペレーティングシステムに対してエラー情報が通知された場合、前記オペレーティングシステムに従って、前記エラー情報を含む障害情報の前記記憶装置への格納処理、およびシステムの再起動処理を実行する第 2の CPUと、

を有することを特徴とするマルチ CPUコンピュータ。

[2] CPU間通信領域を有する共有メモリをさらに有し、

前記第 1の CPUの前記第 1のエラー通知回路は、前記エラー情報を前記共有メモリの前記 CPU間通信領域に格納し、

前記第 2の CPUの前記第 2のエラー通知回路は、前記 CPU間通信領域力前記エラー情報を取得することを特徴とする請求の範囲第 1項記載のマルチ CPUコンビユータ。

[3] 前記第 1の CPUには、前記エラー情報を前記オペレーティングシステムに通知する第 3のエラー通知回路がみ込まれており、前記第 3のエラー通知回路により前記オペレーティングシステムに対して前記エラー情報が通知された場合、前記第：！^のじ

PUは、前記オペレーティングシステムに従って処理を一時停止することを特徴とする請求の範囲第 1項記載のマルチ CPUコンピュータ。

[4] 前記第 1の CPUは、処理の一時停止中にシステムが再起動されない場合、前記ォペレ一ティングシステムに従って、処理停止から所定期間経過後、前記エラー情報を含むデータの前記記憶装置への格納処理、およびシステムの再起動処理を実行することを特徴とする請求の範囲第 3項記載のマルチ CPUコンピュータ。

[5] マルチ CPUコンピュータにおいて、

不揮発性の記憶装置と、

ハードウェアエラーが発生した場合に他の CPUにエラー情報を通知する第 1のエラ一通知回路と、ハードウェアエラーが発生した他の CPU力通知された被通知エラ一情報を取得し、前記被通知エラー情報をオペレーティングシステムに通知する第 2 のエラー通知回路とが組み込まれており、前記第 2のエラー通知回路により前記オペレーティングシステムに対して前記エラー情報が通知された場合、前記オペレーティングシステムに従って、前記他 CPUエラー情報を含む障害情報の前記記憶装置への格納処理、およびシステムの再起動処理を実行する、共通の前記オペレーティングシステムで動作する複数の CPUと、

を有することを特徴とするマルチ CPUコンピュータ。

[6] 共通のオペレーティングシステムで動作する複数の CPUを搭載したマルチ CPUコンピュータのシステム再起動方法にぉヽて、

第 1の CPUにお、てハードウェアエラーが発生した場合に、前記第 1の CPUに組み込まれた第 1のエラー通知回路が第 2の CPUにエラー情報を通知し、

前記第 2の CPUに組み込まれた第 2のエラー通知回路力前記第 1の CPU力通知された前記エラー情報を取得し、前記エラー情報を前記オペレーティングシステムに通知し、前記第 2のエラー通知回路により前記オペレーティングシステムに対して前記エラー情報が通知された場合、前記第 2の CPUが前記オペレーティングシステムに従って、前記エラー情報を含む障害情報の不揮発性の記憶装置への格納処理、およびシステムの再起動処理を実行する、

ことを特徴とするシステム再起動方法。