WO2010109631A1

WO2010109631A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2010109631A1
Application number: PCT/JP2009/056126
Authority: WO
Inventors: 高利福田; 由美子勝山
Original assignee: 富士通株式会社
Priority date: 2009-03-26
Filing date: 2009-03-26
Publication date: 2010-09-30

Abstract

　外部メモリ１３からローカルメモリ１２へとプログラムをロードして命令を実行するＣＰＵ１１によるローカルメモリ１２からの命令フェッチの対象データのアドレスを、ＡＨＲ１５Ａに格納する。また、パリティチェッカ１６において、ローカルメモリ１２からの命令フェッチ又はオペランドフェッチの対象データにエラーが検出されると、ＡＨＲ１５Ａに格納されたアドレスで示される命令を再実行する。その結果、再度エラーが検出されたときには、エラー内容がソフトエラーかハードエラーかを判定し、エラー内容がソフトエラーであり、かつ、命令フェッチの対象データでエラーが検出されたときには、ＡＨＲ１５Ａに格納されたアドレスで示される命令フェッチの対象データを外部メモリ１３からロードしてローカルメモリ１２のデータを修復し、命令を再実行する。これにより、パリティエラーが生じたときに、エラー内容に応じた最小限のエラー対処が実現される。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本発明は、プログラムの実行時にエラーが発生したときに、エラーからの復旧処理を行う技術に関する。

　一般に、コンピュータのＣＰＵ（Central Processing Unit）におけるプログラム実行時においては、キャッシュやメモリからフェッチしたデータのエラーチェックが行われる。そして、エラーチェックにおいては、様々な要因により、フェッチしたデータにエラーが検出されることがある。かかるエラーが検出されたとき、従来では、処理の続行が不可能であるとして、処理中のデータを全て破棄し、システムを停止させていた。なお、ＥＣＣ（Error Correction Code）を採用する一部のシステムでは、データの修正を行うこと自体は可能だが、必要とする冗長ビットが多く、その機構が複雑かつ高コストであった。

　そして、上述のようにシステムを停止させると、システム障害による業務等への影響が大きい。このため、システムの停止を回避しつつエラー復旧処理を行うべく、次のような技術が提案されている。即ち、エラーが検出された場合に、割込み処理としてエラー復旧処理を行い、エラーが発生したメモリを修復した上で、割込み処理から復帰させる。また、次のような技術も提案されている。即ち、マイクロプログラムを、外部記憶装置ではなく、高速にアクセスすることが可能なＲＡＭ（Random Access Memory）に格納しておき、ＲＡＭからマイクロプログラム制御メモリにプログラムをロードして実行する。そして、マイクロプログラム制御メモリにエラーが生じた時には、プログラムの実行を停止し、ＲＡＭから当該プログラムをロードして、メモリ上のデータ修復を行う。

　ここで、メモリからフェッチしたデータにおいて検出されるエラー内容には、様々な種類がある。例えば、メモリ自体がハードエラーを起こしている場合がある。また、メモリがα線や宇宙線の照射を受けることによりメモリ上のデータに１ビットの誤りが発生するソフトエラーもある。さらに、一時的なエラー、例えば、メモリからのフェッチ時に発生するノイズに起因するビット反転等があり、かかるエラーが生じる場合、メモリ上のデータ自体が破壊されているわけではない。このため、メモリを修復するまでもなく、当該命令の再実行をするだけで、正常なデータを読出すことができることが多い。
特開平６－３３２７３６号公報特開平７－２１９７９４号公報特開平２－１４８３４３号公報

　しかし、上述のような従来技術では、エラーが発生したときに、エラー内容に関わらず同様の対処を行っていた。このため、本来であればより迅速にエラーから復旧できるようなエラー内容であっても、そのエラー内容に応じた適切な対処がなされていなかった。
　以上のような問題点に鑑み、命令の実行においてフェッチされたデータにエラーが生じたときに、エラー内容を判定し、エラー内容に応じた最小限のエラー対処を行うようにすることで、エラー発生時における迅速な復旧を可能にすることを目的とする。

　開示のシステムにおいては、第１記憶部から第２記憶部へとプログラムをロードして命令を実行するＣＰＵによる、第２記憶部からの命令フェッチの対象データのアドレスを、レジスタに格納する。また、ＣＰＵによる第２記憶部からの命令フェッチ又はオペランドフェッチの対象データのエラーを検出する。さらに、第２記憶部からの命令フェッチ又はオペランドフェッチの対象データにおいてエラーが検出されると、レジスタのアドレスをホールドする。そして、当該レジスタに格納されたアドレスで示される命令をＣＰＵに再実行させる。

　また、ＣＰＵにおいて命令が再実行された結果、第２記憶部からの命令フェッチ又はオペランドフェッチの対象データで再度エラーが検出されたときに、エラー内容がソフトエラー又はハードエラーのいずれであるかを判定する。さらに、エラー内容がソフトエラーと判定され、かつ、エラーが検出されたデータが命令フェッチの対象データであったとき、次の処理を行う。即ち、少なくともレジスタに格納されたアドレスで示される命令フェッチの対象データを第１記憶部からロードして第２記憶部のデータを修復し、当該アドレスで示される命令をＣＰＵにさらに再実行させる。

　開示のシステムによれば、ＣＰＵによるフェッチにおいてエラーが検出されたときに、まず再実行を行うため、読込みエラーのような一時的なエラーの発生時には、再実行に続けてそのまま通常処理に復帰させることができる。一方、エラー内容が一時的なエラーでない場合でも、ソフトエラーであれば、データ矛盾が生じない範囲内において、処理の戻りや遅延を最小限に留めることができる。このため、エラーに対する耐性の強いシステムを実現することができる。

実施例１におけるシステムの全体構成図である。実施例１におけるエラー処理部により実現される動作内容のフローチャートである。実施例１における例外処理プログラムの機能ブロック図である。実施例１における例外処理プログラムの処理内容のフローチャートである。実施例１におけるエラー判定部におけるエラー判定処理のサブルーチンの処理内容のフローチャートである。実施例２におけるシステムの全体構成図である。実施例２におけるエラー処理部により実現される動作内容のフローチャートである。実施例２における例外処理プログラムの処理内容のフローチャートである。実施例２における一時的なエラー発生ケース（命令フェッチ時）のタイミングチャートである。実施例２における一時的なエラー発生ケース（オペランドフェッチ時）のタイミングチャートである。実施例２におけるソフトエラー発生ケース（命令フェッチ時）のタイミングチャートである。実施例２におけるソフトエラー発生ケース（オペランドフェッチ時）のタイミングチャートである。実施例２におけるソフトエラー発生ケース（オペランドフェッチ時）のタイミングチャートである。実施例２におけるハードエラー発生ケースのタイミングチャートである。実施例３におけるシステムの全体構成図である。

符号の説明

　　１０　コンピュータシステム
　　１１　ＣＰＵ部
　　１２　ローカルメモリ
　　１３　外部メモリ
　　１４　ブートローダ
　　１５Ａ　ＡＨＲ
　　１５Ｂ　ＡＨＲ
　　１６　パリティチェッカ
　　１７　エラー処理部
　　１８　ＭＰＸ
　　１９　エラーログメモリ
　　２０　ログカウンタ
　　２１　エラーステータスレジスタ
　　２２　ＰＣ
　　２３　復帰アドレスレジスタ
　　２４　オペランドレジスタ
　　２５　ＭＰＸ
　　３１　エラー判定部
　　３２　ソフトエラー処理部
　　３３　ハードエラー処理部
　　５０　コンピュータシステム
　　５１　ＣＰＵ部
　　５２　命令キャッシュメモリ
　　５３　データキャッシュメモリ
　　５４　メインメモリ
　　５５　外部メモリ
　　５６　ブートローダ
　　５７Ａ　ＡＨＲ
　　５７Ｂ　ＡＨＲ
　　５７Ｃ　ＡＨＲ
　　５７Ｄ　ＡＨＲ
　　５７Ｅ　ＡＨＲ
　　５８Ａ　パリティチェッカ
　　５８Ｂ　パリティチェッカ
　　５９　エラー処理部
　　６０Ａ　ＭＰＸ
　　６０Ｂ　ＭＰＸ
　　６１　エラーログメモリ
　　６２　ログカウンタ
　　６３　エラーステータスレジスタ
　　６４　ＰＣ
　　６５　復帰アドレスレジスタ
　　６６　オペランドレジスタ
　　６７Ａ　ＭＰＸ
　　６７Ｂ　ＭＰＸ
　　１００　コンピュータシステム
　　１０１　ＣＰＵ部
　　１０２　パターンジェネレータ
　　１０３　ローカルメモリ
　　１０４　電圧制御レジスタ
　　１０５　電圧制御発振器
　　１０６　電源
　　１０７　ＰＣ
　　１０８　オペランドレジスタ
　　１０９　ＭＰＸ
　　１１０　データレジスタ

[実施例１]
　図１は、実施例１におけるコンピュータシステム（情報処理装置）１０の全体構成を示す。本システムは、図１に示すように、ＣＰＵ（Central Processing Unit）部１１、ローカルメモリ１２、外部メモリ１３、ブートローダ１４、アドレスホールドレジスタ（以下、ＡＨＲという）１５Ａ、ＡＨＲ１５Ｅ、パリティチェッカ１６、エラー処理部１７、マルチプレクサ（以下、ＭＰＸという）１８及びエラーログメモリ１９を含む。そして、各構成要素は、図１に示すようにバスで接続されている。

　ＣＰＵ部１１は、命令フェッチユニット、デコードユニット、演算ユニット、コントロールユニット、各種レジスタ等を含み、ＣＰＵコアとしての機能を持つ。図１では特に、ＣＰＵ部１１の構成要素のうち、プログラムカウンタ（以下、ＰＣという）２２、例外処理プログラムの割込処理から復帰するときにおける実行アドレスが設定される復帰アドレスレジスタ２３、オペランドレジスタ２４、及び命令の実行状況に応じてＰＣ２２にセットされた命令のアドレス又はオペランドレジスタ２４にセットされたオペランドのアドレスのいずれかを選択して出力するＭＰＸ２５を図示している。

　ローカルメモリ１２には、ＣＰＵにより外部メモリ１３からロードされたプログラムが格納される。後述する例外処理プログラムが実行されるときも同様に、当該ローカルメモリ１２に対して例外処理プログラムがロードされ、格納される。一方、外部メモリ１３は、ハードディスク等の外部ストレージである。なお、本実施例では、外部メモリ１３が第１記憶部に相当し、ローカルメモリ１２が第２記憶部に相当する。

　ブートローダ１４は、オペレーティングシステム（以下、ＯＳという）を起動するためのプログラムを含む。
　ＡＨＲ１５Ａは、ＣＰＵ部１１がローカルメモリ１２からフェッチする命令の構成要素うち、命令フェッチの対象データのアドレスを格納するレジスタである。一方、ＡＨＲ１５Ｅは、オペランドフェッチの対象データのアドレスを格納するレジスタである。なお、ＡＨＲ１５Ａが第１レジスタ、ＡＨＲ１５Ｅが第２レジスタに相当する。

　パリティチェッカ１６は、ＣＰＵ部１１がメモリから命令フェッチ及びオペランドフェッチしたデータにエラーがあるか否かをパリティチェックにより検出する。
　エラー処理部１７は、論理回路を含んで構成され、パリティチェッカ１６が出力するエラー検出信号、及びＣＰＵ部１１が出力する命令オペランド識別信号（エラー発生時のフェッチ対象が命令又はオペランドのいずれであったかを識別する信号）を入力として、ＡＨＲ１５Ａ及びＡＨＲ１５Ｅへアドレスを格納するためのクロックを停止させるクロック停止（ＨＡＬＴ）信号を出力する。また、エラー処理部１７は、命令オペランド識別信号に応じて、エラー発生時のフェッチが命令フェッチであった場合はＡＨＲ１５Ａに格納されたアドレスを、オペランドフェッチであった場合はＡＨＲ１５Ｅに格納されたアドレスをＭＰＸ１８に選択させるＡＨＲ選択信号を出力する。さらに、エラー処理部１７は、エラー発生回数をカウントするログカウンタ２０及びエラー内容及びフェッチ対象に応じたエラーステータスを一時的に格納するエラーステータスレジスタ２１を含む。そして、エラー処理部１７は、エラー検出信号及び命令オペランド識別信号に基づいて、エラーログメモリ１９への出力としてのエラーステータスを生成し、エラーステータスレジスタ２１に一時的に保持する。また、エラー処理部１７は、エラーステータスをログメモリに書き込む書込信号を生成する。この書込信号が出力されると、ＭＰＸ１８の出力するアドレスが、エラー発生アドレスとしてエラーログメモリ１９へ出力されるとともに、これに関連付けて、エラーステータスがエラーログメモリ１９に出力される。また、エラー処理部１７は、ＣＰＵ部１１への制御信号として、ＭＰＸ１８の出力するアドレスをＰＣ２２にセットさせるＰＣセット信号を出力する。さらに、エラー処理部１７は、再実行において再度パリティエラーが検出されたときに、例外処理プログラムの実行を開始させる例外割込み信号をＣＰＵ部１１に対して出力する。また、エラー処理部１７は、例外処理プログラムの実行終了時にＰＣ２２に戻されるべきスタックとしての復帰アドレスレジスタ２３の値をＭＰＸ１８の出力するアドレスに変更させる制御信号をＣＰＵ部１１に対して出力する。

　エラーログメモリ１９は、不揮発性メモリや電源バックアップ機能を備えたＳＲＡＭ（Static Random Access Memory）であり、エラー処理部１７により、エラー発生アドレス、及びエラー内容を示すエラーステータス等が記録される。
　ここで、実施例１のシステムにおいて一般プログラムが実行されるときの通常時の動作について説明する。まず、ＣＰＵ部１１は、外部メモリ１３に格納されたプログラムをローカルメモリ１２にロードする。そして、ＣＰＵ部１１は、ＰＣ２２にセットされたアドレスの命令を実行する。このとき、ＣＰＵ部１１は、ＰＣ２２に格納されたアドレスまたはオペランドレジスタ２４に格納されたアドレスをＭＰＸ２５により選択しつつ当該アドレスのデータをローカルメモリ１２に要求し、データをフェッチして順次命令を実行する。また、このとき、ＣＰＵ部１１は、命令フェッチ時のアドレスがＡＨＲ１５Ａに、オペランドフェッチ時のアドレスがＡＨＲ１５Ｅに夫々格納されるように制御する。

　次に、エラー処理部１７により実現される動作内容について、図２を用いて説明する。
　エラー処理部１７は、パリティチェッカ１６からエラー検出信号を受信すると、クロック停止信号を出力し、ＡＨＲ１５Ａ及びＡＨＲ１５Ｅに格納されたアドレスをホールドする（Ｓ１）。そして、エラー処理部１７は、ＭＰＸ１８に対してＡＨＲ１５Ａを選択させるＡＨＲ選択信号を出力する一方、ＣＰＵ部１１に対してＭＰＸ１８の出力アドレスをＰＣ２２にセットさせるＰＣセット信号を出力する。一方、ＰＣセット信号を受信したＣＰＵ部１１は、ＭＰＸ１８の出力アドレス（ＡＨＲ１５Ａのアドレス）をＰＣ２２にセットし、当該アドレスで示される命令から再実行する（Ｓ２）。ここで、再実行においてパリティチェッカ１６から再度エラー検出信号を受信したときには（Ｓ３）、エラー処理部１７は、ＣＰＵ部１１に対して例外処理割込み信号を出力し、ＣＰＵ部では、例外処理プログラムを実行する。一方、再実行においてパリティエラーが発生しなかったときであって（Ｓ３）、ＣＰＵ部１１から受信した命令オペランド識別信号が命令フェッチであった場合には（Ｓ４）、エラー処理部１７は、次の処理を行う。即ち、ログカウンタ２０を加算し、エラー発生アドレスであるＡＨＲ１５Ａのアドレス及びエラーステータス「１」を関連付けてエラーログメモリ１９に出力し（Ｓ５）、通常処理を再開する。また、ＣＰＵ部１１から受信した命令オペランド識別信号がオペランドフェッチであった場合には（Ｓ４）、エラー処理部１７は、ログカウンタ２０を加算し、エラー発生アドレスであるＡＨＲ１５Ｅのアドレス及びエラーステータス「２」を関連付けてエラーログメモリ１９に出力する（Ｓ６）。

　かかるエラー処理部１７において実現される動作によれば、プログラムの実行時にフェッチしたデータにおいてエラーが検出された場合に、システムを直ちに停止させるのではなく、まず、当該命令を再実行する。このとき、単なる読込みエラーのような一時的なエラーの場合には、再実行すればエラーが解消されることが多い。そして、上記動作によれば、かかる一時的なエラーの場合には、再実行においてエラーが検出されなければ、再実行に続けてそのまま通常処理に復帰させることができる。このため、エラー対処のための割込み処理を発生させる必要がなく、処理の戻りや遅延を最小限に抑えることができる。

　次に、上記エラー処理部１７による再実行においてパリティチェッカ１６から再度エラー検出信号を受信したときに、割込み処理として実行される例外処理プログラムについて説明する。図３は、例外処理プログラムの機能ブロック図である。
　エラー判定部３１は、エラー処理部１７による再実行の結果、再度パリティエラーが検出されたときに、エラー内容がソフトエラー又はハードエラーのいずれであるかを判定する。

　ソフトエラー処理部３２は、エラー内容がソフトエラーと判定されたときに、当該エラーが検出されたデータが命令フェッチの対象データかオペランドフェッチの対象データかに応じて、復旧処理を行う。
　ハードエラー処理部３３は、エラー内容がハードエラーと判定されたときに、ＣＰＵ部１１によるプログラムの実行を中止させ、システム全体を停止又はリセットさせる。

　図４は、ＣＰＵ部１１で実行される例外処理プログラムの処理内容を示す。当該処理は、上記エラー処理部１７から、例外処理割込み信号がＣＰＵ部１１に対して出力されたときに実行される。
　エラー判定部３１は、エラー判定処理のサブルーチンをコールする（Ｓ１１）。そして、エラー判定部３１は、エラー判定処理のサブルーチンの処理結果に基づいて、エラー内容がハードエラーかソフトエラーかを判定する（Ｓ１２）。

　エラー判定処理による判定結果がソフトエラーであったときに、ソフトエラー処理部３２は、エラーが検出されたデータが命令フェッチの対象データかオペランドフェッチの対象データかを判定する（Ｓ１３）。
　そして、ソフトエラー処理部３２は、エラーが検出されたデータが命令フェッチの対象データであるときには、ＡＨＲ１５Ａに格納されたアドレスで示される命令フェッチの対象データを外部メモリ１３からロードし、ローカルメモリ１２を上書き（修復）する（Ｓ１４）。具体的には、ローカルメモリ１２にロードされるプログラムの先頭アドレスと外部メモリ１３に保持されているプログラムの先頭アドレスの情報を記憶させておく部分（ベースアドレス）を用いる。そして、このベースアドレスとＡＨＲ１５Ａに格納されたアドレスから、外部メモリ１３に保持された、エラーアドレスに相当するアドレス(ＡＨＲ１５Ａのアドレス＋ベースアドレス)のデータをロードし、ローカルメモリ１２に上書きする（以下同様）。また、ソフトエラー処理部３２は、エラー処理部１７のログカウンタ２０を加算するとともに、エラー発生アドレスであるＡＨＲ１５Ａのアドレス及びエラーステータス「３」を関連付けてエラーログメモリ１９に出力する（Ｓ１５）。さらに、ソフトエラー処理部３２は、例外処理後にＰＣ２２にセットされる復帰アドレスレジスタ２３に、ＡＨＲ１５Ａに格納されているアドレスをセットし（Ｓ１６）、当該例外処理プログラムの割込み処理から復帰させる。その結果、ＣＰＵ部では、ＡＨＲ１５Ａに格納されているアドレスで示される命令を再実行し、当該命令から通常のプログラム処理を再開することとなる。

　また、ソフトエラー処理部３２は、エラーが検出されたデータがオペランドフェッチの対象データであるときには、エラー処理部１７のログカウンタ２０を加算するとともに、エラー発生アドレスであるＡＨＲ１５Ｅのアドレス及びエラーステータス「４」を関連付けてエラーログメモリ１９に出力する（Ｓ１７）。さらに、ソフトエラー処理部３２は、プログラムの先頭アドレスに実行を移動させ、プログラムの初期化を含め再実行する（Ｓ１８）。

　一方、エラー判定処理による判定結果がハードエラーであったときには、ハードエラー処理部３３が、次の処理を行う。エラー処理部１７のログカウンタ２０を加算するとともに、エラーが検出されたデータが命令フェッチの対象データのときにはＡＨＲ１５Ａのアドレス及びエラーステータス「５」を関連付けてエラーログメモリ１９に出力する。一方、エラーが検出されたデータがオペランドフェッチの対象データであるときには、ＡＨＲ１５Ｅのアドレス及びエラーステータス「５」を関連付けてエラーログメモリ１９に出力する（Ｓ１９）。そして、ハードエラー処理部３３は、システムをリセット又は停止させる（Ｓ２０）。

　次に、エラー判定部３１におけるエラー判定処理のサブルーチンの処理内容について、図５を用いて説明する。
　まず、エラー判定部３１は、ＡＨＲ１５Ａに格納されたアドレスで示される命令フェッチの対象データまたはＡＨＲ１５Ｅで示されるオペランドフェッチの対象データの領域の全てのビットに、「１」を書き込む（Ｓ２１）。ここで、エラー判定部３１は、エラーが検出されたエラーが検出されたデータが命令フェッチの対象データのときには、ＡＨＲ１５Ａに格納されたアドレスで示される命令フェッチの対象データの領域を対象として処理を行う。一方、エラー判定部３１は、エラーが検出されたデータがオペランドフェッチの対象データのときには、ＡＨＲ１５Ｅで示されるオペランドフェッチの対象データの領域を、夫々対象として処理を行う（以下、このサブルーチン全体において同様である）。そして、エラー判定部３１は、書き込みを行ったデータ領域のデータを読み出す（Ｓ２２）。さらに、エラー判定部３１は、読み出したデータが、書き込んだ値どおりに全て「１」であるか否かを判定する（Ｓ２３）。そして、エラー判定部３１は、読み出したデータが全て「１」でなければ、エラー内容をハードエラーとして判定する（Ｓ２８）。一方、エラー判定部３１は、読み出したデータが全て「１」であれば、今度はＡＨＲ１５Ａに格納されたアドレスで示される命令フェッチの対象データの領域またはＡＨＲ１５Ｅに格納されたアドレスで示されるオペランドフェッチの対象データの領域の全てのビットに「０」を書き込み（Ｓ２４）、当該データ領域のデータを読み出す（Ｓ２５）。さらに、エラー判定部３１は、読み出したデータが、書き込んだ値どおりに全て「０」であるか否かを判定する（Ｓ２６）。そして、エラー判定部３１は、読み出したデータが全て「０」であれば、エラー内容をソフトエラーとして判定する（Ｓ２７）。一方、エラー判定部３１は、読み出したデータが全て「０」でなければ、エラー内容をハードエラーとして判定する（Ｓ２８）。

　かかる例外処理プログラム（エラー判定処理のサブルーチン含む）の処理によれば、プログラムの実行時にフェッチしたデータにおいてエラーが検出された場合であって、当該エラーが一時的なエラーでない場合に、ソフトエラーかハードエラーかが判定される。そして、ソフトエラーの場合、命令フェッチにおけるエラーであれば、エラーが検出された命令フェッチの対象データに相当するデータが外部メモリ１３から取得可能であるため、当該データが外部メモリ１３からロードされてローカルメモリ１２が修復される。そして、エラーが検出された命令から再実行される。このため、システムの停止やリセットを行う必要がなく、また、ロードし直すデータ量も少なくて済み、エラー復旧処理に要する時間や負荷を少なくすることができる。一方、オペランドフェッチにおけるエラーであれば、外部メモリ１３から当該オペランドのデータに相当するデータを取得することはできない。しかし、この場合、ローカルメモリ１２にロードされた命令のデータは正常であるため、上記例外処理プログラムでは、実行中のプログラムを先頭アドレスから再実行させる。このため、命令フェッチの場合と同様にシステムの停止やリセットを行う必要がなく、また、不必要に外部メモリからデータをロードする必要もない。

　このように、本システムによれば、エラー内容、及びエラーが検出されたデータが命令フェッチの対象データかオペランドフェッチの対象データかに応じ、データ矛盾が生じない範囲内において夫々最適なエラー対処がなされる。このため、エラーからの復旧処理による業務等への影響を少なくすることができ、エラーに対して耐性の強いシステムを実現することができる。

　また、エラー内容、及びエラーが検出されたデータが命令フェッチの対象データかオペランドフェッチの対象データかに応じたエラーステータスが、エラー発生アドレスと関連付けてエラーログとして出力される。かかるエラーログが蓄積されれば、後にシステムの障害原因や障害耐性の解析などに役立てることができる。そして、その解析結果に基づいてシステム構成を改良することにより、さらにエラーに対して耐性の強いシステムが実現され得る。

　なお、上記例外処理プログラムの処理のうち、エラーが検出されたデータが命令フェッチの対象データであったときにおける、ソフトエラー処理部３２のＳ１４の処理の代わりに、外部メモリ１３にあるプログラム全てをローカルメモリ１２にロードしてローカルメモリ１２を修復するようにしてもよい。
　また、上記Ｓ１４の処理は、ローカルメモリ１２にロードされているプログラムがサブルーチンも含めて１つで完結している場合を前提としている。これに対し、動的リンケージをサポートしているシステムの場合には、プログラム（サブルーチンやライブラリ等）のアドレスが動的に決定されるため、目的とするデータをロードできない可能性がある。このため、かかる動作環境においては、上記Ｓ１４の処理の代わりに、ブートローダ１４を用いて対処してもよい。具体的には、プログラムが動的リンクにより実行されている場合には、エラーの発生したローカルメモリ１２のアドレスを引数としてブートローダ１４をコールすると、ブートローダ１４において、当該アドレスに基づき、どのプログラムに相当する部分でエラーが発生したかを判断する。そして、ソフトエラー処理部３２は、エラーが発生したプログラムを外部メモリ１３から読み込み、ローカルメモリ１２に上書きする。こうすることで、動的リンケージをサポートしているシステムにおいても、ローカルメモリ１２のデータを修復し、エラーが検出された命令を再実行して通常のプログラム処理を再開することができる。

　さらに、上記例外処理プログラムの処理のうち、エラーが検出されたデータがオペランドフェッチの対象データであったときにおける、ソフトエラー処理部３２のＳ１８の処理は、ローカルメモリ１２にロードされているプログラムがジョブの一部としてではなく単独で実行されている場合を前提としている。これに対し、エラーが検出されたプログラムが、複数のプロセスが連携して動作するジョブの一部を構成するプロセスに相当する場合には、当該プログラムを初期化して再実行してもジョブ全体としてのデータ矛盾が生じ得る。このため、ソフトエラー処理部３２では、上記Ｓ１８の処理の代わりに、当該ジョブに関連するデータを全て破棄してジョブの実行を中止し、さらに上位のジョブがある場合には、当該上位のジョブに対してジョブの実行を中止したことを示すリターンコードを返すようにしてもよい。こうすることで、ジョブシステムが採用されている動作環境においても、システムの停止を行わず、且つデータ矛盾を回避しつつ、処理を再開させることができる。
[実施例２]
　図６は、実施例２におけるコンピュータシステム５０の全体構成を示す。本システムでは、ハーバードアーキテクチャを採用しており、パイプライン処理を実現する。そして、図１に示すように、ＣＰＵ部５１、命令キャッシュメモリ５２、データキャッシュメモリ５３、メインメモリ５４、外部メモリ５５、ブートローダ５６、ＡＨＲ５７Ａ～ＡＨＲ５７Ｅ、パリティチェッカ５８Ａ及びパリティチェッカ５８Ｂ、エラー処理部５９、ＭＰＸ６０Ａ、ＭＰＸ６０Ｂ及びエラーログメモリ６１を含む。そして、各構成要素は、図６に示すようにバスで接続されている。

　ＣＰＵ部５１は、命令フェッチユニット、デコードユニット、演算ユニット、コントロールユニット、各種レジスタを含み、ＣＰＵコアとしての機能を持つ。そして、図６では特に、ＣＰＵ部５１の構成要素のうち、ＰＣ６４、復帰アドレスレジスタ６５、オペランドレジスタ６６、命令の実行状況に応じてＰＣ６４にセットされた命令のアドレス又はＭＰＸ６０Ａから出力されたアドレスを選択して命令キャッシュメモリ５２に出力するＭＰＸ６７Ａ、及び命令の実行状況に応じてオペランドレジスタ６６にセットされたオペランドのアドレス又はＭＰＸ６０Ａから出力されたアドレスのいずれかを選択してデータキャッシュメモリ５３に出力するＭＰＸ６７Ｂを図示している。

　命令キャッシュメモリ５２には、命令のデータが格納され、データキャッシュメモリ５３にはオペランドのデータが格納される。なお、本システムでは、データキャッシュメモリ５３へ書き込むデータをリアルタイムにメインメモリ５４へも書き込むライトスルー方式を採用する。なお、本実施例では、命令キャッシュメモリ５２及びデータキャッシュメモリ５３が第２記憶部に相当する。

　メインメモリ５４には、ＣＰＵにより外部メモリ５５からロードされたプログラムが格納される。ハーバードアーキテクチャを採用する本システムにおいては、メインメモリ５４に格納されたデータが、ＣＰＵにより命令キャッシュメモリ５２及びデータキャッシュメモリ５３にさらにロード（コピー）される。そして、ＣＰＵ部５１は、命令キャッシュメモリ５２及びデータキャッシュメモリ５３に対してアクセスし、命令をフェッチして処理を行う。なお、本実施例では、メインメモリ５４が第１記憶部に相当する。

　ＡＨＲ５７Ａ～ＡＨＲ５７Ｄは、ＣＰＵ部５１がローカルメモリ１２からフェッチしたデータのうち、命令フェッチの対象データのアドレスを格納するレジスタである。一方、ＡＨＲ５７Ｅは、オペランドフェッチの対象データのアドレスを格納するレジスタである。なお、本実施例では、ＡＨＲ５７Ａ～ＡＨＲ５７Ｄが第１レジスタに相当し、ＡＨＲ５７Ｅが第２レジスタに相当する。

　パリティチェッカ５８Ａは、ＣＰＵ部５１が命令キャッシュメモリ５２から命令フェッチしたデータにエラーがあるか否かをパリティチェックにより検出する。一方、パリティチェッカ５８Ｂは、ＣＰＵ部５１がデータキャッシュメモリ５３からオペランドフェッチしたデータにエラーがあるか否かをパリティチェックにより検出する。
　エラー処理部５９は、論理回路を含んで構成され、パリティチェッカ５８Ａ及びパリティチェッカ５８Ｂが出力するエラー検出信号、及びＣＰＵ部５１が出力する命令オペランド識別信号を入力として、ＡＨＲ５７Ａ～ＡＨＲ５７Ｅへアドレスを格納するためのクロックを停止させるクロック停止信号を出力する。また、エラー処理部５９は、命令オペランド識別信号に応じて、エラーが検出されたデータが命令フェッチの対象データであった場合はＡＨＲ５７Ａに格納されたアドレスを、オペランドフェッチの対象データであった場合はＡＨＲ５７Ｄに格納されたアドレスをＭＰＸ６０Ａに選択させるＡＨＲ選択信号を出力する。さらに、エラー処理部５９は、命令オペランド識別信号に応じて、エラーが検出されたデータが命令フェッチの対象データであった場合はＡＨＲ５７Ａに格納されたアドレスを、オペランドフェッチの対象データであった場合はＡＨＲ５７Ｅに格納されたアドレスをＭＰＸ６０Ｂに選択させるＡＨＲ選択信号を出力する。また、エラー処理部５９は、エラー発生回数をカウントするログカウンタ６２及びエラー内容及びフェッチ対象に応じたエラーステータスを一時的に格納するエラーステータスレジスタ６３を含む。そして、エラー処理部５９は、エラー検出信号及び命令オペランド識別信号に基づいて、エラーログメモリ６１への出力としてのエラーステータスを生成し、エラーステータスレジスタ６３に一時的に保持する。また、エラー処理部５９は、エラーステータスをエラーログメモリ６１に書き込む書込信号を生成する。この書込信号が出力されると、ＭＰＸ６０Ｂの出力するアドレスが、エラー発生アドレスとしてエラーログメモリ６１へ出力されるとともに、これに関連付けて、エラーステータスがエラーログメモリ６１に出力される。また、エラー処理部５９は、ＣＰＵ部５１への制御信号として、ＭＰＸ６０Ａの出力するアドレスをＰＣ６４にセットさせるＰＣセット信号を出力する。さらに、エラー処理部５９は、再実行において再度パリティエラーが検出されたときに、例外処理プログラムの処理を開始させる例外割込み信号をＣＰＵ部５１に対して出力する。また、エラー処理部５９は、例外処理プログラムの実行終了時にＰＣ６４に戻されるべきスタックとしての復帰アドレスレジスタ６５の値をＭＰＸ６０Ａの出力するアドレスに変更させる制御信号をＣＰＵ部５１に対して出力する。

　なお、ブートローダ５６及びエラーログメモリ６１については、夫々実施例１におけるブートローダ１４及びエラーログメモリ６１と同様の機能を有するため、説明を省略する。
　そして、当該実施例２のシステムにおいて実行されるプログラムの命令は、ロード／ストア命令であり、次のように処理されることを前提とする。即ち、各命令について、ＩＦ（命令フェッチ）、ＲＦ（命令デコード）、ＥＸ（命令実行）、ＭＥＭ（オペランドフェッチ）及びＷＢ（ライトバック）がなされる。なお、ＡＨＲ５７Ａ～ＡＨＲ５７Ｄのレジスタの数（４つ）は、本システムで処理する命令における、ＩＦからＭＥＭまでの処理ステージ数（４つ）と一致している。

　ここで、実施例２のシステムにおいて一般プログラムが実行されるときの通常時の動作について説明する。まず、外部メモリ５５に格納されたプログラムがメインメモリ５４にロードされ、さらに、命令のデータは命令キャッシュメモリ５２に、オペランドのデータはデータキャッシュメモリ５３に夫々ロード（コピー）される。また、ＣＰＵ部５１では、プログラムの命令実行時には、ＰＣ６４にセットされたアドレスのデータを命令キャッシュメモリ５２に要求する一方、オペランドレジスタ６６のアドレスのデータをデータキャッシュメモリ５３に要求する。そして、ＣＰＵ部５１では、命令キャッシュメモリ５２及びデータキャッシュメモリ５３の夫々からデータをフェッチしつつ順次命令を実行する。また、このとき、ＣＰＵ部５１では、命令キャッシュメモリ５２及びデータキャッシュメモリ５３に要求するアドレスのうち、命令フェッチ時のアドレスがＡＨＲ５７Ａに、オペランドフェッチ時のアドレスがＡＨＲ５７Ｅに夫々格納されるように制御する。また、ＣＰＵ部５１では、クロックが進行し、次の命令をフェッチするごとに、ＡＨＲ５７Ａ、ＡＨＲ５７Ｂ、ＡＨＲ５７Ｃ、ＡＨＲ５７Ｄの順に、格納されたアドレスを順次移動させるように制御する。なお、このとき、ＡＨＲ５７Ｄにセットされていた値は破棄されることとなる。

　次に、エラー処理部５９により実現される動作内容について、図７を用いて説明する。なお、実施例１における処理と相違する部分についてのみ説明する。
　実施例２における動作では、図２に示す実施例１の動作におけるＳ１～Ｓ２に代えて、Ｓ１０１～Ｓ１０４の動作が実現される。
　エラー処理部５９は、パリティチェッカ５８Ａ又はパリティチェッカ５８Ｂからエラー検出信号を受信すると、クロック停止信号を出力し、ＡＨＲ５７Ａ～ＡＨＲ５７Ｅに格納されたアドレスをホールドする（Ｓ１０１）。また、エラー処理部５９は、エラー発生時のフェッチが命令フェッチかオペランドフェッチかを判定する（Ｓ１０２）。なお、かかる判定は、ＣＰＵ部５１から受信する命令オペランド識別信号によっても可能であり、また、パリティチェッカ５８Ａ又はパリティチェッカ５８Ｂのいずれからエラー検出信号を受信したかによっても可能である。そして、当該判定の結果、エラー発生時のフェッチが命令フェッチであったときには、ＡＨＲ５７Ａに格納されているアドレスをＰＣ６４にセットし、当該アドレスで示される命令から再実行する（Ｓ１０３）。一方、エラー発生時のフェッチがオペランドフェッチであったときには、ＡＨＲ５７Ｄに格納されているアドレスをＰＣ６４にセットし、当該アドレスで示される命令から再実行する（Ｓ１０４）。

　かかる実施例２のエラー処理部５９により実現される動作内容によれば、実施例１と同様に、命令フェッチにおけるエラー内容が一時的なエラーの場合に、割込み処理を発生させることなく、処理の遅延を最小限に抑えることができる。
　ここで、実施例２のシステムはパイプライン処理を行い、上述のように、ＩＦ－ＲＦ－ＥＸ－ＭＥＭ－ＷＢの処理ステージで命令を実行している。このため、エラーが検出されたデータがオペランドフェッチ（ＭＥＭ）の対象データであった場合、エラーが検出された時点では、ＣＰＵ部５１では、既に、後続する別の命令を並行して実行している。このため、ＡＨＲ５７Ａに格納されたアドレスは、オペランドフェッチが発生した命令とは異なる命令のアドレスとなっている。しかし、実施例２のシステムでは、フェッチされたアドレスが、新たな命令をフェッチするごとにＡＨＲ５７ＡからＡＨＲ５７Ｄへと順に移動する。このため、オペランドフェッチでエラーが発生した命令における命令フェッチの対象データのアドレスは、３クロック前に実行された命令のアドレスが格納されているＡＨＲ５７Ｄのアドレスとなる。そして、上記エラー処理部５９の動作では、オペランドフェッチにおけるエラー発生時には、ＡＨＲ５７Ｄのアドレスの命令を再実行している。このため、オペランドフェッチにおいてエラーが発生しても、エラーが発生した命令を命令フェッチから再実行することが可能となっている。

　次に、例外処理プログラムについて説明する。なお、当該実施例２のシステムにおける例外処理プログラムも、実施例１と同様に、エラー判定部３１、ソフトエラー処理部３２及びハードエラー処理部３３を含んで構成される。ここで、例外処理プログラムの機能ブロック図は、実施例１と同様であるため、図示及び説明を省略する。
　図８は、ＣＰＵ部５１で実行される例外処理プログラムの処理内容を示す。なお、実施例１における処理と相違する部分についてのみ説明する。

　実施例２における処理では、ソフトエラー処理部３２は、図４に示す実施例１の処理におけるＳ１４に代えて、Ｓ２０１の処理を行う。即ち、ソフトエラー処理部３２は、ＡＨＲ５７Ａ～ＡＨＲ５７Ｄのうち、最先の命令フェッチの対象データのアドレスが格納されたＡＨＲ５７Ａに格納されたアドレスで示される命令フェッチの対象データをメインメモリ５４からロードし、命令キャッシュメモリ５２を修復する（Ｓ２０１）。また、Ｓ１６に代えて、Ｓ２０２の処理を行う。即ち、ソフトエラー処理部３２は、例外処理後にＰＣ２２にセットされる復帰アドレスレジスタ６５に、ＡＨＲ５７Ａに格納されているアドレスをセットする（Ｓ２０２）。

　また、実施例２における処理では、ソフトエラー処理部３２は、図４に示す実施例１の処理におけるＳ１８に代えて、Ｓ２０２の処理を行う。即ち、Ｓ１７の前に、ＡＨＲ５７Ｅに格納されたアドレスで示されるオペランドフェッチの対象データをメインメモリ５４からロードし、データキャッシュメモリ５３を修復する（Ｓ２０３）。また、Ｓ１８の代わりに、ソフトエラー処理部３２は、例外処理後にＰＣ６４にセットされる復帰アドレスレジスタ６５に、ＡＨＲ５７Ａ～ＡＨＲ５７Ｄのうち、最先の命令フェッチの対象データのアドレスが格納されたＡＨＲ５７Ｄに格納されているアドレスをセットし、当該例外処理プログラムの割込み処理から復帰させる（Ｓ２０４）。その結果、ＣＰＵ部では、ＡＨＲ５７Ｄに格納されているアドレスで示される命令を再実行し、当該命令から通常のプログラム処理を再開することとなる。

　なお、実施例２のシステムにおける、エラー判定部３１におけるエラー判定処理のサブルーチンの処理内容は、図５に示す実施例１の処理と次の点を除いて同様である。即ち、実施例２では、ローカルメモリ１２の代わりに命令キャッシュメモリ５２又はデータキャッシュメモリ５３を対象としてビットの書込み及び読出しを行う。
　かかる例外処理プログラムの処理によれば、実施例１と同様に、プログラムの実行時にフェッチしたデータにおいてエラーが検出された場合であって、当該エラーが一時的なエラーでない場合に、ソフトエラーかハードエラーかが判定される。そして、ソフトエラーの場合、命令フェッチにおけるエラーであれば、メインメモリ５４から当該命令フェッチの対象データに相当するデータが取得可能であるため、当該データがメインメモリ５４からロードされて命令キャッシュメモリ５２が修復され、エラーが発生した命令から再実行される。このため、処理の戻りや遅延を可能な限り少なくし、エラー発生による業務等への影響を少なくすることができる。

　一方、オペランドフェッチの対象データにおけるエラーであっても、実施例２のシステムではハーバードアーキテクチャを採用し、かつ、ライトスルー方式であるため、データキャッシュメモリ５３及びメインメモリ５４のデータ内容に同期がとれている。このため、メインメモリ５４からエラーが発生したオペランドのデータに相当するデータが取得可能である。そして、本システムでは、当該データがメインメモリ５４からロードされてデータキャッシュメモリ５３が修復され、エラーが検出された命令から再実行される。したがって、オペランドフェッチの対象データにおけるエラーであっても、命令フェッチのときと同様に処理を続行することができる。

　このように、本システムによれば、ハーバードアーキテクチャを採用したシステムにおいても、エラー内容、及びエラーが検出されたデータが命令フェッチの対象データかオペランドフェッチの対象データかに応じ、データ矛盾が生じない範囲内において夫々最適なエラー対処がなされる。
　なお、例外処理プログラムにおけるソフトエラー処理部３２では、上記Ｓ２０１の処理の代わりに、命令キャッシュメモリ５２全体を無効化してもよい。なお、このように命令キャッシュメモリ５２全体を無効化してもよい理由は次の通りである。即ち、キャッシュ全体を無効化すると、例外処理プログラムの割込処理から復帰したときにキャッシュミスヒットが生じ、メインメモリ５４からキャッシュ全体へと再読込みが行われ、パリティエラーが発生したデータも修復されるからである。

　また、上記Ｓ２０２の処理は、ライトスルー方式が採用されていることを想定しているが、データキャッシュメモリ５３のデータを退避させる必要が生じた時にのみメインメモリ５４に書き込むライトバック方式の場合には、データキャッシュメモリ５３及びメインメモリ５４のデータの同期が必ずしもとれていない。このため、メインメモリ５４にロードされているプログラムがサブルーチンも含めて１つで完結している場合には、ソフトエラー処理部３２では、上記Ｓ２０３及びＳ２０４の処理の代わりに、プログラムの先頭アドレスに実行を移動させ、プログラムの初期化から再実行してもよい。また、複数のプロセスが連携するジョブが実行されている場合においては、ソフトエラー処理部３２では、上記Ｓ２０３及びＳ２０４の処理の代わりに、当該ジョブに関連するデータを全て破棄してジョブの実行を中止してもよい。そして、さらに上位のジョブがある場合には、当該上位のジョブに対して、当該上位のジョブに対してジョブの実行を中止したことを示すリターンコードを返すようにしてもよい。こうすることで、ジョブシステムが採用されている動作環境においても、システムの停止を行わず、且つデータ矛盾を回避しつつ、処理を再開させることができる。

　さらに、上記実施例２では、ＩＦ－ＲＦ－ＥＸ－ＭＥＭ－ＷＢの処理ステージで実行されるロードストア命令を対象としているため、命令フェッチのアドレスを格納するＡＨＲがＡＨＲ５７Ａ～ＡＨＲ５７Ｄの４つで構成されている。しかし、オペランドフェッチが命令フェッチから何番目のステージで行われるかに応じて、ＡＨＲの数を変更すれば、他のパターンの処理ステージで実行される命令にも同様に対応することができる。そして、オペランドフェッチでエラーが発生したときに再実行させる命令のアドレスとして、最先の命令フェッチの対象データのアドレスが格納されたＡＨＲからアドレスを取得するようにすればよい。

　以下、実施例２の本システムにおけるエラー対処内容について、エラー内容及びフェッチ対象に応じた具体例を用いて説明する。
　図９は、一時的なエラー発生ケース（命令フェッチ時）のタイミングチャートである。
　図９には、プログラムの命令がパイプライン処理により順次実行される状態が示されている。また、図９には、これらの命令の実行時における、ＰＣ６４、ＡＨＲ５７Ａ、パリティエラー検出信号（パリティチェッカ５８Ａからの出力）、クロック停止信号、ＰＣ６４セット信号、ＡＨＲ選択信号、例外処理割込み信号、エラーステータス、ログカウンタ６２及びエラーログメモリ６１への書込信号の状態が示されている。なお、図９の最上部には、クロックの各タイミング（Ｔｎ）が示されている。また、図９において、ｎ番目の命令ｎを実行するときに読み出すアドレスはＡｎ（例えば命令１の場合はＡ１）と表記する。

　ＣＰＵ部５１では、ＰＣ６４に命令１のアドレスＡ１をセットし、命令１の命令フェッチを行う（Ｔ１）。さらに、ＣＰＵ部５１では、ＰＣ６４に次の命令２のアドレスＡ２をセットし、命令２をフェッチする（Ｔ２）。また、ＣＰＵ部５１では、命令フェッチが完了するごとに、ＰＣ６４の値を、ＡＨＲ５７Ａにセットする。このとき、ＡＨＲ５７Ａには、ＰＣ６４の値が１クロック遅れで設定されるため（以下同様）、ＡＨＲ５７Ａには、Ｔ２において命令１のメモリアドレスＡ１が、Ｔ３において命令２のメモリアドレスＡ２がセットされる。

　一方、パリティチェッカ５８Ａでは、命令フェッチの対象データのパリティチェックを行う。当該具体例では、命令２の命令フェッチにおいて、パリティエラーが検出されるものとする（Ｔ２）。このとき、パリティチェッカ５８Ａは、エラー処理部５９にパリティエラー検出信号を出力し、エラー処理部５９では、各ＡＨＲへアドレスを伝送するためのクロックを停止させるクロック停止信号を発信する（Ｔ３）。これにより、ＡＨＲ５７Ａの値は、Ａ２がセットされた状態でホールドされる。また、このとき、ＣＰＵ部５１は、エラーが検出されたデータが命令フェッチの対象データであったことを示す命令オペランド識別信号をエラー処理部５９に対して送信する。そして、エラー処理部５９は、当該命令オペランド識別信号に基づいて、ＡＨＲ５７Ａを選択させるＡＨＲ選択信号をＭＰＸ６０Ａ及びＭＰＸ６０Ｂに対して送信する（なお、ＡＨＲ選択信号は通常ＡＨＲ５７Ａの選択状態を示しているため、この場合には信号に変化はない）。ＭＰＸ６０Ｂでは、このＡＨＲ選択信号に基づき、ＡＨＲ５７Ａの値を選択して出力する。そして、ＣＰＵ部５１では、ＡＨＲ５７ＡのアドレスＡ２を再度ＰＣ６４にセットし直し、命令２の再実行を行う（Ｔ４）。この再実行における命令フェッチにおいてパリティエラーが検出されない場合、エラー処理部５９は、クロック停止信号の出力を中止する（Ｔ５）。一方、このときエラー処理部５９は、エラーステータスレジスタ６３に、エラーステータスとして「１」を設定している。そして、エラー処理部５９は、エラーログメモリ６１への書込信号を出力し、ＡＨＲ５７ＡのアドレスＡ２及び当該エラーステータスをエラーログメモリ６１に書き込み（Ｔ５）、ログカウンタ６２のカウントアップを行う（Ｔ６）。また、ＣＰＵ部５１では、通常どおり後続する命令３以降の命令フェッチを行い、通常処理を再開させる（Ｔ５～）。

　図１０は、一時的なエラー発生ケース（オペランドフェッチ時）のタイミングチャートを示す。図１０には、図９と同様に、プログラムの命令がパイプライン処理により順次実行される状態が示されている。また、図１０では、図９に加え、ＡＨＲ５７Ｄ及びＡＨＲ５７Ｅの状態についても示す。また、パリティチェッカ５８Ａの代わりに、パリティチェッカ５８Ｂにより出力されるパリティエラー信号を示す。さらに、ｎ番目の命令ｎのオペランドフェッチの対象データのアドレスはＡｎＯＰ（例えば命令１の場合はＡ１ＯＰ）と表記する。

　ＣＰＵ部５１では、ＰＣ６４に命令１のアドレスＡ１をセットするとともに、命令１の命令フェッチを行う（Ｔ１）。以降、同様に、後続する命令をフェッチする（Ｔ２～）。また、ＣＰＵ部５１では、命令フェッチが完了するごとに、ＰＣ６４の値を、ＡＨＲ５７Ａにセットするとともに、ＡＨＲ５７Ａ、ＡＨＲ５７Ｂ、ＡＨＲ５７Ｃ、ＡＨＲ５７Ｄの順に、格納されたアドレスを移動させる。このとき、ＡＨＲ５７Ｄには、ＡＨＲ５７Ａにセットされたアドレスの命令の３つ前に実行された命令のアドレスがセットされることとなる。

　一方、パリティチェッカ５８Ｂでは、オペランドフェッチの対象データのパリティチェックを行う。当該具体例では、命令２のオペランドフェッチにおいて、パリティエラーが検出されるものとする（Ｔ５）。このとき、パリティチェッカ５８Ｂは、エラー処理部５９にパリティエラー検出信号を出力し、エラー処理部５９では、各ＡＨＲへアドレスを伝送するためのクロックを停止させるクロック停止信号を発信する（Ｔ６）。これにより、ＡＨＲ５７ＡにはＡ５が、ＡＨＲ５７ＤにはＡ２が、ＡＨＲ５７ＥにはＡ２ＯＰがセットされた状態でホールドされる。また、このとき、ＣＰＵ部５１は、エラーが検出されたデータがオペランドフェッチの対象データであったことを示す命令オペランド識別信号をエラー処理部５９に対して送信する（Ｔ６）。そして、エラー処理部５９は、当該信号に基づいて、ＡＨＲ５７Ｄを選択させるＡＨＲ選択信号をＭＰＸ６０Ａに、ＡＨＲ５７Ｅを選択させるＡＨＲ選択信号をＭＰＸ６０Ｂに対して夫々送信する。ＭＰＸ６０Ａでは、このＡＨＲ選択信号に基づき、ＡＨＲ５７Ｄのアドレスを選択して出力する。そして、ＣＰＵ部５１では、ＡＨＲ５７ＤのアドレスＡ２を再度ＰＣ６４にセットし直し、命令２の再実行を行う（Ｔ７）。この再実行におけるオペランドフェッチにおいてパリティエラーが検出されない場合、エラー処理部５９は、クロック停止信号の出力を中止する（Ｔ１１）。一方、このときエラー処理部５９は、エラーステータスレジスタ６３に、エラーステータスとして「２」を設定している。そして、エラー処理部５９は、エラーログメモリ６１への書込信号を出力し、ＡＨＲ５７ＥのアドレスＡ２ＯＰ及び当該エラーステータスをエラーログメモリ６１に書き込み（Ｔ１１）、ログカウンタ６２のカウントアップを行う（Ｔ１２）。一方、ＣＰＵ部５１では、通常どおり後続する命令３以降の命令フェッチをパイプライン処理により行い、通常処理を再開させる（Ｔ８～）。

　図１１は、ソフトエラー発生ケース（命令フェッチ時）のタイミングチャートである。
　図１１には、図９と同様に、プログラムの命令がパイプライン処理により順次実行される状態が示されている。また、本具体例におけるＴ１～Ｔ３は、図９のケースと同一であるため説明を省略する。
　ＣＰＵ部５１では、ＡＨＲ５７ＡのアドレスＡ２を再度ＰＣ６４にセットし直し、命令２の再実行を行う（Ｔ４）。本ケースでは、この再実行における命令フェッチにおいて再度パリティエラーが検出され（Ｔ４）、パリティチェッカは、エラー処理部５９にパリティエラー検出信号を再度出力する（Ｔ５）。すると、エラー処理部５９は、例外処理割込み信号をＣＰＵ部５１に対して出力する（Ｔ６）。その結果、ＣＰＵ部５１では、例外処理プログラムの割込み処理を開始する。

　本ケースでは、例外処理プログラムにおけるエラー判定結果がソフトエラーである場合を想定する。この場合、ソフトエラー処理部３２では、ＡＨＲ５７ＡのアドレスＡ２で示される命令フェッチの対象データをメインメモリ５４からロードし、命令キャッシュメモリ５２を上書きする。また、このとき、ソフトエラー処理部３２は、エラーステータスレジスタ６３に、エラーステータスとして「３」を設定している。そして、ソフトエラー処理部３２は、ＡＨＲ５７ＡのアドレスＡ２及び当該エラーステータスをエラーログメモリ６１に書き込み、ログカウンタ６２のカウントアップを行う。さらに、ソフトエラー処理部３２は、例外処理後にＰＣ６４にセットされる復帰アドレスレジスタ６５のアドレスとして、ＡＨＲ５７ＡのアドレスＡ２をセットし、リターン命令を実行して例外処理から復帰させる（～Ｔｎ＋３）。そして、ＣＰＵ部５１では、Ａ２で示される命令２から通常処理を再開することとなる。

　図１２は、ソフトエラー発生ケース（オペランドフェッチ時）のタイミングチャートである。また、本ケースは、プログラムがジョブの一部ではなく単独で実行されており、かつ、メインメモリ５４への書き込みにおいてライトスルー方式を採用した動作環境であることを前提とする。
　図１２には、図９と同様に、プログラムの命令がパイプライン処理により順次実行される状態が示されている。また、本具体例におけるＴ１～Ｔ６は、図１０と同一であるため、図示及び説明を省略する。

　ＣＰＵ部５１では、ＡＨＲ５７ＤのアドレスＡ２を再度ＰＣ６４にセットし直し、命令２の再実行を行う（Ｔ７）。本具体例では、この再実行におけるオペランドフェッチにおいて再度パリティエラーが検出され（Ｔ１０）、パリティチェッカは、エラー処理部５９にパリティエラー検出信号を再度出力する（Ｔ１１）。すると、エラー処理部５９は、例外処理割込み信号をＣＰＵ部５１に対して出力する（Ｔ１２）。その結果、ＣＰＵ部５１では、例外処理プログラムの割込み処理を開始する。

　本ケースでは、例外処理プログラムにおけるエラー判定結果がソフトエラーである場合を想定する。この場合、ソフトエラー処理部３２では、ＡＨＲ５７ＥのＡ２ＯＰで示されるオペランドフェッチの対象データをメインメモリ５４からロードし、データキャッシュメモリ５３を上書きする。また、このとき、ソフトエラー処理部３２は、エラーステータスレジスタ６３に、エラーステータスとして「４」を設定している。そして、ソフトエラー処理部３２は、ＡＨＲ５７ＥのアドレスＡ２ＯＰ及び当該エラーステータスをエラーログメモリ６１に書き込み、ログカウンタ６２のカウントアップを行う。さらに、ソフトエラー処理部３２は、例外処理後にＰＣ６４にセットされる復帰アドレスレジスタ６５のアドレスとして、ＡＨＲ５７ＤのアドレスＡ２をセットし、リターン命令を実行して例外処理から復帰させる（～Ｔｎ＋３）。そして、ＣＰＵ部５１では、Ａ２で示される命令２から通常処理を再開することとなる。

　図１３は、ソフトエラー発生ケース（オペランドフェッチ時）のタイミングチャートである。また、本具体例は、プログラムがジョブの一部を構成するプロセスとして実行されており、かつ、メインメモリ５４への書き込みにおいてライトバック方式を採用した動作環境で実現されていることを前提とする。
　図１３には、図９と同様に、プログラムの命令がパイプライン処理により順次実行される状態が示されている。また、本具体例におけるＴ１～Ｔ６は、図１０と同一であるため、図示を省略する。さらに、本具体例におけるＴ７～Ｔ１２は、図１２と同一であるため、説明を省略する。

　エラー処理部５９により例外処理割込み信号が出力されると、ＣＰＵ部５１では、例外処理プログラムの割込み処理を開始する。
　本ケースでは、例外処理プログラムにおけるエラー判定結果がソフトエラーである場合を想定する。この場合、ソフトエラー処理部３２では、エラーステータスレジスタ６３に、エラーステータスとして「４」を設定している。そして、ソフトエラー処理部３２は、ＡＨＲ５７ＥのアドレスＡ２ＯＰ及び当該エラーステータスをエラーログメモリ６１に書き込み、ログカウンタ６２のカウントアップを行う。ここで、本具体例では、プログラムがジョブの一部を構成するプロセスとして実行されており、また、ライトバック方式を採用しているため、実行中のジョブのデータを全て破棄し、当該ジョブの実行を中止する。そして、ソフトエラー処理部３２は、リターン命令を実行して例外処理から復帰させるとともに（～Ｔｎ＋３）、上位のジョブに対して、ジョブの実行を中止したリターンコードを返す。そして、ＣＰＵ部５１では、上位のジョブの命令であるＢ１から通常処理を行うこととなる。

　図１４は、ハードエラー発生ケースのタイミングチャートである。
　図１４には、図９と同様に、プログラムの命令がパイプライン処理により順次実行される状態が示されている。また、本具体例におけるＴ１及びＴ２は、図９と同一であるため、図示を省略する。さらに、本具体例におけるＴ３～Ｔ６は、図１１と同一であるため、説明を省略する。

　エラー処理部５９により例外処理割込み信号が出力されると、ＣＰＵ部５１では、例外処理プログラムの割込み処理を開始する。
　本具体例では、例外処理プログラムにおけるエラー判定結果がハードエラーである場合を想定する。このとき、ハードエラー処理部３３では、エラーステータスレジスタ６３に、エラーステータスとして「５」を設定している。そして、ハードエラー処理部３３は、ＡＨＲ５７ＡのアドレスＡ２及び当該エラーステータスをエラーログメモリ６１に書き込み、ログカウンタ６２のカウントアップを行う。そして、ハードエラー処理部３３では、システムの停止命令を実行する（～Ｔｎ＋３）。

　なお、上記図１４では命令フェッチ時においてハードエラーが発生した場合について説明したが、オペランドフェッチ時においてハードエラーが発生した場合には、エラーログメモリ６１に、ＡＨＲ５７Ｅに格納されたアドレスを書き込むこととなる。
　以上説明した実施例１及び実施例２では、エラー検出方法としてパリティチェックを用いているが、他のエラー検出方法を採用してもよい。

　また、実施例１及び実施例２では、ＥＣＣを持たないことを前提として説明をしたが、ＥＣＣを持ったシステムにおいても、２ビットエラーが発生した場合には同様に適用することができる。
　さらに、エラー処理部で実現される機能を、例外処理プログラムと同様に、ＣＰＵ部でプログラムを実行し、各構成要素を制御することにより実現してもよい。また、エラー処理部で実現される機能や例外処理プログラムの機能を実現するプログラムを、例えば、磁気テープ、磁気ディスク、フラッシュメモリ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等のコンピュータ読取可能な記録媒体に記録しておけば、プログラムを市場に流通させることができる。そして、かかる記録媒体を取得した者は、一般的なコンピュータシステムを利用して、上述のエラー対処を実現するコンピュータシステムを容易に構築することができる。
[実施例３]
　次に、上記エラー対処を実現するコンピュータシステムにおいて、さらに、エラーが発生する環境及び状況に応じた障害原因究明機構を含んだ実施例について説明する。

　図１５は、実施例３におけるコンピュータシステム１００の全体構成を示す。本システムでは、図１５に示すように、ＣＰＵ部１０１、パターンジェネレータ１０２、ローカルメモリ１０３、電圧制御レジスタ１０４、電圧制御発振器（ＶＣＸＯ：Voltage Controlled Xtal Oscillator）１０５及び電源１０６を含んで構成される。そして、図１５では特に、ＣＰＵ部１０１の構成要素のうち、ＰＣ１０７と、オペランドレジスタ１０８と、命令の実行状況に応じてＰＣ１０７にセットされた命令アドレス又はオペランドレジスタ１０８にセットされたオペランドアドレスのいずれかを選択して出力するＭＰＸ１０９と、データレジスタ１１０と、を図示している。なお、図１５では、当該エラー原因究明機構及びこれに直接関連する構成要素以外は、図示を省略している。

　上記パターンジェネレータ１０２は、電源電圧マージン試験、タイミングマージン試験、同時スイッチングノイズ試験等の試験を実施するための回路を制御する試験パターン発生回路である。そして、通常動作時にパリティチェッカ（図示省略）においてパリティエラーを検出すると、ＣＰＵ部１０１は、これらの試験回路に制御を移す。
　電源電圧マージン試験では、電圧制御レジスタ１０４を介し、電源供給回路に対する電圧制御信号を変化させることにより実施する。通常、電圧制御信号はＩＣチップ固有の電源電圧を設定するための信号だが、本システムでは、この信号を利用し、本来システムが必要としている電源電圧に対し、１０％以上の電圧変動を発生させることで、電源電圧マージン試験を実施する。

　また、タイミングマージン試験は、ＣＰＵ部１０１及びローカルメモリ１０３を接続するバスに対して可変遅延回路を挿入し、その遅延値をパターンジェネレータ１０２により制御しながら試験を行うことにより実施する。
　同時スイッチングノイズ試験につては、パターンジェネレータ１０２の試験方法において、アドレス、データ及び制御信号に対し、全て「１」又は全て「０」を設定するパターンを繰り返すことで実施できる。

　上述のように、上記障害原因究明機構は、通常稼働しているシステムに直接組み込まれる。そして、当該障害原因究明機構は、一般プログラムを実行するＣＰＵ内の資源（特に、ＭＰＸやデータレジスタ）を、エラー原因究明のための試験において共有して用いる。これにより、実際にシステム稼働がなされている状態により近い状態で試験をすることが可能となり、障害原因解析を的確に行うことができる。

Claims

　第１記憶部から第２記憶部へとプログラムをロードして命令を実行するＣＰＵと、
　ＣＰＵによる前記第２記憶部からの命令フェッチの対象データの前記第２記憶部におけるアドレスを格納する第１レジスタと、
　ＣＰＵによる前記第２記憶部からの命令フェッチ又はオペランドフェッチの対象データのエラーを検出するエラー検出部と、
　前記エラー検出部によりエラーが検出されると、前記第１レジスタのアドレスをホールドし、当該第１レジスタに格納されたアドレスで示される命令をＣＰＵに再実行させる再実行部と、
　前記再実行部によりＣＰＵにおいて命令が再実行された結果、再度エラーが検出されたときに、エラー内容がソフトエラー又はハードエラーのいずれであるかを判定する判定部と、
　前記判定部によりエラー内容がソフトエラーと判定され、かつ、エラーが検出されたデータが命令フェッチの対象データであったとき、少なくとも前記第１レジスタに格納されたアドレスで示される命令フェッチの対象データを前記第１記憶部からロードして前記第２記憶部のデータを修復し、当該アドレスで示される命令をＣＰＵにさらに再実行させるソフトエラー処理部と、
　を含んで構成されたことを特徴とする情報処理装置。
　前記判定部は、前記レジスタに格納されたアドレスで示される第２記憶部の命令フェッチの対象データ又はオペランドフェッチの対象データの領域のビットに全て同一の値を書き込んでから当該領域のデータを読み出したときに、書き込んだ値と同一でないビットが存在すればハードエラーと判定する一方、全てのビットが書き込んだ値と同一であればソフトエラーと判定することを特徴とする請求項１記載の情報処理装置。
　前記ソフトエラー処理部は、前記判定部によりエラー内容がソフトエラーと判定され、かつ、エラーが検出されたデータが命令フェッチの対象データであったとき、エラーが検出されたプログラム全体を前記第１記憶部からロードして前記第２記憶部のデータを修復することを特徴とする請求項１記載の情報処理装置。
　ＣＰＵにおいてプログラムが動的リンクにより実行される動作環境において、前記第１レジスタに格納されたアドレスに基づいて、前記第２記憶部にロードされたプログラムの中から、エラーが検出されたプログラムを特定することが可能なブートローダをさらに含み、
　前記ソフトエラー処理部は、前記判定部によりエラー内容がソフトエラーと判定され、かつ、エラーが検出されたデータが命令フェッチの対象データであった場合であって、プログラムが動的リンクにより実行されているときには、前記レジスタに格納されたアドレスを引数として前記ブートローダをコールし、前記ブートローダにより特定されたプログラムを前記第１記憶部からロードして前記第２記憶部のデータを修復することを特徴とする請求項１記載の情報処理装置。
　前記ソフトエラー処理部は、前記判定部によりエラー内容がソフトエラーと判定され、かつ、エラーが検出されたデータがオペランドフェッチの対象データであったとき、エラーが検出されたプログラムの先頭アドレスから当該プログラムをＣＰＵに再実行させることを特徴とする請求項１記載の情報処理装置。
　前記ソフトエラー処理部は、前記判定部によりエラー内容がソフトエラーと判定され、かつ、エラーが検出されたデータがオペランドフェッチの対象データであった場合であって、エラーが検出されたプログラムがジョブの一部を構成するプロセスに相当するときには、当該ジョブの実行を中止し、ジョブを再実行させることを特徴とする請求項１記載の情報処理装置。
　前記ソフトエラー処理部は、前記ジョブの実行を中止したときに、さらに上位のジョブが存在すれば、上位のジョブに対して当該ジョブの実行を中止したリターンコードを返すことを特徴とする請求項６記載の情報処理装置。
　前記判定部によりエラー内容がハードエラーと判定されたときには、ＣＰＵによるプログラムの実行を中止させ、システム全体を停止又はリセットするハードエラー処理部をさらに含むことを特徴とする請求項１記載の情報処理装置。
　前記第２記憶部のデータにおけるエラー発生アドレス及びエラー内容を示すエラーステータスを関連付けたエラーログを夫々出力するエラーログ出力部をさらに含むことを特徴とする請求項１記載の情報処理装置。
　前記エラーログ出力部は、エラーが検出されたデータが命令フェッチの対象データであったときに、前記第１レジスタに格納された、エラー検出時における命令フェッチの対象データのアドレスを、前記エラー発生アドレスとして前記エラーログを出力することを特徴とする請求項９記載の情報処理装置。
　ＣＰＵによる命令の実行における、前記第２記憶部からのオペランドフェッチの対象データの前記第２記憶部におけるアドレスを格納する第２レジスタをさらに含み、
　前記エラーログ出力部は、エラーが検出されたデータがオペランドフェッチの対象データであったときに、前記第２レジスタに格納された、エラー検出時におけるオペランドフェッチの対象データのアドレスを、前記エラー発生アドレスとして前記エラーログを出力することを特徴とする請求項９記載の情報処理装置。
　前記第１レジスタは、ＣＰＵにおいてプログラムがパイプライン処理により実行される動作環境において、パイプライン処理における命令フェッチからオペランドフェッチまでの処理ステージの数だけ存在し、
　ＣＰＵは、パイプライン処理により次の命令がフェッチされるごとに、前記第１レジスタに格納された、命令フェッチの対象データの前記第２記憶部におけるアドレスを、次の順番に配置された他の前記第１レジスタに順次移動させ、
　前記再実行部及び前記ソフトエラー処理部は、エラーが検出されたデータが命令フェッチの対象データであったときには、前記第１レジスタのうち最後の命令フェッチの対象データのアドレスが格納された第１レジスタのアドレスで示される命令をＣＰＵに再実行させる一方、エラーが検出されたデータがオペランドフェッチの対象データであったときには、前記第１レジスタのうち、最先の命令フェッチの対象データのアドレスが格納された第１レジスタのアドレスで示される命令をＣＰＵに再実行させることを特徴とする請求項１記載の情報処理装置。
　前記第１記憶部が外部ストレージである一方、前記第２記憶部がローカルメモリであることを特徴とする請求項１記載の情報処理装置。
　前記第１記憶部がメインメモリである一方、前記第２記憶部が命令キャッシュメモリ及びデータキャッシュメモリであって、ＣＰＵがライトスルー方式で処理をしている動作環境において、ＣＰＵによる命令の実行における、オペランドフェッチの対象データの前記メインメモリにおけるアドレスを格納する第２レジスタをさらに含み、
　前記ソフトエラー処理部は、前記判定部によりエラー内容がソフトエラーと判定され、かつ、エラーが検出されたデータがオペランドフェッチの対象データであったときに、前記第２レジスタに格納されたアドレスで示されるオペランドフェッチの対象データを前記メインメモリからロードして前記データキャッシュメモリのデータを修復し、前記第１レジスタに格納されたアドレスで示される命令をＣＰＵに再実行させることを特徴とする請求項１記載の情報処理装置。
　第１記憶部から第２記憶部へとプログラムをロードして命令を実行するＣＰＵによる、前記第２記憶部からの命令フェッチの対象データの前記第２記憶部におけるアドレスを、第１レジスタに格納する格納手順と、
　ＣＰＵによる前記第２記憶部からの命令フェッチ又はオペランドフェッチの対象データのエラーを検出するエラー検出手順と、
　前記エラー検出手順によりエラーが検出されると、前記第１レジスタのアドレスをホールドし、当該第１レジスタに格納されたアドレスで示される命令をＣＰＵに再実行させる再実行手順と、
　前記再実行手順によりＣＰＵにおいて命令が再実行された結果、再度エラーが検出されたときに、エラー内容がソフトエラー又はハードエラーのいずれであるかを判定する判定手順と、
　エラー内容がソフトエラーと判定され、かつ、エラーが検出されたデータが命令フェッチの対象データであったとき、少なくとも前記第１レジスタに格納されたアドレスで示される命令フェッチの対象データを前記第１記憶部からロードして前記第２記憶部のデータを修復し、当該アドレスで示される命令をＣＰＵにさらに再実行させるソフトエラー処理手順と、
　をコンピュータが実行することを特徴とする情報処理方法。
　第１記憶部から第２記憶部へとプログラムをロードして命令を実行するＣＰＵによる、前記第２記憶部からの命令フェッチの対象データの前記第２記憶部におけるアドレスを、第１レジスタに格納する格納機能と、
　ＣＰＵによる前記第２記憶部からの命令フェッチ又はオペランドフェッチの対象データのエラーを検出するエラー検出機能と、
　前記エラー検出機能によりエラーが検出されると、前記第１レジスタのアドレスをホールドし、当該第１レジスタに格納されたアドレスで示される命令をＣＰＵに再実行させる再実行機能と、
　前記再実行機能によりＣＰＵにおいて命令が再実行された結果、再度エラーが検出されたときに、エラー内容がソフトエラー又はハードエラーのいずれであるかを判定する判定機能と、
　前記判定機能によりエラー内容がソフトエラーと判定され、かつ、前記エラー検出機能によりエラーが検出されたデータが命令フェッチの対象データであったとき、少なくとも前記第１レジスタに格納されたアドレスで示される命令フェッチの対象データを前記第１記憶部からロードして前記第２記憶部のデータを修復し、当該アドレスで示される命令をＣＰＵにさらに再実行させるソフトエラー処理機能と、
　をコンピュータに実現させることを特徴とする情報処理プログラム。