JPS6130297B2

JPS6130297B2 -

Info

Publication number: JPS6130297B2
Application number: JP56030282A
Authority: JP
Inventors: Katsuichi Tomita
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1981-03-03
Filing date: 1981-03-03
Publication date: 1986-07-12
Also published as: JPS57143647A

Description

【発明の詳細な説明】本発明は、情報処理システムにおける多重構成
の論理装置システムのエラー回復システムに関す
る。

従来、命令再試行機能を有する論理装置（以下
CPU）において、命令実行中にエラーが発生し
た場合該CPU自身が該命令の再試行可否を判断
し再試行可能なら該命令を再試行することにより
該CPUのエラー回復が計られている。しかし、
この方式では、該エラーが固定的な故障に起因し
て発生した場合、たとえ再試行可能であつても回
復できないという欠点がある。このため、多重
CPU構成のシステムでは、正常なCPUを利用し
てエラー回復を計る方式が採用されている。例え
ばこの種の方式の詳細は特開昭55−87251号公報
を参照できる。これはエラーが発生したCPUの
命令再試行可能状態をエラーが発生していない正
常なCPUに移送し、エラーが発生したCPU上の
処理を正常なCPUが命令再試行から引継ぐ方式
である。しかし、この方式では正常なCPU上で
の処理の継続性を保証するため、任意の時点で瞬
時に引継ぐことができず、引継げる状態になるま
で引継ぎを待合せる処理が必要になるという欠点
がある。

また、例えば特公昭47−36181号公報記載のシ
ステムにおいては、エラーにより中断した処理の
再開に必要な制御情報を正常なCPUがエラーし
たCPUの状態情報から生成し、一旦主記憶装置
（以下MMU）に該制御情報を格納しておき正常
CPU自身の処理を続けた後該制御情報を取り出
して回復する方式がとらえている。しかし、この
方式では、エラーしたCPUの状態情報から再開
に必要な制御情報を生成する処理を、エラーが発
生した時点で正常CPUが行わねばならず、正常
CPU上での処理を一時中断しなければならない
という欠点がある。このように、従来の方式で
は、エラーの発生しない正常CPUで、回復のた
めの待合せ処理や中断処理を必要とするという欠
点がある。

本発明の目的は、上述の欠点を除去して多重
CPU構成のシステムにおけるCPUのエラー回復
を正常なCPUには何らの負荷をかけることなく
行えるようにした論理装置のエラー回復システム
を提供することにある。

本発明のシステムは複数の論理装置とこれらの
論理装置に共用される少なくとも１台の記憶装置
と、これらの論理装置のエラー回復動作を制御す
るエラー回復装置とを有する論理装置のエラー回
復システムにおいて、命令の実行制御回路と、該
実行制御回路に発生するエラーを検出し、該実行
制御回路の動作を停止させるエラー検出回路と、
該エラー検出回路でのエラー検出を前記エラー回
復装置に通知する通知回路と、動作が停止した前
記実行制御回路の内部状態を前記エラー回復装置
から読み出しおよび書き込みできるよう制御する
読み出し書き込み制御回路とを有する複数の論理
装置と、該論理装置に共用され該論理装置での処
理の開始または再開に必要な制御情報を記憶する
少なくとも前記１台の記憶装置と、前記論理装置の前記通知回路からエラー通知を
受ける受信回路と該受信回路の起動に応答して前
記論理装置の命令再試行を制御し命令再試行不成
功のときには該論理装置の状態情報から該論理装
置で中断された処理の再開に必要な制御情報を生
成する処理回路と該処理回路の指示に応答して前
記論理装置の前記読み出し書き込み制御回路を介
して前記実行制御回路の内部状態の読み出しおよ
び書き込み動作を行う状態退避復旧回路と、前記
処理回路で生成された制御情報を前記記憶装置に
書き込むインタフエース回路とを含む。

次に本発明について図面を参照して詳細に説明
する。

第１図を参照すると、本発明の一実施例は、エ
ラー回復システム１０、複数のCPU２０および
３０、およびこれらのCPU２０および３０に共
用される主記憶装置５０から構成されている。

前記エラー回復装置１０はCPU２０からエラ
ー通知インタフエース１０２を介してエラー通知
を受取るエラー受信回路１１、エラー受信回路１
１に起動されCPU２０の命令再試行を制御し
CPU２０上で中断された処理の再開に必要な制
御情報を生成する処理回路１４、該処理回路１４
に制御され状態情報移送インタフエース１１２を
介してCPU２０の状態情報を読み出し処理回路
１４が命令再試行制御のために設定する状態情報
をCPU２０に書き込み状態退避復旧回路１２、
該処理回路１４から動作の停止したCPU２０を
起動するインタフエース１２２、該処理回路１４
上での処理の手順（プログラム）、状態退避復旧
回路１２からの退避情報、該状態退避復旧回路１
２に送出する復旧情報および前記処理回路１４に
生成される制御情報を格納する記憶装置１３、該
生成された制御情報を主記憶装置５０の所定の位
置に格納するため主記憶装置５０の任意のアドレ
スに読み出しおよび書き込みを行える主記憶装置
アクセス回路１５とから構成され、前記エラー回
復装置１０はCPU２０と全く同じ構成からなる
CPU３０ともエラー通知インタフエース１０
３、状態情報移送インタフエース１１３および
CPU起動インタフエース１２３を介して接続さ
れている。

前記CPU２０は通常の処理を逐行するための
命令実行制御回路２１、主記憶装置アクセス回路
２２、該制御回路２１やアクセス回路２２に発生
するエラーを検出するエラー検出回路２３、エラ
ーが検出された時にエラー回復装置１０にエラー
通知を行うエラー通知回路２４、およびCPU２
０の全状態情報をインタフエース１１２より読み
出しおよび書込みできるよう制御する読み出し書
き込み回路２５から構成されている。CPU３０
もCPU２０と全く同じ構成である。また、主記
憶装置５０は、エラー回復装置１０、CPU２
０、およびCPU３０との間に書き込み、および
読出し可能なインタフエース１０５，２０５およ
び３０５を有しており、CPUにて処理される最
小処理単位（以後タスク）の制御情報が格納され
ている。

主記憶装置５０内の該タスク制御情報の構成を
示す第２図において、該制御情報は、タスクの有
効性を示す有効表示ビツトＶと、タスク識別名称
格納領域IDと、CPU状態制御情報領域Ｓとから
なり、固定番地Ｂから始まる連続した番地にｎ個
分の領域が確保されている。タスクが生成または
中断される毎に該制御情報が生成され、生成順に
該領域の高位番地方向に、順次格納される。この
順序制御は固定番地Ａに格納されているポインタ
情報を使つて行われる。ポインタ情報は次に生成
されるタスク制御情報の格納番地を示しており、
CPU２０、CPU３０またはエラー回復装置１０
がこのポインタ情報を読み取つて、タスク制御情
報格納装置を検出する。該ポインタ情報の更新制
御もCPU２０、CPU３０またはエラー回復装置
１０が行う。更新は読取り後、その内容に固定値
Ｌ（Ｖビツト長＋タスク識別名称長＋CPU状態
制御情報長）を加えて再格納する処理が、読み取
つた装置により行われる。この読み取りおよび再
格納処理はCPU２０、CPU３０およびエラー回
復装置１０の間で競合することがあり、競合を回
避するため、排他制御論理を使つて行われる。

タスクの実行制御を行うCPUは実行開始時点
で、固定番地Ｃにある実行中タスク表示領域に、
実行を開始するタスク名を発録しておく。該実行
中タスク表示領域は、CPU２０用の領域C₁と
CPU３０用の領域C₂とからなり、エラー回復装
置はCPUからエラー通知を受けた時点で、該
CPUが実行中のタスクの識別名称を知ることが
できる。

正常な状態では、CPU２０およびCPU３０
が、タスク制御情報を待行列に登録する処理P₁
と、登録された行列を順次取り出し、取り出され
た制御情報に基づいてタスクを実行する処理P₂を
行つており、処理P₁と処理P₂とは互に独立した処
理であるので、CPU２０が登録したタスク制御
情報をCPU３０が取り出して実行することも、
CPU２０自身が取り出して実行することも可能
である。いずれかのCPUがエラーした場合に
は、エラー回復装置１０がタスク制御情報を登録
する。この場も、CPU２０またはCPU３０のい
ずれか正常な側が、該タスク制御情報を読み出
し、処理することができる。

第１図において、CPU２０に故障が発生する
と、エラー検出回路２３が該故障を検出し、命令
実行制御回路２１の制御動作を停止させる。さら
に該検出回路２３はエラー通知回路２４を起動
し、エラー通知インタフエース１０２を介してエ
ラー回復装置１０にエラーを報告する。エラー回
復装置１０のエラー受信回路１１がこの報告を受
け、処理回路１４にCPU２０のエラー処理を開
始するよう指示する。指示を受けた処理回路１４
は状態退避復旧回路１２にCPU２０の状態情報
を読み出すよう指示する。指示を受けた状態退避
復旧回路１２は、インタフエース１１２を介して
CPU２０の読み出し書き込み回路２５を制御す
るとともに、該インタフエース１１２を介して
CPU２０の内部状態を読み出し、エラー回復装
置１０の記憶装置１３に格納する。該格納の終了
は、該状態退避復旧回路１２から処理回路１４に
通知される。終了通知を受けた処理回路１４は記
憶装置１３に格納されたCPU２０の状態情報を
解析し、命令再試行の可否を判定する。もし命令
再試行可能なら該処理回路１４は該状態情報に基
づいて、命令再試行を行う状態情報を生成し、該
状態情報を記憶回路１３に格納して、該格納情報
をCPU２０に設定するよう前記状態退避復旧回
路１２に書込指示する。書込指示を受けた該退避
復旧回路１２は記憶回路に格納された前記命令再
試行を行う状態情報をCPU２０の読み出し書き
込み回路２５を制御して、CPU２０に書込み、
書込み動作が終了すると処理回路１４に終了通知
を行う。終了通知を受けた処理回路１４はCPU
起動インタフエース１２２を制御して、CPU２
０を起動する。ここでは、CPU２０にエラーが
発生した時実行されていた命令から処理が再開さ
れることになる。もし、命令再試行が成功すれ
ば、このまま処理が続けられる。もし、命令再試
行が不成功なら、CPU２０のエラー検出回路２
３は再びエラーを検出し、前記と同様の手順でエ
ラー回復装置１０の処理回路１４にエラーが通知
される。処理回路１４は、CPU起動インタフエ
ース１２２を介してCPU２０を起動した直後に
再びエラー通知を受けたので、命令再試行不成功
と判定する。この時、処理回路１４は先に障害を
起した時読み出したCPU２０の状態情報を処理
し、CPU状態制御情報を生成する。該状態制御
情報はCPU２０およびCPU３０で生成するもの
と、全く同型式である。さらに処理回路１４は主
記憶装置アクセス回路１５を介して、主記憶装置
５０にアクセスし、第２図に示す固定番地C₁か
らCPU２０がエラー時実行していたタスクの識
別名称を、固定番地Ａからポインタ情報をそれぞ
れ読み取る。次に処理回路１４は、生成した
CPU状態制御情報と読み取つたタスク識別名称
とに、有効表示ビツトを“１”にして付加したタ
スク制御情報を、ポインタ情報で示される主記憶
番地に書き込む。その後ポインタ情報に、タスク
制御情報長Ｌを加えて、同じ番地Ａに再格納す
る。該情報長Ｌを加えた結果の番地が、タスク制
御情報領域を越えた場合は、初期値Ｂを格納す
る。登録されたタスク制御情報は、正常CPU３
０により待行列の順序に従い取り出され、処理さ
れる。正常なCPU３０は、CPU２０が故障して
停止したことも、CPU２０上で処理されていた
タスクがエラーにより中断したことも一切関知す
る必要がなく、通常の処理の中で自動的に引継ぐ
ことになる。CPU２０がエラーした時点で、エ
ラー回復装置１０の処理回路１４が命令再試行不
能と判定した場合には処理装置１４は主記憶装置
アクセス回路１５を介して、主記憶装置５０にア
クセスし、第２図に示す固定番地C₁からCPU２
０が障害発生時実行していたタスクの識別名称
を、固定番地Ａからポインタ情報を読み取る。次
に、有効表示ビツトを“０”にし読取つたタスク
識別名称に付加して、ポインタ情報で示される主
記憶番地に書き込む。命令再試行不成功の場合と
異なりCPU状態制御情報は書き込まれない。こ
の後ポインタ情報の更新を行う手順は、命令再試
行不成功の場合に同じである。正常なCPU３０
は、タスク制御情報領域を順次読み出し、処理を
読けており、この過程でエラー回復装置１０が生
成したタスク制御情報も処理することになる。
CPU３０は有効表示ビツトＶが“０”の制御情
報を読み取ると、タスク識別名称IDに記録され
ているタスクを放棄する処理を行う。

本実施例ではCPU２０が故障した場合につい
て述べたが、CPU３０が故障した場合も同様に
処理されることは自明である。さらに本実施例は
CPUが２台の構成について示しているが、エラ
ー回復装置へのインタフエース数と、主記憶装置
内の実行中タスク表示領域とをCPU台数分だけ
拡張することにより、３台以上のCPU構成につ
いても容易に実現できることは明らかである。

本発明はCPUの状態情報からタスク制御情報
を生成できるエラー回復装置を構成することによ
り正常なCPUには全く負荷をかけることなく、
障害の発生したCPU上の処理を引継げるように
できるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示す図、第２図は
第１図に示した主記憶装置５０に格納される情報
の論理構成を示す図である。第１図および第２図において、１０……エラー
回復装置、１３……記憶回路、１１……エラー受
信回路、１４……処理回路、１２……状態退避復
旧回路、１５……主記憶装置アクセス回路、２０
……中央処理装置（CPU）、２３……エラー検出
回路、２１……命令実行制御回路、２４……エラ
ー通知回路、２２……主記憶装置アクセス回路、
２５……読み出し書込み回路、３０……中央処理
装置（CPU）、５０……主記憶装置、１０２，１
０３……エラー通知インタフエース、１０５，２
０５，３０５……主記憶アクセスインタフエー
ス、１１２，１１３……CPU状態移送インタフ
エース、１２２，１２３……CPU起動インタフ
エース、Ａ……タスク制御情報ポインタ格納アド
レス、Ｂ……タスク制御情報格納開始アドレス、
C₁……CPU２０実行中タスク名称格納アドレ
ス、C₂……CPU３０実行中タスク名称格納アド
レス、ID……タスク識別名称格納フイールド、
Ｓ……CPU状態制御情報格納フイールド、Ｖ…
…タスク有効表示ビツト。

Claims

【特許請求の範囲】１複数の論理装置とこれらの論理装置に共用さ
れる少なくとも１台の記憶装置と、これらの論理
装置のエラー回復動作を制御するエラー回復装置
とを有する論理装置のエラー回復システムにおい
て、命令の実行制御回路と、該実行制御回路から発
生するエラーを検出し該実行制御回路の動作を停
止させるエラー検出回路と、該エラー検出回路で
のエラー検出を前記エラー回復装置に通知する通
知回路と、動作が停止した前記実行制御回路の内
部状態を前記エラー回復装置から読み出しおよび
書き込みできるよう制御する読み出し書き込み制
御回路とを有する複数の論理装置と、該論理装置に共用され該論理装置での処理の開
始または再開に必要な制御情報を記憶する少なく
とも前記１台の記憶装置と、前記論理装置の前記通知回路からエラー通知を
受ける受信回路と、該受信回路の起動に応答して
前記論理装置の命令再試行を制御し命令再試行不
成功のときには該論理装置の状態情報から該論理
装置上で中断された処理の再開に必要な制御情報
を生成する処理回路と、該処理回路の指示に応答
して前記論理装置の前記読出し書込み制御回路を
介して前記実行制御回路の内部状態の読出しおよ
び書込み動作を行う状態退避復旧回路と、前記処
理回路で生成された制御情報を前記記憶装置に書
き込むインタフエース回路とを有するエラー回復
装置とを含むことを特徴とする論理装置のエラー
回復システム。