JPS6130296B2

JPS6130296B2 -

Info

Publication number: JPS6130296B2
Application number: JP56030281A
Authority: JP
Inventors: Katsuichi Tomita
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1981-03-03
Filing date: 1981-03-03
Publication date: 1986-07-12
Also published as: JPS57143646A

Description

【発明の詳細な説明】本発明は、情報処理システムにおける多重構成
の論理装置システムのエラー回復システムに関す
る。

従来、命令再試行機能を有する論理装置（以下
CPU）において、命令実行中にエラーが発生し
た場合、該CPU自身が該命令の再試行可否を判
断し、再試行可能なら該命令を再試行することに
より、該CPUのエラー回復が計られている。し
かし、この方式では、該エラーが固定的な故障に
起因して発生した場合、たとえ再試行可能であつ
ても、回復できないという欠点がある。このた
め、多重CPU構成のシステムでは、正常なCPU
を利用してエラー回復を計る方式が採用されてい
る。例えばこの種の方式の詳細は特開昭55−
87251号公報を参照できる。これはエラーが発生
したCPUの命令再試行可能状態をエラーが発生
していない正常なCPUに移送し、エラーが発生
したCPU上の処理を正常なCPUが命令再試行か
ら引継ぐ方式である。しかし、この方式では正常
なCPU上での処理の継続性を保証するため、任
意の時点で瞬時に引継ぐことができず、引継げる
状態になるまで引継ぎを待合せる処理が必要にな
るという欠点がある。

また、例えば特公昭47−36181号公報記載のシ
ステムにおいては、エラーにより中断した処理の
再開に必要な制御情報を正常なCPUがエラーし
たCPUの状態情報から生成し、一旦主記憶装置
（以下MMU）に該制御情報を格納しておき正常
CPU自身の処理を続けた後該制御装置を取出し
て回復する方式がとられている。しかし、この方
式では、エラーしたCPUの状態情報から再開に
必要な制御情報を生成する処理を、エラーが発生
した時点で正常CPUが行わねばならず、正常
CPU上での処理を一時中断しなければならない
という欠点がある。このように、従来の方式では
エラーの発生しない正常CPUで、回復のための
待合せ処理や中断処理を必要とするという欠点が
ある。

本発明の目的は上述の欠点を除去し多重CPU
構成のシステムにおけるCPUのエラー回復を正
常なCPUには何らの負荷をかけることなく行え
るようにした論理装置のエラー回復システムを提
供することにある。

本発明は複数の論理装置とこれらの論理装置に
共用される少なくとも１台の記憶装置とこれらの
論理装置のエラー回復動作を制御するエラー回復
装置とを有する論理装置のエラー回復システムに
おいて、命令の実行制御回路と、該実行制御回路から発
生されるエラーを検出するエラー検出回路と、該
エラー検出回路でエラーを検出したときに該エラ
ー検出回路の起動に応答して前記実行制御回路の
状態を読み出し、命令の再試行可否を判定して再
試行可能なら再試行を行い、再試行不可または再
試行不成功であれば該実行制御回路の動作を停止
させる再試行制御回路と、再試行不可または再試
行不成功であれば、該再試行制御回路の指示に応
答して前記エラー回復装置にエラー通知を行う通
知回路と、停止した前記実行制御回路の内部状態
を前記エラー回復装置から読み出せるよう制御す
る読出制御回路とを有する複数の論理装置と、該論理装置上での処理の開始または再開に必要
な制御情報を格納し、該論理装置群に共用される
少なくとも前記１台の記憶装置と、前記論理装置の前記通知回路からエラー通知を
受け、該論理装置が命令再試行不可または命令再
試行不成功のいずれで停止しているかを判定する
判定回路と、該判定回路で命令再試行不成功と判
定したときに、該エラー論理装置の前記読出制御
回路を介して前記実行制御回路の状態情報を読み
出す読み出し回路と、該読み出し回路で読み出し
た状態情報から、該エラー論理装置上で中断され
た処理の再開に必要な制御情報を生成する処理回
路と、該生成された制御情報を前記記憶装置に書
き込むインタフエース回路とを有するエラー回復
装置とから構成されている。

次に発発明について図面を参照して詳細に説明
する。

第１図を参照すると、本発明の一実施例はエラ
ー回復装置１０、複数のCPU２０および３０、
およびこれらのCPU２０および３０に共用され
る主記憶装置５０から構成されている。

前記エラー回復装置１０はCPU２０からエラ
ー通知インタフエース１０２を介してエラー通知
と再試行不成功、または再試行不可の識別情報を
受取るエラー判定回路１１、このエラー判定回路
１１の指示でCPU２０の状態情報を収集する
CPU状態読出回路１２、読出回路１２により読
み出された状態情報を記憶する記憶装置１３、該
状態情報からCPU上で動作するオペレーテイン
グシステムが処理できる制御情報を生成する処理
装置１４、および該生成された制御信号を主記憶
装置５０の所定の位置に格納するため主記憶装置
５０の任意のアドレスに読出し書込みを行える主
記憶装置アクセス回路１５とから構成されてお
り、エラー通知インタフエース１０３を介して、
CPU２０と全く同じ構成からなるCPU３０にも
接続され、CPU３０の状態情報を読出すための
インタフエース１１３とも接続されている。

前記CPU２０は、通常の処理を遂行するため
の命令実行制御回路２１、主記憶装置アクセス回
路２２、エラー検出回路２３、エラーが検出され
た時命令再試行を制御する制御回路２４、命令再
試行制御回路２４により判定されセツトされる命
令再試行不可インジケータ２５、命令再試行不成
功インジケータ２６、これらのインジケータ２５
および２６の表示情報を付してエラー回復装置１
０にエラー通知を行うエラー通知回路２７、およ
びCPU２０の全状態情報をインタフエース１１
２を介して読み出せるように制御する状態退避回
路２８から構成されている。CPU３０もCPU２
０と全く同じ構成である。また、主記憶装置５０
は、エラー回復装置１０、CPU２０、および
CPU３０との間に書込みおよび読出し可能なイ
ンタフエース１０５，２０５および３０５を有し
ており、CPUにて処理される最小処理単位（以
後タスク）の制御情報が格納されている。

主記憶装置５０内の該タスク制御情報の構成を
示す第２図において、該制御情報は、タスクの有
効性を示す有効表示ビツトＶと、タスク識別名称
格納領域IDと、CPU状態制御情報領域Ｓとから
なり、固定番地Ｂから始まる連続した番地にｎ個
分の領域が確保されている。タスクが生成または
中断される毎に該制御情報が生成され、生成順に
該領域の高位番地方向に順次格納される。この順
序制御は固定番地Ａに格納されているポインタ情
報を使つて行われる。ポインタ情報は次に生成さ
れるタスク制御情報の格納番地を示しており、
CPU２０、CPU３０またはエラー回復装置１０
がこのポインタ情報を読み取つて、タスク制御情
報格納位置を検出する。該ポインタ情報の更新制
御もCPU２０、CPU３０またはエラー回復装置
１０が行う。更新は読み取り後、その内容に固定
値Ｌ（Ｖビツト長＋タスク識別名称長＋CPU状
態制御情報長）を加えて再格納する処理が、読取
つた装置により行われる。この読み取り、および
再格納処理はCPU２０、CPU３０およびエラー
回復装置１０の間で競合することがあり、競合を
回避するため、排他制御論理を使つて行われる。
タスクの実行制御を行うCPUは実行開始時点
で、固定番地Ｃにある実行中タスク表示領因に実
行を開始するタスク名を登録しておく。該実行中
タスク表示領域は、CPU２０用の領域C₁とCPU
３０用の領域C₂とからなり、エラー回復装置は
CPUからエラー通知を受けた時点で、該CPUが
実行中のタスクの識別名称を知ることができる。

正常な状態では、CPU２０およびCPU３０
が、タスク制御情報を待行列に登録する処理P₁
と、登録された行列を順次取り出し、取り出され
た制御情報に基づいてタスク実行する処理P₂とを
行つており、処理P₁と処理P₂とは互に独立した処
理であるので、CPU２０が登録したタスク制御
情報をCPU３０が取り出して実行することも、
CPU２０自身が取り出して実行することも可能
である。いずれかのCPUがエラーした場合に
は、エラー回復装置１０がタスク制御情報を登録
する。この場合も、CPU２０またはCPU３０の
いずれか正常な側が、該タスク制御情報を読出
し、処理することができる。

第１図において、CPU２０に故障が発生する
と、エラー検出回路２３が該故障を検出し、命令
再試行制御回路２４に通知する。命令再試行制御
回路２４は、通知を受けた時点の命令実行制御回
路２１の状態から、命令再試行が可能か否か判定
する。もし、命令再試行可能と判定できた場合、
該制御回路２４は再試行処理を行う。再試行に成
功した場合CPU２０はそのまま処理を継続す
る。再試行を行つたが不成功に終つた場合、該制
御回路２４は再試行不成功インジゲータ２６をセ
ツトし、エラー通知回路２７を介してエラー回復
装置１０に通知する。エラー回復装置１０のエラ
ー判定回路１１はCPU状態読出回路１２を起動
し、同時に処理装置１４に再試行不成功を通知す
る。該読出回路１２はインタフエース１１２を介
してCPU２０内の状態退避回路２８を制御し、
CPU２０の内部状態を読み出し記憶部１３に格
納する。記憶部１３に全退避情報を格納した時点
で、読出し回路２０は処理装置１４に完了通知を
行う。完了通知を受けた処理装置１４は、格納さ
れたCPUの状態情報に基づいてCPU状態制御情
報を生成する。該状態制御情報はCPU２０およ
びCPU３０で生成するものと、全く同型式であ
る。さらに処理装置１４は主記憶装置アクセス回
路１５を通して主記憶装置５０にアクセスし、第
２図に示す固定番地C₁からCPU２０がエラー時
実行していたタスクの識別名称を、固定番地Ａか
らポインタ情報をそれぞれ読み取る。次に処理装
置１４は、生成したCPU状態制御情報と読み取
つたタスク識別名称とに、有効表示ビツトを
“１”にして付加したタスク制御情報を、ポイン
タ情報で示される主記憶番地に書き込む。その後
ポインタ情報に、タスク制御情報長Ｌを加えて、
同じ番地Ａに再格納する。該情報長Ｌを加えた結
果の番地が、タスク制御情報領域を越えた場合
は、初期値Ｂを格納する。登録されたタスク制御
情報は、正常CPU３０により待行列の順序に従
い取り出され処理される。正常CPU３０は、
CPU２０が故障して停止したことも、CPU２０
上で処理されていたタスクがエラーにより中断し
てことも一切関知する必要がなく、通常の処理の
中で自動的に引継ぐことになる。CPU２０が障
害を発生した時点で、命令再試行制御回路２４が
命令再試行不能と判定した場合には、該制御回路
２４は、命令再試行不可インジケータ２５をセツ
トし、エラー通知回路２７を介してエラー回復装
置１０に命令再試行不可エラーを通知する。エラ
ー回復装置１０のエラー判定回路１１は再試行不
可を処理装置１４に通知する。処理装置１４は主
記憶装置アクセス回路１５を通して主記憶装置５
０にアクセスし、第２図に示す固定番地C₁から
CPU２０がエラー時実行していたタスクの識別
名称を、固定番地Ａからポインタ情報を読み取
る。次に、有効表示ビツトを“０”にし読取つた
タスク識別名称に付加して、ポインタ情報で示さ
れる主記憶番地に書込む。命令再試行不成功の場
合と異なりCPU状態制御情報は書込まれない。
この後ポインタ情報の更新を行う手順は、命令再
試行不成功の場合に同じである。正常なCPU３
０は、タスク制御情報領域を順次読み出し、処理
を続けており、この過程でエラー回復装置１０が
生成したタスク制御情報も処理することになる。
CPU３０は有効表示ビツトＶが“０”の制御情
報を読取ると、タスク識別名称IDに記録されて
いるタスクを放棄する処理を行う。

本実施例ではCPU２０が故障した場合につい
て述べたが、CPU３０が故障した場合も同様に
処理されることは自明である。さらに本実施例は
CPUが２台の構成について示しているが、エラ
ー回復装置へのインタフエース数と、主記憶装置
内の実行中タスク表示領域とをCPU台数分だけ
拡張することにより、３台以上のCPU構成につ
いても容易に実現できることは明らかである。

本発明にはCPUの状態情報から、タスク制御
情報を生成できるエラー回復装置を構成すること
により正常なCPUには全く負荷をかけることな
く障害の発生したCPU上の処理を引継げるよう
にできるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示す図、および第
２図は第１図に示した主記憶装置５０に格納され
る情報の論理構成を示す図である。第１図および第２図において、１０……エラー
回復装置、１１……エラー判定回路、１２……
CPU状態読出回路、１３……記憶装置、１４…
…処理装置、１５……主記憶装置アクセス回路、
２０……中央処理装置（CPU）、２１……命令実
行制御回路、２２……主記憶装置アクセス回路、
２３……エラー検出回路、２４……命令再試行制
御回路、２５……命令再試行不可インジケータ、
２６……命令再試行不成功インジケータ、２７…
…エラー通知回路、２８……状態退避回路、３０
……中央処理装置（CPU）、５０……主記憶装
置、１０２，１０３……エラー通知インタフエー
ス、１０５，２０５，３０５……主記憶アクセス
インタフエース、１１２，１１３……CPU状態
読出インタフエース、Ａ……タスク制御情報ポイ
ンタ格納アドレス、Ｂ……タスク制御情報格納開
始アドレス、C₁……CPU２０実行中タスク名称
格納アドレス、C₂……CPU３０実行中タスク名
称格納アドレス、ID……タスク識別名称格納フ
イールド、Ｓ……CPU状態制御情報格納フイー
ルド、Ｖ……タスク有効表示ビツト。

Claims

【特許請求の範囲】１複数の論理装置とこれらの論理装置に共用さ
れる少なくとも１台の記憶装置と、これらの論理
装置のエラー回復動作を制御するエラー回復装置
とを有する論理装置のエラー回復システムにおい
て、命令の実行制御回路と、該実行制御回路から
発生されるエラーを検出するエラー検出回路と、
該エラー検出回路でエラーを検出したときに該エ
ラー検出回路の起動に応答して前記実行制御回路
の状態を読み出し命令の再試行可否を判定した再
試行可能であれば再試行を行い再試行不可または
再試行不成功であれば該実行制御回路の動作を停
止させる再試行制御回路と、再試行不可または再
試行不成功のときに該再試行制御回路の指示に応
答して前記エラー回復装置にエラー通知を行う通
知回路と、動作が停止した前記実行制御回路の内
部状態を前記エラー回復装置から読み出せるよう
制御する読出し制御回路とを有する複数の論理装
置と、該論理装置に共用され該論理装置上での処理の
開始または再開に必要な制御情報を記憶する少な
くとも前記１台の記憶装置と、前記論理装置の前記通知回路からエラー通知に
応答して該論理装置が命令再試行不可または命令
再試行不成功のいずれで停止しているかを判定す
る判定回路と、該判定回路で命令再試行不成功と
判定したときに該エラー論理装置の前記読出制御
回路を介して前記実行制御回路の状態情報を読み
出す読出し回路と、該読出し回路から読み出され
た状態情報から該エラー論理装置上で中断された
処理の再開に必要な制御情報を生成する処理回路
と、該生成された制御情報を前記記憶装置に書き
込むインタフエース回路とを有するエラー回復装
置とを含むことを特徴とする論理装置のエラー回
復システム。