JPS6130296B2 - - Google Patents

Info

Publication number
JPS6130296B2
JPS6130296B2 JP56030281A JP3028181A JPS6130296B2 JP S6130296 B2 JPS6130296 B2 JP S6130296B2 JP 56030281 A JP56030281 A JP 56030281A JP 3028181 A JP3028181 A JP 3028181A JP S6130296 B2 JPS6130296 B2 JP S6130296B2
Authority
JP
Japan
Prior art keywords
circuit
error
retry
cpu
control circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56030281A
Other languages
English (en)
Other versions
JPS57143646A (en
Inventor
Katsuichi Tomita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP56030281A priority Critical patent/JPS57143646A/ja
Publication of JPS57143646A publication Critical patent/JPS57143646A/ja
Publication of JPS6130296B2 publication Critical patent/JPS6130296B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)

Description

【発明の詳細な説明】 本発明は、情報処理システムにおける多重構成
の論理装置システムのエラー回復システムに関す
る。
従来、命令再試行機能を有する論理装置(以下
CPU)において、命令実行中にエラーが発生し
た場合、該CPU自身が該命令の再試行可否を判
断し、再試行可能なら該命令を再試行することに
より、該CPUのエラー回復が計られている。し
かし、この方式では、該エラーが固定的な故障に
起因して発生した場合、たとえ再試行可能であつ
ても、回復できないという欠点がある。このた
め、多重CPU構成のシステムでは、正常なCPU
を利用してエラー回復を計る方式が採用されてい
る。例えばこの種の方式の詳細は特開昭55−
87251号公報を参照できる。これはエラーが発生
したCPUの命令再試行可能状態をエラーが発生
していない正常なCPUに移送し、エラーが発生
したCPU上の処理を正常なCPUが命令再試行か
ら引継ぐ方式である。しかし、この方式では正常
なCPU上での処理の継続性を保証するため、任
意の時点で瞬時に引継ぐことができず、引継げる
状態になるまで引継ぎを待合せる処理が必要にな
るという欠点がある。
また、例えば特公昭47−36181号公報記載のシ
ステムにおいては、エラーにより中断した処理の
再開に必要な制御情報を正常なCPUがエラーし
たCPUの状態情報から生成し、一旦主記憶装置
(以下MMU)に該制御情報を格納しておき正常
CPU自身の処理を続けた後該制御装置を取出し
て回復する方式がとられている。しかし、この方
式では、エラーしたCPUの状態情報から再開に
必要な制御情報を生成する処理を、エラーが発生
した時点で正常CPUが行わねばならず、正常
CPU上での処理を一時中断しなければならない
という欠点がある。このように、従来の方式では
エラーの発生しない正常CPUで、回復のための
待合せ処理や中断処理を必要とするという欠点が
ある。
本発明の目的は上述の欠点を除去し多重CPU
構成のシステムにおけるCPUのエラー回復を正
常なCPUには何らの負荷をかけることなく行え
るようにした論理装置のエラー回復システムを提
供することにある。
本発明は複数の論理装置とこれらの論理装置に
共用される少なくとも1台の記憶装置とこれらの
論理装置のエラー回復動作を制御するエラー回復
装置とを有する論理装置のエラー回復システムに
おいて、 命令の実行制御回路と、該実行制御回路から発
生されるエラーを検出するエラー検出回路と、該
エラー検出回路でエラーを検出したときに該エラ
ー検出回路の起動に応答して前記実行制御回路の
状態を読み出し、命令の再試行可否を判定して再
試行可能なら再試行を行い、再試行不可または再
試行不成功であれば該実行制御回路の動作を停止
させる再試行制御回路と、再試行不可または再試
行不成功であれば、該再試行制御回路の指示に応
答して前記エラー回復装置にエラー通知を行う通
知回路と、停止した前記実行制御回路の内部状態
を前記エラー回復装置から読み出せるよう制御す
る読出制御回路とを有する複数の論理装置と、 該論理装置上での処理の開始または再開に必要
な制御情報を格納し、該論理装置群に共用される
少なくとも前記1台の記憶装置と、 前記論理装置の前記通知回路からエラー通知を
受け、該論理装置が命令再試行不可または命令再
試行不成功のいずれで停止しているかを判定する
判定回路と、該判定回路で命令再試行不成功と判
定したときに、該エラー論理装置の前記読出制御
回路を介して前記実行制御回路の状態情報を読み
出す読み出し回路と、該読み出し回路で読み出し
た状態情報から、該エラー論理装置上で中断され
た処理の再開に必要な制御情報を生成する処理回
路と、該生成された制御情報を前記記憶装置に書
き込むインタフエース回路とを有するエラー回復
装置とから構成されている。
次に発発明について図面を参照して詳細に説明
する。
第1図を参照すると、本発明の一実施例はエラ
ー回復装置10、複数のCPU20および30、
およびこれらのCPU20および30に共用され
る主記憶装置50から構成されている。
前記エラー回復装置10はCPU20からエラ
ー通知インタフエース102を介してエラー通知
と再試行不成功、または再試行不可の識別情報を
受取るエラー判定回路11、このエラー判定回路
11の指示でCPU20の状態情報を収集する
CPU状態読出回路12、読出回路12により読
み出された状態情報を記憶する記憶装置13、該
状態情報からCPU上で動作するオペレーテイン
グシステムが処理できる制御情報を生成する処理
装置14、および該生成された制御信号を主記憶
装置50の所定の位置に格納するため主記憶装置
50の任意のアドレスに読出し書込みを行える主
記憶装置アクセス回路15とから構成されてお
り、エラー通知インタフエース103を介して、
CPU20と全く同じ構成からなるCPU30にも
接続され、CPU30の状態情報を読出すための
インタフエース113とも接続されている。
前記CPU20は、通常の処理を遂行するため
の命令実行制御回路21、主記憶装置アクセス回
路22、エラー検出回路23、エラーが検出され
た時命令再試行を制御する制御回路24、命令再
試行制御回路24により判定されセツトされる命
令再試行不可インジケータ25、命令再試行不成
功インジケータ26、これらのインジケータ25
および26の表示情報を付してエラー回復装置1
0にエラー通知を行うエラー通知回路27、およ
びCPU20の全状態情報をインタフエース11
2を介して読み出せるように制御する状態退避回
路28から構成されている。CPU30もCPU2
0と全く同じ構成である。また、主記憶装置50
は、エラー回復装置10、CPU20、および
CPU30との間に書込みおよび読出し可能なイ
ンタフエース105,205および305を有し
ており、CPUにて処理される最小処理単位(以
後タスク)の制御情報が格納されている。
主記憶装置50内の該タスク制御情報の構成を
示す第2図において、該制御情報は、タスクの有
効性を示す有効表示ビツトVと、タスク識別名称
格納領域IDと、CPU状態制御情報領域Sとから
なり、固定番地Bから始まる連続した番地にn個
分の領域が確保されている。タスクが生成または
中断される毎に該制御情報が生成され、生成順に
該領域の高位番地方向に順次格納される。この順
序制御は固定番地Aに格納されているポインタ情
報を使つて行われる。ポインタ情報は次に生成さ
れるタスク制御情報の格納番地を示しており、
CPU20、CPU30またはエラー回復装置10
がこのポインタ情報を読み取つて、タスク制御情
報格納位置を検出する。該ポインタ情報の更新制
御もCPU20、CPU30またはエラー回復装置
10が行う。更新は読み取り後、その内容に固定
値L(Vビツト長+タスク識別名称長+CPU状
態制御情報長)を加えて再格納する処理が、読取
つた装置により行われる。この読み取り、および
再格納処理はCPU20、CPU30およびエラー
回復装置10の間で競合することがあり、競合を
回避するため、排他制御論理を使つて行われる。
タスクの実行制御を行うCPUは実行開始時点
で、固定番地Cにある実行中タスク表示領因に実
行を開始するタスク名を登録しておく。該実行中
タスク表示領域は、CPU20用の領域C1とCPU
30用の領域C2とからなり、エラー回復装置は
CPUからエラー通知を受けた時点で、該CPUが
実行中のタスクの識別名称を知ることができる。
正常な状態では、CPU20およびCPU30
が、タスク制御情報を待行列に登録する処理P1
と、登録された行列を順次取り出し、取り出され
た制御情報に基づいてタスク実行する処理P2とを
行つており、処理P1と処理P2とは互に独立した処
理であるので、CPU20が登録したタスク制御
情報をCPU30が取り出して実行することも、
CPU20自身が取り出して実行することも可能
である。いずれかのCPUがエラーした場合に
は、エラー回復装置10がタスク制御情報を登録
する。この場合も、CPU20またはCPU30の
いずれか正常な側が、該タスク制御情報を読出
し、処理することができる。
第1図において、CPU20に故障が発生する
と、エラー検出回路23が該故障を検出し、命令
再試行制御回路24に通知する。命令再試行制御
回路24は、通知を受けた時点の命令実行制御回
路21の状態から、命令再試行が可能か否か判定
する。もし、命令再試行可能と判定できた場合、
該制御回路24は再試行処理を行う。再試行に成
功した場合CPU20はそのまま処理を継続す
る。再試行を行つたが不成功に終つた場合、該制
御回路24は再試行不成功インジゲータ26をセ
ツトし、エラー通知回路27を介してエラー回復
装置10に通知する。エラー回復装置10のエラ
ー判定回路11はCPU状態読出回路12を起動
し、同時に処理装置14に再試行不成功を通知す
る。該読出回路12はインタフエース112を介
してCPU20内の状態退避回路28を制御し、
CPU20の内部状態を読み出し記憶部13に格
納する。記憶部13に全退避情報を格納した時点
で、読出し回路20は処理装置14に完了通知を
行う。完了通知を受けた処理装置14は、格納さ
れたCPUの状態情報に基づいてCPU状態制御情
報を生成する。該状態制御情報はCPU20およ
びCPU30で生成するものと、全く同型式であ
る。さらに処理装置14は主記憶装置アクセス回
路15を通して主記憶装置50にアクセスし、第
2図に示す固定番地C1からCPU20がエラー時
実行していたタスクの識別名称を、固定番地Aか
らポインタ情報をそれぞれ読み取る。次に処理装
置14は、生成したCPU状態制御情報と読み取
つたタスク識別名称とに、有効表示ビツトを
“1”にして付加したタスク制御情報を、ポイン
タ情報で示される主記憶番地に書き込む。その後
ポインタ情報に、タスク制御情報長Lを加えて、
同じ番地Aに再格納する。該情報長Lを加えた結
果の番地が、タスク制御情報領域を越えた場合
は、初期値Bを格納する。登録されたタスク制御
情報は、正常CPU30により待行列の順序に従
い取り出され処理される。正常CPU30は、
CPU20が故障して停止したことも、CPU20
上で処理されていたタスクがエラーにより中断し
てことも一切関知する必要がなく、通常の処理の
中で自動的に引継ぐことになる。CPU20が障
害を発生した時点で、命令再試行制御回路24が
命令再試行不能と判定した場合には、該制御回路
24は、命令再試行不可インジケータ25をセツ
トし、エラー通知回路27を介してエラー回復装
置10に命令再試行不可エラーを通知する。エラ
ー回復装置10のエラー判定回路11は再試行不
可を処理装置14に通知する。処理装置14は主
記憶装置アクセス回路15を通して主記憶装置5
0にアクセスし、第2図に示す固定番地C1から
CPU20がエラー時実行していたタスクの識別
名称を、固定番地Aからポインタ情報を読み取
る。次に、有効表示ビツトを“0”にし読取つた
タスク識別名称に付加して、ポインタ情報で示さ
れる主記憶番地に書込む。命令再試行不成功の場
合と異なりCPU状態制御情報は書込まれない。
この後ポインタ情報の更新を行う手順は、命令再
試行不成功の場合に同じである。正常なCPU3
0は、タスク制御情報領域を順次読み出し、処理
を続けており、この過程でエラー回復装置10が
生成したタスク制御情報も処理することになる。
CPU30は有効表示ビツトVが“0”の制御情
報を読取ると、タスク識別名称IDに記録されて
いるタスクを放棄する処理を行う。
本実施例ではCPU20が故障した場合につい
て述べたが、CPU30が故障した場合も同様に
処理されることは自明である。さらに本実施例は
CPUが2台の構成について示しているが、エラ
ー回復装置へのインタフエース数と、主記憶装置
内の実行中タスク表示領域とをCPU台数分だけ
拡張することにより、3台以上のCPU構成につ
いても容易に実現できることは明らかである。
本発明にはCPUの状態情報から、タスク制御
情報を生成できるエラー回復装置を構成すること
により正常なCPUには全く負荷をかけることな
く障害の発生したCPU上の処理を引継げるよう
にできるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示す図、および第
2図は第1図に示した主記憶装置50に格納され
る情報の論理構成を示す図である。 第1図および第2図において、10……エラー
回復装置、11……エラー判定回路、12……
CPU状態読出回路、13……記憶装置、14…
…処理装置、15……主記憶装置アクセス回路、
20……中央処理装置(CPU)、21……命令実
行制御回路、22……主記憶装置アクセス回路、
23……エラー検出回路、24……命令再試行制
御回路、25……命令再試行不可インジケータ、
26……命令再試行不成功インジケータ、27…
…エラー通知回路、28……状態退避回路、30
……中央処理装置(CPU)、50……主記憶装
置、102,103……エラー通知インタフエー
ス、105,205,305……主記憶アクセス
インタフエース、112,113……CPU状態
読出インタフエース、A……タスク制御情報ポイ
ンタ格納アドレス、B……タスク制御情報格納開
始アドレス、C1……CPU20実行中タスク名称
格納アドレス、C2……CPU30実行中タスク名
称格納アドレス、ID……タスク識別名称格納フ
イールド、S……CPU状態制御情報格納フイー
ルド、V……タスク有効表示ビツト。

Claims (1)

  1. 【特許請求の範囲】 1 複数の論理装置とこれらの論理装置に共用さ
    れる少なくとも1台の記憶装置と、これらの論理
    装置のエラー回復動作を制御するエラー回復装置
    とを有する論理装置のエラー回復システムにおい
    て、命令の実行制御回路と、該実行制御回路から
    発生されるエラーを検出するエラー検出回路と、
    該エラー検出回路でエラーを検出したときに該エ
    ラー検出回路の起動に応答して前記実行制御回路
    の状態を読み出し命令の再試行可否を判定した再
    試行可能であれば再試行を行い再試行不可または
    再試行不成功であれば該実行制御回路の動作を停
    止させる再試行制御回路と、再試行不可または再
    試行不成功のときに該再試行制御回路の指示に応
    答して前記エラー回復装置にエラー通知を行う通
    知回路と、動作が停止した前記実行制御回路の内
    部状態を前記エラー回復装置から読み出せるよう
    制御する読出し制御回路とを有する複数の論理装
    置と、 該論理装置に共用され該論理装置上での処理の
    開始または再開に必要な制御情報を記憶する少な
    くとも前記1台の記憶装置と、 前記論理装置の前記通知回路からエラー通知に
    応答して該論理装置が命令再試行不可または命令
    再試行不成功のいずれで停止しているかを判定す
    る判定回路と、該判定回路で命令再試行不成功と
    判定したときに該エラー論理装置の前記読出制御
    回路を介して前記実行制御回路の状態情報を読み
    出す読出し回路と、該読出し回路から読み出され
    た状態情報から該エラー論理装置上で中断された
    処理の再開に必要な制御情報を生成する処理回路
    と、該生成された制御情報を前記記憶装置に書き
    込むインタフエース回路とを有するエラー回復装
    置とを含むことを特徴とする論理装置のエラー回
    復システム。
JP56030281A 1981-03-03 1981-03-03 Error recovery system for logical device Granted JPS57143646A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56030281A JPS57143646A (en) 1981-03-03 1981-03-03 Error recovery system for logical device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56030281A JPS57143646A (en) 1981-03-03 1981-03-03 Error recovery system for logical device

Publications (2)

Publication Number Publication Date
JPS57143646A JPS57143646A (en) 1982-09-04
JPS6130296B2 true JPS6130296B2 (ja) 1986-07-12

Family

ID=12299330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56030281A Granted JPS57143646A (en) 1981-03-03 1981-03-03 Error recovery system for logical device

Country Status (1)

Country Link
JP (1) JPS57143646A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6024651A (ja) * 1983-07-21 1985-02-07 Nippon Telegr & Teleph Corp <Ntt> 障害処理方式
JPS6341943A (ja) * 1986-08-08 1988-02-23 Nec Corp 論理装置のエラ−回復方式

Also Published As

Publication number Publication date
JPS57143646A (en) 1982-09-04

Similar Documents

Publication Publication Date Title
US4852092A (en) Error recovery system of a multiprocessor system for recovering an error in a processor by making the processor into a checking condition after completion of microprogram restart from a checkpoint
JPH07117903B2 (ja) 障害回復方法
US5003458A (en) Suspended instruction restart processing system based on a checkpoint microprogram address
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
US5146569A (en) System for storing restart address of microprogram, determining the validity, and using valid restart address to resume execution upon removal of suspension
JPH07141176A (ja) コマンドリトライ制御方式
JPS6130296B2 (ja)
JPS6130297B2 (ja)
JP2772052B2 (ja) 資源情報引き継ぎ処理方法
JPS6143739B2 (ja)
JP3130798B2 (ja) バス転送装置
JP2527964B2 (ja) 予備系プログラム初期起動制御方式
JP2825589B2 (ja) バス制御方式
JP3214551B2 (ja) 競合検出故障診断方式、競合検出故障診断方法、バスコンバータ、および記録媒体
JP2922981B2 (ja) タスクの実行継続方法
JP3340284B2 (ja) 冗長システム
JPS6059611B2 (ja) 情報処理装置
JPS6156537B2 (ja)
JPS622334B2 (ja)
JPH07244536A (ja) レジューム支援機構
JPH10247157A (ja) トランザクション処理システムおよびそのリカバリ方法
JPH039433A (ja) 情報処理装置
JPH01140357A (ja) メモリアクセス制御装置
JPS60250440A (ja) リトライ制御方式
JPH011041A (ja) 障害早期検出方式