JPS6130297B2 - - Google Patents

Info

Publication number
JPS6130297B2
JPS6130297B2 JP56030282A JP3028281A JPS6130297B2 JP S6130297 B2 JPS6130297 B2 JP S6130297B2 JP 56030282 A JP56030282 A JP 56030282A JP 3028281 A JP3028281 A JP 3028281A JP S6130297 B2 JPS6130297 B2 JP S6130297B2
Authority
JP
Japan
Prior art keywords
circuit
cpu
error
processing
control circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56030282A
Other languages
English (en)
Other versions
JPS57143647A (en
Inventor
Katsuichi Tomita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP56030282A priority Critical patent/JPS57143647A/ja
Publication of JPS57143647A publication Critical patent/JPS57143647A/ja
Publication of JPS6130297B2 publication Critical patent/JPS6130297B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)

Description

【発明の詳細な説明】 本発明は、情報処理システムにおける多重構成
の論理装置システムのエラー回復システムに関す
る。
従来、命令再試行機能を有する論理装置(以下
CPU)において、命令実行中にエラーが発生し
た場合該CPU自身が該命令の再試行可否を判断
し再試行可能なら該命令を再試行することにより
該CPUのエラー回復が計られている。しかし、
この方式では、該エラーが固定的な故障に起因し
て発生した場合、たとえ再試行可能であつても回
復できないという欠点がある。このため、多重
CPU構成のシステムでは、正常なCPUを利用し
てエラー回復を計る方式が採用されている。例え
ばこの種の方式の詳細は特開昭55−87251号公報
を参照できる。これはエラーが発生したCPUの
命令再試行可能状態をエラーが発生していない正
常なCPUに移送し、エラーが発生したCPU上の
処理を正常なCPUが命令再試行から引継ぐ方式
である。しかし、この方式では正常なCPU上で
の処理の継続性を保証するため、任意の時点で瞬
時に引継ぐことができず、引継げる状態になるま
で引継ぎを待合せる処理が必要になるという欠点
がある。
また、例えば特公昭47−36181号公報記載のシ
ステムにおいては、エラーにより中断した処理の
再開に必要な制御情報を正常なCPUがエラーし
たCPUの状態情報から生成し、一旦主記憶装置
(以下MMU)に該制御情報を格納しておき正常
CPU自身の処理を続けた後該制御情報を取り出
して回復する方式がとらえている。しかし、この
方式では、エラーしたCPUの状態情報から再開
に必要な制御情報を生成する処理を、エラーが発
生した時点で正常CPUが行わねばならず、正常
CPU上での処理を一時中断しなければならない
という欠点がある。このように、従来の方式で
は、エラーの発生しない正常CPUで、回復のた
めの待合せ処理や中断処理を必要とするという欠
点がある。
本発明の目的は、上述の欠点を除去して多重
CPU構成のシステムにおけるCPUのエラー回復
を正常なCPUには何らの負荷をかけることなく
行えるようにした論理装置のエラー回復システム
を提供することにある。
本発明のシステムは複数の論理装置とこれらの
論理装置に共用される少なくとも1台の記憶装置
と、これらの論理装置のエラー回復動作を制御す
るエラー回復装置とを有する論理装置のエラー回
復システムにおいて、命令の実行制御回路と、該
実行制御回路に発生するエラーを検出し、該実行
制御回路の動作を停止させるエラー検出回路と、
該エラー検出回路でのエラー検出を前記エラー回
復装置に通知する通知回路と、動作が停止した前
記実行制御回路の内部状態を前記エラー回復装置
から読み出しおよび書き込みできるよう制御する
読み出し書き込み制御回路とを有する複数の論理
装置と、該論理装置に共用され該論理装置での処
理の開始または再開に必要な制御情報を記憶する
少なくとも前記1台の記憶装置と、 前記論理装置の前記通知回路からエラー通知を
受ける受信回路と該受信回路の起動に応答して前
記論理装置の命令再試行を制御し命令再試行不成
功のときには該論理装置の状態情報から該論理装
置で中断された処理の再開に必要な制御情報を生
成する処理回路と該処理回路の指示に応答して前
記論理装置の前記読み出し書き込み制御回路を介
して前記実行制御回路の内部状態の読み出しおよ
び書き込み動作を行う状態退避復旧回路と、前記
処理回路で生成された制御情報を前記記憶装置に
書き込むインタフエース回路とを含む。
次に本発明について図面を参照して詳細に説明
する。
第1図を参照すると、本発明の一実施例は、エ
ラー回復システム10、複数のCPU20および
30、およびこれらのCPU20および30に共
用される主記憶装置50から構成されている。
前記エラー回復装置10はCPU20からエラ
ー通知インタフエース102を介してエラー通知
を受取るエラー受信回路11、エラー受信回路1
1に起動されCPU20の命令再試行を制御し
CPU20上で中断された処理の再開に必要な制
御情報を生成する処理回路14、該処理回路14
に制御され状態情報移送インタフエース112を
介してCPU20の状態情報を読み出し処理回路
14が命令再試行制御のために設定する状態情報
をCPU20に書き込み状態退避復旧回路12、
該処理回路14から動作の停止したCPU20を
起動するインタフエース122、該処理回路14
上での処理の手順(プログラム)、状態退避復旧
回路12からの退避情報、該状態退避復旧回路1
2に送出する復旧情報および前記処理回路14に
生成される制御情報を格納する記憶装置13、該
生成された制御情報を主記憶装置50の所定の位
置に格納するため主記憶装置50の任意のアドレ
スに読み出しおよび書き込みを行える主記憶装置
アクセス回路15とから構成され、前記エラー回
復装置10はCPU20と全く同じ構成からなる
CPU30ともエラー通知インタフエース10
3、状態情報移送インタフエース113および
CPU起動インタフエース123を介して接続さ
れている。
前記CPU20は通常の処理を逐行するための
命令実行制御回路21、主記憶装置アクセス回路
22、該制御回路21やアクセス回路22に発生
するエラーを検出するエラー検出回路23、エラ
ーが検出された時にエラー回復装置10にエラー
通知を行うエラー通知回路24、およびCPU2
0の全状態情報をインタフエース112より読み
出しおよび書込みできるよう制御する読み出し書
き込み回路25から構成されている。CPU30
もCPU20と全く同じ構成である。また、主記
憶装置50は、エラー回復装置10、CPU2
0、およびCPU30との間に書き込み、および
読出し可能なインタフエース105,205およ
び305を有しており、CPUにて処理される最
小処理単位(以後タスク)の制御情報が格納され
ている。
主記憶装置50内の該タスク制御情報の構成を
示す第2図において、該制御情報は、タスクの有
効性を示す有効表示ビツトVと、タスク識別名称
格納領域IDと、CPU状態制御情報領域Sとから
なり、固定番地Bから始まる連続した番地にn個
分の領域が確保されている。タスクが生成または
中断される毎に該制御情報が生成され、生成順に
該領域の高位番地方向に、順次格納される。この
順序制御は固定番地Aに格納されているポインタ
情報を使つて行われる。ポインタ情報は次に生成
されるタスク制御情報の格納番地を示しており、
CPU20、CPU30またはエラー回復装置10
がこのポインタ情報を読み取つて、タスク制御情
報格納装置を検出する。該ポインタ情報の更新制
御もCPU20、CPU30またはエラー回復装置
10が行う。更新は読取り後、その内容に固定値
L(Vビツト長+タスク識別名称長+CPU状態
制御情報長)を加えて再格納する処理が、読み取
つた装置により行われる。この読み取りおよび再
格納処理はCPU20、CPU30およびエラー回
復装置10の間で競合することがあり、競合を回
避するため、排他制御論理を使つて行われる。
タスクの実行制御を行うCPUは実行開始時点
で、固定番地Cにある実行中タスク表示領域に、
実行を開始するタスク名を発録しておく。該実行
中タスク表示領域は、CPU20用の領域C1
CPU30用の領域C2とからなり、エラー回復装
置はCPUからエラー通知を受けた時点で、該
CPUが実行中のタスクの識別名称を知ることが
できる。
正常な状態では、CPU20およびCPU30
が、タスク制御情報を待行列に登録する処理P1
と、登録された行列を順次取り出し、取り出され
た制御情報に基づいてタスクを実行する処理P2
行つており、処理P1と処理P2とは互に独立した処
理であるので、CPU20が登録したタスク制御
情報をCPU30が取り出して実行することも、
CPU20自身が取り出して実行することも可能
である。いずれかのCPUがエラーした場合に
は、エラー回復装置10がタスク制御情報を登録
する。この場も、CPU20またはCPU30のい
ずれか正常な側が、該タスク制御情報を読み出
し、処理することができる。
第1図において、CPU20に故障が発生する
と、エラー検出回路23が該故障を検出し、命令
実行制御回路21の制御動作を停止させる。さら
に該検出回路23はエラー通知回路24を起動
し、エラー通知インタフエース102を介してエ
ラー回復装置10にエラーを報告する。エラー回
復装置10のエラー受信回路11がこの報告を受
け、処理回路14にCPU20のエラー処理を開
始するよう指示する。指示を受けた処理回路14
は状態退避復旧回路12にCPU20の状態情報
を読み出すよう指示する。指示を受けた状態退避
復旧回路12は、インタフエース112を介して
CPU20の読み出し書き込み回路25を制御す
るとともに、該インタフエース112を介して
CPU20の内部状態を読み出し、エラー回復装
置10の記憶装置13に格納する。該格納の終了
は、該状態退避復旧回路12から処理回路14に
通知される。終了通知を受けた処理回路14は記
憶装置13に格納されたCPU20の状態情報を
解析し、命令再試行の可否を判定する。もし命令
再試行可能なら該処理回路14は該状態情報に基
づいて、命令再試行を行う状態情報を生成し、該
状態情報を記憶回路13に格納して、該格納情報
をCPU20に設定するよう前記状態退避復旧回
路12に書込指示する。書込指示を受けた該退避
復旧回路12は記憶回路に格納された前記命令再
試行を行う状態情報をCPU20の読み出し書き
込み回路25を制御して、CPU20に書込み、
書込み動作が終了すると処理回路14に終了通知
を行う。終了通知を受けた処理回路14はCPU
起動インタフエース122を制御して、CPU2
0を起動する。ここでは、CPU20にエラーが
発生した時実行されていた命令から処理が再開さ
れることになる。もし、命令再試行が成功すれ
ば、このまま処理が続けられる。もし、命令再試
行が不成功なら、CPU20のエラー検出回路2
3は再びエラーを検出し、前記と同様の手順でエ
ラー回復装置10の処理回路14にエラーが通知
される。処理回路14は、CPU起動インタフエ
ース122を介してCPU20を起動した直後に
再びエラー通知を受けたので、命令再試行不成功
と判定する。この時、処理回路14は先に障害を
起した時読み出したCPU20の状態情報を処理
し、CPU状態制御情報を生成する。該状態制御
情報はCPU20およびCPU30で生成するもの
と、全く同型式である。さらに処理回路14は主
記憶装置アクセス回路15を介して、主記憶装置
50にアクセスし、第2図に示す固定番地C1
らCPU20がエラー時実行していたタスクの識
別名称を、固定番地Aからポインタ情報をそれぞ
れ読み取る。次に処理回路14は、生成した
CPU状態制御情報と読み取つたタスク識別名称
とに、有効表示ビツトを“1”にして付加したタ
スク制御情報を、ポインタ情報で示される主記憶
番地に書き込む。その後ポインタ情報に、タスク
制御情報長Lを加えて、同じ番地Aに再格納す
る。該情報長Lを加えた結果の番地が、タスク制
御情報領域を越えた場合は、初期値Bを格納す
る。登録されたタスク制御情報は、正常CPU3
0により待行列の順序に従い取り出され、処理さ
れる。正常なCPU30は、CPU20が故障して
停止したことも、CPU20上で処理されていた
タスクがエラーにより中断したことも一切関知す
る必要がなく、通常の処理の中で自動的に引継ぐ
ことになる。CPU20がエラーした時点で、エ
ラー回復装置10の処理回路14が命令再試行不
能と判定した場合には処理装置14は主記憶装置
アクセス回路15を介して、主記憶装置50にア
クセスし、第2図に示す固定番地C1からCPU2
0が障害発生時実行していたタスクの識別名称
を、固定番地Aからポインタ情報を読み取る。次
に、有効表示ビツトを“0”にし読取つたタスク
識別名称に付加して、ポインタ情報で示される主
記憶番地に書き込む。命令再試行不成功の場合と
異なりCPU状態制御情報は書き込まれない。こ
の後ポインタ情報の更新を行う手順は、命令再試
行不成功の場合に同じである。正常なCPU30
は、タスク制御情報領域を順次読み出し、処理を
読けており、この過程でエラー回復装置10が生
成したタスク制御情報も処理することになる。
CPU30は有効表示ビツトVが“0”の制御情
報を読み取ると、タスク識別名称IDに記録され
ているタスクを放棄する処理を行う。
本実施例ではCPU20が故障した場合につい
て述べたが、CPU30が故障した場合も同様に
処理されることは自明である。さらに本実施例は
CPUが2台の構成について示しているが、エラ
ー回復装置へのインタフエース数と、主記憶装置
内の実行中タスク表示領域とをCPU台数分だけ
拡張することにより、3台以上のCPU構成につ
いても容易に実現できることは明らかである。
本発明はCPUの状態情報からタスク制御情報
を生成できるエラー回復装置を構成することによ
り正常なCPUには全く負荷をかけることなく、
障害の発生したCPU上の処理を引継げるように
できるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示す図、第2図は
第1図に示した主記憶装置50に格納される情報
の論理構成を示す図である。 第1図および第2図において、10……エラー
回復装置、13……記憶回路、11……エラー受
信回路、14……処理回路、12……状態退避復
旧回路、15……主記憶装置アクセス回路、20
……中央処理装置(CPU)、23……エラー検出
回路、21……命令実行制御回路、24……エラ
ー通知回路、22……主記憶装置アクセス回路、
25……読み出し書込み回路、30……中央処理
装置(CPU)、50……主記憶装置、102,1
03……エラー通知インタフエース、105,2
05,305……主記憶アクセスインタフエー
ス、112,113……CPU状態移送インタフ
エース、122,123……CPU起動インタフ
エース、A……タスク制御情報ポインタ格納アド
レス、B……タスク制御情報格納開始アドレス、
C1……CPU20実行中タスク名称格納アドレ
ス、C2……CPU30実行中タスク名称格納アド
レス、ID……タスク識別名称格納フイールド、
S……CPU状態制御情報格納フイールド、V…
…タスク有効表示ビツト。

Claims (1)

  1. 【特許請求の範囲】 1 複数の論理装置とこれらの論理装置に共用さ
    れる少なくとも1台の記憶装置と、これらの論理
    装置のエラー回復動作を制御するエラー回復装置
    とを有する論理装置のエラー回復システムにおい
    て、 命令の実行制御回路と、該実行制御回路から発
    生するエラーを検出し該実行制御回路の動作を停
    止させるエラー検出回路と、該エラー検出回路で
    のエラー検出を前記エラー回復装置に通知する通
    知回路と、動作が停止した前記実行制御回路の内
    部状態を前記エラー回復装置から読み出しおよび
    書き込みできるよう制御する読み出し書き込み制
    御回路とを有する複数の論理装置と、 該論理装置に共用され該論理装置での処理の開
    始または再開に必要な制御情報を記憶する少なく
    とも前記1台の記憶装置と、 前記論理装置の前記通知回路からエラー通知を
    受ける受信回路と、該受信回路の起動に応答して
    前記論理装置の命令再試行を制御し命令再試行不
    成功のときには該論理装置の状態情報から該論理
    装置上で中断された処理の再開に必要な制御情報
    を生成する処理回路と、該処理回路の指示に応答
    して前記論理装置の前記読出し書込み制御回路を
    介して前記実行制御回路の内部状態の読出しおよ
    び書込み動作を行う状態退避復旧回路と、前記処
    理回路で生成された制御情報を前記記憶装置に書
    き込むインタフエース回路とを有するエラー回復
    装置とを含むことを特徴とする論理装置のエラー
    回復システム。
JP56030282A 1981-03-03 1981-03-03 Error recovery system for logical device Granted JPS57143647A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56030282A JPS57143647A (en) 1981-03-03 1981-03-03 Error recovery system for logical device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56030282A JPS57143647A (en) 1981-03-03 1981-03-03 Error recovery system for logical device

Publications (2)

Publication Number Publication Date
JPS57143647A JPS57143647A (en) 1982-09-04
JPS6130297B2 true JPS6130297B2 (ja) 1986-07-12

Family

ID=12299357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56030282A Granted JPS57143647A (en) 1981-03-03 1981-03-03 Error recovery system for logical device

Country Status (1)

Country Link
JP (1) JPS57143647A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4807228A (en) * 1987-03-18 1989-02-21 American Telephone And Telegraph Company, At&T Bell Laboratories Method of spare capacity use for fault detection in a multiprocessor system
JP4795025B2 (ja) * 2006-01-13 2011-10-19 キヤノン株式会社 ダイナミックリコンフィギャラブルデバイス、制御方法、及びプログラム

Also Published As

Publication number Publication date
JPS57143647A (en) 1982-09-04

Similar Documents

Publication Publication Date Title
US4852092A (en) Error recovery system of a multiprocessor system for recovering an error in a processor by making the processor into a checking condition after completion of microprogram restart from a checkpoint
JPH07117903B2 (ja) 障害回復方法
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
JPH02196355A (ja) 記憶処理システム
JPS6130297B2 (ja)
JPS6130296B2 (ja)
JPS6143739B2 (ja)
JP3130798B2 (ja) バス転送装置
JP2527964B2 (ja) 予備系プログラム初期起動制御方式
JPH07219796A (ja) 情報処理装置
JPS6059611B2 (ja) 情報処理装置
JP2606431B2 (ja) 制御メモリの障害回復方式
JPS6156537B2 (ja)
JP2825589B2 (ja) バス制御方式
JP2922981B2 (ja) タスクの実行継続方法
JPH039433A (ja) 情報処理装置
JPH10247157A (ja) トランザクション処理システムおよびそのリカバリ方法
JPS6258354A (ja) 主記憶のテスト方法
JPH0325807B2 (ja)
JPS59129996A (ja) バツフアメモリ装置
JPH01140357A (ja) メモリアクセス制御装置
JPS635779B2 (ja)
JPH05233466A (ja) 二重化補助記憶装置の障害回復方式
JPH0368035A (ja) 情報処理装置
JPH04252339A (ja) 故障処理装置の切り離し処理方式