JPS62113241A - 障害回復装置 - Google Patents

障害回復装置

Info

Publication number
JPS62113241A
JPS62113241A JP60251880A JP25188085A JPS62113241A JP S62113241 A JPS62113241 A JP S62113241A JP 60251880 A JP60251880 A JP 60251880A JP 25188085 A JP25188085 A JP 25188085A JP S62113241 A JPS62113241 A JP S62113241A
Authority
JP
Japan
Prior art keywords
failure
retry
information processing
information
internal state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60251880A
Other languages
English (en)
Inventor
Shukichi Moriyama
修吉 森山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP60251880A priority Critical patent/JPS62113241A/ja
Publication of JPS62113241A publication Critical patent/JPS62113241A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は情報処理装置の障害回復装置に関し。
特に障害時における再試行方式に関する。
〔従来の技術〕
従来、この種の障害回復装置の再試行方式としては、情
報処理装置の障害を検出すると、実行中の処理を中止し
、障害時の内部状態を速やかに凍結し、障害が発生した
旨を障害回復装置へ通知するようになっていた。内部凍
結手段としては、クロックを停止させる方式、レジスタ
等のセット信号を抑止する方式等があった。凍結の目的
は処理の実行停止と、状態保時にあるので2手段はいづ
れであっても良く、情報処理装置の種類及び情報処理装
置の再試行の方法によっては凍結の必要がない場合もあ
る。
一方、障害通知を受けた障害回復装置においては、凍結
状態の情報処理装置の内部状態情報を読出す手段を有し
、これを保持する手段も有していた。この内部状態情報
は障害履歴としてのログ情報及び後で述べる再試行の為
の情報として使用される。内部状態の読出し手段として
は装置内のフリップフロップ、レジスタ等を直列に結び
、これをシフトすることにより読出すスキャンパス方式
が一般的である。
次に、障害回復装置は障害の詳細情報及び内部状態情報
に基づいて、障害発生時の処理の再試行が可能か否かの
判定を行なう。
この場合の再試行方式にも種々のものがあり。
代表的なものとしては、演算処理装置における命令単位
での命令再試行、処理の流れの途中に再試行ポイントを
設け、このポイントから処理をやり直すチェックポイン
ト再試行方式等がある。
また、再試行可否を判定する判定基準は一概には言えな
い。しかし、先に述べた命令再試行等においては、誤っ
た処理により複数の処理装置が共有する資源等を乱して
しまった場合、再試行不可であることが言える。いづれ
の再試行方式にしても、再試行可否が決定するのは再試
行ポイントへ処理が戻せるがどうがと、処理を再実行し
て問題ないかによる。
再試行が可能であると判定すると、前に述べたように再
試行ポイントへ処理を戻す作業を行なう。処理を再試行
ポイントへ戻すには、凍結状態の内部情報の他に処理の
履歴情報を記憶する手段が必要となる場合がある。命令
再試行の場合では再試行を行なうための情報として再試
行しようとする命令アドレス、命令実行前のソフトウェ
アビジプルレジスタ等の内容が必要である。これらの情
報は障害発生時に即時に凍結されれば問題ない。
しかし、情報処理装置の構成によっては多少のすべりが
生じることがある。この様な場合には再試行ポイントへ
戻すための再試行情報を履歴としてもつ手段が必要であ
る。又、チェックポイント再試行においても必要とする
履歴情報の内容は異なるが、命令再試行同様処理を元へ
戻すための情報が必要となる。
以上のように処理を再試行ポイントへ戻した後は、情報
処理装置の凍結状態を解除し、再試行を指示する。再試
行が成功すれば処理は続行するが、所定回数取上行なっ
ても成功しない場合がある。すなわち、固定障害と呼ば
れるケースである。
この場合、単一処理装置では処理システム全体がダウン
となる。同種の処理装置がシステム内に複数存在すると
きには、正常処理装置で故障処理装置内で実行していた
処理を代行すると言うプロセッサリリーフ方式が採用さ
れる場合もあった。
上述したような従来の障害回復装置での再試行方式で再
試行が不成功の場合には該装置をシステムから切離す。
このように障害装置をシステムから切離した場合、単一
処理装置の場合ではシステムダウンとなるし、プロセッ
サリリーフ方式においてもシステム内での処理装置の数
が減少することがらシステムの処理性能の低下は著しい
。従って。
再試行による障害回復が成功するがどうかは重要である
一方、故障を時間的観点から分類して見ると。
固定故障と間欠故障に分類できる。つまり永久的に故障
状態が続く固定故障と、しばらくの間故障状態が続くも
のの自然に復旧してしまう間欠故障とがある。このよう
な故障に対して、従来の再試行方式では固定故障を救済
することはできなかった。
また故障を別の観点から見ると9回路を構成するスイッ
チング素子のスイッチング動作が不完全でできなくなる
ケースと、スイッチングの遅延時間が定格から外れるよ
うなケースとがある。後者のような遅延故障は、その故
障の性質から、素子を動作させるためのクロックの周期
を変化させることにより、救済できることは容易に推測
できる。
〔発明が解決しようとする問題点〕
上述した従来の障害回復装置の再試行方式では、固定的
な素子の遅延時間不良の故障に関しては、全く対処でき
ないという欠点がある。
〔問題点を解決するための手段〕
本発明による障害回復装置は、クロック同期式情報処理
装置の障害回復装置において、前記情報処理装置の障害
を検出する障害検出手段と該障害検出手段によシ障害が
検出されたときには前記情報処理装置での処理の続行を
速やかに停止させる処理停止手段と、障害により処理が
停止している情報処理装置の内部状態情報を読出しかつ
保持する内部状態読出し手段と、前記障害検出手段によ
り検出された障害情報及び前記内部状態を分析し、障害
発生時に実行中の処理が再試行可能か否かを判定する再
試行判定手段と、再試行実行に先だって前記情報処理装
置に対して供給しているクロックの周期を変化させるク
ロック周期変化手段と、前記再試行判定手段が再試行可
能を示しているなら、前記障害により処理が停止してい
る情報処理装置の内部状態を再試行が行ない得る所定の
状態に設定する内部状態設定手段と、前記障害により処
理が停止している情報処理装置に対し、障害発生時の処
理を再度実行させる指示を行なう再試行指示手段とを有
することを特徴とする。
〔実施例〕
以下1図面を参照して本発明の実施例につい。
て説明する。
第1図は本発明の一実施例を示すブロック図である。
障害回復装置1は制御パス150を介して接続された。
プロセッサ10.メモリ11.入出力装[1112,1
3から成る。
プロセラf10は市販のマイクロプロセッサ等によシ構
成され、メモリ11には、プロセッサ10のプログラム
、制御テーブル等が格納されている。入出力装置12.
13は2例えば磁気ディスク、フロッピーディクス、C
RT、キーボード等であり、磁気ディスク、フロッピー
ディスクは障害ログ情報の格納用に、CRT、キーボー
ドは本障害回復装置を運転するための操作手段として使
用される。
情報処理装置2及び6は、同種のものでも異種のもので
も良い。情報処理回路20,30.は。
各種の情報の加工、転送等を行なうもので1例えば演算
処理、外部装置への情報の転送を制御するものがある。
障害検出回路21.31は情報処理回路20.50の障
害を検出するための回路であシ、状態凍結回路22.3
2は障害検出回路21、31に応答して情報処理回路2
0.30の内部状態を凍結するための回路である。この
凍結手段には、クロックの供給を停止する方式、レジス
タ等の更新を抑止する方式等があるが、いづれであって
も良い。クロック供給回路23゜66は、情報処理回路
20. !10に対してクロックの周期を変化させ得る
回路である。尚、情報処理装置2,3及びこれを構成す
る回路は別々に動作及び制御できるように構成される。
また、障害回復装置1と情報処理装置2.3は、制御パ
ス150を介して各種インタフェースにより接続される
。先づ情報処理装置2,3内の情報処理回路20.50
の内部状態読出し及び書込みには、内部状態読出し/書
込みインタフェース201,301が用意され、障害報
告信号は信号線212,312を介し障害検出回路21
゜51の出力から障害回復装置1へ接続される。
障害回復装置1からは、状態凍結回路22゜321C対
して凍結解除を指示する凍結解除信号が信号線152,
154を介し、クロック供給回路23.53に対してク
ロック周期の切替えを指示するクロック周期切替え指示
信号が信号線151.153を介し接続される。
また、情報処理装置内にあっては、情報処理回路20.
lからは障害情報信号が信号線2o2゜302を介して
障害検出回路21.31 K接続され。
該障害検出回路21.51の出力である内部状態凍結指
示信号は信号線211,311を介し状態凍結回路22
.32の一方の入力端子に印加される。状態凍結回路2
2.32の出力である内部状態凍結信号は信号線221
,321を介し情報処理回路20.30にそれぞれ接続
される。クロック供給回路23.33の出力は、情報処
理回路20.30に対して該回路が動作し得るクロック
として信号線231,331を介し供給される。
尚クロック供給回路23.33は、定常クロックとは異
なる周期の再試行用クロックの供給を行ない得るように
構成され、信号線151.15!1を介して供給される
クロック周期切替え指示信号によりクロック周期の切替
えが可能である。
次に第2図のフローチャートをも参照して第1図の動作
について説明する。
情報処理装置2が障害に陥いった場合について説明する
障害検出回路21に信号線202を介して障害情報信号
が印加される(ステップ4o1)と、障害検出回路21
は信号線212よシ障害報告信号を障害回復装置1に対
し通知する。これと同時に信号線211を介して内部状
態凍結指示信号により状態凍結回路22を動作させ、信
号線221を介して内部状態凍結信号により情報処理回
路20を凍結状態にする(ステップ402)。
障害報告信号によシ障害発生の通知を受は取った障害回
復装置1は、内部状態読出し/書込みインタフェース2
01を介して情報処理回路20の内部状態を読出す(ス
テップ403)。読出した内部状態を分析し再試行可能
かどうかをチェックする(ステップ404)。この再試
行方式は。
従来技術で知られる命令再試行、チェックポイント再試
行のいずれであっても良い。内部状態の読出し手段も従
来のスキャンパス方式で良く。
読出した情報はメモリ11に格納しても良い。
再試行可否の判断はプロセッサ10により行なっても良
い。再試行可否の判断も従来と同様で良く、結果が再試
行不可である(ステップ404のNo)なら、障害回復
処理は行なえない(ステップ405)。再試行が可能で
ある(ステップ404のYES )なら次に再試行回数
が所定回数を越えていないかチェックする(ステップ4
06)。
越えている(ステップ406のyzs)なら再試行失敗
(ステップ407)で処理は終了する。越えていない(
ステップ406のNo)ならここでクロック供給回路2
3に対して信号線151を介してクロック周期切替え指
示信号によりクロックの周期切替を指示する(ステップ
408 )。
次に従来同様再試行ポイントへ戻すために内部状態を再
確定する(ステップ409)。これは内部状態読出し/
書込みインタフェース201を介して行なわれる。再確
定が終了すると、状態凍結回路22に対して凍結解除指
示を信号線152を介して行なう(ステップ410)。
これにより情報処理装置2は再試行を実行に移す(ステ
ップ411)。
以上のように行なわれた再試行が成功すれば(ステップ
412のYES)、情報処理装置2は処理を続行しくス
テップ413)、障害回復装置1は一連の回復処理を終
了する。再試行が失敗しとなる。尚1本実施例では、凍
結解除を行なうことによシ、自動的に再試行を実行する
ように構成されるので、特に再試行指示信号は必要ない
尚、クロック周期の切替えは、再試行可否。
再試行回数チェックの前でも良いし、クロック周期切替
えを行なわずに従来方式で再試行を行ない、従来方式で
失敗したときのみクロック周期を切替える方式にしても
よい。この他、一連の回復処理が終了したら、クロック
周期を定常状態にもどす方式等従来技術との組合せによ
り種々のやり方が考えられる。
尚、再試行時に使用するクロックの周期は一概には言え
ない。本発明の目的である遅延時間故障に対して有効で
かつ、処理装置の性能に大きく影響をおよぼさない範囲
ならいづれでも良い。
〔発明の効果〕
以上説明したように2本発明は、処理の再試行を行なう
に当って、被再試行装置へ供給するり 一ロックの周期を変化させることにより9通常の再試行
では回復できない故障を回復できるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図。 第2図は第1図の動作を説明するフローチャートである
。 1・・・障害回復装置、2,3・・・情報処理装置。 10・・・プロセッサ、11・・・メモリ、12.13
・・・入出力装置、20.30・・・情報処理回路、2
1.31・・・障害検出回路、22.32・・・状態凍
結回路。 25.55・・・クロック供給回路、150・・・制御
パス。 100.−障害回復装置I!      乙、30−−
一楕報処N回路2.3−・−情報処理装置     2
1.31−一一障富検出回路10−−−−プOt’ ・
i”7      22,32−−一状態ンII結[i
]路11−−−− / モ!J           
23.3B−−−りO−/り(9,111!口路12・
13−−−入出力装置       150−−−−1
?1mパス第1図

Claims (1)

    【特許請求の範囲】
  1. 1、クロック同期式情報処理装置の障害回復装置におい
    て、前記情報処理装置の障害を検出する障害検出手段と
    、該障害検出手段により障害が検出されたときには前記
    情報処理装置での処理の続行を速やかに停止させる処理
    停止手段と、障害により処理が停止している情報処理装
    置の内部状態情報を読出しかつ保持する内部状態読出し
    手段と、前記障害検出手段により検出された障害情報及
    び前記内部状態を分析し、障害発生時に実行中の処理が
    再試行可能か否かを判定する再試行判定手段と、再試行
    実行に先だって前記情報処理装置に対して供給している
    クロックの周期を変化させるクロック周期変化手段と、
    前記再試行判定手段が再試行可能を示しているなら、前
    記障害により処理が停止している情報処理装置の内部状
    態を再試行が行ない得る所定の状態に設定する内部状態
    設定手段と、前記障害により処理が停止している情報処
    理装置に対し、障害発生時の処理を再度実行させる指示
    を行なう再試行指示手段とを有することを特徴とする障
    害回復装置。
JP60251880A 1985-11-12 1985-11-12 障害回復装置 Pending JPS62113241A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60251880A JPS62113241A (ja) 1985-11-12 1985-11-12 障害回復装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60251880A JPS62113241A (ja) 1985-11-12 1985-11-12 障害回復装置

Publications (1)

Publication Number Publication Date
JPS62113241A true JPS62113241A (ja) 1987-05-25

Family

ID=17229311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60251880A Pending JPS62113241A (ja) 1985-11-12 1985-11-12 障害回復装置

Country Status (1)

Country Link
JP (1) JPS62113241A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012083992A (ja) * 2010-10-13 2012-04-26 Nec Computertechno Ltd データ障害処理装置、及びデータ障害処理方法
JP2021033567A (ja) * 2019-08-22 2021-03-01 株式会社デンソー 電子制御装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012083992A (ja) * 2010-10-13 2012-04-26 Nec Computertechno Ltd データ障害処理装置、及びデータ障害処理方法
JP2021033567A (ja) * 2019-08-22 2021-03-01 株式会社デンソー 電子制御装置

Similar Documents

Publication Publication Date Title
US4912707A (en) Checkpoint retry mechanism
US6128752A (en) Fault tolerant design for identification of AC defects including variance of cycle time to maintain system operation
EP0505706B1 (en) Alternate processor continuation of the task of a failed processor
US6829729B2 (en) Method and system for fault isolation methodology for I/O unrecoverable, uncorrectable error
US6845469B2 (en) Method for managing an uncorrectable, unrecoverable data error (UE) as the UE passes through a plurality of devices in a central electronics complex
KR100304319B1 (ko) 시간 지연 이중화 기술을 구현하는 장치 및 방법
US6665818B1 (en) Apparatus and method for detecting, diagnosing, and handling deadlock errors
JP2003015900A (ja) 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法
JPH02294739A (ja) 障害検出方式
JP3063334B2 (ja) 高信頼度化情報処理装置
JPS62113241A (ja) 障害回復装置
JPS6258344A (ja) 障害回復装置
JPS62102335A (ja) 障害回復装置
JP2922981B2 (ja) タスクの実行継続方法
JP2776815B2 (ja) 多重プロセッサシステムの障害回復方法
JPS6142033A (ja) 情報処理装置
JPH0553852A (ja) テスト装置
JP3055249B2 (ja) プロセッサのデバッグ方式
JPH04365145A (ja) メモリ障害処理方法
JPH0135369B2 (ja)
JPH06139089A (ja) 情報処理装置の障害処理装置
JPS63136142A (ja) 論理装置のエラ−回復方式
JPS6341943A (ja) 論理装置のエラ−回復方式
JPS6061839A (ja) 論理装置の故障診断処理方式
JPS63193249A (ja) マイクロプログラム制御装置