JPS6258344A - 障害回復装置 - Google Patents

障害回復装置

Info

Publication number
JPS6258344A
JPS6258344A JP60199971A JP19997185A JPS6258344A JP S6258344 A JPS6258344 A JP S6258344A JP 60199971 A JP60199971 A JP 60199971A JP 19997185 A JP19997185 A JP 19997185A JP S6258344 A JPS6258344 A JP S6258344A
Authority
JP
Japan
Prior art keywords
internal state
fault
retry
information processing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60199971A
Other languages
English (en)
Inventor
Shukichi Moriyama
修吉 森山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP60199971A priority Critical patent/JPS6258344A/ja
Publication of JPS6258344A publication Critical patent/JPS6258344A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は情報処理装置の障害回復装置に関する。
〔従来の技術〕
従来、この種の障害回復装置の再試行方式は、情報処理
装置で障害を検出すると、実行中の処理を中止し障害時
の内部状態を速やかに凍結し、障害が発生した旨を障害
回復装置へ通知するようになっていた。
内部凍結の手iとしては、クロックを停止させる方式、
レジスタ等のセット信号を抑止する方式等があった。凍
結の目的は処理の実行停止と状態保持にあるので手段は
いづれであっても良く、情報処理装置の種類および該装
置の再試行の方法によっては凍結の必要がない場合もあ
る。
一方、障害通知を受けた障害回復装置にあっては、前記
凍結状態の情報処理装置の内部状態情報を読出す手段を
有し、これを保持する手段も有していた。内部状態情報
は障害履歴としてのログ情報および後で述べる再試行の
ための情報として使用される。内部状態の読出し手段と
しては装置内のフリップフロップ、レジスタ等を直列に
結び、これをシフトすることにより読出すスキャンパス
方式が一般的である0次に障害回復装置は障害の詳細情
報および前記内部状態情報に基いて障害発生時の処理の
再試行が可能か否かの判定を行なう、この場合の再試行
方式にも種々のものがあり、代表的なものとしては、演
算処理装置における命令単位での命令再試行、処理の流
れの途中に再試行ポイントを設け、このポイントから処
理をやり直すチェックポイント再試行方式等がある。
また、再試行可否を判定する判定基準は一概には言えな
い、しかし先に述べた命令再試行等においては誤った処
理により複数の処理装置が共有する資源等を乱してしま
った場合においては再試行不可であることが言える。い
づれの再試行方式にしても再試行可否が決定するのは再
試行ポイントへ処理が戻せるかどうかと、処理を再実行
して問題ないかによる。再試行が可能であると判定する
と、前に述べたように再試行ポイントへ処理を戻す作業
を行なう、処理を再試行ポイントへ戻すには凍結状態の
内部情報の他に処理の履歴情報を記憶する手段が必要と
なる場合がある。命令再試行の場合では再試行を行なう
ための情報として再試行しようとする命令アドレス、命
令実行前のソフトウェアビジプルレジスタ等の内容が必
要である。これらの情報は障害発生時に即時に凍結され
れば問題ない、しかし、情報処理装置の構成によっては
多少のすべりが生じることがある。このような場合には
再試行ポイントへ戻すための再試行情報を履歴としても
つ手段が必要である。また、チェックポイント再試行に
おいても必要とする履歴情報の内容は異るが、命令再試
行同様処理を元へもどすための情報が必要となる。
以上のように処理を再試行ポイントへ戻した後は、情報
処理装置の凍結状態を解除し、再試行を指示する。再試
行が成功すれば処理は続行するが、所定回数置上行なっ
ても成功しない場合がある。すなわち固定障害と呼ばれ
るケースである。
この場合、単一処理装置では処理システム全体がダウン
となる。同種の処理装置がシステム内に複数存在すると
きには、正常処理装置で故障処理装置内で実行していた
処理を代行するというプロセッサリリーフ方式が採用さ
れる場合もあった。
上述したような従来の障害回復装置での再試行方式で再
試行が不成功の場合には該装置をシステムから切離す、
このように障害装置をシステムから切離した場合、単一
処理装置の場合ではシステムダウンとなるし、プロセッ
サリリーフ方式においてもシステム内での処理装置の数
が減少することからシステムの処理性能の低下は著しい
、従って再試行による障害回復が成功するかどうかは重
要である。
一方、故障を時間的観点から分類して見ると固定故障と
間欠故障に分類できる。つまり永久的に故障状態が続く
固定故障と、しばらくの間故障状態が続くものの自然に
復旧してしまう間欠故障とがある。このような故障に対
して従来の再試行方式では固定故障を救済することはで
きなかった。
〔発明が解決しようとする問題点〕
上述した従来の障害回復装置の再試行方式では固定障害
を全く対処できないという欠点がある。
〔問題点を解決するための手段〕
本発明の障害回復装置は、 情報処理装置の障害を検出する障害検出手段と、 ゛ 該障害検出手段により障害が検出されたときには前
記情報処理装置での処理の続行を速やかに停止させる処
理停止手段と、 障害により処理が停止している情報処理装置の内部状態
情報を読出し、かつ保持する内部状態読出し手段と、 前記内部状態読出し手段に保持されている前記内部状態
情報を分析し、障害発生時に実行中の処理が再試行可能
か否かを判定する再試行判定手段と、 前記内部状態読出し手段により情報処理装置の内部状態
情報を読出した後、該情報処理装置の電源供給を一時停
止する電源供給制御手段と、前記電源供給制御手段によ
り電源の供給を一時停止した後、前記再試行判定手段が
再試行可能を示しているならば、情報処理装置の内部状
態を再試行が行ない得る所定の状態に設定する内部状態
再設定手段と、 前記内部状態再設定手段による設定が終了すると前記情
報処理装置に対し、障害発生時の処理を再度実行させる
指示を行なう再試行指示手段とを1有する。
固定故障と見なされ、システムから構成される装置を修
理を行なうために装置の電源を落した場合、電源切断後
そのまま再度電源を投入して診断プログラムまたは処理
の再実行を行っても故障状態は発生せず正常に処理でき
る場合が応々にしである。このように一時的な電源切断
/投入だけで故障が回復してしまうことがしばしばある
。理由として種々考えられるが一つには、電源切断/投
入という電気的衝撃により電気回路網に不正に浮遊する
電荷が一掃されるからである0本発明はこのような事実
に着目してなされたものである。
〔実施例〕
次に、本発明の実施例について図面を参照して説明する
第1図は本発明の障害回復装置の一実施例を有する情報
処理システムのブロック図である。
この情報処理システムは情報処理装置2.3および障害
回復装置1からなる。
障害回復装置lは制御バス150を介して接続された、
プロセッサ10、メモリ11.入出力装置12゜13か
らなる。プロセッサ10は市販のマイクロプロセッサ等
により構成され、メモリ11にはプロセッサ10のプロ
グラム、制御テーブル等が格納されている。入出力装置
12.13は、例えば磁気ディスク、フロッピーディス
ク、CRT、キーボード等であり、磁気ディスク、フロ
ッピーディスクは障害ログ情報の格納用に、CRT、キ
ーボードは本障害回復装置1を運転するための操作手段
としてそれぞれ使用される。情報処理装置2および3は
同種のものでも異種のものでも良い、情報処理回路20
 、30は各種の情報を加工、転送等を行なうもので、
例えば、演算処理、外部装置への情報の転送を制御する
ものがある。障害検出回路21 、31はそれぞれ情報
処理回路20 、30の障害を検出するための回路であ
り、状態凍結回路22 、32はそれぞれ障害検出回路
21 、31に応答して情報処理回路20゜30の内部
状態を凍結するための回路で、この凍結手段にはクロッ
クの供給を停止する方式、レジスタ等の更新を抑止する
方式等があるが、いづれであっでも良い、電源供給回路
23 、33はそれぞれ情報処理回路20 、30に対
して電源の供給を行なうか否かを制御し得る回路である
。なお、情報処理装置2.3およびこれを構成する回路
は別々に動作および制御できるように構成されている。
また、障害回復装置lと情報処理装置2.3は制御バス
150を介して各種インタフェースにより接続される。
先ず、情報処理装置2.3内の情報処理回路20 、3
0の内部状態読出しおよび書込みには内部状態読出し/
書込みインタフェース201.301が用意され、障害
報告信号212.312は障害検出回路21゜31の出
力から障害回復装置lへ出力される。障害回復装置1か
らは状態凍結回路22 、32に対して凍結解除を指示
する凍結解除信号152.154と電源供給回路23 
、33に対して電源切断/投入指示信号151、153
が出力される。また、情報処理装置”2゜3内にあって
は、情報処理回路20 、30からは障害情報信号20
2.302が障害検出回路21.31に出力され、該障
害検出回路21 、31の出力である内部状態゛凍結指
示信号211.311は状態凍結回路22 、32の−
方の入力に印加される。状態凍結回路22.32の出力
は内部状態凍結信号221.321により情報処理回路
20.30にそれぞれ出力される。電源供給回路23 
、33の出力は情報処理回路20 、30に対してこれ
ら回路が動作し得る電源231.331として供給され
る。
次に、本実施例の動作を情報処理装置2が障害に陥った
場合を例にとり、第2図のフローチャートを参照して説
明する。
情報処理装置2に障害が発生しくステップa)障害検出
回路21に障害情報信号202が印加されると、障害検
出回路21は障害報告信号212により障害回復装置1
に対し障害発生を通知し、これと同時に内部状態凍結指
示信号211により状態凍結回路22を動作させ、内部
状態凍結信号221により情報処理回路20を凍結状態
にする(ステップb)。
障害報告信号212により障害発生の通知を受は取った
障害回復装置lは内部状態読出し/書込みインタフェー
ス201を介して情報処理回路2θの内部状態を読出す
(、ステップc)、読出した内部状態を分析し再試行可
能かどうかをチェックする(ステップd)、この再試行
方式は従来技術で知られる命令再試行、チェックポイン
ト再試行のいずれであっても良い、内部状態の読出し手
段も従来のスキャンパス方式で良く、読出した情報はメ
モリ11に格納しても良い。この再試行可否の判断はプ
ロセッサ10により行なっても良い、再試行可否の判断
も従来と同様で良く、結果が再試行不可(ステップe)
であるなら、障害回復処理は行なえない、再試行が可能
であるなら1次に再試行回数が所定回数を越えていない
かチェックする(ステップf)。越えているなら再試行
失敗で処理は終了する(ステップg)、越えていないな
らここで電源供給回路23に対して電源切断/投入指示
信号151を介して電源の切断を指示する(ステップh
)、電源が切断されたなら前記同一信号により電源の投
入を指示する(ステップi)。電源の切断から投入まで
にはある程度の時間をおいても良い0次に従来同様再試
行ポイントへ戻すために内部状態を再設定する(ステッ
プj)、これは内部状態読出し/書込みインタフェース
201 を介して行なわれる。再設定が終了すると、状
態凍結回路22に対して凍結解除指示を信号線152を
介して行なう(ステップk)、これにより情報処理装置
2は再試行を実行に移す(ステップl)0以上のように
行なわれた再試行が成功すれば情報処理装置2は処理を
続行し、障害回復装W1は一連の回復処理を終了する。
再試行が失敗すれば障害発生時点に立ちもどり再試行処
理のやり直しとなる。
なお、本実施例では凍結解除を行なうことにより自動的
に再試行を実行するように構成されるので特に再試行指
示信号は必要ない、また、電源の切断/投入は再試行可
否、再試行回数チェックの前でも良いし、電源切断/投
入を行なわずに従来方式で再試行を行ない、従来方式で
失敗したときのみ電源切断/投入の方式にしてもよい、
この他従来技術との組合せにより種々のやり方が考えら
れる。
〔発明の効果〕
以上説明したように本発明は、処理の再試行を行なうに
当って被再試行装置の電源を一時切断することにより1
通常の再試行では回復できない間欠故障を回復できると
いう効果がある。
【図面の簡単な説明】
第1図は本発明の障害回復装置の一実施例を有する情報
処理システムのブロック図、第2図は第1図の実施例の
動作を説明するフローチャートである。 1・・・障害回復装置、 2,3・・・情報処理装置、
10・・・プロセッサ、  11・・・メモリ、12.
13・・・入出力装置、20 、30・・・情報処理回
路、21 、31・・・障害検出回路。 22 、32・・・状態凍結回路、 23 、33・・・電源供給回路、 150・・・制御バス。

Claims (1)

  1. 【特許請求の範囲】 情報処理装置の障害を検出する障害検出手段と、 該障害検出手段により障害が検出されたときには前記情
    報処理装置での処理の続行を速やかに停止させる処理停
    止手段と、 障害により処理が停止している情報処理装置の内部状態
    情報を読出し、かつ保持する内部状態読出し手段と、 前記内部状態読出し手段に保持されている前記内部状態
    情報を分析し、障害発生時に実行中の処理が再試行可能
    か否かを判定する再試行判定手段と、 前記内部状態読出し手段により情報処理装置の内部状態
    情報を読出した後、該情報処理装置の電源供給を一時停
    止する電源供給制御手段と、前記電源供給制御手段によ
    り電源の供給を一時停止した後、前記再試行判定手段が
    再試行可能を示しているならば、情報処理装置の内部状
    態を再試行が行ない得る所定の状態に設定する内部状態
    再設定手段と、 前記内部状態再設定手段による設定が終了すると前記情
    報処理装置に対し、障害発生時の処理を再度実行させる
    指示を行なう再試行指示手段とを有する障害回復装置。
JP60199971A 1985-09-09 1985-09-09 障害回復装置 Pending JPS6258344A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60199971A JPS6258344A (ja) 1985-09-09 1985-09-09 障害回復装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60199971A JPS6258344A (ja) 1985-09-09 1985-09-09 障害回復装置

Publications (1)

Publication Number Publication Date
JPS6258344A true JPS6258344A (ja) 1987-03-14

Family

ID=16416636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60199971A Pending JPS6258344A (ja) 1985-09-09 1985-09-09 障害回復装置

Country Status (1)

Country Link
JP (1) JPS6258344A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0282345A (ja) * 1988-09-20 1990-03-22 Hitachi Chem Co Ltd マルチプロセッサシステムの暴走停止方法及びその方法を用いた装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0282345A (ja) * 1988-09-20 1990-03-22 Hitachi Chem Co Ltd マルチプロセッサシステムの暴走停止方法及びその方法を用いた装置

Similar Documents

Publication Publication Date Title
US6128752A (en) Fault tolerant design for identification of AC defects including variance of cycle time to maintain system operation
US4912707A (en) Checkpoint retry mechanism
US5742851A (en) Information processing system having function to detect fault in external bus
JP2003015900A (ja) 追走型多重化システム、及び追走により信頼性を高めるデータ処理方法
JP3063334B2 (ja) 高信頼度化情報処理装置
JPH02294739A (ja) 障害検出方式
JPS6258344A (ja) 障害回復装置
JPS62113241A (ja) 障害回復装置
JPS62102335A (ja) 障害回復装置
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPS60247750A (ja) システム初期構成制御方式
JP2922981B2 (ja) タスクの実行継続方法
JPS6128141B2 (ja)
JP2776815B2 (ja) 多重プロセッサシステムの障害回復方法
JPH0553852A (ja) テスト装置
JPS635779B2 (ja)
AU669410B2 (en) Error recovery mechanism for software visible registers in computer systems
JP3055249B2 (ja) プロセッサのデバッグ方式
JPH0218505B2 (ja)
JPS63136142A (ja) 論理装置のエラ−回復方式
JPS59135553A (ja) 障害情報保持方式
JPS6367646A (ja) 障害箇所切離し機能付情報処理システム
JPH02135535A (ja) 情報処理システム
JPS62135946A (ja) バスチエツク方式
JPS6061839A (ja) 論理装置の故障診断処理方式