JPS62102335A - 障害回復装置 - Google Patents

障害回復装置

Info

Publication number
JPS62102335A
JPS62102335A JP60241629A JP24162985A JPS62102335A JP S62102335 A JPS62102335 A JP S62102335A JP 60241629 A JP60241629 A JP 60241629A JP 24162985 A JP24162985 A JP 24162985A JP S62102335 A JPS62102335 A JP S62102335A
Authority
JP
Japan
Prior art keywords
failure
retry
information processing
internal state
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60241629A
Other languages
English (en)
Inventor
Shukichi Moriyama
修吉 森山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP60241629A priority Critical patent/JPS62102335A/ja
Publication of JPS62102335A publication Critical patent/JPS62102335A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、情報処理装置に障害が発生した場合、処理の
再試行を制御する障害回復装置に関する。
〔従来の技術〕
従来、コンピュータや各種の周辺機器で構成された情報
処理装置において、その演算経過等に障害を検出した場
合、そこで処理を中断した後、ある時点から処理を再開
し、て、障害が再発しなければそのまま処理を進めると
いう手法がとられている。これを再試行による障害の回
復と呼び、その再試行の制御に、障害回復装置が使用さ
れる。この再試行にあたっては、まず障害発生後ただち
に、実行中の処理を中止し、障害時の内部状態を速やか
に凍結し、障害が発生した旨を障害回復装置へ通知する
上記内部状態の凍結方式としては、クロックを停止させ
る方式、レジスタのセット信号を抑止する方式等があっ
た。凍結の目的は処理の実行停止と、状態保持にあるの
で手段はいずれであっても良く、情報処理装置の種類お
よびその装置の再試行の方法によっては凍結の必要がな
い場合もある。
一方、障害通知を受けた障害回復装置にあっては、上記
凍結状態の情報処理装置の内部状態情報を読み出す手段
を有し、これを保持する手段を有していた。その内部状
態情報は、障害履歴としてのログ情報および後で述べる
再試行のための情報として使用される。内部状態の読み
出し手段としては装置内のフリップフロップ、レジスタ
等を直列に結びこれをシフトすることにより読み出すス
キャンパス方式が一般的である。次に障害回復装置は、
障害の詳細情報および上記内部状態情報に基づいて、障
害発生時の処理の再試行が可能か否かの判定を行う。
この場合の再試行方式にも種々のものがあり、代表的な
ものとしては、演算処理装置における命令単位での命令
再試行、処理の流れの途中に再試行ポイントを設け、こ
のポイントから処理をやり直すチェックポイント再試行
方式等がある。
また、再試行の可否を判定する判定基準は一既には言え
ない。しかし先に述べた命令再試行方式等においては、
誤った処理により複数の処理装置が共有する資源等を乱
してしまった場合においては、再試行が不可能であると
いうことが言える。
いずれの再試行方式にしても、再試行可否が決定するの
は、再試行ポイントへ処理が戻せるかどうかと、処理を
再実行して問題ないかによる。
再試行が可能であると判定すると、前に述べたように再
試行ポイントへ処理を戻す作業を行う。
処理を再試行ポイントへ戻すには、凍結状態での内部情
報の他に、処理の履歴情報を記憶する手段が必要となる
場合がある。上記命令再試行の場合では、再試行を行う
ための情報として、再試行しようとする命令アドレス、
命令実行前のソフトウェアビジプルレジスタ等の内容が
必要である。これらの情報は、障害発生時に即時に状態
の凍結がされれば問題なく得られる。しかし情報処理装
置の構成によっては多少のすべりが生じることがある。
このような場合には、再試行ポイントへ戻すための上記
再試行情報を履歴としてもつ手段が必要である。また、
上記チェックポイント再試行においても、必要とする履
歴情報の内容は異なるが、命令再試行同様処理を元へ戻
すための情報が必要となる。
以上のように、処理を再試行ポイントへ戻した後は、情
報処理装置の凍結状態を解除し、再試行を指示する。再
試行が成功すれば処理は続行するが、所定回数以上再試
行を繰り返しても成功しない場合がある。すなわち固定
障害と呼ばれるケースである。
この場合、単一処理装置では、処理システム全体がダウ
ンとなる。同種の処理装置がシステム内に複数存在する
ときには、正常な処理装置で、故障処理装置内で実行し
ていた処理を代行するというプロセッサIJ IJ−フ
方式が採用される場合もあった。
〔発明が解決しようとする問題点〕
上述したような従来の障害回復装置での再試行方式で、
再試行が不成功の場合には、その装置をシステムから切
り離すので、不成功時のシステムに与える影響は大きい
ものがある。
このように障害装置をシステムから切り離した場合、単
一処理装置の場合ではシステムダウンとなるし、プロセ
ッサリリーフ方式においても、システム内での処理装置
の数が減少することからシステムの処理性能の低下は著
しい。従って、再試行による障害回復が成功するかどう
かは重要である。
一方、故障を時間的観点から分類してみると固定故障と
間欠故障に分類できる。つまり永久的に故障状態が続く
固定故障と、しばらくの間故障状態が続くものの自然に
復旧してしまう間欠故障とがある。
また、故障を別の観点からみると、回路を構成するスイ
ッチング素子の場合、完全にその機能を失いスイッチン
グができなくなるケース、老化現象等により臨界状態で
動作しており時々定格から外れるケース等がある。
上記のような故障において、特に臨界状態で動作中の素
子については、供給している電源電圧を変動させること
により故障状態を回避できること 。
がある。これは素子の閾値等が変化するためである。
本発明はこの点に着目してなされたもので、この電源電
圧を制御することによって、情報処理装置の再試行の成
功率を高めることのできる障害回復装置を提供すること
を目的とするものである。
〔問題点を解決するための手段〕
本発明の障害回復装置は、情報処理装置の動作の障害を
検出して障害情報を出力する障害検出手段と、この障害
検出手段により障害が検出された時に上記情報処理装置
での処理の続行を速やかに停止させる処理停止手段と、
処理が停止した情報処理装置の内部状態情報を読み出す
内部状態読み出し手段と、上記障害検出手段により出力
された障害情報と上記内部状態情報とを分析し障害発生
時に実行中の処理が再試行可能か否かを判定する再試行
判定手段と、その再試行に先だって上記情報処理装置を
構成する論理素子に対して供給している電源電圧を変化
させる電源供給手段と、上記再試行判定手段が再試行可
能と判定した場合に上記情報処理装置の内部状態を再試
行が行い得る所定の状態に設定する内部状態設定手段と
、上記清報処理装置に対し上記障害の発生時に実行して
いた処理を再度実行させるための指示を行う再試行指示
手段とを有することを特徴とする。
〔実施例〕
(ブロックの説明) 第1図は本発明の一実施例を示すブロック図である。
障害回復制御回路1は、制御バス150を介して接続さ
れた、プロセッサ10(再試行判定手段と表示)、メモ
リ11、人出力装買12.13から構成されている。
プロセッサ10は、市販のマイクロプロセッサ等により
構成される。ROtVi (リード・オンリ・メモリ)
素子等から成るメモリ11には、プロセッサ10の実行
用のプログラム、制御テーブル等が格納される。入出力
装置12.13は、例えば磁気ディスク、フロッピーデ
ィスク、CRT、キーボード等であり、磁気ディスク、
フロッピーディスクは、障害ログ情報の格納用に、CR
T、キーボードはこの障害回復制御回路1等を運転する
ための操作手段として使用される。
この障害回復制御回路1に接続されている情報処理装置
2および3は、同種のものでも異種のものでも良い。情
報処理回路20.30は、各種の情報の加工、転送等を
行うもので、例えば演算処理や外部装置への情報の転送
を制御するもの等がある。障害検出回路21.31は、
上記情報処理回路20.30の障害を検出するための回
路であり、状態凍結回路22.23は上記障害検出回路
21.31に応答して上記情報処理回路20.30の内
部状態を凍結するための回路である。この凍結手段には
、クロックの供給を停止する方式、レジスタ等の更新を
抑止する方式があるが、いずれであっても良い。電源供
給回路23.33は、前記情報処理回路20.30に対
して供給する電源電圧を制御する回路である。なお、情
報処理装置2.3およびこれを構成する回路は、それぞ
れ別々に動作し、その制御ができるように構成されてい
る。
また、障害回復制御回路1と情報処理装置2.3とは、
上記制御バス150を介して各種インターフェースによ
り接続される。
情報処理装置2.3内の情報処理回路20.30の、内
部状態の読み出しおよび書き込みには、内部状態読み出
し/書き込みインターフェース201.301が用意さ
れ、障害報告信号212.312は、上記障害検出回路
21.31から障害回復制御回路1へ出力するよう接続
される。
障害回復制御回路1から、状態凍結回路22.32に対
しては、凍結解除を指示する凍結解除信号152.15
4が人力し、電源供給回路23.33に対しては、供給
電圧の切り替え指示を行うための供給電圧切り替え信号
151.153が人力するよう結線されている。
また、情報処理装置2.3内にあっては、情報処理回路
20.30からは障害情報202.302が障害検出回
路21.31に人力し、この障害検出回路21.31の
出力である内部状態凍結指示信号211.311は、状
態凍結回路22.32に入力するよう結線されている。
この状態凍結回路22.32の出力は、内部状態凍結信
号221.321となって情報処理回路20.30にそ
れぞれ人力するよう接続される。
電源供給回路23.33の出力は、情報処理回路20,
30に対して、その回路が動作し得る電源電圧231.
331として供給される。なお、電源供給回路23.3
3は、定常電圧とは異なるレベルの再試行用電圧をも供
給できるように構成され、供給電圧切り替え信号151
.153により電圧の切り替えが可能である。通常、情
報処理回路等を構成する素子は、定格電圧を中心として
5〜10パ一セント程度その電圧が変動しても正常に動
作するよう設計されている。上記電源供給回路23.3
3は、この範囲内で、例えば、2種の出力電圧を選択で
きるように構成され、上記供給電圧切り替え信号151
.153によって、一方から他方へその出力電圧を切り
替えることができる構成となっている。
なお、この実施例では、上記プロセッサ10は、本発明
における再試行判定手段と再試行指示手段とを兼ねるも
のとし、内部状態読み出し/書き込みインターフェース
20L301は、内部状態読み出し手段および内部状態
設定手段を兼ねるものとする。
また、本発明において、上記障害回復制御回路1および
、電源供給回路23.33、障害検出回路21.31、
状態凍結回路22.32とこれらを接続する結線を含め
たものを障害回復装置と呼ぶことにする。
(動作の説明) 次に第2図のフローチャートを参照して、第1図の実施
例の障害回復装置の動作について説明する。
例えば、情報処理装置2が障害に陥った場合を考える。
障害検出回路21に障害情報信号202が印加されると
、上記障害検出回路21は障害報告信号212により障
害回復制御回路1に対し障害発生を通知する(ステップ
■)。これと同時に内部状態凍結指示信号211により
状態凍結回路22を動作させ、内部状態凍結信号221
により情報処理回路20を凍結状態にする(ステップ■
)。障害報告信号212により障害発生の通知を受は取
った障害回復制御回路1は、内部状態読み出し/書き込
みインターフェース201を介して情報処理回路20の
内部状態を読み出す(ステップ■)。
その後、読み出した内部状態を分析し再試行可能かどう
かをチェックする(ステップ■)。この再試行方式は従
来技術で知られる命令再試行、チェックポイント再試行
のいずれであっても良い。内部状態の読み出し手段も従
来のスキャンパス方式で良く、読み出した情報は装置1
2等に格納してもよい。上記再試行可否の判断は例えば
プロセッサ10により行う。再試行可否の判断も従来と
同様で良く、結果が再試行不可であるなら、障害回復処
理は行えない(ステップ■)。再試行が可能であるなら
、次に再試行回数が所定回数を越えていないかをチェッ
クする(ステップ■)。越えているなら、再試行失敗で
処理は終了する(ステ、ツブ■)。越えていないならこ
こで電源供給回路23に対して電源電圧切り替え信号1
51を出力して、供給電圧の切り替えを指示する(ステ
・ノブ■)。
次に従来同様、再試行ポイントへ戻すために内部状態を
再設定する(ステップ■)。これは内部状態′読み出し
/書き込みインターフェース201を介して行われる。
再設定が終了すると、状態凍結回路22に対して凍結解
除指示を信号線152を介して行う(ステップ■)。こ
れにより情報処理装置2は再試行を実行に移す(ステ・
ツブ0)。
以上のように行われた再試行が成功すれば、情報処理装
置2は処理を続行しくステップ0→0)、障害回復制御
回路1は一連の回復処理を終了する(ステップ0′→0
′)。
再試行が失敗すれば、障害発生時点に立ち戻り再試行処
理のやり直しとなる(ステップO→■、C′→■)。な
お本実施例では、凍結解除を行うことにより自動的に再
試行を実行するように構成されるので、特に再試行指示
信号は必要ない。また、必ずしも凍結を必要としない場
合、状態凍結回路を、情報処理回路を停止させるだけの
回路としてもよい。
なお、供給電圧の切り替えは、再試行可否、再試行回数
チェックの前でも良いし、電圧切り替えを行わずに従来
方式で一度再試行を行い、従来方式で失敗したときのみ
供給電圧を切り替える方式にしてもよい。この他一連の
回復処理が終了したら、供給電圧を定常状態に戻す方式
等、従来技術どの組合せにより種々のやり方が考えられ
る。
なお、再試行時に使用する電圧値は、−既には言えない
が論理素子の動作範囲内で、その上限あるいは下限に変
化させるようにすればより効果的である。
〔発明の効果〕
以上説明したように、本発明は処理の再試行を行うに当
たって被再試行装置へ供給する電源電圧を変化させるこ
とにより、通常の再試行では回復できない故障を回復で
きるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
その動作を説明するフローチャートである。 1・・・・・・障害回復制御回路、 2.3・・・・・・情報処理装置、 10・・・・・・再試行判定手段、11・・・・・・メ
モリ、12.13・・・・・・入出力装置、 20.30・・・・・・情報処理回路、21.31・・
・・・・障害検出回路、22.32・・・・・・状態凍
結回路、23.33・・・・・・電源供給回路、150
・・・・・・制御ハス。 出 願 人  日本電気株式会社 代 理 人  弁理士 山内梅雄 第1 図

Claims (1)

    【特許請求の範囲】
  1. 情報処理装置の動作の障害を検出して障害情報を得る障
    害検出手段と、この障害検出手段により障害が検出され
    た時に前記情報処理装置での処理の続行を速やかに停止
    させる処理停止手段と、処理が停止した情報処理装置の
    内部状態情報を読み出す内部状態読み出し手段と、前記
    障害検出手段により得られた障害情報と前記内部状態情
    報とを分析し障害発生時に実行中の処理が再試行可能か
    否かを判定する再試行判定手段と、その再試行に先だっ
    て前記情報処理装置を構成する論理素子に対して供給し
    ている電源電圧を変化させる電源供給手段と、前記再試
    行判定手段が再試行可能と判定した場合に前記情報処理
    装置の内部状態を再試行が行い得る所定の状態に設定す
    る内部状態設定手段と、前記情報処理装置に対し前記障
    害の発生時に実行していた処理を再度実行させるための
    指示を行う再試行指示手段とを有することを特徴とする
    障害回復装置。
JP60241629A 1985-10-30 1985-10-30 障害回復装置 Pending JPS62102335A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60241629A JPS62102335A (ja) 1985-10-30 1985-10-30 障害回復装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60241629A JPS62102335A (ja) 1985-10-30 1985-10-30 障害回復装置

Publications (1)

Publication Number Publication Date
JPS62102335A true JPS62102335A (ja) 1987-05-12

Family

ID=17077161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60241629A Pending JPS62102335A (ja) 1985-10-30 1985-10-30 障害回復装置

Country Status (1)

Country Link
JP (1) JPS62102335A (ja)

Similar Documents

Publication Publication Date Title
US6128752A (en) Fault tolerant design for identification of AC defects including variance of cycle time to maintain system operation
JP2000187600A (ja) ウオッチドッグタイマ方式
Carter et al. Logic design for dynamic and interactive recovery
JPS62102335A (ja) 障害回復装置
JPS62113241A (ja) 障害回復装置
JPS6258344A (ja) 障害回復装置
KR100194979B1 (ko) 이중화 프로세서 시스템의 동작모드 결정방법
JPH1115661A (ja) Cpuの自己診断方法
JPS60247750A (ja) システム初期構成制御方式
JPH0553852A (ja) テスト装置
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPS5832422B2 (ja) マイクロシンダンホウシキ
JPH0793173A (ja) コンピュータネットワークシステムおよびそのコンピュータネットワークシステムの計算機に対するプロセス割り当て方法
JP2924732B2 (ja) 情報処理装置の自己診断方法
JPS6061839A (ja) 論理装置の故障診断処理方式
JPH0135369B2 (ja)
JPH07271625A (ja) 情報処理装置
JPH08110877A (ja) Rom内容のコピー方式
JPS62166401A (ja) 電子計算機の多重化システム
JPH06149603A (ja) チェック機能付リアルタイム制御回路
JPS6339065A (ja) デ−タ転送装置
JPH011041A (ja) 障害早期検出方式
JPS6367646A (ja) 障害箇所切離し機能付情報処理システム
JPH04222031A (ja) 障害部位切り分け方式
EP0610856A1 (en) Error recovery mechanism for software visible registers in computer systems