JPS6265139A - マルチプロセツサシステムの故障回復方式 - Google Patents

マルチプロセツサシステムの故障回復方式

Info

Publication number
JPS6265139A
JPS6265139A JP60205701A JP20570185A JPS6265139A JP S6265139 A JPS6265139 A JP S6265139A JP 60205701 A JP60205701 A JP 60205701A JP 20570185 A JP20570185 A JP 20570185A JP S6265139 A JPS6265139 A JP S6265139A
Authority
JP
Japan
Prior art keywords
processor
trouble
processors
shared area
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60205701A
Other languages
English (en)
Inventor
Hiroshi Tsuruya
鶴谷 寛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP60205701A priority Critical patent/JPS6265139A/ja
Publication of JPS6265139A publication Critical patent/JPS6265139A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明はマルチプロセッサシステムの故障回復方式に関
する。
(従来の技術) マルチプロセッサシステムにおいては、1台のプロセッ
サが故障してもそのプロセッサで走行していたプログラ
ム以外のプログラムは、他の正常なプロセッサで実行で
きるため、システムの継続運転は通常可能である。しか
し、複数プロセッサによって共用される共有エリアを更
新中のプロセッサが故障した場合には、共有エリアを復
元するだめの手段が無く、また、共有エリアはシステム
に1つだけ存在しシステム全体を制御するための情報が
格納されているため、これに矛盾が生じるとシステムの
運転が出来なくなるので、従来はシステムダウン圧せざ
るを得なかった。
そしてシステムダウン状態から回復するには、システム
をリセットしてシステムの再立上げを行なう必要があり
、また、プロセッサの故障解析を行なうに当って共有エ
リアの更新履歴が不明であるため、故障復旧作業が困難
になるという問題点がある。
(問題点を解決するための手段) 本発明の方式は、複数プロセラ?によって共用される共
有エリアを主記憶に備えたマルチプロセッサシステムの
故障回復方式において、プロセッサが共有エリアを更新
すると@には主記憶の該当するアドレスとそのアドレス
の更新前の続出しデータとを記録するトレースメモリと
、プロセッサの動作状態を監視する監視装置とを設け、
監視装置はプロセッサの故障を検出するとトレースメモ
リを読出してマルチプロセッサシステムの故障回復のた
めに使用するようにしたことを特徴とする。
(実施例) 次に本発明の実施例処ついて図面を参照して説明する。
本発明の一実施例のブロック図を示す第1図を参照する
と、本実施例は4つのプロセッサPRO。
PRI、PH1およびPH1と、これらのプロセッサに
よって共用される共有エリアを有する主記憶MMUと、
プロセッサPRO〜PR3の動作状態を監視バスMBS
を介して監視する機能を有するサービスプロセッサ8V
Pと、プロセッサPRO〜PR3のうちのいずれかのプ
ロセッサが共有エリアを更新するときには主記憶のアド
レスとそのアドレスの更新前の読出しデータとを記録す
るトレースメモリTRAとがシステムバスSBSを介し
て接続されたマルチプロセッサシステムである。
共有エリアには、レディプロセス待行列、割込処理要求
待行列等のようK、本マルチプロセッサシステム全体を
制御するための情報が配置され、プロセッサPRO〜P
R3によって共通的に使用される。主記憶MMUには、
また、共有エリアにおけるアクセス単位に対応してロッ
クバイトが設けられている。
プロセッサPRO〜PR3は、たとえば、演算プロセッ
サ、入出カプロセッサ、マスストレージプロセッサおよ
び通信プロセッサに対応付けられ、主記憶M M U 
K格納されているソフトウェアプログラムに基づき共有
エリアを適時にアクセスしながら動作する。
第2図はトレースメモIJ T RAの詳細をシステム
バス8BSと共に示すブロック図である。第2図を参照
すると、トレースメモリTRAは、デコーダDECと、
アドレスカウンタADCと、アドレス記鍮部人DRと、
読出しデータ記録部RDRと、マルチプレクサMPXと
から構成されている。
デコーダDECはシステムバス8BS上のコマンドを解
読し、この解読結果に基づいてアドレスカウンタADC
へはクリア信号またはプラス1信号を、また、アドレス
記録部ADHおよび読出しデータ記録部RDRへは書込
パルスを出力してその時のシステムバス8BS上のアド
レスおよびデータをそれぞれに記録する。
次に1本実施例における共有エリアを更新するときの動
作を流れ図で示した第4図を参照しながら本実施例の動
作を説明する。
プロセッサPRO〜PR3が共有エリアへの書込を行な
おうとするときには、そのプロセッサは、先ず、対応す
るロックバイトに対してテストアンドセットを実行する
(第4図ステップ■)。テストアンドセットは、周知の
ように、ロックバイトを読出し、続出内容がアー70ツ
ク状態(ロック成功)を示すものであるかロック状態(
ロック不成功)を示すものであるを調べ、ロック成功の
場合にはロック状態を示す情報を同じロックバイトに書
込むことを命する命令である。
ロックに成功し友ということは、その共有エリアが他の
プロセッサによって使用されていなかったことを意味し
、テストアンドセットを実行したプロセッサに使用許可
が下されたことKなる。当該プロセッサは、先ず、トレ
ースメモリTRAに対してトレース開始指示を行ないく
ステップ■)、その後に読出後書込コマンドを実行する
ことによって共有エリアの更新を行なう(ステップO)
第3図は、上述の読出後書込コマンド実行時におけるプ
ロセッサと主記憶MMUとの間のインタフェース信号を
示すタイムチャートである。
第3図を参照すると、プロセッサは、先ず、主記憶M 
M U K対するアクセスを要求するためのリクエスト
を出力する。このとき、主記憶MMUが既に他のプロセ
ッサからアクセスされておらず、また、故障も発生して
いなければ、主記憶MMUはプロセッサにアクセプトを
返送する。プロセッサはこのアクセスに応答して、コマ
ンド(読出後書込コマンド)、アドレス、書込データお
よび書込ストローブを主記憶MMUに送出する。このア
ドレスはステップ■で行なったテストアンドセット対象
のロックバイ)K対応する共有エリアであることはもち
ろんのことである。主記憶MMUではシステムバス上の
書込データを書込ストローブによって書込レジスタ(図
示せず)にセット後、読出動作が行なわれる。
この読出動作によってシステムバス8BS上に読出デー
タが現われる時点に合わせて主起憶牒はプロセッサに読
出ストローブを送出t/ % プロセッサはこれKより
主記憶MMUからの続出データを認識する。主記憶MM
Uでは続出ストローブ送出後に1前述の書込レジスタに
セットされている書込データを同じアドレスに書込む動
作が行なわれる。このような共有エリアの更新動作は、
アクセプトのトレーディングエッヂでコマンドとアドレ
スとがクリアされることによって終了する。
ステップOの共有エリア更新は、更新アドレスととに読
出後書込コマンドにより行なわれていき、全更新が終了
するとプロセッサはロックバイ)Kアンロック状態を示
す情報を書込むことKよりロックを解除して(ステップ
◎)終了する。
一方、トレースメモリTRAにおいては、ステップ■に
おけるトレース開始指示を受はデコーダDECがこれを
解読するとアドレスカウンタADCをOKクリアする(
ステップO)。そして、ステップ0においてプロセッサ
が読出後書込コマンドを出力するごとに、システムバス
上のコマンドを解読しているデコーダDECは書込パル
スをアドレス記録部入DRと読出データ記録部RDRと
く出力し、システムバス8BS上のそのときのアドレス
とデータ(第3図におけるアドレスと読出データ)をそ
れぞれに記録しくステップ@)、かつアドレスカウンタ
ADCのアドレスを歩進させる(ステップO)。かくし
て、トレースメモリTRA上には共有エリアが更新され
るごとにそのアドレスと共有エリアの更新前の読出デー
タとが時系的に順次記録されていくことになる。
この間、サービスプロセッサSvPは監視バスMB8を
介してプロセッサPRO−PR3の動作状態を常に監視
している(ステップ0)。そして、もしプロセッサの故
障を検出するとロックバイトを読出してその読出内容に
よりそのプロセッサが共有エリアを更新中に故障したの
か否かを調べる(ステップ0)。この調査の結果により
、故障が共有エリアを更新中に発生したものであるとき
には、サービスプロセッサSvPはトレースメモリTR
Aのアドレス記録部ADHおよび読出しデータ記録部R
DRをマルチプレクサMPXを介して読出しくステップ
0)、そのアドレスとデータとによって共有エリアを、
故障したプロセッサが更新する前の状態に戻す(ステッ
プO)。その後、故障したプロセッサに代ってロックを
解除[7(ステップ[相])、故障プロセッサの事後処
理を行なう(ステップ■)。このようKして、本マルチ
プロセッサシステムを、故障【7たプロセッサが共有エ
リアを更新する前の状態に回復することができる。
トレースメモリTRAの記録情報は、共有エリアの読出
し履歴であるので、故障したプロセッサの故障解析や復
旧作業にとっても有効なデータである。したがって、サ
ービスプロセッサSVPに、たとえば、プリンタを揺枕
してトレースメモリTRAの記録情報を打出し、上記の
ような目的の資料とすることもできる。
(発明の効果) 本発明によれば、以上説明したようK、プロセッサが共
有エリアを更新するときには更新前データをトレースメ
そすに順次記録しておくため、プロセッサが故障しても
トレースメモリを読出してその記録データによって共有
エリアを復元できるようKなるので、従来のようにシス
テムダウンとする必要がなくなってシステムの可用性が
増し、また、トレースメモリの記録データを故障したプ
ロセッサの復旧のためにも使用することができるように
なり、マルチプロセッサシステムの故障回復を容易化す
ることが可能になる。
【図面の簡単な説明】
第1図は本発明の一実施例、第2図は本実施例の詳細図
、第3図は本実施例のタイムチャートおよび第4図は本
実施例の流れ図をそれぞれ示す。 PRO,PRI、PH1,PH1・・・・・・プロセッ
サ、MMU・・・・・・主記憶、TRA・・・・・・ト
レースメモリ、SvP・・・・・・サービスプロセソテ
、SBS・・・・・・システムバス、MBS・・・・・
・監視パス、DEC・・・・・・デコーダ、ADC・・
・・・・アドレスカウンタ、ADH・・・・・・アドレ
ス記録部、RDR・:・・・・読出しデータ記録部、M
PX・・・・・・マルチプレクサ。 代え人 弁ヨ±  P3  原   晋、′・スーぐ 第2 @ アクビット 牟 3 @

Claims (2)

    【特許請求の範囲】
  1. (1)複数プロセッサによって共用される共有エリアを
    主記憶に備えたマルチプロセッサシステムの故障回復方
    式において、 前記プロセッサが前記共有エリアを更新するときには前
    記主記憶の当該アドレスと該アドレスの更新前の読出し
    データとを記録するトレースメモリと、 前記プロセッサの動作状態を監視する監視装置 とを設け、前記監視装置は前記プロセッサの故障を検出
    すると前記トレースメモリを読出して該マルチプロセッ
    サシステムの故障回復のために使用するようにしたこと
    を特徴とするマルチプロセッサシステムの故障回復方式
  2. (2)前記故障が前記プロセッサによる前記共有エリア
    更新中に検出されたものであるときには前記トレースメ
    モリに記録されている更新前の前記主記憶の読出しデー
    タによって当該共有エリアを更新前の状態に戻すように
    したことを特徴とする特許請求の範囲第(1)項記載の
    マルチプロセッサシステムの故障回復方式。
JP60205701A 1985-09-17 1985-09-17 マルチプロセツサシステムの故障回復方式 Pending JPS6265139A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60205701A JPS6265139A (ja) 1985-09-17 1985-09-17 マルチプロセツサシステムの故障回復方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60205701A JPS6265139A (ja) 1985-09-17 1985-09-17 マルチプロセツサシステムの故障回復方式

Publications (1)

Publication Number Publication Date
JPS6265139A true JPS6265139A (ja) 1987-03-24

Family

ID=16511272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60205701A Pending JPS6265139A (ja) 1985-09-17 1985-09-17 マルチプロセツサシステムの故障回復方式

Country Status (1)

Country Link
JP (1) JPS6265139A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01125635A (ja) * 1987-11-10 1989-05-18 Nec Corp 信号トレース方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01125635A (ja) * 1987-11-10 1989-05-18 Nec Corp 信号トレース方式

Similar Documents

Publication Publication Date Title
JP2703479B2 (ja) タイム・ゼロ・バックアップ・セッションの安全保護機能を有するデータ処理方法及びシステム
US5214652A (en) Alternate processor continuation of task of failed processor
US5768496A (en) Method and apparatus for obtaining a durable fault log for a microprocessor
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
JPS6265139A (ja) マルチプロセツサシステムの故障回復方式
JP3101825B2 (ja) マルチタスク・システムの障害診断装置
JPH08137764A (ja) 記憶装置のソフトエラー回復方法と固定障害検出方法
JPS6326407B2 (ja)
JPH04127261A (ja) マルチプロセッサシステム
JPH03105434A (ja) エラーロギングシステム
JPH07141120A (ja) 情報記憶媒体障害処理方法
JP2679575B2 (ja) 入出力チャネルの障害処理システム
JP3130798B2 (ja) バス転送装置
JPH05274093A (ja) ボリューム障害防止制御方式
JPH0635747A (ja) デバッグ支援装置
JPS6130296B2 (ja)
JPH02143343A (ja) 格納順ファイルのロバスト化処理方式
JP3214551B2 (ja) 競合検出故障診断方式、競合検出故障診断方法、バスコンバータ、および記録媒体
JPH0375939A (ja) 情報処理システム
JPH07122857B2 (ja) 情報処理装置
JP2938088B2 (ja) 共有ファイルの障害回復方式
JPS6398764A (ja) マルチ計算機システムにおけるフアイルリカバリ方式
JPS6218059B2 (ja)
JPS6132701B2 (ja)
JPH0434626A (ja) エラーロギング方法