JPS63311444A - 障害検出、救済制御方式 - Google Patents
障害検出、救済制御方式Info
- Publication number
- JPS63311444A JPS63311444A JP62146896A JP14689687A JPS63311444A JP S63311444 A JPS63311444 A JP S63311444A JP 62146896 A JP62146896 A JP 62146896A JP 14689687 A JP14689687 A JP 14689687A JP S63311444 A JPS63311444 A JP S63311444A
- Authority
- JP
- Japan
- Prior art keywords
- module
- resource management
- function module
- bus
- standby
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 230000008439 repair process Effects 0.000 description 3
- 102220521660 Inhibin alpha chain_W43A_mutation Human genes 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Landscapes
- Hardware Redundancy (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概 要〕
共通バスで接続された複数モジュール及び装置全体の資
源を管理する資源管理機能モジュールを備えた装置の障
害検出、救済制御方式において、資源管理機能モジュー
ルと同等な機能を有するスタンバイ機能モジュールとサ
ービスモジュールを設け、サービスモジュールは装置の
障害状況を把握し、資源管理機能モジュールで重大な障
害が検出されたときは、スタンバイ機能モジュールに資
源管理機能モジュールの処理を代行させる。これにより
、資源管理機能モジュールで発生した障害を容易かつ速
やかに検出2救済し、装置及びシステム全体に殆ど影響
を与えることなく処理をm′tE実行させることができ
る。
源を管理する資源管理機能モジュールを備えた装置の障
害検出、救済制御方式において、資源管理機能モジュー
ルと同等な機能を有するスタンバイ機能モジュールとサ
ービスモジュールを設け、サービスモジュールは装置の
障害状況を把握し、資源管理機能モジュールで重大な障
害が検出されたときは、スタンバイ機能モジュールに資
源管理機能モジュールの処理を代行させる。これにより
、資源管理機能モジュールで発生した障害を容易かつ速
やかに検出2救済し、装置及びシステム全体に殆ど影響
を与えることなく処理をm′tE実行させることができ
る。
本発明は、共通バスで接続された複数モジュール及び装
置全体の資源を管理するモジュールで構成される装置に
発生した障害の検出、救済制御方式、特に、装置全体の
資源を管理するモジュールに発生した障害の検出、救済
制御方式に関する。
置全体の資源を管理するモジュールで構成される装置に
発生した障害の検出、救済制御方式、特に、装置全体の
資源を管理するモジュールに発生した障害の検出、救済
制御方式に関する。
ホス)CPUを有する上位装置が入出力装置(I10装
置)等の下位装置をアクセスして入出力処理を行う場合
、入出力処理を効率良く行うとともに下位装置の各資源
が有効に利用されるようにするため、上位装置と下位装
置間に制御装置を設けて入出力処理を制御するようにし
ている。
置)等の下位装置をアクセスして入出力処理を行う場合
、入出力処理を効率良く行うとともに下位装置の各資源
が有効に利用されるようにするため、上位装置と下位装
置間に制御装置を設けて入出力処理を制御するようにし
ている。
上位装置及び下位装置の規模が大きくなると、上位装置
の複数のバスから多数の下位装置に対して非同期にアク
セス要求が発行される。これに対処するため、制御装置
は共通バスで接続された複数の制御用のモジュールで構
成されるようになってきた。
の複数のバスから多数の下位装置に対して非同期にアク
セス要求が発行される。これに対処するため、制御装置
は共通バスで接続された複数の制御用のモジュールで構
成されるようになってきた。
第4図は、共通バスで接続された複数の制御用のモジュ
ールで構成される従来の制御装置の構成をブロック図で
示したものである。
ールで構成される従来の制御装置の構成をブロック図で
示したものである。
第4図において、30は制御装置、41は上位装置、4
2A〜42Cは上位装置41と制御装置30間の各バス
、43A〜43Gは下位装置、44a〜44fは制御値
W、30と下位装置43A〜43C間の各バスである。
2A〜42Cは上位装置41と制御装置30間の各バス
、43A〜43Gは下位装置、44a〜44fは制御値
W、30と下位装置43A〜43C間の各バスである。
制御装置30において、31A〜31Cは上位装置制御
部で、それぞれモジュールで構成され、バス42A〜4
2Gに対応して設けられる。
部で、それぞれモジュールで構成され、バス42A〜4
2Gに対応して設けられる。
32A〜32Cはモジュールで構成された下位装置制御
部で、下位袋f43A〜43Cに対応して設けられる。
部で、下位袋f43A〜43Cに対応して設けられる。
下位装置制御部32Aと下位装置43A及び43C間は
バス44a及び44bで接続され、下位装置制御部32
Bと下位装置43A及び44B間はバス44C及び44
dで接続され、下位装置制御部32Gと下位装置43B
及び430間はバス44e及び44fで接続される。
バス44a及び44bで接続され、下位装置制御部32
Bと下位装置43A及び44B間はバス44C及び44
dで接続され、下位装置制御部32Gと下位装置43B
及び430間はバス44e及び44fで接続される。
33は資源管理機能部で、モジュール構成の資源管理部
331及び管理テーブル332を備えている。資源管理
部331は、装置全体の資源の管理を行う、管理テーブ
ル332には、資源情報及び処理の状況情報が格納され
る。
331及び管理テーブル332を備えている。資源管理
部331は、装置全体の資源の管理を行う、管理テーブ
ル332には、資源情報及び処理の状況情報が格納され
る。
34は共通バスで、上位及び下位装置制御部31A〜3
1C,32A〜32G及び資源管理機能部33がそれぞ
れ接続される。
1C,32A〜32G及び資源管理機能部33がそれぞ
れ接続される。
この構成で、上位装置41がバス42Aにより下位装置
43Aと入出力処理を行う場合は、■上位装置制御部3
1A−下位装置制御部32A−バス44a−下位装置4
3A、又は■上位装置制御部31A−下位装置制御部3
2B−バス44C−下位袋W43A、のいずれかのルー
トで行われる。
43Aと入出力処理を行う場合は、■上位装置制御部3
1A−下位装置制御部32A−バス44a−下位装置4
3A、又は■上位装置制御部31A−下位装置制御部3
2B−バス44C−下位袋W43A、のいずれかのルー
トで行われる。
同様に、上位装置41がバス42Bにより下位装置43
Bと入出力処理を行う場合は、■上位装置制御部31B
−下位装置制御部32B−バス44d−下位装置43B
、又は■上位装置制御部31B−下位装置制御部32C
→バス44e−下位装置43B、のいずれかのルートで
行われる。
Bと入出力処理を行う場合は、■上位装置制御部31B
−下位装置制御部32B−バス44d−下位装置43B
、又は■上位装置制御部31B−下位装置制御部32C
→バス44e−下位装置43B、のいずれかのルートで
行われる。
またパス42Cにより下位装置43Cと入出力処理を行
う場合は、■上位装置制御部31C−下位装置制御部3
2C−パス44f−下位装置43C1又は■上位装置3
1G−下位装置制御部32A→パス44b→下位装置4
3C1のいずれかのルートで行われる。
う場合は、■上位装置制御部31C−下位装置制御部3
2C−パス44f−下位装置43C1又は■上位装置3
1G−下位装置制御部32A→パス44b→下位装置4
3C1のいずれかのルートで行われる。
この制御装置30に障害が発生した場合、障害を検出、
救済する方式として、ソフトウェアで統計的手法を用い
た障害検出及び被疑装置を含むパスの切離しを行うソフ
トウェアによる障害検出、救済方式がよく用いられる。
救済する方式として、ソフトウェアで統計的手法を用い
た障害検出及び被疑装置を含むパスの切離しを行うソフ
トウェアによる障害検出、救済方式がよく用いられる。
次に、このソフトウェアによる障害検出、救済方式を第
3図を参照して説明する。
3図を参照して説明する。
上位及び下位装置制御部(31A〜31C,32A〜3
2D)は、エラー回数をカウントするカウンタ(図示せ
ず)を備えており、その制御部を経由するルートにおけ
る入出力処理にエラーが検出された場合は、カウンタの
エラーカウント値を1だけカウントアツプする。エラー
のカウントアツプは各入出力処理毎に一回行われ、規定
の時間(例えば30分)内に所定の閾値以上のエラーが
カウントされた場合にそのルートにエラーがあると判定
される。
2D)は、エラー回数をカウントするカウンタ(図示せ
ず)を備えており、その制御部を経由するルートにおけ
る入出力処理にエラーが検出された場合は、カウンタの
エラーカウント値を1だけカウントアツプする。エラー
のカウントアツプは各入出力処理毎に一回行われ、規定
の時間(例えば30分)内に所定の閾値以上のエラーが
カウントされた場合にそのルートにエラーがあると判定
される。
エラーは一時的な場合又はリトライにより回復する場合
があるので、エラーの有無を判定するカウンタの閾値は
、チャネルエラー、パスエラー。
があるので、エラーの有無を判定するカウンタの閾値は
、チャネルエラー、パスエラー。
デバイスエラー等に対応して実験的に適宜選定される。
ソフトウェアにはルートしか意識されないが、各ルート
におけるエラーの有無に基づき、第3図に示すようにし
て障害発生の疑いのあるパス又は装置が検出される。
におけるエラーの有無に基づき、第3図に示すようにし
て障害発生の疑いのあるパス又は装置が検出される。
例工ば、パス42A→パス44aのルートがエラーで、
かつ、パス42B→パス44Cのルートがエラーである
場合は、下位装置43Aが障害被疑装置として検出され
る。一方、パス42A−パス44aのルートがエラーで
あるが、バス42B→バス44cのルートにエラーがな
い場合は、下位装置43Aは正常でバス42A或いはパ
ス44aが障害被疑バスとして検出される。
かつ、パス42B→パス44Cのルートがエラーである
場合は、下位装置43Aが障害被疑装置として検出され
る。一方、パス42A−パス44aのルートがエラーで
あるが、バス42B→バス44cのルートにエラーがな
い場合は、下位装置43Aは正常でバス42A或いはパ
ス44aが障害被疑バスとして検出される。
さらにバス42A→パス44のルートがエラーであるが
、ハス42A→パス44bのルートにエラーが発生しな
い場合は、パス44aが障害被疑パスとして検出される
。
、ハス42A→パス44bのルートにエラーが発生しな
い場合は、パス44aが障害被疑パスとして検出される
。
パス42B→パス44dのルートがエラーで、かつ、パ
ス42C→バス44eのルートがエラーである場合は、
下位装置43Bが障害被疑装置として検出される。一方
、パス42B→パス44dのルートがエラーであるが、
バス42C→バス44eのルートにエラーがない場合は
、下位装置43Bは正常でパス42B或いはパス44d
が障害被疑パスとして検出される。
ス42C→バス44eのルートがエラーである場合は、
下位装置43Bが障害被疑装置として検出される。一方
、パス42B→パス44dのルートがエラーであるが、
バス42C→バス44eのルートにエラーがない場合は
、下位装置43Bは正常でパス42B或いはパス44d
が障害被疑パスとして検出される。
さらにパス42B→パス44dのルートがエラーである
が、パス42B→パス44eのルートにエラーが発生し
ない場合は、パス44dが障害被疑パスとして検出され
る。
が、パス42B→パス44eのルートにエラーが発生し
ない場合は、パス44dが障害被疑パスとして検出され
る。
パス42C→バス44fのルートがエラーで、かつ、バ
ス42A→パス44cのルートがエラーである場合は、
下位装置43Gが障害被疑装置として検出される。一方
、パス42C−パス44fのルートがエラーであるが、
パス42A→44bのルートにエラーがない場合は、バ
ス42G或いはパス44fが障害被疑バスとして検出さ
れる。
ス42A→パス44cのルートがエラーである場合は、
下位装置43Gが障害被疑装置として検出される。一方
、パス42C−パス44fのルートがエラーであるが、
パス42A→44bのルートにエラーがない場合は、バ
ス42G或いはパス44fが障害被疑バスとして検出さ
れる。
サラにバス42e→バス44fのルートがエラーである
が、パス42C→バス44dのルートにエラーが発生し
ない場合は、パス44fが障害被疑バスとして検出され
る。
が、パス42C→バス44dのルートにエラーが発生し
ない場合は、パス44fが障害被疑バスとして検出され
る。
以上のようにして、ソフトウェアにより障害のある下位
装置やパスを検出することができる。検出された障害被
疑装置やパスを入出力処理ルートから切り離すことによ
り障害の救済が行われる。
装置やパスを検出することができる。検出された障害被
疑装置やパスを入出力処理ルートから切り離すことによ
り障害の救済が行われる。
共通バスで接続された複数の制御用のモジュールで構成
される従来の制御装置における障害検出、救済方式は、
前述のようにソフトウェアによりエラーのあるルートか
ら障害被疑装置及びパスを検出し、それらを入出力処理
ルートから切り離すことにより救済していた。
される従来の制御装置における障害検出、救済方式は、
前述のようにソフトウェアによりエラーのあるルートか
ら障害被疑装置及びパスを検出し、それらを入出力処理
ルートから切り離すことにより救済していた。
しかしながら、この制御装置30においては、資源管理
部331が全ての資源管理が行っているため、上位装置
41の各バスと所望の下位装置間で入出力処理を行う場
合のルートの確定は、資源管理部331によって行われ
る。したがって、資源管理部331に障害が発生すると
、上位装置と下位装置間での入出力処理ルートの確定が
出来なくなるので、ソフトウェアから見た場合、すべて
のルートにエラーが発生したように認識される。
部331が全ての資源管理が行っているため、上位装置
41の各バスと所望の下位装置間で入出力処理を行う場
合のルートの確定は、資源管理部331によって行われ
る。したがって、資源管理部331に障害が発生すると
、上位装置と下位装置間での入出力処理ルートの確定が
出来なくなるので、ソフトウェアから見た場合、すべて
のルートにエラーが発生したように認識される。
このため、共通バスで接続される複数の制御用のモジュ
ールで構成される制御装置30においては、その資源管
理機能部33に障害が発生した場合には、従来のソフト
ウェアによる障害検出方式では、障害を発生したバスや
装置を検出できず、制御装置及びシステム全体の処理が
ストップするという問題があった。
ールで構成される制御装置30においては、その資源管
理機能部33に障害が発生した場合には、従来のソフト
ウェアによる障害検出方式では、障害を発生したバスや
装置を検出できず、制御装置及びシステム全体の処理が
ストップするという問題があった。
このことは、共通バスで接続されたそれぞれ所定の処理
機能を有する複数モジュール及び資源管理用のモジュー
ルで構成される装置において、一般に共通する問題であ
る。
機能を有する複数モジュール及び資源管理用のモジュー
ルで構成される装置において、一般に共通する問題であ
る。
このような障害に対処する一つの方式として、制御装置
を現用と予備に2重化し、現用の制御装置に障害が検出
された場合は予備の制御装置に切り替えて代行させる方
式が用いられる。
を現用と予備に2重化し、現用の制御装置に障害が検出
された場合は予備の制御装置に切り替えて代行させる方
式が用いられる。
しかしながら、システムの規模が大きくなり、それに伴
って制御装置の規模も大きくなると、制御装置を二重化
することは、ハードウェア量及びコストが大幅に増加す
るため、その実施は実際上困難である。
って制御装置の規模も大きくなると、制御装置を二重化
することは、ハードウェア量及びコストが大幅に増加す
るため、その実施は実際上困難である。
本発明は、共通バスで接続されたそれぞれ所定の処理機
能を有する複数のモジュール及び資源管理用のモジュー
ルで構成される装置において、資源管理用のモジュール
に障害が発生した場合にも、その検出と救済を容易かつ
速やかに行い、装置及びそのシステム全体の動作に支障
が生じないようにする障害検出、救済方式を提供するこ
とを目的とする。
能を有する複数のモジュール及び資源管理用のモジュー
ルで構成される装置において、資源管理用のモジュール
に障害が発生した場合にも、その検出と救済を容易かつ
速やかに行い、装置及びそのシステム全体の動作に支障
が生じないようにする障害検出、救済方式を提供するこ
とを目的とする。
本発明の講した解決手段を、第1図を参照して説明する
。第1図は、本発明の基本構成をブロック図で示したも
のである。
。第1図は、本発明の基本構成をブロック図で示したも
のである。
第1図において、10は全体の装置で、共通バスで接続
された複数のモジュールで構成される。
された複数のモジュールで構成される。
11、〜117及び12l〜12.はモジュールで、そ
れぞれ所定の処理機能を有する(なお、記号を11と1
2のグループに分けるのは後述する実施例との対応を容
易にするためのもので、モジュールが2つのグループか
らなることを意味するものではない)。
れぞれ所定の処理機能を有する(なお、記号を11と1
2のグループに分けるのは後述する実施例との対応を容
易にするためのもので、モジュールが2つのグループか
らなることを意味するものではない)。
13は資源管理機能モジュールで、装置10全体の資源
(図示せず)を管理する。
(図示せず)を管理する。
14はスタンバイ機能モジュールで、資源管理機能モジ
ュール13と同等の機能を有し、資源管理機能モジュー
ル13に障害が発生したときに交代してその処理を実行
する。
ュール13と同等の機能を有し、資源管理機能モジュー
ル13に障害が発生したときに交代してその処理を実行
する。
15はサービスモジュールで、資源管理機能モジュール
13からの情報に基づいて装置10で発生した障害の状
況を把握し、資源管理機能モジュール13でその処理実
行を不可能とする障害発生を検出したときは各モジュー
ル(11l〜11n、。
13からの情報に基づいて装置10で発生した障害の状
況を把握し、資源管理機能モジュール13でその処理実
行を不可能とする障害発生を検出したときは各モジュー
ル(11l〜11n、。
12I〜12. )の処理実行を一旦中断させ、資源管
理モジュール13の制御をスタンバイ機能モジュール1
4に移行する処理を行う。
理モジュール13の制御をスタンバイ機能モジュール1
4に移行する処理を行う。
16は共通バスで、前述の各種モジュール(11l〜1
111.12l〜12n、13,14,15)が接続さ
れる。
111.12l〜12n、13,14,15)が接続さ
れる。
資源管理機能モジュール13は、装置10に障害が発生
したときは、サービスモジュール15に障害発生状況に
関する情報を送る。
したときは、サービスモジュール15に障害発生状況に
関する情報を送る。
サービスモジュール15は、この情報に基づいて資源管
理機能モジュール13における障害発生の状況を把握す
る。
理機能モジュール13における障害発生の状況を把握す
る。
サービスモジュール15は、資源管理機能モジュール1
3でその処理実行を不可能とする重大な障害発生を検出
したときは、各モジュール11+〜11n、12l〜1
2.に指令して、それらの実行している処理を一旦中断
させる。
3でその処理実行を不可能とする重大な障害発生を検出
したときは、各モジュール11+〜11n、12l〜1
2.に指令して、それらの実行している処理を一旦中断
させる。
次いで、サービスモジュール15は、資源管理機能モジ
ュール13の制御をスタンバイ機能モジュール14に移
行させ、スタンバイ機能モジュール14に資源管理機能
モジュール13の処理を代って実行させる。
ュール13の制御をスタンバイ機能モジュール14に移
行させ、スタンバイ機能モジュール14に資源管理機能
モジュール13の処理を代って実行させる。
スタンバイ機能モジュール14は、資源管理機能モジュ
ール13の制御を受は継ぐと、各モジュール11l〜1
1?l、12+〜12ヨに対し、スタンバイ機能モジュ
ール14が使用可能になったことを通知する。
ール13の制御を受は継ぐと、各モジュール11l〜1
1?l、12+〜12ヨに対し、スタンバイ機能モジュ
ール14が使用可能になったことを通知する。
この通知を受けると、各モジュール11l〜11−.1
2+〜12.は処理を再開し、スタンバイ機能モジュー
ル14を使用してそれまでの処理を再び実行する。
2+〜12.は処理を再開し、スタンバイ機能モジュー
ル14を使用してそれまでの処理を再び実行する。
なお、資源管理機能モジュール13以外の他のバスやモ
ジュールにおける障害発生検出も、サービスモジュール
15によって行われる。
ジュールにおける障害発生検出も、サービスモジュール
15によって行われる。
以上のように、資源管理機能モジュール13を二重化し
てサービスモジュール15を設けることにより、資源管
理機能モジュール13において障害が発生した場合でも
容易かつ確実に検出し、装置及びシステム全体の動作に
殆ど影響を与えることなく、それらの処理を速やかに継
続実行させることができる。
てサービスモジュール15を設けることにより、資源管
理機能モジュール13において障害が発生した場合でも
容易かつ確実に検出し、装置及びシステム全体の動作に
殆ど影響を与えることなく、それらの処理を速やかに継
続実行させることができる。
本発明の実施例を、第2図を参照して説明する。
第2図は、本発明の一実施例の構成をブロック図で示し
たものである。以下、装置10が上位装置と下位装置間
の入出力処理を制御する制御装置である場合を例にとっ
て説明する。
たものである。以下、装置10が上位装置と下位装置間
の入出力処理を制御する制御装置である場合を例にとっ
て説明する。
(A)実施例の構成
第2図において、装置(以下、この実施例では制御装置
という) 10、モジュール111−11、、(以下、
この実施例では上位装置制御モジュール(OCAモジュ
ール)という)及び12l〜12、(以下、この実施例
では下位装置制御モジュール(LCAモジュール)とい
う)、資源管理機能モジュール13、スタンバイ機能モ
ジュール14、サービスモジュール15及び共通バス1
6については、第1図で説明したとおりである。ただし
、資源管理機能モジュール13及びスタンバイ機能モジ
ュール14は、この実施例では他の制御装置(10’
)と共用化されるため、制御装置10の外部に示されて
いる。
という) 10、モジュール111−11、、(以下、
この実施例では上位装置制御モジュール(OCAモジュ
ール)という)及び12l〜12、(以下、この実施例
では下位装置制御モジュール(LCAモジュール)とい
う)、資源管理機能モジュール13、スタンバイ機能モ
ジュール14、サービスモジュール15及び共通バス1
6については、第1図で説明したとおりである。ただし
、資源管理機能モジュール13及びスタンバイ機能モジ
ュール14は、この実施例では他の制御装置(10’
)と共用化されるため、制御装置10の外部に示されて
いる。
21はホストCPUを備えた上位装置、22゜〜22f
iは上位装置21と各UCAモジュール11l〜11n
、間のバス、23l〜231.lはI10装置等の下位
装置、24l〜24□、はLCAモジュール12l〜1
2.と下位装置23l〜23゜間のバスである。各LC
Aモジュール12l〜12o及び各下位装置23l〜2
311には、それぞれ2本のバスが接続される。
iは上位装置21と各UCAモジュール11l〜11n
、間のバス、23l〜231.lはI10装置等の下位
装置、24l〜24□、はLCAモジュール12l〜1
2.と下位装置23l〜23゜間のバスである。各LC
Aモジュール12l〜12o及び各下位装置23l〜2
311には、それぞれ2本のバスが接続される。
資源管理機能モジュール13において、131は資源管
理モジュールで、装置の全資源の管理を行う、132は
管理テーブルで、資源情報及び処理状況の情報が格納さ
れる。
理モジュールで、装置の全資源の管理を行う、132は
管理テーブルで、資源情報及び処理状況の情報が格納さ
れる。
スタンバイ機能モジュール14において、141はスタ
ンバイモジュールで、資源管理モジュールと同じ構成を
有している。142はスタンバイテーブルで、管理テー
ブル132と同じ構成を有し、コピーバス17を介して
管理テーブル132の内容がコピーされる。
ンバイモジュールで、資源管理モジュールと同じ構成を
有している。142はスタンバイテーブルで、管理テー
ブル132と同じ構成を有し、コピーバス17を介して
管理テーブル132の内容がコピーされる。
18はサービスバスで、サービスモジュールとLCAモ
ジュール12I〜12. 、UCAモジュール11l〜
111、資源管理モジュール131及びスタンバイモジ
ュール141間を接続する。
ジュール12I〜12. 、UCAモジュール11l〜
111、資源管理モジュール131及びスタンバイモジ
ュール141間を接続する。
10′は第2図に示す制御装置10と同様に、共通バス
16′で複数のUCAモジュール、LCAモジュール及
びサービスモジュール(いずれも図示せず)が接続され
る構成の独立の制御装置(資源管理機能モジュール及び
スタンバイ機能モジュールは備えていない)で、上位装
置21に図示しないバスを介して接続され、また複数の
下位装置にもバスを介して接続される(いずれも図示せ
ず)。
16′で複数のUCAモジュール、LCAモジュール及
びサービスモジュール(いずれも図示せず)が接続され
る構成の独立の制御装置(資源管理機能モジュール及び
スタンバイ機能モジュールは備えていない)で、上位装
置21に図示しないバスを介して接続され、また複数の
下位装置にもバスを介して接続される(いずれも図示せ
ず)。
18′は、制御装置10′のサービスバスで、スタンバ
イモジュール141、資源管理モジュール131を制御
装置10′内の各UCAモジュール、LCA・モジュー
ルを経由してそのサービスモジュールに接続する。
イモジュール141、資源管理モジュール131を制御
装置10′内の各UCAモジュール、LCA・モジュー
ルを経由してそのサービスモジュールに接続する。
資源管理機能モジュール13及びスタンバイ機能モジュ
ール14は、制御装置10及び10′に共通に用いられ
、共通バス16及び16′に並列に接続される。
ール14は、制御装置10及び10′に共通に用いられ
、共通バス16及び16′に並列に接続される。
(B)実施例の動作
制御装置10及び10′の動作は同様であるので、以下
、制御装置10における障害検出救済動作について説明
する。
、制御装置10における障害検出救済動作について説明
する。
■ 資源管理モジュール131に装置の処理状況を管理
しており、障害が発生するとサービスバス18を経由し
てサービスモジュール15に障害が発生したことを通知
する。共通バス16を経由して通知することも可能であ
るが、サービスバス18を用いることにより確実に通知
することができる。
しており、障害が発生するとサービスバス18を経由し
てサービスモジュール15に障害が発生したことを通知
する。共通バス16を経由して通知することも可能であ
るが、サービスバス18を用いることにより確実に通知
することができる。
■ サービスモジュール15は、通知された情報より、
資源管理モジュール131の障害状況を分析して把握す
る。障害は再試行すなわちリトライにより回復する場合
があるので、サービスモジュール15は資源管理モジュ
ール131に指令して、リトライを行わせる。リトライ
により障害が回復した場合は、従前の処理が′mVt実
行される。
資源管理モジュール131の障害状況を分析して把握す
る。障害は再試行すなわちリトライにより回復する場合
があるので、サービスモジュール15は資源管理モジュ
ール131に指令して、リトライを行わせる。リトライ
により障害が回復した場合は、従前の処理が′mVt実
行される。
リトライにより障害が回復せず、資源管理モジュール1
31の障害状況が重大な場合、サービスモジュール15
は、次の■以降の手順により資源管理機能モジュール1
3の制御をスタンバイ機能モジュール14に移す処理を
行う。
31の障害状況が重大な場合、サービスモジュール15
は、次の■以降の手順により資源管理機能モジュール1
3の制御をスタンバイ機能モジュール14に移す処理を
行う。
■ 資源管理モジュール131に障害が発生しても、各
UCAモジュール11l〜11n、及びLCAモジュー
ル12l〜12.にはその障害発生が認識されないので
、各モジュールの処理は引き続き実行されている。
UCAモジュール11l〜11n、及びLCAモジュー
ル12l〜12.にはその障害発生が認識されないので
、各モジュールの処理は引き続き実行されている。
各モジュールの処理を中断させるために、サービスモジ
ュール15は、各UCAモジュール11、〜11.及び
LCAモジュール12l〜12、に対して、共通バス1
6を経由して資源管理モジュール131で重大な障害が
発生したことを通知する。
ュール15は、各UCAモジュール11、〜11.及び
LCAモジュール12l〜12、に対して、共通バス1
6を経由して資源管理モジュール131で重大な障害が
発生したことを通知する。
この通知を受けると、UCA11+〜117は、上位装
置21に対し“制御装置使用中゛コードを通知して、上
位装置21の行う処理を待たせるようにする。
置21に対し“制御装置使用中゛コードを通知して、上
位装置21の行う処理を待たせるようにする。
また、LCA12+〜12.は、対応する下位装置23
l〜23.からの割込みを受は付けないようにする。
l〜23.からの割込みを受は付けないようにする。
■ サービスモジュール15は、サービスバス18を経
由して資源管理モジュール131に対して指令し、共通
バス16から各モジュールが行う資源管理モジュール1
31及び管理テーブル132へのアクセス受付けを禁止
する。
由して資源管理モジュール131に対して指令し、共通
バス16から各モジュールが行う資源管理モジュール1
31及び管理テーブル132へのアクセス受付けを禁止
する。
これにより、資源管理モジュール131及び管理テーブ
ル132は使用不可能となり、各モジュールが障害のあ
る資源管理モジュール131及び管理テーブル132を
アクセスして誤処理をするのを防止することができる。
ル132は使用不可能となり、各モジュールが障害のあ
る資源管理モジュール131及び管理テーブル132を
アクセスして誤処理をするのを防止することができる。
■ サービスモジュール15は、資源管理機能モジュー
ル13からスタンバイ機能モジュールエ4に制御をスイ
ッチしてスタンバイ処理を行うことをスタンバイモジュ
ール141にI誇示する。
ル13からスタンバイ機能モジュールエ4に制御をスイ
ッチしてスタンバイ処理を行うことをスタンバイモジュ
ール141にI誇示する。
この指示は、確実性を期するためにサービスバス18を
経由して行われる。
経由して行われる。
なお、資源情報及び処理状況の情報は、管理テーブル1
32に格納されるとともに、コピーバス17を経由して
常時スタンバイテーブル142にもコピーされる。
32に格納されるとともに、コピーバス17を経由して
常時スタンバイテーブル142にもコピーされる。
■ スタンバイモジュール141は、サービスモジュー
ル16からのスタンバイ指示を受領すると、資源管理モ
ジュール131に交代してその動作を開始することが可
能となる。
ル16からのスタンバイ指示を受領すると、資源管理モ
ジュール131に交代してその動作を開始することが可
能となる。
■ スタンバイモジュール141は、共通バス16を経
由して各UCA11+〜11.及びLCA12l〜12
.に対し、スタンバイモジュール141及びスタンバイ
テーブル142が使用可能になったことを通知する。
由して各UCA11+〜11.及びLCA12l〜12
.に対し、スタンバイモジュール141及びスタンバイ
テーブル142が使用可能になったことを通知する。
この通知を受けると、各U CA 11 I〜11.は
上位装置21に“制御装置使用中解除”の報告を行って
、上位装置21からの受付は処理を再開する。
上位装置21に“制御装置使用中解除”の報告を行って
、上位装置21からの受付は処理を再開する。
また、各LCA12+〜12.は、下位装置23l〜2
3.からの割込みの受付けを再開する。
3.からの割込みの受付けを再開する。
■ 以後、OCAモジュール11l〜11.及びLCA
モジュール12l〜12.は、スタンバイモジュール1
41及び管理テーブル142を使用してそれぞれの入出
力処理を実行する。
モジュール12l〜12.は、スタンバイモジュール1
41及び管理テーブル142を使用してそれぞれの入出
力処理を実行する。
なお、資源管理モジュール131で障害が発生したとき
に、UCA及びLCAの各モジュールが共通バス16を
介して下位装置23l〜23、間との処理を実行してい
た場合は、前述の■の処理後に上位装置21に対し、処
理を行っていた各UCAモジュールより異常終了の通知
を行う、これにより、上位装置21よりそのUCAモジ
ュールに対して同一処理が再指示されるので、それまで
の処理の誤りが訂正されて正常な処理が実行されるよう
になる。
に、UCA及びLCAの各モジュールが共通バス16を
介して下位装置23l〜23、間との処理を実行してい
た場合は、前述の■の処理後に上位装置21に対し、処
理を行っていた各UCAモジュールより異常終了の通知
を行う、これにより、上位装置21よりそのUCAモジ
ュールに対して同一処理が再指示されるので、それまで
の処理の誤りが訂正されて正常な処理が実行されるよう
になる。
以上のようにして、資源管理機能モジュール13で障害
が発生しても、スタンバイ機能モジュール14及びサー
ビスモジュール15により速やかに障害の検出及び救済
が行われるので、制御装置10及びシステムの処理が一
時的に中断するのみでそれらの処理に殆ど影響を与える
ことなく継続実行させることができる。
が発生しても、スタンバイ機能モジュール14及びサー
ビスモジュール15により速やかに障害の検出及び救済
が行われるので、制御装置10及びシステムの処理が一
時的に中断するのみでそれらの処理に殆ど影響を与える
ことなく継続実行させることができる。
制御装置10′側においても前述の制御装置10側にお
けると同様な処理が行われる。なお、制御装置10′は
制御装置10とは別個にその入出力装置に対する入出力
処理を行うが、更に増設することができる。その場合も
、資源管理機能モジュール13及びスタンバイ機能モジ
ュール14は、各制御装置に共用される。
けると同様な処理が行われる。なお、制御装置10′は
制御装置10とは別個にその入出力装置に対する入出力
処理を行うが、更に増設することができる。その場合も
、資源管理機能モジュール13及びスタンバイ機能モジ
ュール14は、各制御装置に共用される。
以上説明したように、本発明によれば次の諸効果が行わ
れる。
れる。
(イ)装置の資源管理機能モジュールで障害が発生した
場合も、それを容易かつ確実に検出して速やかにその救
済を行うことができる。
場合も、それを容易かつ確実に検出して速やかにその救
済を行うことができる。
(tF)装置全体を2重化するよりもはるかに簡単な構
成で、資源管理機能モジュールで障害発生した場合でも
装置及びシステムの動作に影響を与えることなく、それ
らの処理を速やかに継続実行させることができる。
成で、資源管理機能モジュールで障害発生した場合でも
装置及びシステムの動作に影響を与えることなく、それ
らの処理を速やかに継続実行させることができる。
第1図は本発明の基本構成の説明図、
第2図は本発明の一実施例の構成の説明図、第3図はソ
フトウェアによる障害検出、救済方式の説明図、 第4図は従来の障害検出、救済制御方式の説明図である
。 第1図及び第2図において、 10.10’・・・装置又は制御装置、11l〜117
・・・モジュール又は上位装置制4BCUCA)モジュ
ール、12l〜121・・・モジュール又は下位装置制
御(LCA)モジュール、13・・・資源管理機能モジ
ュール、14・・・スタンバイ機能モジュール、15・
・・サービスモジュール、16.16’・・・共通バス
、17・・・コピーバス、18.18’・・・サービス
バス、131・・・資源管理モジュール、132・・・
管理テーブル、141・・・スタンバイモジュール、1
42・・・スタンバイテーブル、21・・・上位装置、
23l〜23.・・・下位装置。 特許出願人 富 士 通 株式会社参罹り目^″
Il−千不員戚゛ 第1図 ゝノットウェア1;「う鱒市#七、叔涛方g浸壕の縛賓
建払5截惰利御防式゛ 愉 A C5
フトウェアによる障害検出、救済方式の説明図、 第4図は従来の障害検出、救済制御方式の説明図である
。 第1図及び第2図において、 10.10’・・・装置又は制御装置、11l〜117
・・・モジュール又は上位装置制4BCUCA)モジュ
ール、12l〜121・・・モジュール又は下位装置制
御(LCA)モジュール、13・・・資源管理機能モジ
ュール、14・・・スタンバイ機能モジュール、15・
・・サービスモジュール、16.16’・・・共通バス
、17・・・コピーバス、18.18’・・・サービス
バス、131・・・資源管理モジュール、132・・・
管理テーブル、141・・・スタンバイモジュール、1
42・・・スタンバイテーブル、21・・・上位装置、
23l〜23.・・・下位装置。 特許出願人 富 士 通 株式会社参罹り目^″
Il−千不員戚゛ 第1図 ゝノットウェア1;「う鱒市#七、叔涛方g浸壕の縛賓
建払5截惰利御防式゛ 愉 A C5
Claims (3)
- (1)共通バス(16)で接続される、それぞれ所定の
処理機能を有する複数のモジュール(11_l〜11_
n、12_l〜12_m)と装置(10)全体の資源を
管理する資源管理機能モジュール(13)を備えた装置
(10)に、発生する障害の検出、救済制御方式におい
て、 (a)資源管理機能モジュール(13)と同等の機能を
有し、共通バス(16)で接続され、資源管理機能モジ
ュール(13)で障害が発生したときに交代してその処
理を実行するスタンバイ機能モジュール(14)と、 (b)共通バス(16)で接続され、資源管理機能モジ
ュール(13)からの情報に基づいて装置(10)で発
生した障害の状況を把握し、資源管理機能モジュール(
13)でその処理実行を不可能とする障害発生を検出し
たときは各モジュール(11_l〜11_n、12_l
〜12_m)の処理実行を一旦中断させ、資源管理機能
モジュール(13)の制御をスタンバイ機能モジュール
(14)に移行するサービスモジュール(16)、 を設けたことを特徴とする障害検出、救済制御方式。 - (2)サービスモジュール(15)、各モジュール(1
1_l〜11_n、12_l〜12_m)、資源管理機
能モジュール(13)及びスタンバイ機能モジュール(
14)を接続するサービスバス(18)を設け、資源管
理機能モジュール(13)に障害が発生した場合にこの
サービスバス(18)を経由して情報の転送が行われる
ことを特徴とする特許請求の範囲第1項記載の障害検出
、救済制御方式。 - (3)資源管理機能モジュール(13)に設けられ、資
源情報及び処理状況の情報が格納される管理テーブル(
132)とスタンバイ機能モジュール(14)に設けら
れたスタンバイテーブル(142)との間に、管理テー
ブル(132)の内容をスタンバイテーブル(142)
に転送するコピーバス(17)を設けたことを特徴とす
る特許請求の範囲第1項又は第2項記載の障害検出、救
済制御方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62146896A JPS63311444A (ja) | 1987-06-15 | 1987-06-15 | 障害検出、救済制御方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62146896A JPS63311444A (ja) | 1987-06-15 | 1987-06-15 | 障害検出、救済制御方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63311444A true JPS63311444A (ja) | 1988-12-20 |
Family
ID=15418025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62146896A Pending JPS63311444A (ja) | 1987-06-15 | 1987-06-15 | 障害検出、救済制御方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63311444A (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5421150A (en) * | 1977-07-18 | 1979-02-17 | Nec Corp | Information processor |
JPS5764859A (en) * | 1980-10-08 | 1982-04-20 | Hitachi Ltd | Multi-processor system |
-
1987
- 1987-06-15 JP JP62146896A patent/JPS63311444A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5421150A (en) * | 1977-07-18 | 1979-02-17 | Nec Corp | Information processor |
JPS5764859A (en) * | 1980-10-08 | 1982-04-20 | Hitachi Ltd | Multi-processor system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8656228B2 (en) | Memory error isolation and recovery in a multiprocessor computer system | |
JP3196004B2 (ja) | 障害回復処理方法 | |
US7751310B2 (en) | Fault tolerant duplex computer system and its control method | |
Bohra et al. | Remote repair of operating system state using backdoors | |
US20050097141A1 (en) | Autonomic filesystem recovery | |
EP0125797B1 (en) | Interrupt signal handling apparatus | |
KR100697988B1 (ko) | 과도한 인터럽트로부터 시스템을 보호하는 장치 및 그 방법 | |
JPH0375834A (ja) | パリティの置換装置及び方法 | |
JPS63311444A (ja) | 障害検出、救済制御方式 | |
JPH03259349A (ja) | 障害処理方式 | |
JPH03292537A (ja) | 制御データのキュー構造管理処理方式 | |
CN113778763A (zh) | 一种三方接口服务故障智能切换方法及系统 | |
EP1662396A2 (en) | Hardware error control method in an instruction control apparatus having an instruction processing suspension unit | |
JP2003256399A (ja) | ホットスタンバイシステム切り替え制御方式 | |
KR100206472B1 (ko) | 전전자교환기에서 시스템 장애관리 및 복구방법 | |
JPH08110877A (ja) | Rom内容のコピー方式 | |
JPH05224964A (ja) | バス異常通知方式 | |
JP2001175545A (ja) | サーバシステムおよび障害診断方法ならびに記録媒体 | |
JP3334174B2 (ja) | 障害処理検証装置 | |
KR100257162B1 (ko) | 이중화 시스템에서 상대 시스템의 감시방법 및 장치 | |
JPH0713792A (ja) | ホットスタンバイシステムにおけるエラー制御方式 | |
JPH0424839A (ja) | 障害処理方式 | |
JPH0224731A (ja) | エラー処理方法 | |
JPH0895933A (ja) | コンピュータシステム | |
JPH064836U (ja) | 情報処理装置 |