JPS61500875A - 補助記憶装置へのアクセス喪失に耐える処理システム - Google Patents

補助記憶装置へのアクセス喪失に耐える処理システム

Info

Publication number
JPS61500875A
JPS61500875A JP59503933A JP50393384A JPS61500875A JP S61500875 A JPS61500875 A JP S61500875A JP 59503933 A JP59503933 A JP 59503933A JP 50393384 A JP50393384 A JP 50393384A JP S61500875 A JPS61500875 A JP S61500875A
Authority
JP
Japan
Prior art keywords
information
storage device
main
processor
storage devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59503933A
Other languages
English (en)
Other versions
JPH0420493B2 (ja
Inventor
ハンセン,ロバート カール
リチヤードソン,カルヴイン ジエローム
シユミツト,デイヴイツド アンソニー
Original Assignee
アメリカン テレフオン アンド テレグラフ カムパニ−
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アメリカン テレフオン アンド テレグラフ カムパニ− filed Critical アメリカン テレフオン アンド テレグラフ カムパニ−
Publication of JPS61500875A publication Critical patent/JPS61500875A/ja
Publication of JPH0420493B2 publication Critical patent/JPH0420493B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • G06F11/1662Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/70Masking faults in memories by using spares or by reconfiguring
    • G11C29/74Masking faults in memories by using spares or by reconfiguring using duplex memories, i.e. using dual copies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 補助記憶装置へのアクセス喪失に耐える処理システム且土立! 本発明は耐冨害処理システム、より詳細には複製補助記憶装置を含む処理システ ムに関する。 衾匪立!量 各種の記憶装置のコスト及び性能の違いから、処理システムは、通常、少なくと も2つのタイプの記憶装置を使用する。1つのタイプは主記憶装置として使用さ れる実質的にリアルタイムにて読出し及び書込みを行なうことができる高速直接 アクセス記憶装置である。主記憶装置はコアあるいは半導体記憶装置として実現 されるが、1ビツト当たりの記憶空間は割高となる。従って、通常、主記憶装置 は処理システムに直ちに必要とされる情報を十分に保持できる程度のものに設計 される。処理システムによって使用される他の多量の情報は補助記憶装置と呼ば れる別のタイプの記憶装置に保持され、必要に応じて、処理システムによって情 報がこの主記憶装置と補助記憶装置との間に伝送される。 補助記憶装置は、通常、順次アクセス磁気記憶媒体、例えば、テープあるいはデ ィスクとして実現される0通常、主記憶装置と比較して、補助記憶装置へのアク セスは低速となる。しかし、補助記憶装置は1ビツト当たりの記憶空間が安く、 従って、比較的低コストにて大量の記憶能力が提供できる長所を持つ。 リアルタイム処理が要求され、一方で、処理能力の喪失に十分に対処できてない 処理システム、が多くの用途でみかけられるが、−例として、電話電子交換シス テムなどもこの部類に属する。このような用途に使用される処理システムは信頼 性が高く、障害が発生した場合にもこれにはえられることが要求される。 信頼性が高く、障害に対して強い処理システムを達成する方法の1つとして、シ ステム内の機能装置を、補助記憶装置及びそれらの内容を含めて、二重にしたり 、あるいはさらに多くのこれらの複製を提供する方法がある。二重にされた補助 記憶装置は活動/待機状態に構成されるが、活動状態の記憶装置はオフラインと され処理システムによって要求される記憶及び検索タスクを遂行し、一方、他方 の記憶装置はこの活動状態の記憶装置と同じ内容を持つように常時更新され、現 在活動状態の装置に故、隙が発生したとき活動状態の装置として動作できるよう に待機される。こうして、システムは、通常、片方の補助記憶装置が障害を起こ したときでも処理能力を失なうことな(これに耐えることができるようにされる 。 合でも、そのシステムの処理能力が完全に喪失されるわけではない、システムに 格納される情報の幾つかを主記憶装置に格納し、この情報を使用することによっ てシステムの幾っがのタスクの遂行を継続することが可能である。つまり、処理 システムの全ての複製補助記憶装置が故障した場合、処理システムが少なくとも そのシステムの能力を維持できるか否かは、これら補助記憶装置以外のソースか ら使用できる情報がシステム内にどの程度残るかに依存することとなる0例えば 、ある種の電子交換システムにおいては、システムの動作に欠くことのできない 情報、例えば、最もリアルタイムを必要とする必須システム/アプリケーション  プログラム/パラメータはシステムの主記憶装置内のプログラム格納部分に永 久的に格納され、一方、その他の情報、例えば、そのシステムによって処理され る特定の顧客に関するデータなどは、重複ディスク上に格納され、必要なときに のみ主記憶装置の呼格納部分に運ばれる0重複ディスクの両方が障害を起こした 場合でも、システムは必須プログラムへのアクセスは可能であり、従って、シス テムの呼格納部分に必要なデータが格納されたデータを持つ、あるいは格納され たデータを必要としない、タスクの遂行する能力、あるいは顧客に対するサービ ス能力を維持することが可能となる。 現代的な電子交換システムを含む大多数の処理システムは上述の交換システムの ような構造を持たない、つまり、こ弗ら多くの処理システムは前述の交換システ ムとこれらが主記憶装置内に全ての必須プログラム及びシステム パラメータを 永久的に格納し パない点で異なる。これら処理システムは、通常、システムの 殆どのパラメータ、プログラム及びその他の情報を補助記憶装置、例えば、ディ スク記憶装置内に格納し、必要に応じてこれら情報を主記憶装置と補助記憶装置 の間で伝送する。これには多くの理由があるが、これら理由には、これら処理シ ステムはプロセス及びその他の情報を主記憶装置と補助記憶装置との間で効率的 に伝送する能力を持つ高速のオペレーティング システムを持ち、従って、主記 憶装置には処理システムによって実行される全てのプログラムを格納せずこれに 格納しておくことが好ましいと考えられるものだけを格納することにより主記憶 装置の容量を小さくする方が経済的であること、及び、処理システムを主記憶装 置に格納できる制約された数及びサイズのプログラムのみを実行するように制限 しない方が多様性及び汎用性の点でえ得策であることなどを挙げることができる 。 しかし、これらシステムがそのシステムに欠くことのできない情報を補助記憶装 置と主記憶装置の間で伝送することによって動作するため、これらシステムは補 助記憶装置へのアクセスが得られなくなるとこれら情報にアクセスできなくなる 。補助記憶装置へのアクセスの喪失はいつ起っても不思議でなく、さらにこれに よってアクセスできなくなるtriがそれなしではシステムが処理活動を継続で きないような性格のものであるときは、処理システムは補助記憶装置の障害によ ってその処理能力を失なうこととなる。 犬」廊と」h 本発明は先行技術による処理システムのこれら及びその他の短所を解決すること を目的とする0本発明による処理システムは情報、例えば、動作に必要なプログ ラム及びデータなどを格納するための複製の補助記憶装置、例えば、二重ディス クを持ち、補助記憶装置に障害が発生した場合でも必須の処理能力を失なうこと はない、複製の補助記憶装置の1つを除く全て、あるいは少なくとも1つが障害 を起こすと、補助記憶装置から提供される指定の情報がシステムの主記憶装置内 に格納及びロックされ、この結果、全ての補助記憶装置が使用できなくなった場 合でもこれらt!報がシステムによって使用できるようにされる。 複製の補助記憶装置の全てが使用できなくなると、システムの動作は主記憶装置 内にロックされた指定の情報の使用に制限される。複製の補助記憶装置の少なく とも1つが回復すると、動作の制限は解除されるが、指定の情報は主記憶装置内 にロックされたままとなる。他方のri製禎助記憶装置も回復すると、指定の情 報が主記憶装置からアンロックされ、これら情報の主記憶装置からの移動が可能 となる。 好ましくは、この補助記憶装置に加えて複製の機能装置をもつ本発明による処理 システムは複製の少なくとも幾つかの記憶装置が故障すると、故はした?iR助 記憶装置を回復するためにこの複製の機能装置を使用して自体を再構成する。  ゛好ましくは、本発明による処理システムは、複製ネ覇助記憶装置の全てが障害 を起した場合でも少なくとも一部のシステム能力を保持する。これは、システム の動作に必須のシステム及びアプリケーション プログラムを含む必須情報をそ れらの複製補助記憶装置内に格納するようなシステムにも通用できる。従って、 本発明は、通常、それらのプログラムを補助記憶装置内に格納し、動作の際に1 .必要に応じてこれら情報をオペレーティング システムの制御下で主記憶装置 内にあるいはこれから補助記憶袋]こ移動させるような現代的な処理システムに 特に通ずる0本発明はこれら処理システムにこれまで実現ができなかった程度の 耐障害能力を提供する。 本発明のこれら及びその他の長所及び特徴は図面を参照しての本発明の一例とし て実施!3様の以下の説明からより明白となるものである。 ■工二呈星呈森ユ 第1図は本発明を具現する一例としての処理システムのブロック図を示し; 第2図は第1図の処理システムの構成状態の状態図を示し;第3図は第1図の処 理システムのディスパンチャ制御テーブルを示し; 第4図は第1図の処理システムのディスクに関する動作モードの図を示し; 第5図は第4図の動作モード図のシンプレックス プロ・ツクへの装置除去遷移 の論理流れ図を示し; 第6図は第4図の動作モード図のシンプレ7クス ブロックからの装置回復遷移 の論理流れ図を示し;第7図は第4図の動作モード図のソフト スイッチ ブロ ックの論理流れ図を示し; 第8図は第4図の動作モード図のハード スイッチ ブロックの論理流れ図を示 し; 第9図は第4図の動作モード図のフル ディスク リング モード ブロックへ の遷移の論理流れ図を示し;そして第10図は第4図の動作モード図の手動ブー ト プロ、りの論理流れ図を示す。 k■星段所 A、>五±ム1底 第1図には本発明を組み込んだ処理システムの一例としての実施!3様がブロッ ク図にて示される。ここにはジエアル プロセッサ システム100が示される が、これには好ましくは、エイティ アンド ティ ウェスタン エレクトリッ ク(AT&TWestern Electric)によって製作される3BT1 1200/DMERTコンビエータ システムが使用される。このシステムは3 B20Dプロセツサによって実行されるDMERTオペレーティングシステムを 含む、3B20D/DMERTコンピュータ システムは、ベル システム テ クニカル ジャーナル(BellSystem Technical Jour nal ) 、Vol、 64、寛1、パート2.1983年1月号において説 明されている。この3B20D/D M E RTコンビニータ システムの構 造及び動作の詳細に関しては上記の雑誌を参照を勧めるものとし、ここでは、本 発明が機能する環境を説明する目的でこれに関して簡単に説明するにとどめる。 シュアル プロセッサ システム100は対のプロセッサ101及び102を含 む、プロセッサ101及び102は川ね同一である。従来のモードの動作におい ては、プロセッサ101か102の片方は活動状態にあり、そのプロセッサによ る実行を割り当てられたプロセス、あるいはタスクを実行するためにオペレーテ ィング システムの制御下で動作し、一方、プロセッサ101か102の他方は アイドル状態にあり、待機し、プロセッサ101か102の活動状態のプロセン サが故障によってサービスができなくなったときこれにかわって動作する。プロ セスは、用の機能をもつこともある。プロセスは、通常、専用のデータスペース 及びレジスタ値、並びに場合によっては他のプロセスと共用されるセントのコー ド、つまり、プログラム命令を持つ。 プロセッサ101の主プログラムの実行、制御及びデータ処理機能は中央処理装 置(CPU)112によりて遂行される。 CPUI 12はマイクロプログラム マシーンであり、殆どのプロセフす機能 はCPU112の内部のマイクロプログラム記憶装置(図示なし)内に格納され たマイクロ命令の実行によって遂行される。マイクロ命令のシーケンスの実行は プログラム命令によって指令される動作を実現する。CPU112は、通常、C PtJが要求する情報、例えば、データ及びプログラム命令をプロセッサ101 の主記憶袋rL(MAS)114と呼ばれる主オンライン記憶装置から得る。ア プリケーション プロセス及びオペレーティング システム プロセスの両方の 選択された部分が主記憶装置114内に格納される。動作速度を向上させるため に、CPU112にはオプション的にキャッシュ113を提供することもできる が、このキャッシュはCPU112と主記憶装置114との間の情報伝送用の高 速バッファとして機能する。 主記憶装置と装置、例えば、CPUI 12及びキャッシュ113との間の通信 は主記憶装置バス(MSB)116を通じて行なわれ、主記憶装W、114への アクセスを調停する主記憶装置更新装置(MA S U)によりてtiII@さ れる。対の直接メモリ アクセス コントローラ(DMAC)110及び111 も主記憶装置バス116に接続し、主記憶装置114とプロセッサ101の周辺 装置゛の間の直接情報伝送装置として機能する。 プロセフす101と102は実質的に同一であり、プロセッサ102も同様にM SB126によって相互接続される対のDMACl2O及び121、CPU12 2、キヤツシユ123、MAS124、及びMASU125を含む。 プロセッサ101及び102の周辺装置には各種の装置が含まれるが、これらの 殆どは処理システム100が使用される用途によって決定される9周辺装置は第 1図に示されるように、大容量記憶装置、例えば、ディスク メモリ サブシス テム139及び149並びにテープ サブシステム159および169を含む。 サブシステム139及び159からなる周辺装置の第1のグループはシュアル  ボート コントローラ(DPC)130にWj続される。シュアル ボート コ ントローラ1300片方の通信ボートは通信チャネル133に接続され、一方、 コントローラ130の他方のボートはチャネル134に接続される。コントロー ラ130はサブシステム139及び159をチャネル133−134を通じて受 信される命令に従ってチャネル133−134のどちらかに選択的にインタフェ ースする。チャネル133はDMAコントローラ111に接続し、チャネル13 4はDMAコントローラ121に接続し、こうして、プロセッサ101および1 02の両方にサブシステム139および159へのアクセスを特坦’61−50 0875 (4) 提供する。DMACl 11及び121はまた従来の方法にてMAS 114及 び124とサブシステム139及び159の間の情報の伝送を制御する。 類似の方法にて、サブシステム149及び169からなる周辺装置の第2のグル ープはシュアル ボート コントローラ(DPC)140によって対のチャネル 143及び1440片方に選択的にインクフェースされる。チャネル143はD MAC110に接続し、一方、チャネル144はDMAC120に接続し、こう して、プロセッサ101及び102の両方にサブシステム149および169へ のアクセスを提供する。DMAC110及び120はまた従来の方法にてMAS  L 14及び124とサブシステム149及び169の間の情報の伝送を制御 する。 記憶装置、並びに包括される記憶装置の動作を制御し、周知の方法にて通信チャ ネルへの通信のためにこれらをインタフェースするコントローラを含む、ディス ク メモリ サブシステム139では、この記憶装置は複数の可動ヘンド ディ スク(MHD)131−132からなる。これらディスクはディスク ファイル コントローラ(DFC)135によって制御される。同様に、ディスク メモリ  サブシステム149はDFC145によって制御される複数のMHD141− 142からなる。テープ サブシステム159では、情報はテープ151上に格 納されるが、これはテープ ファイル コントローラ゛(TFC)155によっ て制御される。同様に、テープ メモリ サブシステム169はテープ161及 びTFCl 65を含む。 サブシステム139のMHD131−132の幾つかあるいは全てはサブシステ ム149のMHD141−142の幾つかあるいは全てと重複する。2つのMH Dは同一の情報のコピーを格納する場合、互いに重複する。互いに重複する2つ のMHDはディスクの重複ペアと呼ばれる0通常、システム内では、任意の時間 においてM HDの重複ペアの片方のMHDのみが必要となる0重複ペアの他方 のMHDはスペアとして機能する0重複ペアのM’HDは、通常、同一の情報を 持つように常に更新され、重複ペアの他方へのアクセスが失なわれた場合でも、 システム100はこれに格納された情報を得ることができ、従って、システム1 00の処理能力に影響を受けることがない。 テープ151及び161の幾らかあるいは全ても同様に互いに重複する。しかし 、テープ151及び161は手操作にてサブシステム159及び169の間を移 動できるため、通常、テープ151及び161を互いに重複させる必要はない。 重複ディスク ペアと同様に、プロセッサ101と102のどちらでもシステム  タスクを同じように遂行でき、これらのどちらかが故障した場合、他方がこれ にかわることができるようにするため、主記憶装置114及び124の内容も互 いに重複させることが必要である。このためプロセフす101及び102の主記 憶装置更新装置115及び125は更新バス103として示される通信バスによ って相互接続される。更新バス103は以下の方法にて主記憶装置更新装置11 5及び125によって制御及び使用される。 主記憶装置更新装置115は主記憶装置114へのアクタスの調停を行なうのに 加えて、主記憶装置114へのアクセスのタイプを監視する。必要とされるアク セスが主記憶装置114の内容を変更するようなタイプ、例えば、書込みあるい は消去動作であり・そしてプロセッサ102がサービス中であるとき番ヨ、主記 憶装置更新装置115はバス126に接続される他の全ての装置によって行なわ れるように、主記憶装置バス126に対スルアクセスの要求を主記憶装置更新装 置125に発行する。 主記憶装置更新装置125はこの要求をバス126への他の全てのアクセス要求 と同様に処理する。バス126が空き使用できる状態になると、主記憶装置更新 装置125はアクセス許可信号を主記憶装置更新装置115に送信し、更新バス 103の一端を主記憶装置バス126にti続する。 許可信号に応答して、主記憶装置更新装置115は更新バス ′103の他端を 主記憶装置バス116に接続し、最初に要求された主記憶装置114へのアクセ スを実現する。こうして、現在、バス116と126が接続されているためバス 116及び126の両方を通じて主記憶装置114&び124の両方へのアクセ スが行なわれ、装置114及び124の内容が同じように変更される。アクセス が完了すると、主記憶装置更新装置115及び125は両方とも更新バス103 を対応する主記憶装置バス116及び126から切断する。 主記憶装置114及び124の両方に対して必要なプロセッサ102による主記 憶装置へのアクセスの場合は、上述の主記憶装置更新装置115及び125の動 作が単に反対にとなるのみである。 また、CPU112とCPUI 22の間には直接通信チャネルが提供される。 これは保守チャネル104として示され、これはプロセッサ101あるいは10 2のオンラインで活動状態のプロセッサからオンラインで非活動状懸のプロセッ サを診断するための制御及び通信ハスとして機能する。保守チャネル104はま た障害回復プログラムに対する低レベル保守制御を提供し、プロセンサの切り替 えが動作に影響を与えることなく遂行できるように。 する、これに加えて、プロセッサ10.1及び102のどちらかによって保守チ ャネル104を通じて他の保守制御を行ない、他方のプロセンサの初期化シーケ ンスを開始したり、あるいは他方のプロセッサによるプログラムの実行を停止す ることができる。保守チ島ネル104はまた外部ソースからマイクロ命令を受信 して、これを実行することもできる。保守チャネル104はさらにプロセッサ  バスを制御し、プロセッサ制御信号を発行することができる。こうして、保守チ ャネル104はプロセンサを殆ど完全に制御することができ、マイクロ制御が不 在の場合でもこれを使用してマシーンを診断することができる。信頼性の目的か ら保守チャネル104も同様に重複されチャネル104aと104bからなる。 シュアル プロセッサ システム100の上述のハードウェア構成の助けをかり 、シュアル プロセッサ システム100のオペレーティング システムはシス テム100を複数の構成の選択された1つにて動作させ、またオペレータによっ てシステム100に与えられる命令に応答して、あるいは内部的に検出された状 況、例えば、障害の発生に応答してシステム100を再構成する。 動作においては、プロセッサ101か102の片方のみが動作状態となり全ての システム タスクを遂行し、一方、他方のプロセッサ上ン 活動状態のプロセッサは呼び出されたら活動状態のプロセッサとしてかわりに動 作できるように待機状態にある0通常、活動状態のプロセフすに故障が発生する と、これは非活動プロセッサとなり、サーζ゛スから外され(OO’S) 、こ れはもはや動作プロセッサとしてかわることができないものとしてみなされる。 このような故障が発生すると、Xったプロセッサが故障したプロセッサを診断し 、故障したプロセッサを待機状態にもどすことを試みる。 システム100内には、主記憶装置114及び124並びに大容量記憶サブシス テム139.149.159及び169内にその重複コピーが)各納されてはい るが、これには1つのバージョンのオペレーティング システムのみが存在する 。この1つのバージョンのオペレーティング システムが2つのプロセッサ10 1及び102の活動状態にある方のプロセッサ上で実行される。 動作において、システムは第2図に示される4つの構成状態の1つをとる。状態 1においては、プロセッサ101か102の片方が活動体感(a)にあり、他方 が待機状s (STBY)にある。 状態2においては、この2つのプロセッサの動作状態が切り替えられている。状 !33においては、プロセッサ101あるいは102のいずれかが動作状態にあ り、他方がサービスから外された状53(00S)にある、状!34においては ミこの2つのプロセッサの動作状態が切り替えられている。動作状況、例えば、 故障の発生に応答して、あるいはシステム管理者からの命令に応答して、システ ム100はこれら各種の構成状態の間の遷移を行なう。 システム100の構成状態の遷移は太き(2つの範ちゅう、つまり、ハード遷移 及びソフト遷移に分類できる。ハード遷移はシステム100のある程度の初期化 を必要とし、従って、システム100上で実行されるプロセスに影響を与えるこ となく(トランスバレントに)初期化を行なうことができないような遷移である 。 システムの初期化は故はが発生した場合に通常の処理能力を回復するために行な われる一連の動作である。ハード遷移は、通宝、活動状態のプロセッサにそのプ ロセッサが動作を継続することができず、従って、サービスから外す必要が生じ る程度の故障が発生した場合に起こる。ハード遷移はハード遷移を起こす程では ないがソフト遷移による回復が失敗した場合にその故障の回復をハード遷移によ って試みるような場合にも起こる。第2図において、ハード遷移は状:31から 状!34への遷移、状態2から状態3への遷移あるいは状態3と状!:i4の間 の遷移であり、“ハード スイッチ1と呼ばれる。ハード遷移は、現在の活動状 態のプロセッサ上のシステム動作が停止され、他方のプロセッサに切り替えられ るため“ストツプ アンド スイッチ”とも呼ばれる。 ソフト遷移はシステムの再初期化を必要としない、あるいはシステム100上で 実行されているアブリケーシッン プロセスに影響を与えることなく(トランス バレントに)行なうことが可能な程度の初期化を必要とする遷移である。これら は、通常、ハード遷移を起さない程度のハードウェアの故障の発生、ソフトウェ アの故障の発生、及びシステム100に与えられた外部的に生成された命令の結 果として起こる。このようなソフト遷移には、例えば、状!31と状!32の間 の遷移があるが、これは“ソフト スイッチ”と呼ばれる。もう1つのソフト遷 移、つまり、状!33から状!31への遷移あるいは状態4から状!i32への 遷移は1プロセッサ回復2遷移と呼ばれるが、これは外部的に生成された命令に 応答して、あるいはシステム100の診断及び回復プログラムによるサービスか ら外されたプロセッサが持回プロセッサとして使用でき、現在活動状態のプロセ ッサが故はしたときに活動状態となることができるとの判定に応答して起こる。 そして、状態1から状態3へのソフト遷移、あるいは状態2から状態4へのソフ ト遷移は、“プロセッサ除去“遷移と呼ばれる。これは動作状態のプロセッサの ハード遷移を起こすようなハードウェア障害の発生によっても起こされるが、こ の例ではこのような障害によって影響を受けるようなプロセスが待機プロセッサ によって実行されていないためここではこの遷移は起こらない、プロセッサは手 操作による命令によってもサービスから外すことができる。 システム100は、障害検出及び回復ソフトウェア及びハードウェアに基づいて 、障害が検出された場合、これに応答して自動的に再構成を行なう、システム1 00の障害検出及び回復機構は前述のベル システム テクニカル ジャーナル (BSTU)において説明されているため、詳細に関してはこれを参照すること  ゛を勧めることにし、ここでは、システム100内で本発明が機能する環境を 説明する目的でこれら機構について簡単に説明することにとどめる。 システム100内に含まれる隙害挟出回路及びプログラムは高度なものである。 障害検出ハードウェア及びソフトウェア技法にはローカル マツチング回路、全 てのバスに対するパリティ検査、主記憶装置に対するハミング エラー修正、補 助記憶装置に対する巡回冗長コード、及び制御装置及び周辺装置などに対する各 種のハードウェア及びソフトウェア衛生タイマ等が広く採用されている。これに 加えて、障害検出機構自体の障害を検出するために診断ルーチンが使用される。 また衛生検査ルーチンが周辺サブシステムの0!康状態を確認するために使用さ れる。さらに、システム統合ルーチンによって個々の検出器によっては発見でき ないキャッチ障害がチェックされる。 任意の障害検出器がエラー状態を検出すると、影響を受けたプロセッサ101あ るいは102内に割込みが登録される。最も重大な障害に起因する割込み(よ動 作を自動的に影響を受けないプロセッサに切り替えるハードウェア シーケンス 、つまり、ハード遷移を起こさせる。障害の程度が軽い場合はマイクロコードへ の割込みが発生し、これはソフトウェアにシステムを回復するように命令する。 障害回復プログラムはハードウェア及びソフトウェアの障害検出及び回復を制御 する。ハードウェア障害回復プログラムはハードウェア割込みを受信し、その後 に行なわれる回復手順を制御する。特定のエラーが所定の頻度いき値を越えるこ とが検出されると、システム構成の健康状態への遷移が行なわれる。 ソフトウェア障害回復プログラムはハードウェア障害回復プログラムと非常に類 似する構造を持つ、ソフトウェアの個々の主要単位はそれと関連する障害検出機 構、例えば、防衛チェフク及び監査、エラーいき値等、並びにエラー回復機構、 例えば、障害復帰、データ修正監査、及び再初期化技術等を持つ、これに加えて ミあるプロセスが無限実行ループに入ったり、システム資源、例えば、メツセー ジ バッファを不当に消費したりしないよう、あるいはメツセージの定義される 範囲の外側にアクセスしたり、そのプロセスに許可されてない命令を実行したり しないように、プロセスの実行が正しく行なわれているか監視する0個々のプロ セスは回復を行なうための再初期化及び回復制御を行なう。 回復動作の結果としてシステム100からのハードウェアあるいはソフトウェア が除去されると、診断及び監査プログラムがその除去の原因となったハードウェ ア障害及びソフトウェア障害を分析するために自動的に送られる。 プートストラップ及び初期化ルーチンはマイクロプロセスを初期化し、これによ って通常の処理能力を達成するための制御を行なうマイクロコード及びソフトウ ェア実現動作の基本セットを提供する。システムの初期化は障害状態のような状 況に遭遇した場合に通常の処理動作を回復するために実行されるマイクロコード 化された動作のシーケンスからなる。システムの初期化はソフトウェアないしソ フトウェアの回復機構によって自動的に、あるいは手操作による要求によって開 始される。 初期化シーケンスはそのソースと無関係にプロセッサ内の保守リセット信号と呼 ばれるハードウェア信号内に共通の開始点を持つ、保守リセット信号の受信によ って実行される初期化シーケンスは保守リセットml(MRF)と呼ばれる。保 守リセット信号に起因する割込みはシステム100内の最も優先度の高いマイク ロコード割込みである。MRFは呼び出しがあったプロセッサの初期化を開始す る。 システム100は回復を達成するために段階的な初期化動作に従う、不必要に処 理能力が失われるのを避けるために障害の規模にみあった初期化動作がとられる 。あるレベルの初期化動作において回復を達成できない場合、それが最大レベル に達してないかぎり回復が達成されるまで、初期化動作のレベルが次のレベルに 上げられる。 第1図に再び戻り、メモリ スキームはハードウェア装置と処理システム100 のオペレーティング システムとの協同で動作される。メモリ スキームの該当 する機能は以下の通りである:ケージ サブ−システム159及び169は処理 システム100に対する基本記憶装置である。サブシステム159及び169は 処理システム100内の記憶装置の第3のレベルを提供する。これらは、システ ム100が動作するのに必要なオペレーティングシステム ソフトウェア、基本 アプリケーション プログラム、並びにシステム及びアプリケーション パラメ ータを含む基本プログラム、データ、制御、及びその他の情報を格納する。シス テム100が初めて初期化される場合、例えば、最初にシステムにパワーが投入 されると、サブシステム159及び169のテープ151及び161の内容がシ ステム100のディスク メモリサブシステム139及び149からなる第2の 記憶装置に転送、つまり、コピー及び格納される。これらは動作中、システム1 00によってここからアクセスされる。この転送は手操作ブートストランプと呼 ばれる周知の方法によって行なわれる。 全てのM)ID131−132及び141−142がシステム100によって使 用されるこれら情報を格納するが、ディスクの1つの重複ペアのみ、この例では 、MHD132及び142のみがシステム100の動作に必須の情報を釡む、こ のためMHD132及び142はディスクのシステム必須重複ベアと呼ばれる。 これらが含む情報にはテープ サブシステム159及び169がら転送されるシ ステム清ii!:っまり、オペレーティング システム プロセス、システムの 初期化に必要な情報、診断プログラム、並びにシステム管理者とインタフェース するためのプロセスなどが含まれる。 システム必須重複ベア、MHD 132及び142以外のMHDはシステム10 0のアプリケーションに関、する情報、例えば、アプリケーション プロセス、 システム100の顧客会計情報、並びに幾つかのデータ ベースを含む、これら 情報の多くもテープサブシステム159及び169がらこれらディスクに転送さ れる。 システム100にとって、システムに掛けられたアプリケーションを遂行するの に欠くことのできないアプリケージクン プロセスは必須アプリケーション プ ロセスと呼ばれる。この必須ア・プリケーシッン プロセスを格納するMHD、 つまり、この例では、MHD 131及び141はディスクのアプリケージ目ン 必須重復ベアと呼ばれるディスクの重複ベアを構成する。 必須MHDと非必須MHDの差はシステム100は動作を非必須MHD上に格納 された情報にアクセスするたことなく継続する能力を持つが、必須MHD上に格 納された必須情報にアクセスすることなく継続することはできない点である。 システム動作にとってどのような情報が必須であるかは、シス例えば、全てのプ ロセスのプロセス制御情報ブロック内にそのプロセスが必須であるか否かを指定 する欄を含める。 MHD l 32及び142のシステム必須重複ベアは、テープサブシステム1 59及び169からこれに転送されたシステムプロセスを格納するのに加えて、 これらプロセス及びシステム100内に存在する他のプロセスのイメージを格納 する。このプロセスのイメージはMHD 132及び142のスワツプ スペー スと呼ばれる領域内に格納される。プロセスのイメージはそのプロセスの実行あ るいは実行可能なバージョンである。1つのイメージはそれ自体の関連するデー タ及びその他の情報とともにそのプロセス プログラム コードのコピーを含む 、プロセスのイメージはそのプロセスへの呼に応答して生成され、このイメージ はその実行が完了すると破壊される。プロセス イメージの生成及び破壊はオペ レーティング システムに依存する。プロセス イメージはそれ自体独立したプ ロセスである。従って、プロセスとそのイメージには差異はなく、プロセス イ メージは、通常、単にプロセスと呼ばれる。 システム100によって始めて実行される最初のアプリケージタン プロセスの 1つはa・須アプリケーション プロセスへの呼を行ない、それによってMHD  132及び142のシステム必須1?1ペアのスワップ領域内に必須アプリケ ーション プロセスのイメージを生成するプロセスである。システム100はこ うして、MHD 132及び142を通じて必須アプリケージタン プロセスへ のアクセスを行なう、この結果、システム100はMHD131及び141のア プリケーション必須重複ペアに7クセスすることなく所期のアプリケージ3ンを 遂行することができる。 MHD132及び142は、従って、システム100の動作に本当に必須の唯一 のディスクであり、従って、ディスク メモリサブシステム139及び149の 以降の説明はMHD132及び142について集中的に述べる。 MAS I L 4及び124はシステム100の主記憶装置を構成する。MA S114及び124の記憶容量はディスク メモリサブシステム139及び14 9の記憶容量と比較して小さい。 MAS 114及び124は、従って、ある任意の時間において、ディスク メ モリ サブシステム139及び149の内容の一部のみを含む、ある情報がCP U112あるいは124、あるいはその他のシステム100の装置によって必要 となったときにその情報のブロックがディスク メモリ サブシステム139及 び149からMAS11’4及び124に転送、あるいはスワップされる0例え ば、プロセスあるいはその一部がこれを実行するためにMAS114及び124 ゛内にスワップされる。 MAS 114あるいは124内にスワップされる情報のための領域を確保する ためにMAS l l 4及び124内に駐在し現在使用されてない他の情報の ブロックはMAS114及び124がらディスク メモリ サブシステム139 及び149にスワップアウトされる。より風体的には、MAS1’14及び12 4からスワップ アウトされたプロセスはMHD132&び142のスワップ領 域内に格納される。MAS114及び124内への、あるいはこれから外への情 報のスワップ動作はメモリ マネージャと呼ばれるオペレーティング システム の部分によって制御される。 このプロセスは当技術において周知である。 プロセッサ101及び102とディスク メモリ サブシステム139及び14 9の間の情報の伝送はディスク ドライバと呼ばれるオペレーティング システ ム プロセスによって始動及び管理される。ディスク ドライバは要求に応答− でディスク メモリ サブシステム139及び149からの情報の検索及びこれ への情報の格納を行なう。 ディスク ドライバは情報の伝送を遂行する装置を選択し、必要なりMACに情 報の伝送を遂行するように命令し、そして要求された伝送を遂行する選択された DMAC&び周辺装置からの応答信号あるいはエラー報告などのメツセージに応 答する。ディスク ドライバは伝送を正常に完了させるか、あるいはその伝送が 完結されない理由をオペレーティング システムに通知する任務を持つ、ディス ク ドライバも当技術において周知である。 もう1つのプロセス マネージャと呼ばれるオペレーティングシステム プロセ スはシステム100内のプロセスの生成、破壊及び追跡を行なう、プロセス マ ネージャも同様に当技術において周知である。プロセス マネージャは第3図に 示されるディスバッチャ制御テーブル(DCT)300の助けを得てプロセスの 追跡を行なう。 DCT300はMASIL4及び124内に駐在する。これはシステム100内 に存在する個々のプロセスに対する項目301を含む、プロセス マネージャは それが新たなプロセスを生成したときDCT300に項目を加える。プロセス  マネージャはそれがプロセスを破壊したときDCT300からそのプロセスの項 目を削除する0個々のプロセス項目はオペレーティング システムによってその プロセスを正しく管理するのに必要とされるそのプロセスに関する情報を含む、 この情報は複数の欄の中に格納される識別子(ID)F!1302はそのプロセ スを同定する。状!3欄303は、例えば、そのプロセスがMAS 114及び 124に駐在するか否か、あるいはそれが中断されているか、つまり、MHD1 32及び142上にスワップ アウトされているか否かなどを示す、タイプ掴3 04はそのプロセスが必須として指定さロセス マネージャによって、例えば、 そのプロセスのプロセス制御ブロックから得られる。ロック305はそのプロセ スが主メモリからスワップ アウトできるか否かを示す、DCT300内には、 第3図に示されていないその他の欄を含めることもできる。 B、之五之人飲詐 ここに説明されるシステム100は、MHD123及び142の両方のシステム 必須重複ペアへのアクセスが失われた後でも、能力は落ちるが、動作を継続する ことが可能である。MHD132及び142のシステム必須ペアのMHDの片方 あるいは両方が失われたときシステム100がいかに対処するかまず第4図を参 照して説明する。第4図にはシステム100が経過する動作のモード、及びシス テム100がシステム必須ディスクが失われたとき最大限の初期化能力を保持す るために試みるこれらモードにおける動作が示される。 システム100は、ブロック400にて示される二重モードの動作から開始する ものと仮定するが、ブロック400の状態においては、必須MHD 132及び 142の重複ペアの両方ともがプロセッサ101及び102の活動状態の方のプ ロセッサによってアクセスすることが可能である。二重モードの動作は通常の勤 咋のモードであるが、ただし、これは第2図の構成状j31 + 4のいずれに も対応する。プロセッサ101が活動状態のプロセッサであるものと仮定すると (第2図の状!31あるいは3)、情報の伝送が必要に応じてサブシステム13 9及び149とMAS l 14の間で起こる。非活動状態のプロセッサ102 が待機状態にある −とく第2図の状態1)、MAS114と124の内容が一 致することを維持するためにMAS 124がMAStJ115及び125によ ってMAS114と同一の情報にて更新される。プロセッサ102がサービスか ら外されているときは(第2図の状態3)、MAS 124は更新を中断する。 第4図のブロック400の二重モードにおいては、ディスクドライバはメモリ  マネージャの要求、つまり、ディスク格納情報をその情報がM)(Dの重複ペア 内に格納されているときは交互にサブシステム139及びサブシステム149か ら、そしてその情報が非重複MH’D内に格納されているときはサブシステム1 39あるいは149の該当する方から検索しこれを主メモリ内に伝送することに 対する要求に満足に答える。13jMHDからの情報の検索の場合はサブシステ ム139及び149の両方を交互に動作させることによって、ディスク ドライ バはサブシステム139及び149の両方が継続されて正しく動作されているか 否かの最新情報を得る。ディスク ドライバはメモリ マネージャによって指定 される情報をMAS l 14からスワップ アウトし、サブシステム139及 び149の両方のスワップ領域に格納する。 ディスク ドライバはこうして、MHD132及び142の両方の情報内容を同 一とどめる。 プロセッサ101はMHDへのアクセスに関与する機能装置の連鎖に影響を与え るような幾つかの状態が発生することによってMHDへのアクセスを失なう場合 がある0例えば、MHD自体が障害を起こす場合もあり、あるいは制御DFCが 障害を起こすこともある。さらに、ディスク メモリ サブシステムをプロセッ サに接続するチャネルが障害を起こす場合もあり、またアクセスを行なっている D M A Cが障害を起こす場合も考えられる。アクセスの失敗には完全な失 敗もあり、単にエラー率が許容範囲を越えて異常に高いという場合もある。アク セスはさらに装置のパワーが切られる、あるいはシステム100から切断される ことによりでも失われる。 アクセスの失敗の発生について通知する。ディスク ドライバは示される障害の タイプによってその障害が単に過渡的なものであるか否かを判定するためにアク セスを再試行する。所望のMHDつ部分にこのことを通知する。非−システム必 須MHDである場合は、オペレーティング システムの構成プロセスが障害によ る影響を受けた装置あるいは装置群をサービスから外す。 第5図にシステム必須MHDをサービスから外すときにとられるステップが図式 的に示される。ブロック500において、ディスク ドライバによってシステム 必須MHDへのアクセスが失敗したことを通知されると、構成プロセスは、ブロ ック501に示されるごとく、これが二重モードからの遷移であることを確認す るためにシステム必須MHD132及び142の重複ペアの他方がサービスから 外されているか否かを判定する。これをf!認した後においてはじめて、構成プ ロセスは、ブロック502によって示されるごと<、障害による影響を受けた装 置あるいは装置群をサービスから外す、サービスから外されたMHDはMAS  114及び124からスワップ アウトされる情報によって更新されることを中 断される。 ブロック502において示されるごとく、装置をサービスから外す動作は、シス テムの装置構成データ ベース(ECD)内に該当する標識をセントすることに よって達成される0名前によって示されるごとく、ECD (図示なし)はシス テム100の構成、し、その装置をいかに構成し、装置間にどのような通信及び 信号法手続きを使用するを定義する主メモリ駐在データ ベースである。 非−重複MIDがサービスから外された場合は、MHDが失われたことは単にE CD内においてのみ確認され、システム100は動作を継続し、単にMIDから の情報をめるプロセスに対してMHDがアクセスできない旨を通知する。そして 、非−システム必須重複MHD、例えば、M)(D 131がサービスから外さ れた場合は、ディスク ドライバはこれ代わりに重複ペアの他方のMHD 14 1にアクセスするように命令を行ない、システムの動作は変化なくm続される。 つまり、第4図のブロック40Gの二重モードにて動作が1!続される。しかし 、システム必須MHD。 例えば、MHD132がこれをプロセッサ101に連結する他の装置の1つがサ ービスから外された結果としてサービスから外され場合は状況が異なる。つまり 、システム必須ディスク、例えば、MHD 132へのアクセスが失われると、 システム100は第4図においてブロック401にて示されるシンプレフクス  モードの動作に移る。 システム100が二重モードからブロック401のシンプレ7事態の通知を受け る。プロセス マネージャも同様にこの事態の通知を受けるが、プロセス マネ ージャのその後の動作が第5図のブロック503−505に示される。ブロック 503に示されるごとく、プロセス マネージャはこの通知に応答してDCT3 00 (第3図参照)を検索し、タイプfii304によってそれらが必須プロ セスであることが示される全てのプロセスを調べる。 プロセス マネージャは全てのメモリ駐在必須プロセスのロックMAS I L  4からスワップ アウトされるのを防止し、こうして、ブロック504によっ て示されるようにこれらプロセスをM A 5114内にロックする。必須プロ セスの状F3303がそのプロセスが現在MAS114に駐在しておらず、ディ スク上にスワツプアウトされていることを示すときは、プロセス マネージャは 、ブロック505によって示されるごとく、そのプロセスがMAS114内に戻 されこれに格納されることを要求する。この要求に応答して、ディスク ドライ バは他方のシステム必須MHD、この例ではMHD142を通常の方法でアクセ スできるように゛し、変更し、ブロック505にて示されるように、このプロセ スをMAS114内にロックする。システム100は、その後、第4図のシンプ レックス モードにて、第5図のブロック506によって示されるとと(、他方 のM)ID142を使用して通常の動作を継続する。これは、システム必須MH D 132&び142の両方へのアクセスが失われた場合でも、必須プロセスが システム100にアクセス可能であることを確保する。 システム保守要員がプロセッサ101がシステム必須MHD132へのアクセス を不可能にした原因を取り除き、MHD132へのアクセス能力を回復すると、 システム管理者はシステ ′ム100にディスク回復命令を与える。活動状態の プロセッサ、この例では、プロセッサ101は、この命令を学信し、これに第6 図に示されるように応答する。より詳細には、回復の検出がディスク ドライバ に通知され、ディスク ドライバはこの命令に応答して、ブロック600−60 1によって示されるようにMHD132へのアクセスが本当に回復されたか検証 する目的でテストを行なう、テスト アクセスが失敗した場合は、システム管理 者に対してシンブレックス状態が$1!HEされる旨のメツセージを発行する。 テスト アクセスが成功したときは、ディスク ドライバはMHD142からM HD132をリポビュレーションし、新たにアクセス可能になったMHD132 の内容を使用できる状態に回復する。ブロック602によって示されるごとく、 このリポビュレーションは、動作状態でアクセス可能な状態にとどまるMHD1 42の内容をMHD l 42からMAS 114、そしてこれからMHD l  32への情報のDMA転送を介して回復されたMHD132にコピーすること によって達成される。ディスクのりポピユレーションはMHD142と〜fHD 132が再度互いに一致する内容となり、また両方がMAS114及び124の 内容と一致する内容を持つことを確保する。MHD132はこうして。 完全に動作できる状態に回復され、ディスク ドライバはオペレーティング シ ステムの他の部分にこのことを通知する。 両方のディスクへのアクセスが回復されたことを通知されると、構成プロセスは 、ブロック603に示されるごとく、ECD内の該当する標品をMHD132を サービス中であるとマークするために変更する。そして、プロセス マネージャ は、ブロック604に示されるごとく、DCT300にアクセスし、a・須プロ セスのロック欄305を1アンロンク”状態にセントし、こうして、MAS L  14からのプロセスのスワップを可能にする。システム100は次に、第4図 のブロック400において再び二重モードに入り、そして、第6図のブロック6 05に示されるごとく、通常の動作を継続する。 プロセッサ101がMHDの非−システム必須重複ベアの両方のMHDへのアク セスを失った場合は、システム100は回復動作、例えば、MHDベアの少なく とも1つへのアクセスを回復することを目上してシステムの)活動をプロセン、 す101がらプロセッサ102に切り替えるなどの動作を行なう、これらMHD の少な(とも1つへのアクセスを回復することに失敗した場合は、システム10 0は動作をHTiHし、単にアクセス不能のMHDからの情報を要求するプロセ スに対してこれらMHDがアクセスできないことを通知する。これらディスクが アプリケージシン必須MHD 131及び141である場合は、システムはさら に、ブートストラップを試みてもこれはシステムに無忘味な回復の企てを反復し て送る結果となるため、自動ブートストラップが始動されることを阻止する。し かし、これらが必須ディスク132及び142である場合は、システムIQQは 第4図のブロック401のシンプレックス モードにとどまる。 システム100がシンプレックス モードにある間にプロセッサ101による他 のシステム必須MHD 142へのアクセスも失敗する場合もある。このような 二重のディスク障害が発生すると、プロセンサ101はシステム必須MHD13 2及び142の両方へのアクセスを失う、アクセスが失われたことを検出すると 、ディスク ドライバはその失敗が単に過渡的な状態であるか否かを判定するた めにMHD142へのアクセスを再度法みる。MHD142が本当にアクセスで きないことをi認すると、ディスクドライバは再びオペレーティング システム の構成プロセスにこの状況を通知する。 fI構成プロセスMHD 142をサ ービスから外すことができるか否かを判定する。システム必須MHD 132及 び142の二重障害が発生しているため、代替MHD 132もアクセス不能で あり、構成プロセスはM)ID142をサービスから外すことができないと判定 する。この結果システム100はディスク リング モードに入るが、これは、 システム100の動作がシステム必須ディスクの重複ベアのいずれにもアクセス せずに“リンブ状態に1力)れること力)らりンプ モードと呼ばれる。 ただし、システム100は、この状態でも演算能力は低下するが動作を継続でき る。 システム100がディスク リン1 モードに入っている間に、構成プロセスは システム100がシステム必須MHD 132及び142の少なくとも1つへの アクセスを百度回復できるようシステム100の再構成を試みる。ti構成プロ セス、第4図のプロ7り402に示されるように、最初にソフト スイッチを要 求する。 ソフト スイッチは活動状態のプロセッサ101から待機プロセンサ102にア プリケーション プロセス及び進行中の入/出力妙作に影響を与えないように( トランスバレントに)処理動作を移す、第7図にソフト スイッチ プロセスの 論理図が示される。 れるごとく、システム100の構成が活動−待機状態にあるが否かを判定するた めにMAS114内のECDにアクセスする。この状態にない場合は、MAS1 24は必ずしもMAS 114と一致するように更新されていない、従って、ソ フト スイッチは遂行することができず、ソフト スイッチ プロセスは、ブロ ック702に示されるように構成プロセスに対してエラー メツセージを発行す る。一方、システム100の構成が活動−待機構成であるときは、ソフト スイ ッチ プロセスは、プロ7り703に704に示されるように、活動状態のプロ セッサ101の状態レジスタにアクセスして、その内部プロセッサの状態を判定 する。 活動プロセッサ101の内部プロセッサの状態を判定したら、保守チャネル10 4を使用して、ブロック705に示されるように、他方のプロセッサ102をそ の内部プロセッサの状態にセントする。活動プロセッサ101は、次に、ブロッ ク706に示されるように、保守チャネルに対して他方のプロセッサ102を始 動するように命令する。他方のプロセッサ102が前に活動状態にあったプロセ ッサ101が停止した点からシステムの通常の処理動作を変って遂行し、プロセ ッサ101は、ブロック707に示されるように、停止し、待機状態に入る。 ソフト スイッチがプロセッサ102をプロセンサ1o1と同一の内部伏憇にす るため、プロセッサ102はプロセッサ101が失敗したのと同一のディスク  アクセスを試みる。これはプロセッサ102は、プロセッサ101によって使用 されたのとは異なるチャネル及び異なるDMACを通じて同一のMHD、この例 では、MHD142にアクセスすることを意味する。このアクセスが成功した場 合は、これはソフト スイッチが他のプロセッサ101のアクセスを失敗させる 原因となったエラーを除去することに成功したことを意味する。従って、システ ム100は第4図のブロック401のシンプレックス モードの動作をとる。こ のモードにおいて、プロセッサ102はMHD142を使用してシステムの通常 の処理動作を継続する。 第4図において、ソフト スイッチがプロセフす101によるMHD142への アクセスを失敗させる原因となったエラーを除去することに成功しなかったとき は、プロセッサ102によって同一のアクセスが試みられた場合、これも失敗す る。この失敗に応答して、ディスク ドライバは他方の必須MHD132及び関 連するDFCL 35がアクセスの可能性も含めて使用できるか否かをチェック する。サービスから外されているとマークされている場合でも、これらがアクセ ス可能であり、電源が切られてない限り、これらが障害を持たない場合、あるい はこれらの少なくとも片方の回復が行なわれ、これが成功している場合は、使用 可能であるとみなされる。 MHD132及びDFCL35が使用可能でないと判定された場合は、構成プロ セスがその旨の通知を受け、構成プロセスはこの通知に応答して、システム10 0がブロック405のフル ディスク リング モードの動作にあることを示す 標識をECD内にセントする。 M)(D 132及びDFC,135が使用可能であると判定された場合は、シ ステム100はMHD132を使用して動作できる。 しかし、MHD132はサービスから外されているとマークされているため、こ れはMAS 114及び124からのM)ID142と同一の情報によって更新 されていないことがわかる。従って、MHD132を使用する前にMAS124 の内容をMHD 132の内容と一致させることが必要である。これを達成する には、ブロック403に示されるように、MAS 124をMHD 132から 自動プートする。この自動ブートストラップはMAS 124内に格納されるプ ロセスのバージロンをMHD 132内に存在するプロセスのコピーと置換する ことからなる。しかし、プロセスのEDC及び堡謹アプリケーション セグメン ト(PAS)はMAS 124内に保管される。PASはプロセスに割り当てら れたメモリのセグメントであり、通常、プロセスはこの中にそのプロセスの回復 に欠くことのできない情報を保管する。 自動ブートストラップに続いて、システム100は、ブロック401のシンプレ ックス モードの動作をとる。このモードにおいて、プロセフ+102はMl( D l 32を使用して通常のシステム処理動作を継続する。システム100は このシンプレックスモードから、第6図との関連で前述した方法にてプロ、り4 00の二重モードに復帰することが可能である。 一方、ソフト スイッチが成功しなかった場合は、最初にMHD 132及びD FC135が使用可能であるかをチェックする代わりに、システム100は後述 するフル ディスク リングモードに直接に入る。 上述したごとく、ソフト スイッチはシステム100が活動−待機構成にあると きにのみ可能であり、システム100が他の構成にあるときは、ソフト スイッ チ プロセスに呼を送ると、構成プロセスにエラー メソセージが返信さ−れる 。ディスク ドライバはエラーの通知を受けると、上述の方法にて、他方のシス テム必須MHD132及びDFC135が使用可能であるかチェックする。MH D132及びその1)FC135が使用可能であると判定された場合は、システ ム100はMHD132を使用して動作できる。しかし、上述の理由によって、 ブロック403によって示されるように、MAS114をM)II)132から 自動的にブートすることが必要である。この自動ブートストラップの後、システ ム100はブロック401のシンプレ7クス動作に戻る。このモードにおいて、 プロセッサ101はMHD132を使用して通常のシステム処理動作を継続する 。ここでも、システム100は、第6図と関連して前述した方法に従ってシンプ レ7クス モードから二重モードに復帰することができる。 一方、ソフト スイッチが許されない場合は、システム100は、最初にMHD  132及びDFC135が使用可能であるかチェックする代わりに、後述する 暫定ディスク リング モードに入る。 ソフト スイッチが許されず、またMHD 132及びDFC135がチェック された結果、使用できないと判定された場合は、システム100は、暫定ディス ク リンズ モードの動作に入る。 ディスク リング モードの場合と同様に、暫定ディスク リング モードにお いて、システム100はそれ自体をシステム必須MHD132及び142の少な くとも片方へのアクセスを回復できるように再構成する。暫定ディスク リング  モードにおいては、システム100の構成は′82図の活動700S状態とな る。 これ以外の場合は、第4図のブロック402において、ソフトスイッチが許され る。従って、システム動作をプロセッサ101からプロセッサ102に移すため に、システム構成プロセスは請求する。このハード スイッチはシステム100 を第2図の活動/○O8状態の構成からoO8/活動状態の構成にする。第8図 にハード スイッチ プロセスが論理図にて示される。 第8図のブロック800において、ハード スイッチ命令を受信すると、ハード  スイッチ プロセスはMAS 114内のECDにアクセスすることによって 、ブロック801によって示されるごとく、プロセ、す102が失敗したとマー クされているか否かを判定する。失敗したとマークされている場合は、処理動作 をプロセッサ102に切り替えすることはできず、ハード スイッチ プロセス はブロック802に示されるように構成プロセスにエラー メツセージを発行す る。構成プロセスはこれに応答・して、ECD内にシステム1(IQがプロ7り 405のフル ディスク リンズ モードの動作であることを示すIa識をセッ トする。 しかし、プロセフす102が失敗したとマークされていない場合は、ハード ス イッチ プロセスは保守チャネル104に、ブロック803に示されるように、 他方のプロセッサ102上にMRFを呼び出す、ハード スイッチ プロセッサ は、次にブロック804において示されるように、活動状態のプロセッサ101 を(亭止する。 プロセッサ102によって保守リセット信号が受信されると、ブロック805に おいて、M RFシーケンスがプロセッサ102上で実行を開始される。MRF シーケンスは、ブロック806に示されるごとく、呼び出されたプロセッサ10 2を初期化する。 MRFシーケンスも、プロ7り807に示されるように、プロセスが実行される 前に該当する標tΔをセットするなどして全てのプロセスを初期化する。MRF シーケンスの実行の頂点として、ブロック808に示されるようにMRFが呼び 出されたプロセッサ102によるプロセスの実行が開始される。現在活動状態の プロセッサ102上で実行されることにより、ハード スイッチ プロセスはM AS 124のECDに入り、ブロック809に示されるごとく、ここに現在の システム構成、つまり、現在非活動状態のプロセッサ101をサービスから外さ れたものとしてマークする情報を格納する。現在活動状態のプロセッサ120は 次に、プ続し、プロセスの実行を初期化によって示される点から再開する。 通常のシステム処理動作が再開されると、プロセッサIQ2はシステム必須ディ スク アクセスを企てる結果となる。MHD132はまだECD内でサービスか ら外されているとマークされているため、ディスク アクセスはここでもMHD 142に向けて行なわれる。ただし、これはプロセッサ101によって使用され たのとは異なるチャネルを通して、また異なるD M A Cを使用して行なわ れる。アクセスが成功した場合は、これはハード スイッチが他方のプロセッサ 101によるアクセスを失敗させる原因となったエラーを除去することに成功し たことを示す、システム100は、従って、141iUのブロック401のシン プレックスモードの動作を再開する。このモードにおいて、プロセッサ102は MHD142を使用して通常のシステム処理動作を継続する。 ハード スイッチがプロセッサ101によるMHD 142へのアクセスを失敗 させる原因とtったエラーを除去できなかったときは、プロセッサ102による MHD142へのアクセスの試みも失敗に終わる。構成プロセスはこの失敗を通 知されると、これに応答してEDC内にシステム100が第4図のブロック40 5前述したごとく、システム100は、ソフト スイッチあるいはハード スイ ッチがシステム必須MHDへのアクセスを回復することに失敗した場合、あるい はソフト スイッチあるいはハード スイッチが許されない場合にフル ディス ク リン1 モードの動作に入る。−万、システム100は重複システム必須デ ィスクは書が発生した場合は、必ずしもディスク リン1 モード及び暫定ディ スク リン1 モードを経ることなく、ブロック401のシンプレックス モー ドから直接にフル ディスク リン1 モードに入る。 フル ディスク リンズ モードにおいては、プロセッサ101あるいは102 からシンブレ7クス必須MHD 132あるいは142にアクセスすることは不 可能、゛あるいは許されない。 通常のシステム動作を回復するには黛害の発生した装置を修理し、手操作による ブートストラップを行なうことが必要である。しかし、システム100は、減速 されたレベルの演算能力で動作を継続する。 第9図にシステム100によってフル ディスク リンズ モードに遷移される ステップが論理的に図示される。前述したごとく、プロ、り900において、フ ル ディスク リン1 モードに入ったことを通知されると、構成プロセスは、 ブロック901に示されるように、EC,D内にフル ディスク リンズ モー ド1mをセットする。これに応答して、ブロック902に示されるように、シス テふ管理者がフル ディスク リンズ モードに入ったことを通知される。同様 に、ブロック903に示されるようンプ モードに入っていることを通知されて おり、このようなメプロセス マネージャ及びディスク ドライバもフル ディ スプロセスを終結、つまり破壊する。プロセッサ101あるいはブロック90a に示されるように、そのプロセスがシステム必須ディスク アクセス要求し、失 敗することを防止するために、シ通知する。 装置修理モードの動作に入る。このモードにおいては、システム100はブロッ ク405のフル ディスク リン1 モードにて動作するが、これに加えて、シ ステム サービス要員はシステム100を呼び出して、必須プロセスの中に含ま れるユティリティプロセスを実行して、どのシステム装置が障害を起こしたかの 判定、障害の性格の判定、及び修理の効果のチェックを行なうことも片方へのア クセスが可能になると、システムの回復が開始される。システム100に手操作 によるブート命令が与えられ、システム100が第り図のブロック407のディ スク回復モードに入れられる。第10図にディスク 回復モードにおけるシステ ムの動作が図示される。主メモリ内の非必須プロセスが破壊されており、処理が システム必須MHD 132および142の更新を行なうことな(継続されたた め、主メモリの内容とシステム必須ディスクの内容は互いに一致しない、従って 、ディスク回復モードにおいては、システム100はテープ サブシステム15 9あるいは169から再初期化を行なうことが必要である。テープ サブム必須 ディスク及び主メモリにロードすることが必要である。システム管理者によって 手操作ブート命令の一部として、システム定される。この命令に対する応答の一 部として、ブロック100れ、回復されたMHD132にテープ151からの情 報のコピーが再ロードされ、こうして、MHD 132が再初期化される0次に 、ブロック1003によって示されるごとく、MAS 114及び124が新た に初期化されたMHD 132からブートストラップされる。全ての情報の新た なコピーがMHD132から主メモリにスワップされる。MAS114及び12 4内のECD及びPASは保管されない0MAS114及び124のブートスト ランプの一部として、ECD内のフル ディスク リン1 モードであることを 示す標1へが解除される。これは応答して、システムは第4図のブロック401 のシンブレ7クス モードの動作をとる0回復されたMHD132が、第10図 のブロック1004によって示されるごとく、ECD内においてサービス中であ るとマークされる。システムは次に、ブロック1005によって示されるごと( 、シンプレックス モードにて処理動作を継続する。このモードから第6図と関 連して既に説明の方法に従ってブロック400全二重モードに入る。 各々のセットを前述の方法にてシステムに処理されることもできる。また、補助 メモリ サブシステムは必ずしもディスク サブシステムである必要はなく、他 のメモリ サブシステム例えば、ドラム或はテープを使用して実現することもで きる。同様に個々の複製された必須補助記憶装置は必ずしも専用チャネル、つま り専用DMACを介してプロセッサに接続する必要はなく、これら記t!!装置 O共通のDMACにて接続することも可能である。さらに1本発明を具現する処 理システムは必ずしもシュアル処理システムである必要はなく、単一プロセッサ 或は多重プロセッサ システムであってもよい、また1本発明を具現する処理シ ステム内の個々のプロセッサは必ずしも専用の主記憶装置を持つ必要はなく、プ ロセッサに単一の主記憶装置を共用させることもできる。 これら変更及び修正は本発明の精神及び範囲から逸脱することなく、又、本発明 によって得られる利益を軽減することなく実現できるものである。従って、これ ら変更及び修正も以下の請求の範囲に網羅されるものと解釈されるべきである。 If(F、 2 ソ7トスイ−7す 乙に4 んτ5 Fl6. (p FI6:7 Flに、e!! んで夕 Fl6. j0 国際調−F餠失 、^コCトロ=:(:口?−Lr)「:==;(21λ:=S;−二S=メース :3i’LE?c:(TO?1τ5龜 加ropaan ?IL:anE C− fica is ir+ =o h&7 ’−二ムbL@ !Or t5as* particulars yhic?、 arm e*:*Ly givan  ?口r Q* p*qo*a o!Ln?ormaセior、。

Claims (9)

    【特許請求の範囲】
  1. 1.各々が処理システムによって使用される指定の情報を含む情報の複製を格納 するための複数の補助記憶装置、該情報の選択された部分を格納するための主記 憶装置、及び該情報の部分を該主記憶装置と該補助記憶装置の間で伝送するため の装置を含む処理システムにおける。 該主記憶装置と該複数の補助記憶装置の間の該情報の伝送に障害が発生した場合 に少なくとも幾つかのシステム処理能力が失われるのを保護する方法であって、 該方法が:該主記憶装置と少なくとも1つを除く該複数の補助記憶装置との間の 該情報の伝送機能に障害が発生したことを検出するステップ; 該検出に応答して指定の全ての情報を該主記世装置に格約するステップ;及び 該指定の情報が該主記憶装置から伝送されるのを停止するステップを含む; これによって該主記憶装置と該複数の補助記憶装置の間の情報の伝送機能に障害 が発生したときに該指定された情報が該処理システムによって使用できるように 該主記憶装置内にとどまることが確保されることを特徴とする方法。
  2. 2.請求の範囲第1項に記載の方法において、該指定の全ての情報を該主記憶装 置に格納する該ステップが:該主記憶装置に格約されていない指定の情報を該少 なくとも1つの補助記憶装置から該主記憶装置に伝送するステップを含むことを 特徴とする方法。
  3. 3.請求の範囲第1項に記載の方法において、更に故主記憶装置と該少なくとも 2個の補助記憶装置との間の情報伝送機能が回復されたことを検出するステップ ;及び該検出に応答して該指定の情報を該主記憶装置から伝送できるようにする ステップが含まれることを特徴とする方法。
  4. 4.請求の範囲第1項に記載の方法において、更に該主記憶装置と全ての該補助 記憶装置の間の情報伝送機能が失われたことを検出するステップ;及び 該検出に応答してシステムの動作を指定された情報の使用だけに制限するステッ プが含まれることを特徴とする方法。
  5. 5.請求の範囲第4項に記載の方法において、更に該主記憶装置と少なくとも1 つの補助記憶装置の間の情報伝送機能が回復されたことを検出するステップ;及 び該検出に応答してシステム動作の制限を解除し、一方、該指定の情報が該主記 憶装置から伝送されるのを防止するステップが含まれることを特徴とする方法。
  6. 6.請求の範囲第5項に記載の方法において、更に故主記憶装置と少なくとも2 つの該補助記憶装置の間の情報伝送機能が回復されたことを検出するステップ; 及び該検出に応答して該指定の情報を該主記憶装置から伝送でさるようにするス テップが含まれることを特徴とする方法。
  7. 7.ディスク記憶装置へのアクセスの喪失に耐えられる処理システムにおいて、 該システムが: 各々が該処理システムによって使用されるシステム動作に必須であると指定され るプロセスを含むプロセスを格約するのに使用される1対のディスク記憶装置; 選択されたプロセスを格納するのに使用される主記憶装置;該主記憶装置と該デ ィスク記憶装置の間でプロセスを伝送するための伝送装置; 該伝送装置と協力して該主記憶装置とディスク記憶装置の間のプロセスの伝送機 能の喪失を検出するための装置;選択されたプロセスをそれらが該主記憶装置か ら伝送されないように該主記憶装置内にロックするための装置;及び該伝送機能 喪失検出装置に応等して、該主記世装置と1つの該ディスク記憶装置との間のプ ロセス伝送機能の喪失が検出されたとき、該伝送装置に該主記憶装置に格納され ていない指定プロセスを該主記憶装置内に伝送させ、また該ロック装置に指定プ ロセスを該主記憶装置内にロックさせる制御装置を含み、これによって該主記世 装置畳と該両方のディスク記憶装置との間のプロセス伝送機能が喪失されたとき でも該指定プロセスが故主記憶装置内にとどめられ該処理システムが処理を継続 できるようにされることを特徴とする処理システム。
  8. 8.請求の範囲第7項に記載の処理システムにおいて、更に該主記憶装置と1つ のディスク記憶装置との間のプロセス伝送機能が回復されたことを検出するため の装置が含まれ;そして該制御装置がさらに該伝送機能回復検出装置に応答して 、該主記憶装置と該両方のディスク記憶装置との間のプロセス伝送機能の回復が 検出されたとさ、ロック装置に該主記憶装置内の該指定プロセスが該主記憶装置 から伝送できるようにロックを解除させる制御装置を含むことを特徴とする処理 システム。
  9. 9.請求の範囲第8項に記載の処理システムにおいて、更に該制御装置が該回復 検出装置に応答して、該主記憶装置と該両方のディスク記憶装置との間のプロセ ス伝送機能の回復が検出されたとき、該伝送装置に該ディスク記憶装置の片方に 格納された該プロセスを該ディスク記憶装置の他方にコピーさせる装置を含むこ とを特徴とする処理システム。
JP59503933A 1983-12-27 1984-10-18 補助記憶装置へのアクセス喪失に耐える処理システム Granted JPS61500875A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US566021 1983-12-27
US06/566,021 US4608688A (en) 1983-12-27 1983-12-27 Processing system tolerant of loss of access to secondary storage

Publications (2)

Publication Number Publication Date
JPS61500875A true JPS61500875A (ja) 1986-05-01
JPH0420493B2 JPH0420493B2 (ja) 1992-04-03

Family

ID=24261125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59503933A Granted JPS61500875A (ja) 1983-12-27 1984-10-18 補助記憶装置へのアクセス喪失に耐える処理システム

Country Status (7)

Country Link
US (1) US4608688A (ja)
EP (1) EP0167540B1 (ja)
JP (1) JPS61500875A (ja)
KR (1) KR920003497B1 (ja)
CA (1) CA1274913A (ja)
DE (1) DE3477282D1 (ja)
WO (1) WO1985002926A1 (ja)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4916605A (en) * 1984-03-27 1990-04-10 International Business Machines Corporation Fast write operations
CA1239227A (en) * 1984-10-17 1988-07-12 Randy D. Pfeifer Method of and arrangement for ordering of multiprocessor operations in a multiprocessor system
JPS61125665A (ja) * 1984-11-19 1986-06-13 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 直列データ・リンクと入出力端末装置をインターフェースするアダプタ
US5251299A (en) * 1985-12-28 1993-10-05 Fujitsu Limited System for switching between processors in a multiprocessor system
USRE34100E (en) * 1987-01-12 1992-10-13 Seagate Technology, Inc. Data error correction system
US5341482A (en) * 1987-03-20 1994-08-23 Digital Equipment Corporation Method for synchronization of arithmetic exceptions in central processing units having pipelined execution units simultaneously executing instructions
US4959777A (en) * 1987-07-27 1990-09-25 Motorola Computer X Write-shared cache circuit for multiprocessor system
US5051887A (en) * 1987-08-25 1991-09-24 International Business Machines Corporation Maintaining duplex-paired storage devices during gap processing using of a dual copy function
US4870643A (en) * 1987-11-06 1989-09-26 Micropolis Corporation Parallel drive array storage system
JPH0769882B2 (ja) * 1988-05-11 1995-07-31 富士通株式会社 クロスコール機能を有する入出力制御システム及びそのシステムにおける動的構成変更方法
JPH0264834A (ja) * 1988-08-31 1990-03-05 Midori Denshi Kk 小型コンピュータシステムにおけるデータ転送装置
US4965717A (en) * 1988-12-09 1990-10-23 Tandem Computers Incorporated Multiple processor system having shared memory with private-write capability
US5089958A (en) * 1989-01-23 1992-02-18 Vortex Systems, Inc. Fault tolerant computer backup system
DE69031443T2 (de) * 1989-06-30 1998-04-23 Digital Equipment Corp Verfahren und Anordnung zur Steuerung von Schattenspeichern
US5247618A (en) * 1989-06-30 1993-09-21 Digital Equipment Corporation Transferring data in a digital data processing system
US5239637A (en) * 1989-06-30 1993-08-24 Digital Equipment Corporation Digital data management system for maintaining consistency of data in a shadow set
DE69029289T2 (de) * 1989-06-30 1997-06-26 Digital Equipment Corp Verfahren und Anordnung zur Steuerung von Schattenspeichern
US5210865A (en) * 1989-06-30 1993-05-11 Digital Equipment Corporation Transferring data between storage media while maintaining host processor access for I/O operations
US5295258A (en) * 1989-12-22 1994-03-15 Tandem Computers Incorporated Fault-tolerant computer system with online recovery and reintegration of redundant components
US5185884A (en) * 1990-01-24 1993-02-09 International Business Machines Corporation Computer controlled optimized pairing of disk units
JPH0540682A (ja) * 1990-06-08 1993-02-19 Internatl Business Mach Corp <Ibm> アトミシテイを有する記憶装置の高可用性耐故障再配置
US5155845A (en) * 1990-06-15 1992-10-13 Storage Technology Corporation Data storage system for providing redundant copies of data on different disk drives
US5220569A (en) * 1990-07-09 1993-06-15 Seagate Technology, Inc. Disk array with error type indication and selection of error correction method
JPH04126423A (ja) * 1990-09-17 1992-04-27 Omron Corp データ処理システム
US5544347A (en) * 1990-09-24 1996-08-06 Emc Corporation Data storage system controlled remote data mirroring with respectively maintained data indices
US5535367A (en) * 1991-03-04 1996-07-09 Motorola, Inc. Demultiplexing initialization data to be transferred to memory through a plurality of registers with error detection data
US5257377A (en) * 1991-04-01 1993-10-26 Xerox Corporation Process for automatically migrating a subset of updated files from the boot disk to the replicated disks
US5913926A (en) * 1992-08-20 1999-06-22 Farrington Investments Ltd. Expandable modular data storage system having parity storage capability
US6640235B1 (en) * 1992-08-20 2003-10-28 Intel Corporation Expandable mass disk drive storage system
US5715386A (en) * 1992-09-30 1998-02-03 Lucent Technologies Inc. Apparatus and methods for software rejuvenation
JPH06251564A (ja) * 1993-02-27 1994-09-09 Sony Corp 情報提供収集装置及び記録媒体
US5649162A (en) * 1993-05-24 1997-07-15 Micron Electronics, Inc. Local bus interface
US6301711B1 (en) * 1993-11-30 2001-10-09 International Business Machines Corporation System and method for the network support of full motion video using a redundant array of inexpensive disks
US5724599A (en) * 1994-03-08 1998-03-03 Texas Instrument Incorporated Message passing and blast interrupt from processor
US5680536A (en) * 1994-03-25 1997-10-21 Tyuluman; Samuel A. Dual motherboard computer system
US5504882A (en) * 1994-06-20 1996-04-02 International Business Machines Corporation Fault tolerant data storage subsystem employing hierarchically arranged controllers
US5467361A (en) * 1994-06-20 1995-11-14 International Business Machines Corporation Method and system for separate data and media maintenance within direct access storage devices
US5701429A (en) * 1994-06-20 1997-12-23 International Business Machines Corporation Method and system for maintaining concurrent data access during device upgrade
US5835953A (en) * 1994-10-13 1998-11-10 Vinca Corporation Backup system that takes a snapshot of the locations in a mass storage device that has been identified for updating prior to updating
US5649152A (en) * 1994-10-13 1997-07-15 Vinca Corporation Method and system for providing a static snapshot of data stored on a mass storage system
GB9422854D0 (en) * 1994-11-12 1995-01-04 Int Computers Ltd High availability data processing system
JPH08263226A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 情報記憶装置
JPH0926892A (ja) * 1995-04-27 1997-01-28 Tandem Comput Inc 遠隔的に複製されかつ動的に再構成可能なメモリを有するコンピュータシステム
US5933603A (en) * 1995-10-27 1999-08-03 Emc Corporation Video file server maintaining sliding windows of a video data set in random access memories of stream server computers for immediate video-on-demand service beginning at any specified location
US6061504A (en) * 1995-10-27 2000-05-09 Emc Corporation Video file server using an integrated cached disk array and stream server computers
US5948062A (en) * 1995-10-27 1999-09-07 Emc Corporation Network file server using a cached disk array storing a network file directory including file locking information and data mover computers each having file system software for shared read-write file access
US5802265A (en) * 1995-12-01 1998-09-01 Stratus Computer, Inc. Transparent fault tolerant computer system
US5870537A (en) * 1996-03-13 1999-02-09 International Business Machines Corporation Concurrent switch to shadowed device for storage controller and device errors
EP0894304B2 (de) * 1996-04-19 2008-03-26 Daimler AG Verfahren zur automatischen diagnose technischer systeme unter berücksichtigung eines effizienten wissenserwerbs und einer effizienten bearbeitung zur laufzeit
US5889935A (en) * 1996-05-28 1999-03-30 Emc Corporation Disaster control features for remote data mirroring
US6052797A (en) * 1996-05-28 2000-04-18 Emc Corporation Remotely mirrored data storage system with a count indicative of data consistency
US6298386B1 (en) 1996-08-14 2001-10-02 Emc Corporation Network file server having a message collector queue for connection and connectionless oriented protocols
US5893140A (en) * 1996-08-14 1999-04-06 Emc Corporation File server having a file system cache and protocol for truly safe asynchronous writes
US5974503A (en) * 1997-04-25 1999-10-26 Emc Corporation Storage and access of continuous media files indexed as lists of raid stripe sets associated with file names
US5892915A (en) * 1997-04-25 1999-04-06 Emc Corporation System having client sending edit commands to server during transmission of continuous media from one clip in play list for editing the play list
US5987621A (en) * 1997-04-25 1999-11-16 Emc Corporation Hardware and software failover services for a file server
US6111707A (en) * 1997-12-31 2000-08-29 International Business Machines Corporation Tape duplexing with unique identity and error recovery
US6418540B1 (en) * 1999-08-27 2002-07-09 Lucent Technologies Inc. State transfer with throw-away thread
US6549992B1 (en) 1999-12-02 2003-04-15 Emc Corporation Computer data storage backup with tape overflow control of disk caching of backup data stream
US6434681B1 (en) 1999-12-02 2002-08-13 Emc Corporation Snapshot copy facility for a data storage system permitting continued host read/write access
US6862689B2 (en) 2001-04-12 2005-03-01 Stratus Technologies Bermuda Ltd. Method and apparatus for managing session information
US6802022B1 (en) 2000-04-14 2004-10-05 Stratus Technologies Bermuda Ltd. Maintenance of consistent, redundant mass storage images
US7146364B1 (en) 2000-11-03 2006-12-05 International Business Machines Corporation Method and system for recovering data in a plurality of systems
US6948010B2 (en) * 2000-12-20 2005-09-20 Stratus Technologies Bermuda Ltd. Method and apparatus for efficiently moving portions of a memory block
US6990611B2 (en) * 2000-12-29 2006-01-24 Dot Hill Systems Corp. Recovering data from arrays of storage devices after certain failures
US6766413B2 (en) 2001-03-01 2004-07-20 Stratus Technologies Bermuda Ltd. Systems and methods for caching with file-level granularity
US6874102B2 (en) * 2001-03-05 2005-03-29 Stratus Technologies Bermuda Ltd. Coordinated recalibration of high bandwidth memories in a multiprocessor computer
US6934822B2 (en) * 2002-08-06 2005-08-23 Emc Corporation Organization of multiple snapshot copies in a data storage system
US6957362B2 (en) * 2002-08-06 2005-10-18 Emc Corporation Instantaneous restoration of a production copy from a snapshot copy in a data storage system
US6792518B2 (en) 2002-08-06 2004-09-14 Emc Corporation Data storage system having mata bit maps for indicating whether data blocks are invalid in snapshot copies
US7284016B2 (en) 2002-12-03 2007-10-16 Emc Corporation Client-server protocol for directory access of snapshot file systems in a storage system
US7577806B2 (en) 2003-09-23 2009-08-18 Symantec Operating Corporation Systems and methods for time dependent data storage and recovery
US7409587B2 (en) 2004-08-24 2008-08-05 Symantec Operating Corporation Recovering from storage transaction failures using checkpoints
US7991748B2 (en) 2003-09-23 2011-08-02 Symantec Corporation Virtual data store creation and use
US7904428B2 (en) 2003-09-23 2011-03-08 Symantec Corporation Methods and apparatus for recording write requests directed to a data store
US7631120B2 (en) 2004-08-24 2009-12-08 Symantec Operating Corporation Methods and apparatus for optimally selecting a storage buffer for the storage of data
US7827362B2 (en) 2004-08-24 2010-11-02 Symantec Corporation Systems, apparatus, and methods for processing I/O requests
US7239581B2 (en) 2004-08-24 2007-07-03 Symantec Operating Corporation Systems and methods for synchronizing the internal clocks of a plurality of processor modules
US7577807B2 (en) 2003-09-23 2009-08-18 Symantec Operating Corporation Methods and devices for restoring a portion of a data store
US7296008B2 (en) 2004-08-24 2007-11-13 Symantec Operating Corporation Generation and use of a time map for accessing a prior image of a storage device
US7287133B2 (en) 2004-08-24 2007-10-23 Symantec Operating Corporation Systems and methods for providing a modification history for a location within a data store
US7730222B2 (en) 2004-08-24 2010-06-01 Symantec Operating System Processing storage-related I/O requests using binary tree data structures
US7725760B2 (en) 2003-09-23 2010-05-25 Symantec Operating Corporation Data storage system
JP4535371B2 (ja) * 2004-07-15 2010-09-01 富士通株式会社 ディスクアレイ制御プログラム、方法及び装置
US7467324B1 (en) * 2004-09-30 2008-12-16 Ayaya Inc. Method and apparatus for continuing to provide processing on disk outages
CN101313279A (zh) 2005-10-14 2008-11-26 塞门铁克操作公司 一种在数据存储器中用于时间线压缩的技术
US7848261B2 (en) 2006-02-17 2010-12-07 Isilon Systems, Inc. Systems and methods for providing a quiescing protocol
JP4818751B2 (ja) * 2006-02-24 2011-11-16 富士通株式会社 ストレージシステム
US8286029B2 (en) * 2006-12-21 2012-10-09 Emc Corporation Systems and methods for managing unavailable storage devices
US8966080B2 (en) 2007-04-13 2015-02-24 Emc Corporation Systems and methods of managing resource utilization on a threaded computer system
US8589728B2 (en) 2010-09-20 2013-11-19 International Business Machines Corporation Job migration in response to loss or degradation of a semi-redundant component
US9485077B2 (en) * 2012-07-06 2016-11-01 Broadcom Corporation System and method for energy efficient ethernet with asymmetric traffic profiles
US11586514B2 (en) 2018-08-13 2023-02-21 Stratus Technologies Ireland Ltd. High reliability fault tolerant computer architecture
US20210117249A1 (en) * 2020-10-03 2021-04-22 Intel Corporation Infrastructure processing unit

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5627905B1 (ja) * 1970-11-06 1981-06-27
GB1410631A (en) * 1972-01-26 1975-10-22 Plessey Co Ltd Data processing system interrupt arrangements
US3882455A (en) * 1973-09-14 1975-05-06 Gte Automatic Electric Lab Inc Configuration control circuit for control and maintenance complex of digital communications system
JPS51127626A (en) * 1975-04-30 1976-11-06 Hitachi Ltd Information processor
US4228496A (en) * 1976-09-07 1980-10-14 Tandem Computers Incorporated Multiprocessor system
DE2733921C3 (de) * 1977-07-27 1981-03-26 Siemens AG, 1000 Berlin und 8000 München Schaltungsanordnung für eine indirekt gesteuerte Vermittlungsanlage, insbesondere Fernsprechvermittlungsanlage
US4377845A (en) * 1980-09-29 1983-03-22 International Business Machines Corporation Optional machine inhibition for feature malfunction
US4371754A (en) * 1980-11-19 1983-02-01 Rockwell International Corporation Automatic fault recovery system for a multiple processor telecommunications switching control
US4430727A (en) * 1981-11-10 1984-02-07 International Business Machines Corp. Storage element reconfiguration

Also Published As

Publication number Publication date
KR850700171A (ko) 1985-10-25
EP0167540B1 (en) 1989-03-15
KR920003497B1 (ko) 1992-05-01
JPH0420493B2 (ja) 1992-04-03
EP0167540A1 (en) 1986-01-15
DE3477282D1 (en) 1989-04-20
US4608688A (en) 1986-08-26
WO1985002926A1 (en) 1985-07-04
CA1274913A (en) 1990-10-02

Similar Documents

Publication Publication Date Title
JPS61500875A (ja) 補助記憶装置へのアクセス喪失に耐える処理システム
JP2703479B2 (ja) タイム・ゼロ・バックアップ・セッションの安全保護機能を有するデータ処理方法及びシステム
EP0185704B1 (en) Reconfigurable dual processor system and method for operating it
US5437022A (en) Storage controller having additional cache memory and a means for recovering from failure and reconfiguring a control unit thereof in response thereto
US6266785B1 (en) File system filter driver apparatus and method
US5941994A (en) Technique for sharing hot spare drives among multiple subsystems
US7185222B2 (en) Apparatus, system, and method for maintaining data in a storage array
JP2905373B2 (ja) ディスク制御装置及びその制御方法
US6438654B1 (en) Castout processing for duplexed cache structures
US20060107129A1 (en) Method and computer program product for marking errors in BIOS on a RAID controller
US7509535B1 (en) System and method for managing failover in a data storage environment
CA2310099A1 (en) Computer system transparent data migration
KR950014175B1 (ko) 데이타의 타임제로 백업 복사 방법과 수단
JPH0619743B2 (ja) コンピユータ・ネツトワークにおける適用業務セッションの保存方法、制御方法及び保存装置
US7401251B1 (en) Architecture for managing failover and recovery after failover in a data storage environment
US7370235B1 (en) System and method for managing and scheduling recovery after a failure in a data storage environment
JP2780372B2 (ja) デイスク制御装置のキヤツシユ組込制御方法
US6957301B2 (en) System and method for detecting data integrity problems on a data storage device
JP3301992B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
US6539495B1 (en) Method, system and program products for providing user-managed duplexing of coupling facility cache structures
US7299385B2 (en) Managing a fault tolerant system
US7467324B1 (en) Method and apparatus for continuing to provide processing on disk outages
JP3447347B2 (ja) 障害検出方法
JPH09282291A (ja) 共通記憶装置のロックフラグ解除方式および方法
JPH0312773A (ja) データベース処理における局所異常回復処理方式