JPS63238634A

JPS63238634A - 分散多重処理トランザクション処理システム

Info

Publication number: JPS63238634A
Application number: JP62216271A
Authority: JP
Inventors: デイル・エル・シップリー; ジャン・ディ・アーネット; ウィリアム・エイ・アーネット; スティーヴン・ディ・バウメル; アニル・バヴナニ; チュエンプ・ジェイ・チョー; ディヴッド・エル・ネルソン; マティ・ソーハ; ディヴッド・エイチ・ヤマダ
Original assignee: TORERANTO SYST Inc
Current assignee: TORERANTO SYST Inc
Priority date: 1986-08-29
Filing date: 1987-08-29
Publication date: 1988-10-04
Also published as: AU7767387A; US4819159A; KR910007762B1; KR880003256A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、多重処理コンピュータシステムに関し、より
特定的には分散された故障寛容オンライントランザクシ
ョン処理コンピュータシステムに関するものである。

〔従来の技術〕

多重処理システムはこれまでに公知である。

種々の形式の多重処理システムが存在し、その中には並
列処理システム、及びオンライントランザクション処理
のために設計された多くの形式の計算システムが含まれ
る。

オンライントランザクション処理は一般的に云って、バ
ッチ処理及び実時間処理と対照されるものである。バッ
チ処理は、前のジョブが完了した後に各々のジョブが連
続して開始され、且つ次のジョブが始まる前に完了され
るようにして、複数のジョブを待ち行列とすることを含
むものであり、処理の間にはユーザーとの間に事実上何
の相互作用もない。データベースに対するアクセスが必
要であるのならば、データベースはジョブと共にロード
され、またアンロードされる。ジョブを列状に配置して
から応答を受は取るまでの間の経過時間は大きぐ異なり
得るものであるが、殆どの場合には数分以上を要し、そ
のためユーザーがジョブを人力してから応答までの間に
作業をすることなしに待つということは合理的でなかっ
た。１９７０年代の後半に至るまで、殆どの市販のコン
ピュータシステムの構成は、基本的に云ってバッチ処理
を意図したものであった。バッチ処理システムは、科学
的な応用において特別な用途を見出すことのできるもの
である。

実時間処理システムは市場においてシェアが小さいもの
であり、基本的には、刺激即ち要求が例えばミリ秒単位
の如く非常に敏速に実行されねばならないような製造工
業での用途に使用されている。実時間処理システムの典
型的な用途は、高度に自動化された化学的または製造工
程をモニターし及び制御するための、プロセス制御を含
んでいる。

一部オンライントランザクション処理システムは多くの
場合、大きなデータベース及び複数の個人との間での非
常に多くの相互作用を含むものであり、各々の個人は典
型的には端末を操作しており且つ何等かの機能を営むよ
うにシステムを使用している。この何らかの機能には、
より大きなタスクの一部としてデータベースを最新のも
のとすること、及び受は入れ可能な時間内に予想可能な
応答を要求することがある。

オンライントランザクション処理システムは、典型的に
は大きなデータベースと、日常の多量のオンライン最新
化と、及び広範囲にわたる端末の取り扱い設備とを含ん
でいる。多くの場合、オンライントランザクション処理
システムにおいては、書類によるバックアップなしに、
最新のデータベースのみが包含されている。

オンライントランザクション処理のために特別に設計さ
れたコンピュータシステムの構成は１９７０年代の後半
に紹介された。しかしながらオンライントランザクショ
ン処理に用いるための、バッチ式でない形式のものにつ
いても、それまでより一般的であったバッチシステムが
好ましいことが多かった。しかし時がたって、現在では
オンライントランザクション処理は、処理システムに対
して幾つかの要求を出すまでになった。そのような要求
としては、システムが実質的に連続的に利用可能である
こと、拡張可能性（通常はモジュール形式での）、構成
部分が故障した場合でもデータが完全であること、及び
操作が容易であることが含まれる。

実質的に連続的にシステムが利用可能であることに対す
る要求、及びデータの完全性に対する要求は、一般的に
は合わせて「故障寛容性」（ｆａｕｌｔ　ｔｏｌｅｒａ
ｎｃｅ）　と称されている。従って商業的に受は入れる
ことのできるオンライントランザクション処理システム
は、その属性の一つとして故障寛容性を示さなければな
らない。しかしこの故障寛容性という用語は未だ混乱を
生ずるかもしれない。なぜならこの用語はハードウェア
及びソフトウェアの両者に対しても、ハードウェアのみ
についても、またソフトウェアのみについても適用可能
なものだからである。

また故障寛容性は、一つの構成要素のみの故障をも、ま
た多数の構成要素の故障をも意味し得る。現在の技術水
準においては、故障寛容性は一般的には、単一のハード
ウェア構成要素の故障から回復することのできる能力、
即ち「単一のハードウェア故障寛容性」を意味するもの
として取られている。

単一のプロセッサシステムにおいて故障寛容性を備える
ことができないことは、容易に認められるであろう。な
ぜなら当該プロセッサの故障は、システム全体の故障と
イコールだからである。その帰結として、故障寛容シス
テムは多数のプロセッサを含むことになる。しかし、総
ての故障寛容システムがオンライントランザクション処
理に適合している必要はない。

故障寛容性のマルチプロセッサシステムは、所謂「コー
ルド」　「ワーム」及び「ホット」バックアップシステ
ムから、米国特許第４．２２８．４９６号に記載された
如き分散並行オンライントランザクション処理システム
に至るまで、広範囲に渡っている。コールド、ワーム及
びホットバックアップシステムは基本的に、バッチ処理
システムに使用されるものであって、所望のタスクを実
行する主コンピユータを、使用の種々の段階における従
コンビ二一夕と共に使用することを含んでいる。主コン
ビ二一夕が故障した場合には、システムのオペレータは
種々の範囲にわたる操作を実行し、故障した主システム
によってそれまで行われていたタスクを、実質的に使用
されていないバックアップシステムへと伝送する。この
形式の故障寛容は通常、値段がとてつもなく高く、それ
にもかかわらずデータの破損に対して殆ど保護を与えず
、また一般的に云って許容することのできない遅延をオ
ンラインの使用に対してもたらすものである。

故障寛容性の分散処理システムには、最初は軍事及び宇
宙用に開発され現在は幾らか改変された形式でストレイ
タス・コンピュータ社によって市販されている、ロック
ステップ式冗長ハードウェア手法を用いたシステムや、
前述した米国特許第４．２２８．４９６号に記載された
如き、故障寛容を達成するためのハードウェアとソフト
ウェアの組み合わせを使用しているシステムが含まれる
。故障寛容を達成するためにハードウェアとソフトウェ
アの組み合わせを使用する別の手法としては、以前にシ
ナプス・コンピュータ社によって市販されていたものが
あり、それはマルチプロセッサシステムにおける他の総
てのプロセッサのためのホット・バックアップとして単
一の付加的なプロセッサを提供することを含んでいる。

〔発明の解決しようとする問題点〕

冗長ハードウェアによる手法は、多くの制限を受けるも
のであり、その中には特に、システムの種々の要素の間
で所要の密結合関係を維持するという困難性、及びソフ
トウェアの開発と柔軟性に関する限界がある。

米国特許第４．２２８．４９６号に記載されたシステム
は、分散した故障寛容電算処理の分野において多くの改
良をもたらしたが、しかし当該システムはまた、トラン
ザクション・ベースの操作の取り扱いのために必要なオ
ーバヘッドに関する制限を受けるものである。トランザ
クションを取り扱うために必要とされるオーバヘッドに
ついて、米国特許第４．２２８．４９６号に記載された
システムは、チェックポイントと呼ばれるキーとなる段
階におけるトランザクションの状態が主プロセツサから
バックアッププロセッサまで通じそいることを確実なら
しめるために、主プロセツサとバックアッププロセッサ
との間で連続的な通信を必要とすることが判っている。

この相対的に云って連続的なチェックポイントは、好ま
しくないオーバヘッドを要求することになる。また、シ
ステムによってランされている用途によっては、オーバ
ヘッドに対する要求はシステムに対する極度の負担とな
り得る。

米国特許第４．２２８．４９６号に記載されたシステム
はまた、特別に開発されたソフトウェアと互換性がある
か、或いはそのために書き込まれる応用プログラムを必
要とするという制限をも受ける。この特別に開発された
ソフトウェアは多くの場合、プログラマ−が新しいプロ
グラム言語を学習することを必要とし、またシステムに
ついて応用例が開発されたり適用されたりする容易さを
不必要に限定する。トランザクション処理のためにより
効率的なシステムを使用することに対する主たる障害物
の一つは、故障寛容トランザクション処理システムにつ
いて使用するように顧客の応用プログラムを書き直すた
めの費用であることが、充分に認識されてきている。そ
してそのような費用は、全く新しいプログラム言語を学
習する場合には非常に増大するものである。

その結果、より簡単化されたトランザクション・ベース
のオペレーションをもって故障寛容オペレーションを行
うことのできる、分散多重処理システムに対する要求が
高まってきた。

また、従来のオペレーティング・システムを用いて故障
寛容オペレーションを行うことのできる、疎結合された
分散多重処理システムに対する要求も存在する。

そこで本発明の一つの目的は、改良された多重プロセッ
サシステムを提供することである。

本発明の別の目的は、トランザクションをベースとした
並列分散多重処理システムを提供することである。

本発明のさらに別の目的は、故障寛容性である並列分散
多重処理システムを提供することである。

本発明のさらに別の目的は、ＵＮＩＸの如き通常の、そ
して容易に搬送可能なオペレーティングシステムを使用
した、多重処理システムを提供することである。

本発明のさらなる目的は、インタプロセッサ通信がイー
サネット（Ｅｔｈｅｒｎｅｔ：ゼロックス社のバス構造
のＬＡＮの商標名）リンクの如きを介してローカルエリ
アネットワークの一部として統御される、分散された故
障寛容多重処理システムを提供することである。

本発明のさらなる目的は、自動的に且つ動的にバランス
されることのできる多重プロセッサシステムを提供する
ことである。

本発明のさらなる目的は、論理データボリュームに関連
するメツセージ待ち行列が移動可能であり、また処理の
失敗の場合にデータに対するアクセスをもたらすように
再度開けることができる、故障寛容多重プロセッサシス
テムを提供することである。

本発明のこれらの目的及び他の目的は、以下の本発明の
詳細な説明によってより良く認識されるであろう。

〔問題点を解決するための手段〕

本発明は、多重プロセッサオペレーション用に修正され
たＵＮＩＸオペレーティング・システムに基づいており
、通常のＬＡＮ’Ｊンクによって通信している多数の並
列プロセッサを使用している、分散された多重プロセッ
サオンライントランザクション処理システムを提供する
ことにより、上述した従来技術の制限の多くを実質的に
解消するものである。

故障寛容性はハードウェア的及びソフトウェア的の両方
の分散処理構造によって与えられ、それは中でも多ポー
トのディスク及び関連機器、固有であり且つ可動のメツ
セージ待ち行列、分散システムランデブー、広がりを基
礎としたファイル割り当て、及びカーネルを基礎とした
トランザクション処理を含むものである。これらについ
ては以下に示される詳細な記述からより良く認識される
であろう。

本システムのハードウェア構成は、ナショナル社製の３
２０００チツプ・セットに基づいており、それぞれが実
時間プロセッサを含んでいる複数のシステム構成ブロッ
ク（ＳＯＢ）　と、ユーザープロセッサと、入出カプロ
セッサと、システム相互結合ボード（ＳＩＢ）　　と、
及び局所メモリとを使用している。これらの特定のプロ
セッサ、ＳＩＢ並びにメモリは、内部メインフレームバ
スによって、ＳＢＢ内で内部的に通信する。

ＳＢＢは相互に、イーサネットの如きＬＡＮリンクを介
して通信しており、システムの残りの部分とは、入出カ
プロセッサによって制御された入出力バスを介して通信
している。

本システムはトランザクションをベースとしており、各
々のトランザクションはアトム的に処理され、普通でな
い取り扱いやオーバヘッドは必要とされない。チェック
ポイントを設けることは排除される。

本発明の目的に関してトランザクションは、アトム的に
実行されるオペレーションのシーケンスであるとして定
義される。従って総てのオペレーションが満足に実行さ
れるか、或いはどのオペレーションも格納されたデータ
を変更することが許されないかの何れかである。トラン
ザクションがアトム的であるということは、トランザク
ション統合子を確立することによって確実なものとなる
。この統合子は、トランザクションの処理の際に必要な
分散したファイルのアクセスの記録即ちログを維持し、
また処理の間の不適当な時に別のトランザクションがデ
ータを変更しないように、ファイル及び、ブロックのレ
ベルロックと結合されている。

殆どの場合、トランザクションが完了した時点において
、トランザクションによって読み出され又は最新化され
たファイル又はブロックは、別のトランザクションによ
って使用され得るように解放される。仮にトランザクシ
ョンが中止されたとすると、そのトランザクションの統
合子は、当該トランザクションが変更した総てのデータ
ファイルを、当該トランザクションが開始された時点に
あける状態へと戻す。トランザクションの処理の間には
、要求された総てのファイルについて一貫した視野が維
持される。つまり、当該トランザクションが完了又は中
止される迄は、システム内における他のどのような作動
によって要求されたファイルも変化されることはない。

トランザクション統合子を有するＳＢＢが故障した場合
には、統合子は別のＳＢＢへと移動し、データを最後の
トランザクションの開始前の状態へと回復させ、また処
理信号取り扱い者に対して５ＩＧＡＢＯＲＴ信号及びコ
ードでもって通知を行うことにより、データに対する一
貫した視野が再び回復される。この過程は次いで、所望
の場合には処理を再スタートさせることができる。統合
子の再スタートは自動的に行われる。このようにして、
システム及びデータの連続的な利用可能性がもたらされ
る。

通常でない言語は必要とされないから、ユーザーのプロ
グラムの完全な書換は必要でない。

そのため故障寛容環境に対して適用する場合には、より
優れた軽便さがもたらされる。

特に、インタプロセッサ通信チャネルを使用することに
よって、スループットの改良がもたらされる。このイン
タプロセッサ通信チャネルは、各々の入出力オペレーシ
ョンが要求を出しているＳＢＢから統御されることを必
要とするのではなく、要求を出しているＳＢＢの位置と
は無関係に、データを所有しているディスクと組み合わ
せられているＳＢＢに対して入出力オペレーションが局
所的になることを可能ならしめる。

〔実施例〕

先ず最初に第１図を参照すると、本発明のシステムの概
略的なハードウェア構成が良く理解され得る。第１図は
ブロックダイヤグラムの形式において、二つのプロセッ
サモジュールの実施形態を図示している。つまり第−及
び第二のプロセッサモジューノペ即ちＳＢＢ　（システ
ム構成ブロック）　１０及び２０である。５ＢＢＩ（ｌ
及び２０は、例えばイーサネットリンク、光ファイバケ
ーブル或いは他の適当な通信チャネルである二重のロー
カルエリアネットワーク（ＬＡＮ）リンク３０及び４０
によって相互に結合されている。

５ＢＢＩＯ及び２０の各々は、それぞれ入出力チャネル
又はバス５０及び６０を介して種々の形態の周辺コント
ローラと通信している。そのようなものとしてはテープ
コントローラ（ＴＣ）７０、ディスクコントローラ（Ｄ
Ｃ）８０、及び通信インタフェースフロセッサ（ＣＩＰ
）　即チ通信インタフェース９０が含まれる。入出力チ
ャネルの各々は、チャネルターミネータ、１００でもっ
て＃端している。

第２図からより良く理解されるように、一つのＳＢＢは
一つ又は二つの入出力チャネルを有する。５ＢＢＩＯ及
び２０並びに種々のコントローラ７０、８０及び９０の
各々には、局所的な電源（ＰＳ）が備えられている。

単一のポートを有するテープコントローラは、少なくと
も一つのテープ駆動装置１１０と組み合わせられている
。同様にディスクコントローラ８０の各々もまた単一の
ポートを有するようになっているが、これらに組み合わ
せられたディスク駆動装置（Ｄｉ−０４）　１２０．１
３０．１４０及び１５０は、好ましくは二つのポートを
有していて、二つのＳＢＢからアクセス可能なようにな
っている。各々のディスクは一つのＳＢＢによってのみ
「所有」され得るものであり、所有されたディスクは、
当該ＳＢＢが所有を継続する限りは、当該ＳＢＢによっ
てのみアドレスされうる。所有を行っているＳＢＢがデ
ィスクの状態セクタにあるタイムスタンプ即ち日付を定
期的に最新のものとすることによって所有は継続される
が、この日付はまた、所有を行っていないＳＢＢのボリ
ュームマネージャー（以下で議論されるように、オペレ
ーティングシステムと組み合わせられている）によって
もチェックされる。所有を行っているＳＢＢが故障した
場合には、所有を行っていないＳＢＢのボリュームマネ
ージャーは日付の遅れを認め、当該ディスクの所有を行
う。典型的には、日付は周期的に、及びデータの整合性
に影響しろる動作が生じた場合にはいつでも、ディスク
に対して印加されるものである。当業者ならば理解でき
るように、ディスクは鏡像的な構成でもって、或いは鏡
像的なバックアップなしに作動される。作動の際に、さ
らなるディスクをシステムに追加してもよい。

第１図に示された二つの通信インタフェース９０の各々
は、次いでシステム分散ボード即ち５ＤＢ１６０　と通
信し、ＳＤＢに対しては一つ又はそれ以上の端末１７０
が結合され得る。通信インタフェース９０には、プリン
タ及びその他の同様の出力装置が結合され得る。システ
ムに対して最新化された構成情報を与え、また通信イン
タフェースを初期化することによって、システムが作動
している際にさらなる通信インタフェース９０をシステ
ムに対して付加することが可能である。

第１図は二つのＳＢＢによる実施形態を示しているが、
第１図の構成を拡張して、Ｌ　Ａ　Ｎ　’Ｊンク３０及
び４０の特性によってのみ限定されるような数の多数の
ＳＢＢの間で通信が行えるようにすることも可能である
ことが認められるであろう。そのような構成においては
、単に、システムの５ＩＢ（システム相互結合ボード）
に対して付加的なＳＢＢを識別し、この付加的なＳＢＢ
に対してＬ　Ａ　Ｎ　＋Ｊンク３０及び４０を延伸し、
そして必要なファイルに対する格納及びアクセスを可能
ならしめるように適当なディスクコントローラ及びディ
スクを追加することによって、付加的なＳＢＢをシステ
ム中に加えることができる。付加的なＳＢＢはシステム
の始動の前にＳＩＢに対して識別してもよく、或いはシ
ステムの作動中にＳＩＢに対して連続的に識別してもよ
い。また、故障したＳＢＢは、システムを休止させるこ
となしにシステム中から除去し、再スタートさせること
ができるから、モジュール的な形式による簡易で効率的
な拡張可能性をもたらすものである。

上記のような構成においては、少なくとも幾つかの場合
において、５ＢＢＩＯ及び２０並びに付加的なＳＢＢの
間でディスクコントローラは好ましくは共存され、故障
が生じた場合のバランスの取れたロード及びより良いア
クセスをもたらすようにする。また、第１図は二つのイ
ーサネットケーブルを用いた実施を記載しているけれど
も、光ファイバの如き他の形式のローカルエリアネット
ワークも、適当な、場合によってはより改良された作動
を提供する。

さて第２図を参照すると、５ＢＢＩＯ及び２０の構成が
より良く認識できる。各々のＳＢＢは、複数の専用プロ
セッサと、メインフレームバス即ちＭＦＢ２００を介し
て通信している関連したロジックを有している。一つの
実施形態においては、ＭＦＢ２００は６４ビツトのデー
タバスであり、バスターミネータ２０５によって終端し
ている。

５ＢＢＩＯを構成している専用プロセッサおよび関連す
るロジックは、実時間プロセッサユニッ）　（ＲＰＵ）
２１０と、ユーザープロセッサユニット（ＵＰＵ）２２
０と、入出力プロセッサ（ＩＯＰ）２３０ａ及び２３０
ｂと、システム相互結合ボード（Ｓ　Ｉ　Ｂ）　２４０
と、メモリ　（ＭＥＭ）２５０を含んでいる。第２図に
見られるように、ＲＰ　０２１０はＭＦＢ２００に対す
るアクセスのための基本的制御を提供するものであり、
それ故一つ又はそれ以上のラインを介して、ＳＢＢを形
成している他のモジ、−ルの各々と通信している。これ
らのラインはＭＦＢ２００　とは別個に示されているが
、実際にはＳＢＢを構成するモジュール間にあるライン
の各々はＭＦＢ２００の一部であり、従って単に明確化
のために別個に示されているに過ぎない。ＭＦＢ２００
に含まれているラインではあるが第２図に別個に示され
ていないものとしては、アドレスライン（０−３１）　
、アドレスパリティライン（０−３）　、データライン
（０−６３）、データパリティ（０−７）　　、データ
バイト有効（０−７）及びデータバイト有効パリティビ
ットがある。

本発明を不明瞭にするのを避けるため、第２図及び本明
細書で議論する残りの総ての図面について、ここに示さ
れる教示から当業者に明らかであると思われる多くの細
かい制御信号が省略されていることを理解されたい。

ＲＰ　Ｕ２１０は他のモジュールの各々へと延びる幾つ
かのラインと、及び他のモジュールの内の一つへと単独
で延びる他のラインを介して、ＳＢＢ内の他のモジュー
ルの各々と通信している。他のモジュールの各々へと延
びているラインには、双方向レディ、中止及びビジーラ
イン２５４ａ−Ｃと、アドレス及びデータストローブ並
びに書き込み信号を検知するための二つの双方向ライフ
２５５ａ−ｂと、及びＲＰ　Ｕ２１０から他のモジュー
ルの各々へと延伸しているリセットライン２５８　とが
含まれる。ＲＰ　Ｕ２１０はシステムのリセットに応じ
てＳＢＢ内において最初に初期化を行うモジュールであ
り、ついでＳＢＢの他のモジュールの各々を公知の状態
へとセットするものである。

ＲＰＵ２１０から残りの専用プロセッサモジュールテあ
るＵ　Ｐ　Ｕ２２０　、Ｉ　ＯＰ２３０ａ−ｂ、及びＳ
Ｉ　Ｂ２４０へと単独で延びるラインには、他のモジュ
ールからＲＰ　Ｕ２１０への割り込みリクエストライン
２６０ａ−Ｃと、他のモジュールからＲＰＵへのバスリ
クエストライン２６２ａ−ｄと、及びＲＰＵ２１０から
他のモジュールへのバス許可ライン２６４ａ−ｄが含ま
れる。ＩＯＰは両方とも、一つの割り込みライン２６０
ｂのみを使用しており、どちらのＩＯＰが実際にリクエ
ストを行ったのかをオペレーティングシステムが定める
ようにしていることに注意されたい。また、各々のｌ０
Ｐ２３０は固有のバスリクエストライン２６２ｂ−Ｃ及
びバス許可ライン２６４ｂ−Ｃを有している。メモリ２
５０は必要に応じて、基本的にはＭ　Ｆ　Ｂ２００を介
してシステムの残りの部分と通信しているが、割り込み
リクエストライン２６６を介して直接にＲＰＵ２１０に
対して割り込みリクエストを送出することができる。

以下で行う議論から理解されるように、ＵＰＵ２２０は
ＭＦＢ２００に対する非常に頻繁なアクセスを維持する
ものであるため、ＲＰ　Ｕ２１０は付加的なラインを含
んでいて、ＲＰ　Ｕ２１０とＵＰ　Ｕ２２０との間で生
ずる頻繁な通信をより容易にするようにしている。この
ような付加的なラインには、Ｕ　Ｐ　Ｕ２２０からＲＰ
　Ｕ２１０へのノンマスカブル割り込みリクエストライ
ン２６８　と、ＲＰ　Ｕ２１０からＵ　Ｐ　Ｕ２２０へ
の割り込みリクエストライン２７０　と、ＲＰ　Ｕ２１
０からＵ　Ｐ　Ｕ２２０へのバスクリアライン２７２　
と、及びＲＰ　Ｕ２１０から通常のリセットライン２５
８とは別個に延びるＵＰＵリセットライン２７４が含ま
れる。

以下においてより良く理解されるように、ＵＰ　Ｕ２２
０の目的は、一般的に云って、ＳＢＢ内にあるユーザー
レベルのソフトウェアを実行することである。ＵＰＵは
、ＵＰＵで実行するソフトウェアのためのキャッシュメ
モリを含んでいる。Ｉ　ＯＰ２３０ａ−ｂは一般的に、
割り込み、調停及びデータ伝送などを含めて、周辺機器
とＳＢＢとの間の通信を制御する。このような機能に含
まれるものには、ＲＰＵ２１０によってＭＥＭ２５０内
に構築されたチャネルプログラムを処理することがある
。第１図において部分的に示されているように、入出力
チャネル即ちバス５０及び６０と、これらに組み合わせ
られたコントローラ７０．８０又は９０は、Ｉ　ＯＰ２
３０ａ−ｂを介してＳＢＢと通信する。第２図には二つ
のＩＯＰが示されているが、システムが一つだけの、或
いはより多くのＩＯＰを有するように構成することもで
きる。

Ｓ　Ｉ　Ｂ２４０はプロセッサ間の通信を制御するもの
であるが、その中には、二つのイーサネット或いは他の
ＬＡＮケーブル３０及び４０を収容するように、二つの
ポートのイーサネット又は他のＬＡＮインタフェースを
提供することを含んでいる。一つの実施形態において、
メモリ２５０の大きさは、一般的に通常のデザインの４
から１２メガバイトの固体ＲＡＭである。

さて第３図を参照すると、ＲＰ　Ｕ２１０についてより
良い理解が得られる。例えばナショナル・セミコンダク
タ社から市販されている如き、３２０３２型マイクロプ
ロセツサ（ＭＰＵ）３００　（或いは幾つかの実施形態
においては、同じ会社から販売されている３２０１６型
のプロセッサ）が、タイミング制御ユニット　（ＴＣＵ
）３０２からタイミング制御信号を受信する。Ｔ　ＣＵ
３０２は、やはりナショナル社から市販されている３２
２０１型のチップである。

Ｍ　Ｐ　Ｕ３００は通常の手法により、メインバス３０
４上にアドレス及びデータ情報を提供し、また受信する
。このメインバス３０４は次いで、アドレスラッチ３０
６を介してアドレス情報を通信し、一対のデータバッフ
ァ３０ｇ及び３１０を介してデータを提供しまた受信す
る。アドレスラッチ３０６は双方向アドレスバス３１２
を介して、ＥＰＲＯＭアレー３１４　、ＥＥＰＲＯＭＥ
ＰＲＯＭアレー３１４Ｍ３１８　、及び割り込み制御回
路（ＣＩＯ）３２０に対して、並びに一つ又はそれ以上
の非同期通信コン）　ｏ　−５（Ａ　Ｓ　ＣＣ）　３２
２ａ−ｂに対してアドレス情報を提供する。また、アド
レスバス３１２は実時間クロック（ＲＴＣ）アドレスバ
ッファ３２４　及ヒＭＦＢアドレスバッファ３２８と通
信している。

データバッファ３０８は、第一の双方向データバス３３
０を介して、ＥＰＲＯＭアレー３１４及びＥＥＦＲＯＭ
ＥＰＲＯＭアレー３１４通信している。データバッファ
３０８はまた、二次的なデータバッファ３３２を介して
、ＣＩ　０３２０及びＡＳＣＣ３２２ａ−ｂともデータ
を通信している。さらに第一のデータバス３３０は、Ｒ
ＴＣデータバッファ３３６、エラー状態レジスタ３３８
、診断データバッファ３４０、制御レジスタ３４２、及
びＭＦＢデータバッファ３４４と通信している。データ
バッファ３１０は、第二のデータバス３３４を介してＲ
Ａ　Ｍ３１８と通信している。

ＥＰＲＯＭアレー３１４は、非常に広範囲に渡って大き
さが異なり得るものであるが、典型的には５１２にバイ
ト程度のものであり、ＲＰＵ用のファームウェアを格納
する。ＥＥＰＲＯＭ３１６は典型的には２にバイト程度
のものであり、ＳＢＢ、システム及びネットワーク用の
識別子を格納すると共に、診断に関連した情報をも格納
する。ＲＡＭ３１８は典型的にはパリティによって保護
されており、１メガバイト程度の大きさである。ＣＩ　
０３２０は例えばザイログ社又はＡＭＤ社から市販され
ている如き８５３６型のチップであり、バス３１２及び
バッファ３３２に対して結合されているのに加えて、複
数の割り込みリクエスト人力３４６を受け、割り込み出
力３４８によってＭ　Ｐ　Ｕ３００に対し割り込み信号
を送出する。

Ａ　Ｓ　ＣＣ３２２ａ及び３２２ｂは、例えばザイログ
社又は他の製造業者から市販されている８５３１型のチ
ップであるか、或いは幾つかの他の形式の何れかである
ことができる。しかし典型的には、例えばＲ３２３２又
はＲ３４２２の如き所望の通信プロトコルと互換性のあ
る出力をもたらす。

ＲＴＣアドレスバッファ３２４は実時間クロック　（Ｒ
ＴＣ）３５０と通信し、このクロック３５０　は次いで
データ側においてＲＴＣデータバッファ３３６　と通信
する。ＲＴＣ３５０には、システムが年月を経た場合に
も継続的なオペレーションを保証するように、バッテリ
ーバックアップ３５２が備えられている。最後にアドレ
スバス側においては、ＭＦＢアドレスバッファ３２８が
ＭＦＢ２００と双方向的に通信している。

データバス側において、データバッファ３４０はスイッ
チバンク３５４から入力を受けるが、このスイッチバン
クは診断の際にＲＰＵを強制的に特定の状態にすること
を可能ならしめる。状態レジスタ３３８は、システムの
残りの部分からのバスのタイムアウト、不良パリティ及
びバス中止信号を検出するエラーロジック３５７からの
エラーストローブ人力３５６を受は取る。制御レジスタ
３４２は、制御ビットがボード上及びボード外で使用さ
れるようにする。制御ビットのボード上での使用には、
例えばＬＥＤ、指示ライトその他を含む状態ディスプレ
ー３５８を含む。

ボード外での使用には、故障及びレディＬＥＤアレーを
含む。最後に、ＭＦＢデータバッファ３４４は、ＭＦＢ
２００とデータを通信する。

上記に説明したＲＰＵの要素に加えて、ＲＰＵはまたＭ
ＦＢ調停ロジック３６０をも含んでおり、このロジック
は例えばモトローラ社から人手可能な６８４５２型のチ
ップである。調停ロジック３６０は、ＲＰＵからのバス
リクエストを受信し且つ適当にバス許可を提供する以外
には、ＲＰＵの残りとは結合されていない。この調停ロ
ジック３６０は、バスリクエストを生成することのでき
るＳＢＢの要素からバスリクエストを受信し、またライ
ン３６２上においてバスビジー信号をも受信する。適当
な場合には、バスリクエストに応答して、調停ロジック
３６０はバス許可出力をライン３６４上に、そしてバス
クリア信号をライン３６６上に提供する。

続いて第４図を参照すると、Ｕ　Ｐ　Ｕ２２０がより良
く認識され得る。このＵ　Ｐ　Ｕ２２０はＣＰＵ４００
を含み、このＣＰＵは例えばナショナル社製の３２０３
２型プロセツサであるか、或いはナショナル社製の３２
０１６型プロセツサであり、メモリ管理ユニッ）　（Ｍ
ＭＵ）４０２と、浮動小数点演算ユニッ）　　（ＦＰＵ
）４０４とを備えている。ＭＭＵ４０２はナショナル社
製の３２０８２型デバイスであり、Ｆ　Ｐ　Ｕ２Ｏ５は
ナショナル社製の３２０８１であ不。タイミング制御ユ
ニット４０６はナショナル社製の３２０００チツプセツ
トの一部であり、双方向メインバス４０８を介して各々
通信しているＣ　Ｐ　Ｕ２Ｏ５、ＭＭＵ４０２及びＦ　
Ｐ　Ｕ２Ｏ５に対してタイミング信号を提供している。

メインバス４０８はまた、これら種々の専用プロセッサ
４０〇−４０４をアドレスラッチ４１０及び双方向デー
タバッファ４１２へと結合している。

アドレスラッチ４１０の出力は、ラッチアドレスバス４
１４から種々のロケーションへと提供される。即ちラッ
チ４１０　は制御デコーダ４１６、パリティイネーブル
マルチプレクサ４１８、及びバスイネーブルゲートロジ
ック４２０へとアドレス情報を提供するのである。また
ラッチアドレスバス４１４はアドレスラッチ４１０から
、ＭＦＢアドレスバッファ４２２　、エラーラッチ４２
４　、Ｃｌ０４２６及びアドレスパリティ生成／検査手
段４２８へとデータを通信する。ＭＦＢアドレスバッフ
ァ４２２は次いで、Ｍ　Ｆ　Ｂ２００に対してアドレス
情報を供給する。

またバス４１４はアドレスブータラ、ＴＡＧＲＡＭ４３
０　、ＴＡＧデータバッファ４３２　、ＴＡＧヒツト比
較器４３４　、ＴＡＧパリティ生成器４３６、フラッシ
ュカウンタデコードロジック４３８、フラッシュカウン
タ４４０及びキャッシニデータバリティＲＡ　Ｍ４４２
へと供給する。最後に、バス４１４はアドレスデータを
キャッシュデータＲＡＭ４４４へと供給する。

バスイネーブルゲートロジック４２０は、キャッシュバ
スイネーブルロジック４５２、エラーラッチイネーブル
ロジック４５４、及びデマルチプレクサバッファゲート
ロジック４５６に対して、８ビツトのゲートバス４５０
上にゲート信号を供給する。キャッシュバスイネーブル
ロジック４５２は、その出力をキャッシュバス４５８上
において、キャツシュＲＡＭバスイネーブルラッチ４６
０、キャッシュＭＦＢラッチ４６２、及びキャッシュパ
リティ生成及びイネーブルロジック４６４に対して提供
する。このロジック４６４は次いで、キャッシュデータ
パリティＲＡ　Ｍ４４２に対してゲート出力を供給する
。

Ｔ　Ａ　Ｇ　ＲＡ　Ｍ４３０は双方向の１１ビツトのＴ
ＡＧバス４６６を介して通信し、これによりＲＡＭ４３
０は、ＴＡＧデータをＴＡＧデータバッファ４３２から
受信する。Ｔ’ＡＧバス４６６はまた、ＴＡＧヒツト比
較器４３４及びＴＡＧパリティ検査器４６８に対しても
データを供給する。

Ｕ　Ｐ　Ｕ２２０のデータ側に目を向けてみると、バス
４０８によってＣＰ　Ｕ２Ｏ５及び該チップセットの関
連部分と双方向通信しているデータバスバッファ４１２
は、３２ビツトのデータバス４７０によってＵＰＵの残
余のデータロジック部分とも双方向通信している。ここ
に記載されているのは３２ビツトのバスであるが、もし
も特定の実施用として３２ビツト以外のＣＰＵが選択さ
れたならば、このプロセッサの変更に応じてバス構造を
対応変化させることが必要であることは、当業者には理
解されるであろう。

３２ビツトのエラーラッチ４２４はバス４１４からアド
レス及び関連した情報を受信し、またＴＡＧヒツト比較
器４３４からヒツト制御信号を受信する。エラーが生じ
た場合には、エラーラッチイネーブルロジック４５４か
らの制御信号によって、エラーラッチの内容がバス４７
０上へと読み出される。データバス４７０はまた、ＣＩ
　０４２６及び６４ビツトの大きさのデマルチプレクサ
バッファ４７２と双方向通信している。さらにデータバ
ス４７０は、キャッシュデータラッチ４７４、キャッシ
ュイネーブルラッチ４７６、フラッシニラッチ４７８、
広域状態ラッチ４８０、通常のデータパリティロジック
４８２及びパリティイネーブルラッチ４８３に対して、
情報を供給している。またデータバス４７０は３ビツト
をＥＥＰＲＯＭラッチ４８４へと供給し、これは次に診
断ＥＥＰＲＯＭ２Ｂ５をアドレスする。ＥＥＰＲＯＭ４
８６　は次いでその出力をバス４７０へと戻す。キャッ
シュデークラッチ４７４は、キャッシュ内にデータが置
かれることを可能ならしめる。キャッシュイネーブルラ
ッチ４７６はキャッシュを付勢し又は消勢するものであ
る。パリティイネーブルラッチ４８３はパリティの生成
及び検出を付勢し又は消勢する。

キャッシュデークラッチ４７４、キャッシュイネーブル
ラッチ４７６、フラッシュイネーブルラッチ４７８及び
パリティイネーブルラッチ４８３はＣＩ　０４２６に対
して状態情報を提供し、そしてまたＣ　Ｉ　０４２６は
システムの残余の部分から割り込みを受信する。この割
り込みに対してＣＩＯは割り込み承認を送出して応答し
、データバス４７０上にベクタを宣言する。（ｊ０４２
６はまた、時間又は日付カウンタを含んでいる。

デマルチプレクサバッファ４７２及びキャッシュデータ
ＲＡ　Ｍ４４４は両方とも、伝送データバス４８８に対
して双方向的に結合されており、伝送データバスは次い
で、ＭＦＢデータバッファ４９０と双方向的に通信して
いる。ＭＦＢデータバッファ４９０は次にＭＦＢ２００
　と、データ情報を双方向的に通信している。

上述の説明を所与のものとすれば、ＵＰＵのオペレーシ
ョンは当業者には明らかであろう。

しかし以下に説明するソフトウェアのオペレーションの
理解を助けるために、ＵＰＵのオペレーションを簡潔に
記述することとする。プロセッサ４００．４０２又は４
０４は、バス４０８に沿って通常の手法によりデータを
リクエストする。もしもデータがキャッシュ内にあるの
ならば、情報はリクエストを行ったプロセッサに供給さ
れる。

データがキャッシュ内になければ、リクエストハＳ　Ｂ
　Ｂの残余の部分に対して、特にメインメモリに対して
行われる。データが一旦得られたならば、そのデータは
ＭＦＢデータバス４８８、デマルチプレクサバッファ４
７２　、及びバス４７０を介してデータバスバッファ４
１２及びバス４０８へと進んで、リクエストを行ったプ
ロセッサに供給される。リクエストを行ったプロセッサ
に情報を提供するのと同時に、データはキャッシュデー
タＲＡ　Ｍ４４４内のＲＥＡＤ　ＭＩＳＳという個所に
格納される。ＳＢＢの要素の何れかによるメインメモリ
２５０のアドレスへの書き込みオペレーションの際に、
もしも当該アドレスが先行する何等かのオペレーション
によってＴＡＧＲＡＭ４３０に格納されているものであ
ったなら、キャッシュは最新化される。このことはＷＲ
ＩＴＥ　ＨＩＴと称される。好ましくは、上記のオペレ
ーションにおいてパリティもまた読み出され、格納され
る。情報を書き込むことによってＵＰＵのキャッシュ４
４４を最新化する代わりに、有効化／無効化オペレーシ
ョンを行うことによってＵＰＵのキャッシュ４４４を最
新化してもよい。

Ｕ　Ｐ　Ｕ２２０によって受は取られたＭＦＢ２００か
らのデータは、その後ＭＦＢバッファ４９０によって受
信されるものであり、当該データはこのバッファからバ
ス４８８を介してデマルチプレクサバッファ４７２へと
送られ、そして上記に説明したように進むものである。

場合によっては、公知のデータをキャッジ、　ＲＡ　Ｍ
４４４内にセットすることが適当であり、その場合には
上記に説明した「フラッシュ」的な特徴が用いられるで
あろう。ＵＰＵの他の機能的な側面は、後述のプロセス
ソフトウェアについての議論から明らかになるであろう
。

第５ａ図を参照すると、第２図のＩ　ＯＰ２３０が概略
的なブロックダイヤグラムの形式で示されている。先に
記載したように、通常の信号を省略することによって第
５図は簡単化されており、それによって本発明に関する
特徴をより明瞭に表現できるようにしている。例えばナ
ショナル社製の３２０１６型マイクロプロセツサ及び３
２２０１型ＴＣＵである、ＩＯＰ　　ＭＰＵ及び関連す
るタイミング制御ユニット５００は、直接メモリアクセ
ス即ちＤＭＡエンジン５０２と並列に構成されている。

ＩＯＰ　　ＭＰＵ及びＤＭＡエンジンの各々は、ＭＦＢ
２００及び入出力チャネル５０と双方向通信している。

通常のＣＲＣ（巡回冗長符号）生成及び検査ロジック５
０４がまた、入出力チャネル５０とＩＯＰ　　ＭＰＵ５
００の間で通信するために結合されている。さらに、Ｉ
ＯＰ　　Ｍ　Ｐ　Ｕ３００　とＤＭＡエンジン５０２は
、ライン５０６を介して直接に通信することができる。

プロセッサ５００は、双方向のアドレス／データバス５
０８を介して、Ｉ　ＯＰ２３０の残りの部分と通信して
いる。このバス５０８は、局所ＲＡＭ５１０　、ＥＰＲ
ＯＭアレー５１２、及びＩ　ＯＰ２３０のための診断情
報を包含しているＥＥＰＲＯＭＥＰＲＯＭアレー５１２
いる。

Ｉ　ＯＰ　　Ｍ　Ｐ　Ｕ３００は、例えば３２キロバイ
トの大きさのＥ　Ｐ　ＲＯＭ５１２内に格納されている
ファームウェアを実行する。局所ＲＡ　Ｍ５１０は、フ
ァームウェアによって必要とされるような内部データ記
憶装置を提供する。

Ｉ　ＯＰ２３０の一般的なオペレーションは、第５ｂ図
に示されたファームウェアの流れ図から理解することが
できる。通常のＩＯＰの動作はＲＰ　Ｕ２１０によって
開始されるものであり、この動作には自己試験及び初期
化（先に第２図に関して説明した）が含まれる。コント
ローラが情報の転送をリクエストしている場合には、こ
のＩＯＰの制御プログラムは、当該転送を行うように分
岐する。どのコントローラもデータの転送を欲していな
い場合には、制御プログラムは、チャネルプログラムが
実行待ちをしているかどうかを判定するためにチェック
を行う。ＲＰＵ２１０は、Ｉ　ＯＰ２３０によって実行
されるためのチャネルプログラムを生成する。このチャ
ネルプログラムは一つまたはそれ以上の転送コマンドを
含んでおり、それらのコマンドのいずれもが、メインメ
モリ　（ＭＦＢを介して）と入出力チャネルに結合され
たコントローラとの間での何れかの方向における転送を
要求することができる。もしチャネルプログラムが実行
待ちをしているのであれば、制御プログラムは分岐して
、一度に−コマンド宛、当該プログラムを実行する。チ
ャネルプログラムが転送を要求しているかどうかに依存
して、制御プログラムは必要ならば関連するコントロー
ラに割り込みを掛け、又は再スタートへとループして戻
る。

実行待ちをしているチャネルプログラムが存在しない場
合には、制御プログラムは、ＲＰＵからの新しいチャネ
ルプログラムがレディ状態にあるかどうかをチェックす
る。何もチャネルプログラムが存在しなければ、制御プ
ログラムはスタートへとルー　プする。しかしＲＰＵか
らのチャネルプログラムがレディ状態であった場合には
、そのチャネルプログラムの実行が開始され、特定のコ
ントローラに割り込みが掛かる。

当該コントローラは割り込み以外の総ての転送を開始す
る。そして該コントローラは転送リクエストをもって応
答し、ＩＯＰプロセッサ５００は制御情報を送出して、
当該コントローラに対し、該コントローラを想定してい
るチャネルプログラムが実行されていることを知らせる
。

ＩＯＰ　　ＭＰＵ５００は次いで、チャネルプログラム
コマンドの実行へと進む。コマンドが転送を要求する場
合には、コントローラには再度の割り込みが掛かる。

データ又はＲＰＵによって生成された制御情報のブロッ
クの転送が必要な場合には、ＩＯＰ制御プログラムはＤ
ＭＡロジックをスタートさせて、転送を迅速に実行する
。ＩＯＰ　　ＭＰＵ５００は、制御情報の単一の１６ピ
ツトワードをｌ０Ｐ２３０からコントローラへ、及ヒコ
ントローラから転送する。チャネルプログラムにおける
最後のコマンドは常に、当該チャネルプログラムが完了
したということをコントローラに知らせるような、制御
の転送を生じさせる。このような転送の後、Ｉ　ＯＰ２
３０はＲＰＵに対し、チャネルプログラムが完了したこ
とを通知する。

チャネルプログラム中の転送コマンドは、メインメモリ
のロケーションと、転送の長さを特定する。単一の転送
において、幾つかのロケーション及び長さをチェイニン
グ（論理的な順序付け）することができるが、これはＩ
ＯＰＭＰ　Ｕ３００によって行われるものである。ＩＯ
ＰＭ　Ｐ　Ｕ３００はチェイニングされた各データ毎に
ＤＭＡエンジン５０２をスタートさせ、該エンジン５０
２は当ｉＤＭＡの終わりに停止する。

ＤＭＡエンジンによって制御された転送のために、巡回
冗長符号ＣＲＣが、ＩＯＰ　　ＭＰＵ５００及びコント
ローラによって累積される。転送の終わりには、ＩＯＰ
　　ＭＰＵ５００がコントローラによって累積されたＣ
ＲＣを読み出し、エラーをチェックするために、これを
ＩＯＰによって累積されたＣＲＣと比較する。

ＲＰＵは１０　Ｐ２３０に対し、多くのチャネルプログ
ラムを並列的に処理することをコマンドできる。単一の
コントローラのための多数のチャネルプログラムを並列
に実行することも可能である。各々の転送は、コントロ
ーラに対して、該コントローラが関係するチャネルプロ
グラムについて知らせるための識別子を転送することを
含む。コントローラは必要な場合に、例えばディスクが
オフラインとされた場合に転送を開始することができる
。そのような場合、ディスクコントローラは、関係のあ
るＳＢＢに対して通知を行うためのプログラムを開始す
る。そしてそうなった場合には、ＩＯＰ　　ＭＰＵ５０
０は情報をＲＰＵへと回す。

さて次に第６図を参照すると、システム相互結合ボード
（Ｓ　Ｉ　Ｂ）２４０の詳細が示されている。

Ｓ　Ｉ　Ｂ２４０は、Ｍ　Ｆ　Ｂ２００と二連の通常の
ＬＡＮケーブル２３２及び２３４（第２図）との間のイ
ンタフェースを与えるものである。Ｓ　Ｉ　Ｂ２４０は
独立した二つの、しかし同一のユニット６００を含んで
いて、これは二つの別個のＬ　Ａ　Ｎ　ＩＪンク３０及
び４０をインタフェースするものであるが、第６図には
その一つのみしか完全には示されていない。ポート調停
子ロジック６０２を含む通常の調停ロジックとＭＦＢ制
御Ｐ　Ａ　Ｌ６０４が、特定の場合において二つのユニ
ット６００の内のどちらが通信用に使用されるかを決定
する。各々のユニット６００は好ましくは、アメリカ電
気・電子工学技術協会即ちＩＥＥＥの規格８０２．３に
対して適合性があるように設計される。しかし本発明か
ら離脱することなしに、他の形式のイーサネットデバイ
スに適合するように変更されることもできる。

各々のユニット６００は、関連するＳＢＢのＲＰＵ２１
０又はＵ　Ｐ　Ｕ２２０の何れかから、ＭＦＢ２００を
介してアクセスされる。好ましい実施形態においては、
ソフトウェアを支援するためのどのような局所プロセッ
サも設けられない。イーサネットにより必要とされる条
件の故に、コマンド構造がＳ　Ｉ　Ｂ２４０のＲＡＭに
格納されることが必要であり、また３２ビツトの境界か
ら開始するためにデータのブロック化が必要とされる。

ＳＩＢは、キャッシュ制御Ｐ　Ａ　Ｌ６ＱＢによって制
御されている例えば８バイトのキャッシュ６０６を介し
て、Ｍ　Ｆ　Ｂ２００からデータを受は取りまた伝送す
る。ラッチ６１０がキャッシュ６０６と並列に結合され
ている。このラッチは、状態レジスタ６１２及び制御レ
ジスタ６１４の各々と、並びに例えば８キロバイトの局
所ＲＡ　Ｍ６１６、パリティＲＡＭ６１８及び持久ＲＡ
　Ｍ６２０及び別のラッチ６２２と通信している。局所
ＲＡＭ６１６、パリティＲＡＭ６１８及び持久ＲＡ　Ｍ
６２０の各々は、ラッチ６２６を介してＭＦＢ２００に
結合されているアドレスバス６２４から、アドレス情報
を受は取る。アドレスバス６２４はまた、スレーブポー
トアドレスデコードロジック及び関連する制御Ｐ　Ａ　
Ｌ６２８ａ−ｂに対して情報を供給する。

ラッチ６２２からの情報は、例えばインテル社の８２５
８６型デバイスであるローカル通信コントローラ（ＬＣ
Ｃ）６３０と双方向通信する。また、Ｌ　ＣＣ６３０は
キャッシュ６０６と直接に、且つ双方向的に通信する。

ＬＣＣは次いで、ＬＡＮ）ランシーバ６３２及び適当な
エンコーダ／デコーダ６３４を介して、ＬＡＮ’Ｊンク
３０と双方向的に通信する。エンコーダ／デコーダ６３
４は例えば、シーク社の８０２３型デバイス又はインテ
ル社の８２５０１型デバイスによって与えられるような
、マンチェスタエンコーディング方法を使用するもので
ある。Ｌ　ＣＣ６３０はＬＣＣ制御Ｐ　Ａ　Ｌ６３６と
双方向通信し、このＰＡＬは次いで、ポート調停ロジッ
ク６０２　と通信している。

Ｌ　ＣＣ６３０から受信された、入って来るアドレス情
報は、ＬＣＣアドレスラッチ６３８　に対して供給され
、次いでデコーダ６４０、キャッシュタグ比較及びラッ
チ６４２、そして最後にはバッファ６４４及びラッチ６
２６を介してＭＦＢへと供給される。

次に第７ａ図を参照すると、メインメモリ２５０の物理
的な構造がより良く理解できるであろう。

Ｍ　Ｆ　Ｂ２００は、適当なラッチ、デコーダ及び翻訳
ＦＲＯＭを含むアドレスロジック７００に対してアドレ
ス情報を供給し、このアドレスロジックは次に、例えば
８２０７型デバイスの如きダイナミックＲＡＭコントロ
ーラ７０２に対して物理的アドレスを供給する。このＤ
ＲＡＭコントローラ７０２からのアドレス情報は次に、
ＤＲＡＭアレー７０４に対して供給される。

ＭＦＢ２００はまた双方向ラッチ７０６を介してメモリ
２５０へとデータを通信し、このラッチは。

次にパリティロジック７０８、データバッファ７１０及
びエラー検出及び訂正ロジック７１２と通信する。エラ
ー検出及び訂正ロジック７１２は、例えば８２０６型デ
バイスのアレーを含んでいる。データバッファ７１０は
次にＤＲＡＭアレー７０４　と双方向的に通信するが、
このＤＲＡＭアレーはどのような大容量のものであって
もよい。しかし好ましくは４から１２メガバイトの範囲
内のものである。ＤＲＡＭアレー７０４はまた、数ある
メモリデバイスの何れかで代替することができ、出力デ
ータを一組のデータ出力バッファ７１４に対して供給す
る。出力バッファ７１４は、バッファ７１０及びラッチ
７０６を介して、出力データをＭＦＢ２００に戻す。メ
モリ２５０は、ＲＰ　Ｕ２１０及びＬｊＰＵ２２０の両
方からアドレス可能なものである。

メモリ２５０の機能的な構成は、第７ｂ図からより良く
理解することができる。そこには、本発明のシステムソ
フトウェアによって必要とされる、メモリの区分けが示
されている。ＤＲＡＭアレー７０４と互換性のあるメモ
リアレー７２０は、バッファキャッジ５７２２、メツセ
ージプール７２４、ユーザスペース７２６及びＵＰＵコ
ード７２８へと分割されている。ＲＰＵ制御プログラム
はＲＰＵ内の局所メモリに存在することが認識されるで
あろう。ＲＰ　Ｕ２１０及びＵ　Ｐ　Ｕ２２０は両方と
も、バッファキャッジ５７２２及びメツセージブール７
２４をアドレスすることができ、メインメモリのこれら
の部分は、以下に詳細に説明するように、衝突を防ぐよ
うに適当にロックされている。

バッファキャッジ５７２２の大きさは、完全にソフトウ
ェアによって定義されるものであり、ディスク１２０−
１５０’のためのキャッシュ格納エリアを提供するもの
である。メツセージブール７２４も同様にメモリによっ
て定義されるものであって、以下でさらに説明するよう
にして、システム内で別々に指定される多くの要素の間
での通信を容易にするために用いられる。

〔作用〕

上記のハードウェアを用いることにより、本発明のプロ
セスに関連した特徴を説明することが可能になる。本発
明のこのような特徴をより明確に記載するために、他の
通常の特徴についての議論は、当業者に自明であるもの
として省略することにする。なぜなら当業者は多数のユ
ーザによる、マルチプロセッサオペレーティングシステ
ムを良く知っているものと思われるからである。特に、
仮想メモリを含むメモリの管理、フロセッサスケジニー
リング、プロセス及びプロセッサの両者のための同期装
置、メツセージの通過、通常のデバイス駆動装置、端末
及びネットワークサポート、システム初期化、割り込み
管理、システム呼出装置、及び管理的装置等の如きに対
するかかるオペレーティングシステムの必要条件につい
て、当業者は充分な知　　　−識を持っているであろう
。

本発明のプロセスに関連した特徴の内の幾つかのものを
評価するためには、本発明の詳細な説明するために用い
られる一般的な用語の幾つかを簡単に説明するのが適当
であろう。本発明において使用されている、ファイルの
命名についての規則は、システムのオペレーションを理
解するのに役立つであろう。本発明は好ましくは、ＵＮ
ＩＸにおいて見出されるのと同様な階層ファイルシステ
ムを使用するが、しかし多数のＳＢＢの使用を許容する
ように拡張されている。

通常のＵＮＩＸの場合の如く、オンラインにあってアク
セス可能なファイルシステムはマウント即ち取りつけら
れたものとして描かれる。

しかし一時的又は永久的に利九可能でないファイルシス
テムは、取り外されたものとなる。本発明のオペレーテ
ィングシステムは、後に詳しく議論するようにして、シ
ステム全体のためにマウントされたファイルシステムに
ついてＵＩＤ（後述）のリストを、当該ファイルを所有
しているＳＢＢを含む各々のＳＢＢのＲＰＵメモリ内に
保持するものである。本発明による命名の規則及び取り
つけられたファイルシステムのリストによって、どのＳ
ＢＢのどのディスクにファイルが存在するのかを知らな
くとも、遠隔のＳＢＢが所有するディスク上のファイル
をプログラムによってアクセスすることができる。

回復プロセスについての議論においてさらに扱われるよ
うに、どのファイルシステムもオートマウントピットを
有し、このビットはＳＢＢが当該ファイルシステムが存
在するディスクを所有した場合に、当該のファイルシス
テムが自動的にマウントされるようにする。

ＵＮＩＸのディスク区分と同様に、本発明のファイルシ
ステムは論理ボリューム内、にマウントされるが、しか
し論理ボリューム内に多数のディスクを有しうるように
、またボリュームの多数の鏡像的（同一の）コピーを含
むことを可能ならしめるように拡張されている。論理ボ
リュームはその中にマウントされたファイルシステムを
有していても、有していなくとも良いが、ファイルシス
テムが論理ボリュームなしに存在することはできない。

ファイルシステム内に存在するファイル、及びブロック
は、ファイルの部分を構成する。

ファイルシステムは多数のディスク、即ち多数のディス
ク駆動装置の部分にわたって跨がることができ、論理ボ
リュームは一つ又はそれ以上の物理ディスクの総て又は
一部の位置を記すことができる。また、論理ボリューム
は従来技術の通常の故障寛容システムと同様にデュプレ
ッ°クス（二つのシステムの一方を待機させて、切り換
え動作可能なようにしておくシステム）とすることがで
きるだけでなく、ｎ個の間での切り換えを可能にするこ
ともできる。

各々の論理ボリュームは二つの部分を含んでいる。即ち
データ格納部分及びログである。ログは論理ボリューム
の比較的小さな部分、通常５から１０パ一セント程度を
形成し、システムによって処理されているトランザクシ
ョンに関する情報を特に格納するものであるが、これに
ついての詳細は後述する。また各々のログのために、メ
インメモリ２５０の一部はログバッファとして確保され
る。このログバッファは、バッファキャッシュに対する
付属部分を形成する。

本発明のシステムは、システムのキーとなる特定の資源
の追跡を行うが、これは各々のそのような資源に対して
システム全体の中で固有の識別子を割り当てることによ
って為されるものである。このような識別子をＵＩＤと
称することとする。ＵＩＤは各々の通信インタフェース
、各々のディスク、各々のトランザクション統合子（以
下でさらに定義）、各々のボリューム、各々のファイル
システム及び各々のファイルといった資源に対して割り
当てられるであろう。

システム全体にわたるアドレス指定を行つためにＵＴＤ
を使用することは、本発明で接続システムとして参照さ
れる。

各々のＵＩＤは、６４ビツトのワードの一部として、関
連するＲＰＵについての連続番号情報である２２ビツト
、シーケンス番号についての１０ビツト及び日時即ちタ
イムスタンプ情報につぃての３２ビツトを含んでいる。

クロックが逆に進まず、プロセッサの連続番号が繰り返
されない限り、システム全体にわたっての独自性が保証
される。シーケンス番号はクロックが進む毎にリセット
され、新しいＵＩＤが割り当てられる毎に増加される。

次に割り当てられるべきＵＩＤは、ＵＰＵ２２０及びＲ
Ｐ　Ｕ２１０の両方からアクセス可能なメインメモリ２
５０の一部に保持されている。どのＵＩＤも関連するキ
ューを有するが、このキューはメモリの割り当てをして
キューを開放することによって生成されるものである。

システム全体のために開いた総てのＵＩＤは、システム
内の各々のＳＢＢのメインメモリ２５０内にあるテーブ
ルに保持されている。

システムの資源に対して一旦ＵＩＤが割り当てられたな
らば、その資源は単に当該資源のＵＩＤを使用すること
により、メツセージを処理しているシステムによって特
別に且つ直接に７２　ドレス指定される。メツセージは
次いでＵＩＤのキューによって受は取られ、さらに処理
される。

ＳＢＢが自分が所有していないＵＩＤを指定したメツセ
ージを受は取った場合には、そのＳＢＢはＵＩＤを調査
して他のどのＳＢＢが当該ＵＩＤを有しているのかを判
定し、当該能のＳＢＨに対してメツセージを送出する。

他のＳＢＢが故障しなお別のＳＢＢにより回復を受けて
いることなどを含む多くの理由から、メツセージを受は
取ったＳＢＢは、ＵＩＤの所有者であるとして自己を識
別することによって応答しないかもしれない。そのよう
な場合には、メツセージを送出したＳＢＢは総てのＳＢ
Ｂに対して、ＵＩＤを所有しているＳＢＢを識別するた
めのメツセージを送出する。当該ＵＩＤの新たな所７有
者であるＳＢＢが突き止められた場合には、送出を行っ
たＳＢＢは当該所有者であるＳＢＢにメツセージを送出
し、そこで当該メツセージの処理が行われ得る。また、
送出を行ったＳＢＢは自己のテーブルに、前記ＵＩＤの
新たな所存者を入力する。

また、上記に説明したＵＩＤの直接のアドレス指定の他
に、間接的なアドレス指定を使用することも可能である
。このアドレス指定においては、メツセージを受信する
ために複数のＵｒＤが確立され、そして接続システムが
これらのＵＩＤに送出されたメツセージを単に再度方向
付けするものである。そのような間接的なＵｒＤの一つ
の使用法には、ファイルシステムキニ−ＵＩＤ　（ＦＳ
ＱＵＩＤ）　、即ちメツセージブール内のキューであっ
て、それに対して特定のファイルシステムが送出される
ものが含まれる１以下において詳細に説明するように、
あるＳＢＢが故障した場合には、接続システムが、シス
テム内にある残りのＳＢＢによって保持されている開い
たＵＩＤのテーブルから、故障したＳＢＢによって所有
されていたＵＩＤを削除する。

やはり以下において詳細に説明するように、これらの削
除されたＵＩＤは次いで、本発明の回復システムによっ
て再度確立される。

上記の階層ファイル及び接続システムを念頭におけば、
本発明の下でトランザクションを処理するについての段
階を理解することができょう。トランザクションは常に
ユーザープログラムから開始される。これは即ち、トラ
ンザクションが常にＵ　Ｐ　Ｕ２２０において開始され
ることを意味する。各々のトランザクションは典型的に
は、入出力読み出し、入出カ書き込み、ロギング、トラ
ンザクション遂行、トランザクション中止、及び内部プ
ロセス通信を含む、幾つかの段階を包含する。これらの
機能の各々は、Ｒ’　　　ＰＵ２１０とＵＰＵ２２０（
７）間、及ヒシステムノ他の部分との共働を含む。

基本的にはアプリケーションコードの処理ヲ意図してい
るＵ　Ｐ　Ｕ２２０は、システム呼出インタフェース、
ファイルシステムバッファキャッ・　　シュ探索、他の
同期ユーザー機能、単一のＳＢＢ内での内部プロセス通
信、及びある種の低レベルメツセージ並びにＲＰＵに関
する割り込み処理を提供するものである。

ＲＰＵは特に、それによってハードウェアからよす高い
レベルのソフトウェアへと割り込みが指定されるところ
の多数の実行プロセス即ちスレッダ（ｔｈｒｅａｄｓ）
　、システム内での物理的目的物の発見、論理ブロック
から物理ブロックへのマツピング、スペース割り当て及
びボリューム管理を含むファイルシステムの取す扱い、
トランザクションイメージ管理、Ｓ８８間での内部プロ
セス通信、低レベルメツセージ取り扱い、及びディスク
入出力を行うためのディスク駆動装置を含んでいる。こ
れらのＲＰＵの特徴の内の少なくとも幾つかは、実時間
実行プログラム（ＲＴＥ）によって提供される。ＲＴＥ
はＲＰＵ内で走り、第１図から第７図において説明した
システムのハードウェアと、アプリケーションプログラ
ム又はユーザーレベルプログラムの如き高レベルソフト
ウェアとの間を繋ぐ連結ソフトウェアである。

オペレーティングシステムによってリクエストされるＲ
ＰＵ内に含まれるプロセスは、本明細書においてトラン
ザクション統合子と称することがあるトランザクション
管理（ＴＭ）プロセス、一つ又はそれ以上の入出カサ−
バー（１０）及び非同期入出力を完了するための非同期
サーバー（ＡＳＣ）を含んでいる。ＲＴＥはまた、シス
テムの残りの部分によって必要とされるのに応じて処理
の間の適当な時にプロセスが保留され（「眠らされ」）
又は復活され（「呼び起こされ」）ることを可能ならし
める。プロセスが保留されている場合、ＲＰＵ２１０　
及ヒＲＴＥは他のオペレーションを行う。

システムのソフトウェアとＵ　Ｐ　Ｕ２２０及ヒＲＰＵ
２１０で作動しているユーザーのソフトウェアとの間の
関係、及びトランザクション処理の際のこれらの相互作
用は、後述する第８ａ図−第８ｄ図からより良く理解さ
れるであろう。ＵＰ　Ｕ２２０の枠組みの中には、ユー
ザープログラムおよびオペレーティングシステムの一部
、並びにＵＰＵファームウェアの核が存在する。ＲＰ　
Ｕ２１０の側には、ＲＴＥの核、ＲＴＥプロセスＴＭ、
ＩＯ及びＡＳＣが存在する。

トランザクションは常にユーザープログラム即ちユーザ
ープロセスから開始される。ユーザープロセスは、ＵＰ
Ｕのオペレーティングシステムに対し、「トランザクシ
ョン開始」と称するシステム呼び出しを行う。この「ト
ランザクション開始」という呼び出しは、ＵＰＵが当該
トランザクションのためにカーネル（核）データ構造を
自動的に生成するようにし、このデータ構造はＲＰ　Ｕ
２１０内のトランザクション統合子プロセスによって管
理される。

ＲＰ　Ｕ２１０内に存在するトランザクション統合子は
、当該トランザクションに関連するファイルシステムの
各々を、該ファイルシステムを所有しているＳＢＢのＲ
ＰＵに対してメツセージを送出することによって通知す
る。関連するファイルシステムを有している遠隔のＳＢ
Ｂの各々は次いで、当該関連するファイルシステムのた
めに、局所トランザクション制御構造を確立する。アプ
リケーションプログラムがファイルからの情報を要求し
たり或いはファイルに情報を書き込んだりする場合には
、ファイル開放リクエストはトランザクションの際にロ
ックが適用されるようにする特性を含んでよい。

本発明の下では、ロックを行うことはファイルレベル又
はブロックレベルの何れかにおいて行われる。ファイル
レベルでのロックは、ユーザーによりリクエストされた
場合にはファイルの開放に際して自動的に適用される。

ブロックレベルでロックを行うには、〇−制御特性と称
する特別の属性の使用が必要とされる。

ファイルレベルでは四つのタイプのロックを適用するこ
とができる。先ず第一のタイプである排他的ロックは排
他的な読み出し／書き込みのアクセスをもたらし、ブロ
ックレベルで０−制御特性が用いられているかどうかと
は無関係に読み出しの再現性及びトランザクションの際
のファイルに対する一貫性を保証し、そしてブロックレ
ベルのロックによって遅延されることはない。第二のタ
イプである共有ロックは読み出し専用のアクセスをもた
らし、他のどのようなプロセスもファイルに対して排他
的又は専心排他的ファイルロックを行わないようにし、
読み出しの再現性及びファイルの整合性を保証し、どの
ようなブロックレベルのロックによっても遅延されない
。第三のタイプは専心排他的ロックであり、これは読み
出し／書き込みのアクセスをもたらし、他のどのような
プロセスもファイルレベルでの排他的又は共有ロックを
行わないようにするが、〇−制御特性が設定されない限
りは読み出しの再現性を保証せず、ブロックレベルのロ
ックと衝突することによって遅延される（このタイプの
ファイルレベルでのロックは、通常オンライントランザ
クション処理に使用されている）。最後に第四のタイプ
である専心共有ロックは、読み出し専用のアクセスをも
たらし、他のどのようなプロセスもファイルレベルの排
他的ロックを行わないようにするが、ブロックレベルの
ロックのために〇−制御が設定されなければ一貫性のあ
る読み出しを保証せず、ブロックレベルのロックと衝突
することによって遅延される。

〇−制御特性を使用することによって得られるブロック
レベルでのロックには、二つのタイプがある。一つ目は
共有タイプであり、これはプロセスがあるブロックを読
み出した場合に自動的に生じ、そして他のプロセスが当
該ブロックについて排他的ロックを得ることのないこと
を保証する。もうひとつは排他的タイプであり、これは
プロセスがあるブロックに書き込みを行い或いは「書き
込みロックと共に読みだす」というシステム呼び出しを
実行した場合に生ずるものであって、他のプロセスがト
ランザクションの間に当該ブロックについて共有又は排
他的ロックのいずれをも得ることができないことを保証
する。

リクエストの際に探索されているブロックが別のプロセ
スからのロックを受けている場合には、当該ブロックが
利用可能となりロックをすることができるようになるま
でリクエストを行ったプロセスは保留され、その後再度
試みられる。しかしながら幾つかの場合には、デッドロ
ックが生ずる可能性も理論的には存在する。そのような
場合には、即時デッドロック検出が局所的にもたらされ
、例えばシステムの待ちを終了させるためのタイムアウ
トによって、遠隔のデッドロックに対する解決が行われ
る。

あるトランザクションにおいて探索されているファイル
は、局所のＳＢＢ又は遠隔のＳＢＢの何れに存在するこ
ともできる。ファイルが局所的である場合には、読み出
し及び書き込みリクエストはＵ　Ｐ　Ｕ２２０にあるフ
ァイルマネージャーへと直接に通過される。リクエスト
された情報が当該ＵＰＵのバッファキャッシ二内に見出
されたなら、当該情報はリクエストを行っているプロセ
スへと単に戻される。

しかしながら、もしも当該情報がバッファキャッシュ内
に存在していない場合、即ち遠隔のＳＢＢに存在してい
る場合には、ＵＰＵは当該データを発見し伝送するよう
にＲＰ　Ｕ２１０に対してリクエストを伝送する。当該
データがある遠隔のＳＢＢにあるならば、当該トランザ
クションの始まりにあたって確立された当該遠隔のＳＢ
Ｂの局所データ構造は適当なロックを得て、当該データ
即ち情報を、リクエストを行っているＳＢＢへと送出す
る。遠隔のＳＢＢに対するファイルロックは局所のＳＢ
Ｂに対するファイルロックと同一に取り扱われ、従って
適当なレベルのロックが利用可能になるまで、〇−制御
特性を有するどのようなファイルも待つようにされる。

トランザクション開始オペレーションが一旦完了したら
、当該トランザクションはユーザープログラムによって
要求されるところに従って処理される。オンライントラ
ンザクションの特徴的な部分は、入出力読み出しを行う
ことである。本発明のシステムにおいては読み出しオペ
レーションに四つのタイプがあるが、これらはそれぞれ
第ｇａ−ｄ図からより良く理解されるであろう。

第８ａ図に示された第一のタイプの読み出しオペレーシ
ョンにおいては、所望のデータはバッファキャッシュに
含まれており、ディスクに対するアクセスは要求されて
いない。このタイプの読み出しにおいては、Ｕ　Ｐ　Ｕ
２２０に存在するユーザープログラムはメインメモリ２
５０内に存在するバッファキャッシュの部分に対して呼
び出しく１）を行い、そこでデータを捜し出す。キャッ
シュは次いで、当該データをユーザープログラムへと直
接に戻す（２）。

第８ｂ図に示された第二のタイプの読み出しオペレーシ
ョンにおいては、キャッシュは情報を含んでおらず、当
該要求されているデータを有しているディスク及びファ
イルシステムは局所的である。この第二のタイプの読み
出しオペレーションにおいては、ＵＰＵにおいて走って
いるユーザープログラムはやはりバッファキャッシュを
探索するための呼び出しく１）を行うが、しかしキャツ
シュヒツトはない。このことはＵＰ　Ｕ２２０がＲＰ　
Ｕ２°１０で走っている入出カサ−バープロセスに対し
てメツセージ（２）を送出するようにし、そして入出力
サ−バーは次いで局所のボリュームマネージャーに対し
て呼び出しく３）を行う。

次にボリュームマネージャーはＲＴＥに対してシステム
呼び出しく４）を行って、データが局所ディスクから回
復されるようにする。このＲＴＥの駆動装置はここでデ
ータをボリュームマネージャーに対して供給（５）シ、
ボリュームマネージャーは次いで該データを入出力サ−
バーへと伝送（６）　する。そして入出カサ−バーは、
データと共に直接にメツセージ（７）をユーザープログ
ラムへと送出する。

第８Ｃ図に示された第三のタイプの読み出しオペレーシ
ョンは、キャツシュヒツトがなり、入出カサ−バーが局
所的であり、データを含んでいるディスクが遠隔にある
状態を包含する。このような場合、ユーザープログラム
はキャッシュに対して呼び出しく１）を行い、キャッシ
ュは「キャッシュミス」としてメツセージ（２）をＲＰ
Ｕの入出力サ−バーに対して送出する。入出力サ−バー
は次いで局所ボリュームマネージャーに呼び出しく３）
を掛けるが、ボリュームマネージャーはデータを有する
ディスクが局所的でないことを判定する。

次にボリュームマネージャーは、データを有しているデ
ィスクを所有しているとしてＵＩＤによって識別された
ＳＢＢのＲＰＵで走っている遠隔のディスクサーバープ
ロセスに対してメツセージ（４）を送出する。そこでデ
ィスクサーバープロセスは第８ｂ図の場合と同様にして
ＲＴＥ駆動装置に呼び出しく５）を行い、データはディ
スクプロセスへと戻される（６）。ディスクプロセスは
データを含んでいるメツセージ（７）をボリュームマネ
ージャーに戻すよう送出し、ボリュームマネージャーは
関連する入出力サ−バーに応答（８）する。入出力サ−
バーはそこでメツセージ（９）をデータと共に、直接に
ユーザープログラムへと戻す。

上記した三つのタイプの読み出しオペレーションは、フ
ァイルが読み出し専用ファイルである場合、或いは読み
出し専用ではないがシステムの他のＳＢＢの何れかによ
って書き込まれていない場合にのみ使用可能なものであ
る。四番目のタイプの読み出しオペレーションは、読み
出し専用ファイル、読み出し／書き込みファイノペ及び
読み出し又は書き込みの何れかのために〇−制御特性で
もって開かれたファイルについて使用される。

第８ｄ図に示された四つ目のタイプの読み出しは、局所
ユーザープログラム、遠隔ファイルシステムを含み、キ
ャツシュヒツトはしないがディスクと同じＳＢＢに存在
するファイルシステムを含んでいる。この例は〇−制御
特性を使用するファイルの開放、或いは後述するような
ファイルの書き込みにも適用されるものである。

この四つ目のタイプのオペレーションにおいては、ユー
ザープログラムに関連するオペレーティングシステムは
遠隔のＲＰＵの入出カサ−バーに対してメツセージ（１
）　を直接に送出し、当該遠隔の入出カサ−バーは局所
ボリュームマネージャーに対してシステム呼び出しく２
）　を行う。ボリュームマネージャーはこれまで説明し
た他のタイプの読み出しの場合と同様にしてＲＴＥ駆動
装置に対してシステム呼び出しく３）を行い、そして情
報はボリュームマネージャーへと戻るように提供（４）
される。前と同様に、ボリュームマネージャーはデータ
を入出力サ−バーへと戻す（５）。遠隔の入出力サ−バ
ーは次いで、メツセージ（６）をオペレーティングシス
テムへと直接に、つまりユーザープログラムへと送出す
る。

第８ｄ図において示されたプロセスについて説明された
段階は、データの状態が許すならば、第８ａ−ｃ図の段
階を組み込んでよいことが認識されるであろう。

第８Ｃ図及び第８ｄ図を再度検分してみると、本発明の
システムが二つのレベルの遠隔の度合ヲ取り扱うことが
できるということが明らかになる。最初の遠隔レベルは
高レベルで生じ、第８ｄ図に示された如き遠隔の入出力
サ−バーを含むが、第二の遠隔レベルはディスクという
低レベルで生じて、遠隔のディスクにアクセスするため
にボリュームマネージャーを介して作動する。

さらに、前述したダイヤグラムから、入出カサ−バーが
常に局所ボリュームマネージャーを呼び出し、ボリュー
ムマネージャーはディスクそれ自体が局所的であるか遠
隔にあるかを判定することが理解されよう。当該ディス
クが局所的であれば、ボリュームマネージャーはＲＴＥ
を呼び出す。遠隔にあるのならば、ポリニームマネージ
ャーはメツセージを遠隔のディスクサーバーに対して送
出する。ボリュームマネージャー及び遠隔のディスクサ
ーバーは両方共、常にＲＰＵで走っている。

第８ａ図から第８ｄ図に示された読み出しオペレーショ
ンにおいては、ロックを行う段階は簡単化のために記載
されていない。しかしながらロックを行うことは第一段
階において、即ちキャッシュに呼び出しを行う直前（第
８ａ図から第８ｃ図）又は入出カサ−バーに呼び出しを
行う直前（第８ｄ図）に生ずる。各々の関連するファイ
ルシステムのための入出カサ−バープロセスが、必要に
応じてロックを実行する。適当なレベルのロックが容易
に利用可能でない場合には、ロックリクエストはロック
キューにおいて、競合するロックをファイル又はブロッ
クに有している何等かのトランザクションが当該ロック
を解除するまで待つ。入出カサ−バーはトランザクショ
ンの完了及びロックの解除に際して当該ロックキューを
再度調査するが、それまでは他のタスクを行うために利
用可能なままとされる。

第８ａ図から第８ｄ図においては一つのＲＴＥ駆動装置
のみが示されているが、これは単に複数の同一物の内の
一つを表示したに過ぎないものであり、幾つかの同一の
ＲＴＥ駆動装置が存在していて良いことが理解されるで
あろう。そして故障寛容構造においては、少なくとも二
つの同一のＲＴＥ駆動装置がある。そのような構造は、
ＲＴＥ駆動装置との通信を含む段階の隼なる拡張を要求
するのみである。

トランザクション内での別の共通の機能は入出力書き込
みであるが、これは上記に説明した入出力読み出しに対
してかなりの類似性を有している。しかしデータの一貫
性を確保するために、幾らか異なるロック及びロギング
を必要とする。入出力読み出しの場合と同様に、作用は
、前述のファイルシステムキューＵＩＤ即ちＦＳＱＵＩ
Ｄを介して入出力サ−バーに対してメツセージを送出す
るというユーザープロセスから開始される。入出力サ−
バーはポリニームマネージャーを呼び出すが、しかしブ
ロックに対して排他的ロックを要求する。当該ブロック
をロックしていた何等かの未了のトランザクションが解
消した後、ボリュームマネージャーハ所望の排他的ロッ
クを返す。

この時点にふいて、現在の、即ち「古い」データは事前
イメージとしてログバッファにおいて待ち行列とされ、
一つ又はそれ以上の事前イメージ又は他の情報からなる
パケットにヘッダ及びトレーラを加えたものが受信され
た場合に論理ボリュームのログに書き込み即ち流し込ま
れる。このパケットは、トランザクション統合子によっ
て要求された場合、或いは一貫性を保持するために事前
イメージがディスクに書き込まれねばならない場合、若
しくはパケットが満杯の場合に、ログへと書き出される
ことができる。ヘッダは統合子のＵｒＤを含み、また種
々のポインタをも含んでいる。

事前イメージは１キロバイトのブロックで書き込まれる
。なぜなら書き込まれるレコードは典型的には１キロバ
イト以下だからである。勿論、バッファキャッシュ内に
既に事前イメージが存在しているならば、当該イメージ
はディスクから読み出されるのではなく、第４図に関し
て説明したように取り扱われる。

新たな、即ち変更されたデータはバッファキャッシュ内
に格納され、それがディスクへと書き込まれる必要があ
るということを示すフラグを付けられる。入出カサ−バ
ーは周期的に、ポリニームマネージャーが実際にブロッ
クを書き改めるようにするが、これはトランザクション
の完了時に、或いはバッファキャッシュメモリを入れ替
えるために行われる。当該ブロックのための事前イメー
ジがログバッファ内に割り当てられてはいるがまだログ
に書゛き込まれていない状態にあるのではないかという
ことを見るために、ブロックを書き込む前にログバッフ
ァの調査がなされる。もしそうならば、ＲＴＥを発動さ
せているボリュームマネージャーの制御の下に、当該ロ
グバッファが先ずログへと書き込まれる。

データが書き込まれるべきディスクが局所的である場合
には、ポリニームマネージャーはＲＰＵのＲＴＥに対し
て直接の呼び出しを行い、ディスクサーバー°を迂回す
る。しかしながら、もしもディスクが遠隔にあるならば
、ボリュームマネージャーはディスクサーバーへとデー
タを送出し、このディスクサーバーがデータを有して遠
隔のＳＢＢのＲＴＥに対して呼び出しを行う。関連する
ＩＯＰはその時点でディスクコントローラを介してディ
スクに対する通常の書き込みを行い、ボリュームマネー
ジャーに対して、ひいては入出カサ−バーに対して承認
信号を戻す。入出カサ−バーは次に、ユーザープロセス
に対して承認信号を送出する。ブロックに書き込むこと
が必要であることを示していたバッファキャッシニのフ
ラグはリセットされる。

幾つかの場合には、デッドロック又はハードウェア若し
くはソフトウェアの故障のために、完全なトランザクシ
ョンが完了されないことがある。そのような場合、故障
寛容装置がデータの破損を好適に防止する。トランザク
ションの間には何時でも失敗が生じ得るものであるから
、例えばディスクに対する書き込みが行われた後にも失
敗が生ずることはある。その場合には、データの破損を
防ぐために、ファイルを書き込みが行われる以前の状態
へと回復させることが必要となる。かかる場合に、ログ
内に格納されている事前イメージが重要なものとなる。

ディスクの書き込みに続く失敗によるデータの破損を防
止するために、少なくとも「トランザクション遂行」と
称する機能が営まれるまでか或いは「トランザクション
中止」とされるまでは、事前イメージはログ内に保持さ
れねばならない。殆どの場合にはトランザクションは中
止されず、成功裏に完了されるものであるから、先ずは
「トランザクション遂行」処理について説明する。

本発明の遂行処理は、一般的に二段階遂行と称するもの
を実行する。第一段階は、ユーザープロセスが遂行トラ
ンザクションシステム呼び出しを実行した場合に開始さ
れる。ユーザープロセスが遂行を要求した時点において
、トランザクション統合子はトランザクションに含まれ
ているファイルシステムの各々のＦＳＱＵＩＤに対して
、或いはトランザクションシステム呼び出しの開始以来
読み出し又は書き込みが宛てられていた何れかのファイ
ルシス・テムのＦＳＱＵＩＤに対して遂行メツセージを
送出する。これらのメツセージは入出カサ−バーに受信
され、サーバーは次に、関連するファイルへの書き込み
の場合に、事前イメージをログに満たし、後のイメージ
をデータファイルへと満たす。

入出力サ−バーがディスクに対して総ての事前イメージ
及びデータブロック（既に満たされていない場合）を書
き込んだならば、サーバーは前述のように承認信号（Ａ
ＣＫ）を送出する。

総ての関連する入出カサ−バーがこのようにして応答し
たなら、トランザクションは遂行処理の第二段階に入る
。そうではなく、何れかの入出カサ−バーが書き込みを
行うことができない場合には、当該サーバーは否定的承
認即ちＮＡＣＫをもって応答し、そしてトランザクショ
ンは中止手続きへと入る。

遂行処理の第二段階の際に、総てのＡＣＫ応答が入出力
サ−バーから受信された後、トランザクション統合子は
、統合子ログと称するログの一部へと同期して書き込み
を行う。統合子ログに対する書き込みは、トランザクシ
ョンを遂行するものである。統合子ログは常に、統合子
が存在するＳＢＢの局所ルートの論理ボリュームログに
保持されている。

同一のボリュームが複数存在していることから、統合子
ログもやはり同一物が複数存在しており、多重の物理デ
ィスク上に渡って広がっていることが理解されよう。従
ってトランザクション統合子による同期的書き込みは、
多重ディスクファイルへの書き込みを実際に含んでよい
が、しかし遂行を受信する最初のディスクファイルは、
もはや事前イメージを回復することができないようにな
る。この理由から、トランザクション統合子が一つだけ
でも統合子ログに書き込んだならば、トランザクション
は遂行されたものと見做される。

勿論、はとんど総ての場合に、トランザクション統合子
は複数の同一の統合子ログの各々に対してうまく書き込
みを行う。この場合トランザクション統合子は、関連す
る入出カサ−バーからの先のＡＣＫメツセージに応答し
て、トランザクションが遂行されたことをサーバーに通
知する。入出カサ−バーはそれらが関連するデータのブ
ロックのロックを解除すると共に、それらのログに対し
て局所遂行を知らせることによって応答する。局所的な
遂行レコードの各々がディスクに対して一旦うまく書き
込まれた場合には、入出カサ−バーはトランザクション
統合子に対して別のＡＣＫを送出し、そして統合子は当
該トランザクションの開始時点において創出されたトラ
ンザクション制御構造を他に割り当てる。

上記した読み出し及び書き込みに密接に関連したシステ
ム通信の形式は、インクプロセス通信チャネル即ちＩＰ
Ｃチャネルである。本発明によるＩＰＣチャネルは一旦
生成されれば、通常のファイルと同様にして開くことが
できる。

また、読み出し及び書き込みはストリームモード又はメ
ツセージモードの何れでも行うことができ、通常のファ
イルアクセス保護機構を含め、開放、閉鎖、読み出し及
び書き込みという本発明のシステム呼び出しと共に使用
することができる。

本発明によって提供されるＩＰＣチャネルは、データに
対するアクセスがシステム全体に分散して行われ、デー
タベースに対してサーバーが行うアクセスの数が顧客と
サーバーとの間の取引の数よりも多い場合には、改良さ
れたスループットをもたらす。なぜならＩＰＣチャネル
は、遠隔のＳＢＢに対してリクエストを行っているＳＢ
Ｂではなく、対象となるデータを所有しているＳＢＢに
おいてサーバープロセスが走ることを可能ならしめるか
らである。

ＩＰＣチャネルは顧客とサーバーとの間に確立される。

顧客は典型的には、取引を端末において取り扱うアプリ
ケーションを処理しているトランザクションの一部であ
ると見做され、そしてサーバーは取引をデータベースを
もって取り扱う。また、本発明によればＩＰＣチャネル
は、類似の或いは関連する範鴫にあるプロセスの間に確
立されてもよい。ＩＰＣチャネルは、読み出し専用、書
き込み専用、或いは読み出し−書き込みとして定義され
、必然的にという訳ではないが、好ましくは読み出し専
用と書き込み専用、及び読み出し−書き込みと読み出し
−書き込みと対になっている。

ＩＰＣチャネルの確立には、二つの段階が要求される。

第一に、当該ＩＰＣチャネルのために適当なＵＩＤを識
別し、第二に、顧客とサーバーとの間、類似の或いは関
連する範鴫にあるプロセス同士の間、又はこのようなプ
ロセスとサーバーとの間でシステムを開けるための呼び
出しのマツチングをとる。ＩＰＣチャネルを定義するた
めには、両端部に一つ宛、合計二つのＵＩＤが必要とさ
れる。典型的には、サーバーは顧客がＩＰＣチャネルを
開くのを待っている。

また、〇−制御特性をもってトランザクション処理のた
めに開かれたＩＰＣチャネルは、好ましくは〇−制御フ
ラグセットをもってＩＰＣチャネルを開く別のプロセス
とのみ対にされ、またその逆も然りである。

ＩＰＣチャネルは、トランザクション処理の目的で一時
的又は永久的な接続として確立され、入れ予室トランザ
クションを含むこともできる。

これらは第９ａ図から第９Ｃ図に示されている。

まず第一に第９ａ図を参照すると、一時的な接続構成が
示されている。この一時的接続モデルは、永久的な接続
構成では単一の顧客しか受は入れられないのに対し、チ
ャネルが複数の顧客プロセスについて働くのを可能なら
しめる。

第９ａ図の一時的接続構成においては、第８図に関して
説明したように、顧客プロセスはトランザクション開始
呼び出しをもって接続を開始し、これに続いて〇−制御
特性を用いてファイルシステムを開くための呼び出しが
行われる。

サーバーも〇−制御特性を用いてファイルシステムを開
くための・呼び出しを行った場合には、チャネルの確立
を識別している信号がサーバーに送られる。そこでサー
バーがＩＰＣチャネル上で読み出しを行い且つ顧客が書
き込みを行うまで当該チャネルをブロックすることをも
って、トランザクションが開始される。この「読み出し
−書き込み」は顧客とサーバーのための同期をとり、そ
の後トランザクションの本体が実行される。

サーバーがトランザクション１こお（する自己の役割を
完遂した場合には、「トランザクションレディ」呼び出
しが実行され、トランザクションの終了にあたってＩＰ
Ｃチャネルを非同期的に閉じ、そしてプログラムの最初
へとループして、別の顧客のためにＩＰＣチャネルを再
び開く。当初のトランザクションにおいてその後失敗が
生じた場合には、サーバーは信号を送らない。その代わ
り、トランザクションが遂行されたことを合図するよう
書き込み呼び出しが顧客プロセスによって発せられるま
で、サーバーは読み出し呼び出しをブロックすることに
よりトランザクションモードに留まる。何れの場合にも
、顧客プロセスはトランザクションの遂行の後に閉じら
れる。

第９．ｂ図の永久接続モデルが第９ａ図と異なるところ
は、ファイルシステムを開きまた閉じるための呼び出し
がループの範囲外で生じ、そして顧客プロセスにもトラ
ンザクション開始呼び出しへのループが含まれるという
点のみである。

このような構成が顧客プロセス及びサーバープロセスの
連続的な通信を保つということは明らかである。

第９Ｃ図を参照してみると、あるプロセスが、トランザ
クションの一部に関してはサーバープロセスであるが、
しかし当該トランザクションの別の部分については顧客
プロセスとなることが明らかである。またこの二次的な
顧客−サーバープロセスが、〇−制御特性でシステムを
開くための呼び出しのタイミングの僅かな調整を含むこ
とも明らかである。

本発明の新規な特徴によるトランザクションの良好な処
理を説明したが、トランザクションの完了の失敗、及び
データを一貫した状態へと戻すための回復手順について
議論するのも妥当であると思われる。

トランザクションが中止される場合、その失敗の原因は
数多く存在しうる。しかし一般的には、失敗は三つの種
類に分けることができよう。

即ちトランザクション統合子及びファイルシステムの両
者が生き残っている場合、トランザクション統合子は生
き残ったがファイルシステムが失われた場合、及びトラ
ンザクション統合子は生き残っていないがファイルシス
テムが生き残っている場合である。

第一の種類、即ち失敗が生じたがトランザクション統合
子が生き残っている状況では、当該統合子は入出力サ−
バーの各々に対して、トランザクションが中止されるべ
きであるとのメツセージを送出する。そこで入出カサ−
バーは、それらの関連するブロックの各々の事前イメー
ジをログレコード（バッファキャツシ二又はログの何れ
か）から読み出し、それらをデータファイルへと書き込
む。データファイルは、データをトランザクション開始
前の状態へと回復する。次いで入出力サ−バーはそれら
が関連するブロックに対するロックを解除し、トランザ
クション統合子に対してＡＣＫを送出する。また、トラ
ンザクション統合子は、ユーザープロセス（又はアプリ
ケーションソフトウェア）に対して、当該トランザクシ
ョンが失敗したという通知を行う。これによりユーザー
プログラムは、トランザクションを再スタートさせるか
又は他の動作を行うかを決定することが可能となる。

第二の場合、即ち例えばＳＢＢが破損するなどによって
ファイルシステムのボリュームマネージャーが失われた
場合には、別のＳＢＢに存在しているバックアップ用の
ボリュームマネージャーがそのことに気付いて、マウン
トプロセスを開始する。他のポリニームマネージャーが
気付くのは、残りのＳＢＢによって絶え間なく行われて
いる状態モニタリングによるものである。この状態モニ
タリングは、通常のオペレーション関連メツセージを規
則的に受信することに基づいている。あるＳＢＢが異常
に長い期間別のＳＢＢからのメツセージを受信していな
い場合には、当該ＳＢＢはその疑わしい別のＳＢＢに対
して模造のメツセージを発生し、応答が何も受信されな
ければ、その疑わしいＳＢＢは故障したのだと結論する
。このことにより、幾つかある公知のプロトコルの何れ
かに従って、新しい論理ボリュームが選択されるように
なる。

マウントプロセスの目的は、ファイルシステムを該ファ
イルシステムがオンラインに入ってくる以前と一貫した
即ち整合した状態に置くことである。マウントプロセス
は、ファイルシステムのために呼び出される毎に、最初
のモニタリングをも含めてこの手順を実行する。ユーザ
ーは論理ポリニームを構成する場合に、−次的及び二次
的なＳＢＢ統合子を指定することができる。もしもユー
ザーによって何も選択されなかったなら、ボリュームに
対するアクセスに基づいて、不履行経路が割り当てられ
る。局所ルートファイルシステムには自動マウントビッ
トが設定されており、バックアップ用のボリュームマネ
ージャーが引き継ぎを行った場合に自動的にマウントさ
れる。

マウントプロセスはログの活性な部分全体を走査し、事
前イメージの中でトランザクション遂行が存在していな
いものの各々を識別する。

マウントプロセスは、遂行が存在していない事前イメー
ジの各々について、当該事前イメージを組み込んでいる
メツセージのヘッダから、関連するトランザクション統
合子のＵＩＤを判定し、そして当該統合子に対してメツ
セージを送出して、トランザクションが遂行されたのか
又は中止されたのかを判定する。トランザクション統合
子は局所的に管理されることが必要とされるが、なお制
御構造を有しており、トランザクションを認識して、遂
行或いは中止の何れかのメツセージを送り返す。中止さ
れたトランザクションの各々については、事前イメージ
が上述のようにしてデータファイルに印加される。

遂行されたトランザクションの各々についてはログが修
正されて、トランザクションが遂行されたことを示すよ
うになる。この時点においてファイルシステムは一貫し
ており、オンラインに乗った時点でユーザープロセスは
再スタートすることができる。

第三番目の種類の中止は、ＳＢＢの故障の如く、トラン
デクジョン統合子が失われるような失敗を含んでいる。

そのような場合、トランザクション統合子は典型的には
、入出カサ−バーに対して、事前イメージを印加するよ
うに指示することはない。しかしデータリクエストに応
じないこと或いは所要の周期的信号が喪失したことを介
して、別のＳＢＢが失敗のあったことを知る。

どのようにして失敗が判定されるかとは関係なく、トラ
ンザクション統合子の引渡が、統合子ログを含んでいる
論理ボリュームのためのマウントプロセスの一部として
、ボリュームマネージャーによって開始される。このマ
ウントプロセスは、故障したＳＢＢのための統合子ログ
を記載しているレコードを見出し、古い統合子のＵＩＤ
の下で暫定的な統合子を生成し、それが古いトランザク
ション統合子へと前に送られた総てのメツセージを受は
取るようにする。当該統合子が元のＳＢＢにおいて再ス
タートすることも可能であることも理解されるであろう
。

マウントプロセスは次に統合子ログを走査して、前述し
たようにして、遂行されたことを統合子ログが示してい
るトランザクションの各々について、トランザクション
制御ブロックを生成する。そこでバックアップ統合子は
前述のようにして、総ての他のトランザクションを中止
し、ファイルシステムが一貫するようにする。

幾つかの場合には、この暫定的な統合子が確立される前
に、別のファイルシステムについてのマウントプロセス
が開始される。そのような場合には、マウントプロセス
はバックアップ統合子が確立されるまで、単にＵＩＤを
質し、応答を得なければタイムアウトを待ち、再度サイ
クルして再度トライする。そしてその後にメツセージを
送出するものである。

〔発明の効果〕

遠隔のＳＢＢ並びに局所のＳＢＨの故障からの回復をも
たらすことにより、適当に構成されたシステム内のどの
ようなシステムハードウェアの故障も、データの破損或
いは全体としてのシステムによる処理の中止を生ずるこ
とがないことが理解し得る。より簡単にいうと、本発明
は故障寛容性という特性を有するオンライントランザク
ション処理システムであって、連続的な利用可能性及び
データの完全性、使用の容易さ並びに拡張可能性を有す
るものである。

本発明は好ましい実施例について説明されてきたが、本
発明から離れることなしに数多くの変更例及び均等物が
存在しうろことは、当業者にとって明らかであろう。従
って本発明の範囲は前述の記載事項によって限定される
ものではなく、特許請求の範囲のみに基づいて解釈され
るべきである。

【図面の簡単な説明】

第１図は本発明により二つのプロセッサ（ＳＢＢＯ及び
５ＢＢＩ）を有する多重プロセッサシステムの構成を機
能ブロックダイヤグラムの形態で示す概略的なブロック
ダイヤグラム；第２図はシステム構成ブロック即ちＳＢ
Ｂの要素を示す概略的なブロックダイヤグラム；第３図
はＳＢＢの実時間処理ユニット即ちＲＰＵを示す概略的
なブロックダイヤグラム；第４図はＳＢＢのユーザー処
理ユニット即ちＵＰＵを示す概略的なブロックダイヤグ
ラム；第５ａ図から第５ｄ図はＳＢＢの入出力プロセッ
サ即ちＩＯＰ及び関連する制御プログラムの流れ図をそ
れぞれ示す概略的なブロックダイヤグラム；第６図はＳＢＢのシステム相互結合ボード即ちＳＩＢを
示す概略的なブロックダイヤグラム；第７ａ図から第７
ｄ図はＳＢＢのメインメモリ及びオペレーティングシス
テムによるメインメモリの区分けをそれぞれ示す概略的
なブロックダイヤグラム；第８ａ図から第８ｄ図は本発明による読み出しオペレー
ションの四つの種類をそれぞれ示す説明用のダイヤグラ
ム；第９図はインクプロセス通信チャネルの三つのタイプを
概念的に示す説明図である。１０、２０・・・ＳＢＢ　（システム構成ボード）３０
、４０・・・ＬＡＮリンク８０・・・ディスクコントローラ１２０、１３０．１４０．１５０・・・ディスク駆動装
置２００・・・ＭＦＢ　（メインフレームバス）２１０
・・・ＲＰＵ　（実時間プロセッサユニット）２２０・
・・ＵＰＵ　（ユーザープロセッサユニット）２３０・
・・ＩＯＰ　（入出カプロセッサ）２４０・・・５ＩＢ
（システム相互結合ボード）２５０・・・ＭＥＭ　（−
７’インメモリ）出願人代理人　　　古　谷　　　畳量　　　溝部単音同　　　古谷　聡図面の浄１５Ｆ（内容に変更なし）：■−１二ゴー７Ａコゴー７Ｂコゴー８Ｂ扇）答デＯｔ２　　　　　　　　　　　カーＩＸ′γに
スコゴー９Ａｒ９Ｂ　　’

Claims

【特許請求の範囲】１　複数の処理ユニットと、各々の処理ユニットから他の処理ユニットの各々へとそ
れぞれ延伸している複数のインタプロセッサ通信リンク
と、各々の処理ユニットは、インタプロセッサ通信リンクの
数と等しい数のインタプロセッサ通信ユニットと、実時
間プロセッサと、応用プログラムプロセッサと、局所メ
モリと、該ユニットの内部でバスによってそれぞれ結合
され且つ入出力チャネルとは離された少なくとも一つの
入出力プロセッサとを含み、前記実時間プロセッサは該
処理ユニットの残りの部分による内部のバスに対するア
クセスを制御することと、各々の処理ユニット内に含ま
れた各々の入出力プロセッサに対して一つ宛結合された
複数の入出力チャネルと、少なくとも二つのポートを有する複数の通信プロセッサ
と、各々のポートは別の処理ユニットと組み合わせられ
た入出力チャネルと結合され且つ複数の入出力装置に結
合されるように構成されていることと、各々の入出力チャネルに結合された複数のディスクコン
トローラと、各々少なくとも二つのポートを有し且つ第
一の処理ユニットに結合された入出力チャネルと組み合
わせられたディスクコントローラに結合された第一のポ
ート及び第二の処理ユニットに結合された入出力チャネ
ルと組み合わせられたディスクコントローラに結合され
た第二のポートを有するように構成され、さらに一度に
前記ディスクコントローラの内の一つのみによってアド
レス可能なように構成されている複数のディスクと、各々の処理ユニットは該処理ユニットがアドレス可能な
前記ディスクの少なくとも一つのキーと組み合わせられ
ており、各々のそのようなキーのディスクは組み合わせ
られた処理ユニットに関連するトランザクション情報を
含んでいるログを格納するよう構成されていることと、
及び、前記処理ユニットの少なくとも一つは他の処理ユニット
の故障を認識し、当該処理ユニットに組み合わせられて
いるディスクに格納されたログに含まれているトランザ
クション情報を調査し、当該組み合わせられているディ
スクの制御を確立して当該ディスクに格納されているデ
ータファイルをシステムの残りの部分に格納されている
データファイルと整合させることが可能であることを含
む、分散処理システム。２　複数の処理ユニットの各々と、少なくとも二つのポ
ートを有する少なくとも一つの持久格納媒体の間に組み
合わせを確立し、それによって一つの処理ユニットのみ
が、当該処理ユニットが作動を継続し且つ少なくとも一
つの持久格納媒体の制御を止めない限り、組み合わせら
れた少なくとも一つの持久格納媒体をアドレス可能なよ
うにし、組み合わせられた少なくとも一つの持久格納媒体にある
ログ内に、各々の処理ユニットによって統合されたトラ
ンザクションの状態に関する情報を格納し、複数の処理ユニットを少なくとも一つのインタプロセッ
サ通信リンクによって相互に結合し、各々の処理ユニッ
トから時々伝送される信号をモニターして処理ユニット
のどれかが故障したかどうかを判定し、一つの処理ユニットが故障した場合に別の処理ユニット
が、故障した処理ユニットと以前に組み合わせられてい
た少なくとも一つの持久格納媒体と通信を確立すると共
に、故障した処理ユニットによって以前に統合されてい
たトランザクションのためのトランザクション情報を調
査できるようにし、及び、前記トランザクションを遂行又は中止することにより、
前記別の処理ユニットが前記故障した処理ユニットによ
って以前に統合されていたトランザクションを完了する
ようにすること、の各段階を含む、故障寛容トランザク
ション処理の方法。３　複数の処理ユニットと、少なくとも二つのポートを
有する複数のディスク駆動装置と、及び各々の処理ユニ
ットを結合するインタプロセッサ通信リンクとを有する
処理システムにおける、故障寛容トランザクション処理
のための方法であって、各々の処理ユニットとディスク駆動装置との間に組み合
わせを確立し、各々の処理ユニットのために、組み合わせられたディス
ク駆動装置においてログファイルを生成し、システムにより処理されるトランザクションの各々のた
めに前記処理ユニットの一つにおいてトランザクション
統合子を確立し、組み合わせられたトランザクション統合子によって発現
された、ログファイル内にある関連するトランザクショ
ンに関する情報を記録し、トランザクション統合子があ
る処理ユニットの故障を検出し、別の処理ユニットが、前記故障した処理ユニットと組み
合わせられているログファイルを有するディスク駆動装
置と通信を確立するようにし、前記ログファイルを走査して、システム内のどこかに格
納されている情報と整合しない記録事項を判定し、システム内のどこかに格納されている情報と前記ログフ
ァイルとの間の不整合を識別するために他の処理ユニッ
トに尋問し、及び、システム内のどこかに格納されている情報と前記ログフ
ァイルとが整合するように、トランザクションの実際の
状態に従って必要に応じて該トランザクションを遂行又
は中止すること、の各段階を含む方法。