JPS634214B2 - - Google Patents

Info

Publication number
JPS634214B2
JPS634214B2 JP56213847A JP21384781A JPS634214B2 JP S634214 B2 JPS634214 B2 JP S634214B2 JP 56213847 A JP56213847 A JP 56213847A JP 21384781 A JP21384781 A JP 21384781A JP S634214 B2 JPS634214 B2 JP S634214B2
Authority
JP
Japan
Prior art keywords
host
message
computer
time
computer system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56213847A
Other languages
English (en)
Other versions
JPS58114256A (ja
Inventor
Kikuo Takasaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56213847A priority Critical patent/JPS58114256A/ja
Publication of JPS58114256A publication Critical patent/JPS58114256A/ja
Publication of JPS634214B2 publication Critical patent/JPS634214B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Debugging And Monitoring (AREA)

Description

【発明の詳細な説明】 (1) 発明の技術分野 本発明は、コンピユータ複合システムにおける
異常検出方式に関する。
(2) 技術の背景 情報処理システムではユーザニーズとして高処
理能力および高信頼性の一層の向上が望まれてお
り、この目的に副うものとしてコンピユータ複合
(コンプレツクス)システムの利用が考えられて
いる。これは複数のコンピユータシステムを共通
のデータベースに論理結合させるもので、各端末
は複数のコンピユータシステムと接続可とするこ
とにより、一方のコンピユータシステムがダウン
しても他方のコンピユータシステムで処理を続行
することができ、また常時は複数のコンピユータ
システムの並行動作により大量の情報処理を迅速
に行なうことができる。しかし、かゝる複合シス
テムでは各システムのデータベースアクセスの競
合を避けるため排他制御によるアクセスのシリア
ライズが必要である。即ち、あるコンピユータシ
ステムがデータベースのある領域にアクセスする
ときは他のコンピユータシステムにアクセスして
よいかを問い合せ、OKならアクセスし、その間
他のコンピユータシステムがアクセスするのは禁
止する。
禁止期間は当該トランザクシヨン終了まで、あ
るいは当該トランザクシヨンをリード、ライトな
どの個々のステツプに区切つてその各ステツプの
期間中、などである。またアクセス禁止するのは
データベースのアクセス対象領域のみでよい。
しかしこの方式だと領域毎にアクセス可、不可
を判断する必要があり、処理が厄介になるので、
全データベースとするのが簡単である。即ち、全
データベースを排他制御の単位とすることは、シ
ステム全体としてのトータルパフオーマンスの低
下となり複合システムの魅力が半減する。
(3) 従来技術と問題点 ところで各コンピユータシステムが健全ならば
問題ないが、あるコンピユータシステムがダウン
するとそのコンピユータシステムからはOKの応
答がなく、残りの健全なコンピユータシステムは
データベースへアクセスできず、全システムダウ
ンとなつてしまう。勿論このようなことは好まし
くないから、コンピユータシステム間で常にダミ
ー電文を送受して健全かをチエツクし、異常なら
そのシステムを除いて他の建全システムのみでコ
ンピユータ複合システムを再構成し、動作を続け
るようにしている。しかし、ダミー電文の授受は
数秒間隔で行なう必要があり、CPUのオーバヘ
ツドおよびコンピユータシステム間通信路の負荷
を高めるという問題がある。
(4) 発明の目的 本発明は、この他コンピユータシステム状態検
知のための余分なCPUオーバヘツド及び通信路
の負荷増大を最小限に抑えようとするものであ
る。
(5) 発明の構成 即ち本発明は論理的に結合された複数のコンピ
ユータシステムにおける自己以外の他のコンピユ
ータシステムの異常検出方式において、他システ
ムと交信する通常電文の最新受信時刻をシステム
別に記憶し、かつ周期的に該最新受信時刻を現在
時刻と比較して差を求め、該差が第1警戒レベル
を越えるとき当該コンピユータシステムへ確認メ
ツセージを送り、第2警戒レベル時間以上経過し
ても応答がなくかつ前記最新受信時刻の更新もな
いとき、該コンピユータシステム異常を示す信号
を出力することを特徴とするが、次に図面を参照
しながらこれを詳細に説明する。
(6) 発明の実施例 第1図はコンピユータ複合システムの一例を示
し、A〜Dはホストコンピユータであつて各々に
複数個の端末装置が接続され、データベースDB
を共用する。Ta1〜TaoはホストAに対する端末、
Tb1はホストBに対する端末で各ホストに対する
多数の端末の一部を示す。端末TaoはホストAと
もまたはホストBとも交信可であり、従つてホス
トAがダウンしてもホストBで情報処理を継続で
きる。他の端末も複数のホストと交信可としてお
けば、同様に一方がダウンしても他方で処理続行
できる。l1〜l6はホスト間を結ぶ通信路で、デー
タベースへのアクセス可否はこれらの通信路を通
して行なう。この他、コンピユータ複合システム
によるロードシエアでは複数のコンピユータが関
与して初めて実行可能な処理は多々あり、それら
も通信路l1〜l6を利用して行なわれる。例えばあ
るメツセージをホストAで処理し、次にそれをホ
ストBで処理し、更にそれをホストCで処理して
ホストAへ戻す場合は該メツセージが通信回線
l2,l3,l5を通して回送される。この際各ホスト
は自己が処理した又は関与したことを示すマーク
を該メツセージに付けて次のホストへ送出する。
各ホストは他のホストが健在かを常時チエツク
するか、本発明ではこのチエツクを2段に分け、
初段のチエツクには常時交信する通常のメツセー
ジを利用する。即ち上記の例ではホストCからメ
ツセージが戻つてくれば、該ホストCは健全であ
ることが分る。また返送されてきたメツセージの
前記マークを見て、ホストBのマークがあればホ
ストBも健全であると推定できる。このようにし
て他ホストの正常、異常をチエツクしていて、そ
のチエツクが所定時間以上できない場合は、初め
てダミー電文送受によるチエツクを行なう。
第2図で説明すると、この図はホストAにおけ
る通信途絶検出装置を示し、10,12,14は
対ホストB,C,D用メモリ領域、16は自己の
物理時計又はその時計の記憶領域である。ホスト
Aは上述のように他ホストと常時交信し、メツセ
ージが返送されてくるとそのメツセージを受取つ
たホストAの物理時刻(TOD;タイムオブデー
ト)を当該メツセージを送出してきたホスト例え
ばCに対するメモリ領域へ書き込む。また該メツ
セージを解読して前記マークが有るか否かをチエ
ツクし、それがあればそのマークを付したホスト
例えばBに対するメモリ領域へ、上記TODを書
込む。第2図のTB,TC,TDはこのようにして書
込んだ時刻を示し、これらはメツセージが受信さ
れる毎に更新する。
ホストAで自己の物理時計とメモリ10,1
2,14の内容を常時比較し、例えば自己の物理
時計TODAよりあるホスト例えばCからの情報
受信時刻TCを差引き、それが第1警戒レベル
ALM1以内ならそのまゝ、以上なら第1警戒レベ
ルオーバーとしてホストAはホストCへ確認メツ
セージ(前記のダミー電文)を送る。そしてホス
トCから第2警戒レベルALM2以内に応答がある
又はTCの更新があればよいが、なければホスト
Cは異常と見做し、コンピユータ複合システムの
再編成を求める。他のホストB,Dに対しても同
様の処理を行なう。
第3図はこれをハードウエアイメージで説明す
る図で、鎖線ブロツク20はホストAの要部(本
発明関連部分)を示す。10,12,14…は前
述のメモリ領域、l1〜l6は通信回線、22はカレ
ンダ自時計、24は通信制御回路、26はメツセ
ージ処理回路、28は受信検出回路である。通信
回線l1〜l6のあるものからメツセージが送られて
くると、検出回路はそれがどのホストからのもの
であるかを識別し、メモリMの当該ホストの領域
をアクセスし、またゲート30を開いて自時計2
2の内容つまり現在時刻を当該メモリ領域へ書込
む。また該メツセージ中の前記マークを検出し、
当該ホストのメモリ領域もアクセスして該領域へ
現在時刻を書込む。これは、通信回線よりメツセ
ージが送られてくる毎に行なう。
メモリMは制御回路40により周期的に走査
し、演算回路32で自時計22からの現在時刻と
メモリMの各領域の内容(前述のTB,TC…等)
との差を求め、それをレジスタ34に格納する。
第1警戒レベルALM1はレジスタ36に格納して
おき、比較器38でレジスタ34との差を求め
る。第3図はホストA用の回路として、TB,TC
TDのいずれかが、ALM1を越えると比較器38
は出力を生じ、メツセージ処理回路26に確認メ
ツセージを当該ホストへ送出させる。この確認メ
ツセージに対して当該ホストから応答があれば、
又はその後のメモリ読出し、比較、で当該ホスト
もALM1以下となればメツセージ処理回路26は
何もしないが、そうでなければ当該ホストダウン
検出信号SGを発する。
コンピユータ複合システムではあるホストのダ
ウンが検出されると、該ホストがダウン時に専有
していたメモリ領域を凍結し(アクセス禁止とし
て)、該ホストを除いて残りのホストとデータベ
ース領域で新しくコンピユータ複合システムを構
成する。
また前記のメツセージは、あるホストがデータ
ベースDBへのアクセス可否を他のホストに求め
るメツセージである場合もある。このメツセージ
は自己を除く他の全ホストへ回送してもよいが、
多数決つまり半分より多いホストへ回送して承認
を求めるだけでも充分である。即ちデータベース
をアクセスする際は必らず他のホストの同意が必
要とする排他制御の下では、複数のホストが同時
にアクセス可否を求める場合を除いてアクセス可
か否かは各ホストで分つており、同時にアクセス
可否を求める場合もその信号伝播遅延を考慮して
も半分以上がアクセス可なら、全体がアクセス可
であるはずであるからである。
第1警戒レベルALM1の時間は、各ホストが負
荷を均等割当てされそして毎秒n件(nは例えば
50万件/時間)のトランザクシヨンを処理すると
して次式のように決定しておけば、99%以上が第
1警戒レベルをオーバーせず、従つて確認メツセ
ージ送出は従来方式に比べて大幅に低減できる。
この直接共通フアイル(DB)制御方式に採用
される通信途絶検出装置は、SCMなどのホスト
間時間監視とは連動しない、AIMのトランザク
シヨン時間監視とは連動しない、他コンピユータ
システムのシステム監視機構とは連動しない、な
どの特徴を有する。
(7) 発明の効果 以上説明したように本発明によればコンピユー
タシステム間のダミー電文を可及的に少なく抑え
てかつ他のシステムの正常、異常を常時チエツク
することができ、甚だ有効である。
【図面の簡単な説明】
第1図は本発明が適用されるコンピユータ複合
システムの構成例を示すブロツク図、第2図は本
発明の検出方式の説明図、第3図はそのブロツク
図である。 図面で、A〜Dは複合コンピユータシステムの
ホストCPU、Mは最新受信時刻を格納するメモ
リ、32は差を求める演算回路、22は現在時刻
を発生する時計、ALM1,ALM2は第1、第2警
戒レベル、SGは異常信号である。

Claims (1)

  1. 【特許請求の範囲】 1 論理的に結合された複数のコンピユータシス
    テムにおける自己以外の他のコンピユータシステ
    ムの異常検出方式において、 他システムと交信する通常電文の最新受信時刻
    をシステム別に記憶し、かつ周期的に該最新受信
    時刻を現在時刻と比較して差を求め、該差が第1
    警戒レベルを越えるとき当該コンピユータシステ
    ムへ確認メツセージを送り、第2警戒レベル時間
    以上経過しても応答がなくかつ前記最新受信時刻
    の更新もないとき、該コンピユータシステム異常
    を示す信号を出力することを特徴とするコンピユ
    ータ複合システムにおける異常検出方式。
JP56213847A 1981-12-28 1981-12-28 コンピユ−タ複合システムにおける異常検出方式 Granted JPS58114256A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56213847A JPS58114256A (ja) 1981-12-28 1981-12-28 コンピユ−タ複合システムにおける異常検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56213847A JPS58114256A (ja) 1981-12-28 1981-12-28 コンピユ−タ複合システムにおける異常検出方式

Publications (2)

Publication Number Publication Date
JPS58114256A JPS58114256A (ja) 1983-07-07
JPS634214B2 true JPS634214B2 (ja) 1988-01-28

Family

ID=16645995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56213847A Granted JPS58114256A (ja) 1981-12-28 1981-12-28 コンピユ−タ複合システムにおける異常検出方式

Country Status (1)

Country Link
JP (1) JPS58114256A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0216638A (ja) * 1988-07-05 1990-01-19 Nec Corp 障害計算機検出方式
JPH04186439A (ja) * 1990-11-21 1992-07-03 Nec Corp リアルタイム診断システムの制御方式
JPH0659989U (ja) * 1993-12-17 1994-08-19 能美防災株式会社 火災受信機

Also Published As

Publication number Publication date
JPS58114256A (ja) 1983-07-07

Similar Documents

Publication Publication Date Title
US7246187B1 (en) Method and apparatus for controlling exclusive access to a shared resource in a data storage system
US4894828A (en) Multiple sup swap mechanism
EP0397476B1 (en) Error logging data storing system
US4351023A (en) Process control system with improved system security features
US6934878B2 (en) Failure detection and failure handling in cluster controller networks
KR100247875B1 (ko) 멀티프로세서시스템
US6668309B2 (en) Snoop blocking for cache coherency
CN103458036B (zh) 一种集群文件系统的访问装置和方法
US6308289B1 (en) Method and system for environmental sensing and control within a computer system
US4812968A (en) Method for controlling processor access to input/output devices
US6609178B1 (en) Selective validation for queued multimodal locking services
US5694550A (en) Automatic switching method of a right of management/control for shared-storage unit
JPS634214B2 (ja)
US20020040414A1 (en) Multiprocessor system and transaction control method for the same
JPH0648822B2 (ja) デイジタル伝送系における異常処理方法
CN117453439A (zh) 处理器、获取信息的方法、单板及网络设备
US5524206A (en) Sub-CPU monitoring system including dual port memory
JP3127880B2 (ja) 監視対象装置の異常検出方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
JPH04305746A (ja) キャッシュメモリ制御装置
JP3239935B2 (ja) 密結合マルチプロセッサシステムの制御方法、密結合マルチプロセッサシステム及びその記録媒体
JP3312652B2 (ja) マルチプロセッサアーキテクチャでのデータベース管理方式
US6601147B1 (en) Computer system and method for maintaining an integrated shared buffer memory in a group of interconnected hosts
JPH06324957A (ja) バス監視装置
JP6992295B2 (ja) 電子装置
JP2922342B2 (ja) 割込み制御装置