JPS634366A - 複合計算機の相互監視装置 - Google Patents

複合計算機の相互監視装置

Info

Publication number
JPS634366A
JPS634366A JP61149275A JP14927586A JPS634366A JP S634366 A JPS634366 A JP S634366A JP 61149275 A JP61149275 A JP 61149275A JP 14927586 A JP14927586 A JP 14927586A JP S634366 A JPS634366 A JP S634366A
Authority
JP
Japan
Prior art keywords
computer
response
notification
health
computers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61149275A
Other languages
English (en)
Other versions
JPH0523456B2 (ja
Inventor
Masashi Kudo
工藤 雅司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP61149275A priority Critical patent/JPS634366A/ja
Publication of JPS634366A publication Critical patent/JPS634366A/ja
Publication of JPH0523456B2 publication Critical patent/JPH0523456B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は複合計算機の相互監視方式に関し、複数の計算
機とこれら計算機間を接続する通信路とを含む複合計算
機システムにおける複合計算機の相互監視方式に関する
〔従来の技術〕
従来、この種の複合計算機の相互監視方式では、複合計
算機システムを構成する計算機の障害の判定をヘルス信
号の途絶検出などにより行っているが、この判定は1台
の計算機の単独判断により行われていた。
〔発明が解決しようとする問題点〕
上述した従来の複合計算機の相互監視方式では、複合計
算機システムを構成する1台の計算機の誤動作により他
の計算機を障害と誤認した場合、他の計算機のジョブの
肩代わりを強制的に行おうとするので、両針算機間での
資源の獲得の競合が生じたりジョブの実行結果に矛盾が
発生したりして正常なシステム運用が不可能になるとい
う欠点がある。
本発明の目的は、上述の点に鑑み、複数台の計算機の相
互監視により、システム監視の信頼性を向上させるよう
にした複合計算機の相互監視方式を提供することにある
〔問題点を解決するための手段〕
本発明の複合計算機の相互監視方式は、複数の計算機と
これら計算機間を接続する通信路とを含む複合計算機シ
ステムにおいて、各計算機が、定められた順番にヘルス
通知の送信権の譲渡が行われているかどうか判定する送
信権判定手段と、この送信権判定手段によりヘルス通知
の送信権が与えられたときにすべての他社算機にヘルス
通知を送信するヘルス通知送信手段と、他社算機のヘル
ス通知送信手段により送信されてきたヘルス通知の受信
に対して応答通知を送信する応答送信手段と、自計算機
の前記ヘルス通知送信手段により送信したヘルス通知に
対して他社算機の応答送信手段による応答通知を受信す
る応答受信手段と、他社算機のヘルス通知送信手段によ
り送信されたヘルス通知と前記応答受信手段により受イ
εした他社算機からの応答通知との内容に従って他社算
機の障害判定を行う障害判定手段とを有する。
〔作用〕
本発明の複合計算機の相互監視方式では、送信権判定手
段が定められた順番にヘルス通知の送信権のiffが行
われているかどうか判定し、ヘルス通知送信手段が送信
権判定手段によりヘルス通知の送信権が与えられたとき
にすべての他社算機にヘルス通知を送信し、応答送信手
段が他社算機の)ルス通知送信手段により送信されてき
たヘルス通知の受信に対して応答通知を送信し、応答受
信手段が自計算機のヘルス通知送信手段により送信した
ヘルス通知に対して他社算機の応答送信手段による応答
通知を受信し、障害判定手段が他社算機のヘルス通知送
信手段により送信されたヘルス通知と応答受信手段によ
り受信した他社算機からの応答通知との内容に従って他
社算機の障害判定を行う。
〔実施例〕
次に、本発明について図面を参照して詳細に説明する。
第1図は本発明の一実施例を示す構成図である。
本実施例の複合計算機の相互監視方式は、3台の計算機
1. 2および3と、これら計算機1,2および3を接
続する通信路であるハス4とを含んで構成されている。
計算機1は、プロセッサ5と主記憶装置8とを含んで構
成されている。
プロセッサ5は、プロセッサ内蔵タイマ装置11を有し
ている。
主記憶装置8は、ヘルス通知タスク14と、応答通知タ
スク15と、ステータス管理テーブル16とを含んで構
成されている。
ヘルス通知タスク14は、定められた順番にヘルス通知
の送信権の譲渡が行われているがどうかを判定する送信
権判定手段21と、送信権判定手段21によってヘルス
通知の送信権が与えられたときにすべての他の計算機2
および3にヘルス通知を送信するヘルス通知送信手段2
2と、ヘルス通知送信手段22により送信されたヘルス
通知に対して他の計算112および3の応答送信手段2
5により送出されてきた応答通知を受信する応答受信手
段23と、応答受信手段23により受信した他の計算機
2および3からの応答通知の内容に従って計′R機lの
障害判定を行う障害判定手段24とを含んで構成されて
いる。
応答通知タスク15は、他の計算機2および3のヘルス
通知送信手段22により送信されてきたヘルス通知の受
信に対して応答通知を送信する応答送信手段25と、他
の計算機2および3のヘルス通知送信手段22により送
信されたヘルス通知の内容に従って他の計算機2および
3の障害判定を行う障害判定手段26とを含んで構成さ
れている。
ステータス管理テーブル16は、すべての計算機1〜3
のプロセッサ5〜7の状態を管理する。
計算機2および3にも、プロセッサ6および7と、主記
憶装置9および10とがそれぞれ含まれており、計算機
1の場合と同様に、プロセッサ6および7にはプロセッ
サ内蔵タイマ装置I2および13が、主記憶装置9およ
び10にはヘルス通知タスク14、応答通知タスク15
およびステータス管理テーブル16がそれぞれ含まれて
いる。なお、主記憶装置9および10内の構成について
は、主記憶装置8と同様なので、対応部分に同一符号を
使用して、それらの詳しい図示および説明を省略する。
第2図は、計算機lのステータス管理テーブル16の内
容の一例を示したものである。ステータス管理テーブル
16は、複合計算機システムに装備されている計算機1
〜3の総数N(本例では3)、計算機lが計算機jを異
常と判定した回数を示す異常検出回数n+J(j≠j、
1≦i、j≦3゜n;j−0または1)、さらに管理情
報として他の計算機からの応答通知を受信できたか否か
を示す応答確認フラグ、ヘルス通知タスク14が起動さ
れたときにヘルス通知の送信権を有する計算機を示す送
信権表示フラグおよび各計算機1〜3の状態を管理する
ステータスエントリを持っている。
各計算機1〜3にはそれぞれ順番にヘルス通知の送信権
が穣渡され、−巡すると再度間し1頃序で送信権が与え
られる。この計算1191〜3間の送信権の委穣間隔を
Tとする。ヘルス通知タスク14は、プロセッサ内蔵タ
イマ装置11によって計算機1から一定のヘルス通知送
信時間間隔T、(=NxT)で起動される。これは他の
計算機2および3においても同様であるが、計算機2お
よび3では計算機1のヘルス通知タスク14が起動され
た時刻からそれぞれTおよび2T時間経過後にヘルス通
知タスクが起動される。
次に、このように構成された本実施例の複合計算機の相
互監視方式の動作について説明する。
複合計算機システムが正常に運転されている場合には、
各計算機1〜3においてヘルス通知タスク14はT、(
ミNXT)時間間隔でそれぞれ7時間シフトされて起動
されている。すなわち、システム起動時はN=3なので
3T時間間隔であり、計算機1において時刻1にヘルス
通知タスク14が起動されたとすると、T時間経過後の
時刻t0ふTに計算機2のヘルス通知タスク14が起動
され、さらにT時間経過した時刻to+2Tに計算機3
のヘルス通知タスク14が起動される。ヘルス通知の送
信権が一巡したらば、すなわち、さらにT時間経過後の
時刻to ”3Tには、再び計算機1のヘルス通知タス
ク14が起動されて、以降同様に繰り返される。
各計算機1〜3のヘルス通知タスク14が起動されると
、それぞれの計算機1〜3内のステータス管理テーブル
16の送信権表示フラグを参照し、自計算機のプロセッ
サ5〜7に送信権があるかどうかを調べる。もし送信権
がない場合は、送信権表示フラグがオンの計算機におい
て異常状態が発生し、ヘルス通知を送信できず正しく送
信権の委壌が行われていないことを示している。この異
常状態にある計算機を、ステータス管理テーブル16に
おいて該当計算機の異常検出回数に1をセ−/ )する
ことにより管理する。さらにT時間経過後に、ヘルス通
知の送信権が与えられる計算機を識別し、対応する計n
機の送信権表示フラグをオンとする。
その後、すべての他の計算機にヘルス通知を送出する。
このヘルス通知には、T時間経過後にヘルス通知を送信
しなければならない計算機を示す識別子と、自計算機が
異常と判断した計算機の識別子と、その異常検出回数と
、ヘルス通知の送出元を示す計算機の識別子とが含まれ
ている。
ヘルス通知を送信してから応答待ち時間1 (〈T)内
に応答通知を返さなかった計算機がある場合、それを異
常と判断し、ステータス管理テーブル16上において該
当する計算機の異常検出回数に1をセットする。また、
応答通知のあったものについては、その応答内容に含ま
れている応答通知の送信元の計3!機によって異常と判
定されている計算機とその異常検出回数とをステータス
管理テーブル16に記tなする。この応答受(3処理が
全計算機1〜3について終了すると、異常検出回数を被
障害判定計算機i、(i=1.2.3)毎に加算し、障
害条件:Σn1li≧2      ・・・fil(た
だし、k≠”、nh+−0または1)を満たしたときに
、この計算機iにおいて障害が発生したと判断する。そ
して、0計算機の主記憶装置内にあるステータス管理テ
ーブル16の障害と判定された計算機に対応するステー
タスエントリに障害表示を行う。
他の計算機からのヘルス通知を受信すると、応答通知タ
スク15が起動される。応答通知タスク15は、ヘルス
通知タスク14の応答待ち時間!よりも短い時間内に応
答通知をヘルス通知の送信元の計算機に返送する。この
応答通知には、0計算機によって異常と判定した計算機
の識別子と、その計算機の異常検出回数と、応答通知の
送信元を示す計算機の識別子とが含まれている。応答通
知の返送後、受信したヘルス通知の内容に従ってヘルス
通知の送信元で異常と判定された計X機とその異常検出
回数とをステータス管理テーブル16上に記憶する。
この後、障害判定処理として計算1j(i=1゜2.3
)について、障害条件(11が成り立つかどうか確かめ
られ、障害の発生した計算機が検出される。
第3図は計算機2で障害が発生した後にこの障害を計算
機1および計算機3で検出するまでの過程を説明するた
めのタイムチャートである。
時刻TIに計算機1のヘルス通知タスク14が起動され
ると、次のタイミングでのヘルス通知の送信は計算機2
で行う必要があるため、1計算機1内の計算機2の送信
権表示フラグのみをオンとした後で計算機1は計算機2
および3にヘルス通知を送信し、次にヘルス通知を送信
するのは計算機2であることを告げる。
計算機2では、障害が発生しているので計算機1からの
ヘルス通知に対して応答通知タスク15が起動されず、
応答通知が返送できない。
−方、計算機3は、計算機1に対して応答通知を返送後
、受信したヘルス通知に従って計算機2の送信権表示フ
ラグのみをオンとすることで次のヘルス通知の送信元は
計算機2であることを記tqする。
時刻Tl+ffに、計算機lはステータス管理テーブル
16の応答確認フラグを参照して計算ia2が無応答で
あったことを見つけ、異常と判断してステータス管理テ
ーブル16上の計算機2の異常検出回数n+zを1とす
る。この後、ヘルス通知のタスク14の処理を終了させ
る。
時刻T2 (=TI+T)に、計算機2が本来ヘルス通
知の送信を行わなければならないが、計算機異常のため
にそれができない。
時刻T3 (=72+T)に、計算機3のヘルス通知タ
スク14が起動される。このとき、ステータス管理テー
ブル16を参照すると、計算機2の送信権表示フラグが
オンのままであるので指定された時刻に計算機2のヘル
ス通知タスク14が起動されなかったことを見つけ、ス
テータス管理テーブル16上の異常検出回数nzxを1
とする。この後、次のタイミングでヘルス通知を送信す
るのは再度計算機1なので、その送信権表示フラグをオ
ンとすることでヘルス通知の送信順序を記憶する。続い
て、ヘルス通知を計算機1および2に送信することによ
り、次にヘルス通知を行うのは計算機1であることと、
0計算機3において計算機2の異常を検出したこととを
知らせる。
計算機1は計算a3からのヘルス通知を受は取ると、0
計算機1において検出した異常計算機識別子とその異常
検出回数とを含む応答通知を返送する。この後、受信し
たヘルス通知の内容に従い、次のタイミングでのヘルス
通知送信権は計算機1との表示があるので計算機1に対
応する送信権表示フラグのみをオンとしてヘルス通知の
送信順序を記憶すると同時に、受信したヘルス通知で計
算機2の異常が通知されているのでステータス管理テー
ブル16の異常検出回数n。を1とする。これにより、
計算機3によって計″X機2が異常と判定されたことが
記憶される。
ここにおいて、計算機1はステータス管理テーブル16
上の異常検出回数を参照し、計算機2および3の異常検
出回数を計算する。いま、nB=naz”= l+  
n+3=nzx=Oとなっているので、計算機2 : 
 n+2+n3t=2、計算機3 :  n13” n
、3=0となり、計算機2が障害条件f1+を満たすの
で、計算機2に障害が発生していたとみなされる。そし
て、計算機1のステータス管理テーブル16で計算機2
の障害表示がなされる。
一方、計算機3は、計算機1の応答通知を受は取ると、
計算iiに対応する応答確認フラグをオンとした後に、
応答通知の内容に従って計算機1が計算機2のみの異常
を検出していたことを記憶する(n、z= 1.  f
i、、x O)。ヘルス通知タスク14を起動してから
2時間後、計算機3はステータス管理テーブル16を参
照することにより障害判定処理を行う。計算機3は、計
算機1からの応答通知を受は取っているが、計算機2か
らは受は取らなかったので計算機2の異常検出回数のみ
を1とする(n31=O,n3z” 1)、また、計算
機2からの応答通知がないので計算機2の下した異常検
出判定はわからないため、計算機3は前回計算機2から
受は取った応答通知を信じる(n、、−0゜n、、−〇
)、この結果、 計算機1 :  nz++ ns+−0、計算a2 :
  n+2+n3z−2 となり、計算機2が障害条件+1+を満たすので、計算
機2に障害が発生していたとみなすことができ、計算機
3のステータス管理テーブル16において計算機2の障
害表示がなされる。
第4図は、計算機2が本来正常に動作しているにもかか
わらず計算v!alの誤動作によって計算機2が異常と
判定されたときでもシステムとしてなんら支障なく運転
が続行されることを説明するためのタイムチャートであ
る。
計算機2は計算機1からヘルス通知を受信すると、応答
通知を計算機1に返送する。このとき、計算機1は一時
的条件発生によりその応答通知の受信処理ができず、計
算a2を異常と判定し異常検出回数n+zを1としたと
する。しかし、計算機2は正常であるので計算Ja2の
ヘルス通知タスク14は時刻T2に起動され、計算機1
および3に対しヘルス通知をそれぞれ行うが、計算機1
からの応答通知では計算機2の異常状態の発生を告げる
ノミテあり(n+z= 1.n+5=O) 、計算88
13からの応答通知では異常状態の発生の通知はない(
n、、=Q、n5z=o)eまた、計算機2のステータ
ス管理テーブル16上の計算機1および3の異常検出回
数は、計算機1および3から応答通知を受信しているの
で0となる(nz、=0.nz:+=O)。
この結果、 計算機1 :  nz+” nz+= 0、計算機3:
  n、3+n、3=Q となり、障害条件fi+を満たさず、計算機2において
計算機1および3を障害と判定することはない。
さらに、時刻T3には計算機3のヘルス通知タスク14
が起動されるが、ヘルス通知の送信順番の誤りの検出は
なく、計算機1および2にヘルス通知を行う。このヘル
ス通知に対する計算機1からの応答通知にのみ計算機2
の異常の通知がある(nlz =1 + n l J 
=O+ n t + ”” O) n z s =O)
 6また、計算機3のステータス管理テーブル16上の
計算機lおよび2の異常発止回数はOとなる(n31=
O・ nzz−0)。この結果、 計算w11 :  n2+”n3I=O1計算機2 :
  n+t+rkxt” 1となり、障害条件(1)を
満たさず、計算機1を障害と判定することはない。
以後、時刻T4には計算機1のヘルス通知タスク14が
再び起動されるが、計算機2へのヘルス通知に対する応
答通知が計算機2からあるので計算機1が計算機2を異
常とした前回の判断は誤りであるとし、異常検出回数n
+zをOとする。これにより、計算機1は計算機2およ
び3を障害と扱うことはなくなる。
計算機2および3においても、時刻T5およびT6に送
信したヘルス通知に対する応答通知をそ−れぞれ受信し
、この通知に従ってステータス管理テーブル16を更新
することによって、各ステータス管理テーブル16内の
異常検出回数n+zもOとなる。これによって、これ以
降も正常なシステム監視を続行することができる。
〔発明の効果〕
以上説明したように本発明は、複数の計算機が同一の計
算機の異常を検出したときに障害と判定するようにした
ことにより、信転度に差のある複数の計算機からなる複
合計算機システムを構成する1台の計算機の誤動作で他
の計算機の異常が検出された場合でも正常なシステム運
用が不可能になることがな(、複合計算機システムのシ
ステム監視の信顛性を大幅に向上させることができる効
果がある。
【図面の簡単な説明】
第1図は本発明の一実修例の構成図、 第2図は第1図中に示したステータス管理テーブルの内
容の一例を示す図、 第3図は本実施例の複合計算機の相互監視方式の動作の
一例を説明するためのタイムチャート、第4図は本実施
例の複合計算機の相互監視方式の動作の他の例を説明す
るためのタイムチャートである。 図において、 1〜3・・・計算機、 4 ・ ・ ・ ・  ・ ノマス、 5〜7・・・プロセッサ、 8〜10・・・主記憶装置、 11〜13・・・プロセンサ内蔵タイマ装置、14・・
・・・ヘルス通知タスク、 15・・・・・応答通知タスク、 16・・・・・ステータス管理テーブル、21・・・・
・送信権判定手段、 22・・・・・ヘルス通知送信手段、 23・・・・・応答受信手段、 24・・・・・障害判定手段、 25・・・・・応答送信手段、 26・・・・・障害判定手段である。

Claims (1)

  1. 【特許請求の範囲】  複数の計算機とこれら計算機間を接続する通信路とを
    含む複合計算機システムにおいて、 各計算機が、 定められた順番にヘルス通知の送信権の譲渡が行われて
    いるかどうか判定する送信権判定手段と、この送信権判
    定手段によりヘルス通知の送信権が与えられたときにす
    べての他計算機にヘルス通知を送信するヘルス通知送信
    手段と、 他計算機のヘルス通知送信手段により送信されてきたヘ
    ルス通知の受信に対して応答通知を送信する応答送信手
    段と、 自計算機の前記ヘルス通知送信手段により送信したヘル
    ス通知に対して他計算機の応答送信手段による応答通知
    を受信する応答受信手段と、他計算機のヘルス通知送信
    手段により送信されたヘルス通知と前記応答受信手段に
    より受信した他計算機からの応答通知との内容に従って
    他計算機の障害判定を行う障害判定手段と、 を有することを特徴とする複合計算機の相互監視方式。
JP61149275A 1986-06-24 1986-06-24 複合計算機の相互監視装置 Granted JPS634366A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61149275A JPS634366A (ja) 1986-06-24 1986-06-24 複合計算機の相互監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61149275A JPS634366A (ja) 1986-06-24 1986-06-24 複合計算機の相互監視装置

Publications (2)

Publication Number Publication Date
JPS634366A true JPS634366A (ja) 1988-01-09
JPH0523456B2 JPH0523456B2 (ja) 1993-04-02

Family

ID=15471652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61149275A Granted JPS634366A (ja) 1986-06-24 1986-06-24 複合計算機の相互監視装置

Country Status (1)

Country Link
JP (1) JPS634366A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5186985A (en) * 1991-04-04 1993-02-16 E. I. Du Pont De Nemours And Company Liquid crystal displays of high tilt bias angles
US7246160B2 (en) 2002-03-19 2007-07-17 Nec Corporation Computer monitoring system, computer monitoring method and computer monitoring program
JP2008234117A (ja) * 2007-03-19 2008-10-02 Fujitsu Ltd マルチプロセッサシステムおよびマルチプロセッサシステムにおける復旧方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5186985A (en) * 1991-04-04 1993-02-16 E. I. Du Pont De Nemours And Company Liquid crystal displays of high tilt bias angles
US7246160B2 (en) 2002-03-19 2007-07-17 Nec Corporation Computer monitoring system, computer monitoring method and computer monitoring program
JP2008234117A (ja) * 2007-03-19 2008-10-02 Fujitsu Ltd マルチプロセッサシステムおよびマルチプロセッサシステムにおける復旧方法

Also Published As

Publication number Publication date
JPH0523456B2 (ja) 1993-04-02

Similar Documents

Publication Publication Date Title
US7941810B2 (en) Extensible and flexible firmware architecture for reliability, availability, serviceability features
US4775976A (en) Method and apparatus for backing up data transmission system
US5805785A (en) Method for monitoring and recovery of subsystems in a distributed/clustered system
US4409656A (en) Serial data bus communication system
JPH0746322B2 (ja) 障害装置特定システム
EP2518627B1 (en) Partial fault processing method in computer system
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
JPS634366A (ja) 複合計算機の相互監視装置
JPH02132529A (ja) 自動監視切替制御装置
JPH01217666A (ja) マルチプロセッサシステムの障害検出方式
JP2004348335A (ja) 障害検出方法及び情報処理システム
JPH0934852A (ja) クラスタシステム
JPH11338724A (ja) スタンバイシステム、スタンバイ方法、および記録媒体
JPH02281368A (ja) 制御装置の故障検出機構
JPH1131136A (ja) 分散処理システムの異常監視方式
JPS63291132A (ja) 複合計算機システムの障害判定装置
JPH04293133A (ja) 疎結合マルチプロセッサシステムにおける故障監視方式
JPS6314542B2 (ja)
CN118041427A (zh) 卫星地面站监控软件系统及其双机备份方法
JPH0435251A (ja) リングネットワークの障害監視方式
JPH0716190B2 (ja) 通信システムの通信異常監視装置
CN117743008A (zh) 多核处理器故障诊断与异常处理方法、主控板卡及设备
JPS5983438A (ja) プログラム異常検出方式
JPH0454747A (ja) データ転送システム
JP2677313B2 (ja) 処理システムの異常検出方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term