JPS6350739B2 - - Google Patents

Info

Publication number
JPS6350739B2
JPS6350739B2 JP56108241A JP10824181A JPS6350739B2 JP S6350739 B2 JPS6350739 B2 JP S6350739B2 JP 56108241 A JP56108241 A JP 56108241A JP 10824181 A JP10824181 A JP 10824181A JP S6350739 B2 JPS6350739 B2 JP S6350739B2
Authority
JP
Japan
Prior art keywords
cpu
sij
internal diagnostic
cpus
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56108241A
Other languages
English (en)
Other versions
JPS5810258A (ja
Inventor
Masao Myake
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP56108241A priority Critical patent/JPS5810258A/ja
Publication of JPS5810258A publication Critical patent/JPS5810258A/ja
Publication of JPS6350739B2 publication Critical patent/JPS6350739B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements

Description

【発明の詳細な説明】 本発明は、複数の中央演算処理装置(CPU)
を有するマルチ計算機システム、特に、システム
内での異常現象発生時のシステム再構成制御を行
う構成制御装置に関する。
中央演算処理装置(CPU)が自分単独でその
機能をチエツクする機能は自己診断機能と呼ばれ
る。この自己診断の方法には、複数の計算機が使
用される以前の、1台のCPUのみを中核として
構成されるシングルなCPUシステムの時代から、
種々の考え方が提案されている。例えば、CPU
上で各種命令を実行し、その命令が規定時間内に
正常に実行されるかをチエツクする方法、もつと
単純には、CPU内部処理異常、あるいは、電源
喪失の如くを外部系への出力信号として響報する
方法などがある。CPUが1台の場合は、システ
ムの構成要素(機器)のうち異常検出にて切替等
によりシステム機能を維持できるのは、高々複数
設けられた場合の周辺機器程度であり、中枢であ
るCPU故障の場合は、システム全機能喪失につ
ながる。
しかし、CPU、あるいはこれに準ずるフアイ
ル等の重要システム機器を複数個持つシステムに
おいては、当然ながら同等のCPU1台のシステム
の場合に比べて、より多くのシステム機能を果す
ことが可能になる。かかるシステムにおいて従来
から使用されている再構成の一例を第1図〜第3
図により説明する。第1図で、2台のCPU1,
2は周辺機器類(ハードウエア)12を入出力バ
ス11を介して共有して使用している。今、
CPU1にて処理Aが、CPU2にて処理Bが行わ
れているとし、処理Aは処理Bよりも優先させる
ものとする。この状態にて、CPU1が故障、即
ち停止した場合、CPU故障信号13をCPU2は
受信して、再構成に入る。これを第2図で説明す
る。第2図の各ブロツク21,22,23,24
は左側部分がCPU1の内容、右側部分がCPU2
の内容を示している。従つて、ブロツク21で
は、CPU1,2の両者が正常であることが示さ
れ、ブロツク22では、CPU1が故障し処理A
をCPU2が行つている再構成後の様子を示して
いる。ブロツク23は、CPU1の故障がなおつ
てCPU1に処理Bを行わせている事例を示して
いる。ブロツク24は、CPU2を切離し、CPU
1が処理Aを行つている事例を示している。この
後に、切離したCPU2に処理Bを行わせること
によつてブロツク21に戻る。31〜34はその
ルートを示している。
第3図は、同様にCPUの一方が故障した際の
他の様子を示す。先ず、ブロツク21ではCPU
1,2の両者が正常であることが示されている。
CPU2が異常になつた場合、処理Bは処理Aに
比して優先度が低いため、処理Bが停止しても処
理AはCPU1で継続しているため、切替制御は
不用である。そしてCPU2は切離され停止する。
次に、従来のマルチシステムにおいて、相互監
視がどのように行われているかをCPU4台の場合
を説明する。第4図はその事例であり、4台の
CPU1,2,3,4はリング状に形成配置され
ている。1台のCPUは、1台の監視CPUを対象
として持ち、4台の監視が互いにリング状に行わ
れている。図で、信号15が相互監視応答要求信
号、16は応答信号である。各CPUは、第5図
のフローチヤートに示す如く、監視すべきCPU
が「生」か「死」か(既に「死」ならば以下の処
理は不用)を判断し、「生」ならば応答要求信号
15を発し、規定時間内に応答信号16が被監視
CPUから出力しなければ、被監視CPUに異常が
あつたものとし、該被監視CPUの切離しを行い、
これを「死」の状態として扱う。これ以降は、残
りCPUの構成において予め定義されたモードに
再構成される。
以上の如き従来の監視法では、CPUが明らか
に異常になつた場合(故障あるいは停止など)が
検出されるにすぎなく、従つてそれに基づくシス
テム再構成においても、システム機能全体からみ
たきめ細かい構成制御を行うには無理がある。例
えば、第4図の如くCPU4台のシステムにおい
て、CPU1では、処理A1、B1が行われ、CPU2
では処理A2、B2が行われることになつているも
のとする。全体がシステムとして機能するために
は、A1、A2のうちいずれか、且つB1、B2のうち
いずれかが機能していることが必要であるとしよ
う。前述の如き、CPU全体レベルの監視管理に
おいては、上記の如き細分された処理(モジユー
ル)は、それ自身内部での異常発生などによつて
は、単にモジユール機能停止のみとなり、構成制
御対象とならない場合もあり得る。このようにし
て、仮に機能A1と機能A2が停止していたとして
も、CPU1,2は上記した意味のレベルでは監
視にかからず、従つて、CPUは全体が見かけ上
健全にみえるにもかかわらず、システム機能は動
作停止してる事態が起り得る。
本発明の目的は、きめの細かい監視と再構成制
御とをはかつてなる計算機システムの構成制御装
置を提供するものである。
本発明の要旨は、CPUの自己診断の他にCPU
間の診断とをはかり、システム再構成を行わしめ
るようにした点にある。更に、診断内容として
は、ソフト及びシステム上の面から主としてみた
機能毎の診断、及びCPUに付加される周辺機器
(ハードウエア)の診断とをはかつて、システム
再構成に供せしめている。以下、本発明を詳述す
る。
第6図は、CPU4台より成る計算機システムの
再構成制御装置の実施例を示す。4台の計算機
1,2,3,4は、相互に監視する関係に構成さ
れている。この役割は、信号線12,21,1
3,31,14,41,24,42,23,3
2,34,43が果す。各CPUの外部には、
CPU状態信号を記憶するレジスタ101,10
2,103,104を設けている。構成制御部5
は、本実施例の中心をなし、各レジスタ101,
102,103,104に格納されているCPU
状態信号を取込みシステム再構成のための処理、
及びその結果に基づく再構成制御を行う。再構成
制御は信号線51,52,53,54に乗る再構
成制御信号によつて行う。
全体動作の説明をする前に、各CPU内での状
態検出及びその処理について述べよう。
先ず、各々のCPU内での状態把握のために、
内部診断指標Sijを導入し、次の如く定義する。
内部診断指標パラメータγijを、 γij= 〓k αijk・Tik+ 〓l βijl・Pil ……(1) とするとき、内部診断指標Sijは、 γij≧γhの時、Sij=1.0 ……(2) γh>γij>γlの時、Sij=γij−γl/γh−γl……(3
) γl>γijの時、Sij=0.0 ……(4) と定義する。ここに、 Sij;第i−CPUの第j−CPU向け内部状態内部
診断指標、 γij;第i−CPUの第j−CPU向け内部診断指標
パラメータ、 γh;状態値化上限パラメータ、 γl;状態値化下限パラメータ、 Tik;第i−CPU内第k機能故障指標、(稼動不
可で1.0、稼動可で0.0とする) Pil;第i−CPU管理下第lハードウエア故障指
標、 αijk;Tikへの重み付け因子、 βijl;Pilへの重み付け因子、(0≦αijk、βijl1.
0と
する)。
(2)式は完全に異常状態を示し、(4)式は完全に正
常状態を示し、(3)式はその中間の事例、即ち部分
的な異常状態を示している。
以上の定義をもとに、第6図の動作を説明す
る。CPU1〜4の各CPU内において生成された
状態信号Sijは、信号線12,21,14,41,
13,31,23,32,34,43,24,4
2を介して互いに相手系へと送られる。但し、i
=jは自己指定であり、自己診断に供される。
各々のCPUは自分自身の診断指標に加え、上記
の送出信号受信により、他CPUの診断指標も得
ることになる。即ち、CPU−iにおいては、
(Si1,Si2,Si3………,Sio)というシステム内n
台((図示ではn=4)のCPUの状態行ベクトル
が形成できる。この状態行ベクトルは、各CPU
対応のレジスタ101〜104に送られ一時記憶
される。このレジスタ101〜104内の状態行
ベクトルデータは、構成制御部5へ送られる。
尚、状態行ベクトルのデータSはSijであるが、
このSijは、他系のCPUからSijを受けとつた場合
と、受けとらなかつた場合とがあるため、次のよ
うに投票信号Vijに変換し、この投票信号Vijをレ
ジスタ101〜104に記憶させている。
Sijを受信できた時 Vij=Sij Sijを受信できなかつた時 Vij=1.0 ……(5) この投票信号Vijは、各レジスタ101〜10
4から構成制御部5に送られ、構成制御部5は、
各CPUからレジスタ101〜104を介しての
投票信号によるマトリツクスVijから次式により
各CPUの状態判断を行う。
3.0・Vii+ 〓ijVij≧3.0−Vb ……(6) ここでVbはデツトバンドである。(6)式は、i
番目のCPUの状態判断式であり、以下のことを
意味する。即ち、ViiとはCPU自身の自己用の信
号であり、この自己用のViiに対しては3倍する。
一方、i≠jであるVi1、Vi2、………に対して
は、それぞれを単純加算する。この単純加算が 〓i
Vijである。4台のCPUを有するシステムにあ
つては単純加算は(V12+V13+V14)となる。3
倍としたのは、この4台の事例のためである。右
辺の「3.0」先の3倍に対応した数値である。尚、
(6)式は再構成判断の情報として提供される。かく
して、(6)式を満すCPU(番号i)はダウンしてい
ると判断され、システムより切離され、全体が再
構成されるべく制御信号の信号線51〜54を介
して送出する。この制御信号を受けた該当CPU
は、制御信号の指示のもとに必要な再構成が行わ
れる。
以上の実施例によれば、各CPUは自己診断の
他に、他CPUとの関係からみた他CPUの診断を
行つており、それらはすべて再構成制御部に集約
できる構成をとつているため、きめの細かい再構
成制御が可能になつた。尚、再構成制御部は、一
種のCPUであつてもよく、更には4台のCPUの
1つにこの再構成制御部の機能を持たせてもよ
い。この時のこのCPUはマスタCPUと称すこと
ができる。この場合、各CPUの状態判断は、マ
スタ指定しているCPU1を最初に実施し、これ
がダウンしている場合は、予め決めた継承権に
て、マスタCPUを移動させた後、再度マトリツ
クスVijをダウンCPU番号の行および列を排除し
て考えることによつて実施可能である。
本発明によれば、自己、他者を含めての内部診
断指標Sijが提供でき、システム再構成のための
情報の提供ができるようになつた。これにより、
各CPUの不貢献度的なものを、システム全体を
CPU構成の中でとらえているため、より、きめ
細かいバツクアツプ処理が可能となる効果があ
る。
【図面の簡単な説明】
第1図は、従来のシステム構成例を示す概念
図、第2図、第3図は、それぞれ、従来のシステ
ム再構成時における状態遷移図、第4図は従来の
CPU相互監視を説明するブロツク図、第5図は
フローチヤート図、第6図は、本発明によるシス
テム再構成装置の実施例図である。 1〜4……CPU、5……構成制御部。

Claims (1)

  1. 【特許請求の範囲】 1 複数のCPUを備え、各CPUには入出力機器
    が接続され、各々のCPUがシステム全体の機能
    を分担あるいは冗長して受けもつている計算機シ
    ステムにおいて、 各CPU(i)(i=1、2、………)内に設けた
    自己用、他者用の内部診断指標Sij(i=1、2、
    ………、j=1、2、………)を求める第1の手
    段と、全CPUからの内部診断指標Sijからシステ
    ム再構成用の情報を提供する第2の手段とを備
    え、 上記第1の手段は、自己CPU内の機能毎の機
    能故障診断指標Tik(k=1、2、………)と自
    己のCPUに接続する入出力機器毎の入出力機器
    故障診断指標Pil(l=1、2、………)とを求
    め、この指標Tik及びPilとを自己用、他者用そ
    れぞれ個有の重みをつけて自己用、他者用の内部
    診断指標Sij(i=1、2、………、j=1、2、
    ………)を求める構成とする計算機システムの構
    成制御装置。 2 複数のCPUを備え、各CPUには入出力機器
    が接続され、各々のCPUがシステム全体の機能
    を分担あるいは冗長して受けもつている計算機シ
    ステムにおいて、 各CPU(i)(i=1、2、………)内に設けた
    自己用、他者用の内部診断指標Sij(i=1、2、
    ………、j=1、2、………)を求める第1の手
    段と、全CPUからの内部診断指標Sijからシステ
    ム再構成用の情報を提供する第2の手段とを備
    え、 上記第1の手段は、自己CPU内の機能毎の機
    能故障診断指標Tik(k=1、2、………)と自
    己のCPUに接続する入出力機器毎の入出力機器
    故障診断指標Pil(l=1、2、………)とを求
    め、この指標Tik及びPilとを自己用、他者用そ
    れぞれ個有の重みをつけて自己用、他者用の内部
    診断指標Sij(i=1、2、………、j=1、2、
    ………)を求め、該内部診断指標Sijと上下限設
    定値との比較のもとで上下限外にあつては正常、
    異常との区分けをし、上下限内にあつてはそのま
    まSijを利用し、かくして得た情報を正規の内部
    診断指標Sijとして出力するものとし、 上記第2の手段は、全CPUからの正規の内部
    診断指標Sij(i=1、2、………、j=1、2、
    ………)を取込み、受信の有無を基準として受信
    有ればSijをそのまま取込み受信無しであれば異
    常の表示状態とし、これらのSij及び異常の表示
    状態とを信号Vijとして形成し、かくして得た全
    CPU対応の信号Vij(i=1、2、………、j=
    1、2、………)について、各CPU毎に自己用
    及び他者用のVijから各CPU毎の状態判断を行
    い、この判断結果をシステム再構成用の情報とし
    て提供してなる構成とする構成制御装置。
JP56108241A 1981-07-13 1981-07-13 計算機システムの構成制御装置 Granted JPS5810258A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56108241A JPS5810258A (ja) 1981-07-13 1981-07-13 計算機システムの構成制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56108241A JPS5810258A (ja) 1981-07-13 1981-07-13 計算機システムの構成制御装置

Publications (2)

Publication Number Publication Date
JPS5810258A JPS5810258A (ja) 1983-01-20
JPS6350739B2 true JPS6350739B2 (ja) 1988-10-11

Family

ID=14479647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56108241A Granted JPS5810258A (ja) 1981-07-13 1981-07-13 計算機システムの構成制御装置

Country Status (1)

Country Link
JP (1) JPS5810258A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008004330A1 (fr) * 2006-07-04 2008-01-10 Fujitsu Limited Système à processeurs multiples

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH046383Y2 (ja) * 1985-07-19 1992-02-21
US4710926A (en) * 1985-12-27 1987-12-01 American Telephone And Telegraph Company, At&T Bell Laboratories Fault recovery in a distributed processing system
JPS63213035A (ja) * 1987-03-02 1988-09-05 Mitsubishi Electric Corp プログラマブル制御装置の制御方法
JPS6428742A (en) * 1987-07-24 1989-01-31 Hitachi Ltd Fault detection system for computer system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5081235A (ja) * 1973-11-16 1975-07-01

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5081235A (ja) * 1973-11-16 1975-07-01

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008004330A1 (fr) * 2006-07-04 2008-01-10 Fujitsu Limited Système à processeurs multiples

Also Published As

Publication number Publication date
JPS5810258A (ja) 1983-01-20

Similar Documents

Publication Publication Date Title
US4392199A (en) Fault-tolerant system employing multi-microcomputers using two-out-of-three majority decision
CA1176337A (en) Distributed signal processing system
US4894828A (en) Multiple sup swap mechanism
JPS6350739B2 (ja)
JPS60100231A (ja) 情報処理装置におけるシステム構成制御方式
JPS6112580B2 (ja)
JP2855633B2 (ja) マルチプロセッサシステムにおけるデュアルポートメモリの故障診断装置
Ammann et al. ATTEMPTO: a fault-tolerant multiprocessor working station: design and concepts
JP2946541B2 (ja) 二重化制御システム
KR890003489B1 (ko) 프로그램 가능한 감시 제어시스템
JP2725385B2 (ja) 情報処理システムのデータ転送方式
JPH07114521A (ja) マルチマイクロコンピュータシステム
JPH01292562A (ja) マルチcpuシステム
JPS59135554A (ja) 計算機システム間通信方式
JPS60134352A (ja) 二重化バス制御装置
JPS61135293A (ja) 遠方監視制御システム
JPS6341104B2 (ja)
JPS5822469A (ja) 中央監視制御装置
JPH04219831A (ja) コンピュータ間共用装置の診断方式
KR19980021981A (ko) 엘리베이터 군관리 시스템의 오류 복구 장치
JPH0434184B2 (ja)
JPH0341863B2 (ja)
JPH0118460B2 (ja)
JP2001040906A (ja) 能動型制震構造物のリアルタイム制御システム
JPS627582B2 (ja)