JPS61201365A - 並列処理システムの自動再構成方式 - Google Patents

並列処理システムの自動再構成方式

Info

Publication number
JPS61201365A
JPS61201365A JP60042384A JP4238485A JPS61201365A JP S61201365 A JPS61201365 A JP S61201365A JP 60042384 A JP60042384 A JP 60042384A JP 4238485 A JP4238485 A JP 4238485A JP S61201365 A JPS61201365 A JP S61201365A
Authority
JP
Japan
Prior art keywords
state
pes
failure
groups
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60042384A
Other languages
English (en)
Inventor
Toshio Komatsu
小松 俊雄
Atsushi Ishikawa
篤 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP60042384A priority Critical patent/JPS61201365A/ja
Publication of JPS61201365A publication Critical patent/JPS61201365A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、複数のプロセッサエレメントをメツシュ状に
結合して処理を分散させることにより、高度の並列処理
を実現する並列処理システムに係り、特に成るプロセッ
サエレメントに障害が生じた場合のシステムの自動再構
成方式に関する。
〔従来の技術〕
科学技術計算等を超高速に実行する方式として、複数の
プロセッサエレメントをメツシュ状に結合し、各プロセ
ッサエレメントに処理を分散させる並列処理システムが
ある。
第2図は、かNる並列処理システムの概略構成を示した
もので、1はコントロールユニット(CU)、2はプロ
セッサエレメント(PE)である。
CUIはコントロール線3とステータス線4とデータ線
5で各PE2と接続され、各PE2の状態をステータス
線4で入手し、コントロール線3で各PE2を制御し、
さらにデータa5で必要によりプログラム、データを送
受する。PE2は演算を実行する演算部と各PE間のデ
ータ転送を行う転送部とCUとのインタフェース部を有
している。
第2図の主な処理の流れを説明すると、まず。
CUIは各PE2に対してプログラムを初期設定する。
初期設定後、CUlはスタート信号を出し。
PE2の実行を指示する。この実行指示を受けて、各P
E2はメモリから命令を読み出して演算を行う。また、
PE間転送によって、演算に必要なデータを送受する。
PE2は演算を終了すると、その旨をCUIに報告する
。報告後、CUlは各PE2の演算結果を受は取って編
集を行う。また。
必要に応じて、編集した結果をPE2に送り、再度、演
算を開始させる。
〔発明が解決しようとする問題点〕
従来、かNる並列処理システムは、処理の実行中にPE
に障害が生じた場合1次のような方法をとっていた。第
1はシステムを停止状態にして。
障害の生じたPEを正常なPEに手動で取り換え、再度
、最初から実行を行う方法である。第2は。
システム全体を二重化しておき、障害が生じた場合、予
備のシステムに自動的に切り換え、再度、実行を行う方
法である。しかし、前者は手動操作をともなうため、回
復に時間がか\す、後者は完全二重化のため、ハードウ
ェア的に冗長度が大きい欠点を有している。
本発明は、従来のか\る問題点を解決するものであり、
PEに障害が生じた場合、システムをダウンさせること
なしに、自動的に短時間でシステムを再構成し、しかも
ハードウェア的に冗長度の少ない再構成をサーポートし
ようとするものである。
〔問題点を解決するための手段〕
本発明は、メツシュ状に結合された複数のPEと各PE
を制御するCUとからなる並列処理システムにおいて、
任意の行および/または列のPEを予備にすると共に、
各PEに障害を検出しその障害箇所をCUに報告する手
段とCUの指示によってスルー状態(前段PEからの転
送データをそのまき後段PEに転送する状態)または非
スルー状態(前段PEからの転送データを入力し、演算
したのち後段PEに転送する状S)にする手段を設ける
〔作 用〕
あるPEに障害が発生した時、CUはPE側から障害の
報告を受けると、PEを制御して、障害PEと同じ行ま
たは列、あるいは行と列の両方にあるPE群をスルー状
態にし、予備のPE群を非スルー状態に切り換える。こ
れにより、ハードウェア的に冗長度の少ない再構成をサ
ポートできる。
また、再構成によるソフトウェアへの影響も少ない。
〔発明の実施例〕
第1図は本発明の一実施例であってPEの構成を示した
ものである。第1図において、6はPE間のデータ転送
を行う転送部、7は演算を実行する演算部である。転送
部6はバッファ8.1/4セレクタ9.1/2セレクタ
10、制御フリップフロップ(FF)11.1/2セレ
クタ12を具備している。4個のバッファ8はそれぞれ
上下左右のPEからの転送データを保持し、制御FF1
1はCUからの制御信号(12のセレクト信号)を保持
する。演算部7は演算ユニット13.メモリ14.プロ
セッサ15を具備している。
CUI及びPE2の動作を第3図及び第4図の例により
説明する。
はじめ、第3図の例について説明する。第3図はPE間
のパス系で障害が発生した場合の障害発生前と後のシス
テム状態を示したものである。16は各PE2のスルー
/非スルー状態を保持しているレジスタで、CUl上に
用意される。18は予備列のpt群、19は障害箇所で
ある。
まず、CUlはプログラムを各PE2に初期設定する前
に、PE群の構成を設定する。第3図の例では、D、H
,L、PのPEを予備とし、それ以外のA、B、C,E
、F、G、1.J、に、M。
N、OのPEで3×4のメツシュ群を構成する。
この指定として、CUlは、予備のり、H,L。
Pをスルー状態に、それ以外のPEを非スルー状態とす
る。第3図(a)(再構成前)のレジスタ16は、この
状態を示し、111 Hlは非スルー状態、II O1
1はスルー状態である。このレジスタ16の状態に対応
して第1図に示すPE2の制御FFIIがCUIによっ
てセットされる。すなわち、レジスタ16の対応するビ
ットがII 11#ならば、該当PEの制御FFIIは
1′″ 110 #lならばII 017にセットされ
る。制御FFIIが0″′の場合、セレクタ12はバッ
ファ8からのデータを選択し rr 1 psの場合は
セレクタ10からのデータを選択する。従って、制御F
FIIが0′″、すなわちCUIからスルー状態が指示
された場合、PE2は右PEからのデータを左PEへ、
左PEからのデータを右PEへ、上PEからのデータを
下PEへ、下PEからのデータを上PEへそのまき、ダ
イレクトに転送する。
次に、CULは各PEに対して初期設定する。
すなわち、プログラムを全PEに対して設定する。
全PEに対して同じプログラムをセットする場合は、ブ
ロードキャストで同時に設定する。この際、予備のPE
群に対しては、プログラムをセットしても、セットしな
くてもどちらでも良い、これは、スルー状態を制御する
のはCUであり、PEに制御されないからである。全P
Eに対して異なるプログラムをセットする場合は、CU
lはレジスタ16の各PEに対応するビットがre 1
 #+であるPEに対してプログラムを順にセットする
。゛0″であるPEに対しては、プログラムをセットせ
ず1次のII 017でないPEに移る。レジスタ16
に相当するハードウェアがなければ、プログラマはプロ
グラムの初期設定時や、PEからの報告時や、CUから
PEに対してデータを設定する時に、ソフトウェア上で
どのPEとの通信かを管理せねばならず、その管理がプ
ログラミングを複雑にする。データの設定は1通常、P
E毎に値が異っており。
そのセット法は、上記の異なるプログラムをセットする
場合と同じである。
次に、初期設定後、各PE2は内部演算を実行し、必要
に応じてPE間とのデータ転送を行う。
いま、同一パターンの右方向の隣接転送を例とする。す
なわち、A+B、B→C,C→(D)→A。
E−+F+ F−+G+ G→(H)→E、I4J、J
→に、に→(L)→I、M−)N、N→0.0→(P)
→Mの転送を行うとする。PE間転送方式としては1次
の2つがあるが、本発明はどちらの場合でも適用できる
■ クロックと非同期に行う。すなわち、あるプロhコ
ルでもってハンドシェイク的に行う。この場合、スルー
状態によるPE間転送への影響は波形上のなまりであっ
て、ディレィ上の問題はない。
(2クロックに同期して行う。すなわち1通信上のディ
レィは、クロック内に納まる必要がある。
したがって、スルー状態が連続して続く場合、ディレィ
がクロック内に納まる様に、前もってどれ位までスルー
状態が許されるかを見積もっておく必要がある。
第3図では、メツシュの終端が行・列単位にループして
いるとしたが、終端が開いていても同じである。なお、
終端が1次元ループしている場合、すなわち、第3図に
おいて、ループがA→B→C→D−+E −S F−+
Q−+H−) I→J→に→L→M→N→0−)P−)
Aとなっているときに、予@PEを行方向の例えばM、
B、N、O,Pとすると、スルー状態のPEが連続して
M、N、O,Pとなり、上記■の場合1問題となるケー
スがある。従って。
この場合は予備のPEを列方向にり、M、L、Pとする
必要がある。
各PE2はPE間転送によって演算に必要なデータがそ
ろった時点で演算を行う、すなわち、第1図において、
PE5はセレクタ9により必要な方向からのデータを選
択し、演算ユニツ1−13に取り込む。また、演算結果
を他PEに転送する場合は、演算ユニット13のデータ
をセレクタ10を介して各隣接PEに転送する。CUI
からロードされたプログラムはメモリ14に格納さ九て
おり、該プログラムに従いプロセッサ15は演算ユニッ
ト13の動作を制御する。また、メモリ14は演算の中
途データ等を格納するのにも使われる。
次に、第3図(a)のシステムの稼動中に19の箇所で
障害が発生した場合の動作を説明する。
障害が発生すると、例えばGのPEは障害発生と障害箇
所19をCUIに報告する。CUlはPEから障害発生
報告を受信すると、どこで生じたかを判別し、スルー状
態にすべきPE群を決定する。第3図(a)の例ではC
,G、に、○がそうである。次に、非スルー状態にすべ
き予備群を決める。本例ではり、H,L、Pがそうであ
る。そして、CUlはレジスタ16内の、スルー状態に
するPE群に対応するビットt ” o ”、非スルー
状態にするPE群に対応するビットを11111にして
、PEを再構成する。第3図(b)のレジスタ16は該
再構成後の状態を示す。このレジスタ16の状態に対応
して、第1図に示す各PE2の制御FF1lが′0″あ
るいは1′″にセットされ、該制御FF11が′″0″
のPEはスルー状態に、It I IIのPEは非スル
ー状態になる。
次に、CUIは、プログラムを各PE2に再設定する。
二Nで、II害が発生した地点から再発行しないのは、
正常なPEへの停止状態と、再スタート地点からの再ス
タートが難しいからである。
この再構成後の再設定において、前に述べたように、レ
ジスタ16により、CUIはどのPEが予備となったか
を管理することなしに、再設定が可能である。また、P
Eで演算が終了してCUに報告する際、CUはとのPE
からの報告かをレジスタ16を見て管理できる。
プログラムの再設定後、CUIからの再開指示により、
各PEは内部演算を実行し、必要に応じてPE間とのデ
ータ転送を行う。同一パターンで右方向の隣接転送を例
に取ると、A−)B、B→(C)→D、D−)A、E−
+F、F→(G)→H9i−)J、J→(K)→L、M
−)N、N→(0)→P、PGMで転送を行う。
第3図はPE間のパス系で障害が発生した場合の例であ
ったが、第1図に示すPE2内の演算部7で障害が発生
した場合にも同様である。すなわち、PE間のパス系あ
るいはPE内の演算部で障害が発生した場合、それと同
じ行または列のPE群をスルー状態にし、予備行または
列のPE群を非スルー状態にすればよい。
次に第4図の例について説明する。第4図は第1図に示
すPE内の転送部6で障害が発生した場合の障害発生前
と後のシステム状態を示したものである。16は各PE
のスルー/非スルー状態を保持するレジスタ、18は予
備行と列のPE群、19は障害箇所である。
第4図では、予備系の行と列、すなわち、D。
L、M、N、O,Pとして、残りのPEで3×3のメツ
シュ群を構成している。従って、再構成前のレジスタ1
6の状態は、第4図(a)のようになり、同一パターン
で右方向の隣接転送を例にとると、A−413,f3−
+C,C→(D)→A、E→F。
G→(H)→E、i−J* J−に+ K→(L)→i
で転送を行う。
次に、GのPEで障害が発生し、それが転送部の障害で
PE間転送の正常性が保証されない場合、Gと同じ行お
よび列のPE群を予備のPE群18に切り換える必要が
ある。即ち、C1J1は、スルー状態にすべぎPE群と
して1行方向はE、F。
G、Hを1列方向はC,G、に、Oをそれぞれ決定し、
また、子WPE群18のり、L、M、N。
Pを非スルー状態に設定して、PEを再構成する。
・第4図(b)のレジスタ16は該再°構成後の状態を
示す。従って、再構成後の同一パターンで右方向の隣接
転送は、第4図(b)に示すように、A→B、B→(C
)→D、D−+A、i−+J、J→(K)→L、L→i
、M−+N、N→(○)→P。
P−4Mとなる。
第5図はCU側の障害処理フローをまとめて示したもの
である。即ち、CUIは各PE2からの障害報告の有無
を常に監視しており(ステップ101)、障害報告を受
信すると、障害箇所を判別する(ステップ102)。そ
して、PE間のパス系あるいはPE間の演算部の障害の
場合は、あらかじめ定めである予備行または列のPE群
を非スルー状態にしくステップ103)、障害の生じた
PEと同じ行または列のPE群をスルー状態にする(ス
テップ104)。PE間の転送部の障害の場合は、予備
行と予備列の両方のPE群を非スルー状態にしくステッ
プ105)、障害の生じたPEと同じ行、列のPE群を
スルー状態にする(ステップl06)。次にPEヘプロ
グラムの再初期設定を行い(ステップ107)、再開始
指示を送出する(ステップ108)。
以上、実施例では、メツシュの終端が閉じているとした
が、メツシュの終端が開いていても、本発明方式は適用
できる。さらに、ネットワーク構成が、メツシュに類似
したプロセッサ・ネットワーク型、例えば、キューブに
も適用できることは明らかである。
また、実施例では、PEはプロセッサとプログラム格納
用のメモリを持ち、PE自ら独自の処理ができる構成で
あるとしたが、そうでない構成、単に演算機構しがなく
、独自では何ら処理ができない構成にも適用できる。
また、PEの処理形態がフォノ・フイマン以外の1例え
ばデータフロー型においても本発明方式は適用できる。
〔発明の効果〕
以上、説明したように1本発明はPEにスルー/非スル
ー用のハードウェアを付加する事により。
PEに障害が発生しても、予備系のPEに切り換え、シ
ステムを再構成する事により、システムをダウンさせる
事なしに容易に再実行が可能となる。
また、再構成が生じてもCUにどのPEがスルー状態で
あるかを保持するハードウェアを設けているので、ソフ
トウェアはとのPEがスルー状態であるかを管理する必
要がない。
【図面の簡単な説明】
第1図は本発明によるプロセッサエレメントの一実施例
を示す図、第2図は並列処理システムの構成例を示す図
、第3図および第4図は本発明によるシステム状態遷移
の一例を示す図、第5図はコントロールユニットの障害
処理フローを示す図である。 ■・・・コントロールユニット(CU)2・・・プロセ
ッサエレメント(PE)、18・・・予備PE群、  
19・・・障害箇所。 第  3  図 (υ)(b) 濤填A前)   (A噂へ゛49 第  4  図 (久)(b) (馴*A−@)   浜棋双イゎ 第  5  図

Claims (1)

    【特許請求の範囲】
  1. (1)メッシュ状に結合された複数のプロセッサエレメ
    ント(PE)と各PEを制御するコントロールユニット
    (CU)からなる並列処理システムにおいて、各PEに
    、障害を検出しその障害箇所をCUに報告する手段とC
    Uの指示によってスルー状態または非スルー状態にする
    手段を設けると共に、前記CUは、前記メッシュ状に結
    合された複数のPEの任意の行および/または列のPE
    を予備系として、通常は前記予備系のPEをスルー状態
    に、残りのPEを非スルー状態に設定し、障害が発生し
    て、該当PEから障害の報告を受けると、障害箇所のP
    Eと同じ行または列、あるいは行と列の両方にあるPE
    群をスルー状態に、予備のPE群と非スルー状態に切り
    換えることを特徴とする並列処理システムの自動再構成
    方式。
JP60042384A 1985-03-04 1985-03-04 並列処理システムの自動再構成方式 Pending JPS61201365A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60042384A JPS61201365A (ja) 1985-03-04 1985-03-04 並列処理システムの自動再構成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60042384A JPS61201365A (ja) 1985-03-04 1985-03-04 並列処理システムの自動再構成方式

Publications (1)

Publication Number Publication Date
JPS61201365A true JPS61201365A (ja) 1986-09-06

Family

ID=12634569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60042384A Pending JPS61201365A (ja) 1985-03-04 1985-03-04 並列処理システムの自動再構成方式

Country Status (1)

Country Link
JP (1) JPS61201365A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01217641A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> 並列計算機の冗長構成方式
JPH01217643A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> 並列計算機の冗長構成方式
JPH01217642A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> 並列計算機の冗長構成方式
JPH02287668A (ja) * 1989-03-31 1990-11-27 American Teleph & Telegr Co <Att> 再構成可能な信号プロセッサ
JPH0511887A (ja) * 1990-12-31 1993-01-22 American Teleph & Telegr Co <Att> マルチプロセツサボードスタツク及びそのモジユール配置方法
JP2004532447A (ja) * 2001-02-24 2004-10-21 インターナショナル・ビジネス・マシーンズ・コーポレーション 動的再分割を介するスーパーコンピュータでのフォールト・トレランス
JP2019079175A (ja) * 2017-10-23 2019-05-23 日本電気株式会社 情報処理システム、及び、情報処理システムによる制御方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01217641A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> 並列計算機の冗長構成方式
JPH01217643A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> 並列計算機の冗長構成方式
JPH01217642A (ja) * 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> 並列計算機の冗長構成方式
JPH02287668A (ja) * 1989-03-31 1990-11-27 American Teleph & Telegr Co <Att> 再構成可能な信号プロセッサ
JPH0511887A (ja) * 1990-12-31 1993-01-22 American Teleph & Telegr Co <Att> マルチプロセツサボードスタツク及びそのモジユール配置方法
JP2004532447A (ja) * 2001-02-24 2004-10-21 インターナショナル・ビジネス・マシーンズ・コーポレーション 動的再分割を介するスーパーコンピュータでのフォールト・トレランス
US7185226B2 (en) 2001-02-24 2007-02-27 International Business Machines Corporation Fault tolerance in a supercomputer through dynamic repartitioning
JP2007220147A (ja) * 2001-02-24 2007-08-30 Internatl Business Mach Corp <Ibm> 動的再分割を介するスーパーコンピュータでのフォールト・トレランス
JP4577851B2 (ja) * 2001-02-24 2010-11-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 動的再分割を介するスーパーコンピュータでのフォールト・トレランス
JP2019079175A (ja) * 2017-10-23 2019-05-23 日本電気株式会社 情報処理システム、及び、情報処理システムによる制御方法

Similar Documents

Publication Publication Date Title
US4075693A (en) Configuration and control unit for a heterogeneous multi-system
US6687851B1 (en) Method and system for upgrading fault-tolerant systems
US4941087A (en) System for bumpless changeover between active units and backup units by establishing rollback points and logging write and read operations
US4607365A (en) Fault-tolerant communications controller system
US6378021B1 (en) Switch control method and apparatus in a system having a plurality of processors
JP2770603B2 (ja) 並列計算機
US7971029B2 (en) Barrier synchronization method, device, and multi-core processor
US5579220A (en) Method of updating a supplementary automation system
US7480840B2 (en) Apparatus, system, and method for facilitating port testing of a multi-port host adapter
EP2153328B1 (en) Data processing system, data processing method, and apparatus
US6393590B1 (en) Method and apparatus for ensuring proper functionality of a shared memory, multiprocessor system
US7933966B2 (en) Method and system of copying a memory area between processor elements for lock-step execution
JPS6324346A (ja) 情報伝達方式
US8364291B2 (en) Method and apparatus for providing redundancy in an industrial control system
JP2002149212A (ja) 制御データを等値化する冗長化プログラマブルコントローラ及び等値化方法。
JPS61201365A (ja) 並列処理システムの自動再構成方式
US4783733A (en) Fault tolerant communications controller system
JPH03132861A (ja) マルチプロセッサ・システムの再構成制御方式
US20190121561A1 (en) Redundant storage system and failure recovery method in redundant storage system
CN116909759B (zh) 信息处理方法、装置及设备、介质和控制器集群
JPH0827735B2 (ja) 分散システムにおけるバツクアツプ方式
JPS5917467B2 (ja) 制御用計算機のバツクアツプ方式
JP2941387B2 (ja) 多重化装置の一致化制御方式
JPH05292555A (ja) スイッチの制御方法およびスイッチシステム
JP3968057B2 (ja) N+1冗長構成デバイス切替制御装置