JPS63147258A

JPS63147258A - マルチノード再構成可能パイプラインコンピュータ

Info

Publication number: JPS63147258A
Application number: JP62285643A
Authority: JP
Inventors: ダニエル・エム・ノーゼンチャック; マイケル・ジー・リットマン
Original assignee: Princeton University
Current assignee: Princeton University
Priority date: 1986-11-14
Filing date: 1987-11-13
Publication date: 1988-06-20
Also published as: AU599428B2; EP0268435A3; EP0268435A2; NO874742D0; DE3751235D1; NO874742L; CA1288170C; DE3751235T2; ES2070825T3; AU7982287A; US4811214A; DK595887A; EP0268435B1; DK595887D0

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野この発明は、各ノード（ｎｏｄｅ）が、マルチプル、独
立メモリープレーンに多機能メモリー−ＡＬＵスイッチ
ネックワーク（ＭＡＳＮＩＩＴ）を通じて連結され、マ
ルチプルノードがハイパーキューブ（ｈｙｐｅｒｃｕｂ
ｅ）トポロジーにおいて連結されている、再構成可能（
ｒｅｃｏｎｆｉｇｕｒａｂｌｅ）多機能ＡＬＵパイプラ
インを含む多くのノードから構成されるコンピュータに
関する。

関　　連　　技　　術本発明のコンピュータは、パラレルでパイプライン式の
コンピュータである。先行技術は、パラレリズムとパイ
プライニングという概念を成る限られた文脈において開
示している０例えば、米国特許第４，５８９，（１６７
号を参照されたい。

しかしながら、本発明の内部アーキテクチャは、全部で
はないとしても、殆どすべてのコンピュータ構築ブｏｙ
り（ｂｕｌｌｄｉｎｇ　ｂｌｏｃｋ）が同時にアクティ
ブであることを許容するという点において特徴を有して
いる。

米国特許第４．５８９．（１６７号は、動的（ｄｙｎａ
ｍｉｃ）に再構成可能なＡＬＵパイプラインに基づくベ
クトルプロセッサについて述べている点において先行技
術の典型的なものである。このプロセッサは、本発明の
再構成可能パイプラインの単一の機能ユニットに偵でい
る。成る意味において、本発明のノードのパイプライン
は複数のパイプラインのうちの１つのパイプラインであ
る０本発明と比較するのに恐らく値するその他の構造に
は、にｕｎｇのシストリックアレイ（Ｓｙｓｔｏｒｉｃ
　Ａｒｒａｙ）概念、ＭＩＴのデータフロー概念、及び
その他のパラレルアーキテクチャがある。

カーネギ−メロン大学のＨ，Ｔ、　　Ｋｕｎｇにょるシ
ストリックアレイ概念は、コンピュータを“波”のよう
に通るデータを含んでいる０本発明とは異なり、シスト
リックアレイシステムは、各構築ブロックが与えられた
演算を実行する同種の構築ブロックから成っている。シ
ストリックアレイコンピュータにおいては、データが流
れると、同一の構築ブロックの間の連結は、演算の間、
固定されたままである。せいぜい、構成（ｃｏｎｆｉｇ
ｕｒａｔｉｏｎ）は総てのデータがシストリックアレイ
によって処理されるまで変えることができないというだ
けである。一方、本発明においては、構築ブロック間の
接続は何時でも変えることができ、データがパイプライ
ンを通り抜けるときでもこれができる（すなわち、ダイ
ナミック連結の再配列）０本発明は、また本発明のノー
ドパイプラインの各構築ブロック（すなわち、機能ユニ
ット）が、隣りのものとは異なる作動を行うことができ
るという点においてシストリックアレイ概念とは区別さ
れる（例えば、機能ユニッ）１−浮動小数点式掛算：機
能ユニット２−整数引算；機能ユニット３−輪理的比較
等）。

さらに、演算の進行中、本発明の各構築ブロックは異な
った機能を行うことができる。

ＭＩＴデータフローコンピュータは、パイプラインの配
列内で接続できるハードウェアー呼び出しく１ｎｖｏｋ
ｅｄ）のネットワークで構成されている。

命令処理は“データフロー”と非同期である。各データ
ワードは、データの適当な命令ユニット（ｉｎｓｔｒｕ
ｃｔｉｏｎ　ｕｎｉｔ）への経路指定を決定するトーク
ンビット（ｔｏｋｅｎ　ｂｉｔ）のフィールドが付加さ
れている。各命令ユニットは、各オペランド入力（ｏｐ
ｅｒａｎｄ　１ｎｐｕｔ）のデータ列を有している。こ
の命令は、総てのオペランドが存在するに至るまで“点
火”（すなわち、実行）されない０本発明は、データの
演算の実行をする（例えば、データを処理する命令とし
て作用する）ハードウェア機能ユニットのパイプライン
ネットワークを流れるデータの概念を含んでいる。しか
しながら、本発明は非同期モードにおいては働かない、
その代わり、データはメモリーから持って来られ超高速
マイクロシーケンスユニットの中央に集められる制御装
置を通してパイプライン化された命令ユニットにスイッ
チ（ＭＡＳＮＥＴ）によって経路指定される。この同期
制御シーケンスは、データフローアーキテクチャによっ
て呼び起される非同期的分配データルーティング（ａｓ
ｙｎｃｈｒｏｎｏｕｓ　ｄｉｓｔｒｉｂｕ−ｔｅｄ　ｄ
ａｔａｒｏｕｔｉｎｇ）と鮮やかな対比をなす。

さらに、本発明は、データフローマシーン（Ｉｌａｔａ
Ｆｌｏｗ　Ｍａｃｈｉｎｅ）　と異なり、トークンフィ
ールド（すなわち、適切な機能ユニットにデータを案内
するデータフィールド）を有していないし、また機能ユ
ニットは複数の列（すなわち、複数のオペランド、命令
又は結果を保持するバッファ）を有していない、データ
フローマシーンは、データを待機する機能ユニットを有
している０本発明は、連続的にアクティブである機能ユ
ニットを有している０本発明のパイプラインの制御は、
マイクロシーケンサと称するセントラルコントローラに
よって達成され、一方、データフローマシーンは分配さ
れた制御装置を使用する０本発明は、又、ＴＡＧフィー
ルドを使用してデータの内部的な流れに基づいてそれ自
身を再構成する能力を有し、これはデータフローマシー
ンには見い出せない特徴である。

さらに、データフローコンピュータは連続的に流れるベ
クトルデータに対する一連の類似又は否類似の演算を効
果的に達成できない（すなわち、パイプラインを流れる
総てのデータ上の単一の演算機能しかない）、これに対
し、本発明はこの計算を極めて自然に達成できる。

本発明のパラレルアーキテクチャと、他のパラレルアー
キテクチャとの間には他に２つの基本的相違点がある。

第１に、本発明の各ノードは、独特のメモリー／プロセ
ッサ構想（構成）を含んでいる。他のパラレルアーキテ
クチャは、隣りのノードと連結するために増設される既
存のスタンド−アロン（ｓｔａｎｄ−ａｌｏｎｅ）コン
ピュータアーキテクチャを含んでいる。第２に、他の通
常のマルチブループロセッサ／パラレルコンピュータは
、全体的（ｇｌｏｂａｌ）な通信（ｃｏ＋ｍｍｕｎ　ｉ
ｃａ　ｔ　１ｏｎ）の間、局部的（ｌｏｃａｌ）な処理
が一時中止されるようにプロセッサ間の伝達を監視・制
御するための中央演算処理装置（ＣＰＵ）を使用する０
本発明のノードは、インタープロセッサルータ−（ｉｎ
ｔｅｒｐｒｏｃｅｓｓｏｒｒｏｕ　ｔｅｒ）と、データ
の局部的な処理を妨害しないで通信を許容するキャシュ
メモリー（ｃａｃｈｅ　ｓ＋ｅ＋＊ｏｒｙ）を使用する
。

以下の米国特許は、プログラマブル或いは再構成可能パ
イプラインプロセッサについて論じている。　　？　３
．７８７．６７３：３．８７５．３９１ｉ　３．９９０
，７３２　　；　３．９７８．４５２；４１６１．０３
６；　４＋　１６１．０３６；４、２２５　９２０．４
．２２８．４９７ｉ　４．３０？、　４４７；　４゜４
５４、４８９　；　４　、４６７、４０９　　と４．　
４９２．９５３　、プログラマブルとノンプログラマブ
ルの両方のパイプラインプロセッサの歴史について有用
な議論が米国特許４．５９８，６５５号のコラム１乃至
コラム４に見出される。さらに、マイクロパイプライン
コンピュータの初期の開発努力についての適切な議論が
、Ｐｅｔｅｒ　　Ｍ、　　Ｋｏｇｇｅ　　による「パイ
プラインプロセッサのプログラミング」と題する、１９
７７年３月号の「コンピュータアーキテクチャ」の６３
頁乃至６９真の記事に見出される。

最後に、次の米国特許をパイプライン化されたプロセッ
サについての一般的なｉＩＩ論として引用する：　４．
０５１．５５１　ｉ　４．１０１．９６０；４．１７４
．５１４ｉ　４．２４４．０１９．４．２７０　１８１
　　；　４．３６３．０９４゜４、４３８．４９４ｉ　
４．４４２．４９８；　４＋　４５４．５７８．　　；
４　４９１、０２０；　４＋　４９８．１３４と４　、
５０７．７２８゜発明の要約簡潔に説明すると、本発明は、並行動作する強力なノー
ドを少数（例えば１２８）使用するものである６個々の
ノードは、その必要はないけれども、同時性を持たせる
（ｓｙｎｃｈｒｏｎｉｚｅｄ）ことはできる、ノードの
数を制限することによって、全体的な通信及び如何なる
与えられた問題を解決するためにも要求とされる関連す
るハードウェアとソフトウェアの関係は禦し易いレベル
に保たれ、同時に並行性に固有のものであるゲイン（（
ａｆｎ）　　とスピード（ｓｐｅｅｄ）と容量（ｃａｐ
ａｃｉｔｙ）を有利に使用できる。さらに、本発明のノ
ード間のインタープロセッサ通信は実際起こるのである
が、ノード内のデータの局部的な処理を遮ることはない
、これらの特徴が、多量のデータの迅速で大変効率のよ
い処理手段を提供する０本発明の各ノードは、速さと性
能においてクラス６のスーパーコンピュータ（例えば、
Ｃｒａｙ　２　　Ｃｙｂｅｒ２０５等）に匹敵する。与
えられたノードにおいて、コンピュータは与えられたノ
ードの各クロックサイクル中に、仮にすべてでないにし
ても機能ユニットの殆どのものがアクティブであるよう
に同期的な、動的に再構成可能なパイプラインで組織さ
れた数多くの（例えば３０の）機能ユニット（例えば、
浮動小数点算術プロセッサ、整数算術／論理プロセッサ
、特定用途プロセッサ等）を使用する。このアーキテク
チャのデザインは、メモリー内の中間的結果の記憶量を
最小にするのに役立つとともに、典型的な計算の持続す
るスピードが機械の最大のスピードに近くなるように保
証している。これは、例えば、与えられた演算に対する
現実の持続するスピードが機械の最大のスピードよりは
るかに遅い現行のクラス６のスーパーコンピュータの場
合にはないことである。さらに、本発明は、マルチプル
メモリープレーン、動的再構成可能のパイプライン及び
インタープロセッサデータルータ−間のフレキシブルで
一般的な連結関係を提供する。

本発明の各ノードは、算術／論理ユニット（ＡＬＵ）、
マルチブレーンメモリー（ｍｕｌｔｉｐｌａｎｅｍｅｍ
ｏｒｙ）及びメモリープレーンと再構成可能のＡＬ’Ｕ
間のデータのルーティングのためのメモリー−ＡＬＵネ
ックワーク（ＭＡＳＮＥＴ）を含んでいる。各ノードは
また、各ノード内に演算のタイミングと性質を指示する
ためのマイクロシーケンサとマイクロコントローラを有
している。ノード間の通信は、複数のハイパースペース
ルータ−（ｈｙ９ｅｒｓｐｔｅｅ４４４）　ｒｏｕｔｅ
ｒ）によって制御される。重要なオフライン大容量記憶
装置　（ｏｆｆ−１ｉｎｅ　ｍａｓｓ　ｓｔｏｒａｇｅ
）と関連づけられている前ｉ１　（ｆｒｏｎｔ　ｅｎｄ
　）コンピュータが、マルチノードコンピュータに入力
命令（１ｎｓｔｒｕｃｔｉｏｎｓ）を与える。ノードの
好適なトポロジー接続は、プール（ｂｏｏｌｅａｎ）　
ハイパーキューブのそれである。

各ノード内の再構成可能のＡＬＵパイプラインは、浮動
小数点プロセッサ、整数／論理プロセッサと特定用途要
素（ｓｐｅｃｉａｌ−ｐｕｒｐｏｓｅ　ｅｌｅ＋５ｅｎ
ｔ）を有している。プロセシング要素は、多くの使用例
が知られているサブストラフチャに結線される。

３つのハードワイヤードサブストラフチャ（ｈａｒｄ−
ｗｉｒｅｄ　５ｕｂｓ　ｔｒｕｅ　ｔｕｒｅ）が、再構
成可能ＡＬＵパイプライン内にしばしば現れる。１つの
サブストラフチャは、１つの２要素式ユニットから成り
、もう１つは１つの３要素式ユニットから成り、最後の
サブストラフチャは１要素式ユニットから成っている。

３要素式サブストラクチャは、２要素式サブストラクチ
ャの２倍の頻度で通常見出され、２要素式サブストラク
チ中は、１要素式サブストラクチャの２倍の頻度で見出
される。これらのサブストラフチャを有効に使用すると
、ＡＬＵパイプラインの構成をコントロールするために
使用されるスイッチングネックワークの複雑さを少なく
することに役立つ。

本発明は図面を参照することによってより理解されるで
あろう。

実　　　　施　　　　例この詳細な説明中、同じ符号は、本発明を説明する違っ
た図面でも同じ要素を表わすために使用される。

第１図で示される本発明の好ましい実施例によるコンピ
ュータ１０は、ノード１２として言及される多くのマル
チプルメモリー／演算ユニットを含んでいる。コンピュ
ータｌＯは、高ベクトルとスカシの、効率（ｅｆｆｉｃ
ｉｅｎｃｙ）及びスピードを備えた算術及び論理演算を
実行可能な並行処理のできる汎用性を備えている。この
ような装置は、広範囲の演算問題を解く輌ことができる
。夫々のノード１２は、種々のユーザーのプログラムの
開発、マルチノードの操作及び演算、オフラインデータ
の処理に適した高い汎用性を備えた前置コンピュータ１
６にドロップラインネットワーク１８を介して接続され
ている。前置コンピュータ１６は、インターコネクショ
ン２２によってオフライン大容量記憶ユニット２０に接
続されている。夫々のノード１２は、また、ノード間コ
ネクション１４によって隣りのノードに接続されている
。理解と説明のために、２５基のノード１２だけが、第
１図に簡単なノード間リンク１４とともに示されている
。しかしながら、ノード１２は、一般的なハイパーキエ
ーブ構成によって接続されてもよいし、本発明は、適用
例に応じて要求される１２８よりも多い又は少ないノー
ドからなっていてよいことがわかるであろう、他の従来
例の並行処理コンピュータに見られるような、多数の比
較的低速のマイクロプロセッサを相互接続するのでなく
、本発明は、比較的少数の、相互接続された大容量、高
スピードの強力なノード１２を用いるものである０本発
明の好適な実施例によると、その構成は、典型的には、
１乃至１２８個のノードからなっている。このアプロー
チは、複数のノード１２の間の物理的な、及び、論理的
なインターコネクション１４の数を限定する。好ましい
接続のトポロジーは、プールのハイパーキエープ（ｈｙ
ｐｐｒｃｕｂｅ）の接続である。コンピュータ１０の夫
々のノード１２は、処理スピードと処理能力においてク
ラス６のスーパーコンピュータに匹敵する。

典型的な個々のノード１２の詳細は、第２図に示されて
いる。夫々のノード１２（これは、コンピュータ１０の
構築ブロックであるが）は、５つの基本要素からなって
いる。即ち、（１）多くの（例えば９からそれ以上の）
高性能及び特定用途要素６２を有する再構成可能なＡＬ
Ｕのパイプライン２４、（２）独立メモリープレーン３
０のグループ２８、（３）ノンブロッキングマルチプル
入力とマルチプル出力のスイッチ−ＡＳＮＥＴ　（メモ
リ／ＡＬＵスイッチ・ネットワーク）２６、（４）マイ
クロシーケンサ４０及び（５）マイクロコントローラ４
２である。

第２図は、メモリーＡＬＵネットワークスイッチ（Ｍ＾
ＳＮＩ！？）　２６によって再構成可能なパイプライン
２４に接続する８個のメモリープレーン３０からなるノ
ード１２をして示している０本明細書では、“プロセシ
ング・ユニット”、“機能ユニット１゜“プログラマブ
ルプロセッサ”及び“構築ブロック”という用語は、浮
動小数点算術プロセッサ、整数／算術／論理プロセッサ
、特定用途プロセッサ、又はこれらの組合せからなる算
術／論理ユニット６２を意味する。

マイクロシーケンサ４０は、メモリー２８．ＭＡＳＮＥ
Ｔ２６と再構成可能なＡＬＵバイブライン２４の夫々に
ライン４６を介して接続されている。同様にマイクロコ
ントローラ４２は、同じ要素にライン４４を介して接続
されている。マイクロシーケンサ４０は、種々の要素の
間又はその中でデータのクロッキングを支配し、ノード
１２の夫々のクロックチック（ｔｉｃｋ）のためのデー
タの経路（ｐａ　ｔｈｗａｙｓ）とパイプライン２４の
構成（ｃｏｎｆｉｇｕｒａ−ｔｉｏｎ）を定める役割を
果している。典型的な操作では、オペランドの新しいセ
ットがパイプライン２４に供給され、新しい結果のセッ
トがノード１２のあらゆるクロックにおいてパイプライ
ン２４から得られる。マイクロシーケンサ４０は、パイ
プライン２４、ＭＡＳＮ［！７２６、メモリープレーン
３０の構成を定めるマイクロコードを選択する責任を負
っている。典型的な操作では、アドレスは、特定の終端
アドレスに到達するまで、特定の出発アドレスから夫々
のクロック時間中に連続して増加する。アドレスランプ
（ｒａｓ＋ｐ）は演算終端の割り込みフラッグが出され
るまで連続して繰返される。メモリー２８の与えられた
プレーン３０によって使用される実際のメモリーアドレ
スは、選択されたアドレスモード４０に依存してマイク
ロシーケンサ４０のアドレスとは異なっていてよい（メ
モリープレーンについては後述を参照）。

ノード・マネジャーとも呼ばれるマイクロコントローラ
４２は、ノード１２の各部分の初期化とベリフィケーシ
ョン（ｖｅｒｉｆｉｃａｔｉｏｎ）のために使用される
。勢えられた演算のために、最初のセットアツプ後、コ
ントロールはマイクロシーケンサ４０に送られ、これが
演算が完了するまで引き継ぐ、原理的には、マイクロコ
ントローラ４２は、演算が実行されている開作動してい
る必要はない。

しかし、典型的な操作においては、マイクロコントロー
ラ４２は演算の進行を監視したり、次の演算のためのコ
ンピュータの使用されていない部分を準備させているで
あろう。

最小の単位のノード１２を構成する５つの基本要素に加
えて、夫々のノード１２は、ローカルな大容量記憶ユニ
ット、グラフィックプロセッサ、前処理又は後処理プロ
セッサ、副データルータ−１及びそれらの類似物を含む
ように拡張されてもよい、夫々のノード１２は、ノード
マネージャー４２がスタンドアロンタイプのマイクロコ
ンピュータであるため、スタンドアロンタイプのノード
として操作可能である。しかしながら、通常の場合、ノ
ード１２は前置コンピュータ１６からプログラムされる
。

１つのメモリープレーン３０の配置は、第３図に模式的
に表されている。メモリープレーン３０は高い容量を有
し、装Ｗ１０のクロックにおいてデータワードを取り出
しく読取）又は沈め（書込）ることができる、各メモリ
ープレーン３０は、読取のみ、書込のみ、或いは読取／
書込操作ができるようになっている。メモリープレーン
３０は３つの可能なアドレスモード、すなわち、（１）
直接型（ｄｉｒｅｃｔ）　、（２）翻訳型（ｔｒａｎｓ
ｌａｔｅ）　、（３）演算型（ｃｏｍｐｕｔｅｄ）のモ
ードを有している。すべての３つのモードについて、ワ
ーキングアドレスは、コンピュータ１０の前のサイクル
において、先取り（ｐｒｅｆｅｔｃｈ）アドレスレジス
ターによって先取りされる。直接型モードでは、マイク
ロシーケンサのアドレスバス４６からのアドレスが、対
象となるメモリー要素を選択するために使用される。翻
訳型モードでは、マイクロシーケンサアドレスは、アド
レスの大きなメモリーテーブル中の実行中のアドレスを
見出すために使用される。このアドレスの大きなテーブ
ルは、翻訳メモリーバンク即ちテーブル５０として示さ
れている分離型メモリーユニット中に記憶される。翻訳
テーブル５０は、メインメモリーバンク５４を通じ任意
の走査パターンを発生させるために使用することができ
る。

これはまた、成る指定されたメモリー要素が書き換えら
れることがないように守るためにも使用できる。演算型
アドレスモードは、パイプライン２４が次に読取或いは
書込されるデータワードのアドレスを定めることを許容
する。

再構成可能パイプライン２４は、第４図にユニット６２
として示される種々のプロセシング要素と、第５Ａ図、
第５Ｂ図にフローネット（ＦＬＯＮＥＴ）７０として示
されるスイッチ網からなっている（ＦＬＯＮＥＴは、　
Ｆｕｎｃｔｉｏｎａｌ　　ａｎｄ　　Ｌｏｇｉｃａｌ　
　ＯｒｇａｎｉｚａｔｉｏｎＮＥＴｗｏｒｋの略語であ
る）、３つの永続的ハードワイヤー型（ｐｅｒｍａｎｅ
ｎｔｌｙ　ｈａｒｄｗｉｒｅｄ）サブストラッチ中すな
わちユニット６２．６４又は６６がＦＬＯＮＥＴに接続
されている。　ＦＬＯＮＥＴ７０は、第５Ａ図中に６８
、そして第５Ｂ図中に６９で集合的に示されているパイ
ブラインサブストラフチャ６２，６４゜６６の結線を再
構成（ｒｅｃｏｎｆｉｇｕｒｅ）する、特定の再構成可
能な相互接続は、新しい再構成がノード１２のクロック
時間内に形成できるように電子スイッチによって達成さ
れる。特定の情況におけるハイレベルのデータ処理の例
が第４図に示されている。パイプライン型プロセシング
要素は、浮動小数点算術プロセッサ（例えばＡＭＤ２９
３２５、Ｗｅｉｔｅｋ　１０３２／１０３３）、整数算
術／論理ユニット６２（例えばＡＭＤ２９３３２）、ベ
クトル再生ユニット或いは収束検査機（ｃｏｎｖｅＨｅ
ｎｃｅｃｈｅｃｋｅｒｓ）のような特定用途要素からな
る。前述の特定用途要素に関する有用な議論が　Ｄ、　
Ｍ。

Ｎｏｎ５ｅｃｈｕｃｋ＋　　　Ｍ、　　Ｇ、　　　Ｌｉ
ｔｔｍａｎ＋　　Ｗ、　　　ＦｌａｎｎｅｒｙによるＪ
　、Ｓｅｔ、ＣｏｍｐｕｔｅのＶｏｌ、ＩＮｏ、　１　
（１９８６）の“ナビエストークスのコンピュータのミ
ニノード上における二・次元の非定常粘性流体のシュミ
レーシゴン”と題する記事の中に見出される。プロセシ
ング要素６２は、多くのユーザーの応用プログラムにし
ばしば使用されている３つの個別のサブストラフチャ６
２．６４．６６とともに結線されている。最も一般的に
使用されるサブストラフチャ６４．６６の二つは、第４
図に点線で囲まれた要素として示されている。サブスト
ラフチャ６４は、４つの入力と１つの出力を存する３つ
のＡＬＵユニット６２からなっている。２つのＡＬＵユ
ニット６２は２対で合計４つの入力を受ける。

２つのＡＬＵユニット６２の出力が、第３のＡＬＵユニ
ット６２の２つの入力を形成する。３つのＡＬＵユニッ
ト６２の夫々は、浮動小数点及び整数付加、減算、乗算
、及び除算、論理的ＡＮＤ、　ＮＯＴ、ＯＲ，ＮＯＴ　
、及び排他的ＯＲ，マスク、桁送りを行うことができ、
定数を記憶させるために使われる論理的レジスターファ
イルとともに比較機能を行うことができる。サブストラ
フチャ６６は、２つの算術／論理ユニット６２からなっ
ており、３つの入力と１つの出力を受けもつようになっ
ている。

２つのＸ　術／１！理ユニット６２の１つは、２つの入
力を受け、第２の算術−論理ユニット６２のための１つ
の入力を形成する出力を作り出す、第２の算術／論理ユ
ニット６２に他の入力が直接外側から送りこまれる。サ
ブストラフチャ６６の１つの入力は第２の算術／論理ユ
ニット６２から供給される。したがって、サブストラフ
チャ６２は、３入力、ｌ出力の装置からなつている。第
３のそして、最後の最も一般的なサブストラフチャは、
−個のスタンドアロン算術／論理ユニット６２であり、
２つの入力と１つの出力を有している。サブストラフチ
ャ６２．６４．６６は、これら夫々の構成に永続的に結
線されている。しかしながら、これらのユニットの再構
成はＦＬＯＮＥＴ７０によって制御される。簡略化され
たＰＬＯＮＥＴ７０が、模式的に第５Ａ図に示されてい
る。簡略化のため、２つの３要素式サブストラクチャ６
４．２つの２要素式サブストラクチ＋６６及び２つの１
要素式サブストラクチャ６２が図示されている。この構
成によって、１２の機能ユニットのハイレベルな再構成
可能パイプライン２４を得ることができる。

第５Ｂ図は、ＦＬＯＮＥＴ／ＡＬｔｌの接続の最適状態
のレイアウトを示している０本発明の好ましい実施例１
０によると、３要素式サブストラクチ中６４と２要素式
サブストラクチャ６６の最適比は、１．５〜２．０：１
の範囲にある。同様に、２要素式サブストラクチャ６６
と１要素式サブストラクチャ６２の最適比はおよそ２：
１である。したがって、第５Ｂ図は、８つの３要素式サ
ブストラクチャ６４と４つの２要素式サブストラクチ中
６６と２つの１要素式サブストラクチャ６２からなる最
適な図を示していることになる。３要素式サブストラク
チャ６４の数は第５Ｂ図で示される実施例では、６〜８
の間で変更することができる。前述した好ましい比はお
およその値であり、実際の使用に際してわずかに変更し
てもよい、しかしながら、前述の比が、実際に最適に近
い結果を示すことがわかった。

本発明の好ましい実施例によると、第５Ｂ図のサブスト
ラフチャ６２．６４．６６の集合６９は後述のように組
織される機能ユニット即ち、構築ブロック６２を有して
いる。すなわち、８つのサブストラフチャ６４中の３つ
の機能ユニット６２（即ち、プログラマブルプロセッサ
）の夫々は、ＡＭＤ２９３２５のような浮動小数点プロ
セッサであり、サブストラフチャ６６の２つは、ＡＭＤ
２９３２５のような浮動小数点プロセッサの形式の２つ
の機能ユニット６２を夫々有しており、一方、残りの２
つのサブストラフチャ６６は、ＡＭＤ２９３３２のよう
な整数／論理プロセッサを有しており、最後に、残りの
機能ユニット６２の１つはＡＭＤ２９３２５のような浮
動小数点プロセッサであり、他の１つの機能ユニット６
２はＡＭＤ２９３３２のような整数／論理プロセッサで
ある。或いは、ハイブリット機能ユニット６２を形成す
るようにプロセッサを対にすることもできる。

例えば、ＡＭＤ２９３２５のような浮動小数点プロセッ
サは、同業者によって周知の方法によって、ＡＭＤ２９
３３２のような整数／論理プロセッサと一対にすること
ができる。これによって、機能ユニット６２は、浮動小
数点型と整数／論理型間の切り換えが可能となる。又、
同様の結果を得るために、Ｗｅｉｔｅｋ３３３２のよう
な１つの多機能プロセッサ（浮動小数点型、整数算術／
論理型）を使用することもできる。

ＭＡＳＮＩ！７２６　（、すなわち、Ｍｅｍｏｒｙ　Ａ
ｌｕ　５ｗ１ｔｃｈ　ＮＥＴ−ｗｏｒｋ）は、第６図で
、１６の入力と１６の出力を有するものとして詳細に示
されている。　Ｍ”ＭＳＮＥＴ２６は、如何なる入力の
出力に対する接続もノンブロッキングであるようにビー
ンズ（Ｂｅｎｅｓ　）スイッチネットワーク配列に交差
して接続されパイプライン化された、レジスターファイ
ル７２（例えば、Ｗｅｉｔｅｋ　ｌ　（１６６　）から
構成されている。第６図に示されるＭＡＳＮＥＴ２６は
、１６Ｘ１６の回路である。

夫々のレジスターファイル７２がローカルメモリーを有
していることは、また、ＭＡＳＮＥＴ２６を使用するこ
とによりネットワークを通じて流れるデータに再指令を
与えることができることを意味している。この特徴は、
例えば、共通のソースから２つのデータの流れを作り出
し、種々の要素によって一方が他方に対して遅延させら
れるようにするためにも用いることができる。共通のソ
ースから複数データの流れを形成できることは、？ＩＭ
ＳＮＥＴ　２６のもう１つの特徴である。第７図は、２
×２のＭＡＳＮＥＴ　（即ち、１つのレジスターファイ
ル７２）が如何にしてこれらの簡単な２つのタスクを実
行するかをより明確に示している。

ＭＡＳＮＥＴ　２６は、また、ハイパースペースルータ
−８０を通じ、境界の（ｂｏｒｄｅｒｉｎｇ）ノード１
２にノードの境界線に対応するデータワードを経路指定
する（　ｒｏｕｔｅ）ノード間通信（ｃｏｍｍｕｎｉｃ
ａｔｉｏｎ）のためにも使用される。このルーティング
（ｒｏｕｔｉｎｇ）は、付加的な遅延を導入することな
く　ＭＡＳＮ［！７２６を通じてデータが流れる時に達
成される。同様に、与えられたノードのハイパースペー
スルータ−８０は、遅延の導入なしに、必要な時にデー
タストリーム中に境界点値（ｂｏｕｎｄａｒｙ　ｐｏｉ
ｎｔ　ｖａｌｕｅ）を組み入れることができる。ノード
間通信の詳細な説明は以下の通りである。

マルチノードコンピュータ１０の全体的なトポロジーは
、ハイパーキューブのトポロジーである。

ハイパーキューブは、任意のノード間通信のために必要
とされる時間とノード１２の間の物理的な接続の数の間
の妥協を表している。２つのアドレスモードがノード間
データ通信、即ち、（１）全体的（ｇｌｏｂａｌ）なア
ドレス及び（２）明示（ｅｘｐｌｉｃｉｔ）のバウンダ
リ・ポイント・デフェニションすなわちＢＰＤをサポー
トする。全体的なアドレスは、単純に拡張したアドレス
であり、ここでアドレスがデータのノード／メモリープ
レーン／オフセットを特定づける。ソフトウェアの見地
からは、アドレスはコンピュータ１０中でそのレンジ全
てのノードに（ａｃｒｏｓｓ）及ぶ線形の単純なアドレ
スとして取扱われる。ノード間通信はソフトウェアによ
って処理され、デフオールド・アービトレイシッン及び
コミュニケーシゴン・ロック・パラメータが選択された
場合、プログラマ−には明確にわかる。ＢＰＤは、バウ
ンダリ・ポイントの明示のデフェニシ四ン、それらのソ
ース及びすべての目的地アドレスを含んでいる。ＢＰＤ
データが発せられたときはいつでも、直ちに第８図に示
される目的地ノード１２中のＢＰＤキャッシュ８２に経
路指定される。ローカルアドレスとＢＰＤは混成されて
もよい、ＢＰＤは、他のノードによってデータが要求さ
れる前に予めバウンダリ・ポイント・データを通信する
ことによって、ノード間通信のオーバーヘッドを殆ど除
（能力をもっているが、ＢＰＤに優る全体的アドレスの
主な利点は、ソフトウェアを簡易化することである。

データは、夫々のノード１２に取付けられているローカ
ルスイッチネックワークを使用してノード１２の間を物
理的に経路指定される。ハイパースペースルータ−８０
として前に言及したローカルスイッチネックワークが、
第８図に表されている。ハイパースペースルータ−８０
は、ビーンズネックワークに似たトポロジーの、ノンブ
ロッキング・パーミュテーション・ネックワークである
。

マルチノードクラスのコンピュータすなわち等級ｄ（即
ち、ＮＮ−２ｄ、ＮＮはノードの数）のためには、ハイ
パースペースルータ−はｄ個の隣り合うノード１２に、
ホストノード１２のための１つの付加的な入力をプラス
し、ｄ＋１の入力を可能としている。データは、データ
が持っている目的地アドレスがハイパースペースルータ
−のスイッチ状態を設定するために使用される点におい
てセルフルーティング（ｓｅＨ−ｒｏｕｔｉｎｇ）であ
る、８ノ一ド式システムが第８図に示されている。この
例では、ｄ−３であり、夫々のハイパースペースルータ
−８０は３つのマイナークロック遅延を有する、４×４
のネックワークを有している。ｄが整数であり、３＜ｄ
＜８の場合では、８×８のルータ−８０が必要であり、
ｄ−７であると完全なスイッチ利用ができる。ハイパー
スペースルータ−８ば１ｎｚ−１ｄ　＝　１の出力のた
めに構成されなければならないので、最適なハードウェ
ア性能は、次のサイズを有するコンビエータアレイによ
って与えられる。

１１ＩＮＮ−−、ｎ−０ｎ　　Ｌ　　Ｌ　　３・・’１．２．
８，１２８．・・・個のノードの構成は、完全にハイパ
ースペースルータ−８０を利用する。

非整数Ｊ！ｎｓｄを有するマルチノードコンピュータの
構成も、また、ハイパースペースルータ−８０が次の整
数の次元にスケールアップされる場合を除いてサポート
される。このことは、付加的なスイッチのハードウェア
が負担となる点は別として、僅かに大きい量の記憶装置
がパーミエテーシ目ンテーブルのために要求されるだけ
であるという点でそれほどシビアではない、ノードは、
これらのテーブルを高速検索テーブル中に記憶する。テ
ーブルの長さは（ｄ＋１）である、コンピュータが１２
８のノードを超えて、大きくなると、ハイパースペース
ルータ−は１６Ｘ１６のスイッチに増える。検索テーブ
ルは限界を越えて大きくなるから、パーミニチージョン
・ルーティングは、検索テーブルよりもいくらか遅いビ
ットスライス（ｂｉｔ−ｓｌｉｃｅ）ハードウェアによ
って達せられる。これらの考え方に基づき、当初の好ま
しいコンピュータ構成として１２８のノードを設定した
。

ノード１２間のデータ伝達は、１ギガバイト／秒のｄｕ
ｐｌｅｘ比でバイト−シリアル・フォーマット中の光フ
アイバーケーブルで行われる。この速さは時々起こるバ
ースト伝達と、また、将来のコンピュータの拡張のため
の略々２倍規模のヘッドルームを与える。夫々のノード
１２は、キャッシュバスサイクルのためのホストノード
要求がない場合でも、ハイパースペースルータ−８０に
よす連続的にデータが増加する１つのＭワード（Ｍｗｏ
ｒｄ）バウンダリ・ポイントとライト・スルー（ｗｒｉ
ｔｅ−ｔｈｒｏｕｇｈ　）キャッシュを有している。か
くして、現在のバウンダリ・データはＡＬＵバイブライ
ン入力に物理的に論理的に近く維持される。

本発明は、好ましい実施例を参照して説明したが、本発
明の趣旨及び範囲を外れることなく種々の変更が本発明
を構成するある部分や方法についてなしうろことが理解
されるであろう。

【図面の簡単な説明】

第１図は、ブールハイパーキューブ（ｂｏｏｌｅａｎｈ
ｙｐｅｒｃｕｂｅ）の部分集合である、隣同志が２次元
に配列されたグリッドの形に配列されたマルチプルノー
ドコンピュータの実施例の図、第２図は、メモリー／ＭＡＳＮＩ！ＮＴ　／＾Ｌυの回
路接続を図示した単一ノードの模式図、第３図は、第２図に示すような単一ノード内の１つのメ
モリープレーンのレイアウトを描いた模式線図、第４図は、各ノーＦの再構成可能のＡＬＵパイプ内に見
出される５つの算術／論理ユニットで形成された２つの
代表的なサブストラフチャ（ｓｕｂ−ｓｔｒｕｃｔｕｒ
ｅｓ）の図、第５図Ａは、サブストラフチャの構成を変えることを許
容する典型的なＡＬＵパイプライン機構とスイッチング
ネットワーク（ＦＬＯＮ［！↑）の図、第５図Ｂは、再
構成可能ＡＬＵバイブラインにおいて３つの普通のサブ
ストラクチ中のグループに対するＦＬＯＮｆｌＴの接続
の好適実施例の図、第６図は、ブロックが６ポートレジ
スターフアイルを表わす、３２−レジスターｘｎビット
の、メモリー／ＡＬＵネットワークスイッチと、ノード
間通信ユニットの概略線図、第７図は、ｐ”要素の相対移動により如何にして入力デ
ータが２つの出力データを取り出せるかを図示した２×
２Ｍ八ＳＮ［！Ｔの模式図、第８図は、ハイパースペー
スルータ−の各ノードのＭＡＳＮＩ！？ユニットに対す
る関係を示した８−ノードハイパーキューブの模式図で
ある。１０・・・コンピュータ　　　　　　　１２・・・ノー
ド１６・・・前置コンピュータ１８・・・ドロップラインネットワーク２０・・・オフ
ライン大容量記憶ユニット２４・・・再構成可能ＡＬＵ
パイプライン２６・・・ＭＡＳＮＥＴ３０・・・独立メモリープレーン４０・・・マイクロシーケンサ４２・・・マイクロコントローラ５０・・・翻訳テーブル５４・・・メインメモリーバンク７０　・Ｆ　Ｌ　ＯＮ　Ｅ　Ｔ７２・・・レジスターファイル８８・・・ハイパーキューブルータ− ＦＩＧ、４オペランド（λカ）結果（出力）

Claims

【特許請求の範囲】

（１）それぞれが再構成可能論理演算パイプラインユニ
ットを含む複数のノードと、前記ノードの間においてデータを経路指定するためのル
ーティング手段を有してなる、マルチノード並行処理コンピュータ装置。
（２）前記各ノードがさらに内部メモリーを有している
、特許請求の範囲第１項に記載の装置。
（３）各ノードが、さらに前記内部メモリーから前記マ
スネットを通って前記再構成可能ＡＬＵパイプラインユ
ニットに、及び前記再構成可能ＡＬＵパイプラインユニ
ットから前記マスネットを通って前記内部メモリーにデ
ータを経路指定する為のメモリーＡＬＵスイッチネック
ワーク（マスネット）を有している、特許請求の範囲第
２項記載の装置。
（４）前記再構成可能ＡＬＵパイプラインユニットが、入力及び出力を有する第１の構成において永続的に結合
されているプログラマブルプロセッサの第１のグループ
と、同様に入力と出力を有し、前記第１の構成とは異なる第
２の構成において永続的に接続されているプログラマブ
ルプロセッサの第２のグループと、前記第１及び第２のグループを互いに選択的に接続する
ためのＡＬＵパイプライン構成スイッチングネットワー
ク手段（フローネット）と、を有し、かくして、前記再構成可能ＡＬＵパイプラインユニット
が前記フローネットからの命令に応じて選択的に異なる
演算を行うことを特徴とする、特許請求の範囲第３項記載の装置。
（５）前記第１のグループのプログラマブルプロセッサ
が、少なくとも２つの入力と少なくとも１つの出力を有する
第１のプロセッサと、少なくとも２つの入力と少なくとも１つの出力を有する
第２のプロセッサと、同じく出力を有し前記第１及び第２のプログラマブルプ
ロセッサの出力に永続的に接続されている２つの入力を
有する第３のプログラマブルプロセッサを有し、かくして、前記第１のグループへの入力が前記第１及び
第２のプログラマブルプロセッサの入力を構成しかつ前
記第１のグループの出力が第３のプログラマブルプロセ
ッサの出力を構成するようになっている、特許請求の範囲第４項記載の装置。
（６）前記第２のプログラマブルプロセッサが、少なくとも２つの入力と少なくとも１つの出力を有する
第４のプログラマブルプロセッサと、２つの入力と１つの出力を有する第５のプログラマブル
プロセッサを有し、前記第５のプログラマブルプロセッ
サの前記入力の１つは前記第４のプログラマブルプロセ
ッサの出力に永続的に接続されており、かくして、前記第２のグループの入力が前記第４のプログラマブル
プロセッサに対する２つの入力を構成し、且つ前記第５
のプログラマブルプロセッサの入力であって前記第４の
プログラマブルプロセッサの出力に接続されていないも
の、そして、第２のグループの出力が、前記第４のプロ
グラマブルプロセッサの出力を構成するようになってい
る、特許請求の範囲第５項記載の装置。
（７）前記再構成可能ＡＬＵパイプラインユニットが更
に前記第１及び第２のプログラマブルプロセッサに選択
的に接続するために、前記フローネットに接続されるそ
れぞれのプログラマブルプロセッサからなるプログラマ
ブルプロセッサの第３のグループを有している、特許請求の範囲第６項記載の装置。
（８）ある与えられた再構成可能可能ＡＬＵパイプライ
ンユニットにおける前記プログラマブルプロセッサの第
１のグループのものの前記プログラマブルプロセッサの
第２のグループのものに対する比がほぼ１．５乃至２．
０：１．０の範囲にある、特許請求の範囲第７項記載の
装置。
（９）前記プログラマブルプロセッサの第２のグループ
のものの前記プログラマブルプロセッサの第３のグルー
プのものに対する比がほぼ２．０：１．０である、特許
請求の範囲第８項記載の装置。
（１０）前記内部メモリーが複数のメモリープレーンか
らなる、特許請求の範囲第９項記載の装置。
（１１）各メモリープレーンが、メインメモリーバンクと、前記メインメモリーバンクから、また、に対してデータ
を伝達するためのアドレスマルチプレクサと、前記メモリーバンクと前記アドレスマルチプレクサとの
間に接続されている先取アドレスレジスターと、前記アセンブリーバンクをアランダムアクセス方式にお
いて操作するための前記アドレスマルチプレクサに接続
されている翻訳テーブル手段、を有する、特許請求の範囲第１０項記載の装置。
（１２）各ノードが、さらに、前記内部メモリー、マス
ネット及び前記再構成可能ＡＬＵパイプラインユニット
の間におけるデータのブロッキングを支配するための前
記内部メモリー、マスネット及び再構成可能のＡＬＵパ
イプラインユニットに接続されているマイクロシーケン
サー手段を有する、特許請求の範囲第１１項記載の装置
。
（１３）各ノードが、さらに、前記内部メモリー、マス
ネット、再構成可能ＡＬＵパイプラインを初期化し、ベ
リファイするための前記内部メモリー及びマスネット、
前記再構成可能ＡＬＵパイプラインに接続されているマ
イクロコントローラを有する、特許請求の範囲第１２項
記載の装置。
（１４）前記マスネットがどのような入力のどのような
出力に対する結合関係もノンブロッキングとなるように
、ビーンズスイッチングネットワークにおいて結合され
、パイプライン化されている複数のレジスターファイル
を有する、特許請求の範囲第１３項記載の装置。
（１５）ＢＰＤデータを特定の目的地ノードに経路指定
するために前記ルーティング手段、前記マスネットの間
に結合されているバウンダリ・ポイント・デフェニショ
ン、キャッシュ手段を具え、かくして前記装置が全体的
アドレス、ＰＢＤアドレスモードをサポートするように
なっている、特許請求の範囲第１４項記載の装置。
（１６）前記ノードにデータと命令を送るための前置コ
ンピュータと前記前置コンピュータに結合しうるオフラ
インの大容量記憶手段を有する、特許請求の範囲第１５
項記載の装置。
（１７）前記ノードが、ブールハイパーキューブのトポ
ロジーにおいて結合され、かつその数が１〜１２８の間
において変化する、特許請求の範囲第１６項記載の装置
。
（１８）入力及び出力を有する第１の構成において永続
的に結合されているプログラマブルプロセッサの第１の
グループと、同様に入力及び出力を有して前記第１の構成とは異なる
、第２の構成において永続的に接続されているプログラ
マブルプロセッサの第２のグループと、前記第１及び第２のグループを選択的に接合するための
スイッチング手段（フローネット）を有し、前記スイッチング手段からの命令に応じて選択的に異な
る演算を行うようにした、再構成可能コンピュータ装置。
（１９）前記プログラマブルプロセッサの第１のグルー
プのものが、少なくとも２つの入力及び少なくとも１つ
の出力を有する第１のプログラマブルプロセッサと、少なくとも２つの入力と１つの出力を有するプログラマ
ブルプロセッサと、同様に出力を有して前記第１及び第２のプログラマブル
プロセッサの出力に永続的に連結されている２つの入力
を有する第３のプログラマブルプロセッサを有し、前記
第１のグループの入力が前記第１及び第２のプログラマ
ブルプロセッサの入力を構成し、且つ前記第１のグルー
プの出力が前記第３のプログラマブルプロセッサの出力
を構成するようになっている、特許請求の範囲第１８項記載の範囲。
（２０）前記プログラマブルプロセッサの第２のグルー
プのものが、２つの入力及び１つの出力を有する第４のプログラマブ
ルプロセッサと、２つの入力及び１つの出力を有する第５のプログラマブ
ルプロセッサであって、前記第５のプログラマブルプロ
セッサの入力の１つが前記第４のプログラマブルプロセ
ッサの出力に永続的に連結されており、前記第２のグループの入力が前記第４のプログラマブル
プロセッサに対する２つの入力を構成し、且つ前記第５
のプログラマブルプロセッサに対する入力であって前記
第４のプログラマブルプロセッサの出力に連結されてい
ないもの、そして前記第２のグループの出力が、前記第
５のプログラマブルプロセッサの出力を構成している、特許請求の範囲第１９項記載の装置。
（２１）２つの入力及び１つの出力を有するそれぞれの
プログラマブルプロセッサを有してなる第３のプログラ
マブルプロセッサのグループであって、その第３のグル
ープは前記第１及び第２のグループと選択的に接続する
ため、前記スイッチング手段に結合されている、特許請
求の範囲第２０項記載の装置。
（２２）前記内部メモリーから前記マスネットを通って
前記スイッチング手段及び前記スイッチング手段から前
記マスネットを通して前記内部メモリーにデータを移送
するためのメモリーＡＬＵスイッチネットワーク手段（
マスネット）をさらに有する、特許請求の範囲第２１項
記載の装置。
（２３）前記内部メモリー、マスネット及びスイッチン
グ手段の間においてデータのブロッキングを支配するた
め、前記内部メモリー、マスネット、及びスイッチング
手段に連結されているマイクロシーケンサ手段をさらに
有する、特許請求の範囲第２２項記載の装置。
（２４）前記内部メモリー、マスネット及びスイッチン
グ手段を初期化し、その状態をベリファイするための前
記内部メモリー、マスネット、スイッチング手段に連結
されているマイクロコントローラ手段をさらに有する、
特許請求の範囲第２３項記載の装置。
（２５）前記プロセッサの少なくともいくつかのものが
、浮動小数点算術プロセッサからなる、特許請求の範囲
第１８項記載の装置。
（２６）前記プロセッサの少なくともいくつかのものが
、整数算術論理プロセッサである、特許請求の範囲第１
８項記載の装置。
（２７）前記プログラマブルプロセッサの第１のグルー
プのものの、前記プログラマブルプロセッサの第２のグ
ループのものに対する比がほぼ１．５乃至２．０：１．
０の範囲にある、特許請求の範囲第１８項記載の装置。
（２８）前記プログラマブルプロセッサの第２のグルー
プのものの、前記プログラマブルプロセッサの第３のグ
ループのものに対する比がほぼ２．０：１．０である、
特許請求の範囲第２１項記載の装置。