JPS63503099A

JPS63503099A - 有効な信号とデ−タを処理するためのデ−タフロ−マルチプロセッサア−キテクチュア

Info

Publication number: JPS63503099A
Application number: JP62501932A
Authority: JP
Inventors: キヤンベル，ミカエル・エル; フイン，デニ−ス・ジェイ; タツカ−，ジオ−ジ・ケイ; バヘイ，ミカエル・デイ; ベダ−，レツクス・ダブユ
Original assignee: ヒユ−ズ・エアクラフト・カンパニ−
Priority date: 1986-03-31
Filing date: 1987-03-02
Publication date: 1988-11-10
Also published as: WO1987006034A1; EP0261173A1; IL81756A0

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】発明の名称有効な信号とデータを処理するためのデータフローマルチプロセッサアーキテクチュア発明の背景１、発明の分野本発明はプログラムされた大規模な算術的および論理的問題を高速にデジタル計算するための方法と装置に関し、特に、８度に並列にコンピュータインストラクションと計算とを実行することができるデータフローの原理を使用する方法と装置に関する。

２、技術の説明将来の応用分野における計算の要求に見合うために、毎秒数億回の演算を実行することができるアーキテクチュアを開発することが必要とされている。十分に固有の並列性を有する種々の応用分野に対してこの目的を達成することをかできるアーキテクチュアとして、マルチプロセッサアーキテクチュアが広く受入れられている。

並列プロセッサが使用されるためには、そのプログラムが同時実行可能な処理に分割され、それらが複数のプロセッサに分配され、そして並列処理の実行と処理量通信のために非同期コントロールがなされるということが要求されるのでコンピュータのプログラミングがさらに複雑となる。アプリケーションプログラマは、彼の作成したプログラムをマルチプロセッサに分割し分配し、またプロセッサ間あるいは共有メモリ間の明白に対応付けられた通信をしなければならない。

現在のシングルプロセッサシステムを使用する時でさえ、アプリケーションプログラムは非常に高価であり、それはほとんどシステムのコストを支配する。プログラマが、前述の付加的な仕事をしなければならないことを除いても、ソフトウェアの開発とメンテナンスのコストは既に非常に高いものである。ソフトウェアの開発とメンテナンスのコストを低くするためには高性能マルチプロセッサシステムは、プログラムに要求される余分な仕事を実行し、また高級言語でプログラム可能でなければならない。

高性能を得るために使用されることができる並列処理アーキテクチュアにはいくつかのタイプが存在する。シストリック配列、フォンノイマンプロセッサのしっかり結合されたネットワークおよびデータフローアーキテクチュアは、そのような３つのタイプである。

シストリック配列では、それらの間が内部接続された同一の処理要素（Ｐ　Ｅ）が規則正しく配列された構成を有する。

その高性能は並列に接続されたＰＥと、高度にバイブライン化されたアルゴリズムとを使用することによって達成される。

シストリック配列は、それらが使用されることができるアプリケーションに制限がある。内部通信が隣のＰＥに制限されている多くのＰＥを使用するような高度にバイブライン化されたアルゴリズム（例えば配列演算）に対して最も有効である。さらに、シストリック配列はプログラム製作性が制限されている。それらは非常に高速であるが柔軟性がないという点で、“ハードワイアード゛設計である。他の欠点は、処理対象がローカルデータに制限されているということである。

計算中に外部メモリをアクセスする必要があるようなアルゴリズムは、シストリック配列を実行するためには適当ではない。

フォンノイマンプロセッサのしっかりと結合されたネットワークでは、ＰＥは通信ネットワークを使用して内部接続されており、各ＰＥはローカルメモリを有するマイクロプロセッサである。さらに、いくつかのアーキテクチュアでは、プロセッサ間通信のためにＰＥ間にグローバルメモリが提供される。これらのシステムは、各並列タスクがフォノノイマンプロセッサ上で効率的に実行されるコード（例えばシークケンシャル　コード）からなるアプリケーションに対して最もよく適する。それらはタスク内に存在する並列度の低い（マイクロ）タスクの全てをカバーするのには適していない。並列度の低いプログラムで使用されるときは、それらのＡＬＵ（算術論理ユニット）のアイドル時間が大きくなる。

データフローグラフの実行モデルに基づくデータフローマルチプロセッサアーキテクチュアは並列処理の実行と処理要素間通信とを非同期制御する。並列処理を明らかに指向するユザーを除いて、機能的な高級言語と結合される場合には、単 −ＰＥとしてプログラムされることができる。それらはフォンノイマンマルチブロセッサアーキテクチュアよりもむしろ並列度の低いタスクに適している。

（プログラムカウンタを用いる）伝統的なコントロールフロー計算機モデルと反対に、データフローの方法では、一群の演算のデータ依存性により演算が実行されるべき順番が決定させられる。データフローグラフでは演算のためのノード（アクタ）とアクタ（ａ　ｃ　ｔ　ｏ　ｒ）のデータ依存性のために導かれたアークを使用してこの情報が表される。アクタからの出力結果はアークに沿って移動するトーク′ンと呼ばれるデータ項によって他のアクタに通される。アクタの実行すなわち点火は、アクタの入カドークンの全てがその入力アーク上に存在する時生じる。アクタが点火すなわち実行されるとき、それはその入力アークにおけるトークンを使用し、その意図された演算を実行し、そしてその出力アーク上に結果トークンを置く。アクタがアーキテクチュア内で実行される時、それらはテンプレートと呼ばれる。各テンプレートは、オペコード、オペランドおよび宛先ポインタに対するスロットからなり、それらは演算の結果が送られるべきアクタを示す。

アルゴリズムにおけるデータフローグラフの表現は、アルゴリズムにおけるデータ依存グラフである。そのグラフ内のノードは演算子（アクタ）を表し、そのノードを接続する導かれたアークは、オペランド（アクタ）間をオペランド（トークン）が移動するデータｄ路を表す。アクタへの入カドークンの全てが使用できる時、そのアクタは、その人カドークンを消費し、それらに関する演算を実行し、そしていくつかの出カドークンを作ることによって、点火する。データフローのほとんどの定義においてアークとアクタは制限され、その結果アークは一度に多くとも１つの入カドークンを持つことができる。これは、その出力アークの全てが空でなければアクタが点火することがないということを意味する。より一般的な定義により、各アークはトークンがおかれることができる無限のキューであることができる。

全てのデータフローアーキテクチュアは、データフローグラフ内でアクタを実行する複数の処理要素からなる。別々のＰＥ内で、並列に点火することができるアクタを実行することによって、データフローアーキテクチュアはデータフローグラフでは固有の並列性という長所を有する。データフローのコントロールは、それが問題の完全な並列性を表すことができ、プロセッサ間通信と同期に関するプログラマの概念を明らかに減らすことができるので、特に魅力的である。

米国特許３，９６２，７０６では、デニス（Ｄｅｎｎｉｓ）らが格納されたプログラムを高度に並列処理するためのデータ処理装置を開示した。本発明とは異なり開示された装置は中央コントローラとグローバルメモリを使用する。従ってそのようなアーキテクチュアによって生じる限定から離れることは出来ない。

ミスナス（Ｍｉｓｕｎａｓ）らは米国特許４，１４５．７３３において米国特許３，９６２．７０６で述べられたデータ処理装置よりもさらに改善されたものを開示した。しかしながら開示された装置は本発明とは異なり、中央コントローラとグローバルメ・モリをまだ有している。

米国特許４，１５３．９３２ではデニス（Ｄｅｎｎｉｓ）らは、先の２つの特許に開示された装置とは異なる装置を開示した。

それでは拡張性を得るために明らかに新しいネットワークが付加されたことが異なる。しかしながら本発明に関連するものではない。

米国特許４．４１Ｌ３８ジではドイル（Ｄｏｙｌｅ）らはプロセッサとマイクロプロセッサシステムのための大規模集積回路（ＬＳＩ）データフローコンボ−゛ネントを開示した。それは本発明の処理要素とはなんら関連するものではなく本発明のデータフローアーキテクチュアに関する何ものも教えるものではない。

上に参照された特許に開示された発明のどれもが、イメージと信号の処理のためのアルゴリズムと高いスループットを得るためのアルゴリズムから低並列度を最大限活用することがで与る高級言語でプログラム可能な関連するタスクとを実行するように設計されたプロセッサを提供するものではない。

本発明は他のデータフローマシンとは異なり、少数の異なるチップを使用する改善されたＬＳ１回路を効率的に実現しようとするものである。それは容易に拡張されることができ、高性能のために素早く転送されることができる短い通信経路を使用する。高級言語で容易にプログラムを作製することができることと合わせて、データと信号処理に際し、大きなスルーブツトを有するリアルタイムのアプリケーションのための本発明の全能力は、以前のマシンには欠けているものである。

本発明は、特に信号処理の問題の性能に対する潜在力と同じプロセッサ上でトラッキング、コントロール、およびディスプレイ処理を含む関連するデータ処理機能とを提供することを目的とする。インストラクションレベルのデータフロー（マイクロデータフロー）の方法と、タスクの処理要素へのコンパイル時間（静的）の割当てが効率的なランタイム性能を得るために使用される。

発明の概要本発明は高性能の信号とデータを処理のためのデータフローアーキテクチュアとソフトウェア環境に関する。プログラミング環境は、機能的な高級言語、すなわちヒユーズデータフロー言語（ＨＤＦＬ）でアプリケーションをコード化することができ、それは自動的に分割され、多数の処理要素に分配されるデータフローグラフの形にコンパイルされる。小規模の問題あるいはシュミレーションの研究のためには、データフローグラフ言語のアッセンブラとローカルアロケータはデータフローグラフの形に直接プログラミングすることができる。

データフローアーキテクチュアは３次元バスのパケット経路選択ネットワークによって接続された多くの処理要素からなる。処理要素は超大規模集積回路（ＶＬＳＩ）が、非常に大きなスルーブツトを有するリアルタイム処理を提供するように設計されている。データフロープロセッサのモジュラ−の性質によりスルーブツトの範囲と信頼性の要求に見合うようにより多くの処理要素が加えられることができる。シュミレーションの結果は高性能動作を示した。

したがって本発明の１つの目的は、大きなスループットを有して信号とデータを処理するアプリケーションのために高級言語でプログラムされることができる高性能フォールトトレランスプロセッサであるデータフローマルチプロセッサを提供することである。

本発明の他の目的は、インストラクション駆動よりもむしろデータ駆動であるデータフローの原理に基づいて、複雑で大規模な問題を解決するにあたって速い高度な並列計算を行うことができること、である。

複数の処理要素のために、存在する処理要素と同じ数の成分に分割される通信ネットワークを提供することが本発明の他の目的であり、その結果、全ての処理要素にわたって通信ネットワークは等しく分配され、ｎ個の処理要素が存在するならば、各処理要素はそれを支持するように１　／　ｎの内部接続ネットワークを有する。

さらに本発明の他の目的は、プログラムの静的アロケーション（すなわちコンパイル時間）を処理要素に提供することである。

さらにまた本発明の他の目的は、たった２つの異なるＶＬＳＩチップを使用する装置が非常に大きなスループットを有するリアルタイム処理を提供することができるように設計された処理要素を使用することである。

データフロープロセッサのモジュラの性質によりスループットの範囲と信頼性の要求に見合うようにより多くの処理要素が加えられることができることが本発明の目的の１つてあ本発明の他の目的と本発明のより完全な理解は、以下の実施例の説明を読み、添附図面を参照することによって達成される。

図面の簡単な説明１第１図は、本発明のブロックダイヤグラムであり、ブロワ　。

クダイヤグラムの右側にその１部のいくつかについての情報を示す。

第２図は３次元バスのパケット経路選択ネットワークにおいて処理要素がどのように一緒に接続されているかを示す。

第３図は、データパケットがパケットの種類と、ＰＥとテンプレートのアドレスと、および１以上のデータワードからどのようにしてなるかを示す。

第４図は、ブロックダイヤグラムの形で処理要素の構成を示す。

第５図は、テンプレートと配列が物理的メモリにどのように写像されるかを示す。

第６図は、ハードウェアで直接実行されるいくつかの基本的アクタの例を示す。

第７図は、式’ｉｆ　ｙｌ　＜−ｙ２　ｔｈｅｎ　ｙ２＊２＋１　ｅｌｓｅ　ｙｌ＋ｘＯｅｎｄｉｆ”に対応し、コンパイラによって発生されたデータフローグラフの例である。

第８図は、（毎秒１００万のインストラクションを単位として）プログラム　レーダ３ｎａに対するスルーブツト対処理要素の数のシュミレーションの結果を示すグラフである。

“Ａ”と記された曲線は、ランダムアロケーションアルゴリズムに対するものであり、“Ｂ′と記された曲線は遷移的閉包を使用するアロケーションアルゴリズムに対するものであり、“Ｃ”と記された曲線は非遷移的閉包を使用するアロケーションアルゴリズムに対するものである。

第９図は、プログラム　レーダｂに対するシュミレーションの結果のプロットである。座標はＭＩ　ＰＳ単位でスループットを表し、横軸は処理要素の数を表す。低いほうのカーブは、ランダムアロケーションアルゴリズムに対するものであり、上の方の曲線は、非遷移的閉包のアロケーションアルゴリズムに対するものである。

第１０図は、ＡＬＵがビジーである時間の百分率対プログラム　レーダ３ｎａに対する処理要素の数のシュミレーションの結果を示すグラフである。ＤおよびＧと記された実線の曲線は、遷移的閉包のアロケーションアルゴリズムに対する平均ＡＬＵビジ一時間と最大ＡＬＵビジ一時間をそれぞれ表す。

ＥおよびＦと記された曲線は非遷移的閉包アロケーションアルゴリズムに対する平均ＡＬＵビジ一時間と最大ＡＬＵビジ一時間である。

第１１図は非遷移的閉包アロケーションアルゴリズムを使用して、プログラム　レーダｂのシュミレーションにおいて、ＡＬＵがビジーである時間の百分率対処理要素の数を示す。

下の曲線は平均ＡＬＵビジ一時間に対してであり、上の方の曲線は最大ＡＬＵビジ一時間に対してである。

第１２図は、達成された最大スループットの百分率対平均ＡＬＵビジ一時間の百分率を示すグラフである。黒丸は非遷移的閉包アロケーションアルゴリズムを使用するプログラムレーダｂに対するシュミレーションの結果から得られたものである。バラ印と白丸はそれぞれ遷移的閉包と非遷移的閉包のアロケーションアルゴリズムを使用するプログラム　レーダ３ｎａ対するものである。

第１３図は、（ＰＥ間に対するＰＥ内）ローカルであるパケット通信の百分率対プログラム　レーダ３ｎａに対する処理要素の数のプロットである。下の方の曲線は遷移的閉包アロケーションアルゴリズムに対するものであり、上のほうの曲線は非遷移的閉包アロケーションアルゴリズムに対するものである。

第１４図は、（ＰＥ間に対するＰＥ内）ローカルであるパケット通信の百分率対非遷移的閉包アロケーションアルゴリズムを使用するプログラム　レーダｂに対する処理要素の数のプロットである。

第１５図は、結果キューの（パケット内の）長さ対処理要素の数のプログラム　レーダｂの非遷移的閉包アロケーションアルゴリズムに対するグラフである。下の方の曲線は平均キューレングスであり、上の方の曲線は最大キューレングスである。

第１６図は、平均通信パケットレーテンシ−（クロックサイクルにおいて）対プログラム　レーダｂの処理要素の数の非遷移的閉包アロケーションアルゴリズムに対するプロットである。

実施例の説明第１図は本発明による信号とデータを高性能処理するためのデータフローアーキテクチュアと、ソフトウェア環境１ｏのブロックダイアグラムである。プログラミング環境は、機能的な高級官話のアプリケーションコード化を許し、それはプログラムファイル２０となり、そのファイルはコンパイラ−３０に入力され、コンパイラ−はそれをデーター゛フローグラフの形４０に変換し、グローバルアロケータ５ｏはそのグラフを自動的に分割し、複数の処理要素８０に分配する。小さい問題の場合には、プログラムはデータフローグラフの中でなされることができ、入力されるデータフローグラフファイル１３上で直接動作するアッセンブラ１５によって、アッセンブルされることができる。そのデータフローグラフファイル１３の出力は分割と分配のためにローカルアロケータ１７に送られる。前者の場合には、データフロープロセッサディスクリブジョンファイル４５は、グローバルアロケータ５０に読込まれ、後者の場合には、データフロープロセッサディスクリプジョンファイル１４はアッセンブラ１５に読込まれる。データフロープロセッサ７０は３次元バスパケット経路選択ネットワーク内に接続された多数の処理要素８０からなる。データはプロセッサ８ｏに接続された入出力デバイス９ｏによってプロセッサ８ｏに入力され出力される。

３次元バスネットワーク第２図に示されるようにデータフロープロセッサ７ｏは、ＰＥ間ダグローバル通信ネットワークよって接続された１個から５１２個までの同一の処理要素を具備する。このネットワークは３次元バスネットワークであり、そのネットワーク内においてハードウェアは、任意のＰＥが他の任意のＰＥにデータを転送することが出来るフォールトトレランスストアアンドフォアードパケットスイッチングブロトコールを備えている。各処理要素は、通信ネットワーク内にパケットを格納するためのキューを有し、および処理要素の正常動作状態を監視し、パケットの流れる経路を決定するための適当な制御を行なう。

３次元バス内部接続ネットワークにおいては、全ての処理要素が直接に接続されているわけではなく、そのためストアアンドフォワードパケット経路選択技術が使用される。このアルゴリズムは、通信チップ８１内で実行される。そのチップる。通信チップ８１は、それが４つの入力ポートからパケットを受取り、それらを適切な出力ポートに回すという点でクロスバ−のように働く。さらにそれはプロセッサ入カキニー１１２と、プロセッサ出力キュー１１４を含む多数のファーストイン・ファーストアウトキューでバッファーする。

３次元バスネットワークは、単一トークンからなる非常に短いパケットを送信するのに最も適する。第３図に示されるように、各パケットはパケットタイプ、アドレス、および−片のデータから構成される。異なるタイプのパケットは、通常のトークンパケット、初期化パケット、およびマシンの再構成コントロールのための特別なコントロールパケットを含む。各パケットのアドレスは処理要素アドレスと処理要素内の一つの特定のアクタインストランジョンを示すテンプレートアドレスからなる。パケットがコントロールパケットであるならば、データは高級データフロー言語の許されるデータの種類あるいはコントロール情報のいずれであってもよい。

８Ｘ８Ｘ８まで、すなわち５１２個までのデータ要素が通信ネットワーク内に物理的に収納されることができる。信号処理の際の多くの問題は、これらのアルゴリズムを分割することの容易さのため、バス容量を過負荷にすることなく、この多くの処理要素を潜在的に使用することである。しかしながら一般のデータ処理では、バスのバンド幅はバス当り４以上の処理要素を飽和させ始める。多くの処理要素が加えられることができ、性能は増加されるが、処理要素当りの効率は低下する。

ＰＥ間のパケット転送では単一経路選択法が使用される。

言換えれば、あるソースＰＥから、あるシンクＰＥにパケットが送信されるごとに同じ経路が使用される。これにより、あるソースＰＨにおけるアクタから、あるシンクＰＥにおけるアクタに送信されるパケットが、それらが送信された順番と同じ順番で到着することが保障され、それは、例えばグラフがバイブライン処理される時のように、一度以上アクタが実行される時必要である。

それが受付けるべきパケットを捜すために、各ＰＥは連続的にその平面、行および列のバスを監視する。ＰＥは直接アドレス指定されるパケットと、ＰＥを介して他のＰＨに転送される必要があるパケットを受付ける。例えばパケットが平面バス上に置かれるならば、そのバス上の全てのＰＥがパケットのアドレスを調べ、その平面アドレスがパケットの平面アドレスと一致するＰＥがそのパケットを受付ける。

フォールトトレランス通信ネットワークは、信頼性があるように設計され、高速にスイッチインし、スペアの処理要素を使用することができるように、歪曲されたメツセージは自動的にリトライされ、バス属性は分配され、代替バスパケットルーチン及び故障処理要素変換テーブルを有する。

静的フォールトトレランスは完全にサポートされる。ＰＥの故障が判定されたとき、スペアのＰＥには故障したＰＥからテンプレートがロードされることができ、動作は続けられる。しかしながらこれにより２つの問題が発生する。（１）スペアのＰＥは、それが置換えられるべきＰＥとは異なるアドレスを有することと、（２）故障したＰＥを介して転送されるべきメツセージは、代わりにスペアのＰＥを経由しなければならないということである。

第１の問題は２つ方法によって解決されることができる。

長期間（数日から数カ月）の場合には計画的なメンテナンス期間の間にアロケータソフトウェアを使用して、アプリケイジョンプログラムはリアロケートされることができる。瞬時回復（数秒）の場合に対しては、エラーメモリ　１１０と呼ばれる少数の故障ＰＥアドレス変換レジスタが各ＰＥ内に用意されている。ＰＥが故障したとき、そのアドレスはエラーメモリ　１１０に入力され、それはその置換えられるべきＰＨのアドレスによって置換えられる。発生される各パケットはエラーメモリで調べられ、一致していれば故障したＰＥのアドレスは置換されるべきアドレスに置換えられる。

故障したＰＥを介するパケットの経路選択は、各ＰＥが直接接続された故障ＰＥが動作するトラックを保つことによって達成される。ＰＥが故障した場合には、送′信側ＰＥは他のバスにパケットを送信するように経路を選択する。

動的フォールトトレランスは、異なるＰＨに並列にクリティカルコード部の２以上のコピーを走らせ、その結果を選ぶことにより提供されることができる。他の種類の並列プロセッサで出会う困難さと異なり、データフローの概念はその構成により同期の問題を避け、そしてそれがハードウェアでサポートされるので、内部処理通信のオバーヘッドは最少とされる。動的フォールトトレランスへのこのソフトウェアによる方法は、この特徴のために必要とされる余分なハードウェアが最少とされる。

パケット転送されるパケットは、１６ビツトあるいは２４ビツトのいずれかのトークン値を有する（第３図を参照）。データの経路は１７ビツト幅すなわち１６データピツトと、１タグピツトである。各パケットは６種類のビットとＰＥアドレスとアクタアドレスと、および１つのアクタから他のアクタに送信されるべきデータを含む。ＰＥアドレスは、宛先ＰＥを示し、アクタアドレスはデータが送信されるべきＰＥ内のアクタを示す。

ＰＥアドレスは、９ビツトすなわち各平面、行および列アドレスに対して３ビツトであり、８Ｘ８Ｘ８個のＰＨの立方構成となっているような５１２までの別々のＰＥを指定するために使用されることができる。可変長パケットはネットワークプロトコールによってサポートされ、パケット送信の最後のワードは、エンドオブパケットビットによって示される。

処理要素各処理要素８０は第４図に示されるように通信チップ８１と処理チップ１２０とメモリとを有する。通信ネットワークは、フォールトトレランスを改善するために全てのＰＥに対して分配される。通信ネットワークの単−ＰＥと関連する部分が、第４図に外部の平面、行、列のバス８２．８４．８６、によって表されている。外部バス８２．８４．８Ｂはパケット受信信号が２サイクル以内に受信されなければ、バスあるいはＰＥが故障であることを示す２サイクルタイムアウトとパリティとストアアンドフォワードプロトコールを使用する。パリティとタイムアウトの特徴は、エラー検出のために使用される。ストアアンドフォワードプロトコールは、受信側通信チップにおける入力キューが満杯であるかもしれないので必要であり、その場合には送信側通信チップは、後でパケットを再送信することが必要である。外部バス８２．８４．８６のアービトレイジョンコントロールは高信頼性のために分散化される。入力／出力キューの対８０と１００、および１０２と１０４、および１０６と１０８は外部の平面、行、および列のバス８２．８４．８６を介して入力され、あるいは出力されるデータをバッファーするために使用される。２つの内部バス８９と１０７は、処理チップの平面、行、および列の入力キュー８８．１０２．１０Ｂからプロセッサの平面、行、および列の出力キュー１００．１０４．１０８にパケットを送信するために使用される。全てのバスは、ラウンドロビンアービトレイジョンを使用する。

通信チップ８１は、その関連する処理チップ１２０内に格納されているアクタに宛てたトークンを受取り、それらのトークンをチップ８１に通す。通信チップ１２０内のエラーメモリ　１１０は、論理ＰＥアドレスを物理ＰＥアドレスに変換するためのマツピングを含む。通常その２つは同じであるが、ＰＥが故障したならばその論理アドレスはスペアのＰＨのうち１つの物理アドレスにマツピングされる。静的フォールトトレランスが使用される。ＰＥが故障したときその故障が一時的なものか永久的なものかどうかを判定するために、自己診断ルーチンが使用される。その故障が永久的なものであるならば、故障したＰＥにアロケートされるコードは、故障したＰＥのアドレスを有するスペアのＰＨに再びロードされなければならない。その後プログラムは最後の中断点から再スタートされなければならない。通信チップは高度にバイブライン化され、その結果パケットのワードはほとんど１サイクル毎に送信されることができる。毎秒約５００から６００万パケツトが通信チップによって送信されることができる。

処理要素に対するこの構成は、ＶＬＳ　Ｉ設計を簡素化するように選択される。

その設計に際しては、ただ２つのＶＬＳ　Ｉチップが存在するだけであり、ＰＥを、通信チップ８１と処理チップ１２０にを分割することによりチップあたりの入力／出力ピンの数は最少とされる。両方のチップは、２０ＭＨｚで動作するカスタム仕様のＶＨ３ＩＣの１．２５ミクロンＣＭＯＳ／ＳＯＳチップである。

各個別のＰＥは完全なコンピュータであり、プログラムとデータを格納するために、それ自身ローカルメモリを有する。

ＰＨにアロケートされたアクタを格納する２つのランダムアクセスメモリ（ＲＡＭ）１４６と１５６は各処理チップと関連する。これら２つのメモリ、すなわち宛先メモリ　１４６とテンプレートメモリ　１５６は、処理チップ１２０に取付けられている。

おのおのは複数のＲＡＭチップを有し、そのアクセス時間は各メモリアクセスのために必要とされる２サイクルで８０ナノ秒以下である。単一の双方向性バス１５８が通信チップ８１と、処理チップ１２０の間を繋ぐために使用される。

処理チップはマイクロマシンと呼ばれるように選択された４つの特定目的用マイクロプロセッサを有する。

処理チップ１２０は通信チップ８１からトークンを受取り、各トークンがアクタを駆動することが出来るかどうかを判定する。もしそうでなければ、そのトークンは一致するトークン、あるいはトークン群が到達するまで格納される。トークンがアクタをイネーブルにするならば、アクタはメモリからフェッチされ、処理チップ１２０内のＡＬＵマイクロマシン１４４によって実行される。結果としての値は、１以上のトークンに形成され、それらはそれらを予期している他のアクタに送信される。

各処理チップに取付けられたメモリは、テンプレートとして表わせられるアクタを格納するために使用される。テンプレートは、オペコードと、結果が送られるべきアドレスの宛先リストと、及び第１のトークンと一致するトークンが受信されるまで到達した第１のトークンを格納するためのの空間のためのスロットとからなる。

またメモリは配列を格納するために使用さ°れ、その配列は単一の処理要素のメモリに送られ、あるいは多くの処理要素に分配されることができる。分配された配列に関して１つの処理要素内で実行するアクタが、他の処理要素のメモリ内に格納されている配列値をアクセスすることを必要とすることが可能である。特定のアクタがこれらの非ローカルのアクセスのためにアーキテクチュア内に用意されている。配列の指数が与えられると、その値を含む処理要素のアドレスが、その配列が分配される方法に基づいて計算され、その値に対する要求が通信ネットワークを介して送られる。その後他の処理要素は、通常のトークンとして要求された値を送り返すことによって応答する。非ローカル配列の行進は同様に処理される。

処理チップは、以下の３つの動作がオーバーラツプされたパイプライン化されたプロセッサである。すなわち（１）インストランジョン／オペランドフェッチとでデータフロー駆点火ルールのチェック、（２）インストラクションの実行、および（３）パケットを形成するために、結果と宛先アドレスとの一致。異なるインストラクションに対するこれらのユニットの各々のサービス時間におけるいくつかの変化があり、その結果、キューは第４図に示されるようなユニット間に提供される。

インストラクションのフェッチとデータフローの点火ルールのチェックは、２つの並列なマイクロマシンユニットと、テンプレートメモリコントローラ１３０と、及び宛先メモリコントローラ２２によって実行される。テンプレートは３つの独立なメモリ、すなわち点火検出メモリ　１３２と、テンプレートメモリ　１５Ｂと、および宛先メモリ　１４６とに渡って広げられている。

これらの各メモリの最初の４にのロケーションは、アクタのアドレスを有する。

点火検出メモリ　１３２は４にのロケーションを有するにすぎない。テンプレートメモリ　１５６と、宛先メモリ　１４６は、各アクタ、配列データ、及びキューのオーバーフローデータと関連する可変長データを格納するために使用される付加的メモリを有する。テンプレートメモリ　１５［３は３つのメモリに分けられ、その結果、テンプレートメモリコントローラ１３０と宛先メモリコントローラ１２２は並列に動作することができ、このようにして、１つのメモリと１つのコントローラが使用されるよりも素早く点火するアクタが準備されることができる。

パケットが処理チップに到達した時、パケットによりアドレス指定されるテンプレートのスティタスは点火検出メモリ１３２からアクセスされ、テンプレートが点火する準備ができているかどうかという判定がなされる。スティタスビットは、テンプレートスティタスの更新と速いアクセスと行うことができるように、オンチップ点火検出メモリ　１３２に格納される。

テンプレートが点火する準備ができていなければ到達したトークン（オペランド）はテンプレートメモリ　１５６に格納される。

テンプレートが点火する準備ができていれば、テンプレートメモリコントローラ１３０は、テンプレートメモリ　１５６内に格納されているテンプレートのオペコードとオペランドをフェッチし、それらを入力オペランドと結合し、それによりアクタを点火することが可能とされ、そしてそれらを点火キュー１３８に送る、キュー１３８から算術論理ユニット（Ａ　Ｌ　Ｕ）マイクロマシン１４４はそれらをフェッチする。同時に、宛先メモリコントローラ１２２は、テンプレートの結果が送信されるべき宛先アドレスをフェッチし始め、これらのアドレスを宛先キュー１３４に格納する。各テンプレート（アクタ）の各結果が複数の宛先に送信されることを必要としているので、宛先メモリ　１４６は各アクタの各結果に対する宛先のリストを収納するためにオバーフロー格納領域を有する。第５図はテンブレ、−トと配列が物理的メモリにどのように写像されるかを示す。

ＡＬＵマイクロマシン１４４内で実行されたアクタの実行の結果は結果キュー１４２に置かれる。結果キュー１４２内に格納される結果と宛先キュー１３４に格納された宛先は、宛先タガ−マイクロマシン１３Ｂによってパケット内に組合わされ（フィードバックキュー１３８を介して）テンプレートメモリコントローラ１３０に、あるいは（通信キュー１２４を介して）他のＰＥに送り戻される。

要約すると処理要素の４つの主な機能は通信ネットワーク処理と、アクタ点火検出とアクタの実行と及び結果としてのトークンの形成である。これらの４つの機能の全てがパイプラインの様に同時に実行される。

スタンドアロンな処理要素は、使用されるインストラクションの組合わせに基づいて毎秒２から４のマイクロオペレーション（ＭＯＰＳ）を実行することができる。この場合ＭＯＰは基本的アクタインストラクションとして定義される。

１マイクロインストラクシヨンで完了する簡単な１６ビツト加算から１０サイクルを要する配列指定インストラクションまで複雑さが変化し、あるいは約２５サイクルかかる１６ビツト割算まで複雑さが変化する。

２つの別々のメモリインターフェイス１４８と１５０および１５２と１５４により、高性能を維持するために必要な大きなメモリプロセッサバンド幅を持つことができる。チップの種類と電力消費を最少にするという設計の目的によりＡＬＵは単純な構成とされた。ハードウェアは複合化されるものは何もない。複合化は、モディファイされたブースアルゴリズム法によって実行される。チップの各々のピンは１５０よりも少なく、各チップは約１５にゲートからなり２０ＭＨｚのクロック速度で動作する。

ソフトウェア環境本発明による実施例は高級機能言語であるヒユーズデータフロー言語（ＨＤＦＬ）でプログラミングされる。ＨＤＦＬプログラム２０のレコードは、コンパイラ３０に読込まれコンパイラ３０はそれをパラレルデータフローグラフの形式４０に翻訳し、その形式４０はプロセッサ構成４５の記述とともに複数の処理要素８０に分配するために、グローバルアロケータ５０に供給される。そのアロケータは、ＰＥ間通信を最少にしている間に並列に進行することができる動作の数を最大にするためにハードウェアに、プログラムグラフをコンパイル時間割当てするように静的グラフ解析を使用する。

本発明の基本的な目的の１つは、ソフトウェアコストを減少させる°ために高級言語プログラミング能力を供給することにあるので、多くの問題内に固をの並列性が容易に表されることができる高級言語が見付けられなければならなかった。

フォートランやパスカルのような現在のシーケンシャルな言語は、もともと並列性を欠くので除かれた。アダ及び他のマルチタスク言語は、マルチタスクを創造し同期させることに関する明白なプログラマを必要とするので除かれた。そのようなことは、複雑さを増しソフトウェア開発にコストがかかる。特定の処理ではこれらの言語はフォートランクラスの言語と同様に並列性が欠如している。ＶＡＬ又はＩｄのような応用性のあるデータフロー言語が並列性の有効な抽出とマルチプロセッサハードウェアへの有効な写像を許すために必要とされるということがわかったマグロ−（Ｊ、　Ｒ，ＭｅＧｒａｖ）による“ＶＡＬ言語、記述と解析′、プログラミング言語とシステムのＡＣＭのトランザクション１９８２年１月のＮｏ、ｌ　巻６ページ４４−８２　あるいはアービンド（Ａｒｖｉｎｄ）らによる“プレリミナリー１ｄレポート“１９７８年５月アイルビン、カルフォルニア大学ＴＲ１１４Ａコンピユータ科学講座）これらによりヒユーズデータフロー言語の開発に導かれ、それはデータフローコンピュータに対する汎用高級プログラミング言語である。それは応用性のある言語であるが、親しまれている代数的記述の使用とプログラミング言語の慣例を含む。

ヒユーズデータフロー言語はバリューオリエンテッドであり、単一割当て変数だけを許す。その特徴として、強く典型的であり、そのデータ構成はレコードと配列を含み、条件（Ｉ　Ｆ　ＴＨＥＮ　ＥＬＳＥ）と繰返しくＦＯＲ）と並列繰返しくＦＯＲＡＬＬ）およびストリームを特徴とする。

ＨＤＦＬプログラムはプログラム定義とゼロ以上の関数定義からなる。グローバル変数、あるいはサイドイフエクトは存在しない。値はパラメータパッシングを介して通される。

ＨＤＦＬの簡単な例がすぐ下に示される。

タイプ　ｘｙ−レコード（Ｘ：整数；ｙ：整数）；定数スケールファクター２；％　これはコメント関数　ｆ　ｏｏ　（ｘｙｖａ　ｒ　：　ｘｙ　；　ｘＯ，ｙｌ。

ｙ２：整数　リターン　ｘｙ、整数）定数　オフセット−１；結果：ｘｙ　（ｘｙｖａ　ｒ　：　ｘ＋ｘｏ、ｘｙｖａ　ｒ　：　ｙ＋ｙｌ）。

ｉｆ　ｙｌ＞ｙ２　％どちらかの分岐は単一の値を作る。

ｔｈｅｎ　ｙ２＊スケールファクタ＋オフセットｅｌｓｅ　ｙｌ＋ｘＯすぐ上に示された例は４つのパラメータ（１つのレコードと３つの整数）をとる関数“ｆｏｏ”からなり、１つのレコードと１つの整数を戻す。“結果”は関数の本体を始めるキーワードであり、“ｅｎｄｆｕｎ“はそれを終わらせる。関数の本体はリターン値当り１つの式であり、カンマによって区切られる任意の複雑な式のリストからなる。この例では関数本体中の第１の式は、値をレコードの結果のフィールドに割当てる“レコードタイプコンストラクタ”である。その下の条件式は、整数値に評価する。定数とタイプは、関数のヘッダの前にあるいは本体の前で宣言される。関数は、ネスティングされることができる。

ＨＤＦＬ　コンパイラコンパイラは基本的なデータフローアクタからなるデータフローグラフの中間的なかたちにＨＤＦＬを翻訳する。動作は３つの経路で進行する。１）シンタックスのチェックとバースツリー構造。２）セマンティックのチェックとアーギュメントおよび、３）コードの発生。各相はテーブル駆動である。以下のテーブル駆動によるコード発生は不必要なコードを除去し、一定なサブグラフを評価し、及びいくらかの最適化を実行するための最終的な後処理段階である。コンパイラによって発生されたグラフ中間形式は、アロケータによって使用されるシンタックス情報と他の情報を有する。

基本的なアクタは、ハードウェアによって直接サポートされるものである。アクタのうちのいくつかは１６ビツト形式であり、他のものは３２ビツト形式である。多くはＡＤＤのような単純な算術的プール関数アクタであり、他のものはＥＮＡＢＬＥおよび５ＷＩＴＣＨあるいはＬＥ５のように混成のような制御アクタコントロルアフタであり、いくつかはＦＯＲＷＡＲＤのような関数インボケ−ジョンで使用され、他のものは配列およびストリームの処理のために使用される。

第６図はハードウェアに直接組込まれる基本的アクタのいくつかを示す。

高級言語における各構成に対して、コンパイラはその関数を実行する基本的アクタからなる対応するデータフローグラフを有する。例えばＨＤＦＬの条件式“ｉｆ　ｙｌ＜＝ｙ２　ｔｈｅｎ　ｙ２＊２＋１　ｅｌｓｅ　ｙｌ　＋ｘＯｅｎｄｉｆ”から発生されるデータフローグラフは、第７図に示される。“ｔｈｅｎ”と “ｅｌｓｅ”の条件分岐はこれらのアークに関するトークンを同じロケーションに送ることによって一緒にマージされる。これは出力アークを一緒にマージすることによって示される。ＬＥ５　アクタ−は使用されないいくつかのスタブ出力アークを有するということにも注意せよ。ＥＮＡＢＬＥ　アクタが存在し、その結果、式の結果が発生される時、これはグラフの中の全てのアクタが点火されることを保障し、グラフは、望まれるならばさらに使用されることができる。

アロケータアクタを処理要素に割当てることはマルチプロセッサの性能に大きな影響を与える。例えば各ＰＥはシーケンシャルコンピュータなので、潜在的に並列に点火することができるアクタは、それらが同じＰＨに割当てられているならばそうすることはできない。性能はまた、ＰＥ間通信ネットワークにおけるデータ通信遅延によって影響されることがある。あるＰＥから他のＰＥにトークンを送信するためには、同じＰＥ内で１つのアクタから他のアクタにトークンを送信するそれは完全に通信ネットワークをバイパスするよりも多くのクロックサイクルが必要である。

これにより効率的なアロケーションのための３つのゴールが導かれる。１）グラフ内に接続されたアクタを同じ処理要素に割当てることによってＰＥ間通信を最少にする。２）並列に点火することのできるアクタを別々の処理要素に割当てることによってグラフの並列性の使用を最大にする。及び３）処理要素間で計算負荷を出来るだけ均等にする。

データフローのアーキテクチュアと高級言語コンパイラ３０が開発され、アロケーションアルゴリズムが実行された。シュミレーションの結果を得るために始めにローカルアロケータ１７と呼ばれる小スケールバージョンが実行された。

ローカルアロケータローカルアロケータ１７への入力は、一連のテンプレートの形でデータフローグラフを有するファイル１３である。各テンプレートは、それが表すオペレータ演算子のオペコードと、それから発生するデータ依存アークをリストする。このファイルはまた配列をリストし、それらの各々は単一処理要素に割当てられ、あるいは多くの処理要素に渡って分配される。

アロケートされるべきデータフローマルチプロセッサの構成を述べるファイル１４は、ローカルアロケータ１７に読込まれ、どれ程多くの処理要素８０がＰＥを接続する３次元パケット経路選択ネットワークの各次元に存在するかを指定する。シュミレーションのためにローカルアロケータ１７の出力は２つのファイルからなる。第１のファイルは、グラフの各アクタを処理要素のうちの１つのメモリロケーションに写像することを指定し、第２のファイルは１以上の処理要素内のメモリブロックを指定するために配列がどのように割当てられるかを指定する。

これらのファイルはその後シュミレータされるマシンを初期化するためにアーキテクチャのシュミレータに読込まれることができる。

ローカルアロケータ１７は幅第１サーチの変形を使用してグラフのアクタをトポロジ的にソートする事によって始まる（このためにはアホ−（Ａｈｏ）らによる１９７４年にアディソンーウエズリによって発行された“コンピュータアルゴリズムの設計と解析“を参照）。トポロジ的にソートされた順番で、グラフの入力を受取るアクタが先頭であり、第１のアクタからのアークを受取るアクタによって後続され、以下同じである（このために我々は、前に見られるアクタへのバックアークを無視することによってグラフ内のサイクルを無視することができる）。次のステップは、データフローグラフの過渡的な閉包を計算することであり、それは以下の帰納的な議論で定義される。

その後ローカルアロケータはグラフ内のアクタの格納されたリストを順番に処理し、各アクタを処理要素の１つに割当てる。あるアクタに対する最良のＰＥを選択するためにアルゴリズムは、いくつかの帰納的コスト関数をＰＥの各々に適用し、その結果の重みづけられた合計を取り、最低のコストでＰＥを使用する。これらの帰納的論法は、ローカルアロケータ１７とグローバルアロケータ５０の心臓部である。

現在３つの基本的な帰納的な論法が実行される：通信コスト、配列アクセスコスト及び並列処理コスト。通信および配列アクセスのコスト関数は、ＰＥ間通信を最少にする目的に対応し、並列処理コスト関数は、並列性を最大にする目的に対応する。

通信コスト関数は、あるアクタとあるＰＥを取上げ、そのあるアクタをそのあるＰＨに割当てるならばその結果となるであろうネットワークを介しての通信の近似的な測定値を戻す。一般に、２つのアクタが接続されるとき、それらが離れてアロケートされる程に、通信コストは益々高くなる。

帰納的関数は、ＰＥが３次元バス通信ネットワークにおいてどのぐらい離れているかを決定するための距離関数を使用する。例えば２つのＰＥが共通バス上にあれば、それらの間の距離は、トークンが一方から他方へ伝わるために１つのバスを移動しなければならないので、“１ホツプ″である。

ＰＥとそれ自身の間の距離は、通信ネットワークはトークンを送信する場合にバイパスされることができるので０ホツプである。

アクタがアロケートされようとする時、アクタはトポロジ的にソートされた順番に割当てられるので、入力されるトークンを受取るアクタのほとんどは既にアロケートされている。

ＰＥ間の距離関数を使用して、通信コスト関数はアクタがあるＰＥに割当てられるならば、通信ネットワークを介して各入カドークンがどのぐらい遠くに伝えられなければならないかを決定する。通信コスト関数の値はこれらの距離の合計値である。

処理コストの帰納的論法は並列性を検出するためにデータフローグラフの遷移的閉包を使用する。導かれるグラフの遷移的閉包は、もとのグラフにおいて１つのノードから他のノードへ導かれる経路が存在するならば、そして存在するだけならば、ノードの同じ組と１つのノードから他のノードへのアークとを有するグラフであると定義される。最悪の場合にはこの計算はノード（アクタ）の数の立方に比例する時間を必要とする。

遷移的閉包はあるグラフにおいて一方から他方に導かれる経路が存在しなければ、２つのアクタが並列して点火することができるので、データフローグラフにおける並列性に非常に近回に関連づけられ、それらは順番に実行されるようにさせられる。このようにして２つのアクタは、それらがグラフの遷移的閉包に直接接続されていなければ並列に点火することができる。この事実はアロケートされたグラフの並列性を最大にするために、どのアクタが別々のＰＨに割当てられるべきかを決定するための並列処理コストの帰納的論法で使用される。それは、（遷移的閉包に従って）潜在的に並列なアクタが同じＰＥに割当てられるとき、単純により高いコストを割当てる。

ローカルアロケータは、配列アクセスコスト関数によって導かれ、ある配列に近い配列をアクセスするアクタをアロケートしようとする。この帰納的関数は通信コストの発生である。それは、配列がどのぐらい遠くに割当てられるかに依存して、配列をアクセスするアクタをある処理要素に割当てる結果としてネットワークを介しての通信を測定する。

ローカルアロケータは同様の帰納法的論法を使用して、１以上のＰＨに各配列をアロケートする。それをアクセスするアクタが少数の小さい配列では、ローカルアロケータはアクセス時間をスピードアップするために、単−ＰＨにアクタを制限するように選択する。配列が大きく、遷移的閉包に従ってそれを並列にアクセスすることができる多数のアクタを有するならば、プログラムは多数のＰＨに渡って配列を分配しようとする。配列をアクセスするアクタはまた、配列をアクセスするための論争を減らすためにこれらのＰＥにわたって分配される。

グローバルアロケータグローバルアロケータは、ローカルアロケータからの帰納的方法を分割攻略法と結合し、それが大きなグラフを動作させる事を可能とする。ローカルアロケータのように、それはプロセッサの次元についての情報とデータフローグラフを受付ける。それはまた、それがグラフを並列なモジュールに分割するように、アロケータを導くために、コンパイラ３０の第１の経路からシンタックス　バースツリーの階層表現を受付ける。このようにしてコンパイラとアロケータを集積することによって、そのアロケータは、関数、サブ関数および表現式にプログラムの記述を分割するように高級プログラマが選択する方法を与えるという長所を持つことができる。我々はこれを“シンタックス　ブイレフテッド　パーティッショニングと呼ぶ。

分割攻略法はプログラムを２つの関連するサブプログラムに減らす。すなわち入力されたグラフを、小さなよりトラクタプルなモジュールの組に分割し、各モジュールを処理要素の組に帰納的に割当てる。アルゴリズムは、そのグラフをいくつかのモジュールに分割し、データフロープロセッサの処理要素のいくつかの組に各モジュールを割当てることによって、上から下に進む。その後さらに循環的にそれは各モジュールをサブモジュールに分割し、それらの各々をモジュールが以前割当てられていたＰＥの組のＰＨのサブの組に割当てる。この分割と割当ての処理は個々のＰＨに一度に一つのアクタが効率的にアロケートされることができるように個々のサブモジュールが十分小さくなるまで階層的に繰返される。

コンパイラからのバースツリーのノードは、関数、サブ関数、ループ等のようなプログラムのシンタックス要素に対応する。そのツリーはポインタによってデータフローグラフに結付けられ、その結果グラフのアクタはそのツリーの“葉”となる。データフローグラフ内のバースツリーのノードとモジュールとの間の自然な対応関係が存在する。そのツリーのあるノードより下の１組のアクタは、そのノードに対応する表現式の値を計算するデータフローグラフのモジュールを形成する。例えば、そのツリーの“根”は全体のデータフローグラフのプログラムからなるモジュールに対応する。そのツリー〇ノードの子供は、親のノードのサブ関数とサブ表現式に対応する。

データフローグラフを１組のモジュールに分割するタスクは、このシンタフティックパースツリーによって導かれる。

グローバルアロケータは、表現式に対応するモジニールを表現式のサブ表現式に対応する１組のサブモジュールに分割する。シンタフティックパースツリーによれば、それはあるノードをそのノードの子供に分割する。機能的なデータフロー言語では、表現式と関数はサイドイフエクトがないので一般に並列に計算されることができる。従ってこれらのシンタフティック要素は、対応するデータフローグラフの分割に際し、通常理想的な選択である。

しかしながらこれらのモジュールは通常は完全には並列ではない。それらの間にいくらかのデータ依存性が存在する。

例えば値の名前に割当てられるデータフロー言語のプログラムにおける表現式が存在するならば、その表現式を計算するモジュールからその値の名前で呼ばれる他のモジュールにデータ依存性が存在する。グローバルアロケータは、異なるモジュール内の個々のアクタ間にデータ依存アークを捜すことによって、モジュール間のそのようなデータ依存性を見つける。その後それらの依存性は“モジュールグラフ″と呼ばれるグラフを構成するために使用され、そのノードは分割されたデータフローグラフのモジュールに対応し、そのアークはサブモジュール間のデータ依存性を示す。それは必然的に他のデータフローグラフとなる。

モジュールグラフのノード（サブモジュール）をＰＥの組に割当てるタスクは、ローカルアロケータプログラムによって実行される割当てと同様である。そのアルゴリズムの変形例が使用される。最初にモジュールグラフのノードがトポロジー的に格納され、その後その遷移的閉包が計算される。このようにして、あるときにおいて全体のグラフの遷移的閉包を計算することは必ずしも要求されず、それにより大きなグラフに対するローカルアロケータの非効率さは避けられる。

グローバルアロケータにおいてモジュール（と個々のアクタ）をＰＥに割当てることは、ローカルアロケータを扱うセクションにおいて、前に定義された帰納的コスト関数の２つによって導かれる。それらはＰＨの組に割当てられるべき多くの個々のアクタからなるモジュールに適用するように発生される。通信コスト関数に対してはＰＥ間の距離関数は、ＰＥの数に分割された個々のＰＥ間の距離を使用することにより、ＰＨの組の間の平均距離に対して発生される。発生された並列処理コスト関数に対しては、（モジュールグラフの遷移的閉包による）並列モジュールが交差するＰＥの組に割当てられ、その交差点におけるＰＥの数によって重みづけられる時にはいつでも、より高いコストが割当てられる。

シュミレーションの結果最も広くシュミレートされる２つのプログラムは、リアルタイムレーダ信号処理の応用分野に関する。両方のプログラムは、種々のアロケーションアルゴリズムと、処理要素構成を用いてシュミレートされる。

レーダ３ｎａプログラムは、９Ｂアクタ、　１５２アーク、１７定数、７．１９サイクルの平均ＡＬＵ実行時間（５０ｎ　ｓ　ｋサイクル時間）　、１．５８アークの平均アクタファンアウト（アクタに対する出力アークの数）と、及びサイクルあたり２１．１４アクタを点火する並列度（インストランジョンレベルのシュミレータに関して並列に点火することができるアクタの平均数）を有する。

レーダ上プログラムは、複素数の１６ポイントフーリエ変換（ＦＦＴ）を使用する。それは、４１５アクタ、θ１５アーク、７１定数、４，９２サイクルの平均ＡＬＵ実行時間、１．５６アークの平均アクタファンアウト、及びサイクルあたり８０．１ｌｉ３アクタを点火する並列度を有する。

両方のプログラムは、ＩＸＩ×１．２ＸＩＸ１．２×２×１．２Ｘ３Ｘ１．２Ｘ２Ｘ２．２Ｘ２Ｘ３．３Ｘ３Ｘ２．３×３×３．４Ｘ３Ｘ３．４Ｘ４Ｘ３、および４Ｘ４Ｘ４の構成の要素上でシュミレートされる。レーダーｂはまた８Ｘ４Ｘ４の構成上でシュミレートされる。これらの両方のプログラムは入力データを連続的に処理するように設計されている。

シュミレーションにおいて８組のデータが各プログラムの実行のために使用される。各入力アクタは、それが点火されるやいなや連続的なデータをつかみ、このようにしてプログラムは入力データのいくつかの組を同時に処理する。終わりのないパイプラインステージが存在し、いくつかの組の入力データが互いに干渉することを防ぐために、どんなアクノリッジトークンも使用されない。代わりにオペランドキューが安全を守るために使用される。３つの全てのアロケーションアルゴリズムがレーダ３ｎａに対して使用されるが、しかし、遷移的閉包アルゴリズムが余りにも多くのＣＰＵ時間を消費するので、非遷移的閉包とランダムアルゴリズムだけがレーダｂに対して使用される。結局３００以上のシュミレーションがこれら２つのプログラムを使用して実行された。

第８図と第９図はレーダ３ｎａとレーダｂの両方が、非ランダムアロケーションを使用して有意によりよいスループットを有するというを示す。遷移的閉包アルゴリズムは、非遷移的閉包アルゴリズムとほとんど同様の最大スルーブツトを生じるが、しかしアクタが順番に点火するとき、２つのアクタを同じＰＥの中に置くことは非遷移的閉包アルゴリズムと非常に似ているので、はとんどＰＥを使用しない。第９図に示される結果とゴステロ−（Ｇｏ　ｓ　ｔ　ｅ　１　ｏｗ）とトーマス（Ｔｈｏｍａｓ）によるデータフローのシュミレーションの結果を比較すると、付加的な処理要素が使用される時、本発明はその性能においてより大きな改良点を有するということが明らかとなる（先の結果は１９８０年１０月のＩＥＥＥＴＯＣの巻Ｃ−２９Ｎｏ、ｌＯｐ、９０５からｐ、９１９に書かれた“シュミレートされたデータフローコンピュータの性能”という論文の、９ｄと９ｅ図に書かれている）。

第１Ｏ図と第１１図は処理要素の数に関して、ＡＬＵがビジーである時間の百分率がどのように変わるかを実行アクタが示している。使用されるＰＥが多ければ多いほど、平均ＡＬＵがビジーである時間は短くなる。これはある時に点火する用意が出来ているアクタを各ＰＥが基本的にほとんど持たないためである。それはパケット（トークン）のレイテンシーの増加によりものではない（第１６図を参照）。平均ＡＬＵビジ一時間とＡＬＵビジー最大時間の間の差は小さいということに注意せよ。それは負荷がかなりバランスして分配されているということを意味する。さらに第１Ｏ図は遷移的閉包と非遷移的閉包のグラフが同じような、性能を有するということを示す。２０個を越えるＰＨの非遷移的閉包のグラフの一部は、２０以上のＰＥが使用される時、スループットが増加しないので関係はない。

第１２図は、スルーブツトを最大にすることと、ＰＥを効率的に使用することの間にトレードオフが存在するということを、第８図から第１１図がどのように意味するかを示す。非常にＰＨの少ない構成では、平均ＡＬＵは非常にビジーであるが、しかしプログラムの並列性の全てが活用されている訳ではないので、プログラムのスルーブツトは、得られることができる最大値よりもはるかに少ない。

より多くのＰＥが使用されるにつれ、プログラムのスルーブツトは増加するが、平均ＡＬＵがビジーである時間の百分率は減少する。

それは、高スルーブツトを達成し、平均ＡＬＵが非常にビジーである状態を保つプログラムのアロケションが見つけられないということではない。スルーブツトを最大にすることとＰＥを有効に使用することの間に存在する関係は、グラフの並列性と、アロケーションと、およびハードウェアに依存する。例えば、アロケーションは平均して並列に点火することができるアクタは５個にすぎないが、しかし特定の時間に並列に点火することができるアクタは１０個である。この場合、最大スループットを達成するためには、ただ５つのアクタが平均的に使用されるにすぎないとしても、１０個のＰＥが使用されることが必要である。

＝ｔａ図と第１４図は、（ＰＥ間よりもむしろ１つのＰＥ内で）ローカルであるパケット通信の百分率がレーダ３ｎａとレーダｂに対して、ＰＥの数とともにどのように変化するかということを示している。それらは、ＰＥＯ数が増加するにつれ、パケット通信量の少なさが、ローカルであるということを示す。予想されるように、遷移的閉包アロケーションアルゴリズムは、非遷移的閉包アルゴリズムよりも多くのローカルパケット通信を有する。驚くべきことは、レーダ３ｎａの４倍のアクタを有するレーダｂに対しては、ローカルパケット通信の百分率がそれほど急速には減少しないということテアリ、実際、より多くのＰＥが使用されるにつれ幾分増加する。

第１５図は、レーダｂの非遷移的閉包アロケーションに対する結果キューの平均と最大の長さを示す。１つのＰＨに対する平均と最大のキューの長さに対する１０３と１５８の結果と、２つのＰＨに対する平均と最大のキューの長さに対する４２と７４の結果は、選ばれたスケールのために第１５図には示されていない。

平均キューの長さはいくつかのＰＥを越えて急速に減少し、８以上のＰＥに対しては平均キューの長さは１パケツト以下であるということに注意せよ。これは通信チップとプロセッサチップにおける他のキューの特徴であり、キューオバーフローエリアが提供される、あるいはデッドロックを防ぐために他の方法が使用される限りにおいて、平均キューの長さが数ワードに制限されるということを示す。

シュミレーションを通して学ばれた第１の事柄のうちの１つは、われわれのオリジナルアーキテクチュアにおいて同様にデッドロックが生ずるということであった。レーダ３ｎａとレーダｂの両方は、１つのＰＥにアロケートされるとき内部ＰＥデッドロック（点火キュー、結果キュー、および満たされたフィードバックキュー）に苦しみ、４つＰＥにアロケートされるときレーダｂは（通信チップキュー、点火キュー、及び満たされた結果キュー）のＰＥ間プツトロックに苦しんだ。われわれのオリジナルなアーキテクチュアは、通信チップと処理チップ内の全てのキューを８ワードの長さに制限した。ＰＥ内部の、そしてＰＥ間のデッドロックの両方を緩和するために、われわれは結果キューオーバーフローエリアを、処理チップ上の結果キューの部分が満杯であるとき使用されることができる宛先メモリに加えた。これにより、はとんどＰＥを有しない構成に対する大きな平均および最大の結果キューの長さが説明される。

第１６図は、平均通信パケットレイテンシーが、ＰＨの数とともにどのように変化するかを示す。レイテンシーのこの測定値は、通信チップ内で出会う、通信チップをアクセスする際のパケットの遅延を含む。それは、テンプレートメモリコントローラ、点火キュー、ＡＬＵ、結果キューおよび宛先タガ−において出会う遅延を考慮していない。それは、宛先タガ−の出力からテンプレートメモリコントローラの入力までのレイテンシーを測定する。それは通信システムの効率のよい測定法である。ＰＥがほとんどない場合には、通信チップのアクティビティは非常に小さいということに注意せよ、それゆえに通信チップによって寄与されるパケットのレイテンシーは低い。第１６図に示されるように、平均通信パケットのレイテンシーは４個のＰＥでピークとなり、ＰＥの数が増えると急速に減少する。１８個以上のＰＨに対しては平均パケットレイテンシーは殆ど一定であり、それは、より多くのＰＥが使用されるにつれて（第９図を参照）、レーダｂのスルーブツトの増加の割合いの減少は、通信潜在期間の増加よりもむしろ基本的にはグラフにおける並列性の制限量によるとい−うことを意味する。

本発明を特定の実施例を参照して詳細に述べたが、本発明に関連する当該技術分野の熟練者には種々の改造が、本発明の精神と範囲から離れることなくなされることができるということは明らかである。

Ｆｉｇ、　２　行Ｆｉｇ、　４゜三　？＝＝　ツ　＝ｃ！ｃＰ）　旬　ト国際調査報告１ｍ−−ｒ管−ａ＋ｎ−＾””雪や”ＰＣＴ／ＵＳ８７１００４１０

Claims

【特許請求の範囲】１．高級データフロー言語で書かれたインストラクションからなるプログラムを格納媒体上に書込むことと、前記格納媒体から前記インストラクションからなるプログラムをコンパイラに読込むことと、前記インストラクションを翻訳することによって前記インストラクションを複数のマシンインストラクションにコンパイルすることと、データフロープメセッサを記述するファイルをグローバルアロケータプログラムに入力することと、前記マシンインストラクションを実行するための前記データフロープロプロセッサ内の複数の処理要素に前記マシンシンストラクションを割当てるために、前記複数のマシンインストラクションを処理するために、前記グローバルアロケータプログラムを走らせることと、前記データフロープロセッサ内で前記プログラムを実行するために、前記データフロープロセッサ内に、複数のデータを入力することと、および前記データフロープロセッサ内で前記マシンインストラクションを実行することとを具備することを特徴とする、高効率データ信号処理のためのデータブローマルチ処理方法。２．高級データフロー言語で書かれたインストラクションからなるプログラムを格納媒体上に書込むことと、前記格納媒体から前記インストラクションからなるプログラムをコンパイラに読込むことと、前記インストラクションを複数のマシンインストラクションに翻訳することによって前記インストラクションをアッセンプルすることと、前記マシンインストラクションをローカルアロケータプログラムに入力することと、マシンインストラクションを実行するための前記データフロープロセッサ内の複数の処理要素に前記マシンインストラクションを割当てるために前記複数のマシンインストラクションを処理するために前記ローカルアロケータプログラムを走らせることと、前記データフロープロセッサ内で前記プログラムを実行するために前記データフロープロセッサ内に前記複数のデータを入力することと、および前記データフロープロセッサ内で前記マシンインストラクションを実行することとを具備することを特徴とする高効率データ信号処理のためのデータフローマルチ処理方法。３．高級データフロー言語で書かれたインストラクションを複数のマシンシンストラクションに翻訳するためのコンパイル手段と、前記高級データフロー言語で書かれたプログラムを前記コンパイル手段に通信するための第１の入力手段と、複数のマシンインストラクション上で動作するデータフロー処理手段と、ここで前記データフロー処理手段はさらに複数のデータフロー処理要素を有し、前記複数のデータフロー処理要素の各々は通信部と、プロセッサ部と、複数のメモリと、および前記処理要素を接続する複数の通信パスを含む３次元バスパケット経路選択ネットワークとを有し、前記コンパイル手段からの複数の出力を受取り前記データフロー処理手段を記述するインストラクショクのファイルを受付けるためのグローバルアロケーション手段と、前記データフロー処理手段に複数のデータを通信するために前記データフロー処理手段に接続された第２の入力手段と、および前記データフロー処理手段から出力ターミナル手段に複数の結果を通信するために前記データフロー処理手段に接続された複数の出力手段とを具備することを特徴とする高効率データ信号処理のためのデータフロー装置。４．高級データフローグラフ言語で書かれたインストラクションを複数のマシンインストラクションに翻訳するためのアッセンブル手段と、前記高級データフローグラフ言語で書かれたプログラムを通信し、データフロー処理手段を記述するインストラクションのファイルを前記アッセンブル手段に通信するための第１の入力手段と、複数のマシンインストラクション上で動作するデータフロー処理手段と、ここで前記データフロー処理手段はさらに、複数データフロー処理要素と、３次元バスパケット経路選択ネットワークとを有し、前記複数のデータフロー処理要素の各々は、通信部、プロセッサ部、および複数のメモリを有し、前記ネットワークは前記処理要素を接続する複数の通信バスを有し、前記アッセンプル手段からの複数の出力を受取るためのローカルアロケータ手段と、前記データフロー処理手段に複数のデータを通信するために、前記データフロー処理手段に接続された第２の入力手段と、および前記データフロー処理手段から出力ターミナル手段に複数の結果を通信するために、前記データフロー処理手段に接続された複数の出力手段とを具備することを特徴とする高効率データ信号処理のためのデータフロー装置。５．前記処理要素の各々は、デジタル信号の送受信のための複数の通信手段と、複数のキューと、前記複数のキュー間の複数の接続と、および前記複数のキューの１つに接続されたメモリとを有する通信部と、複数のマイクロマシンと、複数のキューと、複数のメモリと、および前記マイクロマシンと前記メモリと前記キューとの間の複数の接続とを有するプロセッサ部と、前記プロセッサ部からのアドレスを受信するように、前記プロセッサにデータを供給するように、あるいは前記プロセッサ部からデータを受信するように接続された複数のメモリと、および前記プロセッサ部に前記通信部を接続するバスとをさらに具備することを特徴とする請求の範囲第３項に記載の装置。６．前記３次元バスパケット経路選択ネットワークの各々は、双方向平面バスと、双方向行バスと、双方向列バスを有し、前記処理要素の各々は、前記双方向の平面、行、及び列バスに接続されていることを特徴とする請求の範囲第５項に記載の装置。７．前記処理要素の各々の前記通信部の各々は、双方向プロセッサバスと、前記平面バスに接続されたファーストイン・ファーストアウト平面入力バッファーキューと、前記平面バスに接続されたファーストイン・ファーストアウト平面出力バッファーキューと、前記行バスに接続されたファーストイン・ファーストアウト行入力バッファーキューと、前記行バスに接続されたファーストイン・ファーストアウト行出力バッファーキューと、前記列バスに接続されたファーストイン・ファーストアウト列入力バッファーキューと、前記列バスに接続されたファーストイン・ファーストアウト列出力バッファーキューと、前記プロセッサバスに接続されたファーストイン・ファーストアウトプロセッサ入力バッファーキューと、前記プロセッサバスに接続されたファーストイン・ファーストアウトプロセッサ出力バファーキューと、前記プロセッサ入力、平面入力、行入力、列入力バッファーキューに接続され、前記プロセッサ平面、行、および列入力バッファーキューから前記プロセッサ、平面、行、および列出力キューにバケットを送信するための第１の内部バスと、前記プロセッサ、平面、行、および列出力バッファーキューに接続され、前記プロセッサ、平面、行、および列入力バッファーキューから前記プロセッサ、平面、行、および列出力キューにパケットを送信するための第２の内部バスと、エラーメモリと、および前記エラーメモリを前記プロセッサ入力バッファーキューに接続する双方向エラーメモリバスとをさらに具備し、前記各処理要素の前記各プロセッサ部は、テンプレートメモリコントローラマイクロマシンと、前記テンプレートメモリコントローラマイクロマシンの一部を形成する点火検出メモリと、算術論理ユニット（ＡＬＵ）マイクロマシンと、前記ＡＬＵマイクロマシンの一部を形成するマイクロプロセッサと、前記ＡＬＵマイクロマシンを制御する、前記ＡＬＵマイクロマシンの一部を形成するマイクロメモリと、宛先タガーマイクロマシンと、宛先メモリコントローラマイクロマシンと、前記テンプレートメモリコントローラマイクロマシンからのアドレスを受信するように、前記テンプレートメモリコントローラマイクロマシンにデータを供給するように、あるいは前記テンプレートメモリコントローラマイクロマシンからデータを受信するように、前記テンプレートメモリコントローラマイクロマシンに接続されたテンプレートメモリと、前記テンプレートメモリコントローラマイクロマシンから前記ＡＬＵマイクロマシンに接続されたファーストイン・ファーストアウト点火キューと、前記ＡＬＵマイクロマシンから前記宛先タガーマイクロマシンに接続されたファーストイン・ファーストアウト結果キューと、前記宛先メモリコントローラマイクロラシンを前記テンプレートメモリコントローラマイクロマシンにリンクする双方向コントローラバスと、前記宛先タガーマシクロマシンから前記双方向コントローラバスに接続されたファーストイン・ファーストアウトフィードバックキューと、前記宛先タガーマシクロマシンから前記双方向プロセッサバスに接続されたファーストイン・ファーストアウト“通信に”キューと、前記双方向プロセッサバスから前記双方向コントローラバスに接続されたファーストイン・ファーストアウト“通信から”キューと、ファーストイン・ファーストアウト関連情報キューと、ファーストイン・ファーストアウト宛先キューと、前記宛先メモリコントローラマイクロマシンからアドレスを受信するように前記宛先メモリコントローラマイクロマシンに接続された宛先メモリと、および前記宛先メモリと前記宛先キューとの間で、および関連情報キューと前記ＡＬＵマイクロマシンとの間でデータを通信するために、前記宛先メモリに接続され、前記宛先メモリを前記宛先キュー、前記関連情報キューとおよび前記ＡＬＵマイクロマシンとリンクする双方向宛先メモリデータバスとを具備することを特徴とする請求の範囲第６項に記載の装置。８．前記処理要素の前記プロセッサ部と前記処理要素の前記通信部は、超大規模集積回路（ＶＬＳＩ）に組込まれていることを特徴とする請求の範囲第７項に記載の装置。９．前記各処理要素は、デジタル信号を送信し受信するための複数の通信手段と、複数のキューと、前記キュー間の複数の接続と、および前記キューのうちの１つに接続されたメモリとを有する通信部と、複数のマイクロマシンと、複数のキューと、複数のメモリと、および前記マイクロマシンと前記メモリと前記キューとの間の複数の接続とを有するプロセッサ部と、前記プロセッサ部からアドレスを受信するように、前記プロセッサ部からデータを受信するように、あるいは前記プロセッサ部にデータを供給するように接続された複数のメモリと、および前記通信部を前記プロセッサ部に接続するバスとを具備することを特徴とする請求の範囲第４項に記載の装置。１０．前記各３次元バスパケット経路選択ネットワークは、双方向平面バスと、双方向行バスと、双方向列バスとをさらに有し、前記各処理要素は前記双方向平面、行、および列バスに接続されていることを特徴とする請求の範囲第５項に記載の装置。１１．双方向プロセッサバスと、前記平面バスに接続されたファーストイン・ファーストアウト平面入力バッファーキューと、前記平面バスに接続されたファーストイン・ファーストアウト平面出力バッファーキューと、前記行バスに接続されたファーストイン・ファーストアウト行入力バッファーキューと、前記行バスに接続されたファーストイン・ファーストアウト行出力バッファーキューと、前記列バスに接続されたファーストイン・ファーストアウト列入力バッファーキューと、前記列バスに接続されたファーストイン・ファーストアウト列出力バッファーキューと、前記プロセッサバスに接続されたファーストイン・ファーストアウトプロセッサ入力バッファーキューと、プロセッサバスに接続されたファーストイン・ファーストアウトプロセッサ出力バッファーキューと、前記プロセッサ入力、平面入力、行入力、および列入力バッファーキューに接続され、前記プロセッサ、平面、行および列入力バッファーキューから前記プロセッサ、平面、行および列出力バッファーキューにパケットを送信するための第１の内部バスと、前記プロセッサ出力、平面出力、行出力、および列出力バッファーキューに接続され、前記プロセッサ平面、行、および列入力バッファーキューから前記プロセッサ、平面、行および列出力バッファーキューにパケットを送信するための第２の内部バスと、エラーメモリと、および前記エラーメモリを前記プロセッサ入力バッファーキューに接続する双方向エラーメモリバスとをさらに具備し、前記各処理要素の前記各プロセッサ部は、テンプレートメモリコントローラマイクロマシンと前記テンプレートメモリコントローラマイクロマシンの一部を形成する点火検出メモリと、算術論理ユニット（ＡＬＵ）マイクロマシンと、前記ＡＬＵマイクロマシンの一部を形成するマイクロプロセッサと、前記ＡＬＵマイクロマシンを制御する、前記ＡＬＵマイクロマシンの一部を形成するマイクロメモリと、宛先タガーマイクロマシンと、宛先メモリコントローラマイクロマシンと、前記テンプレートメモリコントローラマイクロマシンからアドレスを受信するように、前記テンプレートメモリコントローラマイクロマシンにデータを供給するように、あるいは前記テンプレートメモリコントローラマイクロマシンからデータを受信するように、前記テンプレートメモリコントローラマシンに接続されたテンプレートメモリと、前記テンプレートメモリコントローラマイクロマシンから前記ＡＬＵマイクロマシンに接続されたファーストイン・ファーストアウト点火キューと、前記ＡＬＵマイクロマシンから前記宛先タガーマイクロマシンに接続されたファーストイン・ファーストアウト結果キューと、前記宛先メモリコントローラマイクロマシンを前記テンプレートメモリコントローラマイクロマシンにリンクする双方向コントローラバスと、前記宛先タガーマシクロマシンから前記双方向コントローラバスに接続されたファーストイン・ファーストアウトフィードバックキューと、前記宛先タガーマシクロマシンから前記双方向プロセッサバスに接続されたファーストイン・ファーストアウト“通信に”キューと、前記双方向プロセッサバスから前記双方向コントローラバスに接続されたファーストイン・ファーストアウト“通信から”キューと、ファーストイン・ファーストアウト関連情報キューと、ファーストイン・ファーストアウト宛先キューと、前記宛先メモリコントローラマイクロマシンからアドレスを受信するように、前記宛先メモリコントローラマイクロマシンに接続された宛先メモリと、および前記宛先メモリと前記宛先キューとの間で、前記関連情報キューと前記ＡＬＵマイクロマシンとの間でデータを通信するために前記宛先メモリに接続され、前記宛先メモリを前記宛先キュー、前記関連情報キュー、および前記ＡＬＵマイクロマシンとリンクする双方向宛先メモリデータバスとをさらに具備することを特徴とする請求の範囲第１０項に記載の装置。１２．前記処理要素の前記プロセッサ部と、前記処理要素の前記通信部は超大規模集積回路（ＶＬＳＩ）に組込まれていることを特徴とする請求の範囲第１１項に記載の装置。