JPS63501530A

JPS63501530A - メモリをリンクしたウエ−ブフロント・アレイ・プロセッサ

Info

Publication number: JPS63501530A
Application number: JP61505584A
Authority: JP
Inventors: ドーレセク，クウェンティン・イー
Original assignee: ザ・ジョンズ・ホプキンス・ユニバ−シティ
Priority date: 1985-09-17
Filing date: 1986-09-17
Publication date: 1988-06-09
Also published as: EP0237571A1; EP0237571A4; WO1987001841A1; KR880011681A; DE3685107D1; US4922418A; KR970001899B1; EP0237571B1; US4720780A

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】メモリをリンクしたウェーブフロント・プレイ・プロセッサ本発明（は広範囲の超高速での信号処理、科学および技術の開明を計算するための独特のアーキテクチャを有するアレイ・プロセッサに関する。特に、メモリをリンクしたウェーブフロント・ア１／イ・プロセッサ（ＭＷＡＰ）と称される本発明は、処理プレイ内でグローバルな非同期通信を提供し、かつまた各処理エレメントのローカル／データによる駆動の非同期制御を提供する計算アーキテクチャを備える。

２、従来技術の説明今日の信号処理は高速の計算速度を必要とする。多くの場合、信号処理アルゴリズムは直線的であるが、データ速度およびその後の処理は既存のコンピュータを上廻ってしまうため、その結果、適用状態に限度があるか、あるいは計算時間が長くならざるを得ない。エンジニアリングの分野においても、コンピュータ速度を向上させ、かつコストを低減させる必要がある。流るシステム・シミュレーションモ、通常、コンピュータ速度、メモリおよびコストに限度がある。その結果、エンジニアリング設計においては基本現象のフルシミュレーションが可能でないことが多い。この問題は二重にらる。第１に１乃至２程度の大きさだけシステムの計算速度を増加でせ、第２に多数の問題に適用可能なシステムを設計することである。

エイチ・ティー・クン／によシ紹介されたシストリック・アレイ（１９７９年１月のＰｒａｃ、　Ｃａ１ｔｅｃｈ　Ｃｏｎｆ、　ＶＬＳＩ　の６６−９０頁の、エイチ・ティー・クン／による「ＶＬＳＩ　システムのアルゴリズムを設計しよう」を紗叩のこと）は、ローカル接続され、同じグローバル・クロックで同期作動するプロセッサのアレイでおる。アルゴリズムはパルス化（シストリック・フロー）要領で実行される。即ち、プロセッサのネットワークは周期的にデータを計算してシステムを介してデータを伝達する。

シストリック・アレイはモジュラ性と、規則性と、ローカル接続性と、高度にパイプライン化され高度に同期化した多重処理性を有する。しかしながら、それはグローバルな同期を必要とする。即ち、データ移動（ｄグローバルなタイミング基準によシ制御される。シストリック・アレイのアクチビティを同期化させるよう正確なタイミングを保証するために、余分の遅延を用いることが多・ハ。プロセッサの大型アレイに対しては、全体の計算ネットワークの同期化は困難になシ、あるいは不可能にリック・アレ、イはプログラムされず、各アルゴリズムは個別で、明確なアレイ形状を必要とする。複雑さが増加すれば、シスト　゛リック・アレイはアレイ形状を再形成するためにマトリックス・スイッチを用いて「ハードウェア・プログラム化」できる。

いずれの場合も、シストリック・アレイは常に、計算アルゴリズムな物理的なプロセッサ・エレメントに直接マクピングｆることを要する。

第２の試みられた方法として、ウェーブフロント・アレイ・プロセッサはシストリック・アレイと同じ幾何構造を用いておシ、ｘ、ｔ、−ワイ・クング他（Ｓ、Ｙ、Ｋｕｎｇ　ｅｔ　ａｌ）ｌｃよる、１９８２年１月のマサチューセッツ州ケンブリッジのＭＩＴのＭＩＴ　Ｃｏｎｆ、　ｏｎ　Ａｄｖａｎｃｅｄ　Ｒｅ５ｅａｒｃｈ　ｉｎ　ＶＬＳＩノ「ウェーブフロント・アレイ・プロセッサ：アーキテクチャ、言語および応用」に全体的に記載されている。これは、データおよびパラメータと共にコントロールがアレイを介して流れるという点で、シストリック・プレイと相違する。このようにローカル・データ・フローにローカル・コントロール・フローを追加することによシデータ駆動の自己調時処理を可能とする。概念的には、正確な「タイミング」の要件が正確な「シーケンシング」に対する要件に代替される。

ウェーブフロント・プレイ・プロセッサにおける各プロセッサ・ニレメン）　（ＰＥ）は、各々の肩接するＰＥに対して独立した状態フラッグを備えた双方向性 −ζツファを有する。データの流れはＰＨの間で非同期的であって、ＰＥの間で制御トークンが送られてデータの利用可能性とデータの使用とを決定する。このため、シストリック・アレイのタイミングに対する厳しい要件を緩和させ、アルゴリズムの展開を簡素化すると共に、アルゴリズムおよび処理速度を速くさせることが多い。このように、ウェーブフロント・プロセッサはウェーブ状にプロセッサ間でコントロールとデータとを伝えるようにして演算を行うので、各プロセッサがアルゴリズムにおける再帰（ステップ）を完成させると、一方のプロセッサから次のプロセッサに計算が流れる。

しかしながら、シストリックおよびウェーブフロント・アレイ・プロセッサは、それらがローカルタイプの通信を必要とし、グローバルタイプの通信を扱うことができない点で欠点がある。

その結果、ある種の有用なアルゴリズムは、従来技術によるシストリックおよびウェーブフロント・プロセッサを用いて計算することができない。例えば、高速のフーリエ変換、ＦＦＴは以下の再帰公式（デシメーション・イン・タイム一定幾何ＦＦＴアルゴリズム）を用いて計算される。

Ｘ（ｍ＋１．ｐ）＝Ｘ（ｍ、ｐ）＋Ｗ（Ｋ、Ｎ）　Ｘ（ｍ、ｑ）Ｘ（ｍ−＋−１，ｑ）＝Ｘ（ｍ、ｐ）−Ｗ（Ｋ＋Ｎ）　Ｘ（ｍ、ｑ）ただしｐと９とはステージによって変わる。このアルゴリズムの計算は、データ点の間の距離１ｐ−ｑｌがステージからステージへ増えるのでグローバル通信を必要とする。しかしながら、シストリックおよび従来技術によるウェーブフロント・アレイ・プロセッサはデータ項目間の距離がプロセッサ（ステージ）からプロセッサヘ一定に留ることを要する。このように、シストリックあるいはウェーブフロント・プロセッサは前述の再帰公式を用いてＦＦＴを計算するのには使用できなかった。

同様に、従来技術によるプレイプロセッサの計算能力と融通性とは、データがそれを受取る処理エレメントによシ使用されるべき順序で処理ユニットの間を通る必要があるため限定される。従来技術のこの欠点により、ある種のアルゴリズムの計算を困難かつ厄介としている。

発明の要約メモリをリンクしたウェーブフロント・アレイ・プロセッサ（ＭＷＡ　Ｐ　）と称される本発明は、ウェーブフロント・プレイ・プロセッサがグローバルタイプの通信を扱えるようにする。プロセッサ・エレメント間にコントロール・フラッグを含む「スマート・メモリ」を挿入することにより、メモリをリンクしたウェーブフロント・プレイ・プロセッサは従来技術で要求された厳密なローカル通信に対する要求を緩和しているので、再帰公式を用いてＦＦＴアルゴリズムの実行を可能とする。また、本発明はデータが受信側処理エレメントによりて使用されるべき順序でデータを処理エレメントの間で通すという従来技術の要件を緩和することによりアレイ・プロセッサの通信能力と融通性とを拡大させる。

ＭＷＡＰは広範囲の超高速の信号処理、科学および技術問題を計算しうる新規なアレイ処理アーキテクチャを利用している。

最も一般化した形態において、本発明のＭＷＡＰアーキテクチャは、−組の特殊目的のコントロール・フラッグを含む二重ポーだ、同一のプログラム可能処理エレメントのアレイを備える。

ネットワークでの全ての通信はこれらのリンキング・メモリ・エレメントを介して非同期的に行われる。処理エレメントと二重ホード・メモリ・リンキング・エレメントとの間の非同期的なハンドシェーキングを用いることにより、データ駆動／ローカル・コントロールが得られる。非同期リンクを二重ホード・メモリ・リンキング・エレメントまで移動させることによシ、シーケンス・コントロール「トーク／」の使用を、各メモリ・リンキング・エレメントにおけるノ＼−ドウエア・コントロール・フラッグにて代替させることができる。各処理エレメントは同時の算術計算、２方向での通信、論理決定およびプログラム・コントロールの修正ができる。

ＭＷＡＰ　はモジュール性、規則性、ローカル接続性および高度にパイプライン化したマルチプロセッシング性を有する。本明細書において追って、ＭＷＡＰ　アーキテクチャを用いたアルゴリズムの計算を典型的な従来技術によるシストリックおよびウェーブフロント・アレイ・プロセッサに対して用いるものに対比して、ＭＷＡＰ　アーキテクチャの独特の能力および特性を示すことにする。一般的に、ＭＷＡＰ　はほとんどのアルゴリズムに対してより高速の処理速度を提供し、アレイプロセッサにおいて実行しうるアルｄ　リズムの範囲を広げ、かつ従来はよシ複雑な二次元の従来技術のシストリンクおよびウェーブフロント・アレイでのみ処理できた広範囲のアルゴリズムに対して単一の直線アレイ構成をプログラムすることができるものとして示されている。

以下は本発明において見出される新規な特徴を部分的に列挙したものである。

本発明の第１の新規な特徴は、非同期性の二重ボート・メモリ・リンキング・エレメントを介して隣接する処理エレメントを相互に連結することにより、処理エレメントのアレイ内でグローバルな非同期通信を提供することである。

本発明の第２の新規な特徴は、データがそれを受取る処理エレメントによシ使用されるべき順序に限定されない、いずれの希望する順序においても処理エレメント間でデータを通すことができることである。

本発明の第３の新規な特徴は、アルゴリズムを計算する上で使用する係数やその他の情報乃至データをアレイ・プロセッサの処理ステージの間で二重ポート・メモリ・リンキング・エレメントに記憶できることである。

本発明の第４の新規な特徴は、各処理エレメントのデータ駆動／ローカル・コントロールが各処理エレメントと、アレイにおいて隣接位置する二重ホード・メモリ・リンキング・エレメ本発明の第５の新規な特徴は、メモリ・リンキング・エレメントまで非同期リンクを移動させることにより、ソフトウェアの７−ケンス・コントロール「トークン」乞、メモリ・リンキング・エレメントに位置するノ・−ドウエア・コントロール・フラッグで代替できることである。

本発明の第６の新規な特徴は、隣接する二重ポート・メモリうとする場合１％定の二重ポート・メモリ・リンキング・エレメントに隣接する別の処理エレメントによシ前記メモリ位置に係るコントロール・フラッグがセットされてしまうまで、特定の処理エレメントの処理演算が中断されることである。

本発明の第７の新規な特徴は、各々の特定の処理エレメントが内部の制御およびノＺス装置を有し、該装置が処理アレイにおける、隣接する二重ポート・メモリ・リンキング・エレメントとの同時通信を可能とすることである。

本発明の第８の新規な特徴は、各処理エレメントが、同じ命令サイクルの間に直線アレイにおいて、乗算、加算あるいは減算、その左側の隣接するメモリ・リンキング・エレメントへの読取シ、書込み、およびその右側の隣接するメモリ・リンキング・エレメントへの読取υあるいは書込みができることである。

本発明の第９の新規な特徴′は、データ及び計算が直線アレイにおいて右方あるいは左方へ、二次元アレイにおいて左右上下に伝播できることである。

本発明の第１０の新規な特徴はＭＷＡＰ　における各処理エレメントが各種のアルゴリズムン計算するために数種のプログラム・シーケンスを記憶でき、そのためアレイにおける種々の処理エレメントが種々の計算を実行でき、あるいは同じ処理エレメントが計算サイクルの間で異なる時間に異なる計算を実行できることである。

図面の簡単な説明本発明を完全に理解するために、添付図を参啜して例示によシ本発明を以上説明する。

第１図は従来技術によるアレイ・プロセッサの全体的なアーキテクチャを示し、第１Ａ図は直線アレイを示し、第１Ｂ図は３×３の四角のアレイを示し、第２図は本発明が教示する、直線アレイのメモリをリンクしたウェーブフロント・アレイ・プロセッサを示すグロック線図、第３図は本発明が教示するメモリをリンクしたウェーブフロント・アレイ・プロセッサ用の二次元の幾何学的アレイ構造を示すブロック線図、第４図は直線ＭＷＡＰ　アレイで使用される処理エレメントのブロック線図、第５図は二次元のＭＷＡＰ　アレイに使用される処理エレメントのブロック線図、第６図はＭＷＡＰ　における典型的な処理エレメント用の内部レジスタおよびバス装置を示す詳細ブロック線図、第７図は典型的なＭＷＡＰ　処理エレメント用のシーケンサのグロック線図、第８図、−ｊＭＷＡＰ　アーキテクチャに用いられる二重ホード・メモリ・リンキング・エレメントの内部構造を示すブロック線図。

第９図はＭＷＡＰ用のＦＩＲフィルタ処理シーケンスを示すフロー線図、第１０図は１−Ｄ伝熱式における多数の点を計算するためにＭＷＡＰ　データ・ループ・バックの使用を示す図、第１１図は１−Ｄ伝熱式における多数の点を同期的に計算す次元のＭＷＡＰ　の使用を示す図、第１３図はフルマトリックス乗算のための従来技術による同報通信の使用を示す図、第１４図はマトリックス乗算を計算するために従来技術による六角形に接続のシストリック・アレイの使用を示す図、第１５図はマトリックス乗算を計算するために従来技術のウェーブフロント・プレイの使用を示す図、第１６図は本発明が教示するようにマトリックス乗算を計算すするために直線ＭＷＡＰ　プレイの使用を示す図、第１７図は第１６図に示す直線ＭＷＡＰ　アレイを用いて３×３マトリックス乗算用の計算シーケンスを示すフロー線図、第１８図は再帰公式を用いてフーリエ変換ン計算するに必要なシャツプル交換を示す図、および第１９図は再帰公式乞用いてフーリエ変換を計算するためにＭＷＡＰ　が用いる計算シーケンス７示す図である。

好適実施例の詳細説明ＭＷＡＰは処理ハードウェアおよびシステムのプログラム化との双方にモジュール構造を用いている。システム・アーキテクチャは、直線処理アレイ、二次元の処理アレイ、あるいはｎ次元の処理プレイ（ｎｒｉ数）により実行できる。（注：ＭＷＡＰはシストリック・アレイ・プロセッサのようにグローバル・クロックを必要としないので、伝播遅延がアレイのサイズな制限することがない。）第２図に示す基本的な直線ＭＷＡＰアレイ・アーキテクチャは、二重ポート・メモリ・リンキング・エレメント１２に作動接続されたホスト・インタフニー゛スと、　”マルチ処理エレメント／二重ポート・メモリ・す°ンキ／グ・エレメントのはア１４と、およびホスト出力インタフェース１６とから構成されている。二重ポート・メモリ・リンキング・エレメントはメモリチップおるいは一組のレジスタから構成すればよい。

各処理エレメントとその隣接する二重ポート・メモリ・リンキング・エレメントとの間に非同期のローカル通信が提供される。データ計算に用いられた係数、中間計算結果および／またはその他の情報とを各々の二重ホード・メモリ・リンキング・エレメントにおける選択されたメモリ位置において記憶することができる。処理エレメントの間の非同期通信は、例えばデータ、その他の情報が一つの処理エレメント２０によシニ重ホード・、＋’　モリ・リンキング・エレメント２２においてメモリ位置へ書込まれ、適当なノ・ンドシエーキングの後、別の隣接した処理エレメント２４によシ取得されるときに発生する。この例においては、処理エレメント２０は、データがそれン受取る処理エレメント２４に使用されるのと同じ順序で二重ポート・メモリ・す／キング・エレメント２２にデータ乞書込む必要はない。

実際に、処理エレメント２４は、データあるいは情報を処理することなく、かつ下流の処理エレメントが処理のためにそのデータあるいはその他の情報を取得することなく、隣接する二重ホード・メモリ・エレメント２２から隣接する二重ポート・メモリ２６ヘデータあるいは情報を伝えることができる。（従来技術によるアレ゛イ処理アーキテクチャが第１図に示され、直接接続される処理エレメント２８のプレイ乞食む。メモリ・ブロック３０は処理アレイの外側に、かつ縁部に沿って位置している。本明細書で追って示されるが、多くのアルゴリズムの計算は従来技術では困難、かつ厄介である。）ＭＷＡＰ　アーキテクチャにおいて、各処理エレメントは右側の隣接する二重ポート・メモリ・エレメントと、左側の隣接する二重ホード・エレメントにおけるメモリ位置をアクセスできる。したがって、二重ポート・メモリ・リンキング・エレメントを介して提供される非同期ローカル通信によシ、処理アレイ内でのグローバル通信を利用可能とする。

特定の例により詳細に追って説明されるが、二重ポート・メモリ・リンキング・エレメントに処理エレメントを連結することによシ次の利点がある。（１）グローバル通信、（２）データおよび計算乞右方あるいは左方に伝播できる、（３）データ・エレメントの間の距離が処理ステージの間で増減できる、（４）初期段階の間、処理ステージの間で係数やその他の情報を記憶できる、および（５）直線アレイン用いて単一アルゴリズムおよび二次元アルゴリズムを処理できる。

処理エレメントと二重ポート・メモリ・リンキング・エレメントとの間で非同期リンクが発生するので、二重ポート・メモリ・エレメントに位置したハードウェア・コントロール・フラッグがソフトウェア・コントロール・トークンを代替しうる。

後述するこの特徴は処理エレメントとその隣接する二重ポート・メモリ・リンキング・エレメントとの間の非同期性のハードウェア・ハンドシェーキングを用いてデータ駆動／ローカル・コントロールを得ることができるようにする。一旦プロセッサ・アレイが初期化されると、データがその隣接する二重ポート・メモリ・エレメントで利用可能であるようにすることによって各処理エレメントが自己調時されるようにして、データと情報とが一方の二重ポート・メモリ・エレメントから周期的に読取られ、出力が下流の二重ポート・メモリへ流れる。

第３図は二次元の処理アレイ用の基本的なＭＷＡＰ　アーキテクチャ７示すブロック線図である。直線アレイの場合のように、二重ポート・メモリ・リンキング・エレメント３２はアレイ内の処理エレメント３４の間に配置されている。処理エレメント３４は隣接する二重ポート・メモリ・リンキング・エレメントヘアレイ内で右方および左方ならびに上下に直接アクセスできる。二次元アレイにおける処理エレメント３２と二重ポート・メモリ・リンキング・エレメント３４とは直線アレイにおけるエレメントと同様に演算する。基本的なＭＷＡＰ　アーキテクチャは、本発明乞適用することによシ任意のｎ次元のアレイまで展開できる。

ｎが２よシ大きい場合のｎポート・メモリ・リンキング・エレメントと、ｎポートの処理エレメントＺ用いることも本発明の範明に入る。

第４図は、線状ＭＷＡＰ　アレイにおいて用いるよう本発明が教示スる、モ：）、−−ル処理エレメントの一実施例を示すブロック線図である。処理エレメントは３個のセクションに分割可能である。即ち、算術セフシー１７（ニレメン）　３６，３８．４０）　と、アドレス・レジスタ（エレメント４２．４４）と、およびプログラムーフロ二・コントロール・ブロック（あるいはコントロール論理、ニレメン）４６．１８）である。算術セクションは２個の算術プロセッサ（３６，４０）、内部算術レジスタ３８、および関連のデータバス構造から構成されている。アドレス・レジスタは、処理エレメントがアクセスしうる各メモリポートに対して８個のカウンタ／レジスタのベア（４２，４４）の群から構成されている。第４図は２群のアドレス・レジスタを示しておシ、各処理エレメントは右方および左方に二重ホード・メモリ・リンキング・エレメントにアクセスしうる（第２図参照）。

アドレス・レジスタ４２は右方の隣接する二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置をアドレスするために使用され、アドレス・レジスタ４４は左側の隣接する二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置乞アドレスするために使用される。コントロール論理セクションはプログラム・メモリ４６と関連の論理４８とを含み処理ニレメントンプログラム可能とする。

制御ユニット４８はライン５０を介して右方の隣接する二重ポート・メモリ・リンキング・エレメントにおいて、゛またライン５２を介して左方の隣接する二重ホード・メモリ・リンキング・エレメントにおいてハードウェア・コントロール・フラッグを検出するとともにセットらるいｊｒｉリセットする。制御ユニット４８は、プログラム・シーケンスがアドレス・レジスタ（４２，４４）の一方に対して隣接した二重ホード・メモリ・工算乞中断させ、そのメモリ領域と関連した（即ち特定のアドレス・レジスタと関連した）二重ポート・メモリ・エレメントにおけるコントロール・フラッグはダウン状態を続ける。制御ユニットは、隣接する二重ポート・メモリ・リンキング・エレメントにおける特定のフラッグが特定の二重ホード・メモリ・リンキング・エレメントに隣接した他方の処理エレメントによってセットされるまで処理エレメントのアクチビテイン中断し続ける。このように、処理ユニットは自己調時性であって、必要なデータが得られるまで、非作動状態を続ける。このように、各処理エレメントは非同期性データ駆動のローカル・コントロールを有する。コントロール・フラッグがデータの利用できないことを示す期間、処理エレメントが演算を中断するので、同じメモリ位置へ同時に読取シと書込みとをしようとする２個の処理エレメントによシデータが乱れることはない。二重ポート・メモリ・リンキング・エレメントにおける各コントロール・フラッグは２種類の状態ン有し、隣接する処理エレメントにおける制御ユニットはプログラムされる。そのためフラッグが特定の状態にあると、そのフラッグは隣接する処理エレメントの一方に対してはセット・フラッグとして、また他方の隣接した処理エレメントに対してはリセット・フラッグとして現われる。

さらに、本発明によるアーキテクチャは、特定の看接する二重ポート・メモリ・リンキング・エレメントにおける種々のデータ位置にアクセスするために２個以上のレジスタン利用しうる。各々の二重ポート・メモリ・エレメントは２個以上のコントロール・フラッグを有することができるので（各コントロール・フラレグは前記の隣接した二重ポート・メモリ・エレメントのアドレス・レジスタと関連している）、メモリのオーバラッピングが可能である。換言すれば、右側の特定の二重ポート・メモリ・リンキング・エレメントに対する処理エレメントは特定の二重ポート・メモリ・エレメントにおける第１の位置かラソのアドレス・レジスタの１個ン用いてデータの読取シあるいは書込みができ、前記特定の二重ポート・メモリ・エレメントの左側のものに対する処理エレメントはその二重ホード・メモリ・エレメントにおける第２のメモリ位置へ同時にデータを読取ったシ書込んだりすることができる。この例においては、（二重ホード・メモリ・エレメントに位置し、第１のメモリ位置に関連した）フラッグｌが右側の処理エレメントに対してセットされ、左側の処理エレメントに対してリセットされたように現われ、（これも二重ポート・メモリに位置した）フラッグ２は右側の処理エレメントに対してリセットされ、左側の処理エレメントに対してセットされる。

第４図に示すバス構造からもわかるように、処理エレメントはバス６２から左側の二重ホード・メモリからの読取り６るいは書込みが可能でｌ）、一方同時にバス６０から右側の二重ポート・メモリ手段からの読取りちるいは書込みが可能である。

これが可能な理由は、内部バス装置（６４，６６）が前記の右側のポート６０あるいは左側の４−）６２のいずれかから入力レジスタ５４と出力レジスタ５８とに対して個別のアクセスを提供するからである。さらに、プログラム・メモリ４６に記憶された命令ワードは右側のポー）６０と左側のポート６２とからの読取＃）／書込み演算７制御する個別のフィールドを有している。このように左側のポートへの読取＃）マたは書込み、および右側ポートへの読取＃）するいは書込みは同じ命令サイクルにおいて発生しうる。同様に、バス装置（６４，６６）　と加算器／減算器４０から乗算器／徐算器３１−分離する内部レジスタ３８の使用とによシ、同時に乗算／除算および加算／減算が発生するようにできる。再び、プログラム・メモリ４６に記憶された命令ワード９は乗算器、加算器および左右のデータ・ホード・アドレスを制御する個別のフィールドを有している。これらの演算は平行して発生しうるので、乗算、加算、減算、あるいは左側ポートに対する読取シと書込み、および右側のホードに対する読取りと書込みは全て同じ命令サイクルにおいて発生しうる。

第５図は、二次元の処理アレイで使用する処理エレメントの一実施例を示すブロック線図である。直線プレイ（第４図参照）において使用される基本的な処理エレメントは、二次元のアレイに使用されるものと類似であって、その相違は処理エレメント６７が処理エレメントから二次元アレイにおいて右、左、上、下に位置する隣接の二重ポート・メモリ・リンキング・エレメントをアクセスするために４組のアドレス・レジスタ（４２゜４４．６８および７０）ン有していることである。同様に、４本の制御ライン７２は隣接する右、左、上、下の二重ポート・メモリ・リンキング・エレメントにおいてハードウェア・コントロール・フラッグを検出するとともにセラ１するいはリセットする。前述のように、各二重ポート・メモリ・リンキング・エレメントにおいて２個以上のコントロール・フラッグを用いてメモリをオーバラッピングさせ、左、右、上および下の二重ホード・メモリ・エレメントに対して同時に読取りあるいは書込みｔ行い、カニつ同時に加算／減算および乗算を行うことは全て、ＭＷＡＰ　二次元プレイにおいて得られる特徴である。

第６図は、本発明が教示するモ：）エールの処理エレメントの詳細なブロック線図を示す。以下の説明の複雑さン緩和するために、第６図は直線プレイで使用される処理ニレメン）Ｙ示す。

しかしながら、第６図に示す特定の構造ン任意の多次元アレイに展開することは本発明の範囲内にあることを理解すべきであるＯ処理エレメントは、命令キャッシュとプログラム・シーケンサとを有する制御ユニット７４、右側のアドレス・ノ；スフ８と左側のアドレス・バス８０とに沿って隣接する二重ポート・メモリ・リンキング・エレメント（図示せず）をアドレスするメモリ・アドレス・レジスタ７６のブロック、浮動小数点乗算器８２、浮動小数点算術セクション（ＡＬＵ）８４．入力レジスタ８６、出力レジスタ８８、及び内部算術レジスタ９０から構成されている。出力レジスタ８８、入力レジスタ８６および内部算術レジスタ９０とはそれぞれ右側の出力メス９２、右側の入力バス９４、左側の出力バス９６および左側の入力バス９８とに個別に接続されている。入力／出力バス（９２，９４）は右側の二重ポート・メモリ・リンキング・エレメントに作動連結され、入力／出力バス（９６，９８）は左側の二重ホード・メモリ・リンキング・エレメントに作動連結されている。制御ユニット７４に位置する命令キャッシュがロードされると、プログラムとデータ・メモリとは分離される。全てのメモリ・アドレッシングは読取）が可能な、又は読取り、次いで増分され得る、又は読取シ、次いでプログラム・ロードの間割当てられた基本アドレスにリセットできるメモリ・アドレス・レジスタ７６を参照して行われる。処理エレメントは、隣接する右側の二重ポート・メモリ・リンキング・エレメントと隣接する左側の二重ポート・メモリ・リンキング・エレメントとにおけるメモリ位置へ同時に読取Ｃ６るいは書込みを行うことができる。制御ライン１０８，１１０により、制御ユニット７４は、隣接する左側あるい（１右側の二重ホード・メモリ・リンキング・エレメントに位置するハードウェア・コントロール・フラッグを検出し、セットあるいはリセットすることができる。前述のように、プログラム命令が隣接す・る二重ポート・メモリ・エレメントにおけるメモリ位置をアクセスするようアドレスレジスタ７６に要求し、前記の隣接の二重ポート・メモリ・エレメントにおける関連のコントロール・フラッグがまだセットされていないとき、制御ユニット７４は特定の処理エレメントの処理演算を中断させる。

算術セクションは、１４個の算術レジスタ（第６図におけるラベルＲＯからＲ１３まで）、浮動小数点乗算器８２、及び浮動小数点加算器／減算器８４から構成されている。レジスタ９０は乗算および累算アルゴリズムを支援するよう設計された特殊バスを用いて接続されている。２個のレジスタ（ＲＯとＲ１３）のみが左右の入力バス（９４，９８）　と、両方の出力バス（９２，９６）とに接続されている。６個のレジスタ（Ｒ□、Ｒ２゜Ｒ４，Ｒ，、Ｒ９，Ｒ□１）が入力バスのみに付加され、４個（Ｒ７＋ＲＢ　＋Ｒ□２１Ｒ１３）が出力バスのみに対して使用可能である。２個のレジスタＲ５１Ｒ１０はいずれの入力ろるいは出力バスにも接続されていない。この構造は最小数のレジスタと相互接続とを用いて効率的な実数及び複素数の演算を支援する。

乗算器、加算器／減算器、左右のデータ・ポートは処理エレメント・命令ワードにおける個別のフィールドにより独立して制御される。個別の命令フィールドによりこれらの演算が平行して生じるので、乗算、加ｘ６るいは減算、および左側ポートへの読取シ／書込み、おるい１７：を右側ポートへの読取り／書込みは、同じ命令サイクルで発生しうる。

アドレッシング・セクションは８個のカウンタ／レジスタのベアからなる２つの群（１００，１０２）から構成されている。一方の群１０２が左側のアドレス・カラ／り（ＬＡＣ０−ＬＡＣニア　）として作用し、他方の群１００は右側のアドレス・カウンタ（ＲＡＣＯ−ＲＡＣ７）として作用する。各アドレス・カウンタにはは−ス・レジスタ１０４が関連している。これらのベース・レジスタはカウンタに対して基準メモリ・アドレスを保持するために使用される。メモリが参照されている各命令の間、アドレスを供給したカウンタ１０６は増分しうるか、その×−ス・アドレス・レジスタの値ヘリセットされるか、ちるいはカウンタは変らないままとしうる。高速のフーリエ変換および同様のアルゴリズムを実行する際にアドレスの発生を容易にするために、アドレス・カウンタＬＡＣ６，ＬＡＣ７，ＲＡＣ６およびＲＡＣ７の出力側はビット反転の順序でアドレス・バスに位置される。

プログラミン／・シーケンス・セクション７４の拡大ブロック線図を第７図に示す。そこではプログラム・メモＩＪ　’１１２、プログラム・アドレス・カウンタ１１４および４個のプログラム分岐アドレス・レジスタ１１６が含まれる。さらに、ループからの条件付き分肢のために使用される２個のルーピング・カウンタ１１８，１２０　（ループ１とループ２）がある。ベース・レジスタ（１２２，１２４）はループ・カウンタをリセットするために各カウンタに取付けられる。各命令サイクルの間、１個のカウンタな修正することができる。該カラ／りは増分、減分あるいは×−ス・レジスタから再ロードできる。これらのループ・カウンタの他に、算術レジスタ１１２（第６図参照）を条件付き分岐のために使用しうる。このため、データに依存する条件付き分岐を許容する。

第８図に、本発明が教示する二重ポート・メモリ・リンキング・エレメントのブロック婦図である。二重ポート・メモリ・リンキング・エレメントは２つの独特の特徴即ち（１１該エレメントは境界において非同期で駆動されること、および（２）２個のフ′ラッグ１２６を含むことを有する。ＭＷＡＰ　におけるデータ・フローは前記のフラッグにより制御される。これらのフラッグは隣接の処理エレメントに対するデータの利用可能性を示すために用いられる。メモリ・アクセス用のアドレスとして処理エレメントのＬＡＣＯまたはＲＡＣＯ（第６図参照）を用いる任意の命令は、関連の二重ポート・メモリ・リンキング・エレメントにおけるコントロール・フラッグ１がセットされていなければ実行されない。フラッグｌがセットされていないときにこのタイプの命令が実行を試みようとすれば、コントロール・フラッグによるセツティングによりアクセスが許容されるまで、命令実行は停止する。フラッグがセットされているとき、命令実行が開始する。同様にフラッグ２はＬＡＣＩとＲＡＣＩ　（第６図参照）を基準として命令の実行を制御する。第８図に示す二重ポート・メモリ・リンキング・エレメントが第６図に示す左側の処理エレメントに対するプレイに位置していたとすれば、二重ホード・メモリ・リンキング・エレメントの右側のホードのアドレス・レジスタ１４２はバス７６に接続され、入力データＦＩＦＯ１４０と出力データＦＩＦＯ１３８とはそれぞれバス９８゜９６に接続され、右側ポートのノ・ンドシェーク論理１３６は制御ライｙ１０８に接続される。同様に、アドレス・レジスタ１３４、入力データＦＩＦ０１３２、出力データＦＩＦＯ１３０および二重ポート・メモリ・リンキング・エレメントの左側のポートに関連したハンＦシェキング論理１２８は、左側に位置した処理エレメントの同様のエレメントに接続される。したがって、静的ＲＡＭメモリ１３６はその隣接する左側および隣接する右側に対する処理エレメントによシアクセスされ得る。前述のように、２個のコントロール・フラッグを使用することによシ、隣接する処理エレメントは静的ＲＡＭ　１３６０種々の部分へのオーバラップしたアクセスが可能である。これにより、左側の隣接する処理エレメントと右側の隣接する処理エレメントとが静的ＲＡＭ１３６０種々の部分に同時にアクセスできることになる。

メモリをリンクしたウェーブフロント・プレイ・プロセッサ（ＭＷＡＰ）の演算と、その特性のあるものとを、信号処理のための有限入力応答（ＦＩＲ）フィルタの以下の実行により示すことにする。ＦＩＲフィルタに対する式はである。２値フィルタ即ちＮ＝２に対する最初の数項を書出すと、以下のようになる。

ＰＥ＃３Ｙ（０）＝　ｂ（ＯＩＸ、：０＋　ＰＥ＃２ｙ（ｘ）−ｂｔｏ＋ｘ（１）−＋− ｂ（ｔ）ｘ（ｏ＞　ＰＥ＃ＩＹ（２１−ｂ（０１！　（２）＋　ｂ　（１）！　（１１＋　ｂ　（２）　ＸＦＯＩＹ（３）−ｂ（ＯＩｘ、（３）＋　ｂ（１）Ｘ（２）＋　ｂ（２１！（１）Ｙ（４）−ｂ（０）ｘ（４１＋　ｂ（ｔ）Ｘ（３）＋　ｂ（２）　Ｘ（２）フィルタ係１１　ｂ　＋ｎｌが全て処理エレメントに読取られると、ＭＷＡＰ　の各処理エレメント（ＰＥ）はウェーブフロントの一方の項ｂ　（ｋｌ　Ｘ　（ｉＪを計算し、その人力ｘ（１）と部分合計とを次のＰＥへ送る。第１０Ｐ’Ｅは入力データの流れを読取り、最後のＰＥが出力ｙ（１）をホストコンピュータあるいＺ１システム・バスへ送る。ＦＩＲアルゴリズムが第９図に示す直線アレイを用いて計算され、またイベントのシーケンスも第９図に数回の処理サイクルに対して示される。サイクル１と２とは基本的にアレイを初期化する。（〉の印はデータが読取られ、又は書込まれている方向を示し、例えばサイクル１においてデータｘ（０）はＤＰＭ＃１から読取られており、サイクル＃２においてデータｘ（２）はＤＰＭ２ｃ書込まれている）サイクル３〜５において、処理エレメント＃１はｘ（１）をその左側のメモリから読取シ、ｂ　（２）　ｘ　（１１の項を計算し、メモリ・アドレス・レジスタ＃１により特定されるベース・アドレスを用いてｘ（１）とその前の積ｂ　（２１ｘ　（ＯＪとを右側のメモリへ書込む。ＰＥ＃１は右側のメモリへの部分合計とｘ（１）との記憶を完了すると、そのメモリのコントロール・フラッグ＃１をセットし、ＰＥ＊２に対して、データが処理できる状態になっていることを知らせる。、（注：矢印に接続された＃１と＃２との印は、フラッグ１と２のセツティングとりセツティングとをそれぞれ示す。）次いで、ＰＫ＋１はメモリアドレス・レジスタ＃２とコントロール・フラッグ＃２とを用いてｘ（２）に対する処理を繰返す。

このシーケンスが第１のアドレス・レジスタ＃１とコントロール・フラッグ＃１とを用いて、次いでアドレス・レジスタ＃２とコントロール・フラッグ＃２とを用いて繰返され、左側のメモリにおける全ての入力サンプルＸを処理する。もしホストが新しいデータ・サンプルを最も左側のメモリへ連続的に入力しているとすれば、ＭＷＡＰは入力データを永久に連続してフィルタすることができる。

コントロール・フラッグ＃１がセットされると、処理エレメント＃２は左側のメモリからｘ　（ｎ）と部分合計とを読取る。次いでコントロール・フラッグ＃１をリセットしてＰＥ弁１が再びメモリのそのセクションを使用できるようにし、ｂ（１１Ｘ　（ｎ＋１）項の積を部分合計に加えて、新しい部分合計ｂ（２Ｌｘ（ｎｌ＋　ｂ（１）ｘ　（ｎ＋ｘ）を得る。データサンプルｘ　（ｔｌとそれ以前の部分合計とはメモリ・アドレス・レジスタ＃１により特定されるベース・アドレスを用いて右側のメモリへ書込まれる。

ＰＥ＃、２が右側のメモリへの部分合計とｘ　（ｎｌとの記憶を完了すると、そのメモリのコントロールｉフラッグｍｘｔセットしてデータが処理できる状態であることＹＰＥ＃３に知らせる◇次いで、ＰＥ１２は、そのメモリ・アドレス・レジスタ＃２と左側のメモリのコントロール・フラッグ＃２とを用いて右側のメモリのコントロール・フラッグ＃２をセットしてｘ（ｎ＋ｉ）に対する処理を繰返す。前記シーケンスは第１の処理エレメントと同様に何度も繰返される。

処理エレメント弁３が左側のメモリから部分合計とＸとを読取り、積ｂ（ＯＩＸ（１１１＋２）を部分合計に加え、処理エレメント＃１゜＃２に関して述べたように、メモリ・アドレス・レジスタとコントロール・フラッグとの同じシーケンスを用いてその答乞右側のメモリに入れる。このように、結果Ｙ（０）　、　Ｙ（１）−−はホスト・コンピュータが読取るよう最も右側の二重ポート・メモリに書込まれる。

ＦＩＲ処理シーケンスはメモリをリンクしたウェーブフロント・アレイ・プロセッサの数種の特性を示す。

１、ＭＷＡＰ　ｔｉｔ介する計算の流ｎ０一旦初期化されると、入力データは左側のメモリ・リンキング・エレメントから周期的に読出され、その結果、右側のメモリ・リンキング・エレメントに出力する。例の処理シーケン２において、データが入力され、処理され、２回の処理サイクル毎に出力される。

２、ＭＷＡＰ　は自己調時性（個々のＰＦ、を制御するグロー、＜ル・クロックの必要はない）であり、即ち計算の流れは各々の二重ホード・メモリにおける２＃Ａのフラッグにより制御される。２個のコントロール・フラッグを使用することによりデータ・バッファをオーバラッピングできるようにする（例えば、二重ポート・メモリ・リンキング・エレメントの右側および左側のＰＥがその二重ポート・メモリ・リンキング・エレメントにおける種々のメモリ位置を同時にアクセスできる）、ことに注目されたい。実際、２個のコントロール・フラッグは一般的に任意のＭＷＡＰ　アルｄ　ＩＪズムの効率的な処理を可能にする。

３、ＭＷＡＰ　の処理速度は使用された処理エレメント／リンキング・メモリのはアの数と実行されたアルゴリズムとにのみ依存し、処理されたデータ・セットあるいは計算の長さには依存しない。例えば、ＭＷＡＰ　のスループツト率（り、フィルタのそれぞれの追加の段に対して一対の追加のＰＥ／メモリリンキングのイアが使用されるとすれば、もつと長い（もつと段数の多い）ＦＩＲフィルタに対して変動しない。

ＭＷＡＰ　において広範囲のクラスの一次元のアルｄ　＋）ズムな容易に実行できるのみならず、ＭＷＡＰ　はその処理速度を増すよう容易に展開できる。このことは以下の１−Ｄ伝熱式の解から示すことができる。

前述したＦＩＲ構造を用いると、ｂ（２１＝　Ｃと仮定しＴ””（＊）−ａＴ”（ＯＪ　ＰＥ＃２　（初期化ステップ）Ｔ”（Ｏ１＝ａＴ ”（１）＋ｂＴｎ（０）　ＰＥ仔１Ｔ””　（１）＝　ａＴ　ｎ（２）＋　ｂＴ　ｎ（１）＋　ｃＴ　”　（０１Ｔ”１（２）＝　ａＴ”（３）＋　ｂＴｎ（２）＋　ｃＴ”（１）Ｔ””（３）＝ａＴｎ（４１＋ｂＴ”（３１＋ｃＴｎ（２１これらを代入すると、ＭＷＡＰ上でＦＩＲフィルタに対して用いられた同じアルゴリズムを用いて、ＭＷＡＰ　の各相互作用によ４ｊ）１−Ｄ伝熱式における１つの点ｎを解くことができる。

さらに、ＭＷＡＰ　出力を入力側ヘループバックして、第１０図に示すようにホストの介入なしに多数の組のｎを計算できる。

代替的な配置として、バス１４４に沿ってデータ・ループ・バ通って右側へ流れ、次いで左側へ流れることによって追加の組を計算できるように直線アレインプログラムすればよく、次いで流れは反転して、答えとしての右へのデータと計算との流れが最モ右側の二重ポート・メモリ・エレメントからホスト・コンピュータによって検索される。流れの方向の変更１１単に変更をイース・レジスタにプログラムすることによシ達成される。

データおよび計算が右側および左側に流れうるようにするこの特徴は、従来技術の処理プレイによって教示されるものではない。

ＭＷＡＰ　のスループツト率は、３個の処理エレメント／リンキングメモリのペアからなる多数の組を利用して同時に１個以上の点ｎを計算することにより、増加させることができる。このような拡大を第１１図に示す。第１０図に示したループバック・スキームを第１１図に示す構成においても使用すれば、データをホストへ戻すまでに多数の点を計算することができる。

これらの例はＭＷＡＰ　の３個の別の特性を示す。

４、非同期二重ポート・メモリ・リンキング・エレメントによ、９ＭＷＡＰ　プロセッサを任意の長さくサイズ）まで簡単に拡張することができる。各ＰＥを制御するグローバル・クロックが存在しないので、伝播遅延は処理アレイのサイズを制限しない。

５、同じＭＷＡＰ　Ｋ実行のために種々のアルゴリズムをロードでき、あるいはＭＷＡＰ　は同時にプログラム・メモリに数個の種々のアルゴリズムを収容し、ＰＥプログラム・キャッシュでの開始アドレスを単に変えることにより計算される関数を変えることができる。処理エレメントの直線アレイが所定のアル、、ｆ　リズムに必要とされる以上のエレメントを含むとすれば、その結果は変化することなく単に最後の二重ポート・メモリ・リンキング・エレメントマで伝播するだけである。

６、データがホストに戻る前に１個以上の計算（関数）を入力側に印加することができり。即ち、アルゴリズムはＭＷＡＰ　においてカスケードできる。各ＰＥのプログラム・キャッシュに記憶された命令シーケンスがＰＥによシ提供される計算根能乞決定する。

伝熱式における係ｈａ％　ｂ、ｃが一定でないとすると、各処理エレメントは、データがプレイを貫流するとき、その係数の次の値を計算するようプログラムすることができる。この拡張により、ＭＷＡＰ　が可変の係数で部分微分方程式を扱うことができる。しかしながら、プロセッサのスループツト率は係数の新しい値を計算するに必要な時間だけ低下する。さらに優れた方法は、第１２図に示すように、二次元のＭＷＡＰ　アレイを使用することである。この形態において、第１行のプロセッサ／リンキング・メモリ・エレメント１４６は伝熱式の計算のためのアルゴリスムを実行する。第２行のプロセッサ・エレメント１４８は係数の次の値を計算して第１行のプロセッサ・エレメントが使用できるようにする。

係数の値は、必要に応じて上の行のプロセッサが使用するよう二重ホード・メモリ・リンキング・ニレ゛メント（１５０，１５２，１５４）の列に記憶される。

このように、ＭＷＡＰ　のスループツト率１１、伝熱式の計算と平行して新しい係数の計算が行われるにつれて増加する。

ＭＷＡＰ構成特性ＭＷＡＰ　は直列アレイのプロセッサ／メモリ・ニレメントラ用いて二次元のアレイ問題を計算できる。メモリをリンクしたウェーブフロント・アレイのこの特性の重要性を示すために、２個の疎行列を乗算するための同報通信、シストリックおよびウェーブフロント・アレイ・アルゴリズムＺ検討する：Ｃ＝Ａ　ＢＡ＝（Ａ（１，ｊ））およびＢ−（Ｂ　Ｄ、ｊ））とする。

以下の計算は３×３マトリツクスに対する乗算過程を示す。

ＣＱＩ）−Ａ（１１）’　Ｂ（１１１＋Ａ（１３＊Ｂ？Ｉｌ＋Ａ（１３”　Ｂｅ３１）Ｃ（２１）−ＡＣ２１）”　Ｂ（１１１＋　ＡＵ　”　Ｂ（２１）＋　Ａ（２，”４　”　Ｂｅ３１ＩＣＣ３１）−ＡＣ３１）＊Ｂ（１１）＋ＡＣ３２＊Ｂ？１）＋Ａｉ”　Ｂｅ３１）Ｃ（１３＝Ａ（ｕ）”　ＢａＺ＋ＡＱＺ”　Ｂ（２２＋、Ｊ３）”　ＢＱＺｃＨ−Ａａｎ”　Ｂｃ＋ｚ＋Ａｑ”　ａｔｚｚ＋Ａ＠ ”　ＢｅｚＣＣ３３−ＡＯＩ）＊ＢＬ１２）＋　Ａ、Ｃ３２”　ＢＥ＋　ＡＣ３３）”　ＢＧ２ＣＧ３＝　Ａ（Ｉｌｌ”　Ｂ（］、３１＋Ａ（１３＊Ｂ（２３）＋Ａ（１３）”　Ｂｅ３）Ｃに−１１）＊Ｂα３）＋Ａ（２２１”Ｂの＋Ａｉ” Ｂ（至）ＣＱ３１−　ＡＣ３］）”　Ｂ（１３＋ＡＣ３３”　Ｂｅ２３１＋ＡＣ３３）”　ＢＣ３３１マトリックスＡが列Ａ（Ｘ）　に分解され、マトリックスＢが列ＢＡＹ）　に分解されるとすれば、ＡとＢの積は以下の式により計算できる。

Ｃ−Ａ（１）＊Ｂ（１）＋Ａ（２）＊Ｂ（２）　＋−−−−＋Ａ（Ｎ）”Ｂ（Ｎ）　［１］この方法はＡの列とＢの行とを瞬間的に四角いアレイに沿って回報通信し、その内積を各プロセッサのプログラム・ループ暑介して順次合計することにょシ、マトリックス乗算に対して使用できる。このタイプの従来技術による実行を第１３図に示第１３図に示す同報通信プレイにおいては、Ａの列とＢの行とが左側と上方とからそれぞれ処理エレメントに入力される。

２個のデータＡｉｊとＢｌｊ　とが処理ノードで出会うと乗算でれ、ノードでのレジスタに現在存在するデータ値である積Ｃ１ｊに加算される。全てのノードにおけるＣ１ｊレジスタの初期値は零である。レジスタが更新されろと、ＡｇとＢｌｊのデータが次いで次のプロセッサへ伝えられる。全ての列と行のデータがプロセッサのノードに到来すると、式［１）の積の全てが順次合計される。この構成ではグローバル通信が列と行のデータな同報通信する必要がちシ、これは従来技術によるシストリックあるいはウェーブ・アレイ・プロセッサでは達成できないものである。また、アレイから結果を読み出してホスト・プロセッサへ戻すという別の問題がある。

また、内積の累算を用いて積ＣＹ計算することも可能である。

Ｃ（ｏ、ｉ、ｊ）　＝　０Ｃ（ｋ、ｉ、ｊ）＝Ｃ（ｋ−１，ｉ、ｊ）＋Ａ（１，ｊ）　Ｂ（ｊ、ｉ）　ｋ− １，２，−Ｎ　［：２］内積の累算を用いてマトリックス乗算を行うための従来技術の１つは、第１４図の従来技術で示すシストリック・アレイである。例の問題として、Ａはプロセッサの左側の縁部へ伝播し、Ｂはプロセッサの上縁部へ伝播し、（最初は零である）Ｃは上方左側の隅からプレイを対角線方向に伝播する。シストリック・アレイにおいて使用されるアレイのグローバル・クロッキングは各処理エレメントが各クロック・パルスにおいてデータを処理することを要求する。このように、種々のＢの列とＡの行余分の零により調整されなけｎばならない。各組のＡが処理エレメントに到来すると、そｎらは乗算され、処理エレメントにおける現在の部分合計に加算される。その結果は対角方向底部におけるアレイから伝播される。

積の読出しが無視されるとすれば、連続した積がＮサイクルにおいて取得できる。しかしながら、これ恒問題である。シストリック・アレイにおいてどのようにしてＮ個の積を読出すのか。積はシフト・アウトされ得るが、それには追加の処理サイクルを要する。各処理エレメントはホスト・コンピュータにインターフェースできるが、それは当該システム乞さらに複雑にさせる。即ち、プロセッサはホストに対して列あるいは行でバス接続される。このように、ホストとの通信は、当該装置の複雑さとデータ通信速度の要件と当該システム・スループツト率とに影響するので重要である。

ウェーブフロント・アレイ・プロセッサはプロセッサ・アレイを伝搬する計算ウェーブフロントの概念を利用している。各プロセッサはウェーブフロントにおける項乞修正し、ウェーブフロントの伝播を担当する二次源として動作する。このように、処理アレイにおけるウェーブフロントはアルゴリズムにおける数学的再帰に対応する。ウェーブフロントを連続してパイプラインすることにより、アルゴリズムにおける全ての再帰が計算される。

マトリック乗算用の従来技術によるウェーブフロント・アレイ・プロセッサを第１５図の従来技術に示す。従来技術におけるアレイのメモリ１５６，１５８　はプロセッサのアレイの上側および左側に位置している。このタイプのアレイにおいてマトリックス乗算を実行するために全ての処理エレメントのレジスタは最初に零にセット嘔れる：Ｃ（０，１ｊ）＝Ｃ全ての１およびｊに対してＡ（ｉ、ｊ）に対する入力は左側のメモリに（列に）記憶され、Ｂ（ｉ、ｊ）　に対する入力は上側のメモリに（列に）記憶される。

処理はＰＥ（１，１）から開始され、Ｃ（１，１１）＝Ｃ（０，１１）＋Ａ１１　Ｂｌｌが計算される。次いで、計算のウェーブフロントは近傍のＰＥ（１，２）およびＰＥ（２，１）に伝播され、該ＰＥは以下乞計算する。

Ｃ（１，１２）　＝Ｃ（０，１２）　＋Ａ１１＊８１２　およびＣ（１，２１）　＝Ｃ（０，２１）　＋Ａ２１”Ｂ１１この最初のウェーブがアレイを通して伝播すると、同一の第２のウェーブフロント（再帰）゛が第１のウェーブの直後に平行に実施することができる。このように、同時にＰＫ（１，２）とＰＥ（２，１）はＣ（１，１２）とＣ（１，２１）をそれぞれ計算しており、ＰＥ（１，１）はＣ（２，１１）　十〇（１，１１）　＋Ａ１２”Ｂ２１　ン言士算する。

このようなパイプライニングは、２個の再帰のウェーブフロントが交叉しないので可能である。所与の瞬間に再痛暑実行しているプロセッサは別々のものでちって、衝突の問題を回避する。実際に、問題の間で初期零乞伝播することが可能なので、第２の新しい乗算問題は第１の処理エレメントが第１の問題に対する全ての再帰を完了するとすぐに開始することができる。

第１６図と第１７図とに、シストリック・アレイや、従来技術によるウェーブフロント・アレイでは扱いが困難で厄介な前記のマトリックス乗算問題χＭＷＡＰアーキテクチャでは簡単に扱い得ることを示している。事実、従来技術によるウェーブフロント・アレイ・プロセッサが二次元の処理アレイを必要とするのに対し、当該間頃はＭＷＡＰ　によれば単純な直線アレイで処理することができる。

第１６図は、処理ステージの間でデータと係数を二重ポート・アレイ（ＰＰＭ）に記憶することにより３個のプロセッサの直線アレイにおいて達成しうろことを示している。マトリックスＢの列とマトリックＡの行とをインターリーグしたものが、マトリックスの底部から上部へ逆の頴序で入力される。マトリックスＡの行は右から左へ逆方向に入力される。各処理エレメントは、アレイを通して割当てられると各出力項（Ｃ１ｊ）に対する部分合計の一つの項を計算する。計算シーケンスは第１７図に示でれている。

ＭＷＡＰ　の各処理エレメント（り、基本的にぼ、シストリックあるいは従来技術におけるウェーブフロント実行においてプロセッサの縦の列の計算を行う。これは、処理エレメントの間で二重ホード・メモリ・リンキング・エレメントにおいて係数を保留することによシ可能とされる。第１７図に示す最初の１４サイクルは、乗算用の係数をロードすることによりアレイを初期化している。このための時間・グ、従来技術によるウェーブフロント・アレイの縁部に沿って係数をロードするに要する時間に対応する。

計算は１５５回毎サイクルにおいてプレイを通って流れ始めセッサ・サイクル２回毎に最後の二重ポート・メモリ・リンキング・エレメントに記憶される。この時点から計算と出力とが同時に行われる。シストリック・アレイの例の場合と同様、プレイから結果を読取るための追加の時間は必要ない。マトリックスの対は左方から入力されて連続的であり、結果はＭＷＡＰアレイの右方から読取られる。

第１７図において、各行の出力マトリックスのための計算時間は２Ｎ＋１　プロセッサ・サイクルである（Ｎは四角のマトリックスのサイズ）。サイズＮの２個の四角のマトリックスの乗算のための全計算時間はＮ（２Ｎ＋１）プロセッサ・サイクルである。このように、ＮプロセッサがＮｘＮの積を計算するための計算時間は概ねＮの２乗に比例する。このことが、シストリックあるいは従来技術によるウェーブフロント・アレイにより得られる性能と同じか、あるいは僅かに優れているということは以下の通シに示される。９Ｘ９の完全なマトリックス乗算を計算する上で９個のプロセッサを使用するものと想定する。

直線ＭＷＡＰ　プレイが使用さｎるとすれば、約９（２９＋１）即ち１７１のプロセッサ・サイクルを必要とする。シストリックあるいは従来技術によるウェーブフロント・アレイを用いると、マトリックを分割することによシ積を得ることが必要である。ＡとＢのマトリックスを３×３のマトリックスに分割することにより次のようになる。

ＣＱＩ）−Ａ（１１１＊　ＢＱＩ）＋ＡＱａ＊　Ｂ（２υ＋Ａｃｌ３１＊　ＢＣ３１１ＣＩ−ＡＣ２υ＊Ｂαυ＋ＡＩ２：１５＊Ｂ（２υ＋Ａρ３１＊１３（３１１Ｃ（４１１−ＡＣ３１１＊　Ｂαυ＋Ａ（３２１＊Ｂ（２υ＋Ａ［有］＊　ＢＣ３１）＊ただしＡ（ｉｊ）　、Ｂ（ｉｊ）およびＣ（ｉｊ）　は全て３Ｘ３マトリツクスである。

ＮｘＮのシストリックあるいに従来技術のウェーブフロント・アレイは概ねＮのプロセッサ反復においてＮｘＮマトリック積を計算できるので、各々のＣ（ｉｊ）項の計算は３＊Ｎ即ち９のプロセッサ反復を必要とする。このように、従来技術のアレイに対して全体のＣマトリックスを計算するには９×９即ち８１のプロセッサ反復と１８のマトリックス加算を実行するに要する時間とを必要とする。

従来技術によるウェーブフロント・アレイによるマトリックス乗算用の基本的反復は以下の通りである。

ＦＥＴＣＨＢＩ　ＵＰＦＥＴＣＨＡ、ＬＥＦＴＦＬＯＷ　Ａ、Ｒ工ＧＨＴＦＬＯＷ　Ｂ、ＤＯＷＮＭＵＬＴ　Ａ、Ｂ、ＤＡＤＤ　Ｃ，Ｄ、にの反復は６プロセツサ・サイクルを必要とする。そのため９Ｘ９マトリツクス積を計算するための概略時間は従来技術のウェーブフロント・アレイを用いると４８６プロ′セツサ・サイクルである。２個のプロセッサに対するサイクル時間が同じであるとすれば、ＭＷＡＰ　アレイは従来技術によるウェーブフロント・アレイよシ約２．５倍速い。前述の比較はＭＷＡＰ　のさらに２つの特性を示す。

りことによって、スループツト率を著しく増加させる。

事実、はとんどのアルゴリズムに対して、ＭＷＡＰ　ｆｌシストリックあるいは従来技術によるつ、ニーズフロント・プレイのいずれかより高速である。

８、　リンキング・メモリを使用することによって、単一の直線ＭＷＡＰ　アレイが広範囲の１−Ｄおよび２−Ｄの幾何的アルゴリズムを実行できるようにする。

高速フーリエ変換（ＦＦＴ）を計亘するためのＭＷＡＰの使用前述のように、再帰式を用いてフーリエ変換を計算することは、従来技術のシストリックろるいはウェーブフロント・プレイ処理を用いたのでは不可能である。下記の式により規定される不連続フーリエ変換は、シストリックあるいは従来技術によるウェーブフロント・アレイにより計算可能である。

しかしながら、不連続公式は、長さＮの変換を計算するにはＮプロセッサとＮプロセッサ・サイクルとを、即ちＮ２乗の演算フーリエ変換再帰式は以下の通りでろる。

ｐ、ｑおよびｒはステージによって変わる。この高速フーリエ変換（ＦＦＴ）の計算はサイズＮの変換を計算するにＮ　ｌｏｌ！２　（Ｎ１演算を要するのみである。このように、再帰式は不連続フーリエ変換を用いた直接的計算よりも高速である。しかしながら、入力計算点の間の距離は、再帰式を用いる計算の各ステージに対して変化（増加）する。これは、デシメーション・イン・タイム・コンスタント・ジオメトリ・ＦＦＴアルゴリズムに対する一つのフロー・グラフである第１８図から判る。入力データ点の間の距離、即ちグローバル通信の要件の変動により、シストリックあるいは従来技術のウェーブフロント・アレイに対して再帰式を用いてＦＦＴを実行することは不可能になる。

再帰式を用いてＦＦＴ’４Ｊ行するためにＭＷＡＰ　を用いる一方法ぼ、プロセッサを第１８図に示すように相互接伏し、アルゴリズムの各項に対して処理エレメントを用いることである。

この方法では、Ｎ点の変換に対してＮ個のプロセッサを必要とする。

しかしながら、前述の例において用いたのと同じ直線アレイのメモリをリンクしたウェーブフロント・アレイ・プロセッサは高速フーリエ変換を計算することができる。ＭＷＡＰでＦＦＴを実行するために、ビット反転順序で入力が第１の二重ボート・メモリ・リンキング・ニレメンｉ・に記憶され、ビット反転順序でステージ間の二重ポート・メモリ・リンキング・エレメントにＷ係数が記憶され、２個のベース・アドレス・レジスタヲ用いてプロセッサ間で合計と差の項が伝播嘔几る。このため第１９図から判るように、ステージの間での係数とデータとのアトレシングを線形にする。ＭＷＡＰはＦＦＴを以下のように計算する。

−ｘ（ｐｉ−Ｗ　（ｒｌｘ（ｑｌを計算する１個のＭＷＡＰ処理モジュールを用いて実行される。

２、各ステージにおけるプロセッサは、メモリ・アドレス・レジスタＡとメモリ・アドレス・レジスタＢとを交互に用いてＩｐ−ｑｌ長さの総計と差異の積のブロックを右側の二重ホード・メモリ・リンキング・エレメントへ出力する。

３、各ステージにおけるプロセッサ岐、メモリ嗜アドレス・ベース・レジスタＡとＢとを交互に用いて左側の二重ポート・メモリ・リンキング・エレメントから計算点を読取る。

１６点のＦＦＴの計算の時間スナップショットと共にアルゴリズムを第１９図に示ア。ＭＷＡＰはサイズＮの変換に対してＩｎ（ＮＪプロセッサを用いてＦＦＴを実行し、Ｎ／２シストリツク・サイクルにおいて長さがＮの多数のフーリエ変換を実行する。このように、ＭＷＡＰ　ｆｉ、シストリックあるいは従来技術のウエーグフロジト・アレイでは不可能なアルゴリズムを実行ことに明らかである。したがって、請求の範囲内において、本発明は本明細書で詳しく説明した以外の方法で冥抛しうろことを理解すべきである。

ＤＰＭ　ＰＥＮ０．Ｉ　ＤＰＭ　ＰＥＮＱ２　ＤＰＭ　ＰＥＮ０．３−・−国際調査報告

Claims

【特許請求の範囲】１．少なくとも２個の処理エレメントの直線アレイと、前記直線アレイ内でグローバルな非同期通信を提供する手段であって、前記直線アレイに作動可能に散在され、二重ポート・メモリ・リンキング・エレメントの交互の直線シーケンスを形成する複数の二重ポート・メモリ・リンキング・エレメントと、各処理エレメントとその隣接する二重ポート・メモリ・リンキング・エレメントとの間て非同期通信を提供する処理エレメントとを具備する手段と、を具備する、メモリをリンクしたウェーブフロント・アレイ・プロセッサ。２．請求の範囲第１項記載の装置において、前記二重ポート・メモリ・リンキング・エレメントの各々が、右側ポートと、左側ポートと、該右側ポートおよび左側ポートを介してアクセスして、計算に用いられる係数、中間計算かよびデータが処理ステージの間で前記二重ポート・メモリ・リンキング・エレメントに記憶できるようにするメモリとを具備すること。３．請求の範囲第２項記載の装置において、前記処理エレメント（ＰＥ）と二重ポート・メモリ・リンキング・エレメント（ＤＰＭ）との直線アレイが以下の交互シーケンスを形成するよう作動接続されており、 ▲数式、化学式、表等があります▼ ｎが処理エレメント／二重ポート・メモリ・リンキング・エレメントのペアの数を規定する整数であり、各処理エレメントが右側の隣接する二重ポート・メモリ・リンキング・エレメントの左側のポートに作動接続されて該二重ポート・メモリ・リンキング・エレメントにおける選定されたメモリ位置にアクセスし、かつ、その左側の隣接する二重ポート・メモリ・リンキング・エレメントの右側のポートに作動接続されて該二重ポート・メモリ・リンキング・エレメントにかける選定されたメモリ位置にアクセスし、もって、データ、中間計算、および係数を、受取り側の処理エレメントがデータを使用する順序によっては制限されない任意の所望順序で処理エレメントの間を伝えられること。４．請求の範囲第３項記載の装置において、各処理エレメントと関連し、その特定の処理エレメントのデータ駆動の非同期制御を提供するローカル制御手段をさらに備え、該ローカル制御手段が特定の処理エレメントとその隣接する二重ポート・メモリ・リンキング・エレメントの中の１個との間て非同期ハンドシェーキングを提供する手段を有すること。５．請求の範囲第４項記載の装置にかいて、作動する毎に２つの交互の状態の間で切換るよう各二重ポート・メモリ・リンキング・エレメントと関連付けられた少なくとも１個のコントロール・フラッグ手段をさらに備え、各処理エレメントがさらに、右側の隣接する二重ポート・メモリ・リンキング・エレメントと左側の隣接する二重ポート・メモリ・リンキング・エレメントとに関連した前記少なくとも１個のコントロール・フラッグ手段を選択的に作動させる手段を含むこと。６．請求の範囲第５項記載の装置において、前記ローカル制御手段の各々がさらに、右側の隣接する二重ポート・メモリ・リンキング・エレメントに関連した前記少なくとも１個のコントロール・フラッグ手段の状態を検出し、かつ、前記左側の隣接する二重ポート・メモリ・リンキング・エレメントに関連した前記少なくとも１個のコントロール・フラッグ手段の状態を検出する第１の手段と、プログラムシーケンスが前記右側あるいは左側の二重ポート・メモリ・リンキング・エレメントのメモリ位置へのアクセスを要求し、かつ、二重ポート・メモリに関連した前記少なくとも１個のコントロール・フラッグ手段がセットされていなかったとき、プログラムの実行を中断し、前記少なくとも１個のコントロール・フラッグがセットされるまでプログラムの実行を中断し続ける第２の手段と、を備えること。７．請求の範囲第５項記載の装置において、各処理エレメントがさらに、前記右側の隣接する二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置を選択的にアドレスする少なくとも１個の右側アドレス・メモリ手段と、前記左側の隣接する二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置を選択的にアドレスする少くとも１個の左側アドレス・メモリ手段とを備え、前記右側の二重ポート・メモリ・リンキング・エレメントに対する前記少なくとも１個のコントロール・フラッグ手段の各々が前記少なくとも１個の右側アドレス手段の中の特定のものと関連しており、前記左側のメモリ・リンキング・エレメントに対する前記少なくとも１個のコントロール・フラッグ手段の各々が前記少なくとも１個の左側アドレス手段の中の特定のものと関連しておψ、前記ローカル制御手段がさらに、前記右側の隣接する二重ポート・メモリ・リンキング・エレメントと関連した前記少なくとも１個のコントロール・フラッグ手段の状態を検出し、かつ、前記左側の隣接するメモリ・リンキング・エレメントと関連した前記少なくとも１個のコントロール・フラッグ手段の状態を検出する第１の手段と、プログラム・シーケンスが前記少なくとも１個の右側アドレス手段に対し前記石側の隣接する二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置へアクセスするよう要求する場合、前記少なくとも１個の右側アドレス手段に関連した前記少くとも１個のフラグ・コントロール手段がセットされるまで、前記特定の処理エレメントに対するプログラム実行を中断し、プログラム・シーケンスが前記少なくとも１個の左側アドレス手段に対し前記左側の隣接する二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置にアクセスするよう要求する場合、前記少なくとも１個の左側アドレス手段に関連する前記少なくとも１個のコントロール・フラッグ手段がセットされるまでプログラムの実行を中断する第２の手段とを備えること。８．請求の範囲第４項記載の装置において、各処理エレメントが、前記直線アレイの右側および左側に位置した隣接する二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置を同時にアクセスする多方向通信手段と、前記多方向通信手段の作動と同時に計算機能を実行する手段とを備えること。９．請求の範囲第８項記載の装置において、各処理エレメントがさらに、右側の前記二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置をアドレスする右側アドレス・レジスタと、左側の前記二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置をアドレスする左側アドレス・レジスタとを備えること。１０．請求の範囲第９項記載の装置において、前記隣接する左側側および右側の二重ポート・メモリ・リンキング手段におけるメモリ位置を同時にアクセスする前記手段が、入力レジスタと、出力レジスタと、すぐ右側に位置する前記二重ポート・メモリ・リンキング・エレメントの前記左側のポートへ作動連結された右側データ・ポートと、すぐ左側に位置する前記二重ポート・メモリ・リンキング・エレメントの前記左側のポートへ作動連結された左側データ・ポートと、前記右側めデータ・ポートあるいは前記左側データ・ポートのいずれかから前記入力レジスタおよび前記出力レジスタに個別にアクセスし、前記処理エレメントが前記隣接する右側および左側の二重ポート・メモリ・リンキング・エレメントに対して同時に多方向通信ができるようにする手段と、を備えること。１１．請求の範囲第９項記載の装置において、前記隣接する左側及び右側の二重ポート・メモリ・エレメントにおけるメモリ位置を同時にアクセスする前記手段が、入力レジスタと、出力レジスタと、内部算術レジスタと、すぐ右側に位置した前記二重ポート・メモリ・リンキング・データ・エレメントに一端で作動連結され、かつ、前記入力レジスタと出力レジスタと内部算術レジスタとに同時にアクセスするよう他端で作動連結されている右側データ・ポートと、すぐ左側に位置した前記二重ポート・メモリ・リンキング・エレメントの前記右側ポートに一端で作動連結され、かつ前記入力レジスタと出力レジスタと内部算術レジスタとに同時にアクセスするよう他端で作動連結されている左側データ・ポートと、を備えること。１２．請求の範囲第１１項記載の装置において、前記処理エレメントがさらに、前記特定の処理エレメントの演算を順序づけるための関連した論理を有するプログラム・メモリを備え、前記右側データ・ポートおよび左側データ・ポートからの読取りあるいは書込みの動作を制御する個別のフィールドを命令ワードが有し、左側データ・ポートヘの読取りまたは書込みならびに右側データ・ポートヘの読取りあるいは書込みが同じ命令サイクルで発生すること。１３．請求の範囲第１２項記載の装置において、前記処理エレメントがさらに、乗算器と加算器／減算器とを含む算術セクションと、前記乗算器と加算器／減算器とを前記内部レジスタに作動連結し、同時の乗算、加算あるいは減算の演算を支援するバス構造手段と、を備えること。１４．請求の範囲第１３項記載の装置において、前記プログラム・メモリに記憶されて前記特定の処理エレメントの演算を順序づける前記命令ワードが、乗算器、加算器／減算器および前記右側および左側データ・ポートからの読取り／書込み演算を制御するための個別のフィールドを有し、乗算、加算／減算および左側データ・ベートへの読取り／書込みならびに右側データ・ポートヘの読取り／書込みが同じ命令サイクルの間に平行して発生しうること。１５．請求の範囲第３項記載の装置において、ホスト・コンピュータに作動連結された第１のポートとメモリ・リンキング・エレメントＤＰＭ１に作動連結された第２のポートとを有する入力インターフェースと、ホスト・コンピュータに作動連結された第１のポートと二重ポート・メモリ・リンキング・エレメントＤＰＭｎ＋１に作動連結された第２のポートとを有する出力インターフェースとをさらに備えること。１６．請求の範囲第３項記載の装置において、ホスト・コンピュータに作動連結された第１のポートと二重ポート・メモリ・リンキング・エレメントＤＰＭｎ＋１に作動連結された第２のポートとを有する入力インターフェースと、ホスト・コンピュータに作動連結された第１のポートと二重ポート・メモリ・リンキング・エレメントＤＰＭ１に作動連結された第２のポートとを有する出力インターフェースとをさらに備えること。１７．請求の範囲第４項記載の装置において、各処理エレメントがローカル・クロックを備え、各処理エレメントがグローバル・クロックを必要としない自己調時性であること。１８．請求の範囲第５項記載の装置において、前記少なくとも１個のコントロール・フラッグ手段が、特定の二重ポート・メモリ・リンキング・エレメントにおけるデータ・バッファのオーバーラップを可能とする２個のコントロール・フラッグを備え、前記特定の二重ポート・メモリ・リンキング・エレメントのすぐ右側およびすぐ左側の処理エレメントが、前記特定の二重ポート・メモリ・リンキング・エレメントにかける異なるメモリ位置に同時にアクセスできること。１９．請求の範囲第２項記載の装置において、前記メモリが複数のレジスタであること。２０．請求の範囲第２項記載の装置において、前記メモリがＲＡＭメモリであること。２１．請求の範囲第９項記載の装置において、前記処理エレメントが複数のベース・レジスタを備え、各ベース・レジスタがアドレス・カウンタ／レジスタのペァに接続され、各アドレス・カウンタ／レジスタのペアがアドレス・バスに作動連結されており、前記ベース・レジスタは前記アドレス・カウンタに対する基準メモリ・アドレスを保持し、前記アドレス・レジスタはさらに、メモリに必要な各命令の間、アドレス・カウンタを増分するか、ベース・アドレスヘの値をリセットするか、あるいは現在のカウントを保持する手段をさらに備えること。２２．請求の範囲第２１項記載の装置において、１個以上の前記カウンタ／レジスタのペアが、ビット反転順序で前記アドレスバスを介して作動接続されていること。２３．請求の範囲第２２項記載の装置において、ビット反転の変換サイズがプログラムできるものであること。２４．以下の交互のシーケンスで作動接続された処理エレメント（ＰＥ）とメモリ・リンキング・エレメント（ＭＬＥ）とのウエーブフロント・アレイにおいて、 ▲数式、化学式、表等があります▼ ｎが処理エレメント／メモリ・リンキング・エレメントのペアの数を規定する１以上の整数であり、各メモリ・リンキング・エレメントは右側ポートと左側ポートと前記右側および左側ポートを介してアクセスしうるメモリとを備え、各処理エレメントが右側の隣接するメモリ・リンキング・エレメントの前記左側ポートに作動連結されて該メモリ・リンキング・エレメントにおけるメモリ位置にアクセスし、左側の隣接するメモリ・リンキング・エレメントの前記右側ポートに作動連結されて、前記メモリ・リンキング・エレメントにおけるメモリ位置にアクセスし、前記直線アレイ内でグローバルな非同期通信が提供されること。２５．請求の範囲第２４項記載の装置において、各処理エレメントに関連し、特定の処理エレメントのデータ駆動非同期制御を提供するローカル制御手段をさらに備え、前記ローカル制御手段が該特定の処理エレメントとその隣接するメモリ・リンキング・エレメントの中の１個との間て非同期ハンドシェーキングを提供する手段を備えること。２６．請求の範囲第２５項記載の装置において、各処理エレメントが、種々のアルゴリズムを計算する数個の種々のプログラム・シーケンスを記憶できるプログラム・メモリと、各プログラム・メモリにおける開始アドレスを変えることにより計算されたアルゴリズムを変える手段とを備え、前記アレイにおける異なる処理エレメントが種々の計算を実行でき、あるいは同じ処理エレメントが種々の計算を実行できるようにすること。２７．請求の範囲第２６項記載の装置において、データと計算とが前記アレイの右側あるいは左側へ伝播可能であること。２８．請求の範囲第２６項記載の装置において、処理エレメント／メモリ・リンキング・エレメントのぺアの数を増加することにより、スループットを増加させることができること。２９．請求の範囲第２６項記載の装置において、前記メモリ・リンキング・エレメントが前記アレイの処理エレメント・ステージの間で係数その他の情報をロードし記憶する手段を備えること。３０．請求の範囲第２６項記載の装置において、前記メモリが複数のレジスタを備えること。３１．請求の範囲第２６項記載の装置において、前記メモリがＲＡＭメモリを備えること。３２．処理エレメントの、上下、右および左方向を有する二次元アレイと、前記二次元アレイ内でグローバルな非同期通信を提供する手段であって、前記処理エレメントの間で前記二次元アレイに作動可能に散在する複数の二重ポート・メモリ・リンキング・エレメントを備え、各処理エレメントとその隣接する二重ポート・メモリ・リンキング・エレメントとの間て非同期通信を提供する手段とを備える、メモリをリンクしたウェーブフロント・アレイ・プロセッサ。３３．請求の範囲第３２項記載の装置にかいて、前記二重ポート・メモリ・リンキング・エレメントの各々が第１のポートと第２のポートと前記ポートの各々を介してアクセス可能なメモリとを備え、計算に用いられる係数、中間計算およびデータが、処理ステップの間で前記二重ポート・メモリ・リンキング・エレメントに記憶できること。３４．請求の範囲第３３項記載の装置において、各処理エレメントが、特定の処理エレメントに隣接して位置する各々の二重ポート・メモリ・リンキング・エレメントのポートに作動連結され、データ、中間計算および係数が、受取り側の処理エレメントがデータを使用する順序には制限されない任意の所望の順序で処理エレメント間を伝えられること。３５．請求の範囲第３４項記載の装置において、各処理エレメントに関連し、特定の処理エレメントのデータ駆動非同期制御を提供するローカル制御手段をさらに備え、前記ローカル制御手段が、前記特定の処理エレメントとその隣接する二重ポート・メモリ・リンキング・エレメントの中の１個との間で非同期ハンドシェーキングを提供する手段を備えること。３６．請求の範囲第３５項記載の装置において、各二重ポート・メモリ・リンキング・エレメントに関連し、作動する毎に２つの交互の状態の間で切換わる少なくとも１個のコントロール・フラッグ手段を備え、各処理エレメントがさらに、該処理エレメントに隣接する各二重ポート・メモリ・リンキング・エレメントと関連した前記少なくとも１個のコントロール・フラッグ手段を選択的に作動させる手段を備えること。３７．請求の範囲第３６項記載の装置において、前記ローカル制御手段の各々が、前記処理エレメントに隣接する、右側、左側、上側および下側の二重ポート・メモリ・リンキング・エレメントと関連した前記少なくとも１個のコントロール・フラッグ手段の状態を検出する第１の手段と、プログラム・シーケンスが前記隣接する二重ポート・メモリ・リンキング・エレメントの中の１個にカけるメモリ位置へのアクセスを要求し、前記エレメントに関連した前記少女くとも１個のコントロール・フラッグ手段がセットされてい左いとき、特定の処理エレメントのプログラム実行を中断し、前記少なくとも１個のコントロール・フラッグがセットされるまでプログラムの実行を中断させ続ける第２の手段とを備えること。３８．請求の範囲第３６項記載の装置において、各処理エレメントがさらに、上側の隣接する二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置を選択的にアドレスする少なくとも１個の右側アドレス手段と、左側の隣接する二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置を選択的にアドレスする少なくとも１個の左側アドレス手段と、右側の隣接する二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置を選択的にアドレスする少なくとも１個の上側アドレス手段と、下側の隣接した二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置を選択的にアドレスする少なくとも１個の下側アドレス手段とをさらに備え、前記隣接する右側、左側、上側および下側の二重ポート・メモリ・エレメントに関連した前記少なくとも１個のコントロール・フラッグ手段の各々がさらに、前記アドレス手段の中の特定の１個と関連し、前記制御手段の各々がさらに、前記隣接する右側、左側、上側および下側の二重ポート・メモリ・リンキング・エレメントと関連した前記少なくとも１個のコントロール・フラッグ手段の状態を検出する第１の手段と、プログラム・シーケンスが前記少なくとも１個の右側、左側、上側および下側のアドレス手段に対してメモリ位置をアクセスするよう要求するとき、前記特定の少なくとも１個のアドレス手段に関連した前記少なくとも１個のコントロール・フラッグ手段がセットされるまで、該特定の処理エレメントに対するプログラムの実行を中断する第２の手段とを備えること。３９，請求の範囲第３５項記載の装置において、各処理エレメントが、前記処理エレメントに隣接する右側、左側、上側および下側の二重ポート・メモリ・リンキング・エレメントにおけるメモリ位置を同時にアクセスする多方向通信手段と、前記多方向通信手段の作動と同時に計算機能を実行する手段とを備えること。４０．請求の範囲第４項記載の装置において、前記直線アレイが多方向プロセッサ・アレイの一要素部分であること。４１．請求の範囲第１４項記載の装置において、前記直線アレイが多方向プロセッサ・アレイの一要素部分であること。４２．請求の範囲第２４項記載の装置にかいて、前記アレイが多方向プロセッサ・アレイの一要素部分であること。４３．複数の処理エレメントを含むｎ次元のアレイ（ｎはアレイの幾何学的寸法を規定する整数）と、前記アレイ内でグローバルな非同期通信を提供する手段であって、前記処理エレメントの間で前記アレイに作動可能に散在する複数のメモリ・リンキング・エレメントを備え、各処理エレメントと前記アレイでの隣接するメモリ・リンキング・エレメントとの間で非同期通信を提供する手段とを備える、メモリをリンクしたウエーブフロント・アレイ・プロセッサ。４４．請求の範囲第４３項記載の装置において、前記メモリ・リンキング・エレメントの各々が、第１のポートと第２のポートと該ポートの各々を介してアクセス可能なメモリとを備え、計算に使用される係数、中間計算およびデータを処理ステップの間で前記メモリ・リンキング・エレメントに記憶できること。４５．請求の範囲第４４項記載の装置において、各処理エレメントが、前記ｎ次元アレイにおいて特定の処理エレメントに隣接する各メモリ・リンキング・エレメントの前記ポートの中の特定の１個に作動連結され、データ、中間計算および係数が、受取り側の処理エレメントがデータを使用する順序に規制されない任意の所望の順序で処理エレメントの間を伝わることができること。４６．請求の範囲第４５項記載の装置において、各処理エレメントと関連し、前記特定の処理エレメントのデータ駆動非同期制御を提供するローカル制御手段をさらに備え、前記ローカル制御手段が、特定の処理エレメントとその隣接するメモリ・リンキング・エレメントの中の１個との間て非同期ハンドシェーキングを提供する手段を備えること。４７．請求の範囲第４６項記載の装置において、各処理エレメントが、前記ｎ次元アレイにおいて特定の処理エレメントに隣接する各メモリ・リンキング・エレメントにおけるメモリ位置を同時にアクセスする多方向手段と・前記多次元通信手段の作動と同時に計算機能を実行する手段とを備えること。