WO2003007155A1

WO2003007155A1 - Dispositif a circuit integre

Info

Publication number: WO2003007155A1
Application number: PCT/JP2002/007076
Authority: WO
Inventors: Kenji Ikeda
Original assignee: Ip Flex Inc.
Priority date: 2001-07-12
Filing date: 2002-07-11
Publication date: 2003-01-23
Also published as: CN1526100A; US20040015613A1; KR100912437B1; TW577020B; JP4188233B2; AU2002318809B2; US6868017B2; EP1416388A1; CA2451003A1; JPWO2003007155A1; EP1416388A4; KR20040017291A

Description

技術分野

本発明は、データフローを再構成可能な集積回路装置に関するものである。背景技術

明

R AM、 R OMあるいは磁気ディスクなどのメモリに格納されたデータあるい田

は命令（以降においては、特に命令とデータを区別する必要がないときはデータと称する）を C P Uなどで処理する場合、キャッシュあるいはキャッシュメモリと呼ばれる比較的小容量ではあるが高速なメモリを用い、データの時間的局所性あるいは空間的局所性を利用してデータへのアクセス速度を向上するようにしている。したがって、プロセッサあるいはプロセッサコアを搭載した、 V L S I、システム L S Iあるいはシステム A S I Cなどと称される集積回路装置においては、キャッシュメモリとそれを制御する MMUなどの回路を備えたキャッシュシステムが搭載されている。

キャッシュメモリを利用する場合は、 MMU (Memory Management Unit) およぴ T L B (Translation Look-aside Buffer)を用いて、 C P Uコアから出力される仮想あるいは論理アドレスに対応したデータがキャッシュメモリにあれば、 C P Uコアに対してはキャッシュメモリのデータが入出力される。キャッシュメモリにデータがない場合は、 MMUおよび T L Bによって仮想ァドレスが物理ァドレスに変換されて外部のメモリに対して入出力が発生し、キャッシュメモリのデータも更新される。したがって、 MMUなどを備えたキャッシュ制御機構により、 C P Uコアで動作するソフトウェアに対しては、キャッシュメモリは透過的な存在となるように構成されている。このため、ソフトウェアはハードウェアに依存しない仮想ァドレスに基づき動作するように開発すれば良く、開発および設計にかかる時間およびコストを低減することができる。また、同一のソフトウェアを、異なるハードウェアでも稼動させることができ、ソフトウェア資産を有効に利用できる。

C P Uコアから出力された仮想ァドレスのデータがキャッシュメモリに存在しない、すなわち、キャッシュメモリにヒットしないときは外部メモリに対して入出力処理が発生する。したがって、キャッシュメモリのヒット率が少ない場合は、キャッシュメモリは単にオーバヘッドになるだけであり、プログラムの実行時間に悪影響を及ぼす。このため、ヒット率を改善するために、命令キャッシュとデータキャッシュを分離したり、キャッシュを多階層化したり、機械的にあるいはソフトウェア的にプリフェッチするなどの技術が検討されている。

しかしながら、命令キャッシュとデータキャッシュを分離する場合は、 1つのブロックに命令とデータが同時に存在すると、その取り扱いが難しくなる。たとえば、命令を書き換える処理があるとソフトウェアの処理に支障をきたす可能性がある。さらに、命令とデータへのアクセスが均等でないソフトウェアでは、単にキャッシュを分離しても効率は向上しない。たとえば、データへのアクセスが離散的であれば、データキャッシュの利用効率が低くなり、オーバヘッドになつてしまう可能性もある。

多階層キャッシュは、キャッシュと外部メモリとのアクセス時間や記憶容量の差が大きい場合は有効である。しかしながら、多階層化することによりメモリにアクセスする回数は必然的に增加するので、ソフトウェアの構成や、処理するデータの入出力メディァなどの条件によつてはオーバへッドになる可能性は常にある。

プリフェッチした場合でも、分岐などのときのペナルティ一を解消することはできない。数値計算プログラムにおいて配列要素の参照が多く、アクセスする要素が予め予想できるソフトウエアであると、プリフェッチ命令を用いてキヤッシュのペナルティ一は減少できるが、プリフェッチ命令を実行するために C P U の時間を費やすことになり、効果的に利用できるソフトウェアは限定される。

上述したように、いずれの技術も、 C P Uで実行するソフトウェアと、データが格納されているメディアなどの条件がキャッシュメモリの方式と合致する場合は、キャッシュメモリのヒット率を向上することは可能である。しかしながら、キャッシュメモリは外部メモリとの間に中間的に配置されるハードウェアであるために、実行されるソフトウェアの処理内容や、そのソフトウェアの処理対象となるデータが格納されたハードウヱァの環境などが異なると、予定しているキャッシュ効率が得られなかったり、逆にオーバヘッドになり、プロセッサの実行時間を低下させる要因となる。特定のアプリケーションに特化したプロセッサであれば最適なキャッシュメモリシステムを採用できるかもしれない。しかしながら、ある程度の汎用性を目指したプロセッサであると、キャッシュメモリを活かすためには、それほど効果的ではないとしても、オーバヘッドになることの少ないキャッシュメモリシステムを導入することになる。したがって、キャッシュメモリシステムがあってもそれほど性能が向上しないということになる。

そこで、本発明においては、プロセッサで実行されるソフトウェアの処理内容やハードウェア環境に対応して、キャッシュとして最も効率良く利用することができるメモリを有する集積回路装置を提供することを目的としている。また、メモリを、キャッシュとして最も効率良く利用することができる制御機能を備えた集積回路装置を提供することを目的としている。そして、様々なソフトウェアをさらに効率良く実行することができる集積回路装置を提供することを目的としている。発明の開示

近年、データパスの構成またはデータフローの少なくとも 1部を変更可能な処理ユニットが登場している。 F P GA (Field Programmable Gate Array) は、単一な構成で論理を変更可能な論理エレメントまたは論理プロックをァレイ状に敷き詰めてその間の結線を自由に変更し、データパスの構造を変更することができる集積回路装置である。また、命令セットにより種々の処理を行う中規模な単一構成の基本機能ュニットを用いてデータパスの構造を変更可能とした集積回路装置も検討されている。さらに、本願の出願人は、それぞれ異なる特定の処理に適した内部データパスを備えた複数種類の専用処理要素と、これらの専用処理要素を接続する配線群とを備えた処理ユニットを開発している。そこで、これらのデータフローを変更または再構成可能な処理ュニットの一部によりキャッシュメモリを制御する回路を構成する。すなわち、本発明の集積回路装置は、第 2のメモリとの間でデータを入力および/または出力可能な第 1のメモリと、少なくとも 1つのデータフローが形成され、そのデータフローの少なくとも 1部を変更可能な処理ユニットとを有し、この処理ュニットは、第 1のメモリとの間で入力および/または出力されるデータを処理するデータ処理区画と、第 1のメモリとデタ処理区画との間で入力および/または出力されるデータの第 1のァドレスを出力する第 1のァドレス出力区画と、第 2のメモリと第 1のメモリとの間で入力および Zまたは出力されるデータの第 2のアドレスを出力する第 2のァドレス出力区画とを備えている。データフローを変更可能な処理ュニットの一部により第 1および第 2のァドレス出力区画を構成することにより、データ処理区画のハードウェア構成あるいはデータ処理区画で実行するソフトウエアにより、第 1のァドレス出力区画または第 2のァドレス出力区画のデータフローを変更したり、それぞれの区画の出力を制御することが可能となる。したがって、この集積回路装置で実行する処理に最も適したキャッシュメモリシステムをこの集積回路装置に構成できる。あるいは、集積回路装置で実行する処理に最も適したキャッシュメモリの制御を行うように、キャッシュメモリの制御回路を集積回路装置に構成することができる。

本発明の集積回路装置では、キャッシュメモリとなる第 1のメモリを、第 2のメモリに対する第 2のァドレス、すなわち、データの第 2のメモリにおける物理アドレス、または物理ァドレスに変換可能な論理ァドレスあるいは仮想ァドレスにより受動的に制御することも可能である。この制御により、第 2のメモリおよび/またはデータ処理区画に対して第 1のメモリが透過的に存在するように構成することも可能である。それに加えて、データ処理区画および Zまたは第 1のァドレス出力区画からのデータあるいは信号により、さらには、データ処理区画および第 1のァドレス出力区画のいずれからも独立して、第 2のアドレス出力区画が能動的にデータの入出力を制御することが可能である。また、データ処理区画および第 1のァドレス出力区画と並列に、第 1および第 2のメモリ間におけるデータの入出力動作を制御することも可能である。したがって、第 2のアドレス出力区画により、データ処理区画および第 1のァドレス出力区画のデータのァクセス先を決定するような構成も可能となり、従来の C P Uに対し透過的なキヤッシュではなく、逆に処理ュニットにおける処理を制御するようなキャッシュを構成することが可能となる。

すなわち、従来のキャッシュのアーキテクチャは、 C P Uコアあるいは D S P コアなどの画一的なハードウェア構成の処理機構で動作するソフトウェアに対して、平均的に実行速度を向上できるように、ユニホームで透過的なインターフエイスを提供するように構成されている。これに対し、本発明の集積回路装置においては、 F P GAなどのデータパスの構成そのものを変更可能なアーキテクチャにより、コアとなるデータ処理区画が提供されるので、それにあわせて、キヤッシュの構成もデータ処理区画の構成、およびそこで実行されるソフトウェアに最適な構成に動的に変更可能にするものである。したがって、ユニホームで透過的である必要はなく、コアあるいは実行部であるデータ処理区画に対して、従来のキャッシュとまったく異なったインターフェイスあるいはサービスを提供することが可能となる。

このため、本発明の集積回路装置では、処理ユニットで実行されるソフトゥェァの処理内容やハードウェア環境に応じて、第 1のメモリをキャッシュとして最も効率良く利用することができる。そして、種々のソフトウェアを実行する際に、高いヒット率が得られるようにキャッシュシステムを構成でき、キャッシュメモリの入出力がソフトウエアを実行する際のオーバへッドとならない集積回路装置を提供することができる。

たとえば、データ処理区画で実行されるデータの第 2のメモリにおけるァドレスが判明している場合は、第 1のメモリのデータ残存量などによって第 2のアドレス出力区画が独立してデータをプリフェッチすることが可能である。したがつて、データ処理区画の処理時間を消費せずにキャッシュとなる第 2のメモリにデータをハードウエア的に、あるいは第 2のァドレス出力区画を制御するソフトウェアによりプリフェッチすることができる。たとえば、第 1のアドレス出力区画からは第 1のアドレスとして第 1のメモリのアドレス、すなわち、第 1のメモリの物理ァドレス、あるいは物理ァドレスに変換可能な仮想あるいは論理ァドレスを出力し、第 2のァドレス出力区画からは第 2のァドレスとして第 2のメモリのアドレス、すなわち、第 1のメモリの物理アドレス、あるいは物理アドレスに変換可 t|な仮想あるいは論理アドレスを出力する。さらに、データ処理区画では、キャッシュメモリとなる第 1のメモリのァドレスで処理が進むようにハードゥエァあるいはソフトウェアを構成することができる。

さらに、第 2のアドレス出力区画を、データ処理区画および/または第 1のァドレス出力区画とは非同期に、すなわち独立して動作可能とすることが望ましく、これにより、データ処理区画とは独立して並列処理でプリフェッチすることが可能となる。第 2のメモリに対する入力と出力を並列に独立して処理できるように、第 1のメモリは非同期に、すなわち、独立に入出力可能な複数の格納区画、たとえば複数のメモリバンクを備えていることが望ましい。

また、第 2のアドレス出力区画が独自で、あるいはデータ処理区画との組み合わせにより、第 1のメモリのデータに基づいて第 2のァドレスを出力するように構成することも可能であり、間接ァドレッシングによるデータ処理を何らの制限もなく実行することができる。

キャッシュとして動作する第 1のメモリは、データ処理区画に入力されるデータを格納する第 1の入力メモリと、データ処理区画から出力されたデータを格納する第 1の出力メモリとを備えていることが望ましい。これにより、データ処理区画に形成されるデータフローに対するデータの入力と出力とを独立して制御できる。第 1のァドレス出力区画からは第 1のメモリのァドレスが出力されるが、第 1のメモリに第 1のアドレスに対応するデータがなかったり、第 1のァドレスに対応するデータを格納するスペースがないと、データ処理区画に形成されるデータフローの処理の障害となる。したがって、第 1のメモリとデータ処理区画との間の入力および Zまたは出力を管理する第 1の調停ュニットを設けることが望ましい。

第 1の調停ユニットには、第 1のアドレスに対応するデータがない、または、第 1のァドレスに対応するデータを格納するスペースがないなどのデータ処理区画との間の入力または出力の条件を満たさない場合は、ストップ信号をデータ処理区画に出力する機能を持たせることができる。そして、データ処理区画には、ストップ信号により、当該データ処理区画に形成された少なくとも 1つのデータパスまたはデータフローの処理を停止する機能を持たせることにより、第 1の調停ュ-ットによりデータパスまたはデータフローのオンオフを制御できる。したがって、データ処理区画に形成されたデータパスまたはデータフローを、処理対象となるデータが揃うのを待つて稼動させるような制御を容易に実現できる。第 1のメモリ力第 1の入力メモリと第 1の出力メモリとを備えているのであれば、第 1の調停ユニットとして、第 1の入力メモリからデータ処理区画へのデータの転送を管理する第 1の入力調停ュニットと、データ処理区画から第 1の出力メモリへのデータの転送を管理する第 1の出力調停ュニットとを設けることが望ましい。これにより、データ処理区画に形成されるデータフローの制御を入力側と出力側とから独立に行うことができる。

さらに、第 1のメモリ力 s、独立に入出力可能な複数の格納区画を備えている場合は、第 1の調停ユニットに、複数の格納区画のそれぞれを独立に管理する機能を備えていることが可能である。データ処理区画に形成される複数のデータフローのそれぞれを、対応する格納区画の状態により第 1の調停ュニットにより独立して制御できる。一方、第 1の調停ユニットに、複数の格納区画を関連付けして管理する機能を設けることも可能である。これにより、データ処理区画に形成されたデータフ口一が、所定の格納区画に外部メモリから入力されたデータを優先して処理したり、データフロ一からの出力を所定の格納区画を介して外部メモリに対して優先的に出力したりする制御が容易に実現できる。

さらに、データ処理区画に複数のデータフローが構成可能であるときには、複数の第 1のメモリを設け、処理ユニットには、各々の第 1のメモリに対応する第 1および第 2のァドレス出力区画が形成されるようにすることが望ましい。これにより、データ処理区画および第 1のァドレス出力区画を適切に構成することにより多階層キャッシュを構成することも可能となる。また、集積回路装置で実行するプログラムによっては、複数の第 1のメモリを命令キャッシュとデータキャッシュとして使い分けたり、さらには、複数のデータ処理区画を設けたときにそれらで処理するデータをキャッシュするために複数の第 1のメモリを使い分け、第 2のァドレス出力区画によりそれぞれの第 1のメモリにキャッシュされるデータを適切に制御することが可能となる。

複数の第 2のアドレス出力区画を設ける場合は、第 2のメモリと複数の第 1のメモリとの間の入出力を管理する第 2の調停ユニットを用意し、第 2のアドレスは第 2の調停ユニットに供給されるようにすることが望ましい。これにより、第 2のメモリが外部メモリであるときに、その外部メモリに対して従来と同様に本発明の集積回路装置はアクセスできる。また、第 2のメモリが同一チップ内に形成された集積回路装置においては、第 2のメモリが第 3のメモリとの間でデータを入力および Zまたは出力可能として、第 3のメモリと第 2のメモリとの間で入力および /"または出力されるデータの第 3のァドレスを出力する第 3のァドレス出力手段も設けてキャッシュメモリを多階層化することが可能である。すなわち、第 3のメモリが外部メモリであれば、第 1および第 2のメモリによりキャッシュメモリが構成される。この第 3のアドレス出力手段は、 MMUなどの従来のキャッシュ制御機構であっても良く、第 2のァドレス出力区画と同様に構成することも可能である。第 4あるいはそれ以上の階層のメモリ（R OM、 R AMに限らず、ディスクなどの様々なタイプの記録媒体を含む）を対象として制御する場合も同様である。

データフローを変更あるいは再構成可能な処理ユニットは、機能を変更可能な複数の単一種類の論理要素と、これらの論理要素を接続する配線群とを備えているもの、すなわち、上述した F P G Aや、中規模な単一構成の基本機能ユニットを用いてデータパス構造またはデータフ口一を変更可能としたものであっても良レ、。それぞれ異なる特定の処理に適した内部データパスを備えた複数種類の専用処理要素と、これらの専用処理要素を接続する配線群とを備えている処理ュニットを採用することが可能である。そして、このような再構成可能な処理ユニットであれば、了ドレスを出力するのに適した内部データパスを備えた専用処理要素を予め組み込むことが可能であり、アドレスを発生する処理効率を高め、処理速度をさらに向上できる。また、余剰な回路要素の存在を低減できるので、データフローを変更するために選択する要素も低減でき、 A C特性も向上でき、さらに、スペース効率も高くなる。

したがって、処理ュニットのデータフローの少なくとも 1部の変更を指示する制御ユニットが、処理ユニットに対し、上述したデータ処理区画と、第 1のアドレス出力区画と、第 2のァドレス出力区画とを構成するように指示する工程を実行することにより、データフローをフレキシブルに、そして短時間にダイナミツクに変更できる。そして、フレキシブルなキャッシュシステムを備えた、コンパクトで経済的な集積回路装置を提供できる。

処理ュニットのデータフローの変更を容易にするために、専用処理要素間の接続を変更可能とすると共に、専用処理要素の内部データパスの一部を選択する手段と、内部のデータパスの選択を記憶するコンフィグレイシヨンメモリとを設けることが望ましい。制御ユニットは、コンフィグレイシヨンメモリの内容を書き換えたり、処理ュニットのデータフローの少なくとも 1部の変更を指示することによりデータフローを再構成できる。さらに、専用処理要素を備えた処理ュニットであれば、この制御ユニットにより、データ処理区画、第 1のアドレス出力区画、または、第 2のアドレス出力区画のデータフローの変更を非同期または独立して指示することが可能となる。これにより、第 1のメモリに対してデータを入出力している間は、データ処理区画および/または第 1のァドレス出力区画を構成する専用処理要素を、別の目的のデータフローを構成するために使用したり、逆に、データ処理区画で処理を実行している間は、第 2のアドレス出力区画の専用処理要素を異なるメモリの制御に用いたり、あるいは異なる目的で利用したりすることが可能となり、処理ユエットのリソースをフレキシブルに効率良く活用できる。

さらに、制御ュニットに上記の処理を行わせるプログラムコードを記憶するコードメモリを搭載することにより、ワンチップのシステム L S Iなどの集積回路装置を構成することが可能となる。したがって、様々な目的のソフトウェアに対し、キャッシュがオーバヘッドとならず、効率的に利用し、実行速度を向上できる集積回路装置を提供できる。また、データフローを再構成可能な処理ュニットを単体のチップあるいはプロセッサコアとして提供したり、キャッシュメモリとなる第 1のメモリを搭載した状態でチップとして提供することも可能であり、本発明を実現可能な形態は様々であり、それらの形態を含む処理装置も本発明に含まれる。図面の簡単な説明

図 1は、本発明の実施の形態に係る集積回路装置の概略構成を示すプロック図である。

図 2は、処理ュニットである AA Pの概略構成を示す図である。

図 3は、マトリクス部の概略構成を示す図である。

図 4は、了ドレスを出力する処理に適したデータパス部の例である。

図 5は、図 4に示したデータパス部のァドレス発生回路の構成を示す図である。図 6は、図 5に示したカウンタの構成を示す図である。

図 7は、図 5と異なるアドレス発生回路の構成を示す図である。

図 8は、大容量 RAMを外部メモリとして制御する様子を示す図である。

図 9は、大容量 R AMおよび周辺デバイスを外部メモリとして制御する様子を示す図である。

図 1 0は、複数の大容量 R AMおよび周辺デバイスを外部メモリとして制御する様子を示す図である。

図 1 1は、本発明の異なる集積回路装置により大容量 R AMを外部メモリとして制御する様子を示す図である。発明を実施するための最良の形態

以下に図面を参照しながら、本発明についてさらに説明する。図 1に、本発明に係るシステム L S I 1 0の概略構成を示してある。この L S I 1 0は、プログラムなどによって与えられる命令セットに基づきエラー処理を含めた汎用的な処理を行う汎用な構成のプロセッサ部（以降では基本プロセッサまたはプロセッサ） 1 1と、マトリクス状に配置された演算あるいは論理エレメントにより特定のデータ処理に適合したデータフローあるいは擬似データフ口一がバリアブノレに开成される AA P (Adoptive Application Processor) 部あるいは A A Pユニット (以降では AA P ) 2 0と、この AA P 2 0からの割り込み処理を制御する割り込み制御部 1 2と、 AA P 2 0に作動用のクロック信号を供給するクロック発生部 1 3と、この L S I 1 0で提供可能な演算回路のフレキシビリティーをさらに向上するための F P GA部 1 4と、外部に対するデータの入出力を制御するバス制御部 15とを備えたデータ処理システムである。 FPGA部 14は、この LS I 10の外部に設けられた FPG Aチップとのインターフェイスであり、以降ではオフチップ FPGAあるいは FPGAとして参照する。本発明の集積回路装置である LS I 10では、基本プロセッサ 1 1と AAP 20は、基本プロセッサ 1 1と AAP 20との間でデータを交換可能なデータバス 17と、基本プロセッサ 1 1から AAP 20の構成および動作を制御するための命令バス 18とにより接続されている。また、 AAP 20から割り込み制御部 1 2に信号線 1 9を:^して割り込み信号が供給され、 AAP 20における処理が終了したり、処理中にェラーが発生したときは AAP 20の状態を基本プロセッサ 1 1にフィードバックできるようになつている。

AAP 20と FPGA14との間もデータバス 21により接続されており、 A AP 20から FPGA14にデータを供給して処理を行い、その結果を A A P 2 0に返せるようになつている。さらに、 AAP 20は、ロードバス 22およびストァバス 23によってパス制御ュニット 15と接続されており、 L S I 10の外部のデータバスとの間でデータを交換できるようになつている。したがって、 A AP 20は、外部の DRAM2やその他のデバイスからデータを入力でき、そのデータを AAP 20で処理した結果を再び外部のデバイスに出力できる。基本プ口セッサ 1 1もデータバス 1 1 aとバス制御ュ-ット 1 5を介して外部のデバイスとデ一タを入出力できる。

図 2に AAPユニット 20の概要を示してある。本例の AAPユニット 20は、複数の算術および/または論理演算を行う論理プロック、論理ュニットあるいは論理要素（以降ではエレメント）がマトリクス状に配置されたマトリクス部 28 と、そのマトリクス部 28に対してデータを供給する入力バッファ 26と、マトリクス部 28から出力されるデータを格納する出力バッファ 27を備えている。これら入力バッファ 26および出力バッファ 27は、それぞれ 4つの小容量の入カメモリ (RAM) 26 a~26 dと、出力メモリ (RAM) 27 a〜27 dとを備えている。 AAP 20は、さらに、これらの複数のメモリから構成される入力バッファ 26および出力バッファ 27とバス制御ュ-ット 15との間におけるデータの入出力動作を制御する外部アクセス調停ュニット（第 2の調停ュニット） 25とを備えている。

本例の入力 RAM 26 a〜26 dおよび出力 RAM 27 a〜 27 dは、各々が 1 kバイトの 2ポート RAMとして機能し、 64 kビット幅で 512バイトの深さのある 2バンク形式の RAM81および 82として使用できるようになつている。したがって、メモリに対する入力と出力で異なるバンクを使用することにより入出力を独立した動作として処理することが可能である。さらに、 RAM81 および 82に対する入出力を管理する調停ユニット（第 1の調停ユニット） 85 を備えており、入力および出力の回数をカウントすることにより各バンクのフルおよびェンプティーをチェックできるようになつている。

これら入力 RAM 26 a〜26 dおよび出力 RAM 27 a〜27 dの入出力を制御するために、マトリクス部 28とそれぞれの RAMおよび調停ュ-ット 85 との間で複数種類の制御信号が交換される。まず、各入力 RAM26 a〜26 d 毎に、入力 RAM26 a〜26 dからマトリクス部 28が読み出すデータを制御するための 16ビットの入力読み出しァドレスデ'ータ（ i r a、第 1のァドレス） 61が出力される。この入力読み出しアドレス 61は、各入力 RAM26 a 〜26 dの論理あるいは物理アドレスである。また、各入カ1 八1 26 &〜26 dの調停ュニット 8 5からマトリクス部 28に、フルおよび/またはェンプティーによりアドレスデータ 61の供給を制御する入力読み出しァドレスストツプ信号（ i r a— s t o p) 62が出力される。また、調停ユニット 85からは、マトリクス部 28から供給されたァドレスデータ 61に対応するデータがないなどの、マトリクス部 28に対する入力条件が整わない場合も入力読み出しァドレスストップ信号 62が出力される。

マトリクス部 28では、このストップ信号 62によりマトリクス部 28に形成されるデータフローをオンオフする。したがって、マトリクス部 28にデータフローが形成された後の実行工程においては、データフローで定義された処理の実行を各入力 RAM 26 a〜26 dの調停ュニット 85により制御することができる。したがって、入力 RAM26に、入力読み出しアドレスデータ 61に対応するデータがなければ、データフローの処理は待ち状態になる。また、入力 RAM 26に、入力読み出しァドレスデータ 6 1に対応するデータがあれば、 32ビットの入力読み出しデータ（i r d) 63がマトリクス部 28に供給され、形成されたデータフローにより処理され、出力 RAM27のいずれかに出力される。また、マトリクス部 28からは入力読み出しデータ 63を制御するストップ信号 ( i r d_s t o ) 64が各入力 RAM 26 a〜26 dに出力され、マトリクス部 28のデータフ口一の動作が、たとえば、出力側による原因で停止したときは読み出しを停止する。

各入力 RAM 26 a〜26 dの調停ュニット 85は、基本的には、各 RAM 2

6 a〜26 dを独立して制御する。したがって、各入力 RAM2.6 a〜26 dとマトリタス部 28との間のデータ交換は、入力 RAM 26 a〜26 d毎に制御および実行され、入力 RAM26 a〜26 dに対応して形成されたマトリクス部 2 8のデータフローが独立して制御される。以下で説明する出力 RAM 27 a〜2

7 dについても同様である。一方、これら入力 RAM26 a〜 26 dの調停ュニット 85は、入力 RAM26 a〜26 dの間の配線により、または、マトリクス部 28を介した配線により接続することも可能であり、複数の入力 RAM 26 a〜26 dを関連付けして管理することも可能である。複数の入力 RAM26 a 〜26 dを関連付けして管理することにより、マトリクス部 28に形成されるデータフロ一に対して複数の入力 RAMを割り付けることが可能である。そして、調停ュニット 85により、複数の入力 RAM 26 a〜 26 dに優先順位をつけて、優先度の高い R AMのデータからデータフローに供給するといつた制御が実現できる。

また、入力 RAM26 a〜26 d毎に、バス制御ユニット 15を介して外部メモリ 2から読み出して各入力 RAM 26 a〜26 dに書き込むデータを制御するための 32ビットの入力書き込みアドレスデータ（ i w a、第 2のアドレス） 6 5と、そのデータタイプなどを指定可能な 4ビットの制御信号（ i w d— t y p e) 66がマトリクス部 28から出力される。各入力 RAM26 a〜26 dに対応するこれらの入力書き込みアドレスデータ 65および制御信号 66は、すべて外部アクセス調停ユエット 25に出力される。この入力書き込みアドレス 65は、外部メモリである RAM2の物理ァドレス、あるいは物理ァドレスに相当する論理または仮想ァドレスとなる。これに対し、外部アクセス調停ュニット 25から了ドレスデータ 65の出力を制御するストップ信号（i wa— s t o p) 67がマトリクス 28に供給される。

さらに、外部アクセス調停ュニット 25に供給された入力書き込みァドレスデータ 65に呼応した 64ビットの入力書き込みデータ（i wd) 68が調停ュニット 25から各入力 RAM 26 a〜26 dに供給され、各入力 RAM 26 a〜 26 dからは入力書き込みデータ 68を制御するストップ信号（i wd— s t o p) 69が外部アクセス調停ュニット 25に出力される。

マトリクス部 28からの出力を制御するためには、各出力 RAM 27 a〜27 d毎に、マトリクス部 28から読み出して出力 RAM27 a〜27 dに書き込むデータを制御するための 16ビットの出力書き込みアドレスデータ（_{o w a}、第 1のアドレス） 71が出力される。この出力書き込みアドレス 71は、各出力 R AM27 a〜27 dの論理または物理アドレスとなる。また、各出力 RAM27 a〜27 dの調停ュニット 85からマトリタス部 28に、フルおょぴ /またはェンプティ一によりアドレスデータ 71の供給を制御する出力書き込みァドレスストップ信号（owa— s t o p) 72が出力される。すなわち、調停ユニット 8 5力らは、マトリクス部 28からの出力を受ける条件を満たさない場合に、出力書き込みアドレスストップ信号 72が出力される。マトリクス部 28では、このストップ信号 72によりマトリクス部 28に形成されるデータフローをオンオフし、データフローで定義された処理の実行を制御する。出力 RAM27にスぺースがあれば、出力書き込みアドレスデータ 71と共に 32ビットの出力書き込みデータ（owd) 73がマトリクス部 28から出力される。また、各出力 RAM 27 a〜27 dの調停ュニット 85からマトリクス部 28に出力書き込みデータ 73を制御するストップ信号 (o wd_s t o p) 74が供給される。

また、出力 RAM27 a〜27 d毎に、パス制御ユニット 15を介して各入力 R AM 26 a〜 26 dから読み出して外部メモリ 2に書き込むデータを制御するための 32ビットの出力読み出しアドレスデータ（o r a、第 2のアドレス） 7 5と、そのデータタイプなどを指定可能な 4ビットの制御信号（o r d— t y p e) 76がマトリクス部 28から出力される。これらの出力読み出しァドレスデータ 75と制御信号 76はすべて外部アクセス調停ュニット 25に出力される。この出力読み出しァドレス 75は、外部メモリである DRAM 2の物理ァドレス、あるいは物理ァドレスに相当する論理または仮想ァドレスとなる。これに対し、外部アクセス調停ュニット 25からァドレスデータ 75の出力を制御するストツプ信号（o r a_s t o p) 77がマトリクス 28に供給される。

さらに、出力読み出しアドレスデータ 75と共に、 64ビットの出力読み出しみデータ（o r d) 78が各出力 RAM27 a〜27 dから外部アクセス調停ュニット 25に供給され、外部アクセス調停ュニット 25から各出力 RAM27 a 〜27 dに出力読み出しデータ 68を制御するストップ信号（o r d— s t o p) 79が供給される。

したがって、本例の AAP 20においては、マトリクス部 28の入力データ 6 3は、複数の入力 RAM 26 a〜26 dと、外部アクセス調停ュニット 25とを経て外部メモリ 2とのインターフェイスとなるバス制御ュニット 15から供給される。また、マトリクス部 28の出力データ 73は、複数の出力 RAM27 a〜 27 dと、外部アクセス調停ュニット 25とを経て外部メモリ 2とのインターフェイスとなるバス制御ュニット 15に供給される。そして、入力 RAM26 a 〜26 dおよび出力 RAM27 a〜27 dは、各々が 2バンク構成になっているので、入力 RAM26 a~26 dおよび出力 RAM27 a〜27 dとマトリクス部 28との間の処理と、入力 RAM 26 a〜26 dおよび出力 RAM 27 a〜2 7 dと外部アクセス調停ュニット 25との間、すなわち、外部 RAM 2との間の処理とを独立してあるいは非同期で並列に実行できる。

また、外部アクセス調停ュニット 25とバス制御ュニット 15との間には、高速でブロック単位でデータを入出力できるように、 32ビットのアドレスバスと 256ビットのデータバスによりロードバス 22およびストァバス 23が構成されている。そして、了ドレスバスを介して入力ァドレス信号 22 aおよび出力ァドレス信号 23 aが伝達され、データバスを介して入力データ 22 bおよび出力データ 23 bが伝達される。また、 5ビットのコマンド 22 cおよび 23 cを伝達する信号線と、バス制御ュニット 15のビジー信号 22 dおよび 23 dを伝達する信号線と、バス制御ュニット 1 5のレディー信号 22 eを伝達する信号線も用意されている。図 3に、本例のマトリクス部 2 8と小容量 R AM 2 6 a〜2 6 dおよび 2 7 a 〜2 7 dを含んだ構成 2 9の概要を示してある。このマトリクス部 2 8が、本発明における処理ュニットに対応するデータパスあるいはデータフローを再構成可能なシステムである。マトリクス部 2 8は、複数の演算ユニットであるエレメント 3 0を備え、それらのエレメント 3 0が縦方向に 4つのラインを構成するようにアレイ状あるいはマトリクス状に配置されている。また、マトリクス部 2 8は、これらのエレメント 3 0の間に配置された、横方向に延びた行配線群 5 1と、縦方向に延びた列配線群 5 2とを備えている。列配線群 5 2は、列方向に並んだ演算ュニット 3 0の左右に分かれて配置された配線群 5 2 Xおよび 5 2 yが 1対になっており、これらの配線群 5 2 Xおよび 5 2 yからデータが各々のエレメント 3 0に供給される。

行配線群 5 1および列配線群 5 2との交点にはスィツチングュ二ット 5 5が配置されており、行配線群 5 1の任意のチャンネルを、列配線群 5 2の任意のチヤンネルに切り替えて接続できるようになつている。各々のスィツチングュエツト 5 5は、設定を記憶するコンフィグレイシヨン R AMを備えており、プロセッサ部 1 1から供給されるデータによりコンフィグレイシヨン R AMの内容を書き換えることにより、行配線群 5 1と列配線群 5 2の接続を動的に任意に制御できる。このため、本例のマトリクス部 2 8においては、複数のエレメント 3 0の全部あるいは一部が配線群 5 1および 5 2により接続されて形成されるデータフローの構成を任意に動的に変更することができる。

各エレメント 3 0は、 1 aの列酉己線群 5 2 xおよび 5 2 yのそれぞれから入力データを選択するための 1組のセレクタ 3 1と、選択された入力データ d i Xおょぴ d i yに特定の算術および Zまたは論理演算処理を施し、出力データ d oとして行配線群 5 1に出力する内部データパス部 3 2を備えている。そして、本例のマトリクス部 2 8には、各行毎に異なる処理を行うための内部データパス部 3 2を備えたエレメント 3 0が並んで配置されている。さらに、これらの酉己線群 5 1および 5 2には、キャリー信号を伝送する配線も用意されている。キャリー信号は、桁上げ用の信号や真偽を示す信号として使用することが可能であり、本例のマトリクス部 2 8では、各エレメント 3 0において算術演算および論理演算を制御したり、結果を他のエレメント 3◦に伝 j - るためなどに利用される。

まず、第 1行目に配列されたエレメント 3 0は、入力バッファ 2 6からのデータを受信する処理に適したデータパス部 3 2 iを備えている。ロード用のデータパス部（L D) 3 2 iは、単にデータを受け入れるだけであれば、論理ゲートは不要であり、ロードバス 2 2からデータを受信して、行配線群 5 1に出力する。本例のマトリクス部 2 8においては、ロード用のデータパス部 3 2 iは、入力 R AM 2 6の R AM調停ュニット 8 5からストップ信号 6 2を受けると、このデータパス部 3 2 iのエレメント 3 0に繋がったデータフローの処理を停止する機能を備えている。さらに、マトリクス部 2 8の内部要因や、出力側の要因によりデータパス部 3 2 iのエレメントに繋がったデータフローを停止するときは、対応する入力 R AM 2 6の調停ュニット 8 5に対してストップ信号 6 4を出力する機能を備えている。

第 2行目に配置されたエレメント 3 0 aは、入力バッファ 2 6の入力 R AM 2 6 a〜2 6 dの各々に外部 RAM 2からデータを書き込むためのエレメントであり、第 2のアドレス出力区画に対応する。したがって、ブロックロードするためのアドレス（第 2のアドレス）を発生するのに適した内部データパスを具備するデータパス部 3 2 aを備えている。このデータパス部 3 2 aは、 B L A (Back Ground Load Address Generator) と称される。図 4は、データパス部 3 2 aの一例であり、カウンタなどからなるアドレス発生回路 3 8を備えており、そのアドレス発生回路 3 8からアドレスが出力信号 d oとして出力される。出力信号 d o は、行配線群 5 1およぴ列配線群 5 2を介して、そのまま、あるいは、他のエレメント 3 0によって処理された後に入力信号 d i xあるいは d i yとしてデータパス部 3 2に供給され、供給されたアドレスのいずれかがセレクタ S E Lで選択されてフリップフロップ F Fを介してマトリクス部 2 8からアクセス調停ュニット 2 5に入力書き込みアドレス 6 5として出力される。

マトリクス 2 8を構成する全てのエレメント 3 0と同様に、このアドレスを発生するエレメント 3 0もァドレス発生回路 3 8やセレクタ S E Lの状態を設定するコンフィグレイシヨン R AM 3 9を備えており、このコンフィグレイションメモリ 3 9のデータは基本プロセッサ 1 1よりの制御信号 1 8によりセットされる。図 5にァドレス発生回路 38の一例を示してある。このァドレス発生回路 38 は、複数のカウンタ 38 aと、これらのカウンタ 38 aからの出力を演算してァドレスとして出力する加算器 38 bとを備えている。各々のカウンタ 38 aは、図 6に示したように、算術演算ユニット ALU38 cと、コンパレータ 38 dとが組み合わされた構成となっており、 ALU38 cは、 ADD、 SUB、 B I T シフト、 OR、 XORやそれらを組み合わせた演算を行うようにセットすることが可能である。したがって、クロックが来る度に値を発生する関数発生回路としての機能があり、このカウンタ 3.8 aの機能はコンフィグレイション RAM39 を介してプロセッサ部 11からセットすることができる。

また、 ALU 38 cの制御信号 e nを他のカウンタ 38 aから供給されるキヤリー信号 c yによりセットしたり、コンパレータ 38 dの出力をキャリー信号 c yとして他のカウンタ 38 aに伝達できる。このようにキャリー信号を利用することにより、カウンタ 38 aの状態により他のカウンタ 38 aの状態をセットし、任意のアドレスを発生させることができる。さらに、本図には示されていないが、カウンタ 38 aの制御信号 e nを他のエレメント 30から供給されるキャリー信号 c yによりセットしたり、他のエレメント 30に伝達できる。

したがって、この入力書き込みアドレス 65を出力するエレメント（BLA) 30 aは、内部データパス 32 aとしてァドレス発生回路 38を備えたァドレス発生に適した構成であると共に、コンフィグレイシヨン RAM39を通じてプロセッサ 1 1からアドレス発生の処理内容を制御することが可能であり、さらに、他のエレメント 30との関連性も自由にセットすることができる。 BLA32 a に含まれる複数のカウンタ 38 aは、たとえば、 32ビットのカウンタであり、外部メモリ 2からローカルストァバッファである RAM26 a〜26 bへ DMA 転送するためのァドレスを発生する。

図 3の第 3行目に配置されたエレメント 30 bは、入力 RAM 26 a〜26 d の各々より所望のデータをマトリクス部 28へロードする入力読み出しアドレス 6 1を発生するデータパス部 32 bを備えており、第 1のアドレス出力区画に対応する。このデータパス部 32 bは、 LDA (Load Address Generator) と称される。このデータパス部 32 bの構成は、出力されるァドレスが 32ビットではなく 16ビットであることを除き、基本的には上記のァドレス発生用の内部データパス部 32 aの構成と同じである。したがって、データパス部 32 bの基本的構成は図 4に示した通りである。

LDA32 bに含まれるァドレス発生回路 38の一例を図 7に示してある。このアドレス発生回路 38は、 4つの 1 6ビットカウンタ 38 aを備えており、ローカルストァバッファである R A M 26 a〜 26 bからマトリクス部 28へデータを転送するためのアドレスを発生する。また、カウンタ 38 aの制御信号 e nは他のエレメント 30から供給されるキャリー信号 c yによりセットでき、さらに、他のエレメント 30に伝達できるように構成されている。このエレメント 30から出力された入力読み出しァドレス 61により、入力 RAM26 a〜2 6 dよりマトリクス部 28へデータが供給され、マトリクス部 28を構成する他の論理および演算エレメントにより演算処理される。

第 4行目および第 5行目に配列されたエレメント 30 cは、算術演算および論理演算に適したデータパス部（SMA) 32 cを備えている。このデータパス部 32 cは、たとえば、シフト回路、マスク回路、論理演算ユニット ALUおよび ALUで処理する演算をセットするコンフィグレイシヨン RAM 39を備えている。したがって、プロセッサ 1 1が書き込んだ命令により、入力データ d i および d i yを加算あるいは減算したり、比較したり、論理和あるいは論理積を取ったりすることができ、その結果が出力信号 d oとして出力される。

その下の行に配列されたエレメント 30 dは、データが伝送されるタイミングを遅延する処理に適したデータパス部（DEL) 32 dを備えている。このデータパス部 32 dには、たとえば、複数のセレクタとフリップフロップ FFとの組み合わせで構成されたデータパスが用意されており、コンフィグレイシヨン R A M39のデータによりセレクタで選択されたパスを入力信号 d i xおよび d i y が通ることにより、任意のクロック数だけ遅延して出力信号 d o Xおよび d o y として出力される。

その下の行に配列されたエレメント 30 eは、乗算器などを含む乗算処理に適したデータパス部（MUL) 32 eを備えている。さらに異なるエレメント 30 f としては、マトリタス部 28の外部に用意された F PGA 14とのインターフェイス用のデータパス部 32 f を備えたエレメントも用意されており、データをいつたん FPGA14に供給して処理した後、再びマトリクス部 28に戻して処理を継続することができる。

これらのデータ処理区画に相当するエレメントが配列された領域のさらに下方には、ストア用のアドレスを発生するのに適したデータパス部 32 gおよび 32 hをそれぞれ備えたエレメント 30 gおよび 30 hが配置されている。これらのデータパス部 32 gおよび 32 hは、上記にて図 4から図 7を参照しながら説明したァドレスを発生するデータパス部 32 bおよび 32 aと基本的に同一の構成となっている。データパス部 32 gを備えたエレメント 30 gは第 1のアドレス出力区画であり、マトリクス 28から出力されるデータを出力 RAM27 a〜2 7 dに書き込むための出力書き込みアドレス 71を出力する。そして、上述した各種類のエレメント 30 c~30 f により構成されたデータ処理系列から出力されたデータを出力 RAM 27 a〜27 dに書き込む。このデータパス部 32 gは、 STA (Store address Generator) と称され、 LDA32 bと同様の構成となる。このエレメント（STA) 30 gの下方に配置され、データパス部 32 hを備えたエレメント 3 O hは、第 2のアドレス出力区画であり、出力 RAM27 a〜 27 dのデータを読み出して外部 RAM 2に書き込むための出力読み出しァドレス 75を出力し、外部 RAM 2にマトリタス部 28で処理されたデータを書き込む。このデータパス部 32 hは、 B S A (Back Ground Store Address Generato r) と称され、 BLA32 aと同様の構成となる。

そして、最下段には、ストア用にデータを出力するのに適したデータパス部 3 2 sを備えたエレメント 30が配列されている。このデータパス部 32 sは ST と称されており、算術演算用のデータパス部 32 cとほぼ同様の構成のデータパス部を採用できる。さらに、本例においては、この出力用のデータパス部 32 s は、出力 RAM27の調停回路 85からストップ信号 74を受けると、この出力用のエレメント 30に繋がったデータフローの処理を停止する機能を備えている。このように、本例のマトリクス 28は、外部 RAM2から入力 RAM26 a〜 26 dにデータを入力（ブロックロードする）ためのアドレスを発生する内部データパス（BLA) 32 aを備えたエレメント 30 aと、それら入力 RAM2 6 a〜26 dからマトリクス部 28へデータを入力するためのァドレスを発生する内部データパス（LDA) 32 bを備えエレメント 30 bを備えている。さらに、マトリクス部 28から出力 RAM27 a〜27 dへデータを出力するためのアドレスを発生する内部データパス（STA) 32 gを備えたエレメント 30 g と、出力 RAM27 a〜 27 dのデータを外部 RAM 2に出力する（ブロックロードする）ためのアドレスを発生する内部データパス（BSA) 32 hを備えたエレメント 30 hとを備えている。これらのエレメント 30 a、 30 b、 30 gおよび 30 hは、上述したようにいずれもァドレスを発生させるのに適したデータパスを備えていると共に、その構成あるいは機能をコンフィグレイシヨン RAM39のデータを書き換えることにより変更できる。そして、マトリクス部 28の他のエレメント 30との接続環境も配線群 51および 52の接続を変えることにより変更できる。したがって、プロセッサ 1 1、あるいは、マトリクス部 28の他のエレメント 30からァドレス発生のデータを提供したり、アドレスを発生するタイミングをフレキシブルに制御することが可能である。

したがって、様々な条件およびまたは構成で、外部 RAM 2からキャッシュとなる入力 RAM26 a〜26 dに対しデータをロードすることができる。また、その処理とは別に、非同期で、あるいは独立して、異なる条件で入力 RAM26 a〜26 dからマトリクス部 28へデータをロードすることが可能である。そして、エレメント 30 aおよび 30 bが独立しているので、これらの処理を並列に実行することが可能である。したがって、これら複数の入力 RAM26 a〜26 dは、それぞれが独立で入出力可能な格納区画となっている。

さらに、入力 RAM26 a〜26 dは 2バンク構成になっているので、入力 R AM26 a〜26 dに対する入力おょぴ出力も並列に行うことが可能であり、入力 RAM26 a〜26 dに対するデータの入出力が極めて効率良く行える構成となっている。出力 RAM27 a〜27 dも同様であり、それぞれが独立で入出力可能な格納区画となり、さらに、個々の RAM27 a〜27 dに対する入力および出力も独立で並列に行うことが可能である。したがって、このシステムでは、キャッシュとして ¾作する RAM26 a〜26 dおよび 27 a〜27 dに対してデータの入出力を極めて効率良く行うことができる。本例のマトリタス 2 8は、基本的にァドレス発生に適したデータパス部 3 2 a、 3 2 b、 3 2 gおよび 3 2 hをそれぞれ備えたエレメント 3 0 a、 3 0 b、 3 0 gおよび 3 0 hを備えており、それぞれの動作は基本プロセッサ 1 1から指示により決定される。すなわち、制御ユニットである基本プロセッサ 1 1から制御バス 2 8を介して供給される指示により、第 1のメモリである R AM 2 6 a〜2 6 dおよび 2 7 a〜2 7 dへのアクセスする回路が決定され、さらに、主メモリ (第 2のメモリ）となる D R AM 2へのアクセスする回路が決定される。

さらに、それらメモリへのアクセスを制御する回路がマトリクス内に構成されるので、それらの回路の動作に、マトリクス 2 8の内部における条件、たとえば、データフローの構成あるいは処理結果さらには、マトリクス 2 8の他のエレメントを用いた処理の結果が直接あるいは間接的に反映することは極めて容易である。アドレスを発生させるのに適したエレメント 3 0 a、 3 0 b、 3 O gおよび 3 0 hは他のエレメントと同様に、配線 5 1および 5 2により、マトリクス部 2 8の他のエレメントに対して自由に配線できる。このため、マトリクス部 2 8の中でデータ処理区画となる他のエレメントにより構成されるデータフローあるいはデータ処理区画で実行するソフトウェアにより、エレメント 3 0 a、 3 0 b、 3 0 gおよび 3 0 hのパラメータあるいは処理内容を変えることにより出力を制御できる。さらには、エレメント 3 0 a、 3 0 b、 3 0 gおよび 3 0 hと他のエレメントでデータフローを構成することにより、他のエレメントの機能をァドレス発生用に利用することも可能である。したがって、キャッシュシステムを構成する第 1のメモリである R AM 2 6 a〜2 6 dおよび 2 7 a〜2 7 dへのアクセス方法、さらに、主メモリ (第 2のメモリ）となる D R AM 2へのアクセス方法をマトリクス 2 8の内部における条件、たとえば、データフローの構成あるいは処理結果によりフレキシブルに決定できる。

さらに、マトリクス部 2 8は基本プロセッサ 1 1からの制御により再構成可能な構成なので、これらアドレスを発生するエレメント 3 0 a、 3 0 b、 3 0 gおよび 3 0 hの内部のデータパスおよび機能を動的に再構成することが可能であり、外部の他のエレメントとの接続も動的に再構成することができる。もちろん、マトリタス部 2 8の内部にエレメント内およびエレメント間の接続を再構成できる機能を持ち込むことも可能である。したがって、マトリクス部 2 8で実行する処理内容によってマトリクス部 2 8の他のェレメント 3 0の接続を変更してデータフローあるいはデータパス構造を再構成する際に、入力 R AMからなるバッファ

2 6および出力 R AMからなるバッファ 2 7にデータを入出力する構成も変更することが可能である。

このため、マトリクス部 2 8で実行する処理に最も適した構成でデータを入力バッファ 2 6および出力バッファ 2 7に入出力するように構成することが可能であり、キャッシュとしてのヒット率を高めたり、キャッシュの書き換えの回数を削減したりすることが可能となる。また、アドレスを発生するエレメント 3 0 a、 3 0 b、 3 0 gおよび 3 0 hの内部およびこれに関連するデータパス構造を、ェレメント毎に再構成することも可能であり、それぞれの R AM 2 6 a〜2 6 dおよび 2 7 a〜2 7 dの単位でキャッシュシステムを再構成することも可能である。このため、フレキシビリティーは非常に高い。したがって、マトリクス部 2 8に他のエレメント 3 0によりデータ処理系列が構成される前に、そのデータ処理系列に適したデータ入力構造を実現して、データのロードを先行して開始したり、データ処理系列が他の処理のために再構成された後もデータ出力構造を維持してデータの出力だけを継続するなどの従来では考えられなかった処理も極めてフレキシブルに実行できる。すなわち、第 1のメモリである R AM 2 6および 2 7、さらには第 2のメモリである D R AM 2に対する処理を、他のエレメントあるレヽはデータフローに従属した状態でも、独立した状態でも自由に実行することができる。もちろん、アドレスを発生するエレメント 3 0 a、 3 0 b、 3 0 gおよび

3 0 hを関連して動作させることも可能であり、複数のエレメント 3 0 aあるいは 3 0 bを関連して動作させ、複数の R AM 2 6を 1つの大容量のキヤッシュとしてマトリクス部に利用させることも可能である。

また、エレメント 3 0 aは、入力 R AM 2 6 aがエンプティーになると入力書き込みァドレス 6 5を出力して R AM 2からデータを書き込む処理を行い、エレメント 3 O bは、入力 R AM 2 6 aにデータがあると、そのデータをマトリクス部 2 8にロードする処理を行うことも可能である。これにより、エレメント 3 0 aおよび 3 0 bを独立に並列に動かすことが可能であり、データ処理系列の処理時間を浪費することなく外部 RAM2のデータを入力 RAM 26 aにプリフェツチすることができる。また、エレメント 30 aが外部 RAM 2からデータを入力するァドレスを制御すれば、エレメント 30 bおよびマトリクス部 28に構成されるデータ処理系列においては、内部 RAM26 aのァドレスだけで処理を進めることも可能である。さらに、マトリクス部 28の他の複数のエレメント 30によりデータフロータイプの処理系が定義されているようであれば、了ドレスを除いたデータだけでマトリクス部 28ではデータ処理を進めることも可能である。マトリクス部 28のデータ処理系列からは仮想ァドレスが出力され、それをェレメント 30 bで入力 RAM 26 aの物理ァドレスに変換してデータを供給し、入力 RAM 26 にデータがない場合はエレメント 30 aで外部 RAM 2の物理ァドレスに変換して外部 RAM 2からロードする構成にすることも可能である。

.また、エレメント（BLA) 30 a力入力 RAM 26 bから入力されたデータによりァドレスを発生し、それにより外部 RAM2から入力 RAM26 aにデータをロードするように構成することも可能である。したがって、マトリクス部 28に構成されるデータ処理系列とは独立して、入力 RAM26あるいは出力 RAM27に対する入出力を処理する機構だけで、完全な間接アドレッシングの制御を行うことができる。さらに、複数の入力 RAM26 a〜26 d、出力 RA M27 a〜27 dさらにはアクセス調停ュニット 25を連動させることにより複数の階層構造を備えたキヤッシュ構造を実現することも可能である。

また、本例の AAP20では、エレメント 30を 4列に並べているのに対応させて 4つの入力 RAM26 a〜26 dおよび出力 RAM27 a〜27 dを用意している。したがって、これらの入力 RAM26 a〜26 dおよび出力 RAM27 a ~27 dをマトリクス部 28に、他のエレメント 30により構成される複数のデータ処理系列に個別に対応したキャッシュメモリとして利用することができる。このため、マトリクス部 28で複数のジョブあるいはアプリケーションが実行されている場合に、それらのジョブあるいはアプリケーションにそれぞれ最適なキャッシュとして各入力 RAM 26 a〜26 dおよび出力 RAM 27 a〜27 d を利用できる。エレメント 30は 4列に酉 S列しているが、エレメント 30により構成されるデータ処理系列は 4列に限定されることはない。マトリクス部 28に構成されるデータ処理系列が 3列以下であれば、入力 RAM26 a〜26 dおよび出力 RAM 27 a〜27 dのうちの複数の R AMを 1つのデータ処理系列に割り当てることにより、キャッシュメモリの容量を増やすことができる。データ処理系列が 5列以上であれば、キャッシュメモリとして 1つの RAMを複数のデータ処理系列に割り当てることになるが、最悪でも、 RAMを共用するデータ処理系列で、現状の C P Uコアでマルチタスクのキャッシュ処理が行われてレ、るのと同様の状況が発生するだけである。

図 8に概要を示すように、本発明の集積回路装置または処理装置であるシステム LS I 10は、処理ュニットであるマトリタス部と小容量の RAMとを備えた構造あるいはアセンブリ 29を備えており、マトリクス部から外部の RAM2に出力されるアドレスは調停回路 25を経て外部の RAM 2に供給される。そして、小容量の RAMの入出力を制御するァドレス発生機構はデータフローを再構成可能なマトリクス部で実現されているので、キャッシュメモリとして機能する小容量の RAMを制御するアーキテクチャも再構成可能であり、マトリクス部で実行されるソフトウェアに最適な構成に変更することができる。したがって、本発明の集積回路装置あるいは処理装置となるシステム L S I 10では、実行されるソフトウエアの処理内容やハードウエア環境に応じて、小容量の RAMをキヤッシュメモリとして最も効率良く利用することができる。そして、種々のソフトウェアを実行する際に、高いヒット率が得られるようにキャッシュメモリおよびそれを制御する回路を構成でき、キャッシュメモリの入出力がソフトウェアを実行する際のオーバへッドとならないシステム L S Iあるいは AS I Cといった集積回路装置あるいは処理装置を提供することができる。

また、システム LS I 10で制御可能な外部メモリ、すなわち、第 2のメモリは RAMに限定されるものではない。入力 RAMあるいは出力 RAMに対して外部メモリとなるものは、 RAMや ROM、さらにはハードディスク装置のような記録装置に限定されることはなく、了ドレスを指定することによりデータを入出力可能なデバイスは全て含まれる。たとえば、図 9に示したように、 LS I 10 が大容量 R AM 2とプリンタゃディスプレイなどの周辺デバィス 3を外部メモリとして制御する場合は、マトリクス部 28のプロックロードするエレメント B L A 3 0 aおよび B S A 3 0 hにおいて、周辺デバイス 3に割り当てられた物理ァドレスを発生すれば良い。

また、図 1 0に示したように、 L S I 1 0が複数のバスコントローラを経て複数の大容量 R AM 2および周辺デバイス 3を制御する場合は、調停回路 2 5を多重化するなどの変形も可能である。さらに、大容量 R AM 2を L I S 1 0の内部に搭載することも可能であり、その大容量 R AM 2を周辺デバィス 3に対するキャッシュメモリとして利用するような構成も可能である。また、大容量 R AM 2をプロセッサ部 1 1のコード R AMとして利用することも可能である。

また、上述したマトリクス部 2 8の構成は例示であり、これに限定されるものではない。演算を行う特定の内部データパス 3 2を上述したエレメントはァドレス発生、算術演算、論理演算、乗算、遅延などの特定の処理に適したデータパスを備えているものの例であり、データパスの機能や、構成は本例に限定されるものではない。本発明の集積回路装置またはデータ処理装置である L S I 1 0で実行されるアプリケーションに適した機能のデータパスを備えたエレメントをマトリクスあるいはアレイ状に酉己置することにより、データフローを変更あるいは再構成できる処理ユニットを提供することができる。また、マトリクス部 2 8は複数であっても良く、複数のマトリクス部を平面的に配置したり、立体的に配置することにより、さらに多数のエレメントを備えた集積回路装置を構築することが可能である。また、本発明の集積回路装置は、電子回路に限定されることはなく、光回路あるいは光電子回路にも適用できるものである。

さらに、上記では、 AA P 2 0、基本プロセッサ 1 1およびバス制御ユニット 1 5を組み込んでシステム L S I 1 0として提供する例により本発明を説明しているが、どの範囲を 1つのチップとして提供するか実装するアプリケーションなどの条件により異なる。 AA P 2 0を 1つのチップとして提供することも可能であるし、キャッシュとなる R AM 2 6および 2 7とマトリクス部 2 8を含めた範囲 2 9をチップ化することも可能である。さらには、基本プロセッサ 1 5に加えて複数の AA Pあるいは他の専用回路などを含めていっそう大きなシステム L S Iあるいは A S I Cとして提供することも可能である。

また、図 1 1に示すように、 F P G Aをマトリクス部 2 8に代わる処理ュニットとし、本発明のデータ処理区画に加え、入力 R AM 2 6および出力 R AM 2 7 をキャッシュとして機能させる本発明の第 1および第 2のァドレス出力区画をプログラミングあるいはマッビングすることにより、本発明の集積回路装置または処理装置を実現することも可能である。 F P G Aは、トランジスタレベルで汎用性を備えたデータパス構造を変更可能なアーキテクチャである。さらに、トランジスタレベルではないが、単一的な構成要素を備え、命令セットにより種々の処理を行う中規模な単一構成の基本機能ュニットを用いてデータパス構造またはデータフローを変更可能とした集積回路装置も検討されている。そのようなァーキテクチャで構成された処理ユニットに対しても、データ処理区画に加え、入力 R AM 2 6および出力 R AM 2 7をキャッシュとして機能させる本発明の第 1および第 2のァドレス出力区画を構成する、あるいは構成するように指示することにより、本発明の集積回路装置または処理装置を実現できる。

しかしながら、これらの単一構成の基本ュニットを並べたアーキテクチャと異なり、上述したマトリクス部に基づくアーキテクチャは、複数種類の内部データパスの異なるエレメントを備えたものである。したがって、トランジスタレべノレの汎用性を要求するアーキテクチャではないので、実装密度も向上でき、コンパタトで経済的なシステムを提供できる。そして、各々のエレメント 3 0が特定のデータ処理に特化したデータパス部 3 2を備えているので、冗長な構成を極力削減することができ、 F P G Aや他の単一構成の基本機能ユニットを並べた処理ュニットに比べて大幅に処理速度を高速化でき、 A C特性も向上できる。また、スペース効率も高くなるので、コンパクトなレイアウトを採用し、配線長も短くできる。したがって、本発明で開示している効率の良いキャッシュ構造を、確実に活かせる集積回路装置および処理装置には最適であり、高速処理が可能な処理装置を低コストで提供できる。

さらに、トランジスタレベ^^で回路をマッピングする F P G Aと異なり、予め特定の処理に適したデータパス部 3 2を備えたエレメント 3 0の組み合わせを変えるので、短時間、ほとんど 1クロックでデータ処理ユニット、すなわちマトリタス部 2 8に構成されるデータ処理系列の構成や機能を変更することができるというメリットもある。さらに、各々のエレメント 3 0では、データパス部 3. 2 を構成するセレクタや A L Uなどの論理ゲートの機能もコンブイグレイシヨンメモリ 3 9を介してプロセッサ 1 1によって独立してセットすることが可能であり、各エレメント 3 0のデータパス部 3 2がサービスする機能の範囲内でフレキシブルに変更することができる。このため、本例のマトリクス部 2 8でデータフロー型のデータ処理で実行可能な機能の範囲は非常に広い。また、ネットワーク処理や、画像処理などの L S I 1 0が用いられるアプリケーションに適した種類の演算ユニット 3 0を選択し、酉己列することが可能であり、さらに実装効率が良く、実行速度の速い集積回路装置を提供することが可能である。

以上に説明したように、本発明は、キャッシュメモリとして使用できる第 1のメモリを制御する第 1のァドレス出力区画および第 2のァドレス出力区画とデータフローを変更可能な処理ユニットに形成している。このため、キャッシュシステムの構成を、データ処理区画の構成と、そこで実行されるソフトウェアに最適な構成に動的に変更でき、種々のソフトウェアを実行する際に、高いヒット率が得られるキャッシュシステムを構成できる。したがって、様々なソフトウェアあるいはアプリケーションをさらに短い処理時間で実行することができる集積回路装置を提供できる。産業上の利用可能性

本発明の処理ュニットおよび集積回路装置は、様々なデータ処理を実行可能なシステム L S Iあるいは A S I Cなどとして提供することが可能である。また、本発明の処理ュニットおよび集積回路装置は、電子回路に限定されることはなく、光回路あるいは光電子回路にも適用できるものである。本発明の集積回路装置は、再構成可能なハードウェアによりデータ処理を高速に実行できるので、ネットワーク処理や、画像処理などの高速性およびリアルタイム性が要求されるデータ処理装置に好適なものである。

Claims

請求の範囲

1 . 第 2のメモリとの間でデータを入力および Zまたは出力可能な第 1のメモリと、

少なくとも 1つのデータフローが形成され、その少なくとも 1つのデータフ口一の少なくとも 1部を変更可能な処理ユエットとを有し、

この処理ュ-ットは、前記第 1のメモリとの間で入力および/または出力されるデータを処理するデータ処理区画と、

前記第 1のメモリと前記データ処理区画との間で入力および/または出力されるデータの第 1のァドレスを出力する第 1のァドレス出力区画と、

前記第 2のメモリと前記第 1のメモリとの間で入力および Zまたは出力されるデータの第 2のァドレスを出力する第 2のァドレス出力区画と、を備えている集

2 . 前記第 1のアドレスは前記第 1のメモリのアドレスであり、前記第 2のァドレスは前記第 2のメモリのァドレスである、請求項 1の集積回路装置。

3 . 前記第 2のアドレス出力区画は、前記データ処理区画および Zまたは前記第 1のアドレス出力区画とは独立して動作可能である、請求項 1の集積回路装置。

4 . 前記第 1のメモリは独立に入出力可能な複数の格納区画を備えている、請求項 1の集積回路装置。

5 . 前記第 1のメモリは、前記データ処理区画に入力されるデータを格納する第 1の入力メモリと、前記データ処理区画から出力されたデータを格納する第 1 の出力メモリとを備えている、請求項 1の集積回路装置。

6 . 前記第 1のメモリと前記データ処理区画との間の入力および/または出力を管理する第 1の調停ュニットを有する、請求項 1の集積回路装置。

7 . 前記第 1の調停ュニットは、前記データ処理区画との間の入力または出力の条件を満たさない場合にストップ信号を前記データ処理区画に出力する機能を備えている、請求項 6の集積回路装置。

8 . 前記データ処理区画は、前記ストップ信号により、当該データ処理区画に形成された少なくとも 1つのデータフローの処理を停止する機能を備えている、請求項 7の集積回路装置。

9 . 前記第 1のメモリは、前記データ処理区画に入力されるデータを格納する第 1の入力メモリと、前記データ処理区画から出力されたデータを格納する第 1 の出力メモリとを備えており、

前記第 1の調停ュニットは、前記第 1の入力メモリから前記データ処理区画へのデータの転送を管理する第 1の入力調停ュニットと、前記データ処理区画から前記第 1の出力メモリへのデータの転送を管理する第 1の出力調停ュニットとを備えている、請求項 6の集積回路装置。

1 0 . 前記第 1のメモリは独立に入出力可能な複数の格納区画を備えており、前記第 1の調停ュニットは、前記複数の格納区画のそれぞれを独立して管理する機能を備えている、請求項 6の集積回路装置。

1 1 . 前記第 1のメモリ〖ま独立に入出力可能な複数の格納区画を備えており、前記第 1の調停ュニットは、前記複数の格納区画を関連付けして管理する機能を備えている、請求項 6の集積回路装置。

1 2 . 前記データ処理区画には複数のデータフローを構成可能であり、さらに複数の前記第 1のメモリを有し、

前記処理ュニットには、各々の前記第 1のメモリに対応する前記第 1および第 2のァドレス出力区画が形成される、請求項 1の集積回路装置。

1 3 . 前記第 2のメモリと前記複数の第 1のメモリとの間の入出力を管理する第 2の調停ユエットを有し、前記第 2のァドレスは前記第 2の調停ュニットに供給される、請求項 1 2の集積回路装置。

1 4. 前記処理ュニットは、機能を変更可能な複数の単一種類の論理要素と、これらの論理要素を接続する配線群とを備えている、請求項 1の集積回路装置。

1 5 . 前記処理ユニットは、それぞれ異なる特定の処理に適した内部データパスを備えた複数種類の専用処理要素と、これらの専用処理要素を接続する配線群とを備えている、請求項 1の集積回路装置。

1 6 . 前記処理ュニットは、了ドレスを出力するのに適した前記内部データパスを備えた前記専用処理要素を備えている、請求項 1 5の集積回路装置。

1 7 . 前記専用処理要素は、前記内部データパスの一部を選択する手段と、前記内部データパスの選択を記憶するコンフィグレイションメモリとを備えている、請求項 1 5の集積回路装置。

1 8 . 前記コンフィグレイシヨンメモリの内容を書き換える制御ユニットを有する、請求項 1 7の集積回路装置。

1 9 . 前記処理ュニットのデータフ口一の少なくとも 1部の変更を指示する制御ユニットを有する、請求項 1の集積回路装置。

2 0 . 前記制御ュニットは、前記データ処理区画、第 1のアドレス出力区画、または前記第 2のアドレス出力区画のデータフ口一の変更を独立に指示可能である、請求項 1 9の集積回路装置。

2 1 . 前記制御ュニットを制御するプロダラムコードを記憶するコードメモリを有する、請求項 1 9の集積回路装置。

2 2 . 前記第 2のメモリを有し、この第 2のメモリは、第 3のメモリとの間でデータを入力および/または出力可能であり、

前記第 3のメモリと前記第 2のメモリとの間で入力および/または出力されるデータの第 3のァドレスを出力する第 3のァドレス出力手段を有する、請求項 1

2 3 . 第 2のメモリとの間でデータを入力および/または出力可能な第 1のメモリと、

この第 1のメモリとの間で入力および Zまたは出力されるデータを処理する少なくとも 1つのデータフローが形成される処理ュニットと、

前記第 1のメモリと前記処理ュニットとの間の入力および/または出力を管理する第 1の調停ュニットを有し、

前記第 1の調停ユエットは、前記データ処理区画との間の入力または出力の条件を満たさない場合にストップ信号を前記データ処理区画に出力する機能を備え、前記処理ュニットは、前記ストップ信号により、前記少なくとも 1つのデータフローの処理を停止する機能を備えている、集積回路装置。

2 4 . 前記処理ユエットは、前記少なくとも 1つのデ一タフローの少なくとも 1部を変更可能である、請求項 2 3の集積回路装置。

2 5 . 前記第 1のメモリは、前記処理ュニットに入力されるデータを格納する第 1の入力メモリと、前記処理ュニットから出力されたデータを格納する第 1の出力メモリとを備えており、

前記第 1の調停ュニットは、前記第 1の入力メモリから前記処理ュ-ットへのデータの転送を管理する第 1の入力調停ュニットと、前記処理ュニットから前記第 1の出力メモリへのデータの転送を管理する第 1の出力調停ユエットとを備えている、請求項 2 3の集積回路装置。

2 6 . 前記第 1のメモリは独立に入出力可能な複数の格納区画を備えており、前記第 1の調停ュニットは、前記複数の格納区画のそれぞれを独立して管理する機能を備えている、請求項 2 3の集積回路装置。

2 7 . 前記第 1のメモリは独立に入出力可能な複数の格納区画を備えており、前記第 1の調停ュニットは、前記複数の格納区画を関連付けして管理する機能を備えている、請求項 2 3の集積回路装置。

2 8 . 少なくとも 1つのデータフローが开成され、その少なくとも 1つのデータフ口一の少なくとも 1部を変更可能な処理ュニットであって、

第 2のメモリとの間でデータを入力および/または出力可能な第 1のメモリとの間で入力および/または出力されるデータを処理するデータ処理区画と、前記第 1のメモリと前記データ処理区画との間で入力および/または出力されるデータの第 1のァドレスを出力する第 1のァドレス出力区画と、

前記第 2のメモリと前記第 1のメモリとの間で入力および Zまたは出力されるデータの第 2のァドレスを出力する第 2のァドレス出力区画と、を有する処理ュニット。

2 9 . 前記第 2のアドレス出力区画は、前記データ処理区画および/または前記第 1のアドレス出力区画とは独立して動作可能である、請求項 2 8の処理ュニット。

3 0. 前記データ処理区画には複数のデータフ口一を構成可能であり、さらに複数の前記第 1のメモリの各々に対応する前記第 1および第 2のアドレス出力区画を備えている、請求項 2 8の処理ュニット。

3 1 . それぞれ異なる特定の処理に適した内部データパスを備えた複数種類の専用処理要素と、これらの専用処理要素を接続する配線群とを有する、請求項 2 8の処理ユエット。

3 2 . アドレスを出力するのに適した前記内部データパスを備えた前記専用処理要素を有する、請求項 3 1の処理ユニット。

3 3 . 請求項 3 1に記載の処理ュニットと、

前記第 1のメモリとを有する処理装置。

3 4 . 前記処理ュュットのデータフ口一の少なくとも 1部の変更を指示する制御ュニットをさらに有する、請求項 3 3の処理装置。

3 5 . 第 2のメモリとの間でデータを入力および Zまたは出力可能な第 1のメモリと、少なくとも 1つのデータフ口一が形成され、その少なくとも 1つのデータフローの少なくとも i部を変更可能な処理ユエットとを有する集積回路装置の制御方法であって、

前記処理ュニットに対し、前記第 1のメモリとの間で入力および Zまたは出力されるデータを処理するデータ処理区画と、前記第 1のメモリと前記データ処理区画との間で入力および/または出力されるデータの第 1のアドレスを出力する第 1のアドレス出力区画と、前記第 2のメモリと前記第 1のメモリとの間で入力および Zまたは出力されるデータの第 2のァドレスを出力する第 2のァドレス出力区画とを構成するように指示する工程を有する集積回路装置の制御方法。

3 6 . 前記指示する工程は、前記データ処理区画、前記第 1のァドレス出力区画、または、第 2のアドレス出力区画のデータフローの変更を独立して指示する工程を備えている、請求項 3 5の制御方法。

3 7 . 前記指示する工程では、第 2のアドレス出力区画が、前記データ処理区画および/または前記第 1のァドレス出力区画とは独立して動作するように指示する、請求項 3 5の制御方法。

3 8 . 前記データ処理区画には複数のデータフローを構成可能であり、さらに前記指示する工程では、複数の前記第 1のメモリの各々に対応する前記第 1および第 2のァドレス出力区画を形成するように指示する、請求項 3 5の制御方法。

3 9 . 前記データ処理区画に少なくとも 1つのデータフローを形成し、前記第 1のメモリと入力および Zまたは出力するデータに関連する処理を実行する工程を有し、この実行する工程では、前記第 1のメモリと前記データ処理区画との間の入力および Zまたは出力を管理する第 1の調停ュニットが入力または出力の条件を満たさない場合に出力するストップ信号により、当該データ区画に形成された少なくとも 1つのデータフ口一の処理を停止する、請求項 3 5の制御方法。

4 0 . 第 2のメモリとの間でデータを入力および/または出力可能な第 1のメモリと、この第 1のメモリとの間で入力および /または出力されるデータを処理する少なくとも 1つのデータフローが形成される処理ユエットとを有する集積回路装置の制御方法であつて、

前記第 1のメモリと入力および Zまたは出力するデータに関連する処理を実行する工程を有し、この実行する工程では、前記第 1のメモリと前記処理ユニットとの間の入力および Zまたは出力を管理する第 1の調停ュニットが入力または出力の条件を満たさない場合に出力するストップ信号により、前記少なくとも 1つのデータフ口一の処理を停止する、集積回路装置の制御方法。