WO2001016711A1

WO2001016711A1 - Progiciel et processeur de donnees

Info

Publication number: WO2001016711A1
Application number: PCT/JP2000/005849
Authority: WO
Inventors: Tomoyoshi Sato
Original assignee: Ip Flex Inc.
Priority date: 1999-08-30
Filing date: 2000-08-30
Publication date: 2001-03-08
Also published as: KR20010080367A; JP4234925B2; BR0013594A; EP1215569A4; EP1215569A1; IL142676A0; AU6864400A; NZ516680A; TW504608B; CN1301459C; CN1145879C; EA004071B1; IL142675A0; EA200200310A1; ATE466330T1; BR0013595A; JP3842129B2; US6904514B1; IL142676A; WO2001016717A1

Description

明細書プログラム製品およびデータ処理装置技術分野

本発明は、マイクロコードなどにより記述されたプログラム製品、およびそのプログラムを実行可能なデータ処理装置に関するものである。背景技術

汎用的な処理および専用的なデジタルデータの処理を行う装置として、マイクロプロセッサー（ M P U ) 、デジタル ' シグナルプロセッサ一（D S P ) といった演算機能を内蔵したプロセッサ（デ一タ処理装置あるいは L S I ) が知られている。これらの性能向上に大きく貢献したアーキテクチャ要素として、パイプライン化技術、スーパー . パイプライン化技術、スーパ— ' スケーラ化技術、 V L

I W技術、特化型データパス（専用命令）を挙げることができる。さらに、分岐予測やレジスタバンク、キャッシュ技術等も挙げることができる。

V L I W技術は、予めデータパスを並列実行可能なように構成しておき、コンパイラがこの並列実行を高めるように、最適化を行い目的の V L I W命令コードを生成するという考え方であり、極めて合理的な考え方を採用している。これにより、スーパ一 ' スケ一ラのように 1つ 1つの命令の並列実行の可能性をチェックする回路が不要なので、並列実行を行うハードウユアの実装手段としては、極めて有望とされているものである。しかしながら、画像処理や特殊データ処理を必要とするアプリケーションの処理を用途とするプロセッサを考えると、 V L I Wも最適な解決策とはならない。特に演算結果の連続処理を要求されるような用途では、汎用レジスタにデータを抱えながらの演算やデータ処理には限界があるからである。これは従来のパイプライン技術でも同様である。

一方、各種のマトリツクス計算やべクトル計算等は、専用回路によりこれを実現した方が高い性能を得られることは過去の経験から良く知られている。このため、現在、世界最高性能を目指す最先端の実装技術では、 V L I Wをベースにアプリケーションの目的に応じて、各種の専用演算回路を実装して、最高性能を目指すという考え方が主流になりつつある。

しかしながら、 V L I Wは、プログラムカウンタ近傍の並列処理実行効率を改善する技術であり、例えば 2つ以上のオブジェクトを同時に実行したり、 2つ以上の関数を実行するにはあまり有効な手段とはならない。また、各種の専用演算回路を実装することはハードウエアが増加することとなり、その一方で、ソフトウェアのフレキシピリティ一が低下することを意味する。

F P G A ( Field Programmable Gate Arrays) のようにトランジスタ間の接続を変更可能なアーキテクチャは、ある程度動的に制御できるものであり、各種の専用演算回路を実現することも可能である。しかしながら、 F P G A自体は、ハードウェアをダイナミックに変更するには時間がかかり、また、その時間を短縮するためのハ一ドウエアが必要となる。このため、アプリケーションの実行中にハードウェアを動的に制御することは難しく、さらに、経済的な解であるとも言えない。すなわち、 F P G Aの再構成情報を二面以上の R A Mに保持し、バックグラウンドで実行する事により、見かけ上短い時間で動的なアーキテクチャ変更を行う方式も可能である力もし、数クロック以内にこの再構成を行う事を可能とするためには、考えられる組み合わせの数の再構成情報を全て格納する R A Mを実装する必要があり、これは、本質的に F P G Aの再構成時間が大きく掛かるという経済的な問題を一切解決していない。また、 F P G Aが、本来ハードウエアのゲートに注目したマツビングを効率良く実現しょうとするために抱えている問題、即ち実用上の A C特性の悪さをについては、当面解決出来そうも無い。

そこで、本発明においては、複雑なデータ処理に対し、それらのデータ処理に特化した多種多様な専用回路を用いなくても、それぞれのデータ処理をフレキシブルに、そして高速に実行可能なシステム、すなわち、プログラム製品と、それを実行可能なデータ処理装置およびその制御方法を提供することを目的としている。さらに、アプリケ一ションの実行中でもハードウエアを動的に制御することを可能とし、ソフトウエアレベルのフレキシビリティーをハードウェアレベルで実現し、様々なデータ処理を高速で実行可能であり、さらに経済的なデータ処理装置およびその制御方法、さらにはプログラム製品を提供することを目的としている。発明の開示

このため、本発明においては、複数の処理ユニットを有するデ一タ処理装置を制御するプログラム製品として、少なくとも 1つの処理ュニッ卜の入力およびノまたは出力インタフェースを、処理ュニットにより処理を実行する時期とは独立して指示し、処理ュニットにより構成されるデータパスを定義するデータフロー指定命令を有するプログラム製品あるいはプログラム装置を提供する。このプログラムは、データ処理装置が読み取り可能な R O Mあるいは R A Mなどの記録媒体に記録して提供でき、また、コンピュータネットワークあるいはその他の通信を介して伝送可能な伝送媒体に埋め込んで提供することも可能である。

そして、本発明のプログラム製品により、入力およびノまたは出力インタフェースを変更可能な複数の処理ュニッ卜と、少なくとも 1つの処理ユニットの入力および Zまたは出力インタフェースを、処理ュニットにより処理を実行する時期とは独立して、別に指示するデータフ口一指定命令をフェツチ可能なュニットと、データフ口一指定命令をデコードし、処理ュニットの入力および zまたは出力インタフェースを設定し、複数の処理ュニットによるデータパスを構成可能なデータフロー指定ュニットとを有する、本発明のデータ処理装置を制御することが可能となる。このため、複数の処理ュニットの組み合わせからなるデータパスをプロダラムで変更し、様々なデータ処理を、その処理に適したハードウェア、すなわち、データパスあるいはデータフローで実行することができる。

また、入力および Zまたは出カインタフエースを変更可能な複数の処理ユニットを有する本発明のデータ処理装置の制御方法においては、少なくとも 1つの処理ュニットの入力およびノまたは出カインタフェースを、処理ュニットにより処理を実行する時期とは独立して指示するデータフロー指定命令をフユツチする工程と、データフ口一指定命令をデコードし、処理ュニットの入力および Zまたは出力インタフェースを設定し、複数の処理ュニットによるデータパスを構成するデータフロー指定工程とを有する。

従来は、複雑なデータ処理は、専用回路を用意し、その専用回路を用いる専用命令化するしか対応方法が無くハードウェアコストが増大する。これに対し、本発明のシステム、すなわち、プログラム製品、データ処理装置およびその制御方法においては、論理演算ュニットなどの処理ユニットのインタフェースを記述できるので、ノィプライン制御やデータパス制御の構造を命令セット、すなわちプァログラム製品の中に取り込むことが可能となる。したがって、様々なデータ処理を、プログラムで記述し、それに適したハードウェアで実行することが可能となり、ソフトウエアのフレキシビリティーと専用回路を用いた高速性を兼ね備えたデータ処理装置を提供することができる。さらに、これらのデータパスは主要な処理あるいは汎用的な処理の実行を中止させないで実現することが可能であり、アプリケーションの実行中に動的にハードウエアを変更することが容易に実現できる ₌ さらに、本発明は、プログラムカンタの近傍の並列処理を実行だけでなく、 2つ以上オブジェク卜の同時擬似実行や 2つ以上の関数の同時擬似実行に有効な手段を提供することになる。つまり、従来の命令セットでは、 2つ以上のコンテキス卜の異なるデータ処理やアルゴリズム実行等の、それぞれ離れたプログラムカウンタに基づく処理が同時に起動ができなかったのに対し、本発明においてはデ一タフ口一指定命令を用いてデータフローを適当に定義することにより、プログラムカウンタにかかわらずに処理を実行することが可能となる。

したがって、本命令セットを用いると、並列処理に対して、予めアプリケ一ション側から見て性能向上に有効と思われるデータパスをソフトウエアから組み込むことが可能であり、それにより実現されたデータパス（データフロー）を必要に応じて、さらにソフトウェアから命令レベルで起動することができる。このデータパスは、特定の目的に対応したデータ処理だけでなく、一般のステートマシンを起動するような目的にも使用可能なので、極めて自由度が高レ、。そして、本発明においては、データフロー指定命令により処理ュニッ卜のインタフヱ一スを指示することにより、処理ュニッ卜の組み合わせによるデータパスを変更できるようにしている。このため、 F P G Aのようにトランジスタ間の接続を変更するアーキテクチャと異なり、適当な、あるいは特定のデータ処理機能を備えた処理ュニット間のインタフェースを切り替えるだけデータパスを定義できるので、短時間でハ一ドウエアを再構成することができる。さらに、本発明のデータ処理装置は、 F P G Aのようにトランジスタレベルでの汎用性を要求するアーキテクチャではないので、実装密度も向上でき、コンパク卜で経済的なシステム L S I などのデータ処理装置を提供できる。さらに、冗長な構成を削減することができるので、処理速度も高速化でき、 A C特性も向上する。

このように、本発明のプログラム、データ処理装置およびその制御方法においては、データ処理装置に含まれる少なくとも 1つの処理ュニッ卜のインタフヱ一スを規定する命令を記載あるいは記述することにより、データフロー指定を行うことが可能となる。これにより、データパスの独立性を高めることが可能となり結果的にデータフ口一指定を別命令プログラムを実行しながら行ったり、アイドル状態にあるデータ処理装置の内部のデータパスを、外部の他のデータ処理装置あるいは同一チップ内の他のデータ処理系統において実行されている緊急度の高い処理のために貸し出すことも許すような構造を容易に提供することが可能となる。

さらに、データフロー指定命令によりデータパスを組み合わせて構成可能な処理ユニットの処理内容を変更できることが望ましい。すなわち、データフロー指定ュニットおよびデータフロー指定工程においては、データフロー指定命令により、処理ュニットの処理内容を変更可能であることが望ましい。これにより、処理ユニットを組み合わせて構成するデータパスのフレキシビリティーを向上でき、より多くのデータ処理を少ないハ一ドウエア資源でデータフロー型の処理に持ち込み、高性能化することができる。

個々の処理ュニットに F P G Aのアーキテクチャを採用することが可能である。しかしながら、ハードウェアをダイナミックに変更するには時間がかかり、また、その時間を短縮するためのハードウェアが必要となることは上述した通りである。このため、アプリケーションの実行中に処理ュニット内部のハードウェアを動的に制御することは難しい。すなわち、仮に、複数の R A Mをバンク構成にして、瞬時に切り換える方式にしたとしても、数クロック〜数十クロック単位での切り換えを実現する為には、相当数のバンク構成が必要となり、基本的に F P G A内部のマクロセル一つ一つが独立してプログラム構成可能な構造にすると同時に、この切り換えタイミングを検出し、プログラムによる制御機構を持たせる必要がある。しかし、このような構成に対応するには現状の F P G Aでは不十分であり、さらに、適当なタイミングで切替を指示するために新しい命令制御機構が必要となる。

このため、本発明においては、処理ユニットとして、特定の内部データパスを備えた回路ュニットを採用することが望ましい。すなわち、ある程度コンパクトなデータパスを備えた処理ユニットをテンプレート的に用意しておき、そのデータパス間の組み合わせを指示してデータフロー型の処理に持ち込むと共に、データフロー指定命令により、処理ュニットの内部データパスの一部を選択して処理ュニッ卜の処理内容を変更することにより、さらにフレキシブルに、そして短時間にハードウェアを再構成できる。

たとえば、処理ユニットに、少なくとも 1つの論理ゲートと、この論理ゲ一トと入出力インタフェースを接続する内部データパスとを設けておくことにより、入出力されるデータの順番を変えたり、論理ゲート間の接続あるいは選択を変えることにより処理ュニットの処理内容を変更できる。そして、トランジスタレベルで回路を再構成する F P G Aに比較すると、予め用意された内部データパスの一部を選択するだけで良いので、短時間で処理内容を変更できる。さらに、予め用意された内部データパスを使用するので、冗長な回路要素は少なく、トランジスタの面積利用効率も高い。したがって、実装密度も高く、経済的である。さらに、高速処理に適したデータパスを構築でき、 A C特性も高い。このため、本発明においては、デ一タフ口一指定命令により、デ一タフ口一指定ュニットおよびェ程において、処理ュニットの内部データパスの一部を選択可能とすることが望ましい。

さらに、データフロー指定命令により設定された各処理ユニットのインタフェースを保持するスケジュールを管理するように、デ一タフロー指定ュニットは処理ュニッ卜のインタフェースを管理するスケジューラとしての機能を備えていることが望ましい。例えば、ある一定時間だけ、マトリックス計算を行い、その後にフィルター処理を行う場合は、予めそれらの処理に必要なデータ処理装置内部の処理ュニット間の接続を指定し、時間を計数するカウンターを使ってこれを実現する事が出来る。計数カウンターを別の比較回路や外部ィベント検出器に置き換える事で、より複雑で柔軟性のあるスケジューリング処理を実現可能となる。

また、データフ口一指定命令により、複数の処理ュニットにより構成される処理プロックの入力および Zまたは出カインタフエースを規定できるようにすることが望ましい。複数の処理ュニットのィンタフヱ一スを 1 つ命令で変更可能とすることにより、複数の処理ュニットが関連するデータパスの変更が 1命令で処理することができる。したがって、データフロー指定ユニットあるいは工程では、デ一タフ口一指定命令により、複数の処理ユニットにより構成される処理ブロックの入力および/または出力インタフェースを変更可能であることが望ましい。

さらに、処理ブロックの入力および Zまたは出力インタフェースを規定する複数のコンフィグレーションデータを格納したメモリを設け、データフロー指定ユニットあるいは工程においては、デ一タフロー指定命令によりメモリに格納された複数のコンフィグレーションデータの 1つを選択し、処理ブロックの入力およびノまたは出力インタフェースを変更できるようにすることが望ましい。データフ口一指定命令によりコンフィグレーションデータを指定できるようにすることにより、命令自体は冗長にせずに複数の処理ュニットのインタフェースの変更をプログラムから制御することができる。図面の簡単な説明

図 1 は、データフロー指定命令を含む命令セットの概要を示す図である。

図 2は、図 1 に示す命令セットの Yフィ一ルドをさらに詳しく説明する図である _s 図 3は、図 1 に示す命令セットを実際に用いた簡単な例を示す図である。

図 4は、図 3に示す命令セットによりデータがレジスタに格納される様子を示す図である。

図 5は、本発明の命令セットを実行可能なデータ処理装置を示す図である。

図 6は、従来の C P Uあるいは D S Pで実行可能なサンプルプログラムである。

図 7は、本発明にかかる制御ュニット用のプログラム例である。図 8は、図 7に示すプログラムを本発明にかかる命令セットの実行プログラムにコンパイルした例を示す図である。

図 9は、本発明にかかる制御ュニット用の異なるプログラム例である。

図 1 0は、図 9のプログラムにより構成されたデータフローを示す図である。

図 1 1 は、データフローが指定可能なデータ処理装置の異なる例を示す図である。

図 1 2は、データパスが変更される例を示す図である。

図 1 3は、本発明の命令セットによりデータ処理を実行可能なデータ処理装置の概略構成を示す図である。

図 1 4は、テンプレートの組み合わせを変えて異なる専用回路を構成する様子を示す図である。

図 1 5は、テンプレートの一例を示す図である。発明を実施するための最良の形態

以下に図面を参照して、本発明をさらに詳しく説明する。図 1 に、本発明にかかるデータフ口一指定命令を記述するのにて適した命令セット（命令フォーマット）の構成を示してある。この命令セット ( D A P Z D N Aの命令セット） 1 0は、第 1 のフィールドである命令実行基本フィールド（ Xフィールド） 1 1 と呼ばれる部分と、次の命令実行の効率化を図ることができる第 2のフィールドである次命令実行準備サイクル（追加フィールドあるいは Yフィールド） 1 2 と呼ばれる 2つのフィールドを備えている。命令実行基本フィ —ルド（ Xフィールド） 1 1 は、加减演算、論理和、論理積、比較などのデータの演算、および分岐などのその他の各種のデータ処理の内容を指定し、その結果が格納される先（ディスティネーション ) を指定する。また、 Xフィールド 1 1 は、命令長の使用効率を上げるために実際に実行される命令の情報しか含まない。一方、追加フィールド（Yフィールド） 1 2 は、同一の命令セットの Xフィーノレド 1 1 の実行命令とは独立した命令（情報）が記述可能であり、たとえば、次の命令の実行準備サイクルに割当てられる。

さらに詳しく命令セット 1 0を説明すると、 Xフィールド 1 1 は、算術論理演算ュニットなどの処理ュニッ卜に対する命令操作あるいは実行命令（Execution ID ) を記述する実行命令フィールド 1 5 と、 Yフィールド 1 2の有効 Z無効および Yフィールド 1 2 で示す準備命令のタイブを示すフィールド（タイプフィールド） 1 6 と、デイスティネーションのレジスタを示すフィールド 1 7 とを備えてレヽる。タイプフィールド 1 6 の内容は、 Yフィールド 1 2に関連したものであり、 Xフィールド 1 1 の他のフィールドの内容とは独立して、別に定義できることは上述した通りである。

また、 Yフィールド 1 2は、タイプフィールド 1 6によって規定される準備情報が記述される。この Yフィ一ルド 1 2に記述される準備情報は、演算または他のデータ処理を実行可能な状態にするための情報であり、図 2 に具体的な幾つかの例を示してある。先ず、 T Y P Eフィールド 1 6は Xフィールド 1 1 に含まれているが、実行命令フィ一ルド 1 5 とは独立あるいは無関係に記述できる- そして、 Yフィールド 1 2には、アドレス I D ( A I D ) 2 1 と、それによって利用目的が規定されるァドレス情報 2 2を記述するァドレス情報フィールド 2 6 として利用することができる。この Yフィールド 1 2 に記述されたアドレス情報は、レジスタあるいはバッファとメモリ（レジスタファイルを含む）との間のリードおよびライトに用いられ、 D M Aのようにブロック転送も可能な構成になっている。さらに、分岐命令を実行したときの分岐先を示すアドレス（フェッチアドレス）、並列実行するときのスタートァドレスなどの情報も Yフィールド 1 2に記述することができる。

また、レジスタタイプの命令、たとえば、算術演算あるいはその他の論理演算命令（M O V E、メモリ一リード Zライ卜なども含む ) に対してソース側となるレジスタ情報あるいは即値（イミ一ディエイト）を規定する情報 2 3 も Yフィールド 1 2に記述すること力 S できる。すなわち、 Yフィールド 1 2を以降の実行命令のためのソ —スを規定するフィールド 2 7 として利用することができる。

さらに、 Yフィールド 1 2には、算術論理演算ユニット（A L U ) あるいは他のデータ処理ユニット、たとえば所定のデータパスを備えた処理ユニット（以降においてはテンプレート）のインタフエ —ス（ソース、ディスティネーション）および処理内容の組み合わせを規定するデータフロー指定命令 2 5 も記述することが可能である。すなわち、 Yフィールド 1 2は、リコンフィダラブルなデータパスなどを、特定のデータ処理を行うために、それらのパイプライン（データフローあるいはデータパス）を定義するためのフィールド 2 8 として利用することができる。もちろん、 Yフィールド 1 2 には、そのデータフローをスタートする情報および終了するデータフロー指定命令 2 5を記述することが可能である。したがって、 Y フィールド 1 2を用いてリコンフィダラブルなデータパスを定義して生成したデータフローにより、コード R A Mからコードをフェツチするプログラムカウンタとは独立した処理を行うことができる。以下では X フィールド 1 1 および Yフィールド 1 2 に実行命令あるいは準備命令が記載あるいは記述された例を説明するが、これらのフィールドに命令を記述せず（N O Pを記述し）、 Xフィールド 1 1 あるいは Yフィールド 1 2だけが意味を持つような命令セットも可能である。さらに、二一モニックな実行命令と、データフロー指定命令が混在した命令セットを備えたプログラム製品も可能であり、データフロー指定命令が連続して記述されたプログラム製品も可能である。そして、記述される形態は問わずに、データフロー指定命令を含むプログラム製品あるいはそのプログラムを記録した記録媒体なども本発明の範囲に含まれる。

図 3に、本例の命令セット 1 0の簡単な例を示してある。 j - 1 番目の命令セット 1 0である T ( j - 1 ) は、その Xフィールド 1 1 のタイプフィールド 1 6に、同一の命令セッ卜の Yフィールド 1 2 に 3 2 ビットのイミ一ディエイトが記述されていることが示されている。そして、その命令セット T ( j - 1 ) の Yフィールド 1 2 には、イミ一ディエイトとして「 # 0 0 0 0 1 2 3 4 H」が記載されている。次の： j 番目の命令セット T ( j ) には、 Xフィールド 1 1 の実行命令フィールド 1 5に MO V Eが記述され、ディステイネーシヨンフィールド 1 7にレジスタ R 3が記載されてレヽる。このため、この； j 番目の命令セット T ( j ) をフェッチすると、制御ュニットの A L Uは、前の命令フィールド T ( j - 1 ) に定義されたイミ一ディエイト「 # 0 0 0 0 1 2 3 4 H」をレジスタ R 3に格納する。

このようにして、本例の命令セット 1 0 (以降では、 j 番目の命令セット 1 0を命令セット T ( j ) で示す）では、実行命令が記述された命令セット T ( j ) の前の命令セット T ( j _ l ) によりその実行命令の準備が行われる。したがって、命令セット T ( j ) だけでは制御ュニットを構成する A L Uが実行する処理内容は判らないが、 2つの命令セット T ( j - 1 ) および T ( j ) により A L U が実行する処理内容は一義的に決定される。また、命令セット T ( j — 1 ) の実行命令フィールド 1 5には、その命令セットの Yフィ —ルド 1 2 とは独立して命令セット T ( j - 1 ) の前の命令セットの Yフィ一ルド 1 2により準備された処理を実行する命令が記述されている。さらに、命令セット T ( j ) のタイプフィールド 1 6および Yフィールド 1 2 には、次の命令セットの実行命令フィールドに記述された実行命令の準備をする情報が記述されている。

本例では、ある実行命令が Xフィールド 1 1 に記述された命令セット T ( j ) の直前の命令セット T ( j — l ) の Yフィールド 1 2に、その実行命令の準備情報（準備命令）が記述されている。すなわち、準備命令のレイテンシ一が 1 ク口ックの例となっているが、準備情報が記述される命令セットは、直前の命令セットにかぎられるものではない。例えば、複数の A L Uを備えた制御ュニッ卜の制御プログラム、あるいは後述するデータフロー制御を目的とする準備命令などであれば直前の命令セットである必要はない。準備命令によってセッ卜された A L Uの状態（環境あるいはインタフェース ) あるいはテンプレートの構成が、その準備命令に対応する実行命令を備えた命令セットがフエツチされて実行されるまで保持されるのであれば、実行命令を備えた命令セット 1 0の数命令前の命令セット 1 0の Yフィールド 1 2 で準備命令を記述できる。

図 4に、図 3に示した命令セットによりレジスタとして機能するレジスタファイルあるいはメモリに値が格納される様子を示してある。プロセッサが；）一 1番目の命令セット T ( j - 1 ) をフェッチして、その Yフィールド 1 2 の準備命令によりイミ一ディエイト「 # 0 0 0 0 1 2 3 4 H」がプロセッサの A L Uのソース側のレジスタ D P O . Rにラッチされる。そして、プロセッサが次の： j 番目の命令セット T ( j ) をフェッチし、その Xフィールド 1 1 の実行命令である MO V Eを実行するサイクルでバッファ 2 9 b にストァされる。その後、メモリまたはレジスタファイル 2 9 a のレジスタ R 3のァドレスにバッファ 2 9 b の値が格納される。したがって、格納先がレジスタではなくメモリであっても、本例の命令セット 1 0 を用いると、準備情報に基づく処理を実行命令に先立って行うことにより、実行命令のサイクルでデータをロードあるレ、はストァすることができる。

図 5 に、本例の命令セット 1 0により処理内容が記述されたプログラムを実行可能な制御ユニット 3 0を備えたプロセッサ（データ処理装置） 3 8の概略構成を示してある。本例の命令セット 1 0を具備したマイクロコ一ドあるいはマイク口プログラム 1 8はコード R〇 M 3 9に記憶されている。制御ユニット 3 0は、コード R O M 3 9からマイクロプログラムの命令セット 1 0をプログラムカウン夕によって随時フェッチするフェッチュニット 3 1 と、フェッチされた命令セット 1 0の Xフィールド 1 1 をデコードして A L U 3 4 の処理内容を決定あるいはアサ一卜すると共に、 A L U 3 4の論理演算結果をディスティネーションのレジスタ 3 4 dを選択してラッチする機能を備えた第 1 の実行制御ュニット 3 2を備えている。

さらに、制御ユニット 3 0は、フェッチされた命令セット 1 0の

Yフィールド 1 2を Xフィールド 1 1 のタイプフィールド 1 6 の情報に基づいてデコードし、演算処理ユニット（A L U ) 3 4のソ一ス側のレジスタ 3 4 s を選択する機能を備えた第 2の実行制御ュニット 3 3 を備えている。この第 2 の実行制御ユニット 3 3は、タィプフィールド 1 6 の情報を除き、 Yフィールド 1 2 の命令あるレヽは情報を Xフィールド 1 1 の内容とは独立して解釈することができる。第 2 の実行制御ュニッ卜 3 3は、さらに、 Yフィールド 1 2に記述された情報がデータフローを規定するものであれば、 A L U 3 4のソース側およびディスティネーション側の選択あるいは設定、すなわち、 A L U 3 4のインタフェースを決定し、さらに、その状態を所定のク口ックあるいは解除の指示があるまで連続的に保持する機能も備えている。また、 Yフィールド 1 2 の情報がデータフロ一を規定する場合は、この第 2 の実行制御ユニット 3 3は、さらに、 A L U 3 4の処理内容も決定し、その状態を所定の期間保持する。本例の制御ユニット 3 0は、さらに、このような実行制御ュニット 3 2および 3 3 と、 A L U 3 4の組み合わせを複数備えており、これらによって様々な処理が実行できるようになつている。したがって、本例の制御ュニット 3 0をコアあるいは周辺回路として画像データを高速で処理するような D S P、汎用のデジタル処理を高速で行える C P Uあるいは M P Uなどを構成することが可能である。図 6ないし図 9に、本例の制御ュニット 3 0で実行するプロダラムの一例を示してある。図 6に示したサンプルプログラム 4 1 は、従来の C P Uあるいは D S Pで実行可能なように作成した例である。このプログラムは、 # S T A R Tのアドレスから始まるテーブル力ら最も大きな値を抽出し、最終データであることを示す # E N Dを検出すると終了するプログラムである。

図 7に記載したプログラム 4 2は、図 6 と同じ処理を本発明にかかる命令セットを実行可能な制御ュニット 3 0に適したプログラムに変換したものであり、 2命令を 1 つの命令セットで実行できる例を示してある。図 7に示したプログラムは、コンパイラを通して本発明にかかる命令セットの実行プログラムに変換され、制御ュニット 3 0で実行される。

図 8にコンパイルされたプログラム 4 3を示してある。このプログラム 4 3 と、プログラム 4 2 とを比較すると判るように、第 1 の番目の命令セット 1 0の Yフィールド 1 2で 2番目の命令セット 1 0の実行命令 1 5 の準備が行われる。すなわち、タイプフィールド 1 6に準備情報としてイミ一ディエイトが Yフィールド 1 2に記述されていることが示されており、 Yフィールド 1 2をデコードした第 2の実行制御ュニット 3 2 によりイミ一ディエイトが A L U 3 4 のソースとなるキャッシュあるレ、はレジスタに提供される。そして、 2番目の命令セット 1 0を実行するときは、その実行命令を行う準備が整った A L U 3 4に対し実行命令 1 5を行うことができる。すなわち、ディスティネーションフィールド 1 7 に規定されたレジスタに対し、実行命令フィールド 1 5 の M O V E命令を単に実行するだけになる。

このように、本発明の命令セットによれば、実行命令と、その実行命令を行うためのインタフースなどを記述した準備命令とを分離することができ、さらに、準備命令を実行命令に先立ってフヱッチされる命令セットに記述して処理することができる。したがって、各々の命令セットに記述された実行命令を行うときは、 A L U 3 4 のソース側にデータがリ一ドされているので純粋に算術命令だけを行うようになる。このため、 A C特性が良く、実行周波数特性が向上する。さらに、実行命令に対する前後の差はあるが、従来のパイプラインと同様に、命令フェッチ、レジスタデコード、処理実行などを段階的に行うことが可能であり、スループットも向上できる。また、本例のプロダラムは 2命令を 1命令セットに記述できるようになっているので、 V L I Wと同様にプログラムカウンタの近傍の複数の命令を並列実行することにより処理速度を向上できる。

さらに、 4番目の命令セッ卜の実行命令フィールド 1 5には条件分岐が記述されており、その分岐先のアドレスは、この命令セットに先行する 3番目の命令セットの Yフィールド 1 2に記述されている。したがって、 4番目の命令セットを実行する際に、あるいはそれに先立ってフェッチレジスタに分岐先のァドレスをセットし、分岐条件が成立したときにペナルティなく分岐先の命令セットをフェッチあるいは実行することができる。さらには、分岐先の命令をプリフェッチしておくことも可能であり、分岐先の実行命令を実行する準備を事前に整えておくことも可能となる。したがって、分岐先の命令であつても 1 クロックの無駄もなく実行することが可能であり、 1 クロック単位で処理を正確に定義することができる。図 9には、さらに、命令セット 1 0の Yフィールド 1 2を用いてデータフロー指定命令 2 5を記述した本発明のプログラム 4 4を示してある。このようなデータフロー指定命令 2 5 を有するプロダラム製品 1 8が R O M 3 9、 R AMあるいは他の適当なデータ処理装置で読取可能な記録媒体に記憶されて提供される。また、ネットヮ —ク環境で交換される伝送媒体にプログラム製品 4 4あるいは 1 8 を埋め込んで流通することも可能である。

このプログラム 4 4に記述されたデータフ口一指定命令 2 5の内、

D F L W I は、データフローの初期設定を行う命令であり、 D F L W Cはデ一タフロー（データパス）を構成する演算処理ユニット 3 4の接続情報（インタフェースの情報）および処理内容を規定する命令である。また、 D F L W Tはデータフローの終了条件を規定する命令であり、最後に、このようにして定義されたデータフローにデータを入力して処理を行う D F L W Sが記述されている。これらのデータフロー指定命令 2 5は、 Yフィールド 1 2に準備情報として記述され、第 2 の実行制御ュニット 3 3でデコードされ、処理ュニット 3 4でデータ処理を行うための構成（コンフィグレーション ) がセットされる。

図 9に示した本例のプログラム 4 4を実行する際には、プロダラムのデータフロー指定にしたがって第 2 の実行制御ュニット 3 3がデータフロー指定ュニットとして機能し、データフロー指定工程にしたがった制御を行う。すなわち、フェッチユニット 3 1 でフェツチされたデ一タフ口一指定命令 2 5をデコードし、処理ユニット 3 4の入力およびまたは出力インタフェースを、その処理ュニット 3 4の実行する時期とは独立して設定する。さらに、データフロー指定命令 2 5によっては、処理ユニット 2 5 の処理内容も規定あるいは変更する制御を行う。また、第 2 の実行制御ユニット 3 3は、スケジューラ 3 6 としても機能し、各処理ュニット 3 4のインタフェースを維持するスケジュールを管理する。

このため、図 1 0に示すように、スケジューラ 3 6 として機能する第 2の実行制御ュニット 3 3により、 3つの演算処理ュニット 3 4のインタフェース（入出力）と、その処理内容が規定され、その状態あるいはコンフイダレーションが終了条件が成立するまで保持される。したがって、これらの演算処理ユニット 3 4により構成されるデータフローあるレ、はデータパスにより、プログラムカウンタとは独立して次々と図 6に示した処理と同じ処理が進行する。すなわち、データフロー指定を行うことにより、 3つの演算処理ュニット 3 4によって制御ュ-ット 3 0の中に、その処理のための専用回路が事前に設けられた状態となり、プログラムカウンタの制御から外れて最大値を求める処理を実行することができる。そして、 D P 1 . R 1 と # E N Dが同じになることを D P I . S U B としての機能を果たす A L U 3 4で判断するとデータフローが終了する。

したがって、図 9から判るように、デ一タフ口一を定義することにより分岐命令を用いずに図 6あるいは図 7に記載されたプロダラムを同じ処理を実行することができる。このため、汎用の制御ュニット 3 0でありながら、専用回路を備えた制御ュニットと同様に特定の処理を非常に高速に効率良く行うことが可能となる。

本発明にかかる命令セットおよび制御ュニットにより、様々な処理を行うデータフローあるいは疑似データフローを制御ュニットに設けることができる。これらのデータフローはテンプレートとして他の処理あるいは他のプログラムにも適用できるものであり、ソフトウエアを用いてハードウェアを随時、特定のデータ処理に適した構成に変更でき、それを他のプログラムあるいは他のハードウエアにおいても実現できることを意味する。そして、このようなデータフ口一を複数設定することも可能であり、マルチコマンドストリ一ムをソフトウエアを用いて制御ュニットの中に定義することができる。したがって、複数の処理を並列実行することが極めて簡単となり、その実行内容をプロダラミングにより自由に制御できる。図 1 1 に、データフ口一指定命令 2 5 を有するプロダラム 4 1 により制御できるデータ処理装置の異なる例を示してある。このデータ処理装置 4 0はシステム L S 1 として実現可能なものであり、プログラム 4 1が記録されたコ一ド R AM 3 9 と、このコード R AM 3 9から命令をフヱツチ可能なフェッチュニット 4 2 とを備えている。本例のフェッチユニット 4 2は、データフロー指定命令 2 5をフェッチすると、その命令をデコードすることができるデータフロ一デコーダ（D F D E C ) 4 2 b と、データフロー指定命令 2 5以外の一般命令をデコードするデコーダ 4 2 a とを備えている。したがって、このデータ処理装置 4 0を制御するプログラム 4 1は、デ —タフ口一指定命令 2 5 とその他の汎用命令とが混在したものであっても良いし、あるいは、データフロー指定命令 2 5を備えたプログラムと、その他の汎用命令からなるプログラムとをコード R A M 4 1 に用意し、適当な方法で同期しながら命令をフェッチできるようにすることも可能である。

汎用命令は、汎用のデコーダ 4 2 a によりデコードされ、そのデコードされた信号 φ p力；、 A L Uおよびレジスタなどを備えた組込型の汎用プロセッサ 4 3に供給され、実行される。一方、デ一タフ口一指定命令 2 5は、 D F D E C 4 2 bによりデコードされ、そのデコードされた信号はデータフロー処理ユニット（D F U) 4 5に供給され、処理される。

本例の D F U 4 5は、複数のデータ処理ユニット（D P U) 4 6 が用意されている。各々の D P U 4 6は F P G Aによりデータパスが形成されており再構成可能な処理ュニッ卜となっている。このため、 D P U 4 6 は、 F P G A 4 6 c と、この F P G A 4 6 c のマツビングを記憶した R AM 4 6 bあるいは R OMと、 F P G A 4 6 c に対するデータの入出力を制御するインタフェース 4 6 d と、 R A M 4 6 bに記憶されたマッピング情報およびインタフェース情報を F P G A 4 6 cおよびインタフェース 4 6 dに供給して、それらの構成あるいは状態を定義するコンフィグレーション制御部 4 6 a とを備えている。本例のデータ処理装置 4 0においては、フェッチュニット 4 2がデータフロ一指定命令を含む命令セットをフニツチする工程を行レ、、さらに、 D F D E C 4 2 bがデータフ口一指定ュニットとして機能し、データフロー指定工程を含む制御を行う。すなわち、データフ口一指定命令をデコードし、 D F U 4 5の各々の D P U 4 6のコンフィグレーション制御部 4 6 a を介して D P U 4 6のインタフエ一ス 4 6 dを指定する。したがって、データフロー指定命令 2 5により、 D F U 4 5の D P U 4 6のコネクションを制御することが可能となり、複数の D P U 4 6によって構成されるデータパスをフレキシブルにプログラムレベルで制御できる。

図 1 2 ( a ) では、 1 2個の D P U 4 6 により 2つのデータノヽ。ス 4 7 aおよび 4 7 b を構成したのに対し、 D P U 4 6のインタフエースを変更することにより図 1 2 ( b ) に示すように 1 2個の D P U 4 6により、図 1 2 ( a ) とは異なるデータ処理を実行可能な 1 つのデータパス 4 8を構成することができる。複数の D P U 4 6により構成可能なデータパスはこれに限定されるものでなく、データフロー指定命令により 3つ以上のデータパスをソフトウエアを用いてデータ処理装置 4 0の D F U 4 5に定義することも可能である。したがって、複数の処理を並列実行することが極めて簡単となり、さらに、余剰の D P U 4 6があれば、それによつて適当なデータパスを設定することにより他のデータ処理装置により使用させることも可能である。

また、 D P U 4 6 を組み合わせてデータパスを構成あるいは変更する処理は、他のデータパスにおけるデータ処理を中断させずに、あるいは、組込プロセッサ 4 3における処理を中断させずに行うことが可能である。さらに、 F P G A 4 6 c における処理内容の変更を伴わなければ、インタフェース 4 6 dの設定を変えるだけでデータパスを動的に変更することができる。また、 D P U 4 6の処理内容を変える場合も、ある程度回路規模の小さな F P G A 4 6 c を採用することによりマツビングしなおすために要する時間を短縮することができる。したがって、データ処理装置 4 0の処理対象となるアプリケ一ションのデータ処理に合致するデータパスをプログラムによりフレキシブルに構築し、そのデータ処理を極めて高速に実行ることが可能となる。しかしながら、現状の F P G Aでは、上述したように数ク口ック〜数十ク口ック単位でマツビングするためにはハードウェアが十分ではない。さらに、所望のデータフロー処理を実行するためには、それに数クロックあるレ、は 1 0数クロック程度も先行して指示する必要があるので、データフロー指定命令をプログラムに記述する際にもデータ処理の開始や分岐命令と整合をとる必要があるなどの制限が多くなる。図 1 3に、図 1 に示した Xフィールド 1 1および Yフィールド 1 2を備えた命令セット 1 0によりデータフローを定義することができる複数の処理ユニット（テンプレート）を備えたデータ処理装置の概略構成を、システム L S I 5 0のィメ一ジで示してある。このシステム L S I 5 0は、データの処理動作を行うプロセッサ領域 5 1 と、そのプロセッサ領域 5 1 の処理を制御するプログラム 1 8が格納されたコード R A M 5 2 と、その他の制御情報あるいは処理用のデータを記憶し、さらに、一次的なワーク領域ともなるデータ R AM 5 3 とを備えている。プロセッサ領域 5 1 は、プログラムコ一ドをフェッチするフェッチユニット（ F U) 5 5 と、多目的な処理を行う汎用的なデータ処理ユニット（多目的 A L U) 5 6 と、データフ口一方式でデータを処理することができるデータフロー処理ュニット（D F U) 5 7 とを備えている- 本例の L S I 5 0は、 1つの命令セット 1 0に 1組の Xフィ一ルド 1 1および Yフィールド 1 2 を含んだプログラムコードをデコードして処理を実行できるようになつている。このため、 F U 5 5は、フェッチした命令セット 1 0の Xフィールド 1 1 の命令を格納できるフェッチレジスタ（ F R (X) ) 6 1 x と、 Yフィールド 1 2の命令を格納できるフェッチレジスタ（ F R ( Υ) ) 6 1 y とを備えている。また、 F R (X) 6 1 Xにラッチされた命令をデコードする Xデコーダ 6 2 X と、 F R ( Y) 6 l y にラッチされた命令をデコードする Yデコーダ 6 2 y とを備えている。また、これらのデコ —ダ 6 2 Xおよび 6 2 yのデコード結果により次の命令セットのァドレスが格納され、プログラムカウンタとして機能するレジスタ（ P C) 6 3を備えている。したがって、コード R AM 5 2に格納されているプログラムの所定のァドレスから次の命令セットを随時フェッチすることができる。

本例の L S I 5 0においては、 Xデコーダ 6 2 Xが上述した第 1 の実行制御ユニット 3 2 としての機能を果たす。また、 Yデコーダ 6 2 yが第 2の実行制御ュニット 3 3、すなわち、データフ口一指定ユニットとしての機能を果たす。したがって、 Yデコーダ 6 2 y が、命令セット 1 0の Yフィールド 1 2に記述されたデータフロー命令をデコードし、それに基づき D F U 5 7の処理ュニッ卜の入出力インタフェースを設定してデータパスを構成する、本発明のデータフロー指定工程を実行する。このため、図 1 3に示したデータ処理装置 5 0の制御では、フェッチュニット 5 5において、処理ュニットの入力および Zまたは出力インタフェースを、その処理ュニットにより処理を実行する時期とは独立して指示するデ一タフ口一指定命令 2 5をフェッチする工程が行われ、さらに、 Yデコーダ 6 2 yにおいて、デ一タフロー指定命令 2 5 をデコードし、処理ュニッ卜の入力および Zまたは出力インタフェースを設定し、複数の処理ュニットによるデータパスを構成するデータフロー指定工程が行われる。

多目的 A L U 5 6は、図 5で説明した演算ユニット（A L U) 3 4 と、この A L U 3 4の入出力のデータを格納するレジスタ群 3 5 とを備えている。 F U 5 5でデコードされた命令が A L U 3 4の実行命令と準備情報であれば、 Xデコーダ 6 2 Xでデコードされた信号 ψ X と、 Yデコーダ 6 2 yでデコ一ドされた信号 yは多目的 A L U 5 6に供給され、上記にて説明したように A L U 3 4における処理が実行される。

D F U 5 7は、様々な処理を行うデータフローあるいは疑似デ一タフローを構成するための複数のテンプレ一ト 7 1が配置されたテンプレート領域 7 2を備えている。それぞれのテンプレート 7 1 は、図 9および図 1 0に基づき説明したように、演算処理ュニット（A L U ) などのような特定のデータパスあるいはデータフローとしての機能を備えている処理ユニット（処理回路）である。そして、 Y フィールド 1 2 に準備情報として記述されたデータフ口一指定命令 2 5を Yデコーダ 6 2 yがデコードし、その信号により、 D F U 5 7の処理ュニットであるテンプレート 7 1それぞれのィンタフェースと処理内容を規定することができる。

したがって、これらのテンプレート 7 1 の接続および処理内容を

Yフィールド 1 2に記述したデータフ口一指定命令 2 5によって変更することが可能である。このため、これらのテンプレート 7 1 の組み合わせにより、テンプレート領域 7 2 に特定のデータ処理に適したデータパスをプログラム 1 8のデータフロー命令 2 5によりフレキシブルに構成することが可能となる。したがって、プロセッサ 5 1 の中に、特定の処理のための専用回路が設けられた状態となり、そこでの処理をプログラムカウンタの制御から外れて実行することができる。すなわち、データフロー指定命令 2 5によりテンプレ一ト 7 1 の入出力と処理内容を変更することができるので、本例のプ口セッサ 5 1 はソフトウェアを用いてハードウェアを随時、特定のデータ処理に適した構成に変更することができる。

図 1 4 ( a ) に示したように、本例のプロセッサ 5 1 の D F U 5 7で入力データ φ i nに処理を施して出力データ φ o u t にする場合、たとえば、図 1 4 ( b ) に示すように、テンプレート 1 — 1、 1 _ 2および 1 — 3を直列に繋いであるデータ処理を行うようにテンプレート 7 1 のインタフェースをデータフロー指定命令 2 5で設定することができる。同様に、テンプレート領域 7 2の他のテンプレ一ト 7 1 に対してもそれらのインタフェースをセットして複数のテンプレート 7 1 を適当に組み合わせてデータパスあるいはデータフローを構成することが可能であり、テンプレート領域 7 2に入力データ φ i nの処理に適した専用処理ユニットあるいは専用データパス 7 3 を複数個、プログラム 1 8により随時構築できる。

一方、入力データ Φ i nに対する処理が変わったときは、図 1 4 ( c ) に示すように、データフロー指定命令 2 5によりテンプレート 7 1 の間の接続を変えることが可能である。すなわち、データフロー指定命令 2 5を Yデコーダ 6 2 yがデコードし、該当するテンプレート 7 1 のインタフェースを変更することができる。このような Yデコーダ 6 2 y としての制御（データフ口一指定工程）により、テンプレート 1 — 1 、 2 _ nおよび m— nを直列に接続して、他の異なる処理を実行するのに適した 1つあるいは複数のデータパス 7 3 をテンプレート領域 7 2に構築することが可能である。

これらのテンプレート 7 1は、図 1 4に示した組み合わせに限らず、図 1 2に示したような組み合わせにすることも可能であり、テンプレート 7 1 を単独で、あるいは複数のテンプレート 7 1 を組み合わせて構成された処理ュニットは、並列して実行される他の処理あるいは他のプログラムに割り当てることも可能である。複数のプ口セッサ 5 1が適当なバスで接続されていれば、他のプロセッサ 5 1 が主として行っているデータ処理のためにテンプレート 7 1 を組み合わせたトレイン（データパス） 7 3を構成することも可能であり、テンプレート 7 1 というデータ処理資源を極めて有効に活用することができる。

さらに、 A N Dや O Rなどの単純な論理ゲー卜から構成する必要があり、これらの単純な論理ゲー卜の実現をもカバーする目的の F P G Aとは異なり、本発明に係るテンプレート 7 1 は、 A L Uなどとしての機能あるいは論理ゲートを基本的に備えた特定のデータパスを内部に実装する、より高いレベルのデータ処理ュニットである。そして、データフロー指定命令 2 5 により、テンプレート 7 1 のィンタフエースを定義する、あるいは再定義することにより、それらの組み合わせを変えて特定の処理に適したさらに大きなデータパスを構成している。さらに、データフロー指定命令 2 5によりテンプレート 7 1で実行する処理内容を定義できるが、その際も、テンプレ一ト 7 1 の内部の A L Uあるいは他の論理ゲートなどの接続を変更することで、テンプレート 7 1 の内部データパスの一部を選択する形で、テンプレート 7 1 で実行する処理内容を定義するようにしている。

したがって、本例のテンプレート 7 1 が複数配置された D F U 5 7のハ一ドウエアを特定のデータ処理に適した構成に変更するときには、 F P G Aのようにチップ全体を、あるいは限定された論理ブロック単位でもマッピングしなおす必要はなく、テンプレート 7 1 あるいはテンプレート領域 7 2に予め設けられたデータパスを切り替えたり、それらの一部を選択することによりに、予め用意された A L Uあるいは論理ゲートを用いて所望のデータパスを実現することができる。すなわち、テンプレート 7 1 の内部では論理ゲートのコネクションを必要な範囲で設定しなおし、テンプレート 7 1 の間でもそのコネクションを必要な範囲で設定し直すだけでよい。このため、極めて短時間に、クロック単位で、ハードウェアを特定のデ —タ処理に適した構成に変更することができる。

さらに、論理ゲートが内蔵されていない F P G Aは、極めて汎用的である反面、特定のアプリケ一ションの機能を実現するロジック回路を形成するためには無駄となる配線も多く、冗長で信号経路も短くはならない。したがって、実行するアプリケーションに特化した A S I Cに対して実装面積が大きくなり、また、 A C特性も劣化する。これに対し、予め適当な論理ゲートを内蔵している本例のテンプレート 7 1 を採用したプロセッサ 5 1 では、 F P G Aのように膨大な無駄な領域が発生するのを防止でき、 A C特性も改善することができる。したがって、テンプレート 7 1 をべ一スとした本例のデータ処理ユニット 5 7は、ハ一ドウエアをプログラムで変更可能なリコンフィグラブルな構成の処理装置であり、 F P G Aを採用した処理装置に対し、より高いレベルでソフトウエアのフレキシビリティとハードウエアの高速性とを備えたデータ処理装置を提供することができる。

そして、本例のテンプレート 7 1 は、適当な論理ゲートを予め内蔵しているので、特定のアプリケーションの処理を実現するために必要な論理ゲートを適当な実装密度で実現することができる。このため、テンプレート 7 1 を用いたデータ処理ュニットは経済的である。また、 F P G Aでデータ処理装置を構成した場合には、実装密度の低下をカバーするために、論理を再構成するプログラムのダウンロードを頻繁に行うことを検討する必要があり、そのための時間も処理速度が低下する原因となる。これに対し、本例のテンプレート 7 1 を用いたプロセッサ 5 1では、実装密度が高いので、その低下をカバーする必然性は减少し、実装密度の低下を補償するためにハードウェアを再構成する要求は少なくなる。そして、ハ一ドゥエァの再構成もクロック単位で制御することができる。これらの点でも、 F P G Aをベースとしたリコンフィグラブルな処理装置と異なり、ハードウェアをソフトウェアにより再構築できる処理装置であって、コンパクトで実行速度の速いデータ処理装置を提供することができる。

さらに、図 1 3に示した D F U 5 7は、テンプレート領域 7 2に配置されたテンプレート 7 1 のインタフユ一スおよび処理内容（以降においてはコンフィグレーションデータ）を一括して定義あるいはセットすることができるコンフィグレーションレジスタ（ C R E G ) 7 5 と、その C R E G 7 5にセットする複数のコンフィグレーシヨンデータ C i ( i は適当な整数を示す、以下においても同様である）を記憶したコンフィグレーション R AM (C R AM) 7 6を備えている。そして、データフロー指定命令 2 5 として「D F S E T C i 」といった命令が用意されており、 Yデコーダ 6 2 yがこの命令をデコードすると、 C R AM 7 6に記憶されているコンフィグレーションデータ C i の中から所望のデータが C R E G 7 5に口 — ドされる。その結果、テンプレート領域 7 2に配置された複数のテンプレート 7 1 のコンフィグレーションを一括して変更できる。あるレ、は、複数のテンプレート 7 1からなる処理ブロック単位でそのコンフィグレーションを変更することができる。

また、 D F LW I あるレ、は D F LWCといった上記のようなデ一タフ口一指定命令 2 5を Yデコーダ 6 2 yがデコ一ドすることにより、個々のテンプレート 7 1のコンフィグレーションを設定あるレヽは変更することも可能である。したがって、本例の D F U 5 7では多くの情報が必要となる複数のテンプレート 7 1 のコンフィグレーシヨンを 1命令で変更することが可能であり、命令効率がよく、さらに、再構成のために消費される時間が短縮されている。

さらに、本例の D F U 5 7は、 C R A M 7 6 にブロック単位でコンフィグレーシヨンデータをダウンロードするコントローラ 7 7を備えている。また、データフロー指定命令 2 5 として「D F L OA D B C i 」が用意されており、 Yデコーダ 6 2 yがこの命令をデコードすると、データ R AM 5 3などに予め用意されている多数のコンフィグレーションデータ 7 8の中から、進行中の処理あるいは今後発生するであろう処理のためのコンフィグレーションデータ C i を予めコンフィグレーションメモリである C R AM 7 6 にダウンロードしておくことができる。このような構成により C R AM 7 6 に小容量の高速な連想メモリなどを採用することが可能となり、さらに短時間でハードウェアをフレキシブルに変更することができる図 1 5に、テンプレート 7 1の一例を示してある。このテンプレート 7 1 は、 D F U 5 7に用意されたデータフロー R AM (D F R AM) 7 9を介して他のテンプレート 7 1 とデータを交換することができる構成となっており、 I /Oインタフェース 8 1 を介して他のテンプレート 7 1 の処理結果が入力キャッシュ 8 2 a 〜 8 2 に入力され、処理された結果が出力キャッシュ 8 3 a 〜 8 3 dに出力される。このテンプレート 7 1は、これらの入力キャッシュ 8 2 a 〜 8 2 dに各々ストアされたデータ A、 B、 Cおよび Dに対し以下の処理を実行し、演算結果は出力キャッシュ 8 3 bに、比較した結果は出力キャッシュ 8 3 c にストァすることができるデータパス 8 8を備えている。このテンプレート 7 1 の処理結果は、再び 1 ノ0 インタフェース 8 1および D F R AM 7 9を介して他のテンプレートに出力される。

IF A == ？

THEN (C+B)==D

ELSE (C-B)==D · · · (A)

このテンプレート 7 1 は、独自のコンフィグレーションレジスタ 8 4を備えており、このレジスタ 8 4に格納されるデータによって複数のセレクタ 8 9を制御し、制御部 8 5、加算器 8 6、比較器 8 7などの論理ゲートに入力する信号を選択することができる。したがって、テンプレート 7 1 は、コンフィグレーションレジスタ 8 4 のデータを変更することにより、データパス 8 8の一部を用いた処理も可能であり、たとえば、制御部 8 5を用いずに、以下のような処理を実行させることも可能である。

(B+C)==D

(B-C)==D · ■ ' ( B )

また、同様にコンフィグレ一ションレジスタ 8 4のデータを変えることにより、このテンプレート 7 1 は、データパス 8 8の一部を用いて、制御部 8 5による条件判定回路、加算器 8 6 を用いた加減演算回路、比較器 8 7を用いた比較回路としても使用することができる。これらの論理ゲートはテンプレート 7 1 に予め作りこまれた専用回路で構成されているので、回路構成としても、処理時間としても無駄がない。そして、入力および出力データのコンフィグレーシヨンは、コンフィグレーションレジスタ 8 4によって制御されるインタフェース 8 1 により変更することが可能であり、所望のデータ処理を行うデータフローの全部あるいは一部を、本例のテンプレ — ト 7 1 で処理することができる。

このテンプレート 7 1 は、さらに、独自のコンフィグレーションレジスタ 8 4のデータを上述した C R E G 7 5力らのデータと、デ一タフロー指定ュニッ卜として機能する F U 5 5の Yデコーダ（Y D E C ) 6 2 yからのデータのいずれに基づいても書き換えることが可能であり、その選択は Yデコーダ 6 2 yからの信号により制御することができる。すなわち、上述したようなテンプレート 7 1 のコンフィグレーションは、データフロー指定命令 2 5に基づき Yデコーダ 6 2 yあるいはこの Yデコーダ 6 2 yで実行されるデータフ口一指定工程によって行うことができる。さらに、 D F S E T命令などにより C R A M 7 6に記憶されたコンフィグレーションデータ C i にしたがって、他のテンプレートと共にコンフィグレーションを変えてハードウェア構成を変更することも可能である。また、デ一タフロー指定命令 2 5によりコンフィグレーションレジスタ 8 4 のデータを設定できるので、テンプレート 7 1 の特定のデータパス 8 8を部分的に選択して使用することも可能である。

このため、テンプレート 7 1 を個別でもグループあるいはブロック単位でもデータフロー指定命令 2 5によってコンフィグレーションを変え、プロセッサ 5 1 のデータパスをフレキシブルに構成することができる。

テンプレート 7 1 の構成は本例に限定されるものではなく、他のデータ処理を実現可能なように論理ゲートを組み合わせた、適当な種類と数のテンプレートを用意しておくことにより、それらの組み合わせを変えたり、処理内容の一部を変更することにより、多くのデータ処理をテンプレート 7 1 を組み合わせたデータパスにより処理することができる。すなわち、本発明によれば、ある程度コンパク卜なデータパスを幾種類かのテンプレートとして用意しておき、そのデータパス問の組み合わせを指示して、データフロー型の処理に持ち込むことにより高性能化を図ることが可能である。そして、テンプレートでは対応できない処理は、プロセッサ 5 1 の多目的 A L U 5 6 の機能を用いて実行することが可能である。さらに、本例の多目的 A L U 5 6 は命令セット 1 0の Yフィールド 1 2 に記述された準備命令により分岐などにより発生するペナルティを最小限に止められるようになっている。このため、本例のプロセッサ 5 1 を搭載したシステム L S I 5 0により、プログラムで処理を記述するのと同様に柔軟にハードウェアを変更し、高速処理あるいはリアルタイム処理が可能な高性能の L S I を提供することができる。また、アプリケーションの変更や仕様変更などに対して柔軟に対応でき、仕様変更などに伴い処理性能が低下することも防止できる。

システム L S I 5 0を開発あるいは設計する時点で、システムし S I 5 0を用いて実行するアプリケーションの概要が判明している場合には、そのアプリケーションの処理に適した構成のテンプレートを中心にテンプレート領域 7 2 を構成することが可能であり、より多くのデータ処理をデータフロー型の処理で実行し、処理性能を高めることが可能である。汎用的な L S I を提供する場合には、浮動小数点演算、乗除算、画像処理などの汎用のアプリケーションで多く発生する処理に適したテンプレートを中心にテンプレート領域 7 2を構成することが可能である。

このように、本発明にかかる命令セットおよび制御ュニットにより、様々な処理を行うデータフローあるレ、は疑似データフローを備えた L S I を提供することが可能であり、ソフトウェアを用いてデ一タフローを実行するハードウエアを随時、特定のデータ処理に適した構成に変更できる。また、上記に説明した、テンプレートの組み合わせによりデータフロー型の処理を実行するアーキテクチャ、すなわち、 D F U 5 7あるいはテンプレート領域 7 2は、 Xフィ一ゾレド 1 1および Yフィールド 1 2を備えた命令セット 1 0 とは独立して制御ュニットゃプロセッサに組み込むことが可能である。そして、 F P G Aよりも高速処理が可能であり、ハードウェアの変更に係る時間も短く、 A C特性も良いデータ処理装置を提供できる。

また、本例の D F U 5 7あるいはテンプレート領域 7 2を、従来型の汎用の組込プロセッサ、すなわち、ニーモニックなコードで動作するプロセッサと共に組み込んでシステム L S I を構成することも可能であり、テンプレート 7 1 で対応できない処理は、汎用のプ口セッサで処理することができる。しかしながら、従来のプロセッサでは、分岐のペナルティや、演算処理のためのレジスタを準備するためにクロックを消費するなどの問題があることは上述した通りであり、本例の X— Yフィールドを備えた命令セット 1 0をデコードして実行できるプロセッサ 5 1 のような形態が望ましい。

さらに、本例のプロセッサ 5 1および命令セット 1 0であれば、 Yフィールド 1 2を用い、他の処理と並列して、 D F U 5 7のコンフィグレーションをデータ処理を実行する前に設定あるいは変更することが可能であり、処理効率およびプロダラム効率の面で優れている。従来の二一モニックな命令コードと、データフロー型の命令コードとを 1つの命令セットに記述することによりプログラム効率を高めることも可能である。しかしながら、本例の命令セット 1 0 の Yフィールド 1 2の機能は、データフロー型の命令コードを記述するだけでないことは上述したとおりである。

また、本発明に係るプロセッサは、 Yフィールド 1 2により実行に先立って物理的なデータパスの構成を変えることができる。これに対し、従来のプロセッサでは、複数のマルチプロセッサ間の接続方法が、共有メモリ等を通す方法しか存在せず、アイドル状態のプ口セッサが存在しても、その内部のデータ処理ュニットを外部から利用する方法が無かった。本発明にかかる制御ュニットにおいては、適当なデータフローを設定することにより、余っているハードゥエァを他の制御ュニットにより使用するといったことも可能となる。

さらに、副次的な効果として、命令実行シーケンスの効率化と內部データパスの独立性の確保と自由度（流用度）の向上により、本発明にかかる制御ュニットあるいはそれを用いたプロセッサにおいては、実行するハードウェアに余裕さえあれば、全く性質の異なるコンテキストの命令シーケンスを同時に供給しても問題無く実行することが可能となる。

更に、現在、ハ一ドウエアとソフトゥェァの強調設計によるメリットが盛んに指摘されるようになったが、本発明による命令セットおよび制御ュニットを採用することにより、ユーザ側の要求するアルゴリズムやデータ処理を許されるハードウェア · コストでどう効率良く経済的に実現可能かという事に対しする 1 つの回答を与えることができる。例えば、ハードウェア · コストを最小に抑制しながら、性能向上に貢献可能なデータパス（データフロー）を、過去のデータパスに関する構成結果情報である本発明にかかる命令セット（旧 D A P Z D N A ) のデータ情報と、その後に追加されるハ一ドウエア構成情報およびデータ処理を実行するシーケンス情報から新しいタイプの組み合わせ結果、すなわち、新しいデータフローを定義するソフトウユアを導き、極めて無駄の少ない最適解を提供することが可能となる。

また、従来は、ハードウェア構成が要素化され難いために、その相互の組み合わせ自体の柔軟性が無く、基本的には、性能を上げるために 1つ新規のデータパスを追加するというようなやり方が主流であった。そして、性能向上のための情報蓄積の点でも、実際にそれを実現する上で必要となるハードゥエア情報の追加という観点でも、数値化し難くデータベース化することは困難であった。これに対し、本発明によれば、ある程度コンパクトなデータパスをいくつかテンプレート的に用意しておき、そのデータパス間の組み合わせを指示して、データフロー型の処理に持ち込むことにより高性能化を図ることが可能である。そして、極めて細かい単位でのハードウェアとソフトウェアとの連携の見積もりが容易となる。また、ハ一ドウエアとソフトウェアのトレ一ドオフ情報を蓄積することも可能で、データパス単位でその組み合わせの可能性が、処理性能に対する貢献度と密接に結びつくことになる。したがって、ハードゥエァとソフトゥユアの緊密な実行性能データや処理要求に応じた性能コストの正確な見積もりを蓄積することが可能となる。もちろん、これらのデータパスは主要な処理あるいは汎用的な処理の実行を停止させないで実現することも可能となるため、性能要求に対して、何をどれだけどのように追加すれば、どのような結果が期待出来るということを、純粋に過去に蓄積された本発明にかかる命令セットおよびハードウェアのデータから予測する事が可能とする。

これは、現在行われている設計コストゃ仕様策定コス卜の著しい低減に貢献するだけで無く、次の新しい設計に対して、新規に追加すべきハードウエアとソフトウェアのトレ一ドオフを必要最小限で完了させる事に貢献する。また、処理形態に応じて、内部のデータパスを外部へ貸し出しする事も容易にする為、ハードウェアのリソ —スシェアリング化が可能となり、複数の本発明にかかるモジユール（ D A Pノ D N Aモジュール）の間で並列処理化を極め、コンパクトなハードウエアで実現する事が可能となる。

なお、上記に示したデータ処理装置および命令セットなどは、本発明の一例に過ぎず、たとえば、データ処理装置においては、コード R A Mあるいはデータ R A Mなどを外部の R A Mあるレ、は R O M としたり、これらに加えて外部の D R A Mあるレ、は S R A Mなどとのインタフェースを設けることも可能である。さらに、外部の他のデバイスと接続するための入出力インタフェースなど、システムし S I などのデータ処理装置として公知の機能を備えたデータ処理装置も本発明に含まれる。したがって、本発明は以下の請求の範囲の記載により理解および把握され、それらの請求の範囲に含まれる変形例は全て本発明の範囲に含まれる。以上に説明したように、本発明においては、データフロー指定命令により複数の処理ュニットのインタフェースを変更することによりデータパスをプログラムによりフレキシブルに組替え可能としている。したがって、複雑なデータ処理に対し、それらのデータ処理に特化した多種多様な専用回路を用いなくても、それぞれのデータ処理をフレキシブルに、ハードウエアにより高速に実行することできる。さらに、特定のデータパスを予め備えたテンプレートを処理ュニットとして採用することにより、性能向上に貢献可能なデ一タパス（データフロー）をテンプレートという資産と、それを使用する命令セットという資産で蓄積できる。さらに、その後に追加されるハードウエア構成情報およびデータ処理を実行するシーケンス情報に基づき随時更新し最適解を求めるようにすることができる。したがって、従来存在したアプリケーション間の資産の共有化とハ一ドウア資産の共有化、及び高性能化に対する適切なハードウァ投資がより健全な方向へ向かい、ネットワーク化社会を構築する上でのテクノロジー · インフラとしても大きく貢献可能となることが期待できる。産業上の利用可能性

本発明のデータ処理装置は、様々なデータ処理を実行可能なプロセッサあるレ、は L S I などとして提供することが可能であり、電子素子の集積回路のみならず、光素子、さらには電子素子および光素子を集積した光集積回路装置にも適用することができる。特に、本発明の命令セットを備えた制御プロダラムおよびデータ処理装置においては、データ処理を柔軟に、そして高速に実行できるので、ネットワーク処理や、画像処理などの高速性およびリアルタイム性能を要求されるデータ処理装置に好適なものである。

Claims

請求の範囲

1 . 複数の処理ュニットを有するデータ処理装置を制御するプログラム製品であって、少なくとも 1 つの前記処理ュニットの入力および/または出カインタフェースを、前記処理ュニットにより処理を実行する時期とは独立して指示し、前記処理ュニットにより構成されるデータパスを定義するデータフロー指定命令を有するプログラム製品。

2 . 前記データフロー指定命令は、前記処理ユニットの処理內容を規定可能である、請求項 1 のプログラム製品。

3 . 前記処理ユニットは、特定の内部データパスを備えており、前記データフロー指定命令は、前記内部データパスの一部を選択可能である、請求項 1 のプログラム製品。

4 . 前記データフロー指定命令は、複数の前記処理ュニットにより構成される処理ブロックの入力およびまたは出力インタフエ一スを規定可能である、請求項 1のプログラム製品。

5 . 前記データ処理装置は、前記処理ブロックの入力およびノまたは出力インタフヱ一スを規定する複数のコンフィグレーションデ一タを格納したメモリを有し、

前記デ一タフ口一指定命令は、前記メモリに格納された前記複数のコンフィグレーションデータの 1 つを選択し、前記処理ブロックの入力および Zまたは出力インタフェースを変更可能である、請求項 4のプログラム製品。

6 . 処理ュニットを有するデータ処理装置を制御するプログラムであって、少なくとも 1 つの前記処理ュニッ卜の入力およびまたは出力インタフェースを、前記処理ュニットにより処理を実行する時期とは独立して指示し、前記処理ュニットにより構成されるデータパスを定義するデータフ口一指定命令を有するプログラムが記録されている記録媒体。

7 . 処理ュニットを有するデータ処理装置を制御するプロダラム製品であって、少なくとも 1 つの前記処理ュニッ卜の入力および Z または出力インタフェースを、前記処理ュニットにより処理を実行する時期とは独立して指示し、前記処理ユニットにより構成されるデータパスを定義するデータフ口一指定命令を有するプログラムが埋め込まれている伝送媒体。

8 . 入力およびノまたは出力インタフェースを変更可能な複数の処理ユニットと、

少なくとも 1 つの前記処理ュニットの入力およびまたは出カインタフェースを、前記処理ュニットにより処理を実行する時期とは独立して指示するデータフロ一指定命令をフエッチ可能なュニットと、

前記データフロー指定命令をデコードし、前記処理ユニットの入力および Zまたは出カインタフェースを設定し、複数の前記処理ュニットによるデータパスを構成可能なデータフ口一指定ュニットとを有するデータ処理装置。 9 . 前記データフロー指定ユニットは、前記データフロー指定命令により、前記処理ユニットの処理内容を変更可能である、請求項 8のデータ処理装置。

1 0 . 前記処理ュニットは、特定の内部データパスを備えている、請求項 8 のデータ処理装置。

1 1 . 前記処理ュニットは、少なくとも 1つの論理ゲートと、この論理ゲ一卜と入出力インタフエースを接続する内部デ一タパスとを備えている、請求項 1 0のデータ処理装置。

1 2 . 前記データフロー指定ユニットは、前記データフロー指定命令により、前記処理ュニッ卜の前記内部データパスの一部を選択可能である、請求項 1 0のデータ処理装置。

1 3 . 前記データフロー指定ュニットは、前記処理ュニットのィンタフェースを管理するスケジューラとしての機能を備えている、請求項 8のデータ処理装置。

1 4 . 前記データフロー指定ユニットは、前記データフロー指定命令により、複数の前記処理ュニットにより構成される処理ブロックの入力および Zまたは出力インタフェースを変更可能である、請求項 8 のデータ処理装置。

1 5 . 前記処理ブロックの入力および Zまたは出力インタフエ一スを規定する複数のコンフィグレーションデータを格納したメモリを有し、

前記データフロー指定ュニットは、前記データフロー指定命令により前記メモリに格納された前記複数のコンフィグレーションデータの 1つを選択し、前記処理ブロックの入力およびまたは出カインタフエースを変更可能である、請求項 1 4 のデータ処理装置。

1 6 . 入力およびまたは出力インタフェースを変更可能な複数の処理ユニットを有するデータ処理装置の制御方法であって、少なくとも 1 つの前記処理ュニットの入力およびまたは出カインタフユースを、前記処理ュニットにより処理を実行する時期とは独立して指示するデータフロー指定命令をフェッチする工程と、

前記データフロー指定命令をデコードし、前記処理ユニットの入力および Zまたは出力インタフェースを設定し、複数の前記処理ュニットによるデータパスを構成するデ一タフロー指定工程とを有するデータ処理装置の制御方法。

1 7 . 前記データフロー指定工程では、前記データフロー指定命令により、前記処理ユニットの処理内容を変更可能である、請求項

1 6のデータ処理装置の制御方法。

1 8 . 前記処理ュニットは、特定の内部データパスを備えており、前記データフロー指定工程では、前記データフロー指定命令により、前記処理ユニットの前記内部データパスの一部を選択可能である、請求項 1 6のデータ処理装置の制御方法。

1 9 . 前記データフロー指定工程では、前記処理ュニッ卜のインタフエースを保持するスケジュールも管理する、請求項 1 6のデ一タ処理装置の制御方法。

2 0 . 前記データフロー指定工程では、前記データフロー指定命令により、複数の前記処理ュニットにより構成される処理プロックの入力およびまたは出力インタフェースを変更可能である、請求項 1 6のデータ処理装置の制御方法。

2 1 . 前記データ処理装置は、前記処理ブロックの入力および Z または出力インタフェースを規定する複数のコンフィグレーションデータを格納したメモリを有し、前記データフロー指定工程では、前記データフロー指定命令により、前記メモリに格納された前記複数のコンフィグレーションデータの 1つを選択し、前記処理プロックの入力および Zまたは出カインタフエースを変更可能である、請求項 2 0のデータ処理装置の制御方法。