WO2001016717A1

WO2001016717A1 - Unite de commande et support d'enregistrement

Info

Publication number: WO2001016717A1
Application number: PCT/JP2000/005850
Authority: WO
Inventors: Tomoyoshi Sato
Original assignee: Ip Flex Inc.
Priority date: 1999-08-30
Filing date: 2000-08-30
Publication date: 2001-03-08
Also published as: CA2348261C; AU782238B2; NZ516679A; JP4234925B2; EP1215569A1; IL142676A0; CN1321271A; KR100497078B1; JP3842129B2; KR20010080366A; IL142675A; IL142675A0; CN1301459C; EP1134654A1; US20050240757A1; EA004196B1; KR20010080367A; WO2001016717A8; CN1321270A; KR100491593B1

Description

明細書制御ュニットおよび記録媒体技術分野

本発明は、マイクロコードなどによって記載された制御プロダラムおよびそれを実行可能な制御ュニットに関するものである。背景技術

汎用的および専用的なデジタルデータ処理を行う装置として、マイク口プロセッサー（ M P U ) 、デジタル ' シグナノレプロセッサー ( D S P ) といった演算機能を内蔵したプロセッサ（データ処理装置）が知られている。これらの性能向上に大きく貢献したァーキテクチャ要素として、パイプライン化技術、ス一パー ' パイプライン化技術、スーパー · スケーラ化技術、 V L I W技術、特化型データパス（専用命令）追加を挙げることができる。さらに、分岐予測やレジスタバンク、キャッシュ技術等も挙げることができる。

ノン · パイプラインとパイプラインとの性能差は、明確である。基本的に同一命令であれば、パイプラインの段数だけスル一プットは確実に向上する。また、分岐命令のディレイ（ペナルティ）も、パイプライン段数を大きくした分だけ、相対的に小さくなる。従つて、 4段のパイプラインでは、スループットは 4倍以上となることが期待できる。もし 8段のパイプラインであれば、 8倍という計算となり、スーパ一 ' パイプライン技術は、更に性能を 2倍以上向上させた事になる。実際は、プロセスの進歩に従い、クリティカルパスを細分化可能な為、動作周波数の上限を大きく改善するという効果も期待出来るので、その貢献度は更に大きいものとなって現われる。

次に、スーパー . スケーラ技術であるが、これは内部のデータパ 2 スを高性能化し、プログラムカウンタ近傍の命令を同時実行するものである。この技術はコンパイラの最適化技術の進歩にも支えられて、 4命令から 8命令程度の同時実行が可能になったとされているしかしながら、命令自体はその直前の演算結果やレジスタの結果を頻繁に使用する事が多く、ピーク性能は別にして、フォヮ一ディングゃ命令再配置、アウト ' ォブ ' オーダ、レジスタリネーミング等の各種テクニックを駆使したとしても同時実行可能な命令数は平均的には上記よりかなり低い値とならざるを得ない。特に、条件分岐命令等を複数実行することは不可能なので、スーパー ' スケーラ技術の効果は更に低いものとなる。したがって、プロセッサの性能向上への貢献度としては、平均 2 . 0から 2 . 5倍程度と思われる。非常に相性の良いアプリケーションが仮にあつたとしても、現実的な貢献度は 4倍以下と考えられる。

V L I W技術が、次の技術として浮上する。これは、予めデータパスを並列実行可能なように構成しておき、コンパイラがこの並列実行を高めるように、最適化を行い目的の V L I W命令コードを生成するという考え方であり、極めて合理的な考え方を採用している, これにより、スーパー ' スケーラのように 1つ 1つの命令の並列実行の可能性をチェックする回路が不要なので、並列実行を行うハードウエアの実装手段としては、極めて有望とされているものであるしかしながら、条件分岐命令などを複数実行できないことは上記と同様であり、そのため、実際の性能に対する貢献度としては、 3 . 5倍〜 5倍程度と考えられる。

しかしながら、画像処理や特殊データ処理を必要とするアプリケーシヨンの処理を用途とするプロセッサを考えると、 V L I Wも最適な解決策とはならない。特に演算結果の連続処理を要求されるような用途では、汎用レジスタにデータを抱えながらのデータ演算やデータ処理には限界があるからである。これは従来のパイプライン技術でも同様である。各種のマトリツタス計算やべクトル計算等は、専用回路によりこれを実現した方が高い性能を得られる事は過去の経験から良く知られている。現在、世界最高性能を目指す最先端実装では、 V L I W をベースにアプリケーション目的に応じて、各種の専用演算回路を実装して、最高性能を目指すという考え方が主流になりつつある。

しかしながら、 V L I Wは、プログラムカウンタ近傍の並列処理実行効率を改善する技術であり、例えば 2つ以上のオブジェクト同時実行、 2つ以上の関数実行にはあまり有効な手段とはならない。また、各種の専用演算回路を実装することはハードウェアが増加する一方、ソフトウェアのフレキシビリティーが低下することを意味する。さらに、条件分岐を実行するときに発生するペナルティの問題を本質的に解決し難い。

そこで、本発明においては、これらの従来のプロセッサを高速化する技術と異なった視点から上記の問題を検討し、新たな解決策を提供することを目的としている。すなわち、パイプラインのようにスループットの向上を図ることができると共に、条件分岐を実行する際のペナルティを解決することが可能であり、さらに、複雑なデータ処理であっても専用回路あるいは専用命令を用いなくても高速に実行可能なシステム、すなわち、制御プログラムと、それを実行可能な制御ュニットおよびデータ処理装置を提供することを本発明の目的としている。発明の開示

本願の発明者は、上記のような問題がノンパイプライン技術から今までの技術に用いられている命令セッ卜の制約から上記のような問題が生じていることを見出した。すなわち、プロセッサにおけるデータ処理を規定するプログラム（マイクロコード、アセンブリコード、機械語など）の命令セット（命令フォーマット）は命令操作（実行命令）とその命令を実行する際に使用するレジスタなどの環境またはィンタフェースを規定するオペランドとが組み合わせされたニーモニックコードである。したがって、命令セットを見れば、それによつて指示されている処理の内容を完全に把握できるが、命令セットをデコードするまで処理の内容については全く判らない。そこで、本発明においては、命令セットの構成方法そのものを大幅に変更することにより、従来技術では対応の難しかった上記の問題を上手く解決し、データ処理装置の性能を飛躍的に向上できるようにしている。

すなわち、本発明においては、命令セットの中に、制御ユニットで実行するデータ演算または他のデータ処理の内容を指示する実行命令を記載（記述）可能な第 1 のフィールドと、制御ユニットをデータ演算または他のデータ処理が実行可能な状態にする準備命令を記載（記述）可能な第 2のフィールドとを設け、第 1 のフィールドに記載された実行命令の内容に対し独立した内容の準備命令が第 2のフィールドに記載できるようにしている。そして、この命令セットを有する制御プログラムを制御ュニットが読み取り可能な記録媒体に記録して提供できるようにしている。また、その制御プログラムまたはそれを変換したデータを埋め込んだ伝送媒体は、コンピュータネットワークあるいはその他の通信を介して提供することができる。

さらに、本発明にかかる制御ユニットは、その制御ュニットで実行するデータ演算または他のデータ処理の内容を指示する実行命令を記載可能な第 1 のフィールド、および制御ュニットを前記データ演算または他のデータ処理が実行可能な状態にする準備命令を記載可能な第 2のフィールドとを具備する命令セットをフヱツチするュニットと、第 1 のフィールドの実行命令をデコードし、該制御ュ二ットが予め設定された状態でデータ演算または他のデータ処理を進める第 1 の実行制御ュニットと、第 2 のフィールドの準備命令をデコードし、第 1 の実行制御ュニットの実行内容とは独立して該制御ュニットの状態を設定する第 2 の実行制御ュニットとを有することを特徴としている。

このように、本発明にかかる命令セットは、実行命令を記述する第 1 のフィールドと、この実行命令とは独立した準備命令を記述する第 2のフィールドとを備えたものである。したがって、算術命令などにおいては、第 1 のフィールドに A D Dなどの命令操作が記述され、第 2のフィールドにレジスタを特定する命令が記述されるので、一見、従来のアセンブルコードと同様の命令セットとなる。しかしながら、実行命令と準備命令は独立であり、同じ命令セット内では対応していないので、その命令セットでは制御ユニットで実行される処理が特定されないという特性を備えている。すなわち、本発明にかかる命令セットは従来のニーモニックコードとは大きく異なるものである。そして、従来は 1つの命令セットの中に記述されていた命令操作とそれに対応するオペランドを個別に、独立して定義できるようにすることにより、従来の命令セットでは実現できない処理を簡単に実行することができる。

まず、第 2のフィールドに、後続の命令セットの第 1 のフィールドに記載される実行命令を実行するための準備命令を記述することができる。これにより、実行命令を備えた命令セットが表れる前に、その実行命令を実行するための準備を行うことができる。例えば、ある命令セット（命令フォーマットあるレ、は命令レコード）の第 1 のフィールドに制御ュニットに含まれる少なくとも 1 つの算術論理演算ュニットを操作する命令を記載し、それに先立つ命令セットの第 2のフィールドに、その少なくとも 1 つの算術論理演算ュニットに用いられるソース側のレジスタあるレ、はディスティネーション側のレジスタといった算術論理演算ュニットのインタフェースを規定する命令を記載することができる。これにより、実行命令がフェツチされる前に、算術論理演算ュニッ卜のレジスタ情報がデコードされ、レジスタがセットされ、その後にフェッチされた実行命令により所定の論理演算が実行され、その結果が指定されたレジスタに保存される。デイスティネーション側のレジスタは実行命令と共に第 1 のフィールドに記述することも可能である。

したがって、本発明にかかる命令セットにおいても、パイプライン処理と同様にデータ処理を多段階に分けて実行することが可能でありスループットを向上することができる。また、例えば、 ADD

R O， R l ， # 1 2 3 4 Hという命令は、レジスタ R 1 と # 0 1 2 3 4 Hを加算してこれをレジスタ R Oに格納するとレ、う意味になるが、ハードウェア構成上は、前の命令セットの実行サイクルとオーバラップさせて、 ADDという実行命令を実行する 1 C L K前にレジスタ R 0 と # 0 1 2 3 4 Hを算術論理演算ュニットである算術加算器 AD Dが属するデータパスの入力レジスタにリードを実行しておくと高速実行させる観点からは、都合が良い。つまり、 A C 特性上は、純粋に算術加算を行うようにできるので、実行周波数特性が向上する。

そして、本発明の命令セットにおいては、準備命令を実行命令に際だって記述できるので、条件分岐命令などの分岐命令においては分岐先の情報が実行命令に先立って制御ュニットに与えることができる。すなわち、従来のニーモニックコードでは、命令セットの内容は人間が一目で分かるが、その命令セットが表れるまで処理内容が判らなかったのに対し、本発明にかかる命令セットでは、命令セットの内容は一目では分からないが、実行命令が表れる前に、その実行命令に関連する情報が分かる。したがって、実行命令に先立って分岐先が判るので、その分岐先の命令セットをフェッチすることも可能であり、さらには、分岐先の実行命令に先立ってその準備を行うことも可能となる。

一般に、現在の C P U D S Pの殆どがパイプライン処理を後段 (時間軸が後方）にズラすことで、同様に処理の高速化を図ることに成功している力プログラムの分岐時や C A L L R E T実行時には、この問題が表面化する。つまり、先行してフェッチ · ァドレス情報が得られていない為に、本質的にペナルティとなり、原理的にこれを解消することができない。もちろん、分岐予測やディレイディド ' ブランチ、高速ブランチバッファ、或いは D S Pにて採用されている高速ループ処理技術等は、このペナルティをかなり緩和する事に成功しているが、連続分岐が数多く発生したりすると、その問題点が表面化し、本質的な解決にはなっていないことが認識させられる。

また、後続命令が必要とするレジスタ情報が先に得られない為にパイプライン処理を高速化する為のフォヮ一ディング処理やバイパス処理の複雑さが増大し、従来技術で高速化を図ろうとする事自体が膨大なハードウエア · コストを招く。

このように、従来の命令セットは分岐先のアドレス情報はデコード後にしか得られず、条件分岐を実行するときに発生するペナルティを本質的に解決し難いのに対し、本発明の命令セットにおいては、分岐先の情報を事前に与えることができるので、条件分岐を実行するときのペナルティを無くすことができる。さらに、ハードウェアに余裕があれば、分岐先の準備命令をフェッチして、それに続く実行命令のための準備を行うことも可能となる。分岐条件が整わない場合は、その準備が無駄になるだけであり、実行時間のペナゾレティになることはない。

また、後続命令が必要とするレジスタ情報が、実行命令と同時にあるいは先立って判るので、ハードウェア · コストを増大させずに高速化を図ることが可能となる。

本発明の制御ユニットにおいて、準備命令を実行する第 2の実行制御ュニットは、 F P G Aのようにトランジスタ間の接続を変更可能なアーキテクチャを動的に制御できるものであっても良い。しかしながら、 F P G Aのようにハードウエアをダイナミックに変更するには時間がかかり、また、その時間を短縮するためのハードゥエァが必要となる。これに対し、第 2の実行制御ユニットに、レジスタ情報をデコードしてフエツチするなどの算術論理演算ュニットのインタフェースを規定するスケジューラとしての機能を持たせることにより、短時間で算術論理演算ュニットに対し準備命令を実行できる簡易な構成を提供できる。

さらに、第 2 のフィールドに、制御ユニットに含まれる少なくとも 1 つの算術論理演算ュニットのインタフェースおよびその算術論理演算ュニットの処理内容を規定する命令を記載あるいは記述することにより、データフロー指定を行うことが可能となる。これにより、データパスの独立性を高めることが可能となり結果的にデータフロー指定を別命令プログラムを実行しながら行ったり、アイドル状態にある制御ュニッ卜の内部のデータパスを、外部の他の制御ュニットにおいて実行されている緊急度の高い処理のために貸し出すことも許す構造を容易に提供可能である。

従来は、複雑なデータ処理は、専用回路を用意し、その専用回路を用いる専用命令化するしか対応方法が無くハードウェアコストが増大する。これに対し、本発明の命令セットにおいては、実行命令とは独立して第 2のフィールドにより論理演算ュニットのインタ一フユ一スおよびその処理内容を記述できるので、パイプライン制御やデータパス制御の構造を命令セッ卜の中に取り込むことが可能となる。したがって、本発明は、プログラムカンタ近傍の並列処理を実行だけでなく、 2つ以上オブジェクトの同時擬似実行や 2つ以上の関数の同時擬似実行に有効な手段を提供することになる。つまり . 従来の命令セットでは、 2つ以上のコンテキス卜の異なるデータ処理ゃアルゴリズム実行等の、それぞれ離れたプログラムカウンターに基づく処理が同時に起動ができなかったのに対し、本発明の命令セットを用いてデータフローを適当に定義することにより、プログラムカウンタにかかわらずに処理を実行することが可能となる。

したがって、本命令セットを用いると、並列処理に対して、予めアプリケーション側から見て性能向上に有効と思われるデータパスを第 2 のフィールドを用いてソフトウエアから組み込むことが可能であり、それにより実現されたデータパス（データフロー）を必要に応じて、さらにソフトウエアから命令レベルで起動することができる。このデータパスは、特定の目的に対応したデータ処理だけでなく、一般のステートマシンを起動するような目的にも使用可能なので、極めて自由度が高い。

また、この第 2のフィールドの情報により、先行して次命令の準備サイクルを簡単に発生させることが可能となるために、従来はそのデータ演算対象をレジスタにせざるを得なかったものが、バッファリングを前提とすればメモリ（シングルポート Zデュアルポート）やレジスタファイルで代用可能となる。すなわち、第 2 のフィールドに、制御ュニッ卜に含まれるレジスタまたはバッファとメモリの間の入出力を指示する命令を記述することを可能とし、第 2の実行制御ュニットが制御ュニットに含まれるレジスタまたはバッファとメモリの間の入出力を制御する機能を持つようにすれば実行命令とは独立してメモリに対する入出力を行うことができる。

このことは、 1つ 1つの命令シーケンスの関連性を高めると同時にハードウェアリソースの競合を事前に回避する事に貢献するので複数命令の並列同時実行や外部からの割り込み要因への対応を早めることが可能となる。そして、基本的に、メモリをレジスタと見なせるので、高速なタスクスィッチの実現が可能となる。さらに、従来のファーストフエッチのペナノレティを消せないキャッシュ · メモリの代わりに、プリローデイング型の高速バッファを採用する事も可能となる為、 1 0 0 %のヒット率を保証しながら一切ペナルティの発生しない高速の組み込みシステムの実現も可能となる。

すなわち、メモリをレジスタとみなせるようにすることにより、割り込み等の複数の非同期処理要求に対し高速対応が可能となり、複雑なデータ処理や連続データ処理への対応を非常にフレキシブルに行うことができる。また、レジスタの対比および復帰に時間がかからないので、タスクスィツチ等への高速対応が極めて簡単である _c そして、外部メモリと内部メモリのアクセススピード差の影響を完全に消すことができるので、キャッシュは、ファーストフェッチ - ペナルティの問題を効率良く解決できるといったメリットを得ることができる。したがって、 C A L L Z R E Tや割り込み処理/ I R E Tを高速で処理することができるので、イベントに対する応答環境を簡単に構築でき、ィベントによってデータ処理性能が低下するのを防止できる。

さらに、第 1 または第 2のフィールドを、 V L I Wのように、複数の実行命令または準備命令を記述なフィ一ルドとし、第 1 または第 2 の実行制御ュニットが第 1 または第 2 のフィールドに記載された複数の独立した実行命令または準備命令を独立して処理可能な複数の実行制御部を備えているようにすれば、さらにパフォーマンスを向上できる。

そして、本発明にかかる制御ュニットをコアあるいは周辺回路に採用したデータ処理装置を実現することにより、上述したようなメリットを活かし、処理速度が速く、さらに経済的なデータ処理装置を提供できる。図面の簡単な説明

図 1 は、本発明にかかる命令セットの概要を示す図である。

図 2は、図 1 に示す命令セットの Yフィールドをさらに詳しく説明する図である。

図 3は、図 1 に示す命令セットを実際に用いた簡単な例を示す図である。

図 4は、図 3に示す命令セットによりデータがレジスタに格納される様子を示す図である。

図 5は、本発明にかかる命令セットを実行可能な制御ュニットの例を示す図である。

図 6は、従来の C P Uあるいは D S Pで実行可能なサンプルプログラムである。

図 7は、本発明にかかる制御ュニット用のプログラム例である。図 8は、図 7に示すプログラムを本発明にかかる命令セットの実行プログラムにコンパイルした例を示す図である。

図 9は、本発明にかかる制御ュニット用の異なるプログラム例である。

図 1 0は、図 9のプログラムにより構成されたデータフローを示す図である。発明を実施するための最良の形態

以下に図面を参照して、本発明をさらに詳しく説明する。図 1 に本発明にかかる命令セット（命令フォーマット）の構成を示してある。本発明にかかる命令セット（D N A / D A Pの命令セット） 1 0は、第 1 のフィールドである命令実行基本フィールド（ Xフィーノレド） 1 1 と呼ばれる部分と、次の命令実行の効率化を図ることができる第 2 のフィールドである次命令実行準備サイクル（追加フィールドあるレ、は Yフィールド） 1 2 と呼ばれる 2つのフィールドを備えている。命令実行基本フィールド（ Xフィールド） 1 1 は. データ演算およびその他の各種データ処理内容を指定し、その結果が格納される先を指定する。また、 Xフィールド 1 1 は、命令長の使用効率を上げるために実際に実行される命令の情報しか含まない _c 一方、追加フィールド（Yフィールド） 1 2 は、同一の命令セットの Xフィールドの実行命令とは独立した命令（情報）が記述可能であり、たとえば、次の命令の実行準備サイクルに割当てられる。

さらに詳しく命令セット 1 0を説明すると、 Xフィールド 1 1 は. 算術論理演算ュニットなどに対する命令操作あるいは実行命令（Ex ecution ID ) を記述する実行命令フィールド 1 5 と、 Yフィールド 1 2の有効 Z無効および Yフィールド 1 2で示す準備命令のタィプを示すフィールド（タイプフィールド） 1 6 と、デイスティネーションのレジスタを示すフィールド 1 7 とを備えている。タイプフィーノレド 1 6 の内容は、 Xフィールド 1 1 の他のフィーノレドの内容とは独立して定義できることは上述した通りである。

また、 Υフィールド 1 2は、タイプフィールド 1 6によって規定される準備命令が記述される。この Υフィールド 1 2に記述される準備命令は、データ演算または他のデータ処理を実行可能な状態にするための情報であり、図 2に具体的な幾つかの例を示してある。先ず、実行命令フィールド 1 5 とタイプフィールド 1 6 とは独立または無関係である。 Υフィールド 1 2には、アドレス I D 2 1 と、それによつて利用目的が規定されるァドレス情報 2 2を記述することができる。この Υフィールド 1 2に記述されたアドレスは、レジスタあるいはバッファとメモリ（レジスタファイルを含む）との間のリードおよびライトに用いられ、 D Μ Αのようにブロック転送も可能な構成になっている。さらに、分岐命令を実行したときの分岐先を示すアドレス（フェッチアドレス）、並列実行するときのスタートァドレスなどの情報も Yフィールド 1 2に記述することがでさる。

また、レジスタタイプの命令、たとえば、算術演算あるいはその他の論理演算命令（M O V E、メモリ一リード Zライトなども含む）に対してソース側となるレジスタ情報あるいは即値（イミ一ディエイト）を規定する情報 2 3 も Yフィールド 1 2に記述することができる。

さらに、 Yフィールド 1 2には、算術論理演算ユニット（ A L

U ) のソース、ディステイネイシヨンおよび処理内容を規定する情報 2 5 も記述することが可能である。したがって、 Yフィールド 1 2によってデータ処理を行うためのパイプライン（データフローあるいはデータパス）を定義することができる。もちろん、 Yフィールドには、そのデータフローをスタートする情報および終了する情報を記述することが可能であり、定義したデータフローにプロダラムカウンタから独立した処理を行うことができる。

なお、図 1および図 2に示した命令セットのフォーマットは、本発明にかかる 2つの独立した命令フィールドを備えた命令セットの一例であり、これに限定されないことはもちろんである。例えば、タイプフィールドの位置は、本例に限定される必要はないし、 Y フィールドの先頭に位置させることも可能である。また、以下では Xフィールドぉよび Yフィールドに実行命令あるいは準備命令が記載あるいは記述された例を説明するが、これらのフィールドに命令を記述せず（N O P ) 、 Xフィールドあるいは Yフィールドだけが意味を持つような命令セットももちろん可能である。さらに、従来の命令セットと同様に、 Xフィールドに記述された実行命令にかかるレジスタ情報などのオペランドを備えた、すなわち、実行命令に対し独立していない準備命令が同時に記述された命令セットを本発明にかかる命令セットと混在してプログラミングすることも可能であるが、以下では本発明をわかりやすく説明するためにそのような例は記載していない。

図 3に、本例の命令セット 1 0の簡単な例を示してある。先ず、 T j — 1番目の命令セット 1 0 ( j _ l ) の Xフィールド 1 1 のタィプフィールド 1 6に Yフィーノレド 1 2に 3 2 ビットのイミ一ディエイトが記載されていることが示されている。そして Yフィールド 1 2には、イミ一ディエイトとして # 0 0 0 0 1 2 3 4 Hが記載されている。次の T j 番目の命令セット 1 0 ( j ) にでは、 Xフィーノレド 1 1 の実行命令フィールド 1 5に M〇 V Eが記載され、デイスティネーションフィ一ルド 1 7 にレジスタ R 3が記載されている。このため、この命令セット 1 0 (： j ) をフェッチすると、制御ュニットの A L Uは、前の命令フィールド 1 0 ( j — 1 ) に定義されたイミ一ディエイト # 0 0 0 0 1 2 3 4 Hをレジスタ R 3に格納する。

このようにして、本例の命令セット 1 0では、実行命令が記述された命令セット 1 0 ( j ) の前の命令セット 1 0 ( j — 1 ) によりその実行命令の準備が行われる。したがって、命令セット 1 0

( j ) だけでは制御ュニットを構成する A L Uが実行する処理内容は判らないが、 2つの命令セット 1 0 ( j — 1 ) および 1 0 ( j ) により A L Uが実行する処理内容は一義的に決定される。もちろん命令セット 1 0 ( j — 1 ) の実行命令フィールド 1 5 には、 Y フィールド 1 2 とは独立して命令セット 1 0 ( j — 1 ) の前の命令セットの Yフィールド 1 2により準備された処理を実行する命令が記述されている。また、命令セット 1 0 ( j ) のタイプフィールド

1 6および Yフィールド 1 2には、次の命令セットの実行命令フィールドに記述された実行命令の準備をする情報が記述されている。

また、本例では、ある実行命令が Xフィールド 1 1 に記述された令セット 1 0 ( j ) の直前の命令セット 1 0 の Y フィールド 1 2に、その実行命令の準備情報（準備命令）が記述されているが、準備情報が記述される命令セットは、直前の命令セットにかぎられるものではない。例えば、複数の A L Uを備えた制御ュニットの制御プログラムなどであれば直前の命令セットである必要はなく、準備命令によってセットされた A L Uの状態（環境あるいはインタフェース）力その準備命令に対応する実行命令を備えた命令セットがフエツチされて実行されるまで保持されるのであれば、数命令前の命令セットの Yフィ一ルドで準備命令を記述できる図 4に、図 3に示した命令セットによりレジスタとして機能するレジスタファイルあるいはメモリに値が格納される様子を示してある。先ず、 T j 一 1番目の命令セット 1 0 ( j — 1 ) によりイミ一ディエイト W 0 0 0 0 1 2 3 4 Hが A L Uのソース側のレジスタ D

P 0. Rにラッチされる。そして、 T j 番目の命令セット 1 0 ( j ) を実行するサイクルでバッファ 2 9にストアされる。その後メモリまたはレジスタフアイノレ 2 8 のレジスタ R 3 のァドレスにバッファ 2 9の値が格納される。

図 5に、本例の命令セット 1 0により処理内容が記述されたプログラムを時刻可能な制御ユニット 3 0の概略構成を示してある。本例の命令セット 1 0を具備したマイクロコードあるいはマイクロプログラムはコード R O M 3 9に記憶されており、フェッチュニット 3 1 によりマイクロプログラムを構成する命令セット 1 0が随時フェッチされる。制御ユニット 3 0は、フェッチされた命令セット 1 0の Xフィールド 1 1 をデコードして A L U 3 4の処理内容を決定あるいはアサートすると共に、 A L U 3 4の論理演算結果をディスティネーシヨンのレジスタ 3 4 dを選択してラツチする機能を備えた第 1 の実行制御ュニット 3 2を備えている。

さらに、制御ユエット 3 0は、フェッチされた命令セット 1 0の Yフィールド 1 2を Xフィールド 1 1 のタイプフィールド 1 6 の情報に基づいてデコードし、 A L U 3 4のソース側のレジスタ 3 4 s を選択する機能を備えた第 2 の実行制御ュ-ット 3 3を備えている _t この第 2 の実行制御ュニット 3 3は、タイプフィールド 1 6 の情報を除き、 Yフィールド 1 2 の命令あるレ、は情報を Xフィールド 1 1 の内容とは独立して解釈することができる。第 2の実行制御ュニット 3 3は、さらに、 Yフィールド 1 2に記載された情報がデータフ口一を規定するものであれば、 A L U 3 4のソース側およびディスティネーシヨン側の選択あるいは設定、すなわち、 A L U 3 4のィンタフェースを決定し、さらに、その状態を所定のクロックあるいは解除の指示があるまで連続的に保持する機能も備えている。また. Yフィールド 1 2の情報がデータフローを規定する場合は、この第 2 の実行制御ユニット 3 3は、さらに、 A L Uの処理内容も決定し. その状態を所定の期間保持する。

本例の制御ユニット 3 0は、さらに、このような実行制御ュニット 3 2および 3 3 と、 A L U 3 4の組み合わせを複数備えており、これらによって様々な処理が実行できるようになつている。したがって、本例の制御ュニット 3 0をコアあるいは周辺回路として画像データを高速で処理するような D S P、汎用のデジタル処理を高速で行える C P Uあるいは M P Uなどを構成することが可能である図 6ないし図 9に、本例の制御ュニット 3 0で実行するプログラムの一例を示してある。図 6に示したサンプルプログラム 4 1 は、従来の C P Uあるいは D S Pで実行可能なように作成した例である, このプログラムは、 # S T A R Tのァドレスから始まるテーブルから最も大きな値を抽出し、最終データであることを示す # E N Dを検出すると終了するプログラムである。

図 7に記載したプログラム 4 2は、図 6 と同じ処理を本発明にかかる命令セットを実行可能な制御ュニット 3 0に適したプログラムに変換したものであり、 2命令を 1 つの命令セットで実行できる例を示してある。図 7に示したプログラムは、コンパイラ一を通して本発明にかかる命令セットの実行プロダラムに変換され、制御ュニット 3 0で実行される。図 8にコンパイルした例 4 3を示してある。本図から判るように、第 1 の番目の命令セットの Yフィールド 1 2で 2番目の実行命令の準備が行われ、 2番目の命令セットを実行するときは、その実行命令フィールド 1 5の M O V E命令を単に実行するだけになる。同様に、 2番目の命令セットの Yフィールド 1 2には次の命令セッ卜の実行命令フィールドの実行命令の準備情報が記述されている。

このように、本発明の命令セットによれば、各々の命令セットに記載された実行命令を行うときは、 A L Uのソース側にデータがリ一ドされているので純粋に算術命令だけを行うようになるので A C特性が良く、実行周波数特性が向上する。さらに、実行命令に対する前後の差はあるが、従来のパイプラインと同様に、命令フェツチ、レジスタデコード、処理実行などを段階的に行うことが可能であり、スループットも向上できる。また、本例のプログラムは 2命令を 1命令セットに記述できるようになっているので、 V L I Wと同様にプログラムカウンタの近傍の複数の命令を並列実行することにより処理速度を向上することができる。

さらに、 4番目の命令セットの実行命令フィールド 1 5には条件分岐が記述されており、その分岐先のアドレスは、この命令セットに先行する 3番目の命令セットの Yフィールド 1 2に記述されている。したがって、 4番目の命令セットを実行する際に、あるいはそれに先立ってフェッチレジスタに分岐先のァドレスをセットし、分岐条件が成立したときにペナルティーなく分岐先の命令セットをフェッチあるいは実行することができる。さらには、分岐先の命令をプリフユツチしておくことも可能であり、分岐先の実行命令を実行する準備を事前に整えておくことも可能となる。したがって、分岐先の命令であっても 1 ク口ックの無駄もなく実行することが可能であり、 1 クロック単位で処理を正確に定義することができる。図 9には、さらに、本発明の命令セット 1 0の Yフィールド 1 2 を用いてデータフローを定義し、そのデータフローにより上記と同様の処理を行うプログラム 4 4の例を示してある。 D F L W I は、データフローの初期設定を行う命令であり、 D F L W Cはデータフロー（データパス）を構成する A L Uの接続情報（インタフェースの情報）および処理内容を規定する命令である。また、 D F L W T はデータフローの終了条件を規定する命令であり、最後に、このようにして定義されたデータフ口一にデータを入力して処理を行う D F L W Sが記述されている。

図 9に示した本例のデータフロー指定では、第 2の実行制御ュニット 3 3がスケジューラ 3 6 として機能し、図 1 0に示すように 3つの A L U 3 4のインタフェース（入出力）と、その処理内容を規定し、それを終了条件が成立するまで保持する。したがって、これらの A L U 3 4により構成されるデータフローあるレ、はデータパスにより、クロック単位で次々と図 6に示した処理と同じ処理が進行する。すなわち、データフロー指定を行うことにより、 3つの A L U 3 4によって制御ュニット 3 0の中に、その処理のための専用回路が設けられた状態となり、プログラムカウンタの制御から外れて最大値を求める処理を実行することができる。したがって、図 9 から判るように、データフローを定義することにより分岐命令を用いずに図 6あるいは図 7に記載されたプログラムを同じ処理を実行することができる。このため、汎用の制御ユニット 3 0でありながら、専用回路を備えた制御ュニットと同様に特定の処理を非常に高速に効率良く行うことが可能となる。

本発明にかかる命令セットおよび制御ユニットにより、様々な処理を行うデータフローあるいは疑似データフローを制御ユニットに設けることができる。これらのデータフローはテンプレー卜として他の処理あるいは他のプログラムにも適用できるものであり、ソフトウエアを用いてハードウェアを随時、特定のデータ処理に適した構成に変更でき、それを他のプログラムあるいは他のハードウエアにおいても実現できることを意味する。そして、このようなデータフローを複数設定することも可能であり、マルチコマンドストリームをソフトウエアを用いて制御ュニットの中に定義することができる。したがって、複数の処理を並列実行することが極めて簡単となり、その実行内容をプログラミングにより自由に制御することができる。

また、従来のプロセッサでは、複数のマルチプロセッサ間の接続方法が、共有メモリ等を通す方法しか存在せず、アイドル状態のプ口セッサ一が存在しても、その内部データ処理ユニットを外部から利用する方法が無かったのに対し、本発明にかかる制御ュニットにおいては、適当なデータフローを設定することにより、余っているハードウェアを他の制御ユニットにより使用するといつたことも可能となる。さらに、副次的な効果として、命令実行シーケンスの効率化と內部データパスの独立性の確保と自由度（流用度）の向上により、本発明にかかる制御ュニットあるレ、はそれを用いたプロセッサにおいては、実行するハードウェアに余裕さえあれば、全く性質の異なるコンテクストの命令シーケンスを同時に供給しても問題無く実行することが可能となる。

更に、現在、ハードウェアとソフトウェアの強調設計によるメリットが盛んに指摘されるようになったが、本発明による命令セットおよび制御ュニットを採用することにより、ユーザ側の要求するアルゴリズムやデータ処理を許されるハードウェア ■ コストでどう効率良く経済的に実現可能かという事に対しする 1つの回答を与えることができる。例えば、ハードウェア · コストを最小に抑制しながら、性能向上に貢献可能なデータパス（データフロー）を、過去のデータパスに関する構成結果情報である本発明にかかる命令セット（旧 D A P / D N A ) のデータ情報と、その後に追加されるハードゥユア構成情報およびデータ処理を実行するシーケンス情報から新しいタイプの組み合わせ結果、すなわち、新しいデータフローを定義するソフトウユアを導き、極めて無駄の少ない最適解を提供することが可能となる。

また、従来は、ハードウェア構成が要素化され難いために、その相互の組み合わせ自体の柔軟性が無く、基本的には、性能を上げる為に 1つ新規のデータパスを追加するというようなやり方が主流であった。そして、性能向上のための情報蓄積の点でも、実際にそれを実現する上で必要となるハードウユア情報の追加という観点でも、数値化し難くデータべ一ス化することは困難であった。上での問題点であった。これに対し、本発明によれば、ある程度コンパクトなデータパスをいくつかテンプレート的に用意しておき、そのデータパス間の組み合わせを指示して、データフロー型の処理に持ち込むことにより高性能化を図ることが可能である。そして、極めて細かい単位でのハードウエアとソフトウェアとの連携の見積もりが容易となる。また、ハードウェアとソフトウェアのトレードオフ情報を蓄積することも可能で、データパス単位でその組み合わせの可能性が、処理性能貢献度と密接に結びつく事になる。したがって、ハードウユアとソフトウェアの緊密な実行性能データや処理要求に応じた性能コストの正確な見積もりを蓄積することが可能となる。もちろん、これらのデータパスは主要な処理あるいは汎用的な処理の実行を停止させないで実現することも可能となるため、性能要求に対して、何をどれだけどのように追加すれば、どのような結果が期待出来るという事を、純粋に過去に蓄積された本発明にかかる命令セットおよびハードウエアのデータから予測する事が可能とする。

これは、現在行われている設計コストゃ仕様策定コス卜の著しい低減に貢献するだけで無く、次の新しい設計に対して、新規に追加すべきハードウエアとソフトウエアのトレードオフを必要最小限で完了させる事に貢献する。また、処理形態に応じて、内部のデータパスを外部へ貸し出しする事も容易にする為、ハードウユアのリソースシェアリング化が可能となり、複数の本発明にかかるモジュール（ D A P D N Aモジュール）の間で並列処理化を極め、コンパクトなハードウエアで実現する事が可能となる。

本発明の命令セットおよび制御ュニットにより提供される新しいプログラミング環境においては、上述した以外にも特殊な命令を設けることが可能である。例えば、現在のプログラムとは別に、 1つ以上のオブジェクト（プログラム）を同時に起動し、並列処理起動を命令レベルでサポートする X F〇 R K、オブジェクト（プロダラム）間の同期を指定する X S Y N K、並列処理間のパイプライン結合を命令する X P I Ρ Ε、現在のオブジェクトを終了し、次のォブジェタトを起動する X S W I T C Ηなどが考えられている。

以上に説明したように、本発明にかかる命令セットおよびそれを用いたプロダラミングおよびそれを実行可能な制御ュニットの技術は、従来の命令セットの構成方法そのものを大幅に変更するものであり、これにより、従来技術では対応の難しかった上述したような問題を上手く解決し、大きな性能向上を図ることができる。

すなわち、本発明にかかる命令セットは、命令セットの構成方法を従来の命令セットの構成方法とは全く異なる視点から見直すことにより、従来技術では解決の極めて困難と思われる多くの問題を、極めて効率良く解決している。実際、従来技術においては、その命令セットの構成法とハードウユアによる命令供給（入手）方法が、極めて画一的で伝統的な先入観により実現されていたため、本質的な意味での解決を遠ざけており、その問題点を全て膨大で複雑なハードウェア構成により解決しょうとすることで社会へ貢献すべきテクノロジーとその上に構築される各種の情報処理製品の開発コストを膨大に引き上げる原因となっていた。本発明は、これを本来あるべきアプリケーション要求を優先した命令セットを実現することにより、単に製品性能の効率化に止まらず、その高い開発効率と製品の品質保証を得易い手段を提供することができる。また、これにより、従来存在したアプリケーション間の資産の共有化とハードウェア資産の共有化、及び高性能化に対する適切なハードウユア投資がより健全な方向へ向かい、ネットワーク化社会を構築する上でのテクノロジー ■ インフラとしても大きく貢献可能となることが期待できる。

Claims

請求の範囲

1 . 命令セットの中に、制御ユニットで実行するデータ演算または他のデータ処理の内容を指示する実行命令を記載可能な第 1 のフィールドと、前記制御ユニットを前記データ演算または他のデータ処理が実行可能な状態にする準備命令を記載可能な第 2 のフィーゾレドとを有し、前記第 1 のフィ一ルドに記載された実行命令の内容に対し独立した内容の準備命令が前記第 2のフィールドに記載された制御プログラムが記録されていることを特徴とする制御ユニットが読み取り可能な記録媒体。

2 . 請求項 1 において、前記第 2のフィールドに、後続の命令セットの前記第 1 のフィールドに記載される実行命令を実行するための準備命令が記載された前記制御プログラムが記録されていることを特徴とする制御ュニットが読み取り可能な記録媒体。

3 . 請求項 1 において、前記第 1 のフィールドに、前記制御ュニットに含まれる少なくとも 1つの算術論理演算ュニットを操作する命令が記載され、前記第 2 のフィールドに、前記少なくとも 1 つの算術論理演算ュニットのインタフェースを規定する命令が記載された前記制御プログラムが記録されていることを特徵とする制御ュニットが読み取り可能な記録媒体。

4 . 請求項 1 において、前記第 2のフィールドに、前記制御ュニットに含まれる少なくとも 1 つの算術論理演算ュニットのインタフェースおよびその算術論理演算ュニットの処理内容を規定する命令が記載された前記制御プログラムが記録されていることを特徴とする制御ュニッ卜が読み取り可能な記録媒体。

5 . 請求項 1 において、前記第 2のフィールドに、前記制御ュニットに含まれるレジスタまたはバッファとメモリの間の入出力を指示する命令が記載された前記制御プログラムが記録されていることを特徴とする制御ュ-ットが読み取り可能な記録媒体。

6 . 請求項 1 において、前記第 1 または第 2のフィールドは、複数の実行命令または準備命令を記載可能なフィ一ルドを備えている前記制御プログラムが記録されていることを特徴とする制御ュニットが読み取り可能な記録媒体。

7 . 命令セットの中に、制御ユニットで実行するデータ演算または他のデータ処理の内容を指示する実行命令を記載可能な第 1 のフィールドと、前記制御ュニットを前記データ演算または他のデ一タ処理が実行可能な状態にする準備命令を記載可能な第 2のフィ一ルドとを有し、前記第 1 のフィ一ルドに記載された実行命令の内容に対し独立した内容の準備命令が前記第 2のフィールドに記載された制御プログラムが埋め込まれていることを特徴とする伝送媒体。

8 . 制御ュニットで実行するデータ演算または他のデータ処理の内容を指示する実行命令を記載可能な第 1 のフィールド、および前記制御ュニットを前記データ演算または他のデータ処理が実行可能な状態にする準備命令を記載可能な第 2 のフィールドとを具備する命令セットをフェッチするュニットと、

前記第 1 のフィールドの実行命令をデコードし、前記制御ュニットが予め設定された状態でデータ演算または他のデータ処理を進める第 1 の実行制御ュニットと、

前記第 2 のフィールドの準備命令をデコードし、前記第 1 の実行制御ュニットの実行内容とは独立して前記制御ュニットの状態を設定する第 2の実行制御ュニットとを有する制御ュニット。

9 . 請求項 8において、前記第 2 の実行制御ユニットは、前記制御ュニットに含まれる少なくとも 1 つの算術論理演算ュニットのィンタフェースを規定するスケジューラとしての機能を備えていることを特徴とする制御ュニット。

1 0 . 請求項 8において、前記第 2の実行制御ユニットは、前記制御ュニットに含まれるレジスタまたはバッファとメモリの間の入出力を制御する機能を備えていることを特徴とする制御ユニット。

1 1 . 請求項 8において、前記第 1 または第 2 の実行制御ュニットは、前記第 1 または第 2のフィールドに記載された複数の独立した実行命令または準備命令を独立して処理可能な複数の実行制御部を備えている制御ュニット。

1 2 . 請求項 8に記載の制御ュニットを有するデータ処理装置。