JPS6349843A

JPS6349843A - 縮小命令セット・コンピュ−タ

Info

Publication number: JPS6349843A
Application number: JP62119167A
Authority: JP
Inventors: ジャオ−メイ・チュアング
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-08-18
Filing date: 1987-05-18
Publication date: 1988-03-02
Also published as: US4766566A; EP0260409B1; EP0260409A3; EP0260409A2; DE3750625D1; DE3750625T2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明は一般に縮小命令セット・コンピュータ（ＲＩＳ
Ｃ）に関し、より具体的には、ハードウェアをほとんど
追加せずにＲＩＳＣの性能を高めることに関するもので
ある。

ＲＩＳＣ技術の２つの例が、次の論文に詳細に記載され
ている。（１）　Ｇｅｏｒｇｅ　Ｒａｄｉａｎによるｒ
Ｔｈｅ　８０１　Ｍｉｎｉｃｏｍｐｕｔｅｒ　Ｊと（２
）　Ｐａｔｔｅｒｓｏｎおよび５ｅｑｕｉｒ＋によるｒ
ＲＩｓｃ　Ｉ：　　Ａ　ｒｅｄｕｃｅｄＩｎｓｔｒｕｃ
ｔｉｏｎ　Ｓｅｔ　ＶＬＳＩ　Ｃｏｍｐｕｔｅｒ　Ｊ。

この２つの論文に対する完全な書誌的情報については、
以下でさらに十分に説明する。

半導体産業では、最近の開発試況が示すように、超大規
模集積回路（ＶＬＳ　Ｉ　）でマイクロプロセッサの設
計者が選択すべき道が２つある。第１の手法は、どんど
ん複雑なマイクロプロセッサを開発することである。ソ
フトウェアからハードウェアに移される機能がより多く
なって、ハードウェアがそれだけ複雑になる。第２の手
法は、簡単な機能を実行するより速いプロセッサを開発
することである。この手法では、ソフトウェアで機能の
大部分を実現することが必要である。上記２つの論文は
２番目の手法を支持している。

ＶＬＳ１回路が複雑になると、設計者は高価なソフトウ
ェアの代りにより安価な手段を使用するようになる。ハ
ードウェアによる方法の方が、実行速度も速い。ソフト
ウェア機能をハードウェアで実現すると、簡潔で、効率
的で、作成しやすく、コンパイルおよびデパックしやす
い高水準言語プログラムをプログラマが開発できるよう
になる。

第１の手法の欠点は、複雑になるにつれて、設計時間が
長くかかり、設計エラー可能性が増大したり、実現する
うえでの選択のばばが増大することである。この種のコ
ンピュータは複雑命令セット・コンピュータ（ＣＩＳＣ
）システムと呼ばれる。

第２の手法、すなわちＲＩＳＣシステムに従って、シス
テム・アーキテクチャに対する独自の手法が実現された
。この設計の核心はＣＰＵである。

このシステム設計では、ユーザがＣＰＵの主要機能を使
用することが可能である。その編成はＣｌ５Ｃシステム
とは異なる。

中型の中央演算処理装置（ＣＰＵ）は一般に、ＣＰＵの
アーキテクチャをエミュレートするマイクロプロセッサ
として設計される。それには、各命令を幾つかのマイク
ロプロセッサの命令にマツプする必要がある。各ＣＰＬ
Ｉ命令を実行するために必要な命令の数は、基礎となる
マイクロプロセッサの能力、ＣＰＵアーキテクチャおよ
びアプリケーションの複雑さに応じて変わる。たとえば
、ＩＢＭ　　Ｓ／３７０モデル１６８は、Ｓ／３７０の
１つの命令光たり３ないし６サイクルを必要とする。

アプリケーションのタイプが異なると、命令の使用法も
違ってくる。たとえば、コンピュータ支援設計アプリケ
ーションでは浮動小数点命令を使用し、小切手処理アプ
リケーションでは１０進数演算を使用する。大部分のア
プリケーションでは、最も一般的な命令が類似している
。これらの命令は、ロード、ストア、分岐、比較、整数
演算および論理シフト等の比較的簡単な機能であること
が多い。これらと同じ機能が、一般にマイクロプロセッ
サでも使用できる。

使用可能な機能を一層活用するため、基本縮小命令セッ
ト・マシーン（ＰＲＩＳ〜１）システムのために設計さ
れた基本命令セットをハードウェアで直接実行すること
ができる。すべての基本命令はちょうど１マシーン・サ
イクルを要する。複雑な機能は、Ｃｌ５Ｃインプリメン
テーシヨンの場合と同様の「マイクロコード」で実現さ
れる。すなわち、複雑な機能が、基本命令セットを実行
するソフトウェアで実現される。

Ｃｌ５Ｃインプリメンテーシヨンでは、設計者は、どの
機能が最も頻繁に使用されるかを前もって判断する。た
とえば、１０進乗算機能が制御記憶装置にあり、割込み
処理プログラムが主記憶装置に入っている。命令キャッ
シュを使用する場合は、最近の使用法は、どの機能がす
ぐに使用できるかを指示する。

この手法は、複雑な命令がマイクロプログラム化された
手頃な価格のＣＰＵと同等の能力を最悪でも達成する。

しかし、コンパイラのことを念頭に置きながら基本命令
を選ぶと、実際に必要なサイクルはずっと少なくなる。

以上に述べた情報は、ＲＩＳＣプロセッサのアーキテク
チャを説明するためのものである。さらに詳細な情報に
ついては、以下のような他の特許出願および特許明細書
がある。

（１）米国特許第４５８９０８７号、「基本命令セット
・マシーン用の条件レジスタ・アーキテクチャ（Ｃｏｎ
ｄｉｔｊｏｎ　Ｒｅｇｉｓｔｅｒ　Ａｒｃｈｉｔｅｃｔ
ｕｒｅ　ｆｏｒ　ａＰｒｉｍｉｔｉｖｅ　　Ｉｎ５ｔｒ
ｕｃｔｉｏｎ　　Ｓｅｔ　　ｌイａｃｈ：ｎｅ　　ン　
Ｊ　　。

（２）米国特許第４５８９０６５号、「１マシーン・サ
イクルで実行可能なトラップ命令を基本命令セット・コ
ンピュータ・システムで実現するなめの機構□１ｌｅｃ
ｈａｎｉｓ＋＋＋　ｆｏｒ　Ｉｍｐｌｅｍｅｎｔｉｎｇ
　ＯｎｅＭａｃｈｉｎｅ　Ｃｙｃｌｅ　Ｅｘｅｃｕｔａ
ｂｌｅ　Ｔｒａｐ　Ｉｎ５ｔｒｕｃｔｉｏｎｓｉｎ　ａ
　Ｐｒ１ｍ１ｔｉｖｅ　Ｉｎ５ｔｒｕｃｔｉｏｎ　Ｓｅ
ｔ　ｃｏｍｐｕｔｉｎＢＳｙｓｔｅｍ　）　Ｊ。

（３）　　ｒｌマシーン・サイクルで実行可能なブラン
チ・オン・ビット：イン・エニイ・レジスタ命令を基本
命令セット・コンピュータ・システムで実現するための
機構（Ｍｅｃｈａｎｉｓｍ　ｆｏｒＩｍｐｌｅｍｅｎｔ
ｉｎｇ　Ｏｎｅ　Ｍａｃｈｉｎｅ　Ｃｙｃｌｅ　Ｅｘｅ
ｃｕｔａｂｌｅＢｒａｎｃｈ−Ｏｎ−Ｂｉｔ−Ｉｎ−Ａ
ｎｙ−Ｒｅｇｉｓｔｅｒ　Ｉｎ５ｔｒｕｃｔｉｏｎｓｉ
ｎ　ａ　Ｐｒ１ｍ１ｔｉｖｅ　Ｉｎ５ｔｒｕｃｔｉｏｎ
　Ｓｅｔ　ＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍ　）　Ｊと
題する米国特許呂願第５０９７３４号。

（４）米国特許第４５６９０１６号、「１マシーン・サ
イクルで実行可能なマスクおよび回転命令を基本命令セ
ット・コンピュータ・システムで実現するための機構（
Ｍｅｃｈａｎｉｓｍ　ｆｏｒ　Ｉｍｐｌｅｍｅｎｔｉｎ
ｇＯｎｅ　Ｍａｃｈｉｎｅ　Ｃｙｃｌｅ　Ｅｘｅｃｕｔ
ａｂｌｅ　Ｍａｓｋ　ａｎｄ　ＲｏｔａｔｅＩｎｓｔｒ
ｕｃｔｉｏｎｓ　　ｉｎ　ａ　Ｐｒ１ｍ１ｔｉｖｅ　Ｉ
ｎ５ｔｒｕｃｔｉｏｎ　ＳｅｔＣｏｍｐｕｔｉｎｇＳｙ
ｓｔｅｍ　）　Ｊ。

（５）　　ｒ基本命令セット・マシーン用の内部バス・
アーキテクチャ（Ｉｎｔｅｒｎａｌ　Ｂｕｓ　Ａｒｃｈ
ｉｔｅｃｔｕｒｅｆｏｒ　ａ　Ｐｒ１ｍ１ｔｉｖｅ　Ｉ
ｎ５ｔｒｕｃｔｉｏｎ　Ｓｅｔ　Ｍａｃｈｉｎｅ　）　
Ｊと題する米国特許出願第５６６９２５号。

Ｂ、従来技術ＲＩＳＣコンピュータの技術は、下記の２つの論文に記
載されている。

（１）　　ＡＣＭ　　５ＩＧＰＬＡＮ　　Ｎ０ＴＩＣＥ
Ｓ。

Ｖｏｌ、１７、Ｎｏ、４．１９８２年４月、ページ３９
〜４７に公表されたＧｅｏｒｇｅ　Ｒａｄｉｎにょるｒ
Ｔｈｅ　８０１旧ｎｉｃｏｍｐｕｔｅｒ　Ｊ。

（２）１９８１年５月１２日から１４日のアーキテクチ
ャに関する第８回ｒＥＥＥ年次シンポジウムの会議議事
録、ページ４４３〜４４９に所載の「ＲＩＳＣ１：　Ａ
　Ｒｅｄｕｃｅｄ　Ｉｎ５ｔｒｕｃｔｉｏｎ　Ｓｅｔ　
ＶＬＳＩｃｏｍｐｕｔｅｒＪ　。

ｒｔｌｓｃコンピュータは、命令駆動ディジタル・コン
ピュータである。この種のコンピュータはユーザの仕様
に従ってデータを処理する。ユーザの仕様は、命令クル
ープから成るプログラム中に編成される。

プログラムはコンパイラで処理されて、オブジェクト・
デックが作成される。オブジェクト・ブックは、−組の
他のオブジェクト・デックとリンクされて、機械語によ
る実行可能モジュールが作成される。機械語は、特定の
ハードウェアが、命令として認識して実行する情報であ
る。

初期のコンパイラは主として、ユーザがアプリケーショ
ンを開発するのに用いた言８を機械語に変換することに
関係していた。コンパイラがどんどん複雑になるにつれ
て、コンパイラは、プログラムを一層効率的かつ一層速
く実行できるようにするため最適化手法を使用し始めた
。最適化手法が洗練されてくるにつれて、これらの手法
は目標アーキテクチャを一層考慮に入れ始めた。

ＲＩＳＣコンピュータ以前は、コンパイラにとって常に
１つの欠点があった。マシーン・アーキテクチャが、機
械語命令を＠適化するように設計されていた。ＲＩＳＣ
マシーンの出現と共に、マシーンが設計されるとき、コ
ンパイラが考慮に入れられるようになった。ＲＩＳＣマ
シーンは、コンパイルされた手順で最適に動作する。コ
ンパイラで生成される命令は、ユーザが定義したオペレ
ーションを実行するため、−度に１つまたは複数ずつ順
次実行されるようになっている。

ＲＩＳＣプロセッサ内での代表的なデータ・フローは２
つの基本的実行ユニット、すなわち、算術論理演算機構
（ＡＬＵ）および回転（シフト）機構から成る。出力ボ
ートを共用し、かつ−度に１つの装置を使って、命令が
順次実行される。大部分の命令は、一方の実行ユニット
だけを使用する。　一部のＲＩＳＯシステムは分岐予測
能力を有する。分岐予測システムでは、分岐命令を探す
ため、命令が記憶装置から取り出され、予め復号される
。その命令が分岐命令である場合は、その分岐命令が処
理される。そうでない場合は、命令はプロセッサに送ら
れる。プロセッサが分岐命令に遭遇することはない。

それぞれ同じ演算を同期して実行する計算装置を重複し
て具備すると高性能が実現できることが知られている。

この技術は、主としてて科学技術用ベクトル処理装置で
使用され、非常に費用がかかる。そのような技術の原理
および方法は、たとえば、Ｊａｍｅｓ　Ｅ、　Ｔｈｏｒ
ｎｔｏｎおよびＳｅｙｍｏｕｒ　Ｒ，Ｃｒａｙの米国特
許第３３４６８５１号に教示されている。

さらに、同じ情報について同時に異なる演算を実行でき
るようにするため、作業の幾つかの機能ユニットを独立
した別個のユニットに分割できることが知られている。

こうすると、多くの操作を進行中の作業の検査や比較な
どの特殊演算に使えるので重要である。この作業の分割
により、他の演算の実行中に同時にこれらの特殊演算を
実行して、これらの演算を別の時間に実行することによ
りプロセッサの性能に悪影響を及ぼすことを避けること
ができる。この技術は、Ｇｉａｎｃａｒｌ。

Ｔｅ５ｓｅｒａの米国特許第３９６９７０２号に一層完
全に記載されている。また、命令バイブラインを使用し
て、命令間のタイム・オフセット中に命令を処理するこ
とができることも知られている。オフセットは、命令を
実行する機能ユニットのサイクル・タイムの整数倍であ
る。オフセットは、１回の実行につき２回記憶アクセス
を行い、各アクセスに１サイクルをこの技術は、Ｇｅｎ
ｅ　Ｍ、　Ａｍｄａｈｌ。

Ｇｌｅｎ　Ｄ、　ＧｒａｎｔおよびＲｏｂｅｒｔ　Ｍ、
　Ｍａｉｅｒの米国特許第３８４０８６１号に一層完全
に記載されている。

幾つかの命令処理手法が、従来技術のシステムで知られ
ている。しかし、ＲＩＳＣプロセッサ・システムの費用
／効果比の改善が必要である。

Ｃ１発明が解決しようとする問題点したがって、本発明の目的は、ＲＩＳＣプロセッサのプ
ロセッサ性能を高めるための費用効果の高い手法を提供
することである。

本発明の他の目的は、既知のＲＩＳＣコンピュータの速
度の２倍の速度で実行できる改善されたＲＩＳＣコンピ
ュータを提供することである。

本発明の別の目的は、チップの面積をほとんど増やさず
に、演算速度を大幅に高める新奇なＲＩＳＣアーキテク
チャを提供することである。

Ｄ０問題点を解決するための手段本発明によれば、これらの目的は、命令を２つの主要な
りラスの命令に分割し、−度に２つの命令（各クラス１
つずつ）を実行する機能を特徴とする、改良されたＲＩ
ＳＣプロセッサを提供することによって達成される。Ｒ
ＩＳＣプロセッサは、全命令セットのうちの１つのサブ
セットをそれぞれ実行できる２つの実行ユニットに分割
される。

全命令負荷は、それぞれ２つの実行ユニットの一方で実
行される命令クラスに分割することができる。ＲＩＳＣ
アーキテクチャの特別の利点は、大部分の命令が１サイ
クルで実行されることである。

本発明は、命令が２つの実行ユニットの各々の間で分配
できるようにするのに必要なハードウェア編成を提供す
る。実行ユニットは同時に実行する。

このハードウェア編成は、命令バッファ、制御読取専用
記憶装置、制御レジスタおよび命令実行装置から成る。

命令実行装置は、入力および出力を有するレジスタ・フ
ァイル、ステージング・レジスタ、第１および第２の実
行ユニットおよび出力レジスタから成る。第１の実行ユ
ニットは算術論理演算機構を含み、第２の実行ユニット
は回転機構およびマスク生成機構を含む。

プロセッサ・パイプラインは、命令の復号から実行を開
始する。命令復号サイクル中に、レジスタ・ファイルが
アクセスされ、取り出されたオペランドは、２つの制御
ＲＯ３により、かつ命令情報を２組の制御レジスタにラ
ッチすることにより、命令の復号と並行してステージン
グ・レジスタにラッチされる。次に、ステージング・レ
ジスタは２つの実行ユニットの一方に内容を供給する。

実行の結果はパイプラインの保管段のレジスタ・ファイ
ルに書き込まれる。制御ＲＯＳおよび制御レジスタは、
２組に分割される。各組が一方の実行ユニットのために
働く。命令復号フェーズ中、その命令が属する特定の命
令クラスをどちらの実行ユニットが実行するかに基づい
て、特定の組の制御ＲＯＳと制御レジスタが選ばれる。

レジスタ・ファイルに１サイクル当たり２回アクセスで
きる場合、追加の出力ボートは必要でない。そうでない
場合は、２つの実行ユニットの並列実行をサポートする
ため、追加の複数の出力ボートと１つ−の入力ポートが
必要となる。

作業負荷をさらに均一に分配するたの、乗算器、除算器
などの追加の演算装置および追加のＡＬｔＪ１台をどち
らかの実行ユニットに付加することができる。アドレス
計算はＡＬＵから負荷解除することができ、追加の加算
器を一方の実行ユニットに付加することにより、作業負
荷の分配をさらに均等化する。命令の実行を２つの実行
ユニットの間で均一に分配するよう設計されたコンパイ
ラは、プロセッサの速度を大幅に上げるのにも役立つ。

本発明は、低い費用、、設計の簡単さ、プロセッサの速
度を上げるために必要な負荷的ハードウェアの追加が最
小限で済むことを特徴とする。

本発明の前記およびその他の目的、実施態様および利点
は、図面に関する本発明の好ましい実施例についての以
下の詳細な説明から一層よく理解できるはずである。

Ｅ、実施例図面の幾つかの図において、同じ参照番号は同じ構成要
素または機能的に類似した構成要素を示す。次に図面の
第６図を参照すると、ＲＩＳＣ順次動作プロセッサの構
成図が示されている。このプロセッサは前述のように従
来技術と見なされる。

命令の復号フローを左側に示し、命令の実行を右側に示
しである。命令は命令バッファ１０から制御読取専用記
憶装置（ＲＯ５）１２を経て、制御レジスタ１４に流れ
る。当業者に明らかなように、種々のオペランドを記憶
し、または取り出すべき特定の汎用レジスタのアドレス
が、命令バッファ１０の種々のフィールドで指定される
。

基本ＣＰＵは、データがメモリから５ボ一ト式汎用レジ
スタ・ファイル１６に流入するための入力ボート１５を
備える。汎用レジスタ・ファイル１６は、この例では、
３２個の別個のレジスタを含む。当業者なら理解してい
るように、レジスタ・ファイルは種々の組み合わせのレ
ジスタおよびボートを含み、しかもこの手法に適応する
ことができる。第２の人力ボート１７は、２つの実行ユ
ニットの一方からの命令の結果を含む。２つの基本的実
行ユニットは、加算、乗算、除算、回転、ロードおよび
ストアを含めてプロセッサの命令の実行を司る。第１図
では、実行ユニットは２つの機能ユニットに分割されて
いる。実行ユニットＩは、ＡＬＵ２４を含み、一方、実
行ユニット１１は回転機構２６を含む。レジスタ・ファ
イル１６に対する２つの人力ボート１５および１７は、
命令内に示された特定の命令で指定されるオペランドを
示す。大部分の命令は２つの実行ユニットの一方のみを
使用する。すなわち、２つの実行ユニットの内の一方が
実行中、他方は遊んでいる。

プロセッサ・パイプラインは命令の復号がら実行を開始
する。命令復号サイクル中に、レジスタ・ファイルがア
クセスされ、取り出されたオペランドは、制御ＲＯＳ１
２により、かつ命令情報を制御レジスタにラッチするこ
とにより、命令の復号と並行してステージング・レジス
タ１８．２ｏおよび２２にラッチされる。次のパイプラ
イン実行サイクルで、レジスタ１８．２０および２２の
内容が、２つの実行ユニットの一方に供給される。

実行の結果は出力レジスタ３６にラッチされる。

次のサイクルで、レジスタ情報がバイブラインの保管段
のレジスタ・ファイル１６に書き込まれる。

命令情報は、レジスタ・ファイル１６からそれぞれボー
ト１９．２１および２３を経てステージング・レジスタ
１８．２０および２２に流れる。

ステージング・レジスタ１８および２０は、情報をフォ
ーマツタ３２および３３に送る。フォマッタは、演算ま
たは論理の実行に備えるため、０または１の埋込みを司
る。フォーマツタ３２および３３の内容が算術論理演算
機構（ＡＬＵ）２４に供給され、ＡＬＵ２４は２オペラ
ンド命令を実行し、結果をマルチプレクサ２５に供給す
る。回転機構２６は、マスク・ジェネレータ３１および
マスク論理３４と一緒に、（米国特許第４５６９０１６
号にさらに詳細に記載されている）１マシーン・サイク
ルで実行可能なマスクおよび回転操作を実行し、その結
果をマルチプレクサ２５に供給する。マスク・ジェネレ
ータ３１は、組合せ論理３４に流入する回転機構２６か
らの出力を制御するためのマスクの生成を司る。組合せ
論理３４はステージング・レジスタ１８からの出力を用
いて、組み合わせ論理３４が実行する命令を制御する。

たとえば、ステージング・レジスタ１８からの出力が、
回転／マスク挿入（ＲＭＩ）命令を指定する場合、レジ
スタ２２の内容がレジスタ２０のビット２７ないし３１
で指定された位置の数だけ左にシフトされる。シフトさ
れたデータは、マスク・ジェネレータ３１の制御下でマ
スク論理３４がらマルチプレクサ２５に出力される。マ
スク論理３４は、まず出力レジスタ３６をゼロにし、次
にマスクの各ビットを検査し、それが１それとも０がを
判定する。マスク・ビットが１の場合、シフトされたデ
ータの関連ビット（０または１）が出力レジスタに入れ
られ、マスク・ビットが０の場合、出力レジスタからの
開運データ・ビットは元のままとなる。マルチプレクサ
２５は、２つの実行ユニットから出力を取り出し、それ
を出力レジスタ３６に記憶することを司り、出力レジス
タ３６は情報をレジスタ・ファイル１６の入力ボート１
７に送る。

命令バッファ１０、制御ＦＬＯ５１２および制御レジス
タ１４は、すべての図に共通である。レジスタ・ファイ
ル１６の入力ポート１５および１７、出力ボート１９．
２１および２３もすべての図に共通である。ステージン
グ・レジスタ１８．２゜および２２はすべての図で使用
されている。実行ユニットＩはすべての図でフォーマツ
タ３２および３３、ＡＬＵ２４を含む。実行ユニット！
■はすべての図でマスク・ジェネレータ３１、マスク論
理３４および回転機構２６を含む。

本発明の第１の実施例を第１図に示す。命令の復号が左
側に示しである。命令は命令バッファ１０から２つのマ
ルチプレクサ６４および６５を介して２つの制御ＲＯＳ
４０および４２、さらに制御レジスタ４４および４６に
流れる。命令バッファ１０と２つの制御ＲＯＳ４０およ
び４２の間に２つのマルチプレクサ６４および６５が追
加されているため、情報を２つの実行ユニットに同時に
送ることが可能になる。命令に基づいて、制御ＲＯ８の
一方または他方から命令情報が得られる。

命令処理は、第６図に示す５ボ一ト式レジスタ・ファイ
ルの代りに８ボ一ト式拡張レジスタ・ファイル４８を有
する。追加された２つの出力ボート５１および５３は、
専ら実行ユニットＩＩが使用する。各実行ユニットは、
レジスタ・ファイル４８に対する入力ポート１７および
５６を有する。実行ユニットＩは入力ポート１７を使用
し、実行ユニットＩＩは入力ポート５６を使用する。各
実行ユニットに対して別々の出力レジスタ６６および６
８が追加されているため、出力情報をそれぞれレジスタ
・ファイル入力ボート１７および５６に送る前に記憶す
ることが可能になる。２つの出力レジスタ６６および６
８を使用と、さらに、実行ユニットの結果の出力がレジ
スタ・ファイル４８に同時に供給される。

２つの出力ボートと１つの入力ポートがレジスタ・ファ
イル４８に追加されると、レジスタ・ファイルの共用に
よってデータ保全性の問題や複雑なインターフェースが
ないままで、ＡＬＵ命令と回転命令を同時に実行する能
力がプロセッサに与えられる。コンパイラ内のコード・
スケジューリング能力を用いれば、２つの並列命令のう
ちの第２の命令が第１の命令の宛先レジスタと同じ原始
レジスタを持たないように命令を分割することにより、
２つの並列命令の間のデータ依存性を最小にすることが
可能である。コンパイラはまた、回転命令またはＡＬＵ
命令が連続することを避けるため、２種類の命令をスケ
ジューリングすることができる。これらのハードウェア
およびコンパイラの最適化を行った場合の、元の順次動
作プロセッサに対するプロセッサ性能比を以下に示す。

ＰＰ　＝　ＯＰＰ　−［％ＲＯＴ＊ＣＰＲ］　＋　Ｃ０
ＮＴＰただし、Ｃ０ＮＴＰ　　＝争奪ペナルティ＝和（％Ｃ０ＨＴ＊ＣＰＣ）＝　（％Ｃ０ＮＴＡ＊ＣＰＣ）　＋　（％Ｃ０ＮＴＢ＊
ＣＰＣ’）ＰＰ＝１命令当たりのサイクル数で表したプ
ロセッサの性能０ＰＰ＝１命令当たりのサイクル数で表した元のプロセ
ッサの性能％ＲＯＴ　　＝回転命令のパーセントＣＰＲ＝１つの回転命令光たりのサイクル数％Ｃ０ＮＴ　　：データ依存性および資源争奪のパーセ
ントＣＰＣ＝１つの争奪光たりのサイクル・ペナルティの数％Ｃ０ＮＴＡ　＝ユニットＩとユニット１１の間のデー
タ依存性による争奪のパーセント％Ｃ０ＮＴＢ　＝ユニットＩＩでの命令の連続による争
奪のパーセントある種のシステムは分岐予測能力を有する。これらのシ
ステムは、命令を事前に取り出して、分岐命令を前処理
するための、命令キャッシュを備えている。これらのシ
ステムでは、プロセッサは決して分岐命令を実行しない
。この機能を利用すると、プロセッサはもはや分岐命令
が解決されるまで待つ必要がないので、この本発明に対
するプロセッサの性能がさらに向上する。分岐後の命令
が分岐命令の前の命令と並行して実行できる。分岐予測
能力のないシステムでは、次の命令を実行する前に分岐
命令を解決しなければならない。分岐命令との係わりあ
いからＡＬＵ２４を全く解放することにより、２つの実
行ユニット間の比がさらに均衡され、実行ユニットの争
奪が減り、性能が向上する。命令バッファ１０からの命
令は、命令の種類に応じて直ちに２つの別々の制御ＲＯ
５４０および４２に進み、２つの独立した実行ユニット
に対する制御信号を発生する。こうすると、第６図に示
したＲＯ５１２が第１図、第２図、第３図および第４図
に示す２つのＲＯ５４０および４２に機能的に分割され
、両方の実行ユニットを使用する命令の重複は非常に少
なくなる。制御ＲＯ８１２に対する命令コード人力のみ
が重複され、制御レジスタ１４については重複されない
。

復号制御用のハードウェアの量は、第１図に示す本発明
の第１の実施例と第６図に示す従来技術の間で非常に類
似している。レジスタ・ファイル４８にさらに２つの出
力ボート５１および５３と１つの入力ボート５６が必要
となる以外は、データ・フロー？よ同じままである。こ
れらの３つのボートは、データ・フローを横切って延び
る３本のバスに通じている。しかし、データ・フローの
幅は恐らく実行ユニットの幅によって制限されるはずな
ので、この３本のバスがデータ・フローの面積を増大さ
せることはない。データ依存性、資源争奪および例外条
件を処理するため、少量の制御論理を追加することが必
要である。

第２図は、実行ユニット１１に２つの機能ユニット、す
なわち、乗算器６０と除算器６２を追加した以外は、第
１図の好ましい実施例と同じである。

ステージング・レジスタ５０および５２に流入する出力
ボート５′１および５３は、乗算器６０および除算器６
２に対する人力として使用され、追加のマルチプレクサ
６３は、マスク論理、乗算器および除算器からの出力を
収容し、その出力を出力レジスタ６８に記憶する。乗算
器６０または除算器６２などの機能ユニットは、第２図
に示すように、命令のパーセントが最小の実行ユニット
に集められる。このため、２つの実行ユニット間の比が
均衡し、プロセッサの性能が向上する。

第１図および第２図に示した第１の実施例に対する特別
な状況は以下のように要約される。

１）２つの並列命令のうちの第２の命令が、第１の命令
の結果を必要とする。

２）２つの並列命令が同じ命令の部類に属する。

３）並列命令の一方が他方よりも多くのサイクルを要す
る。この場合、命令が順に実行されるように、速い実行
ユニットが遅い実行ユニットを待たねばならない。

４）　並列命令の一方が両方の実行ユニット、すなわち
、回転および記憶を必要とする。

５）２つの並列命令が順序をはずれて実行されないよう
にするための論理が必要である。すなわち、２つの並列
命令は宛先レジスタが同じなので、−方を取り消さなけ
ればならない。また、並列命令の一方が例外割込みを引
き起こした場合は、例外処理が始まる前に他方の命令を
、完了または中断しなければならない。。

最初の状態はコンパイラによるコード・スケジューリン
グによってなくすることができる。コンパイラはまた、
争奪が最小になるように、回転命令およびＡＬＵ命令を
インターリーブすることができる。ＲＩＳＣプロセッサ
は基本命令を有し、また複数のサイクルを必要とする命
令は非常に僅かなので、３番目と４番目の状態は頻繁に
は発生しない。それらの命令は非常にまれにしか使用さ
れない。５番目の問題として挙げた例外条件に対処する
には、従来技術の例外処理ハードウェアをわずかに増加
させなければならない。

第１の実施例の増加部分は、レジスタ・ファイル内の３
つの追加ボートだけである。それによって、レジスタ・
ファイルのサイズが、チップ・サイズ全体の約５ないし
８％を占める元のレジスタ・ファイル・サイズの約１／
２だけ増大する。レジスタ・ファイルは、１サイクル中
に２回のアクセスを行なうように設計することができる
。この設計を用いると、レジスタ・ファイルのサイズを
一定のままにしておくことができる。ハードウェアの増
加部分は、データ・フローの最上部にある３本の追加バ
スだけである。

第７図は、復号サイクルでアドレス生成を行なう従来技
術の順次動作プロセッサを示す。ハードウェアは、命令
アドレス・レジスタ（ＩＲＡ）７０の出力が、マルチプ
レクサ８４を介してレジスタ・ファイル１６の出力ボー
ト１９と多重化されて、加算器７８に対する２つのオペ
ランド入力の一方を形成する点以外は、第６図と同じで
ある。

マルチプレクサ８２は、命令バッファ１０がらの情報を
レジスタ・ファイル１６の出力ボートと多重化して、加
算器７８に対する他方のオペランド人力を生成するため
に使用される。加算器７８は、ＡＬＵの割込みなしに新
しいアドレスを計算する。

新しいアドレスはアドレス・レジスタ８６に記憶される
。

第３図に本発明の第２の実施例を示す。第１図および第
２図に示した第１の実施例とこの第２の実施例違いは、
第７図に示す加算器７８が組み込まれていることである
。加算器７８は、ステージング・レジスタ５０および５
２を介して、レジスタ・ファイル４８の出力ボート５１
および５３がらのオペランド入力を受け取る。加算器７
８はその結果をマルチプレクサ６３に出力し、マルチプ
レクサ６３はマスク論理３４、乗算器６０および除算器
６２の出力を加算器７８からの出力と共に多重化して、
出力レジスタ６８に記憶する。追加の加算器７８は、ロ
ード、ストアおよび分岐命令を高速化するためアドレス
計算を行うもので、実行ユニットの命令の比の均衡をと
るため、回転機構２６と共に実行ユニット１１に入れる
。実行ユニッ）　ＩＩは、回転、シフト、ロード、スト
ア、乗算、除算およびアドレス計算命令のすべての処理
な司る。実行ユニットＩは、すべての算術計算と論理計
算を処理する。ＲＩＳＣの平均的な命令の比は、レジス
タ回転送命令５４％、ロード命令２０％、ストア命令１
０％および分岐命令１６％から成る。

レジスタ間転送命令のうち５ないし１０％は回転／シフ
ト命令である。算術命令と論理命令をセグメント化する
ことにより、作業負荷の一層良好な均衡が実現される。

コンパイラでコード・スケジューリングを実行してこれ
ら２種類の命令をインターリーブすると、データ依存性
および２つの実行ユニットの間で資源争奪をなくするこ
とができる。唯一の大きな性能低下は、実質的にＲＩＳ
Ｃプロセッサに常駐していない複数サイクルの命令によ
るものである。下に示す式は、第３図に示す第２の実施
例と第７図に示す従来技術の元の順次動作プロセッサの
プロセッサ性能比較を表す。

ＰＰ　＝　２＊０ＰＰ−和（％ＭＣＩ＋：ＣＰＭＣＩ）
ｉ　−Ｃ０ＮＴＰＣＯＮＴＰ　　＝争奪ペナルティ：和（％Ｃ０ＮＴＡ＊ＣＰＣ）　＋（％Ｃ０ＮＴＢり：ｃｐｃ　）　＋　（％Ｃ０ＨＴＣ＊
ＣＰＣ）％ＭＣＩ　　＝複数サイクル命令；のパーセン
トＣＰＭＣＩ　　＝複数サイクル命令；　１個当たりの
サイクル数％Ｃ０ＮＴＡ　＝データ依存性による、ユニットＩとユ
ニットＩＩの間での争奪のパーセント％Ｃ０ＮＴＢ　＝ユニットＩ内での命令の連続による争
奪のパーセント％Ｃ０ＮＴＣ＝ユニットＩＩ内での命令の連続による争
奪のパーセント制御セクションは、本発明の第２の実施例では、制御Ｒ
Ｏ３４０および４２を２つの命令の部類に従って再分割
しなければならない点を除いて、本発明の第１の実施例
と同様である。追加の加算器７８を除いて、ハードウェ
アの増加部分は第１の実施例と同じである。

第４図は、１サイクル当たり２回アクセスを行なうよう
に設計されたレジスタ・ファイルを有する並行動作プロ
セッサの一例である。第４図は、第１のレジスタ・ファ
イルのアクセスを制御する２つのラッチ１１０および１
１２が追加され、２つの実行ユニットの出力レジスタ６
６および６８を受け入れるためのマルチプレクサ２５が
追加され、かつ元の５ポ一ト式レジスタ・ファイル１６
が使用されている点以外は、第５図と同じである。

ラッチ１１０および１１２は、ステージング・レジスタ
１８および２０の真上の出力ボート１９および２１上に
配置される。これらのラッチはクロック・サイクルの各
半分によってトリガされる。クロック・サイクルのの前
半では、出力ボート１９および２１は、ラッチ１１０お
よび１１２に流れる。クロック・サイクルの後半では、
出力ボート１９および２１はステージング・レジスタ５
０および５２に流れ、出力レジスタ６８はマルチプレク
サ２５を経てレジスタ・ファイル１６の人力ボート１７
に流入する。クロック・サイクルの後半ではまた、ラッ
チ１１０および１１２はステージング・レジスタ１８お
よび２０に流れ、出力レジスタ６６はマルチプレクサ２
５を経てレジスタ・ファイル１６の人力ボート１７に流
入する。このため、２つの出力ボートおよび１つの入力
ボートをさらに追加せずに、２つの実行ユニットの並列
処理が可能になる。

第５図は、本発明の第３の実施例を示す。第３の実施例
は、フォーマツタ１００および１０２を伴う追加のＬＡ
Ｕ７０が実行ユニットＩＩに付加されている点以外は、
第１の実施例と同じである。

レジスタ・ファイル４８の出力ボート５１および５３の
内容が、ステージング・レジスタ５０および５２に供給
され、ステージング・レジスタ５０および５２はフォー
マツタ１００および１０２に流入し、フォーマツタ１０
０および１０２はＡＬｔＪ７０に人力を供給する。第２
のＡＬＵ７０の出力は第３図および第４図の加算器７８
の出力と同じ方法で多重化される。第２のＡＬＬＩ７０
の出力はマスク論理３４、乗算器６０および除算器６２
と共に多重化されてマルチプレクサ６３に入り、マルチ
プレクサ６３は出力レジスタ６８に流入する。

第３の実施例を第５図に示すように使って、コード・ス
ケジューリングを実行し、かつ命令負荷の均衡化を実行
するコンパイラの負担を減らすことができる。制御ＲＯ
５４０は元のＲＯ５１２と同じである。制御ＦｔＯ５４
２はＡＬＵ命令機能のみを有する。

この手法の欠点は、両方の実行ユニットでＡＬＵ命令を
実行するために追加のＡＬＵおよび追加のＲＯ５４２の
ハードウェア費用が余分にかかることである。利点はコ
ンパイラの複雑さが低減されることである。

Ｆ３発明の詳細な説明したようにこの発明では命令を２つのクラスに分
類し、それぞれのクラスの命令を１つずつ同時に実行す
るようにし、ＲＩＳＣプロセッサの性能を向上させるこ
とができる。

【図面の簡単な説明】

第１図は本発明の第１の実施例の並列動作ＲＩＳＣプロ
セッサのブロック・ダイヤグラムである。第２図は、乗算器および除算器を追加した本発明の第１
の実施例の並列動作ＲＴＳＣプロセッサのブロック・ダ
イヤグラムである。第３図は本発明の第２の実施例の並列動作ＲＩＳＣプロ
セッサのブロック・ダイヤグラムである。第４図は、レジスタ・ファイルが１サイクルに２回アク
セスされる本発明の第２の実施例の並列動作ＲＩＳＣプ
ロセッサのブロック・ダイアグラムである。第５図は本発明の第３の実施例の並列動作ＲＩＳＣプロ
セッサのブロック・ダイヤグラムである。第６図は、従来技術の順次動作ＲＩＳＣプロセッサのブ
ロック・ダイヤグラムである。第７図は、アドレス生成が復号サイクルで実行される従
来技術の順次動作ＲＩＳＣプロセッサのブロック・ダイ
ヤグラムである。１０・・・・命令バッファ、１８．２０．２２．５０．
５２・・・・ステージング・レジスタ、２４・・・・Ａ
ＬｔＪ、２６・・・・回転機構、３１・°・°マスク・
ジェネレータ、３４・・・・組合せ機構、４０．４２・
・・・制御ＲＯＳ、４４．４６・・・・制御レジスタ、
４８・・・・レジスタ・ファイル、６４．６５・・・・
マルチプレクサ、６６．６８・・・・出力レジスタ。出願人　　インターナショナル・ビジネス・マシーンズ
・コーポレーション

Claims

【特許請求の範囲】

（１）命令バッファ、制御記憶および制御レジスタを有
する命令処理装置と、入力および出力を備えメモリから
のデータを受け取るように上記入力の１つを上記メモリ
がわに接続するレジスタ・ファイル、このレジスタ・フ
ァイルの出力にそれぞれ接続されたステージング・レジ
スタ、第１および第２の実行ユニットおよびこの実行ユ
ニットからの出力を受け取つて上記レジスタ・ファイル
に供給する出力レジスタを有する命令実行装置とを含み
、上記第１の実行ユニットは上記ステージング・レジス
タの２つに入力を接続させた算術論理演算ユニットを含
み、さらに上記第２の実行ユニットは上記ステージング
・レジスタの３つに入力を接続させた回転マスク発生手
段を含む縮小命令セット・コンピュータにおいて、上記制御記憶が、上記第１および第２の実行ユニットの
それぞれに対応する第１および第２の部分領域を有し、上記命令処理装置が、上記第１および第２の部分領域か
らの命令をそれぞれ上記第１および第２の実行ユニット
に供給するようにする経路指定手段を有し、上記出力レジスタは第１および第２の出力レジスタから
なり、上記第１および第２の実行ユニットからの出力を
上記第１および第２の出力レジスタでそれぞれ受け取り
、上記第１および第２の実行ユニットは上記レジスタ・フ
ァイルの出力を同時に受け取って並行して処理を行なう
ようにしたことを特徴とする縮小命令セット・コンピュ
ータ。
（２）上記第２の実行ユニットは、上記ステージング・
レジスタの３つのうちの２つに入力を接続させた加算器
を有し、さらに上記加算器の出力と上記回転マスク発生手段の出
力とを受け取るマルチプレクサを付加する特許請求の範
囲第（１）項記載の縮小命令セット・コンピュータ。
（３）上記第２の実行ユニットは、上記ステージング・
レジスタの３つのうちの２つに入力を接続させた付加的
な算術論理演算ユニットを有レ、さらに上記付加的な算
術論理演算ユニットの出力と上記回転マスク発生手段の
出力とを受け取るマルチプレクサを付加する特許請求の
範囲第（１）項記載の縮小命令セット・コンピュータ。