WO2013145221A1

WO2013145221A1 - パイプライン型プロセッサ

Info

Publication number: WO2013145221A1
Application number: PCT/JP2012/058415
Authority: WO
Inventors: 隆弘野津
Original assignee: 富士通株式会社
Priority date: 2012-03-29
Filing date: 2012-03-29
Publication date: 2013-10-03

Abstract

　順番に整列されたデータを格納するレジスタファイルと、並列に設けられた複数の演算ユニットと、レジスタファイルのデータを選択して演算ユニットに供給するセレクタと、を有するパイプライン型プロセッサであって、各演算ユニットは、所定の個数の連続したデータを順番に使用するパイプライン処理を実行し、複数の演算ユニットは、順番が１つずれたデータに対してパイプライン処理を並列に実行し、各演算ユニットは、少なくとも１個のパイプラインレジスタと、パイプラインレジスタの入力データ切替器と、を有し、最下位を除く演算ユニットの前記切替器は、レジスタファイルから供給される初期データと、隣接する他の演算ユニットのパイプラインレジスタが出力するシフトデータと、の間で出力するデータを切り替え、最下位の演算ユニットの切替器は、レジスタファイルから供給される初期データと追加シフトデータとの間で出力するデータを切り替える。

Description

パイプライン型プロセッサ

　本発明は、パイプライン型プロセッサに関する。

　動画像符号化技術にはＭＰＥＧ４、Ｈ．２６４などの規格が存在する。それらの規格では符号化効率を向上させるために動き補償フレーム間予測符号化と呼ばれる技術が用いられている。

　動き補償フレーム間予測符号化では、異なる時刻の画像間で類似している部分を検索し、その参照、つまり、その画像の時刻と場所（動きベクトル）で符号化している。そのため、直接画像を示す情報を個別に持たずに済み、大幅にデータ量を削減することができる。

　近年の動画像符号化規格では符号化効率をさらに向上させるために、小数精度で参照先の画像を指定している。例えば、Ｈ．２６４規格では１／４画素精度の座標で画像を指定する。ところが、画像の情報は整数精度の座標にしか存在しない。そのため、整数精度でない座標の画素が求められた場合、周辺の画素の値から補間処理して小数精度の画素の値を求める必要がある。Ｈ．２６４規格では１／２画素の座標にある画素を得るために、６タップフィルタを用いることが規定されている。また、１／４画素の座標にある画素は、１／２画素の座標の画素を得たのち、整数精度の座標の画素との平均をとって１／４画素の座標の画素を求めている。この計算を、動き補償ブロックの大きさの分だけ実行する。１／２画素の座標にある１画素の補間を得るのに１１回（乗算４回、加算６回、除算（または右シフト）１回）の演算が必要になっている。１／４の座標にある画素は、計算した値を用いて平均値を計算するため、さらに計算量が多くなる。

　このような計算を高速に行うという要求に応えるため、従来は専用の演算回路を実装して補間画素を求めていた。これは実装する回路規模と消費電力が小さくなるためである。ところが、近年は符号化の規格の種類が増えて、様々な規格に対応しようとすると専用の演算回路による実装が難しくなった。そこで、プロセッサを実装してソフトウエアベースで補間処理を行うことへ要求が高まってきた。

　開示の技術は、動画像符号化・復号化処理で用いられる補間画像生成処理を、プロセッサに実装したソフトウエアベースで行う技術に関するが、これに限定されるものではなく、同種のデータ処理を行う場合に適用可能である。

　プロセッサで大量の演算を行うためには並列化技術を駆使する必要がある。画素の補間処理の場合、複数の画素に対して同じ計算を行うため、パイプライン型プロセッサにＳＩＭＤ(Single Instruction Multiple Data)と呼ばれる並列化技術を適用することが望ましい。

　１／４画素精度の補間で求める座標位置は、１６－１＝１５通りであり、補間方法は座標により異なる。このうち、とくに重要なのがｙ方向に１／２だけ進んだ（０，１／２）座標の補間である。この補間は、ＳＩＭＤレジスタを一つの行に対応させ、行内の画素に対してそれぞれ小数精度座標の補間を並列で求めることができる。（０，１／２）座標以外の補間であるが、（１／２，０）座標の補間は、行と列を転置して（０，１／２）座標の補間と同様の計算を行い、転置を戻せば実現できる。また、（１／２，１／２）座標の補間は（０，１／２）座標の補間を行った後、そのデータを転置して同じ処理を行って生成する。なお、１／４座標精度の補間は、１／２精度の補間結果と整数精度の画素との平均値となっているため、ＡＬＵ演算とシフト演算で求めることができる。

　したがって、（０，１／２）座標の補間を行えば、その他の座標の補間は類似の演算処理で容易に行うことができる。

　ＳＩＭＤ方式を適用して１／４画素精度の補間処理をより高速に行うには、並列演算の数を増やす必要がある。もっとも簡単な並列演算数の向上方法は、ＳＩＭＤ方式のレジスタの幅を増やすことである。これは画素ブロックの１行当たりの補間演算の数を増やすことに相当する。しかしながら、動画像符号化、復号化処理での動き補償ブロックの幅は高々１６画素であるため、レジスタの幅を増やしても有効な計算を行うことができない。そのため、一度に計算する行の数を増やす必要がある。行には一つのＳＩＭＤ方式の演算ユニットおよびレジスタが対応するため、一度に計算する行の数を増やすには、演算ユニット数を増加させ、一度に計算するＳＩＭＤ方式のレジスタ数を増加させる必要がある。ここでは、ＳＩＭＤ方式で一度に計算する行数に対応するレジスタ数をＳＩＭＤレジスタ数と称する。

特開２００１－０９２６５８号公報

　演算ユニット数を増加させ、一度に計算するＳＩＭＤ方式のレジスタ数を増加させる場合、レジスタファイルから各演算ユニットにデータを読み出すためのセレクタ回路が巨大になるという問題が生じる。

　実施形態によれば、レジスタファイルから各演算ユニットにデータを読み出すためのセレクタ回路の規模の増加を抑制して、比較的小さな回路規模で、一度に計算するＳＩＭＤ方式のレジスタ数を増加させたパイプライン型プロセッサが実現される。

　実施形態のパイプライン型プロセッサは、順番に整列されたデータを格納するレジスタファイルと、並列に設けられた複数の演算ユニットと、前記レジスタファイルに格納されたデータを選択して前記複数の演算ユニットに供給するセレクタと、を有する。各演算ユニットは、所定の個数の連続したデータを順番に使用するパイプライン処理を実行し、複数の演算ユニットは、パイプライン処理を、順番が１つずれたデータに対して、パイプライン処理を並列に実行する。各演算ユニットは、少なくとも１個のパイプラインレジスタと、パイプラインレジスタに入力するデータを切り替える切替器と、を有する。複数の演算ユニットの最下位を除く前記演算ユニットの切替器は、レジスタファイルからセレクタを介して供給される初期データと、隣接する他の演算ユニットのパイプラインレジスタが出力するシフトデータと、の間で出力するデータを切り替える。複数の演算ユニットの最下位の演算ユニットの切替器は、レジスタファイルからセレクタを介して供給される初期データと、レジスタファイルからセレクタを介して供給される追加シフトデータと、の間で出力するデータを切り替える。

　実施形態によれば、ＳＩＭＤ方式のパイプライン型プロセッサで、回路規模の比較的小さな増加で、一度に計算するＳＩＭＤレジスタ数を増加させ、並列度を向上できる。

図１は、パイプライン型プロセッサを利用してソフトウエアベースで実現した動画像復号化装置の概略構成を示す図である。図２は、１／４画素精度の座標位置を示す図である。図３は、上記の補間処理を行う場合のパイプライン型プロセッサの構成例を示す図である。図４は、レジスタファイルの汎用レジスタに格納されるデータを示す図である。図５は、パイプライン型プロセッサにおいて、１／２精度座標の補間処理の説明図である。図６は、パイプライン型プロセッサにおいて、１／２精度座標の補間処理の説明図である。図７は、パイプライン型プロセッサにおいて、１／２精度座標の補間処理の説明図である。図８は、パイプライン型プロセッサにおいて、１／２精度座標の補間処理の説明図である。図９は、パイプライン型プロセッサにおいて、１／２精度座標の補間処理の説明図である。図１０は、パイプライン型プロセッサにおいて、１／２精度座標の補間処理の説明図である。図１１は、パイプライン型プロセッサにおいて、１／２精度座標の補間処理の説明図である。図１２は、パイプライン型プロセッサにおいて、１／２精度座標の補間処理の説明図である。図１３は、パイプライン型プロセッサにおいて、１／２精度座標の補間処理の説明図である。図１４は、４つのレジスタを同時に計算する場合の処理を説明する図である。図１５は、４つのレジスタを同時に計算する場合の処理を説明する図である。図１６は、レジスタファイルの４つの汎用レジスタから４つのデータを並列に読み出して、４つのパイプラインレジスタに供給する場合のセレクタの構成を示す図である。図１７は、実施形態のパイプライン型プロセッサの構成を示す図である。図１８は、セレクタの構成を示す図である。図１９は、セレクタ内に設けられる２８入力４出力セレクタの構成を示す図である。図２０は、４つの演算ユニットの算術演算器を除く部分の詳細な構成と、演算時の動作を示す図である。図２１は、４つの演算ユニットの算術演算器を除く部分の詳細な構成と、演算時の動作を示す図である。図２２は、４つの演算ユニットの算術演算器を除く部分の詳細な構成と、演算時の動作を示す図である。

　図１は、パイプライン型プロセッサを利用してソフトウエアベースで実現した動画像復号化装置の概略構成を示す図である。なお、ここでは、パイプライン型プロセッサを利用してソフトウエアベースで動画像復号化装置を実現した例を説明するが、これに限定されるものではない。後述する実施形態のパイプライン型プロセッサは、同種のデータ処理を行う場合に適用可能である。

　図１の動画像復号化装置は、符号化データ入力部１１と、ビットストリーム解析部１２と、逆量子化・逆ＤＣＴ部１３と、プロセッサ１４と、デブロッキングフィルタ１５と、ビデオメモリ１６と、出力装置１７を、全体の制御装置と、を有する。

　符号化データ入力部１１は、復号化の対象となる動画データを復号化装置に供給する。ビットストリーム解析部１２は、符号化データを解析し、フレーム情報、マクロブロック情報、動きベクトル情報、周波数領域の差分情報に分解する。逆量子化・逆ＤＣＴ（逆コサイン変換）部１３は、ビットストリーム解析部１２から差分情報を得て、逆量子化および逆ＤＣＴを行い周波数領域から時間・空間領域への変換を行う。プロセッサ１４は、フレーム情報、マクロブロック情報、時間・空間領域の差分情報を得て、フレーム間予測もしくはフレーム内予測を行い、差分情報を加えて最終的な画像を生成する。生成した画像はデブロッキングフィルタ１５に送る。デブロッキングフィルタ１５は、生成した画像のマクロブロック境界での歪みを緩和する。ビデオメモリ１６は、生成した画像を蓄える出力装置１７のバッファとして用いられるほか、予測画像の生成にも用いられる。出力装置１７は、映像信号データの出力部または表示装置などである。全体の制御装置１８は、上記の構成要素の制御を行うと共に、プロセッサに命令を供給する役割も持つ。

　次に、動画像復号化装置のプロセッサ１４の動作を説明する。
　プロセッサ１４は、ビットストリーム解析部１２からマクロブロック情報を受け取り、さらに、逆量子化・逆ＤＣＴ部１３から差分画像を取得し、マクロブロックの種類に応じて予測画像を生成する。

　マクロブロックの種別がイントラマクロブロックである場合は、プロセッサ１４は、ビデオメモリ１６からマクロブロックの隣接画素を取得し、イントラ予測処理（画面内予測処理）を実行する。マクロブロック種別がインターマクロブロックである場合、プロセッサ１４は、ビットストリーム解析部１２から動きベクトルを取得し、動き補償の対象となる参照画像を取得し、参照画像と動きベクトルから予測画像を生成し、重み付き予測を行う。

　さらに、予測画像に差分画像を加えて生成した画像が、デブロッキング・フィルタ１５に送られる。

　後述する実施形態では、プロセッサ１４が実行する「予測画像の生成」部分のうちの動き補償の対象となる参照画像の取得する処理を実行する部分を改善する。

　まず、ＳＩＭＤ方式のパイプライン型プロセッサが処理する動画像符号化技術における小数画素座標の補間処理を説明する。

　前述のように、Ｈ．２６４規格では１／４画素精度の座標で画像を指定する。
　図２は、１／４画素精度の座標位置を示す図である。補間で画像データを求める座標はx, y座標で、x, x+1/4, x+1/2, x+3/4、y, y+1/4, y+1/2, y+3/4のそれぞれ4通りあるため、組み合わせで１６通りとなり、このうちx,　yは、整数精度画素であるため、補間処理で画像データを求めるのは１５通りである。

　画素の補間方法は補間を求める座標により異なる。
　この１５通りの補間のうち、とくに重要なのがy方向に1/2だけ進んだ(0, 1/2)の座標の補間である。

　図２に示すように、画像データは整数画素精度の座標の画像データのみであるから、１／４画素精度の座標の画像データは、周辺の整数精度の座標の画像データから小数精度の座標の画像データを算出する。Ｈ．２６４規格では、次のような６タップフィルタを用いて、１／２画素の座標にある画素を得ることが規定されている。

　P(X, Y + 1/2) = (p(x, y - 2) + (-5) * p(x, y - 1) + 20 * p(x, y)
+ 20 * p(x, y + 1) + (-5) * p(x, y + 2) + p(x, y + 3) + 16) / 32
　ここで、p(x, y)は参照先の座標(x, y)での画素の値で、x, yは整数精度の座標、P(x, y)は補間後の画素の値で、x, yは整数精度の座標である。

　上記の式のように、(0, 1/2)座標の補間を行うには、(0, -2)から(0, 3)の６つの整数精度画素の画像データを使用する。
　また、１／４画素の座標にある画素データは、１／２画素の座標の画素データを得たのち、整数精度の座標の画素データとの平均をとって１／４画素の座標の画素データを求めている。この計算を動き補償ブロックの大きさの分だけ実行する。１／２画素精度の座標にある１画素の補間を得るのに１１回（乗算４回、加算６回、除算（または右シフト）１回）の演算が必要になっている。

　(0, 1/2)座標以外の補間については、 (1/2, 0)座標の補間は、行と列を転置して(0, 1/2)座標の補間と同様の計算を行い、転置を戻せば実現できる。また、(1/2, 1/2)座標の補間は(0, 1/2)座標の補間を行った後、そのデータを転置して同じ処理を行って生成する。１／４精度の補間は１／２精度の補間結果と整数精度の画素との平均値となっているためＡＬＵ演算とシフト演算で求めることができる。したがって、(0, 1/2)座標の補間ができればその他の点の補間は容易に行うことができるが、さらに計算量が多くなる。

　図３は、上記の補間処理を行う場合のパイプライン型プロセッサの構成例を示す図である。
　パイプライン型プロセッサは、フェッチユニット２１と、命令レジスタ２２と、命令デコーダ２３と、レジスタファイル２４と、セレクタ２５と、レジスタ書込制御部２６と、を有する。パイプライン型プロセッサは、パイプラインレジスタ（Ｐ０）２７と、乗算器（Ｍ０）２８と、アキュミュレータ用加算器（ＡＣ０）２９と、出力保持パイプラインレジスタ（Ｐ１）３０と、算術演算器（アリスメティックユニット）（ＡＬＵ０）３１と、を有する。

　フェッチユニット２１は、動画像復号化装置の全体の制御装置１８からプログラムの開始アドレスと終了アドレスを供給され、その範囲内で命令メモリから命令を読み出して命令レジスタ２２に格納する。

　命令デコーダ２３は、フェッチユニット２１が取得した命令を解析し、演算対象のオペランドや実行する演算モードを決定し、さらにプロセッサ全体の制御も行い、実際に命令の実行を開始するか否かも決定する。

　レジスタファイル２４は、汎用レジスタと、アキュミュレータレジスタと、を有している。汎用レジスタは、演算の対象となる値を保持するレジスタで、ここでは、ｖｒ０からｖｒ２３までの２４本のレジスタであり、１本当たり１６ｂｉｔ×９要素のベクトルレジスタで形成されている。アキュミュレータレジスタはｖｒ２４からｖｒ２７までの４本のレジスタであり、１本当たり１６ｂｉｔ×９要素のベクトルレジスタで形成されている。

　レジスタファイル２４の汎用レジスタおよびアキュミュレータレジスタは、共に加算、乗算演算のソースオペランドとして使用できる。乗算後のアキュミュレート演算については、乗算後の結果とアキュミュレータレジスタを暗黙のソースオペランドとして使用し、結果を出力する。

　セレクタ２５は、レジスタファイル２４から演算に必要な値を読み出して演算器（ＡＬＵ０、Ｍ０、ＡＣ０）やパイプラインレジスタＰ０に供給する。値の供給元はレジスタファイル２４のほか、命令レジスタ２２から得られる即値がある。ベクトルデータとスカラデータの演算の場合、スカラデータを多重化して複数の演算器に投入させることも行う。

　次に、図３のパイプライン型プロセッサを使用して、(0, 1/2)座標の補間処理を行う場合の動作を説明する。

　図４は、レジスタファイル２４の汎用レジスタｖｒ０からｖｒ２３に格納されるデータを示す図である。１列の２４整数精度の画素データp(x, y-2), p(x, y-1), p(x, y), …, p(x, y+21)が格納される。上記の式のように、(x, y+1/2)座標の補間を行うには、(x, y-2)から(x, y+3)の６つの整数精度画素の画像データを使用する。同様に、(x, y+3/2)座標の補間を行うには、(x, y-1)から(x, y+4)の６つの整数精度画素の画像データを使用するという具合に、汎用レジスタｖｒ０からｖｒ２３に格納されたデータを１つずつずれた範囲で使用する。

　図５から図１３は、パイプライン型プロセッサにおいて、上記の式の演算を実行する(x, y+1/2)座標の補間処理の説明図である。以下、図５から図１３を参照して、(x, y+1/2)座標の補間処理を説明する。この場合、図４の汎用レジスタｖｒ０からｖｒ５に格納された画像データを使用する。

　図５に示すように、サイクル１）では、レジスタファイル２４の汎用レジスタｖｒ０のデータに１を乗じてアキュミュレートレジスタ４１に転送する。アキュミュレートレジスタ４１は、レジスタファイル２４のＶｒ２４－ｖｒ２７のいずれかである。したがって、アキュミュレートレジスタ４１には、ｖｒ０のデータ（値）が格納される。以下、汎用レジスタの値を図４のレジスタ番号で表示する。

　図６に示すように、サイクル２）では、ｖｒ１のデータに（－５）を乗じて、アキュミュレートレジスタ４１のデータｖｒ０に加える。したがって、アキュミュレートレジスタ４１には、ｖｒ０＋ｖｒ１＊（－５）が格納される。

　図７に示すように、サイクル３）では、ｖｒ２のデータに２０を乗じて、アキュミュレートレジスタ４１のデータｖｒ０＋ｖｒ１＊（－５）に加える。したがって、アキュミュレートレジスタ４１には、ｖｒ０＋ｖｒ１＊（－５）＋ｖｒ２＊２０が格納される。

　図８に示すように、サイクル４）では、ｖｒ３のデータに２０を乗じて、アキュミュレートレジスタ４１のデータｖｒ０＋ｖｒ１＊（－５）＋ｖｒ２＊２０に加える。したがって、アキュミュレートレジスタ４１には、ｖｒ０＋ｖｒ１＊（－５）＋ｖｒ２＊２０＋ｖｒ３＊２０が格納される。

　図９に示すように、サイクル５）では、ｖｒ４のデータに（－５）を乗じて、アキュミュレートレジスタ４１のデータｖｒ０＋ｖｒ１＊（－５）＋ｖｒ２＊２０＋ｖｒ３＊２０に加える。したがって、アキュミュレートレジスタ４１には、ｖｒ０＋ｖｒ１＊（－５）＋ｖｒ２＊２０＋ｖｒ３＊２０＋ｖｒ４＊（－５）が格納される。

　図１０に示すように、サイクル６）では、ｖｒ５のデータに１を乗じて、アキュミュレートレジスタ４１のデータｖｒ０＋ｖｒ１＊（－５）＋ｖｒ２＊２０＋ｖｒ３＊２０＋ｖｒ４＊（－５）に加える。したがって、アキュミュレートレジスタ４１には、ｖｒ０＋ｖｒ１＊（－５）＋ｖｒ２＊２０＋ｖｒ３＊２０＋ｖｒ４＊（－５）＋ｖｒ５が格納される。図１１に示すように、アキュミュレートレジスタ４１のデータは、汎用レジスタｖｒ０に書き込まれる。したがって、汎用レジスタｖｒ０には、ｖｒ０＋ｖｒ１＊（－５）＋ｖｒ２＊２０＋ｖｒ３＊２０＋ｖｒ４＊（－５）＋ｖｒ５が格納される。

　図１２に示すように、サイクル７）では、汎用レジスタｖｒ０のデータに１６を加える。したがって、汎用レジスタｖｒ０には、ｖｒ０＋ｖｒ１＊（－５）＋ｖｒ２＊２０＋ｖｒ３＊２０＋ｖｒ４＊（－５）＋ｖｒ５＋１６が格納される。

　図１３に示すように、サイクル８）では、汎用レジスタｖｒ０のデータを３２で除算する。３２での除算は、ｖｒ０のデータを５ビット右シフトする動作に相当する。したがって、汎用レジスタｖｒ０には、（ｖｒ０＋ｖｒ１＊（－５）＋ｖｒ２＊２０＋ｖｒ３＊２０＋ｖｒ４＊（－５）＋ｖｒ５＋１６）／３２が格納される。

　以上のようにして、 (x, y+1/2)座標の補間が完了し、上記の式にしたがって算出した(x, y+1/2)座標の補間データが得られる。(x, y+3/2)等のデータについても同様の補間処理により算出される。

　より一層の性能向上（高速化）が必要となる場合、ＳＩＭＤ方式による並列演算の数を増やす必要がある。もっとも簡単な並列演算数の増加方法は、ＳＩＭＤ方式のレジスタの幅を増やすことである。これは１行当たりの補間演算の数を増やすことに相当する。具体的には、図３の各要素のビット幅を拡大することにより、行内の画素に対してそれぞれの並列に補間を求めることができ、例えば (0, 1/2)、(1, 1/2)、(2, 1/2)、…の補間を並列に行う。しかしながら、動画像符号化、復号化処理での動き補償ブロックの幅は高々１６画素程度であるため、レジスタの幅を増やしても有効な計算を行うことができない。そのため、一度に計算する行の数を増やす必要がある。行には一つのＳＩＭＤレジスタが対応するため、一度に計算するＳＩＭＤのレジスタの数を増やす必要がある。具体的には、図３において、パイプラインレジスタ（Ｐ０）２７、乗算器（Ｍ０）２８、アキュミュレータ用加算器（ＡＣ０）２９、出力保持パイプラインレジスタ（Ｐ１）３０および算術演算器（ＡＬＵ０）３１の個数を増加させる。

　図１４および図１５は、４つのレジスタを同時に計算する場合の処理を説明する図である。図１４および図１５において、汎用レジスタｖｒ０からｖｒ２３には、図４に示した画素の画像データが格納されているとする。

　図１４に示すように、初めに、４つのレジスタｖｒ０からｖｒ３までのデータを４つのアキュミュレートレジスタ４１０－４１３にコピーする。図１５に示すように、次のサイクルで、４つのレジスタｖｒ１からｖｒ４までデータに（－５）を乗じてアキュミュレートレジスタ４１０－４１３のデータに加える。以下、上記と同様の処理を、４つのレジスタのデータについて順次続けていく。

　上記のＳＩＭＤ方式のパイプライン型プロセッサは、１サイクルごとに４つのＳＩＭＤレジスタをずらしながら読み出している。この動作を実現するには、図３のセレクタ２５をＳＩＭＤのレジスタの数分だけ増加させる。

　図１６は、レジスタファイル２４の４つの汎用レジスタから４つのデータを並列に読み出して、４つのパイプラインレジスタに供給する場合のセレクタ２５の構成を示す図である。図１６に示すように、２８入力からいずれか１つを選択して出力する２８入力１出力セレクタ５１０－５１３を配置する必要がある。２８入力１出力セレクタ５１０－５１３は、それぞれ図３のセレクタ２５と同じ回路であるので、この場合、セレクタは４倍の回路規模になる。そのため、レジスタファイルからデータを読み出すためのセレクタ２５の回路規模が巨大になる。

　以下に説明する実施形態のパイプライン型プロセッサでは、セレクタの規模の増加を抑制して、比較的小さな回路規模で、一度に計算するＳＩＭＤ方式のレジスタ数を増加させる。

　実施形態の動画像復号化装置は、図１に示した概略構成を有する。実施形態では、プロセッサ１４が実行する「予測画像の生成」部分のうちの動き補償の対象となる参照画像の取得する処理を実行する部分を改善する。したがって、この部分についてのみ説明し、他の部分は同じであるので、説明を省略する。

　図１７は、実施形態のパイプライン型プロセッサの構成を示す図である。
　実施形態のパイプライン型プロセッサは、上記の補間処理を、４つのＳＩＭＤ方式のレジスタに対して並列に実行する。

　実施形態のパイプライン型プロセッサは、フェッチユニット２１と、命令レジスタ２２と、命令デコーダ２３と、レジスタファイル・アキュミュレートレジスタ２４と、レジスタ書込制御部２６と、命令レジスタＰ３２と、を有する。これらの要素は、図３のものと同じであり、説明は省略する。命令レジスタＰ３２は、実行している命令の内容を示し、図３では図示していないが、一般のプロセッサに設けられるものである。

　実施形態のパイプライン型プロセッサは、パイプラインレジスタ、乗算器、アキュミュレータ用加算器、出力保持パイプラインレジスタおよび算術演算器を４組有すること、およびセレクタが、図３のパイプライン型プロセッサと異なる。ここでは、１組のパイプラインレジスタ、乗算器、アキュミュレータ用加算器、出力保持パイプラインレジスタおよび算術演算器を、演算ユニットと称し、順位を付けている。具体的は、パイプラインレジスタ(P0_0)２７０、乗算器(M0)２８０、アキュミュレータ用加算器(AC0)２９０、出力保持パイプラインレジスタ(P1_0)３００および算術演算器(ALU0)３１０を含む演算ユニットが、最上位である。また、パイプラインレジスタ(P0_3)２７３、乗算器(M3)２８３、アキュミュレータ用加算器(AC3)２９３、出力保持パイプラインレジスタ(P1_3)３０３および算術演算器(ALU3)３１３を含む演算ユニットが、最下位である。

　図１８は、セレクタ５０の構成を示す図である。
　また、図１９は、セレクタ５０内に設けられる２８入力４出力セレクタの構成を示す図である。

　セレクタ５０は、レジスタファイル２４から演算に必要な値を読み出して、各演算ユニットのパイプラインレジスタおよび算術演算器に供給する。データの供給元は、レジスタファイル２４内の汎用レジスタおよびアキュミュレートレジスタであり、データが即値の場合は命令レジスタ２２から得られる。ベクトルデータとスカラデータの演算の場合、スカラデータを多重化して複数の演算器に投入させることも行う。

　図１８に示すように、セレクタ５０は、２個の２８入力４出力セレクタ５２および５３と、１個の２８入力１出力セレクタ５４と、を有する。２８入力１出力セレクタ５４は、図１６に示した２８入力１出力セレクタ５１０－５１３と同じものであり、２４個の汎用レジスタｖｒ０－ｖｒ２３および４個のアキュミュレートレジスタｖｒ２４－ｖｒ２７の１つからデータを選択して読み出す。ただし、２８入力１出力セレクタ５４のデータの供給先は、最下位の演算ユニットのパイプラインレジスタ(P0_3)２７３に固定されている。

　レジスタファイル２４は、汎用レジスタｖｒ０からｖｒ２３およびアキュミュレータレジスタｖｒ２４からｖｒ２７の併せて２８本のレジスタを有している。実施形態では、これらのレジスタを、ｖｒ０からｖｒ３、ｖｒ４からｖｒ７、ｖｒ８からｖｒ１１、ｖｒ１２からｖｒ１５、ｖｒ１６からｖｒ１９、ｖｒ２０からｖｒ２３およびｖｒ２４からｖｒ２７の７グループに分けている。各グループの１番目のレジスタのデータを１番目の演算ユニットに、２番目のレジスタのデータを２番目の演算ユニットに、３番目のレジスタのデータを３番目の演算ユニットに、４番目のレジスタのデータを４番目の演算ユニットに、並列に供給する。１番目の演算ユニットが最上位であり、４番目の演算ユニットが最下位である。言い換えれば、レジスタファイル２４のレジスタは、演算ユニットを関連付けられている。

　図１９に示すように、２８入力４出力セレクタ５２および５３は、４個の７入力１出力セレクタ５５０－５５３と、３個の２入力１出力セレクタ５６０、５６１、５７０と、を有する。７入力１出力セレクタ５５０は、上記の各グループの１番目のレジスタｖｒ０、ｖｒ４、ｖｒ８、ｖｒ１２、ｖｒ１６、ｖｒ２０、ｖｒ２４のいずれかのデータを選択する。７入力１出力セレクタ５５１－５５３についても同様であり、各グループの対応する順番のレジスタのデータを選択する。

　２入力１出力セレクタ５６０は、７入力１出力セレクタ５５２の出力と７入力１出力セレクタ５５０の出力の一方を選択する。２入力１出力セレクタ５６１は、７入力１出力セレクタ５５１の出力と７入力１出力セレクタ５５３の出力の一方を選択する。２入力１出力セレクタ５７０は、２入力１出力セレクタ５６０の出力と２入力１出力セレクタ５６１の出力の一方を選択する。

　図１９に示すように、２入力１出力セレクタ５７０の出力がop_0であり、２入力１出力セレクタ５６１０の出力がop_2であり、７入力１出力セレクタ５５２の出力op_2であり、７入力１出力セレクタ５５３の出力op_3である。詳しい説明は省略するが、図１９から明らかなように、op_0はvr0からvr27のいずれかのデータである。また、op_1は上記の各グループの２番目または４番目データであり、op_2は上記の各グループの３番目データであり、op_3は上記の各グループの４番目データである。

　後述するように、４つの演算ユニットは、２つのオペランドを必要とするため、このようなデータ供給を行う２つの２８入力４出力セレクタ５２および５３を設ける。２８入力４出力セレクタ５２の４つの出力SEL_E0_0, SEL_E0_1, SEL_E0_2, SEL_E0_3は、図１９の出力op_0, op_1, op_2, op_3に対応する。２８入力４出力セレクタ５３の４つの出力SEL_E1_0, SEL_E1_1, SEL_E1_2, SEL_E1_3は、図１９の出力op_0, op_1, op_2, op_3に対応する。

　さらに、セレクタ５０は、乗算後のアキュミュレート演算の為に、アキュミュレートレジスタｖｒ２４－ｖｒ２７のデータを、出力SEL_R0, SEL_R1, SEL_R2, SEL_R3として、パイプラインレジスタ２７０－２７３に供給する。

　以上のように、セレクタ５０は、レジスタファイル２４の任意のレジスタのデータを、任意の演算ユニットに並列に供給できない。この場合、４つのＳＩＭＤのレジスタを並列に処理することができないが、実施形態では、４つの演算ユニットのパイプラインレジスタ間でシフト動作を行うことにより、４つのＳＩＭＤレジスタの並列処理を可能にしている。図１６の２８入力１出力セレクタを４個設けるのに比べて図１８および図１９に示すように、セレクタの選択先と供給先を制限することにより、回路規模を大幅に小さくできる。

　次に、各演算ユニットについて説明する。各演算ユニットは、算術演算器(ALU)、乗算器(M)、アキュミュレータ用の加算器(AC)の３つ演算器を有している。算術演算器(ALU0-ALU3)３１０－３１３は、セレクタ５０が出力する演算対象のデータを受け取り、その演算結果をレジスタファイル２４に送る。

　図２０から図２２は、４つの演算ユニットの算術演算器を除く部分の詳細な構成と、演算時の動作を示す図である。以下、図２０から図２２を参照して、演算ユニットの構成および動作を説明する。

　乗算器(M0-M3)２８０－２８３は、パイプラインレジスタ２７０－２７３から演算対象のデータを受け取り、乗算結果をレジスタファイル２４のアキュミュレートレジスタや出力保持パイプラインレジスタ３００－３０３に送る。

　アキュミュレータ用の加算器２９０－２９３は、パイプラインレジスタ２７０－２７３に格納されている加算対象のデータもしくは出力保持パイプラインレジスタ３００－３０３に格納されている加算対象のデータを取得し、乗算器２８０－２８３の演算結果を加算する。加算結果は、出力保持パイプラインレジスタ３００－３０３に保存される。

　図２０に示すように、加算器２９０－２９３は、切替器（セレクタ）６５０と加算演算部(AC0-AC3,ADD)６６０－６６３とを有する。セレクタ６５０は、パイプラインレジスタ２７０－２７３を経由したアキュミュレータレジスタｖｒ２４－ｖｒ２７のデータと、出力保持パイプラインレジスタ３００－３０３の出力データの一方を選択して、加算演算部６６０－６６３に出力する。加算演算部６６０－６６３は、セレクタ６５０の出力データに、乗算器２８０－２８３の出力データを加算して、出力保持パイプラインレジスタ３００－３０３に出力する。加算演算部６６０－６６３がアキュミュレートレジスタを使用する演算命令を連続して実行する発行すると、構造ハザードが発生する。そのため、フォワーディング回路として、出力保持パイプラインレジスタ３００－３０３から加算器２９０－２９３へのパスを設けている。

　パイプラインレジスタ（P0_0）２７０は、セレクタ６００と、アキュミュレートデータ用レジスタ(P0_0_A）６１０と、第１レジスタ(P0_0_M0）６２０と、第２レジスタ(P0_0_M1）６３０と、を有する。アキュミュレートデータ用レジスタ(P0_0_A）６１０は、セレクタ５０を介して、レジスタファイル２４のアキュミュレートレジスタｖｒ２４のデータを受けて保持する。第２レジスタ(P0_0_M1）６３０は、セレクタ５０の２８入力４出力セレクタ５３の出力、すなわちレジスタファイル２４のいずれかの汎用レジスタのデータを受けて保持する。セレクタ６００は、セレクタ５０の２８入力４出力セレクタ５２の出力、すなわちレジスタファイル２４のいずれかの汎用レジスタのデータと、１つ下位のパイプラインレジスタ（P0_1）２７１の第１レジスタ(P0_1_M0）６２１の出力を受ける。セレクタ６００は、２つの入力の一方を選択して第１レジスタ(P0_0_M0）６２０に出力し、第１レジスタ(P0_0_M0）６２０はそれを保持する。

　パイプラインレジスタ（P0_1）２７１は、セレクタ６０１と、アキュミュレートデータ用レジスタ(P0_1_A）６１１と、第１レジスタ(P0_1_M0）６２１と、第２レジスタ(P0_1_M1）６３１と、を有する。アキュミュレートデータ用レジスタ(P0_1_A）６１１は、セレクタ５０を介して、レジスタファイル２４のアキュミュレートレジスタｖｒ２５のデータを受けて保持する。第２レジスタ(P0_1_M1）６３１は、セレクタ５０の２８入力４出力セレクタ５３の出力SEL_E1_1、すなわちレジスタファイル２４の２番目および４番目のグループの汎用レジスタのいずれかのデータを受けて保持する。セレクタ６０１は、セレクタ５０の２８入力４出力セレクタ５２の出力SEL_E0_1、すなわちレジスタファイル２４の２番目および４番目のグループの汎用レジスタのいずれかのデータを受ける。さらに、セレクタ６０１は、１つ下位のパイプラインレジスタ（P0_2）２７２の第１レジスタ(P0_2_M0）６２２の出力を受ける。セレクタ６０１は、２つの入力の一方を選択して第１レジスタ(P0_1_M0）６２１に出力し、第１レジスタ(P0_1_M0）６２１はそれを保持する。

　パイプラインレジスタ（P0_2）２７２については、図２０に示されているので説明を省略し、パイプラインレジスタ（P0_3）２７３について説明する。パイプラインレジスタ（P0_3）２７３が、セレクタ６０３と、アキュミュレートデータ用レジスタ６１３と、第１レジスタ６２３と、第２レジスタ６３３、を有すことは、他と同じであり、入力されるセレクタ５０からのデータは異なる。これに加えて、セレクタ６０３は、セレクタ５０の２８入力４出力セレクタ５２の出力SEL_E0_3、すなわち４番目のグループの汎用レジスタのいずれかのデータと、２８入力１出力セレクタ５４の出力SEL_E2を受けることが異なる。

　上記の構成により、パイプラインレジスタ２７０－２７３は、データ設定モードと、シフトモードと、を有する。データ設定モードでは、セレクタ６００－６０３を、セレクタ５０の２８入力４出力セレクタ５２の出力SEL_E0_0, SEL_E0_1, SEL_E0_2, SEL_E0_3を選択する状態に設定する。これにより、アキュミュレートデータ用レジスタ６１０－６１３と、第１レジスタ６２３－６２３と、第２レジスタ６３０－６３３に、セレクタ５０で選択したレジスタｖｒ０からｖｒ２７のデータを設定できる。

　シフトモードでは、セレクタ６００－６０２を、１つ下位のパイプラインレジスタ２７１－２７３の第１レジスタ６２１－６２３の出力を受ける状態に設定する。さらに、セレクタ６０３を、セレクタ５０２８入力１出力セレクタ５４の出力SEL_E2を選択する状態に設定する。これにより、第１レジスタ６２０－６２３は、シフトレジスタとして動作する形態になり、第１レジスタ６２３に入力されたデータを順次上位の第１レジスタにシフトする状態になる。この時、アキュミュレートデータ用レジスタ６１０－６１３および第２レジスタ６３０－６３３には、セレクタ５０で選択したレジスタファイル２４のデータを設定できる。このように、シフトモード時には、直前の演算とは一つレジスタがずれたデータを乗算器に投入することができる。

　出力保持パイプラインレジスタ（P1_0, P1_1, P1_2, P1_3）３００－３０３は、セレクタ６８０－６８３と、出力用パイプラインレジスタ（PO_0, PO_1, PO_2, PO_3）６９０－６９３と、を有する。セレクタ６８０－６８３は、乗算器２８０－２８３および加算器２９０－２９３からの演算結果の一方を選択する。出力用パイプラインレジスタ６９０－６９３は、セレクタ６８０－６８３で選択したデータを、加算器２９０－２９３に出力すると共に、１サイクル経過後レジスタファイル２４に書き込む。

　実施形態のパイプライン型プロセッサは、前述の命令のフェッチ、命令のデコードおよび各演算ユニットへの演算対象のロードを行い、各演算ユニットは、演算の実行および演算結果のストアを行う。

　実施形態のパイプライン型プロセッサは、動画像復号化における予測画像の生成処理を実行する。予測画像の生成処理は次に示すフローに従って行う。
（１）動きベクトルの小数点座標を得る
（２）小数点座標に従って動きベクトルの座標を整数部と小数部に分ける

　図２で説明したように、小数部の座標の取り得る組み合わせは(0, 0)の場合などなど16通り存在する。ここでは、そのうちの(0, 1/2)座標の補間についてその動作を説明する。ただし、後半の１６を加算して５ビットシフトする処理は、図３から図１３を参照して説明した前述の処理と同様のため省略し、前半のＳＩＭＤスカラ乗算、ＳＩＭＤスカラＭＡＣ演算の初めの３ステップについてのみ説明する。

　パイプライン型プロセッサが実装している命令のうち、ここでは、ＳＩＭＤスカラ乗算命令、レジスタシフト付きＳＩＭＤスカラＭＡＣ命令、ＳＩＭＤ右シフト命令およびＳＩＭＤスカラ加算命令を使用する。

　図２０から図２３を参照して、演算ユニットにおける動作およびデータの流れについて説明する。動作内容は、前述の処理と同様に、 (0, 1/2)座標の補間画素を求める処理とする。図２０から図２３において、その時のデータの流れを太線で示している。

　１サイクル目では、ＳＩＭＤスカラ乗算命令を実行する。ソースオペランドはｖｒ０からｖｒ３までのＳＩＭＤレジスタと即値の１とする。デスティネーションはアキュミュレータレジスタを指定する。命令デコーダ２３が命令を解析するとセレクタ５０が適切なレジスタオペランドと即値オペランドをSEL_E0_0,1,2,3およびSEL_E1_0,1,2,3に設定する。これにより、図２０に示すように、パイプラインレジスタ２７０－２７３のセレクタ６００－６０３には、SEL_E0_0,1,2,3が入力される。SEL_E0_0,1,2,3は、選択されて第１レジスタ６２０－６２３に入力する。また、パイプラインレジスタ２７０－２７３の第２レジスタ６３０－６３３には、SEL_E1_0,1,2,3が入力される。パイプラインレジスタがあるためそこでデータの流れが止まる。

　２サイクル目では、図２１に示すように、レジスタシフト付きＳＩＭＤスカラＭＡＣ命令を実行する。ソースオペランドはｖｒ４と即値の（－５）とする。デスティネーションはアキュミュレータレジスタを指定する。デコーダが命令を解析するとセレクタが適切なレジスタオペランドと即値オペランドをSEL_E2およびSEL_E1_0,1,2,3に設定する。一方、命令レジスタに「レジスタシフト付きＳＩＭＤスカラＭＡＣ命令」が格納されているためパイプラインシフトの機能が働き、１サイクル目に格納されたｖｒ１、ｖｒ２、ｖｒ３の値がそれぞれ一つ上位のパイプラインレジスタに格納される。パイプラインレジスタがあるため、そこでデータの流れが止まる。

　一方、１サイクル目でパイプラインレジスタ２７０－２７３に格納されたデータは次のように移動する。乗算器２８０－２８３には、パイプラインレジスタ２７０－２７３の第１レジスタ６２０－６２３および第２レジスタ６３０－６３３に格納された値が供給される。これはそれぞれｖｒ０、ｖｒ１、ｖｒ２、ｖｒ３および即値の１である。そして、命令レジスタＰ３２に「ＳＩＭＤスカラ乗算命令」が格納されているため、乗算結果は加算器２９０－２９３を経由せず直接出力保持パイプラインレジスタ３００－３０３の出力用パイプラインレジスタ６９０－６９３に格納される。乗算器２８０－２８３から出力保持パイプラインレジスタ３００－３０３へ直接流れるパスは命令レジスタＰ３２の内容が「ＳＩＭＤスカラ乗算命令」であることによってなされる。

　さらに、図２２に示すように、３サイクル目では、２サイクル目と同様に、レジスタシフト付きＳＩＭＤスカラＭＡＣ命令を実行する。ソースオペランドはｖｒ５と即値の（－５）とする。デスティネーションはアキュミュレータレジスタを指定する。命令デコーダ２３が命令を解析するとセレクタ５０が適切なレジスタオペランドと即値オペランドをSEL_E2およびSEL_E1_0,1,2,3に設定する。一方、命令レジスタ２２に「レジスタシフト付きＳＩＭＤスカラＭＡＣ命令」が格納されているため、パイプラインシフトの機能が働き、２サイクル目に格納されたｖｒ２、ｖｒ３、ｖｒ４の値がそれぞれ一つ上のパイプラインレジスタに格納される。パイプラインレジスタがあるため、そこでデータの流れが止まる。

　一方、２サイクル目でパイプラインレジスタ２７０－２７３に格納されたデータは次のように移動する。乗算器２８０－２８３にはパイプラインレジスタ２７０－２７３の第１レジスタ６２０－６２３および第２レジスタ６３０－６３３に格納された値が供給される。これはそれぞれｖｒ１、ｖｒ２、ｖｒ３、ｖｒ４および即値の（－５）である。そして、命令レジスタＰ３２に「レジスタシフト付きＳＩＭＤスカラＭＡＣ命令」が格納されているため、乗算結果は加算器２９０－２９３を経由して出力保持パイプラインレジスタ３００－３０３に格納される。一つ前のサイクルで命令レジスタＰ３２にＳＩＭＤスカラ乗算命令が格納されており、デスティネーションがアキュミュレートレジスタであったため、パイプラインレジスタ２７０－２７３には最新のアキュミュレートレジスタの値が格納されている。そこで、加算器２９０－２９３の入力にはこの値を使用するようにする。

　図２２は、図６に示したｖｒ１に（－５）を乗じたデータをｖｒ０に加算する状態を示している。図７から図１３に示した処理も、上記と同様に行うことができる。

　以上のようにして、４つのＳＩＭＤレジスタに対する処理が４つ並列に行われ、４つの１／２精度座標の補間処理が並列に行われる。これにより、例えば、(0,1/2), (0, 3/2), (0, 5/2), (0, 7/2)の座標の補間値が同時に算出できる。

　以上説明したように、実施形態では、複数の演算ユニットのパイプラインレジスタを、一方の出力がもう一方の入力に接続されるようにチェーンを形成し、チェーンの初めのパイプラインレジスタにはレジスタファイルの任意のレジスタからデータを供給する。これにより、複数のパイプラインレジスタは、データ設定モードまたはシフトモードに切り替えることができる。

　演算では、レジスタに整列されたデータを、一つずつずらしながら使用するので、まずデータ設定モードで初期データを設定した後シフトモードに切り替え、サイクルの進行に応じて、チェーンの初めに、新しく使用するデータを追加データとして供給する。これにより一連の演算処理（パイプライン処理）を、シフトモードで追加データを供給して行える。このような構成では、各演算ユニットで使用するデータとレジスタファイルのレジスタに格納されるデータを、部分的に対応付けることができ、セレクタ５０の選択範囲を制限して、セレクタ５０の回路規模を低減できる。

　図１６に示したセレクタと、実施形態のセレクタ５０のハードウエア規模の比較を、ゲート数の比較で行った。図１６の例では、４つのレジスタを指定するために１６ビット幅×９要素の２８入力１出力のセレクタを４つ使用した。演算ユニットの入力は２系統あるため、セレクタは８つ必要になる。この場合のゲート数は、５４７８５であった。

　一方、実施形態では、１６ビット幅×９要素の７入力１出力のセレクタを４つ、２入力１出力のセレクタを３つ使用した。また、パイプラインレジスタへの供給の為、２８入力１出力のセレクタを１つ使用している。さらに、パイプラインレジスタの入力切り替えの為、２入力１出力のセレクタを３つ使用している。この場合のゲート数は、２６６４４であった。このように、セレクタの回路規模が大幅に低減される。

　以上、実施形態を説明したが、ここに記載したすべての例や条件は、発明および技術に適用する発明の概念の理解を助ける目的で記載されたものである。特に記載された例や条件は発明の範囲を制限することを意図するものではなく、明細書のそのような例の構成は発明の利点および欠点を示すものではない。発明の実施形態を詳細に記載したが、各種の変更、置き換え、変形が発明の精神および範囲を逸脱することなく行えることが理解されるべきである。

　１１　　符号化データ入力部
　１２　　ビットストリーム解析部
　１３　　逆量子化・逆ＤＣＴ部
　１４　　プロセッサ
　１５　　デブロッキングフィルタ
　１６　　ビデオメモリ
　１７　　出力装置
　１８　　全体の制御装置
　２１　　フェッチユニット
　２２　　命令レジスタ
　２３　　命令デコーダ
　２４　　レジスタファイル
　５０　　セレクタ
　２７０－２７３　　パイプラインレジスタ
　２８０－２８３　　乗算器
　２９０－２９３　　加算器
　３００－３０３　　出力保持パイプラインレジスタ
　３１０－３１３　　算出演算器

Claims

　順番に整列されたデータを格納するレジスタファイルと、並列に設けられた複数の演算ユニットと、前記レジスタファイルに格納されたデータを選択して前記複数の演算ユニットに供給するセレクタと、を備えるパイプライン型プロセッサであって、
　各演算ユニットは、所定の個数の連続したデータを順番に使用するパイプライン処理を実行し、
　前記複数の演算ユニットは、前記パイプライン処理を、順番が１つずれたデータに対して、前記パイプライン処理を並列に実行し、
　各演算ユニットは、少なくとも１個のパイプラインレジスタと、前記パイプラインレジスタに入力するデータを切り替える切替器と、を備え、
　前記複数の演算ユニットの最下位を除く前記演算ユニットの前記切替器は、前記レジスタファイルから前記セレクタを介して供給される初期データと、隣接する他の前記演算ユニットの前記パイプラインレジスタが出力するシフトデータと、の間で出力するデータを切り替え、
　前記複数の演算ユニットの最下位の前記演算ユニットの前記切替器は、前記レジスタファイルから前記セレクタを介して供給される初期データと、前記レジスタファイルから前記セレクタを介して供給される追加シフトデータと、の間で出力するデータを切り替えることを特徴とするパイプライン型プロセッサ。
　前記複数の演算ユニットの前記パイプラインレジスタに初期データをセットした後、前記切替器を前記シフトデータおよび前記追加シフトデータを選択するように切り替え、前記パイプライン処理を１ステップずつ実行する請求項１記載のパイプライン型プロセッサ。
　前記レジスタファイルは、
　複数の汎用レジスタと、
　複数のアキュミュレートレジスタと、を備え、
　前記セレクタは、前記複数の汎用レジスタおよび前記複数のアキュミュレートレジスタに格納されたデータを選択して前記複数の演算ユニットに供給する請求項１または２記載のパイプライン型プロセッサ。
　前記セレクタは、
　前記複数の演算ユニットの最下位の前記演算ユニットの前記切替器に入力する前記追加データを選択する追加データ選択回路と、
　前記追加データ以外の前記複数の演算ユニットの複数の入力にそれぞれ対応付けられた複数の個別選択回路を備え、
　各個別選択回路は、前記レジスタファイルおよび前記アキュミュレートレジスタの一部のレジスタに格納されたデータの１つを選択して、前記演算ユニットの前記入力に供給し、
　前記追加データ選択回路は、前記レジスタファイルのすべてのレジスタに格納されたデータの１つを選択して、前記演算ユニットの前記入力に供給する請求項３記載のパイプライン型プロセッサ。