WO1994023384A1

WO1994023384A1 - Apparatus for adaptively processing video signals

Info

Publication number: WO1994023384A1
Application number: PCT/JP1994/000525
Authority: WO
Inventors: Eiji Iwata
Original assignee: Sony Corporation
Priority date: 1993-03-31
Filing date: 1994-03-30
Publication date: 1994-10-13
Also published as: EP0644492B1; EP0644492A4; US5594679A; JP3546437B2; AU668298B2; AU6292194A; CN1108865A; CN1149496C; ATE228255T1; EP0644492A1; JPH06292178A

Description

明糸田書適応形ビデオ信号演算処理装置技術分野

本発明は、例えば、数値計算、面像処理、グラフィックス処理等に用いられる計算機システムにおける中央処理装置（プロセッサ）に関するものであり、特に面像圧縮符号化（コーデック： C O D E C) のようなビデオ信号処理に好適なディジタルシグナルプロセッサ（D S P) などの適応形ビデオ信号演算処理装置に関する。背景技術

近年、 C C I TT H. 2 6 1勧告や MP E G等の画像圧縮符号化伸長復号化標準に基づく画像コーデック用ディジタルシグナルプロセッサ（D S P) が多数提案されている。

本発明は、これらの D S Pのうちで、文献、 Yaraauc hi, et al, Architecture and Implementation of a Hig hly Parallel Single-Chip Video DSP", IEEE TRANSACTIO NS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL . 2, NO. 2, JUNE 1992, pp. 207-220、に提案されているように、算術論理演算ュニット、乗算器、累算器等からなる演算ュニツトを複数有し、それらの演算ュニットが単一の命令流により複数のデータを並列に処理する「単一命令ストリーム · 多重データストリーム： S I D (Single In struction stream Multiple Data stream) J 制御方式の D S Pに関する。

この文献に記載されている構成を図 1に示した。この D S Pの演算ュニットは、演算器をパイプライン接続可能であり、演算パイプライン処理も行う。

まず、演算パイプラインの原理について簡単に説明する。

図 2に、演算パイプラインの構成例を示す。この演算パイプラインは、 2入力 X， Yを算術論理演算ユニット (ALU) A 1において加算した後に、加算結果と係数メモリ A 3からの係数とを乗算器 A 2において乗算し、さらにその乗算結果を累算器 A 3において累算する。このような演算の連鎖を複数のデータに対して連続的に行うことを「演算パイプライン処理」と呼ぶ。

図 3は図 2の演算パイプラインにおける処理のタイムチャートを示すグラフである。簡単化のため、演算パイプラインの各演算器 A l , A 2 , A 4は 1 クロックサイクルで演算を完了するものとする。

図 3における処理単位は、 2入力端子に入力されるデータの組（X, Y) を意味する。

図 3に示すように、例えば i番目の処理単位についてみると、 ( k一 1 ) 番目のクロックサイクルにおいて A L U ( A 1 ) が加算処理を行い、

k番目のクロックサイクルにおいて乗算器 A 2が乗算処理を行い、

( k + 1 ) 番目のクロックサイクルにおいて累算器 A が累積処理を行う。

また、 k番目のクロックサイクルについてみると、加算処理、乗算処理を終えた（ i 一 1 ) 番目の処理単位が累算器 A 4 において累算され、

加算を終えた i 番目の処理単位が乗算器 A 2 において乗算され、

( i + 1 ) 番目の処理単位が加算器 A 1 において加算されている。

このような動作を複数の処理単位に対して繰り返し行うことにより、演算パイプライン処理が実現できる。

次に、従来の技術について説明する。

ここでは、 4組の演算ユニットが単一の命令流により複数のデータを並列に処理する、上述した文献において提案されている Γ単一命令ストリーム · 多重データストリーム： S I D J 制御方式の D S Pを考える。

前提として、各演算ュニットは、加算、減算および論理演算を行う算術論理演算ュニット（A L U ) 、乗算器、累算器の 3種の演算器からなるとする。また、簡単化のため、各演算器は 1 クロックサイクルで演算を完了するものとする。したがって、この D S Pは、 1 クロックサイクルで最大 1 2演算（例えば、 4加算、 4乗算、 4累算）を実行することができる。さらに、この D S Pは、演算器へデータを供給あるいは演算器からのデータを格納するためのデータメモリをチップ内あるいはチップ外に持つものとする。

最初に、上記の前提の下で、最も由度の高い演算パイプラインを実現する構成について述べる。

図 4 A〜図 4 Dに示したように、最も自由度の高い演算パイプラインは、データメモリをパイプラインレジス夕とみなし、ソフトゥアにより演算パイプライン処理（ソフトゥエア · パイプライニングと呼ばれる）を行うことにより実現できる。このとき、各々の演算器はデータメモリを介してのみ結合されている。なお、図 4 A〜図 4 Dはそれぞれ、 4個の並列に設けられた演算処理ユニットの動作形態を示す。したがって、データメモリは、 1 クロックサイクル毎にすべての演算器の入力に対して任意のデータを供給し、同時にすベての演算器からの出力のデータを任意のァドレスに格納する必要がある。

データメモリのポート数は、図 4 A〜図 4 Dの図解から判るように、演算器への入力のために 1 6 ポート必要で、演算器からの出力のために 1 2ポート必要である。したがって、合計 2 8 ポートのマルチポートメモリが必要である。このポート数は、現在の半導体回路技術と考え合わせてみて、非現実的であり、事実上実現困難である。

そこで、データメモリをバンク分けして、 1 ノンク当たりのポート数を減らす手法が考えられる。しかしながら、例えばデータメモリを 4バンクに分割したとしても、上記の例では、なおも 1 バンク当たり 7ポートのマルチポ一トメモリを必要とする。

また、アプリケーション · プログラムに応じて演算パイプラインの自由度をある程度限定し、データメモリのポート数の減少を図るアプローチが採られる。例えば、上述した文献に提案されているように、 A L U、乗算器、累算器からなる演算パイブラインを 4本備え、演算パイブラインの入出力のみをデータメモリに接続する。この場合のデータメモリに要求されるポート数は、演算パイプラインへの入力のために 8 ポート、演算パイプラインからの出力のために 4 ボートとなる。

ところが、上述した従来の D S Pの演算パイプラインの構成では、演算パイプラインの自由度に制約がある。例えば、乗算した後に論理演算を行う演算については、パィプライン演算ができない。この場合、すべてのデータに対して、まず乗算器を用いて乗算のパイプライン処理を行い、次に乗算後のすべてのデータに対して、 A L Uを用いて論理演算のパイプライン処理を行う。したがって、乗算時は A L Uが使用されず、論理演算時は乗算器が使用されていないため、演算器の使用効率が低下し、性能低下を招く。また、演算パイプライン処理を 2回に分けて行うため、演算パイプラインの立ち上げ時の初期設定が 2回必要となる。

さらに、上述した従来の D S Pにおいては、 1 回目の演算パイプライン処理が完了した時点で中間結果を格納する必要があるので、データメモリ容量が増大する。

画像コーデックの要素処理では、上記の例のように乗算した後に論理演算を行う演算の他に、乗算を連続して行う演算や、乗算した結果同士を加算する演算等が必要となる。このような演算のそれぞれについて、上述した問題と同様の問題が発生する。

また、上述した従来の D S Pの演算パイプライン構成では、本出願人による、特許出願、特願平 4年 3 3 8 , 1 8 3号、「 2次元 8 x 8離散コサイン変換回路および 2 次元 8 X 8離散コサイン逆変換回路」において提案するような高速演算アルゴリズムにおける、バタフライ演算（加算および減算）と乗加算の演算パイプラインの構成を実現できない。

上述した先行する特許出願は、 2次元 8 x 8離散コサイン変換、または、 2次元 8 X 8離散コサイン逆変換を行うに際して、行列分解を適用して演算処理するものであるが、その詳細は、図 9 および図 1 0 を参照して後述する

O

上記のように、演算パイプライン構成ができない理由としては、データメモリのボート数の制約上、バタフラィ演算（従来例では 2演算ュニットを使用）を行っているときには乗加算を並列に行えないためである。よって、バタフライ演算と乗加算は逐次的に実行されるので、上記特許出願において提案したような理想的な演算パイブライン構成と比較して、性能は著しく低下する。発明の開示

本発明の目的は、画像コーデックの要素処理における、乗算した後に論理演算を行う演算、乗算を連続して行う演算、あるいは、乗算した結果同士を加算する種々の演算を適応的に 1 つの装置で実現可能な適応形ビデオ信号演算処理装置を提供することにある。

また本発明の目的は、上記本発明の適応形ビデオ信号演算処理装置を、「単一命令ストリーム · 多重データストリーム： S I M D」制御方式に基づく、 1 本の演算パイプラインを用いた 1 回のパイプライン処理で実現可能にすることにある。つまり、本発明の他の目的は、異なる演算器を用いる演算を並列に実行可能にし、演算器の使用効率は低下させない適応形ビデオ信号演算処理装置を提供する t if Λ> 0

さらに本発明の目的は、演算パイプラインの立ち上げ時の初期設定が 1 回でよい適応形ビデオ信号演算処理装置を提供することにある。またさらに本発明の目的は、中間結果を格納する必要がなくデータメモリの容量は増大させない適応形ビデオ信号演算処理装置を提供することにある。上述した課題を解決し、上記目的を達成するため、本発明の基本構想は、ビデオ信号処理を行うディジタルシグナルプロセッサ（D S P) 、つまり、適応形ビデオ信号演算処理装置において、算術論理演算ュニット（ALU) 、乗算器、累算器からなる演算ュニットを複数有し、これらの演算ュニット内の演算器の接続形態および演算ュニット間の接続形態を適宜切り替えることにより、画像コ一デック処理における種々の演算、たとえば、

( 1 ) 離散コサイン変換（D C T) 離散コサイン逆変換（ I D C T)

( 2 ) 量子化 Z逆量子化

( 3 ) 動きべクトル検出

( 4 ) 動き捕償（仮想画素生成、予測画素生成） ( 5 ) フィルタ（内積演算）

( 6 ) 画像加算、画像差分

等の要素処理の各々に適応した演算パイプラインを実現する構造可変な演算パイプラインを設ける。

したがって、本発明によれば、離散コサイン変換離散コサイン逆変換、量子化逆量子化、動きべクトル検出、動き補償、内積演算、画像データ加算および画像デ— タ差分処理などの画像圧縮符号化伸長復号化処理を、 m X nの大きさのブロックの面像データについて、適応的に行う演算処理装置であって、

それぞれが、加算、減算、各種論理演算、大小比較、差分絶対値演算、バタフライ加算，減算処理を行う拡張算術論理演算ュニット、該拡張算術論理演算ュニツトの後段に設けられた第 1 の内部パイプラインメモリ、該第 1 の内部パイプラインメモリの後段に設けられた乗算ュニット、該乗算ュニットに係数を提烘する係数メモリ、該乗算ュニットに後段に設けられた第 2 の内部パイプラインメモリ、該第 2の内部パイプラインメモリの後段に設けられた累積演算ュニツト、該累積演算ュニットに後段に設けられた第 3の内部パイブラインメモリを有する、複数の並列に設けられた演算ュニット、

これら複数の並列に設けられた演算ュニットのうち、隣接する演算ュニットを接続するように配設された相互接続パイプラインメモリ、および、

前記複数の演算ュニヅトに入力データを選択的に印加するデータセレクタ

を有し、

前記相互接繞パイプラインメモリを介して隣接する演算ュニットを結合し、かつ、前記演算ュニット内の内部パイプラインメモリを選択して所定のデータ流れ経路を構成し、所望のビデオ信号処理を行う、適応形ビデオ信号演算処理装置が提供される。

上記の構成によれば、算術論理演算ュニット（A L U ) 、乗算器、累算器からなる演算ュニットを複数有し、これらの演算ュニット内の演算器の接続形態および演算ュニット間の接続形態を適宜切り替えることにより、画像コーデックの各要素処理を並列にパイプライン処理できる。

種々の演算処理について、より具体的にその動作を述べる。

( 1 ) 離散コサイン変換処理用および離散コサイン逆変換処理用を行う場合には、前記複数の演算ュニツトの初段の演算ュニットに、離散コサイン変換処理用データを入力する端子が設けられ、前記複数の演算ュニットの最終段の演算ュニットに、離散コサイン逆変換処理用データを出力する端子が設けられる。

( 2 ) m x n画像データをブロックとして、ノタフライ演算およびパイプラインメモリ処理を複数回数行って離散コサイン変換処理を行う際には、前記離散コサイン変換処理用データを前記最終段の演算ュニットを除く複数の演算ュニット内の拡張算術論理演算ュニットに入力し、該拡張算術論理演算ュニットにおける処理結果を隣接する前記相互接続パイプラインメモリに出力し、全ての演算ュニット内の乗算ュニットに最終段の相互接続パイプラインメモリのデータを入力し、その乗算結果を前記累積ュニットにおいて累積させる。

( 8 ) また、 m X 11画像データをブロックとして、パイプラインメモリ処理およびバタフライ演算を複数回数行って離散コサイン逆変換処理を行う際には、

( a ) 前記離散コサイン逆変換用データを全ての演算ュニット内の乗算ュニヅトに入力し、その乗算結果を前記累算ュニットにおいて累積させ、

( b ) その出力を前記初段の演算ュニットを除く複数の演算ュニット内の拡張算術論理演算ュニットに入力し、該拡張算術論理演算ュニットにおける処理結果を隣接する相互接続パイプラインメモリに出力する。

( ) 量子化処理を行う際には、隣接する演算ュニット内の第 1 の演算ュニットの乗算ュニットの出力端子を第 2の演算ュニヅトの乗算ュニットの入力端子に接続し、該第 2の乗算ュニットの乗算結果をその後段の累積ュニットに入力し、前記第 1 の乗算ュニットに量子化対象のデータを入力する。

( 5 ) 逆量子化処理を行う際には、隣接する演算ュニット内の第 1 の演算ュニットの乗算ュニットの出力端子を第 2の演算ュニットの乗算ュニットの入力端子に接続し、該第 2の乗算ュニットの乗算結果をその後段の累積ュニットに入力し、第 1 の演算ュニットに逆量子化対象のデータおよび定数を入力し、その演算結果を第 1 の乗算ュニットに入力する。 ( 6 ) 動きべクトル検出処理の際には、全ての演算ュニヅト内の拡張算術論理演算ュニットを累積演算ュニットに接続し、前記拡張算術論理演算ュニットに動きべクトル検出対象の 2つのデータを入力する。

( 7 ) 動き補償における仮想面素生成処理の際には、全ての演算ュニット内の拡張算術論理演算ュニットを累積演算ュニットに接続し、前記拡張算術論理演算ュニットに動き捕償における仮想面素生成対象の 2つのデータを入力する。

( 8 ) 動き補償における予測画素生成処理の際には、隣接する演算ュニットの一方の乗算ュニットの出力を他方の拡張算術論理演算ュニットの一方の入力端子に印加し、他方の乗算ュニットの出力を該他方の拡張算術論理演算ュニットの他方の入力端子に印加し、該他方の拡張算術論理演算ュニットの演算結果を他方の累積ュニットにおいて累積させる。

( 9 ) 内積演算処理の際には、全ての演算ュニット内の乗算ュニットに内積対象のデータを入力し、該乗算結果を対応する累積ュニットにおいて累積する。

( 10) 画像データ加算処理の際、または、画像データ減算処理の際には、全ての演算ュニット内の拡張算術論理演算ュニットに処理対象のデータを入力し、該処理結果を出力する。好適には、前記演算ュニット内において、前記拡張算術論理演算ュニット、前記乗算ュニット、前記累積演算ユニットが、パイプライン処理動作を行う。

また好適には、前記適応形ビデオ信号演算処理装置は、単一の命令ストリームで多重のデータストリーム処理を行う、「単一命令ストリーム · 多重データストリーム：

S I M D」制御方式で動作する。

特定的には、前記拡張算術論理演算ュニットは、第 1 の入力データの極性を反転する正負反転器、

該正負反転器の後段に設けられ、前記第 1 の入力デ一夕または前記極性反転された第 1 のデータを選択的に出力する第 1 のデータセレクタ、

該第 1 のデータセレクタの選択出力データおよび第 2の入力データとを加算する加算器、

前記第 1 の入力データから前記第 2の入力データを減しる顿算、

前記第 1 の入力データと前記第 2のデータとの、論理和、論理積、排他的論理和、否定などの論理処理を行う論理演算器、

前記加算器および前記減算器の出力を入力して正負判定を行う正負判定器、

前記加算器、前記減算器および前記正負判定器の出力を入力し、選択的に出力する第 2 のデータセレクタ、

該第 2のデータセレクタに接続された第 1 の出力端子、および、

前記減算器に接続された第 2の出力端子

を有し、

上述した回路を組み合わせて、加算、減算、各種論理演算、大小比較、差分絶対値演算、バタフライ加算 · 減算処理のいずれかを行う。図面の簡単な説明

上記目的および特徵、および、他の目的および特徴は、添付図面に関連づけた書きの記述によってより明瞭になるのであって、ここに、

図 1 は「単一命令ストリーム . 多重データストリーム： S I D J 制御方式のプロセッサの構成図であり、図 2は演算パイプラインの例を示す図であり、図 3 は図 2の演算パイプライン処理におけるタイムチヤ一トを示すグラフであり、

図 4 は最も自由度の高い演算パイプラインの構成を示す図であって、図 4 A〜図 4 Dはそれぞれ 4系統の演算ュニットの動作形態を示す図であり、

図 5 は本発明の実施例による演算ュニットの結合形態を示す適応形ビデオ信号演算処理装置の構成図であり、図 6 は本発明の実施例による演算ユニット 0 , 2の構成を示す図であり、

図 7 は本発明の実施例による演算ユニット 1 , 3 の構成を示す図であり、

図 8は本発明の実施例による拡張論理演算ュニット (E A LU) の構成を示す図であり、

図 9は 8 X 8離散コサイン変換（D C T) の演算パィプライン構成図であり、

図 1 0は 8 X 8離散コサイン逆変換（ I D C T) の演算パイプライン構成図であり、

図 1 1 は本発明の実施例による D C T処理時の適応形ビデオ信号演算処理装置の演算パイプラインの構成を示す図であって、図 1 1 A〜図 1 1 Dはそれぞれ 4系統の演算ュニットの動作形態を示す図であり、

図 1 2は本発明の実施例による I D C T処理時の適応形ビデオ信号演算処理装置の演算パイブラインの構成を示す図であって、図 1 2 A〜図 1 2 Dはそれぞれ 4系統の演算ュニットの動作形態を示す図であり、

図 1 3は本発明の実施例による量子化処理時の適応形ビデオ信号演算処理装置の演算パイプラインの構成を示す図であって、図 1 3 A〜図 1 3 Dはそれぞれ 4系統の演算ュニットの動作形態を示す図であり、

図 1 4は本発明の実施例による逆量子化処理時の適応形ビデオ信号演算処理装置の演算バイプラインの構成を示す図であって、図 1 4 A〜図 1 4 Dはそれぞれ 4系統の演算ュニットの動作形態を示す図であり、

図 1 5は本発明の実施例による動きべクトル検出処理時の適応形ビデオ信号演算処理装置の演算パイプラインの構成を示す図であって、図 1 5 A〜図 1 5 Dはそれぞれ 4系統の演算ュニットの動作形態を示す図であり、

図 1 6 は画像コーデックの動き補償処理の仮想画素生成規則を示す図であり、

図 1 7は本発明の実施例による動き補償における仮想面素生成処理時の演算パイプラインの構成を示す図であつて、図 1 7 A〜図 1 7 Dはそれぞれ 4系統の演算ュニットの動作形態を示す図であり、

図 1 8 は本発明の実施例による動き補償における予測画素生成処理時の演算パイプラインの構成を示す図であつて、図 1 8 A〜図 1 8 Dはそれぞれ 4系統の演算ュニットの動作形態を示す図であり、

図 1 9 は本発明の実施例によるフィルタ処理時の演算パイプラインの構成を示す図であって、図 1 9 A〜図 1 9 Dはそれぞれ 4系統の演算ュニットの動作形態を示す図であり、

図 2 0 は本発明の実施例による画像加算あるいは画像差分処理時の適応形ビデオ信号演算処理装置の演算パイプラインの構成を示す図であって、図 2 O A〜図 2 0 Dはそれぞれ 4系統の演算ュニットの動作形態を示す図である

0

発明を実施するための最良の形態

以下、図面を参照し、本発明の実施例の適応形ビデォ信号演算処理装置について詳述する。

本発明の実施例においても、従来技術と同様に、 4 組の演算ュニットが単一の命令流により並列動作する、上記文献において提案されている「単一命令ストリーム ' 多重データストリーム： S I MD」制御方式の D S Pを考え本実施例の前提として、各演算ュニットは、加算、減算および論理演算を行う AL U、乗算器、累算器の 3種の演算器からなるとする。また、簡単のため、各演算器は 1 クロックサイクルで演算を完了するものとする。したがつて、この D S Pは、 1 クロックサイクルで最大 1 2演算を実行することができる。さらに、この D S Pは演算器にデータを供給し、また、演算器からのデータを格納するためのデータメモリをチップ内あるいはチップ外に持つとす o

以下、演算ュニットの構成を述べたあと、面像コーデックの要素処理における演算ュニットの動作を説明する o

なお、ここで例示する画像コーデックの要素処理は

、主に MP E Gで使用される要素処理である。

( 1 ) 演算ュニットの構成

図 5に、 4組の演算ユニット 1〜 4間の結合形態を示す。図 5では、データメモリは図示していない。

実際には、データ入力端子（X i n 0〜： X i n 8 ) 1 1〜 1 4、および、データ入力端子（Y i n O〜Y i n 3 ) 2 1〜 2 4、および、データ出力端子（O u t 1〜0 u t 8 ) 3 1〜 3 4は、何らかの相互結合網を介してデータメモリ（図示せず）に接続されている。

ここでは簡単化のため、データメモリは、上記 8個のデータ入力端子 1 1〜 1 4、 2 1〜 2 4に 1 クロックサィクル毎にデータを供給でき、同時に上記 4個のデータ出力端子 3 1〜 3 4からのデータを 1 クロックサイクル毎に書き込むことができるとする。すなわち、演算ュニット 1 〜 4 とデータメモリ（図示せず）とは、上記のデータ転送能力を備えた相互結合網により結合されているとする。

また、演算ュニット 1〜 4間を結合するメモリ（以下、相互接続バイプラインメモリと呼ぶ） 0 ( 5 ) 、メモリ 1 ( 6 ) 、メモリ 2 ( 7 ) や、ノ、'ラレルーシリアル変換器 9、シリアル一パラレル変換器 1 0、データセレクタ 8 , 4 1〜 4 4は、後述する離散コサィン変換（00丁）離散コサイン逆変換（ I D C T) の高速演算アルゴリズムにおけるマクロな演算パイプライン構成を実現する際に必要となる。

なお、図 5に示した D C T入力端子 5 1 および I D C T出力端子 5 2についても、相互結合網（図示せず）を介してデータメモリ（図示せず）に接続されており、 1 クロックサイクル毎のデータ入出力が可能となっている。

図 6および図 7に演算ュニットの内部構成を示す。図 6は演算ユニット 0 ( 1 ) および演算ユニット 2 ( 3 ) の内部構成図であり、図 7が演算ユニット 1 ( 2 ) および演算ュニット 3 ( 4 ) の内部構成図である。

図 6および図 7に示すように、演算ュニット内では、加算、減算、論理演算および後述するバタフライ演算等の演算を行う拡張算術論理演算ュニット（E A L U) 6 1 、係数メモリ 6 3、乗算器 6 2、累算とシフト演算を行うシフト機能付き累算器 6 4、さらには入力端子（X i n k ) 1 k (kは ; k番目を示す）および（Y i n k) 2 k、および、出力端子（O u t k) 3 kが、データセレクタ 7 1 〜 7 5を介して相互に結合されている。簡単化のため、これらの演算器は、全て 1 クロックサイクルで演算を完了するものとする。したがって、演算器 6 1、 6 2、 6 4の後段に設けられている内部パイブライン，メモリ（図示省略 ) が存在する。

このような演算器 6 1、 6 2、 6 3および内部パイプラインメモリの結合形態を採ることにより、データセレクタ 7 1〜 7 5の設定に従って、内部パイブラインメモリを介して、演算器 6 1、 6 2、 6 4間のデータパスを変化させることが可能となる。よって、この演算ュニットは、 1〜 3段の構造可変な演算パイプライン構成を採りうる。図 6に示した演算ュニットと図 7に示した演算ュニットとの相違は、図 7に示した演算ュニットには、データセレクタ 7 1 および 7 3 に第 3の入力データが印加される構成になつていることである。

図 8 に拡張算術論理演算ュニット（ E A L U) 6 1 の構成を示す。

E A L U 6 1 は、正負反転器 3 0 1 、データセレクタ 3 0 6、加算器 3 0 2、減算器 3 0 3、論理演算器 3 0 4、正負判定器 3 0 5、データセレクタ 3 0 7 を有する。この E A L U 6 1 は、通常の A L Uの基本機能である加算、減算、論理演算（否定、論理和、論理積、排他的論理和等）の他に、大小比較演算 m i n (X, Y) 、 m a x (X , Y) 、差分絶対値演算 I X - Y バタフライ演算（ 2 入力について加算と減算を同時に行う）を拡張機能として備る。

これらの基本機能および拡張機能は、上述した各種演算器 3 0 1、 3 0 2、 3 0 3、 3 0 4 および 3 0 5 を適切に結合することによって実現される。以下、上記の基本機能および拡張機能を E A L U 6 1 が各種演算器を用いていかに実現するかを述べる。

加算

入力端子 3 1 1 および 3 1 2 に印加された 2入力デ一夕 Xおよび Yの加算は加算器 3 0 2 を用いて実現する。入力データ Xについては、正負反転器 3 0 1 を経由しないデータ Xが加算器 3 0 2に印加されるように、予めデータセレクタ 8 0 6 を設定する。これにより、加算器 3 0 2からは加算結果（X + Y) が出力される。データセレクタ 3 0 7は、加算器 3 0 2の加算出力を E A L U 6 1 の出力として、 A側出力端子 3 1 3から出力する。

入力端子 3 1 1 および 3 1 2に印加された 2入力デ一夕（X - Y) の演算は減算器 3 0 3 を用いて実現する。減算器 8 3からは減算結果（X— Y) が出力される。この減算結果は B側出力端子 3 1 4から出力される。論理演算

入力端子 3 1 1 および 3 1 2に印加された 2入力デ一夕（X, Y) の論理演算は論理演算器 3 0 4 を用いて実現する。論理演算器 3 0 4 は、否定、論理和、論理積、排他的論理和などの論理演算を行い、この演算結果が、データセレクタ 8 0 7を介して、 A側出力端子 3 1 3から E A L U 6 1 の結果として出力される。大小比較演算： m i n ( X, Y) ,

m a (X, Υ)

入力端子 3 1 1 および 3 1 2に印加された 2入力デ一夕 (X, Υ) の大小比較は、正負反転器 3 0 1 、加算器 3 0 2、減算器 3 0 3 および正負判定器 3 0 5 を用いて行う。入力データ Xは正負反転器 3 0 1 で反転され、反転された（一 X) がデータセレクタ 3 0 6 を介して加算器 3 0 2に印加される。これにより、加算器 3 0 2から減算結果 ( Y - X) が出力される。一方、減算器 3 0 3 において減算（X - Y) の演算が行われる。加算結果（Y - X) および減算結果（X - Y) が正負判定器 3 0 5 に印加されて、入力データ Xと Yとの大小比較判定が行われる。正負判定器 3 0 5 は下記の判定基準に従って、大小判定を行う。

1 . 最小値： m i n (X, Y)

( Y— X) ≥ 0 とき、最小値 = χ

(Υ— X) < 0 とき、最小値 = Υ

2. 最大値： m a X (X, Y)

(X— Υ) ≥ 0 とき、最大値- Υ

(X - Υ) < 0 とき、最大値 = X

ただし、最小値と最大値とをを同時に出力はできない。データセレクタ 3 0 7は、正負判定器 3 0 5 の出力を E A L U 6 1 の出力として、 Α側出力端子 3 1 3から出力する。差分絶対値演算 I X - Y I

入力端子 3 1 1 および 3 1 2に印加された 2入力デ一夕（X, Y) の差分絶対値演算は、正負反転器 3 0 1、加算器 3 0 2、減算器 3 0 3および正負判定器 3 0 5 を用いて行う。入力データ Xについては正負反転器 3 0 1 で極性反転された一 Xがデータセレクタ 3 0 6から加算器 8 0 2に選択出力されるように、予めデータセレクタ 3 0 6 を設定しておく。加算器 3 0 2は加算（Y - X) を行い、減算器 3 0 3 は減算（X— Y) を行う。これらの演算結果が正負判定器 3 0 5 に入力ざれる。正負判定器 3 0 5 は、下記の差分絶対値演算を行う。

( Y - X) ≥ 0 とき、差分絶対値 = Y— X

(X - Υ) く 0 とき、差分絶対値 = Χ - Υ

データセレクタ 3 0 7は上記演算された差分絶対値を Α側出力端子 3 1 3から出力する。バタフライ演算

入力端子 3 1 1 および 3 1 2に印加された 2入力デ一夕（X, Y) についてのバタフライ演算は、加算器 3 0 2および減算器 3 0 3を用いて実現する。入力データ Xが正負反転器 3 0 1 を経由しないで加算器 3 0 2に印加されるように、予めデータセレクタ 3 0 6 を設定しておく。加算器 3 0 2は加算（X + Y) を行い、減算器 3 0 3 は減算 (X— Y) を行う。データセレクタ 3 0 7が加算器 3 0 2 の出力を E A L U 6 1 の出力として A側出力端子 3 1 3から出力すると同時に、減算器 3 0 3の減算結果が B側出力端子 3 1 4から出力される。

このバタフライ演算の場合のみ、 E A L U 6 1 は 2 入力 2 出力の演算器として動作する。上述した他の演算においては、 E A L U 6 1 は 2入力 1 出力の演算器として動作する。以下、 D CTZ I D C T、量子化などの画像コーデックの各要素処理における演算ュニットの動作を個別的に説明する。離散コサイン変換離散コサイン逆変換（D C TZ I D C T)

離散コサイン変換 Z離散コサイン逆変換（D C TZ I D CT) の要素処理において、本発明の実施例における演算ュニットでは、本出願人が先に出願した、特願平 4年 3 3 8 1 8 3号の明細書及び図面で提案するような高速演算アルゴリズムに適応するバタフライ演算（加算および減算）と乗加算のマクロな演算パイプラインの構成を以下のように実現する。

図 9は 8 X 8 D C Tの演算パイプライン構成の概略図を示し、図 1 0は 8 x 8 I D C Tの演算パイプライン構成の概略図を示す。

これらの演算パイプラインの処理単位は 8 8の面像ブロック（ 6 4面素）であり、パイプラインメモリ 1 3 1〜 1 3 3を介した 4段の演算パイブライン構成となる。したがって、通常の画素単位で 1 クロックサイクル毎にバイブライン処理を行う演算パイプラインとは異なり、 6 4 クロックサイクル毎にパイプライン処理を行うことから、マクロな演算パイプラインと考えられる。

以下、 8 X 8 D C Tを例にとって上記の演算パイプラインの高速演算アルゴリズムを簡単に説明する。

前述の特許出願、特願平 4年 3 3 8 1 8 3号において提案したような行列分解により、 8 x 8 D C Tは、 8 X 8の画像プロック（ 6 4画素）に対して 1 6 5回のパタフライ演算（加算 1 6 5回および減算 1 6 5回）を行い、さらに、 2 2 0回の乗加算（乗算 2 2 0回および累算 2 2 0 回）を行うことにより実現できる。したがって、図 9 に示すような 4段の演算パイプラインの構成、つまり、 3個のバタフライ演算器 1 0 1 〜 1 0 3 と 4個の乗加算器 1 1 1 による回路構成を採ることにより、 6 4 クロックサイクル周期（理想的には 5 5 クロックサイクル）で演算パイプライン処理を行い、 8 X 8 D C Tを計算することが可能となる

また、 8 X 8 I D C Tについても、乗加算とバタフライ演算の順序が入れ替わるだけで、演算量や演算パイプライン段数は変わらない。

なお、上述した出願では、乗加算器数を 3個にするために、さらに乗加算回数を減らす工夫を行っているが、本発明の実施例においては乗加算器数は 4個であると仮定しているため、この工夫は必要ない。

図 1 1 A〜図 1 1 Dに、本発明の実施例における演算ュニットを用いて、上述の 8 X 8 D C Tの演算パイプライン構成を実現した場合の演算器およびメモリの結合形態 (データパス）を示す。図 1 1 A〜図 1 1 Dはそれぞれ、 4系統の演算ュニットの動作形態を示す。

図 1 1 A〜図 1 1 Dおよび図 5 に示すように、演算ユニット 0 ( 1 ) , 1 ( 2 ) , 2 ( 3 ) 内の E A L U 6 1 をメモリ 0 ( 5 ) , 1 ( 6 ) , 2 ( 7 ) 、つまり、パイプラインメモリ 5 , 6 , 7を介してパイプライン接続する。さらに、演算ュニット 2 ( 3 ) の E A L U 6 1 の出力を、シリアルーノ、 'ラレル変換器 1 0、データセレクタ 4 1 〜 4 4 を介して、 4個の乗算器 6 2 に接続し、各々の乗算器 6 2の出力をシフト機能付き累算器 6 4 にパイプライン接続する。なお、この時の E A L U 6 1 は、前述した E A L U としての拡張機能であるバタフライ演算を行うため、 2入力 2 出力となっている。

このような演算器およびメモリの結合形態を採ることにより、図 9 に示すようなマクロな演算パイプライン構成を実現する。

また、図 1 2 A〜図 1 2 Dに、本発明の実施例における演算ュニットを用いて、上述の 8 X 8 I D C Tの演算パイプライン構成を実現した場合の演算器およびメモリの結合形態（データパス）を示す。図 1 2 A〜図 1 2 Dはそれぞれ、 4系統の演算ユニットの動作形態を示す。

図 1 2 A〜図 1 2 Dおよび図 5 に示すように、各演算ュニットの 4個の乗算器 6 2を各々シフト機能付き累算器 6 4にパイブライン接続する。さらに、すべてのシフト機能付き累算器 6 4の出力を、パラレル一シリアル変換器 9、データセレクタ 8を介して、メモリ 0 ( 5 ) に接続する。また、演算ユニット 1 ( 2 ) , 2 ( 3 ) , 3 ( 4 ) の E A LU 6 1 をメモリ 0 ( 5 ) , 1 ( 6 ) , 2 ( 7 ) 、つまり、パイプラインメモリ 5 , 6 , 7を介してパイプライン接続する。なお、この時の E A L U 6 1 は、前述した E A L U 6 1 の拡張機能であるバタフライ演算を行うため、 2入力 2出力となっている。

このような演算器およびメモリの結合形態を採ることにより、図 1 0に示すようなマクロな演算パイプライン構成を実現する。量子化逆量子化処理

(ィ）量子化

画像コーデックの量子化処理においては、下式 1 のように乗算を連続して行い、さらにシフト演算を行う演算パターンが存在する。これは、量子化処理において最も複雑な演算パターンである。

1 1

y = 8 · X · · ( 1 )

W Q P

ただし、 Xは量子化前の画素値であり、

Yは量子化後の画素値を表し、 wは量子化行列の係数を示し、

Q Pは量子化スケールパラメータを表す

0

図 1 3 入〜図 1 3 Dに本発明の実施例における演算ュニットを用いて上式の演算を実現した場合の演算器の結合形態（データパス）を示す。図 1 3 A〜図 1 3 Dはそれぞれ 4系統の演算ュニットの動作形態を示す。

図 1 3 A〜図 1 3 Dのように、 2個の乗算器 6 2およびシフト機能付き累算器 6 4 をパイプライン接続するデ一夕パスを実現することにより、上式の演算パターンを分割処理することなく 1 本の演算パイプラインで処理できる。この量子化処理の演算パターンにおいて、本発明の実施例における演算ュニッ卜の構成では、図 1 3 A〜國 1 3 D に示すように 3段の演算パイプラインを 2本実現できる。このような演算パイプライン構成を採ることにより、画像ブロック内の全面素に対する量子化を 2並列にパイプライン処理できる。

( π ) 逆量子化

画像コーデックの逆量子化処理においては、下式 2 のようにシフトおよび加算を行ったあと、乗算を連続して行い、さらに、シフト演算を行う演算パターンが存在する。これは、逆量子化処理において最も複雑な演算パターンである。 x = · { ( 2 · y + K) · W · Q P }

1 6

······ ( 2 ) ただし、 Xは量子化前の画素値であり、

Yは量子化後の面素値を表し、

Kは逆量子化時に必要となる定数を表し、

( K = 0、 1 または一 1 )

Wは量子化行列の係数であり、

Q P量子化スケールパラメータを表す。図 1 4 A〜図 1 4 Dに本発明の一実施例における演算ュニットを用いて、上式の演算を実現した場合の演算器の結合形態（データパス）を示す。図 1 4 A〜図 1 4 Dはそれぞれ、 4系統の演算ユニットの動作形態を示す。

図 1 4 A〜図 1 4 Dに示すように、 E A L U 6 1 と 2個の乗算器 6 2およびシフト機能付き累算器 6 4をパイプライン接続するデータパスを構成することにより、上式の演算パターンを分割することなく 1本の演算パイプラインで実現できる。なお、シフトおよび定数加算は、 E AL U 6 1で 1 クロックサイクルで実行可能とする。この逆量子化処理の演算パターンにおいて、本発明の実施例における演算ュニットの構成では、図 1 4 A〜図 1 4 Dに示すように 4段の演算パイプラインを 2本実現できる。このような演算パイプライン構成を採ることにより、画像プロック内の全画素に対する逆量子化を 2並列にパイプライン処理できる。動きべクトル検出

画像コーデックの動きべクトル検出処理においては、下式のような差分絶対値和演算が動きべクトル候補の数だけ必要となる（ただし、探索アルゴリズムにブロックマツチングの全探索を採用した場合）。

ただし、 Xは動きベクトル探索の基準となる画像ブロック（参照ブロックと呼ばれる）の面素値を表し、

Yは動きべクトル探索の対象となる画像ブロック（候捕ブロックと呼ばれる）の画素値を表す。

図 1 5 A〜図 1 5 Dに本発明の一実施例における演算ュニットを用いて、上式の演算を実現した場合の演算器の結合形態（データパス）を示す。図 1 5 A〜図 1 5 Dはそれぞれ 4系統の演算ュニットの動作形態を示す。

図 1 5 A〜図 1 5 Dのように、 E A L U 6 1 およびシフト機能付き累算器 6 4 をパイプライン接続するデータパスを構成することにより、上式の差分絶対値和演算を分割することなく 1 本の演算パイプラインで実現できる。なお、差分絶対値演算には、前述した E A L U 6 1 の拡張機能である差分絶対値演算機能を用いる。この動きベクトル検出処理の差分絶対値和演算において、本発明の実施例における演算ュニットの構成では、図 1 5 A〜図 1 5 Dに示すように 2段の演算パイプラインを 4本実現できる。

このような演算パイプライン構成を採ることにより、全候補ブロックに対する動きベクトル検出を 4並列にパイブライン処理できる。動き補償（仮想画素生成、予測面素生成）

面像コーデヅクにおける動き補償処理は、動きべクトルの値やプロックのモードにより、様々な処理に場合分けられる。このうち、最も複雑な演算を行う場合についてんる。

このとき、動き補僙処理は、仮想画素生成および予測画素生成の 2つの処理に分けられる。

以下、本発明の実施例における演算ュニットにおいて、上記 2つの処理のそれぞれに適応する演算パイプラインの構成をどのように実現するかを説明する。

(ィ）仮想画素生成

仮想画素生成処理は、 1 2面素精度の動きべクトルに伴い、画素間の補間を行って仮想画素を生成する処理でめ。

図 1 6 に仮想画素の生成規則を示す。図 1 6 の図解から分かるように、最も複雑な仮想画素生成処理は、近傍 4面素から中央の 1 仮想画素を生成する場合である。 1

a = ( x + y + z + w) ( 4 )

4

ただし、 aは仮想画素を表し、

X , y , z , wは、近傍の 4面素を表す。

図 1 7 A〜図 1 7 Dに本発明の実施例における演算ュニットを用いて、上式の演算を実現した場合の演算器の結合形態（データパス）を示す。図 1 7 A〜図 1 7 Dはそれぞれ、 4系統の演算ユニットの動作形態を示す。

図 1 7 A〜図 1 7 Dのように、 E A L U 6 1 およびシフト機能付き累算器 6 4 をパイプライン接続するデータパスを構成することにより、上式の演算パターンを分割することなく 1 本の演算パイプラインで処理できる。

この仮想画素生成処理において、本発明の一実施例における演算ュニットの構成では、図 1 7 A〜図 1 7 Dに示すように 2段の演算パイブラインを 4本実現できる。

このような演算パイプライン構成を採ることにより、画像ブロック内の全画素に対する仮想画素生成を 4並列にパイプライン処理できる。

(口）予測画素生成

予測画素生成処理は、単方向（前向きあるいは後ろ向き）動き補償予測か両方向動き補償予測かのモードにより異なる。単方向動き補僙予測の場合は、単に動きべクトルに従ってフレームメモリにアクセスし、当該画像ブロックを得ればよい。

ところが、両方向動き補償予測の場合は、前向きおよび後ろ向きの 2種の動きべクトルに従って 2つのフレームメモリからそれぞれ画像ブロックを得、さらにそれらの面素を時間的距離によって平均化して予測値を得る。

1

a = { A · X + ( 1 6 - A ) - y }

1 6

…… （ 5 ) ただし、 aは両方向動き補償予測値を示し、

X , yはそれぞれ前向きおよび後ろ向きの動き捕僂予測値を示し、

Aは 2つの画像プロックの時間的距離によつて決定するパラメータである。

図 1 8 人〜図 1 8 Dに本発明の一実施例における演算ュニットを用いて、上式の演算を実現した場合の演算器の結合形態（データパス）を示す。図 1 8 A〜図 1 8 Dはそれぞれ、 4系統の演算ユニットの動作形態を示す。

図 1 8 A〜図 1 8 Dに示すように、 2個の乗算器 6 2の出力を E A L U 6 1 の入力とし、さらにシフト機能付き累算器 6 4 をパイプライン接続するデータバスを構成することにより、上式の演算パターンを分割することなく 1 本の演算パイブラインで実現できる。

この予測面素生成処理において、本発明の実施例における演算ュニットの構成では、図 1 8 A〜図 1 8 Dに示すように 3段の演算パイプラインを 2本実現できる。

このような演算パイプライン構成を採ることにより、画像ブロック内の全画素に対する予測画素生成を 2並列にパイプライン処理できる。フィルタ（内積演算）

面像コーデックに限らず、フィルタ処理は面像処理の基本的な要素処理である。ここでは、画像ブロック内の全画素に対して 1 次元フィルタ処理を行う場合を考える。

フィルタ処理においては下式のような内積演算が必要となる。

∑ c · X …… （ 6 )

ただし、 c はフィルタ係数を示し、

Xは画像プロック内の画素を示す。図 1 9 A〜図 1 9 Dに本発明の実施例の演算ュニットを用いて上式の演算を実現した場合の演算器の結合形態 (データパス）を示す。図 1 9 A〜図 1 9 Dはそれぞれ、 4系統の演算ュニットの動作形態を示す。

図 1 9 A〜図 1 9 Dに示すように、乗算器 6 2およびシフト機能付き累算器 6 4 をパイプライン接続するデータパスを構成することにより、上式の内積演算を分割することなく 1 本の演算パイプラインで実現できる。このフィ. ルタ処理において、本発明の実施例における演算ュニットの構成では、図 1 9 A〜図 1 9 Dに示すように 2段の演算パイプラインを 4本実現できる。

このような演算パイブライン構成を採ることにより、画像プロ、)、ク内の全画素に対するフィルタ処理を 4並列にパイプライン処理できる。画像加算、画像差分

面像加算および画像差分もまた、画像コーデックに限らず、画像処理の基本的な要素処理である。

ここでは、画像ブロック間で画像加算あるいは画像差分を計算する場合を考える。

図 2 O A〜図 2 0 Dに本発明の一実施例における演算ュニットを用いて、画像加算あるいは画像差分を実現した場合の演算器の結合形態（データパス）を示す。図 2 0 A〜図 2 0 Dはそれぞれ、 4系統の演算ユニットの動作形態を示す。

本発明の実施例における演算ュニットの構成では、図 2 O A〜図 2 0 Dに示すように E A L U 6 1 を用いた 1 段の演算パイプラインを 4本実現できる。このような演算パイプライン構成を採ることにより、面像ブロック内の全画素に対する画像加算あるいは面像差分を 4並列にパイブライン処理できる。

以上の実施例は、適応形ビデオ信号の代表的な処理について述べたが、本発明の適応形ビデオ信号演算処理装置においては、上述した信号処理例に限定されず、上記同様の他の信号処理にも適用できる。

本発明によれば、面像コーデックの要素処理における、乗算した後に論理演算を行う演算、乗算を連続して行う演算、あるいは、乗算した結果同士を加算する種々の演算を適応的に 1 つの適応形ビデオ信号演算処理装置で実現できる。

また、本発明の適応形ビデオ信号演算処理装置は、 Γ単一命令ストリーム · 多重データストリーム： s I D

J 制御方式に基づく、 1 本の演算パイプラインを用いた 1 回のパイプライン処理で実現できる。

したがって、従来の構成と比較して、本発明の適応形ビデオ信号演算処理装置は異なる演算器を用いる演算を並列に実行できるため、演算器の使用効率は低下しない。

また、本発明の適応形ビデオ信号演算処理装置は演算パイプラインの立ち上げ時の初期設定も 1 回でよい。さらには、本発明の適応形ビデオ信号演算処理装置は中間結果を格納する必要はないので、データメモリの容量は増大しない。

また、本発明の適応形ビデオ信号演算処理装置はバタフライ演算器 3個と乗加算器をパイプライン · メモリで接続したマクロな演算パイプライン構成を実現可能としているため、前述の特願平 4年 3 3 8 , 1 8 3号出願（平成 4年 1 1月 2 5 日出願）にて提案したような回路構成による、 D C T高速演算アルゴリズムにおけるバタフライ演算と乗加算の演算パイプラインの構成が実現可能となる。これにより、本発明の適応形ビデオ信号演算処理装置は、画像コーデ、タクの D C T/ I D C Tの要素処理における演算器使用効率が従来の構成と比較して大幅に向上し、性能が向上する。産業上の利用可能性

本発明の適応形ビデオ信号演算処理装置は、例えば、数値計算、画像処理、グラフィックス処理等に用いられる計算機システムにおける中央処理装置（プロセッサ）に関するものであり、特に画像圧縮符号化（C O D E C) のようなビデオ信号処理に好適なディジタルシグナルプロセヅサとして用いられる。

Claims

請求の範囲

1 . 離散コサイン変換離散コサイン逆変換、量子化 Z逆量子化、動きべクトル検出、動き補償、内積演算、面像データ加算および画像データ差分処理などの面像圧縮符号化ノ伸長復号化処理を、 m x nの大きさのブロックの画像データについて適応的に行う演算処理装置であつて、それぞれが、加算、減算、各種論理演算、大小比較、差分絶対値演算、バタフライ加算 · 減算処理を行う拡張算術論理演算ュニット、該拡張算術論理演算ュニットの後段に設けられた第 1 の内部パイプラインメモリ、該第 1 の内部バイプラインメモリの後段に設けられた乗算ュニット、該乗算ュニットに係数を提供する係数メモリ、該乗算ュニヅトに後段に設けられた第 2の内部パイプラインメモリ、該第 2の内部パイプラインメモリの後段に設けられた累積演算ュニット、該累積演算ュニツトに後段に設けられた第 3の内部パイプラインメモリを有する、複数の並列に設けられた演算ュニット、

前記複数の演算ュニットに入力データを選択的に印加するデータセレクタ

を具備し、前記相互接続パイブラインメモリを介して隣接する演算ュニットを結合し、かつ、前記演算ュニツト内の内部パイプラインメモリを選択して所定のデータ流れ経路 ¾：構成し、

前記離散コサイン変換などの所望のビデオ信号処理を行う、適応形ビデオ信号演算処理装置。

2 . 前記適応形ビデオ信号演算処理装置は、単一の命令ストリームで多重のデータストリーム処理を行う、 Γ 単一命令ストリーム · 多重データストリーム： S I M D J 制御方式で動作する、請求項 1記載の適応形ビデオ信号演算処理装置。

3 . 前記演算ュニツト内において、前記拡張算術論理演算ュニット、前記乗算ュニット、前記累積演算ュニットが、パイプライン処理動作を行う、請求項 1 または 2記載の適応形ビデオ信号演算処理装置。

4 . 前記拡張算術論理演算ュニットは、

第 1 の入力データの極性を反転する正負反転器該正負反転器の後段に設けられ、前記第 1 の入力データまたは前記極性反転された第 1 のデータを選択的に出力する第 1 のデータセレクタ、該第 1 のデータセレクタの選択出力データおよび第 2の入力データとを加算する加算器、

前記第 1 の入力データから前記第 2 の入力データを減じる減算器、

前記加算器、前記減算器、および、前記正負判定器の出力を入力し、選択的に出力する第 2のデータセレクタ、

前記減算器に接続された第 2 の出力端子を具備し、

上述した回路を適宜組み合わせて、加算、減算、各種論理演算、大小比較、差分絶対値演算、バタフライ加算 · 減算処理のいずれかを行う

請求項 S記載の適応形ビデオ信号演算処理装置

5 . 前記複数の演算ュニットの初段の演算ュニツトに離散コサイン変換処理用データを入力する端子が設けられ、

前記複数の演算ュニットの最終段の演算ュニットに離散コサイン逆変換処理用データを出力する端子が設けられた、

請求項 4記載の適応形ビデオ信号演算処理装置

6 . m x ii画像データをブロックとして、ノタフラィ演算およびパイプラインメモリ処理を複数回数行って離散コサイン変換処理を行う際、

( a ) 前記離散コサイン変換処理用データを前記最終段の演算ュニツトを除く複数の演算ュニット内の拡張算術論理演算ュニットに入力し、該拡張算術論理演算ュニットにおける処理結果を隣接する前記相互接続パイプラインメモリに出力し、

( ) 全ての演算ュニット内の乗算ュニットに最終段の相互接続パイプラインメモリのデータを入力し、その乗算結果を前記累積ュニットにおいて累積させる

ように経路を確立する、請求項 5記載の適応形ビデオ信号演算処理装置。

7 . m x n画像データをブロックとして、パイプラインメモリ処理およびバタフライ演算を複数回数行って離散コサイン逆変換処理を行う際、 ( a ) 前記離散コサイン逆変換用データを全ての演算ュニット内の乗算ュニットに入力し、その乗算結果を前記累算ュニットにおいて累積させ、

( b ) その出力を前記初段の演算ュニットを除く複数の演算ュニット内の拡張算術論理演算ュニットに入力し、該拡張算術論理演算ュニットにおける処理結果を隣接する相互接続パイプラインメモリに出力する

ように経路を確立する、請求項 5記載の適応型ビデオ信号演算処理装置。

8 . 量子化処理を行う際、

( a ) 隣接する演算ュニット内の第 1 の演算ュニットの乗算ュニットの出力端子を第 2の演算ュニットの乗算ュニットの入力端子に接続し、

( ) 該第 2の乗算ュニットの乗算結果をその後段の累積ュニットに入力し、

( c ) 前記第 1 の乗算ュニッ卜に量子化対象のデータを入力する

ように経路を確立する、請求項 1 〜 4 いずれか記載の適応形ビデオ信号演算処理装置。

9 . 逆量子化処理を行う際、

( a ) 隣接する演算ュニヅト内の第 1 の演算ュニットの乗算ュニットの出力端子を第 2の演算ュニットの乗算ュニットの入力端子に接続し、

( ) 該第 2の乗算ュニットの乗算結果をその後段の累積ユニットに入力し、

( c ) 第 1 の演算ュニットに逆量子化対象のデ一夕および定数を入力し、その演算結果を第 1 の乗算ュニッ卜に入力する

ように経路を確立する、請求項 1〜 4いずれか記載の適応形ビデオ信号演算処理装置。

1 0. 動きべクトル検出処理の際、

( a ) 全ての演算ュニツト内の拡張算術論理演算ュニットを累積演算ュニットに接続し、

(b) 前記拡張算術論理演算ュニットに動きべクトル検出対象の 2つのデータを入力する

1 1. 動き補償における仮想面素生成処理の際、

( a ) 全ての演算ュニット内の拡張算術論理演算ュニットを累積演算ュニットに接続し、

( b ) 前記拡張算術論理演算ュニットに動き補償における仮想画素生成対象の 2つのデータを入力するように経路を確立する、請求項 1〜 4いずれか記載の適応形ビデオ信号演算処理装置。

1 2 . 動き補償における予測面素生成処理の際、

( a ) 隣接する演算ュニットの一方の乗算ュニットの出力を他方の拡張算術論理演算ュニットの一方の入力端子に印加し、

( ) 他方の乗算ュニットの出力を該他方の拡張算術論理演算ュニットの他方の入力端子に印加し、

( c ) 該他方の拡張算術論理演算ュニットの演算結果を他方の累積ュニットにおいて累積させる

1 3 . 内積演算処理の際、

( a ) 全ての演算ュニット内の乗算ュニットに内積対象のデータを入力し、

( ) 該乗算結果を対応する累積ュニットにおいて累積する

1 4 . 画像データ加算処理の際、または、画像データ減算処理の際、全ての演算ュニット内の拡張算術論理演算ュニットに処理対象のデータを入力し、該処理結果を出力するように経路を確立する、請求項 1 〜 4 いずれか記載の適応形ビデオ信号演算処理装置,