WO2004003785A1

WO2004003785A1 - 離散コサイン変換（ｄｃｔ）を実行するために用いるｄｃｔプロセッサ

Info

Publication number: WO2004003785A1
Application number: PCT/JP2003/008222
Authority: WO
Inventors: Hisashi Goto
Original assignee: Nokia Corporation
Priority date: 2002-06-28
Filing date: 2003-06-27
Publication date: 2004-01-08
Also published as: CN1672148A; EP1538532A1; US20050240643A1; JP2005309474A; AU2003244151A1

Abstract

従来開発された所定のＤＣＴアルゴリズムをベースとして、特殊構造の処理メモリを用いることによってリソースシェアリングを促進させ、これにより、必要とされる部材数の減少、ファンクションブロックエリアの減少、消費電力の減少、更には、処理スピードの高速化、あるいは、出力レイテンシイの減少を図る。本装置は、離散コサイン変換を実行するために用いるＤＣＴプロセッサであって、データにパームテーションを行う記憶・処理手段と、データを所定のＤＣＴアルゴリズムに従って計算し出力する計算手段と、を備え、記憶・処理手段と計算手段との間でデータを所定回数ループさせ、計算手段の出力部から読み出されるデータに基づいて離散コサイン変換の結果を得る。

Description

明細書離散コサイン変換（DCT) を実行するために用いる DCTプロセッサ

技術分野

本発明は、離散コサイン変換（以下、「DCT」）を実行するために用いる D CTプロセッサに関する。背景技術

離散コサイン変換は、時間軸に沿った値として表されたデータを、周波数成分に分割されたデ一タに変換するためのものである。離散コサイン変換を実現する DCTアルゴリズムは、 MP EGや MP 3に代表される画像処理や周波数のサブバンドフィルタ等幅広レ、用途で利用されている。

DCTアルゴリズムを実行する DCTプロセッサには、一般に、多数の加算 - 減算器や乗算器、膨大な数のクロスバースィッチ等が必要となる。必要とされる部材の数は、サンプリングポイントが増えるに従って急激に増加する。その主な原因は、データにパームテーシヨン（置き換え）を行うことの複雑さにある。明らかなように、部材の増加は、 DCTプロセッサのファンクションブロックエリアを増大させるとともに、周辺ロジックの配線による消費電力を増大させ、また、周辺ロジックの最大配線長を増大させ、更には、プロセッサの処理スピードを低下させ出力レイテンシィの増加を招く。

例えば、従来の DCTアルゴリズムの代表的なものとして、 LEEのアルゴリズムと呼ばれるものがある。この L EEのアルゴリズムを実行する DCTプロセッサを用いて、 32個のサンプリングポイントで離散コサイン変換を実行するには、少なくとも 273個の加算 .減算器と 80個の乗算器と、更に膨大な数のクロスバースイッチが必要となる。実際上、このような膨大な数のリソース全てを

L S Iに直接に配置することは非常に困難であり、また、そのような膨大な数の部材によって引き起こされる出力レイテンシィは重大な問題となる。

今日知られている D C Tプロセッサの中で最も優れているのは、この L E Eのアルゴリズムを利用して Lippen P. E. R等によって開発された「マルチ 'フラクション ·プロセッシンク ·ュニット (Multi Fraction Processing Unit) 」と % られている。し力しな力 Sら、このプロセッサでさえ、パームテーシヨンの複雑さ故に多数の部材が必要とされ、未だに上記の問題を解決したものとは言えない。発明の開示

本発明は、上述した従来の問題点を解決しょうとするものであり、従来開発された所定の D C Tアルゴリズムをべースとし、且つ、この D C Tアルゴリズムにおけるデータフローの規則性着目して開発された特殊構造の処理メモリを用いてリソースシュアリングを促進させ、これによつて、必要とされる部材数の減少、ファンクションプロックエリアの減少、消費電力の減少、更には、処理スピードの高速化、あるいは、出力レイテンシィの減少を図るものである。

上記の目的を達成するために、本努明は、離散コサイン変換を実行するために用いる D C Tプロセッサにおいて、データにパームテーシヨンを行う記憶 ·処理装置と、所定の D C Tアルゴリズムに従って計算を行う計算装置と、を備え、前記記憶 ·処理装置と前記計算装置との間でデータを所定回数ループさせ、前記計算装置から読み出されたデータに基づいて離散コサイン変換の結果を求めることを特 ί敷としている。

また、本発明は、離散コサイン変換を実行するために用いる D C Tプロセッサにおいて、複数の入力部と複数の出力部とを有し、前記複数の入力部を通じて入力される複数のデータにパームテーシヨンを行った後に前記複数の出力部から出力する、前記記憶 ·処理装置と；前記記憶 ·処理装置の出力部に接続された複数の入力部と複数の出力部とを有し、前記複数の入力部から入力されたデータを所定の D C Tアルゴリズムに従つて計算し前記複数の出力部から出力する計算装置と；前記計算装置の出力部に接続された複数の入力部と前記記憶'処理装置の入力部に接続された複数の出力部とを有し、前記計算装置の出力部から出力された複数のデータを記憶し前記複数の出力部から出力する記憶装置と；前記記憶装置と前記記憶 ·処理装置との間に設けられ、前記記憶装置からのデータを所定の順番に並ぴ替える、並び替え手段と；を備え、前記記憶装置の出力部から出力された複数のデータを、前記記憶 ·処理装置、前記計算装置、前記記憶装置、及び前記並ぴ替え手段で、これらの順にそれらの間を所定回数ループさせ、前記記憶装置の出力部から読み出されたデータに基づいて離散コサイン変換の結果を求めることを特徴としている。

更に、本発明は、 3 2個のサンプリングポイントでサンプリングすることによつて得られた 3 2個のデータに対して離散コサイン変換を行う 3 2ポイント D C Tプロセッサにおいて； 8個の入力部と 8個の出力部とを有し、一度に 8個ずつ計 4回、計 3 2個のデータを入力し且つ出力することができる、記憶 ·処理装置であって、前記 8個の入力部を通じて一度に 8個ずつ計 4回、順次に所定の記憶位置に書き込まれた計 3 2個のデータを前記 8個の出力部に所定の順番で出力する、前記記憶 ·処理装置と；各々が、前記記憶 ·処理装置の 8個の出力部のうちの 4個の出力部にそれぞれ接続された 4個の入力部と 4個の出力部とを有し、前記 8個の入力部から入力されたデータを一度に 4個ずつ C G A— D C Tァルゴリズムに従って計算し、前記 4個の出力部からそれぞれ出力する、 2個の計算装置と；前記 2個の計算装置の計 8個の出力部にそれぞれ接続された 8個の入力部と前記記憶 ·処理装置の計 8個の入力部にそれぞれ接続された 8個の出力部とを有し、一度に 8個ずつ計 4回、計 3 2個のデータを先入れ先出し方式で書き込み且つ読み出すことができる、記憶装置であって、前記計算装置の各出力部から出力された計 8個のデータを計 4回、計 3 2個のデータを記憶する、前記記憶装置と；前記記憶装置と前記記憶 ·処理装置との間に設けられ、前記記憶装置からのデータを所定の順番に並び替える、並ぴ替え手段と；を備えることを特徴としている。

上記の D C Tプロセッサには、更に、前記 D C Tプロセッサの外部から内部にデータを入力する入力手段が、前記記憶'処理装置の直前に、あるいは、前記記憶 -処理装置と前記計算装置の間に、あるいは、前記計算装置と前記記憶装置の間に設けられていてもよい。

上記の D C Tプロセッサにおいて、前記記憶'処理装置は、前記データを前記所定の記憶位置に書き込む際、前記入力されるデータと前記出力されるデータとの対応付けを変更しな!/、第 1の動作モードと、前記入力されるデータと前記出力されるデータとの対応付けを変更する第 2の動作モードのいずれかで動作するものであって、前記入力手段からのデータは前記第 1の動作モードで処理されるものであってもよい。

上記の D C Tプロセッサにおいて、前記第 1の動作モードで動作する記憶 ·処理装置で処理された計 3 2個のデータを、前記計算装置、前記記憶装置で順に処理し、その後、前記記憶装置の出力部から読み出された計 3 2個のデータを、前記並び替え手段で処理した後に、前記第 2の動作モードで動作する前記記憶 ·処理装置、前記計算装置、前記記憶装置、及び前記並び替え手段で、これらの順にそれらの間をループさせ、 4回目のループ時に前記記憶装置の出力部から読み出されたデータに基づいて、前記データを離散コサイン変換したときの結果を求めるようにしてもよい。

上記の D C Tプロセッサにおレ、て、前記記憶 ·処理装置は、計 3 2個の記憶位置を有しており、前記 3 2個のデータは、これら ³ 2個のいずれかの記憶位置に 1つずつ書き込み且つ読み出されるものであってもよい。

上記の DCTプロセッサにおいて、前記 32個の記憶位置の各々に書き込みラインと読み出しラインが設けられており、これら書き込みラインと読み出しラインは互いに垂直に配線され、データの'書き込み及び読み出し時に共用されなくともよい。

上記の DCTプロセッサにおいて、前記所定の並び替えは、前記記憶装置と前記記憶 ·処理装置との間の伝送線をクロスさせることによって行ってもよい。上記の DCTプロセッサにおいて、計 32個のデータを前記 8個の出力部に所定の順番で出力するために並び替え装置を用いてもよい。

上記の DC Tプロセッサにおいて、前記記憶 ·処理装置は 8 R/Wメモリ回路であり、前記計算装置は DC T回路であり、前記記憶装置は F I FOであってもよい。

上記の DC Tプロセッサにおいて、前記並び替え手段は記憶 ·処理装置に設けられていてもよい。

また、本発明は、離散コサイン変換を実行するために用いる DCTプロセッサで使用する記憶 ·処理装置であって、所定の DCTアルゴリズムに従って計算を行う計算装置との間でデータを所定回数ループさせ、前記計算装置から読み出されたデータに基づいて離散コサイン変換の結果を求めるようにデータにパームテーションを行うことを特徴としている。

更に、本発明は、離散コサイン変換を実行するために用いる DCTプロセッサで使用する記憶 ·処理装置であって、該記憶 '処理装置は、複数の入力部と複数の出力部とを有し、前記複数の入力部を通じて入力される複数のデータにパームテーシヨンを行った後に前記複数の出力部から出力するものであり；前記 DCT プロセッサは、更に、前記記憶-処理装置の出力部に接続されこ複数の入力部と複数の出力部とを有し、前記複数の入力部から入力されたデータを所定の DCT アルゴリズムに従って計算し前記複数の出力部から出力する計算装置と；前記計算装置の出力部に接続された複数の入力部と前記記憶 ·処理装置の入力部に接続された複数の出力部とを有し、前記計算装置の出力部から出力された複数のデータを記憶し前記複数の出力部から出力する記憶装置と；前記記憶装置と前記記憶 -処理装置との間に設けられ、前記記憶装置からのデータを所定の順番に並ぴ替える、並ぴ替え手段と；を備え、前記記憶装置の出力部から出力された複数のデータを、前記記憶 ·処理装置、前記計算装置、前記記憶装置、及ぴ前記並び替え手段で、これらの順にそれらの間を所定回数ループさせ、前記記憶装置の出力部から読み出されたデータに基づレ、て離散コサイン変換の結果を求めることを特徴としている。

更に、本発明は、 3 2個のサンプリングポィントでサンプリングすることによつて得られた 3 2個のデータに対して離散コサイン変換を行う 3 2ポイント D C Tプロセッサで使用する記憶.処理装置であって、該記憶■処理装置は、 8個の入力部と 8個の出力部とを有し、一度に 8個ずつ計 4回、計 3 2個のデータを入力し且つ出力することができ、前記 8個の入力部を通じて一度に 8個ずつ計 4回、順次に所定の記憶位置に書き込まれた計 3 2個のデータを前記 8個の出力部に所定の順番で出力するものであり；前記 D C Tプロセッサは、更に、各々力前記記憶 ·処理装置の 8個の出力部のうちの 4個の出力部にそれぞれ接続された 4個の入力部と 4個の出力部とを有し、前記 8個の入力部から入力されたデータを一度に 4個ずつ C G A— D C Tァルゴリズムに従つて計算し、前記 4個の出力部からそれぞれ出力する、 2個の計算装置と；前記 2個の計算装置の計 8個の出力部にそれぞれ接続された 8個の入力部と前記記憶 ·処理装置の計 8個の入力部にそれぞれ接続された 8個の出力部とを有し、一度に 8個ずつ計 4回、.計 3 2個のデータを先入れ先出し方式で書き込み且つ読み出すことができる、記憶装置であつて、前記計算装置の各出力部から出力された計 8個のデータを計 4回、計 3 2個のデータを記憶する、前記記憶装置と；前記記憶装置と前記記憶■処理装置との間に設けられ、前記記憶装置からのデータを所定の順番に並び替える、並ぴ替え手段と；を備えることを特徴としている。図面の簡単な説明

図 1は、本発明による DCTプロセッサのプロック図である。

図 2は、 DCT回路の機能素子の各機能を説明する図である。

図 3は、 8 R/Wメモリ回路のプロック図を示す図である。

図 4は、 8 RZWメモリ回路の回路図である。

図 5は、パームテーションを実行することによって得られる効果を視覚的に示した図である。

図 6は、離散コサイン変换処理のシーケンスフローを示す図である。

図 7は、離散コサイン変換処理によって生じるデータのデータフローを表すデ一タフローグラフである。発明を実施するための最良の形態

A. 第 1の実施形態 '

1. DCTプロセッサの構成

1 - 1. 全体構成

図 1に、本発明の第 1の実施形態による DCTプロセッサ 1のプロック図を示す。

この DCTプロセッサ 1は、特に、 3 2個のサンプリングポイントでサンプリングすることによって得られた 3 2個のサンプリングデータに対して離散コサイン変換を行うことができる、 3 2ポイント DCTプロセッサ（以下、「DCTプロセッサ」） 1である。尚、サンプリングデータを何ビットにするかは設計者が 2003/008222 自由に決定できる。例えば、 1ワード（16ビット）とする等の如くである。

DCTプロセッサ 1は、所定の DC Tアルゴリズムに従って離散コサイン変換に必要な計算を行うことができる並列に並んだ 2個の回路（以下、それぞれ「D CT回路」） 3、 3 ' と、この DC T回路で使用されるアルゴリズムにおけるデ一タフローの規則性に着目して開発された特殊構造の 8読み出し Z書き込みポ一ト SRAMメモリ回路（以下、「8R/Wメモリ回路」） 5 (請求項中の「記憶 '処理装置」に対応）と、 8ワード X 4デプス（depth) F I FO (先入れ先出し）バッファ（以下、「F I FO」）（請求項中の「記憶装置」に対応） 7から成る。

尚、 DCT回路 3と DCT回路 3 ' は、全く同じものであると考えて良い。これらの DCT回路 3、 3，で使用されているアルゴリズムは、ここでは特に 1 9 99年と 2000年に Jakko Al tolaや David Akopian等によって発表された「D CTのためのコンスタント ·ジオメトリ ·ァノレゴリズム (Constant Geometry Al gorithm for DCT (CGA-DCT)) [4] 」（以下、「C G A— D C Tアルゴリズム」）とする。

図 1から明らかなように、これら 8 RZWメモリ回路 5、 DCT回路 3、 3 ' 、及び F I FOは、これらの順に互いにループ状に接続されている。更に言えば、 8 R/Wメモリ回路 5の 8個の出力部 53は、計 8個の DC T回路 3、 3，の入力部 31に、また、計 8個の DCT回路 3、 3，の出力部 33は、 F I FO 7の 8個の入力部 71に、更に、 F I F07の 8個の出力部 73は、 8 R/Wメモリ回路 5の 8個の入力部に、それぞれ接続されている。この結果、データをこれらの間でこれらの順に所望の回数だけループさせることができる、換言すれば、データに同じ処理を所望の回数だけ繰り返し行うことができる。

尚、図中の矢印はデータが流れる方向を示すものである。図から明らかなように、特に、 F I F07から 8RZWメモリ回路 5に伝達されるとき、データは、クロス部（請求項中の「並び替え手段」に対応） 4、 4 ' によって、更に言えば、それらの間に設けた伝送線を 2ケ所でクロスさせることによって、一部のデータについて並び替え (入れ換え) が行われることになつている。この並ぴえによつて、パームテーシヨンが可能になるのであるが、これについては後述する。

1 - 2. DCT回路

<概要 > '

DCT回路 3、 3' は各々、 6個の加算 '減算器 3 5 a〜f と、 2個の乗算器 3 6 a, 3 6 b、 2個のセレクタ（s e l ) 3 7 a、 3 7 b、 2 固のマスク（m s k) 3 8 a, 3 8 b、及び 1個の ROM3 9から成る。入力部 3 1と出力部 3 3は各 DC T回路 3、 3 ' にそれぞれ 4個ずつ設けられており、従って、各 DC T回路 3、 3 ' によって、データを一度に 4個ずつ入力し且つ出力することができる。各 DCT回路 3、 3，の入力部 3 1から入力される 4個のデータは、 CG A— DCTアルゴリズムに従って計算され、その後、出力部 3 3力ら 4個のデータとして出力されることになる。

DCT回路 3、 3，の構成は、 Jarmo Astola、 David Akopian等による論文「A rchitecture-oriented regular algorithms for discrete sine and cosince tr ansformsj IEEE Trans. Signal Processing Vol.47. ppll09~1124、 1 9 9 9年 4月に記載されているものと同じである。以下にその構成を概説するが、詳細については上記論文を参照のこと。

<各機能素子の構成 >

図 1に示した各 DC T回路 3、 3，は、図 2の a) 〜c) にそれぞれ示したモード（mo d e) 0〜 2の機能素子の各機能を 1個の回路で実現可能としたものと考えて良い。そこで、図 1の DCT回路を説明する前に、先ず、図 2に示した機能素子の各機能を説明する。図 2から明らかなように、モード 0の機能素子は、 4個の加算 '減算器 35 a 〜eと 2個の乗算 36 a、 36 b力、ら成る。モード 1の機能素子は、これらの部材に加えて更に、 1個の加算■減算器 35 f を有し、モード 2の機能素子は更に、 1個の加算 .減算器 35 f をも有する。これより明らかなように、モード 2 の機能素子に設けられた加算 '減算器や乗算器の数は、図 1の DCT回路 3、 3 ' のそれと同じであるが、モード 2の機能素子には、図 1の DC T回路 3、 3' のように、セレクタ 37 a、 37 bや、マスク 38 a、 38 b, ROM 39は設けられていない。これらの部材は、主として、モードを選択するためだけに使用される部材だからである。

尚、モード 0〜モード 2の各機能素子に設けられた加算 ·減算器のうち、負の記号（一）が付されているもの 35 b、 35 d、 35 f は減算器として機能し、何も記号が付されていないもの 35 a.、 35 c、 35 eは加算器として機能する。また、各機能素子の各乗算器の上部に記載された記号 d (n) あるいは 2 d (n ) (2X d (n) の意味である）は、 nの値によって定まる、乗算で使用される係数を示すものである。具体的には、以下の 3種類の式から成る式（以下、「式 1」）によって計算される係数である。

① d (1) -7" (0. 5)

② d (2 i ) = ~ (0. 5 (1 + d ( i ) )

③ d (2 i + 1) = （0. 5 (1-d (i ) ) )

(伹し、ここで i = 1/2、 2/2、 3/2, •••n/2 (nは整数) ) 上の式 1) において、例えば n = 2であれば、 ②の式を用いて、乗算で使用される係数は d (2) = (0. 5 (1 +d (1) ) =f (0. 5 (0. 5) ) である。尚、 nの値は予め決定されているものであるが、これについては後述する。

0 ぐ各機能素子の動作 >

図 2の a ) に示したモード 0の幾能素子の動作は以下の通りである。

機能素子の 4個の各入力部 31にそれぞれ、データ A〜Dの値が入力されたとすると、位置ァにおいては、データ Aと、クロス部 40 aとクロス部 40 bを介して伝達されたデータ Cとが、加算 ·減算器 35 aによって加算されるため A + Cが得られ、一方、位置ィにおいては、クロス部 40 aを介して伝達されたデータ Cと、クロス部 40 bを介して伝達されたデータ Aとが、加算 '減算器 35 b によって減算されるため A— Cが得られる。

同様に、位置ゥにおいては、クロス部 40 aを介して伝達されたデータ Bとクロス部 40 cを介して伝達されたデータ Dと力加算 .減算器 35 cによって加算されるため B + Dが得られ、一方、位置ェにおいては、クロス部 40 aとクロス部 40 cを介して伝達されたデータ Bと、 Dと力加算 ·減算器 35 dによつて減算されるため、 B— Dが得られる。

更に、位置ィにおいて得られた A—Cは、乗算器 36 aによって nの値に応じた係数 d (n) が掛算された後に、クロス部 40 dによって出力位置が入れ換えられ、また、位置ェにおいて得られた B—Dは、乗算器 36 bによって係数 d ( n) が掛算される。

以上より、モード 0の機能素子によれば、 4個の各出力 A ' 〜D，においてそれぞれ、 A+C、 B+D、（A— C) X d (n) 、（B— D) X d (n) という結果が得られる。同様に、モード 1の機能素子によれば、各出力 A''〜D "において A+C：、 B + D、（A—C) X d (n) 、（B—D) X 2 d (n) — （ B + D) という結果が、モード 2の機能素子によれば、各出力 A'，，〜D '，，において A+C、 B+D、（A—C) X 2 d (n) ― (A+C) 、（B— D) X 2 d (n) 一（B+D) という結果が得られる。く DCT回路の構成〉

DCT回路 3、 3' は、上に説明したモード 1〜3の機能素子を、 2個のセレクタ 3 7 a、 37 b、 2個のマスク 38 a、 38 b、及び 1個の R OM 39を利用することによって、 1個の回路で実現可能としたものである。

ここで、セレクタ 37 a、 37 bはそれぞれ、それらに接続された 2つの加算 -減算器 35 b、 35 dのいずれかを選択するためのものである。また、マスク 38 aは、それに接続された加算■減算器 35 eに、マスク 38 bは、それに接続された加算 .減算器 35 f に、信号を送ったり、信号を送らなかったりするためのものである。

ROM 39は、セレクタ 37 a、 37 bやマスク 38 a、 38 bを制御するために必要な情報を記憶させるためのものである。これらの情報は、 2つのテープル、即ち、係数テーブル⁴1 aと指令テーブル⁴1 bに記憶されている。ここで、係数テーブル 4 laは、上記の式 1) の計算式を記憶するものである。各乗算器は、使用すべき nの値を得た後に、この係数テーブル 4 laを利用して係数を計算する。一方、指令テーブル 41 bは、選択すべきモードに応じて、選択すべきセレクタ、あるいは、マスクを記憶するものである。 DCT回路 3、 3，は、この指令テーブル 41 bの情報に基づいて、各モードに応じて、セレクタ 3 7 a、 37 bのいずれを選択すべきか、あるいは、マスク 38 a、 38 bのいずれを選択すべきかを知る。

指令テーブル 41 bについて更に説明する。例えば、モード 1の機能素子として機能させる場合、 DCT回路 3、 3 ' の処理部（図示されていない）は、指令テーブル 41 bの情報に基づいて、セレクタ 37 aは、加算 ·減算器 35 b、 3 5 dのうちの加算 ·減算器 35 bを選択するように、一方、セレクタ 37 bは、加算 ·減算器 35 b、 35 dのうちの加算 ·減算器 35 dを選択するように、それらのセレクタ 37 a、 3 7 bに指令を出す。また、 DCT回路 3、 3，の処理部（図示されていない）は、マスク 38 aは、それに接続された加算 '減算器 3 5 eに対して加算 '減算器 35 aからの信号を送らないように、一方、マスク 3 8 bは、それに接続された加算 ·減算器 35 f に対して加算 ·減算器 35 cからの信号を送らないように、それらに指令を出す。

同様に、モード 2の機能素子として機能させる場合、 DCT回路 3、 3' は、セレクタ 37 a、セレクタ 37 b、及びマスク 38 aについては、モード 1の場合と同様にし、マスク 38 bについては、それに接続された加算 ·減算器 35 f に対して加算 ·減算器 35 cからの信号を送るように、それらに指令を出す。同様に、モード 3の機能素子として機能させる場合、 DCT回路 3、 3 ' は、セレクタ 37 aは、加算 ·減算器 35 b、 35 dのうちの加算■減算器 35 dを選択するように、一方、セレクタ 37 bは、加算 ·減算器 35 b、 35 dのうちの加算 ·減算器 35 bを選択するように、それらに指令を出す。また、 DCT回路 3、 3，は、マスク 38 aは、それに接続された加算 ·減算器 35 eに対して加算 .減算器 35 aカゝらの信号を送るように、一方、マスク 38 bは、それに接続された加算 ·減算器 35 f に対して加算 ·減算器 35 cからの信号を送るように、それらに指令を出す。

以上の働きにより、図 1の DCT回路 3、 3 ' は、図 2のモード 1〜3の機能素子の各機能を全て実現することができる。

1-3. F I FOの構成

F I FO 7は、一般に用いられている F I FOと同様のものであり、先入れ先出し方式でデータを書き込み且つ読み出すことができる記憶装置である。これらの F I FOのうち、ここでは特に、 8個 X 4デブスの F I FO 7を使用する。つまり、この F I FO 7によって一度に書き込み且つ読み出すことができるデータは 8個であり、そのような 8個のデータを 4回連続して計 32個書き込むことができ、また、 4回連続して計 3 2個読み出すことができる。明らかなように、この F I F O 7に一度に記憶させることができるデータは計 3 2個である。

F I F O 7を設けた目的は、データを一時的に記憶させるため、換言すれば、データを遅延させて比較的動作が遅、 8 R/Wメモリ回路 5による処理を可能とするためである。したがって、技術の進歩によって 8 R/Wメモリ回路 5の動作が高速化されれば、この F I F O 7は必ずしも必要ではないと考えられる。

1— 4 . 8 RZWメモリ回路の構成

く概要 >

8 RZWメモリ回路 5は、本発明の D C Tプロセッサ 1のために特別に開発されたメモリである。ただし、 8 RZWメモリ回路 5は、単なる記憶装置として機能するものではなく、離散コサイン変換を実行するために必要な処理、即ち、パ —ムテーションを行うことを主たる目的とするものである。

8 R/Wメモリ回路の構成を簡単に言えば、従来使用されていた様々な部材 ( リソース）を共有することによって、その部材数を減少させたもの、換言すれば、リソースシュアリングを促進させたもの、ということができる。本発明では、この 8 RZWメモリ回路を用いることによって、プロセッサに必要とされる部材、例え ί 、加算 '減算器や乗算器、クロスバースィッチの数を大幅に減少させている。

この 8 R/Wメモリ回路 5によつて一度に入力し且つ出力することができるデータま、 F I F 0 7と同様、 8個であり、そのような 8個のデータを 4回連続して計 3 2個書き込む（入力する）ことができ、また、 4回連続して計 3 2個出力することができる。更に、この 8 R/Wメモリ回路 5 (のメモリ）に一度に記憶させることができるデータは計 3 2個である。く詳細 >

図 3を参照して、 8 RZWメモリ回路 5の構成をより詳細に説明する。この図は、 8 RZWメモリ回路 5のプロック図を示したものである。

本発明の 8 RZWメモリ回路 5は、 3 2個のメモリプロック 0〜3 1 (請求項中の「記憶、位置」に対応）と、これらの各メモリブロック 0〜3 1にデータを書き込むための 8本の書き込みライン 5 2 a〜h、これらの各メモリブ口ック 0〜 3 1からデータを読み出すため 8本の読み出しライン 5 3 a〜h、各メモリプロック 0〜 3 1にデータを伝送するための 8本の伝送ライン 5 4 a〜h、更に 4個のクロスバースィッチ 5 8 a〜d (請求項中の「並ぴ替え装置」に対応）を備える。書き込みライン 5 2 a〜hと読み出しライン 5 3 a〜hはそれぞれ、書き込みィネィブル部と読み出しィネィブル部に接続されている。

参考のため、図 4に 8 R/Wメモリ回路 5の実際の回路図も示している。但し、この図にクロスバースィツチ 5 8 a〜 dは示されていない。この図において、 W L 0〜7は書き込みライン 5 2 a〜hに、 R L 0〜 7は読み出しライン 5 3 a〜 hに、（0 ) 〜（7 ) は伝送ライン 5 4 a〜hに、それぞれ対応する。

<メモリプロック >

各メモリプロック 0〜 3 1には、 1個のデータを書き込み且つ読み出すことができる。各メモリブロック 0〜 3 1は、 0〜； 3 1の数字で区別される。これらの数字は、データが記憶される記憶位置を示すものということもできる。

これらのメモリプロック 0〜 3 1は、 4個のプロックグノレープ 5 9 a〜 dに分割されている。計 3 2個のメモリプロックが存在するから、各プロックグループ 5 9 a〜dに 8個（3 2 ÷ 4 = 8 ) のメモリプロックが含まれることになる。例えば、プロックグループ 5 9 aには、メモリプロック 0、 1 6、 6、 2 2、 8、 2 4、 1 4、 3 0が含まれる。

5 <伝送ライン ·書き込みライン ·読み出しライン〉

伝送ライン 5 4 a〜hは、各プロックグループ 5 9 a〜dに対して 8本ずつ、各メモリブロック 0〜3 1に 1本ずつ割り当てられるようにして、一定の方向で (図面縦方向で）設けられている。 F I F O 7等から出力されたデ一タは、これらの伝送ライン 5 4 a〜hを通じて送られてくる。

書き込みライン 5 2は、各ブロックグループ 5 9に対して 2本ずつ ff 8本、各メモリプロック 0〜3 1に 1本ずつ割り当てられるようにして設けられている。各書き込みライン 5 2は、伝送ライン 5 4 a〜hとの直交方向において、各プロックグループ 5 9内の 8個のメモリブ口ックのうちの 4個のメモリプロックと交差する。これらの書き込みライン 5 2は、書き込みイネイブル部 6 0の働きにより、一度に 2本ずっィネィプルされ得る。データ伝送ライン 5 4に信^が存在し、且つ、書き込みライン 5 2がイネイブルさたときに、それらのラインの交差位置に存在するいずれかのメモリプロックにデータが書き込まれる。各書込みラインは 4個のメモリブロックと交差し、また、一度に 2本の書き込みラインがイネィブルされることから、 1回の書き込みで計 8個のデータがいずれかのメモリブ口ックに書き込まれることになる。

読み出しライン 5 3 a〜 hは、各プロックグループ 5 9 a〜 dに対して 8本ずつ、データ伝送ライン 5 4 a〜hと同方向に設けられている。各読み出しライン 5 3 a〜hは、 8個のメモリブロック（1個のブロックグループ 5 9 a〜dに対して 2個）と交差するが、 1回の読み出し動作の際に、実際に作用するのは各ブロックグノレープ 5 9 a〜dにおいて 1個のみ、したがって、計 4個のメモリプロックにおいてだけである。これらの読み出しライン 5 3 a〜hは、読み出しイネイブル部 6 1の働きにより、書き込みライン 5 2と同様に、一度に 2本ずつイネィブルされる。各読み出しライン 5 3が 1回の読み出し動作の際に実際に作用するのは 4個のメモリブロックであり、また、一度に 2本の読出ラインがイネイブルされることから、 1回の読み出しで計 8個のデータがいずれかのメモリプロックから読み出されることになる。

以上の説明からも明らかなように、本発明の 8 RZWメモリ回路 5では、書き込み時と読み出し時とでラインが共用されておらず、また、書き込みライン 52 と読み出しライン 53が互いに垂直方向に配線されている。このような構成にすることによって、離散コサイン変換を行うために多数必要とされていたクロスバースィツチ 58 a〜dをたつた 4個とすることが可能となっている。

<クロスノースィツチ〉

クロスバースィツチ 58 a〜dは、各メモリプロック 0〜31から読み出されたデータを 8 RZWメモリ回路 5から出力する前に適当に並び替えるために用いる。例えば、読み出しライン 53 aと読み出しライン 53 eをイネイブルすることによって読み出された 8個のデータ、換言すれば、第 1フェーズで読み出された 8個のデータ [0] 、 [15] 、 [14] 、 [1] 、 [2] 、 [13] 、 [1 2、 [3] は、クロスバースィッチ 58 a〜dによって、 [0] 、 [1] 、 [2 ] 、 [3] 、 [12] 、 [13] 、 [14] 、 [15] の順に並び替えられる。尚、上の記載おょぴ明細書及び図面の全体を通じて、 [n] (nは 0から 31までの整数）は、メモリプロック 0〜31のような記憶手段の nというメモリ位置に入っているデータの内容 (値) を表す。

< 8 RZWメモリ回路のメモリプロックからの読み出し、及び 8 R/Wメモリ回路からの出力 >

8 R/Wメモリ回路のメモリプロックからの読み出し及び 8 RZWメモリ回路からの出力は次の手順による。

第 1フェーズ、つまり梟初の読み出しでは、読み出しライン 53 bと読み出しライン 53 eをイネィブルすることによってそれぞれ、 [0] 、 [1] 、 [2] ヽ [3] と、 [15] 、 [14] 、 [13] 、 [12] が読み出され、これらのデ —タはクロスバースィッチ 58によって [0] 、 [1] 、 [2] 、 [3] 、 [1 2] 、 [13] 、 [14] 、 [1 5] の順に並ぴ替えられた後に、 8RZWメモリ回路 5から出力される。

第 2フェーズ、つまり 2回目の読み出しでは、読み出しライン 53 aと読み出しライン 53 f をイネィプルすることによってそれぞれ、 [6] 、 [7] 、 [4 ] 、 [5] と、 [9] 、 [8] 、 [1 1] 、 [10] が読み出され、これらのデータはクロスバースィッチ 58によって [4] 、 [5] 、 [6] 、 [7] 、 [8 ] 、 [9] 、 [10] 、 [1 1] の順に並ぴ替えられた後に、 8RZWメモリ回路 5から出力される。

第 3フェーズ、つまり 3回目の読み出しでは、読み出しライン 53 dと読み出しライン gをイネィブルすることによつてそれぞれ、 [16] 、 [1 7] 、 [1 8] 、 [1 9] と、 [31] 、 [30] 、 [29] 、 [28] が読み出され、これらのデータはクロスバースィッチ 58によって [16] 、 [1 7] , [18] 、

[1 9] 、 [28] 、 [29] 、 [30] 、 [31] の順に並ぴ替えられた後に、 8 RZWメモリ回路 5から出力される。

第 4フェーズ、つまり 4回目の読み出しでは、読み出しライン 53 cと読み出しライン 53 hをイネィプルすることによつてそれぞれ、 [22] 、 [23] 、

[20] 、 [21] と、 [25] 、 [24] 、 [27] 、 [26] が読み出され、これらのデータはクロスバースィッチ 58によって [20] 、 [21] 、 [22 ] 、 [23] 、 [24] 、 [25] 、 [26] 、 [27] の順に並び替えられた後に、 8 R/Wメモリ回路 5から出力される。

以上より明らかなように、 8 RZWメモリ回路 5にデータを一旦記憶させることにより、それらのデータを所定の順番で出力させることができる。更に言えば、 8 R/Wメモリ回路 5から出力されるデータの順番を、 8 RZWメモリ回路 5のいずれのメモリブロック 0〜31にデータを記憶させるかという事実に基づいて制御できるということである。

く 8 RZWメモリ回路のメモリブ口ックへのデータの書き込み、及ぴパームテーシヨン >

8 RZWメモリ回路 5のメモリプロック 0〜3 1へのデータの書き込みは、 D C Tプロセッサの外部の、例えば C P U等（図示されていない）から行われる場合と、 D C Tプロセッサの内部でループ状に、 F I F O 7等を介して行われる場合の 2通りがある。

前者の書き込みを行うために、図 1に示した 8本の信号線 2 4に加えて、更に、 D C Tプロセッサの外部から D C Tプロセッサの内部にデータを入力するための手段、例えば、 D C Tプロセッサの外部からのデータを 8 RZWメモリ回路 5の入力部 5 1に伝送するための信号線（図示されていない）が存在すると考えてよレヽ。これらの信号線は、クロス部 4、 4，（及び F I F O 5 ) と 8 RZWメモリ回路 5との間で、 8 R/Wメモリ回路 5の入力部 5 1に電気的に接続されていれば十分であり、 8 R/Wメモリ回路の入力部 5 1に直接的に接続されてもよいし、あるいは、信号線 2 4の途中、例えば、 8 R/Wメモリ回路の入力部 5 1の直前 (一点鎖線 Aと信号線 2 4との交差位置）に設けたセレクタのような選択手段を介してそれらに間接的に接続されていてもよい。選択手段には、外部データのための信号線とループ状の信号線 2 4の双方が接続され、いずれかの一方の信号線だけが選択されるようになっている。選択手段を用いた場合には、外部データのための信号線と信号線 2 4の競合を効果的に防止することができる。

8 RZWメモリ回路の動作は、 D C Tプロセッサの外部からのデータ、つまり入力手段からのデータを処理する場合と、 D C Tプロセッサの内部からのデータを処理する場合とで異なる。便宜上、本明細書では、前者の場合の 8 RZWメモリ回路の動作を「第 1の動作モード」（請求項中の「第 1の動作モード」に対応 ) 、後者の場合の 8 RZWメモリ回路の動作を「第 2の動作モード」（請求項中の「第 2の動作モード」に対応）と呼んで区別する。ここで、第 1の動作モードでは、 DCTプロセッサ以外（F I FO以外）からのデータを 8 RZWメモリ回路に書き込んだ後にそれらのデータを出力し、第 2の動作モードでは、 DCTプ口セッサ（F I FO) からのデータを 8 R/Wメモリ回路に書き込んだ後にそれらのデータを出力することになる。尚、上述した選択手段が使用されている場合には、第 1の動作モードでは、外部データのための号線を選択して CPU等からのデータを 8 R/Wメモリ回路に伝送するように、一方、第 2の動作モードでは、信号線 24を選択して F I FOからのデータを 8 R/Wメモリ回路に伝送するように、選択手段は適宜に切り換えられることになる。

第 1の動作モードの場合、データは入力手段（図示されていない）からのものであり、したがって、クロス部 4、 4' (図 1参照）を介さずに、また、データの対応付けを変更しないで 8 RZWメモリ回路に書き込まれる。一方、第 2の動作モードの場合、データは F I FO 5からのものであり、クロス部 4、 4' で並び替えが行われた後に、データの対応付けを変更するようにして 8 R/Wメモリに書き込まれる。この結果、第 2の動作モードの場合においては、 8RZWメモリ回路から出力されるデータにパームテーシヨンが行われることになる。

更に説明すると、第 1の動作モードの場合、データの書き込み位置は、各メモリブロック 0〜3 1に付した 0〜31の番号に従う。つまり、データ [0] はメモリブロック 0に、 [1] はメモリブロック 1に、 [2] はメモリプロック 2に …といった具合に対応させる。この結果、第 1の動作モードの場合、第 1フエ一ズで読み出されるデータは、書き込みを行う前の [0] 、 [1] 、 [2] 、 [3 ] 、 [12] 、 [1 3] 、 [14] 、 [15] にそれぞれ対応するデータ [0] 、

[1] 、 [2] 、 [3] 、 [12] 、 [13] 、 [14] 、 [15] となり、第 2フェーズで読み出されるデータは、書き込みを行う前の [4] 、 [5] 、 [6 ] 、 [7] 、 [8] 、 [9] 、 [10] 、 [11] にそれぞれ対応する [4] 、 [5] 、 [6] 、 [7] 、 [8] 、 [9] 、 [10] 、 [11] となり、また、第 3フューズで読み出されるデータは、書き込みを行う前の [16] 、 [17] 、

[18] 、 [19] 、 [28] 、 [29] 、 [30] 、 [31] にそれぞれ対応するデータ [16] 、 [1 7] 、 [18] 、 [19] 、 [28] 、 [29] 、 [ 30] 、 [31] となり、更に、第 4フェーズで読み出されるデータは、書き込みを行う前の [20] 、 [21] 、 [22] 、 [23] 、 [24] 、 [25] 、

[26] 、 [27] にそれぞれ対応するデータ [20] 、 [21] 、 [22] 、

[23] 、 [24] 、 [25] 、 [26] 、 [27] となる。従って、この第 1 の動作モードでは、単に読み出されるべきデータの順番が制御されるだけである。 —方、第 2の動作モードの場合、データは、 F I FOと 8 RZWメモリ回路の間に設けたクロス部 4、 4，（図 1参照）によって並び替えが行われた後に、デ一タの対応付けを変更するようにして 8 RZWメモリへ書き込まれる。この結果、データの書き込み位置は、必ずしも各メモリブロックに付した 0〜 31の数字に従わない。従って、この第 2の動作モードでは、データの対応付けが変更された上で、つまりデータにパームテーシヨンが行われた上で、読み出されるべきデータの順番が制御されることになる。

図 5に、パームテ一ションを実行することによって得られる効果を視覚的に示している。この図において、 [] で囲まれていない数字は、メモリブロックの番号 0〜31である。この図から明らかなように、例えば、左側に示した元のデータ [0] 〜 [31] は、パームテーションを行うことによつて右側に示した [0

1、 [2] 、 [4] 、 [6] 、 [8] 、 [10] …にそれぞれ対応付けされることになる。更に言えば、パームテーシヨン前の [0] 、 [2] 、 [4] 、 [6] 、

[8] 、 [10] …はそれぞれ、パームテーシヨン後は、メモリブロック 0、 1、

2、 3···におけるデータ、つまり [0] 、 [1] 、 [2] 、 [3] …となるということである。図 3を参照して更に詳細に説明する。パームテーションを行う前の第 1フエ一ズのデータ [0] 、 [1] 、 [2] 、 [3] 、 [1 2] 、 [1 3] 、 [1 4] 、 [1 5] は、先ず、クロス部 4、 4' によって [0] 、 [2] 、 [1] 、 [3] 、 [1 2] 、 [1 4] 、 [1 3] 、 [1 5] の順に並び替えられ（図 3の 56参照 ) 、その後、書き込みライン 5 2 a、 52 dをィネイプノレすることによって、メモリプロック 0、 1、 1 6、 1 7と、 6、 7、 22、 23にそれぞれ書き込まれるため、これらのメモリブロックから [0] 、 [1] 、 [1 6] 、 [1 7] 、 [ 6] 、 [7] 、 [22] 、 [2] として読み出されることになる。つまり、パームテーシヨンを行うことによって、元の [0] 、 [1] 、 [2] 、 [3] 、 [1 2] 、 [1 3] 、 [1 4] 、 [1 5] はそれぞれ、 [0] 、 [1 6] 、 [1] 、 [1 7] 、 [6] 、 [22] 、 [7] 、 [23] にそれぞれ対応付けされたことになる。

同様に、パームテ一シヨンを行う前の第 2フェーズのデータ [4] 、 [5] 、 [6] 、 [7] 、 [8] 、 [9] 、 [1 0] 、 [1 1] は、先ず、クロス部 4、 4' によって [4] 、 [6] 、 [5] 、 [7] 、 [8] 、 [1 0] 、 [9] 、 [ 1 1] の順に並び替えられ（図 3の 56参照）、その後、書き込みライン 52 e、 52 hをィネイプルすることによって、メモリプロック 2、 3、 1 8、 1 9と、 4、 5、 20、 2 1にそれぞれ書き込まれるため、これらのメモリプロックから [2] 、 [3] 、 [1 8] 、 [1 9] 、 [4] 、 [5] 、 [20] 、 [21] として読み出されることになる。つまり、パームテーシヨンを行うことによって、元の [4] 、 [5] 、 [6] 、 [7] 、 [8] 、 [9] 、 [1 0] 、 [1 1] はそれぞれ、 [2] 、 [1 8] 、 [3] 、 [1 9] 、 [5] 、 [4] 、 [20] 、 [2 1] にそれぞれ対 -応付けされたことになる。

また、パームテーシヨンを行う前の第 3フェーズの [1 6] 、 [1 7] 、 [1 8] 、 [1 9] 、 [28] 、 [29] 、 [3 0] 、 [ 3 1 ] は、先ず、クロス部 4、 4' によって [16] 、 [18] 、 [1 7] 、 [1 9] 、 [28] 、 [30 ] 、 [29] 、 [31] の順に並び替えられ（図 3の 56参照）、その後、書き込みライン 52 b、 52 cをィネィブルすることによって、メモリブロック 8、 9、 24、 25と、 14、 15、 30、 31にそれぞれ書き込まれるため、これらのメモリブロックから [8] 、 [9] 、 [24] 、 [25] 、 [14] 、 [1 5] 、 [30] 、 [31] として読み出されることになる。つまり、ノ、。一ムテーシヨンを行うことによって、元の [1 6] 、 [17] 、 [18] 、 [1 9] 、 [ 28] 、 [29] 、 [30] 、 [31] はそれぞれ、 [8] 、 [24] 、 [9] 、

[25] 、 [14] 、 [30] 、 [1 5] 、 [31] にそれぞれ対応付けされたことになる。

更に、パームテーションを行う前の第 4フェーズの [20] 、 [21] 、 [2 2] 、 [23] 、 [24] 、 [25] 、 [26] 、 [27] は、先ず、クロス部 4、 4，によって [20] 、 [22] 、 [21] 、 [23] 、 [24] 、 [26

1、 [25] 、 [27] の順に並び替えられ（図 3の 56参照）、その後、書き込みライン 52 g、 52 hをィネィブルすることによって、メモリプロック 10、 1 1、 26、 27、 12、 13、 28、 29にそれぞれ書き込まれるため、これらのメモリブロックから [10] 、 [1 1] 、 [26] 、 [27] 、 [1 2] 、

[1 3] 、 [28] 、 [29] として読み出されることになる。つまり、パームテーシヨンを行うことによって、元の [20] 、 [21] 、 [22] 、 [23] 、

[24] 、 [25] 、 [26] 、 [27] はそれぞれ、 [10] 、 [26] 、 [ 1 1] 、 [27] 、 [12] 、 [28] 、 [13] 、 [29] にそれぞれ対応付けされたことになる。

2. DCTプロセッサの動作

図 6に、本発明による DCTプロセッサ 1とその周辺機器（図示されていない ) によって行われる離散コサイン変換処理のシーケンスフローを、また、図⁷に、この処理によって生じるデータのデータフローを表すデータフローグラフを、それぞれ示す。尚、図 7の上部に示したステップ（ST) の番号は、図 6のそれに対応する。

尚、本発明の DC Tプロセッサ 1によって行われる処理は、図 6に示したステップ 1〜1 1のうち、ステップ 3〜10のみである。残りのステップ 1、 2、 1 1は、例えば CPU等の周辺機器によって行われることになつている。換言すれば、最終的な離散コサイン変換の結果を得るには、本発明の DCTプロセッサ 1 による処理に加えて更にステップ 1、 2、 1 1の処理を行う周辺機器が必要、ということである。伹し、設計変更によって、これらの処理を本発明の DC Tプロセッサ 1が行うようにしてもよい。

ステップ 1で、先ず、離散コサイン変換を実行すべきデータを 32個のサンプリングポイントでサンプリングし、 32個のサンプリングデータ [0] 〜 [3 1 ] を得る。

ステップ 2で、これらのサンプリングデータを、図 7に示す順番に並び替える。この並び替えは、その後の処理を適切に行うために必要とされる処理である。この並び替えにより、データは [0] 、 [1] 、 [31] 、 [30] …の順に並ぴ替えられる。

次いで、ステップ 3で、これらのデータを第 1の動作モードで動作する 8 RZ

Wメモリ回路 5のメモリブロック 0〜 31に書き込み且つ読み出す。尚、ここでの書き込みは、例えば CPU等から行われるものであって F I F05 (図 1参照

) から行われるものでないため、クロス部 4、 4' による並ぴ替えはない。また、この場合、各データは、 [0] 、 [1] 、 [31] 、 [30] …のそれぞれの数字に対応するメモリブロックに書き込まれる。つまり、 [0] はメモリブロック

0に、 [1] はメモリブロック 1に、 [31] はメモリブロック 31···といった具合である。これらの書き込みと読み出しにより、 8 R/Wメモリ回路 5から出力されるデータは、図 3を参照して説明したように、対応付けを何ら変更されることなく、第 1フェーズにおいては、 [0] 、 [1] 、 [2] 、 [3] 、 [1 2 ] 、 [1 3] 、 [14] 、 [1 5] となり、第 2フエ一ズにおいては、 [4] 、

[5] 、 [6] 、 [7] 、 [8] 、 [9] 、 [10] 、 [1 1] 、第 3フェーズにおいては、 [1 6] 、 [1 7] 、 [18] 、 [1 9] 、 [28] 、 [29] 、

[30] 、 [3 1] 、第 4フエ一ズにおいては、 [20] 、 [21] 、 [22] 、

[23] 、 [24] 、 [25] 、 [26] 、 [27] となる。

次いで、ステップ 4で、これらのデータは 2個の DCT回路 3、 3 ' (図 1参照）によって処理される（ST4) 。図 1から明らかなように、 8RZWメモリ回路 5の 8個の各出力部は、 2個の DCT回路 3、 3 ' の 4個の入力部にそれぞれ対応して接続されているから、 8 RZWメモリ回路⁵によって、第 1フェーズで読み出されたデータのうちの [0] 、 [1] 、 [2] 、 [3] は DCT回路 3 で、一方、 [1 2] 、 [1 3] 、 [14] 、 [15] は DCT回路 3，で処理される。同様に、第 2フェーズで読み出されたデータのうちの [4] 、 [5] 、 [ 6] 、 [7] は DCT回路 3で、一方、 [8] 、 [9] 、 [10] 、 [1 1] は DCT回路 3，で処理される。また、第 3フェーズで読み出されたデータのうちの [16] 、 [1 7] 、 [18] 、 [1 9] は DC T回路 3で、一方、 [28] 、

[29] 、 [30] 、 [3 1] は DCT回路 3' で処理される。更に、第 4フヱーズで読み出されたデータのうちの [20] 、 [21] 、 [22] 、 [23] は DCT回路 3で、一方、 [24] 、 [25] 、 [26] 、 [27] は DCT回路 3' で処理される。

尚、図 7では、各 DCT回路 3、 3 ' で処理されるデータを明らかにするため、

1個の DCT回路 3、 3，によって処理されるデータ範囲を四角で囲っている。上の記載からも明らかなように、各四角において 4個のデータが処理される。ここで、各四角内の < n > (nは 1〜4の整数）は、それらのデータがフエ一ズ 1〜 4でそれぞれ処理されることを意味する。例えば、く 1 >が付された四角は 2つあるが、これらは、第 1フェーズで処理されることを意味し、また、それらで各々処理されるデータは [0] 〜 [4] あるいは [1 2] 〜 [1 5] であり、それぞれ、 DCT回路 3と DCT回路 3，によって処理されることを意味する。同様に、 < 2 >が付された 2つの四角は、第 2フェーズで処理されることを意味し、また、そのとき処理されるデータは [4] 〜 [7] あるいは [8]〜 [1 1 ] であり、それぞれ、 DCT回路 3と DCT回路 3，によって処理されることを意味する。また、 < 3 >が付された 2つの四角は、第 3フェーズで処理されることを意味し、また、そのとき処理されるデータは [16] 〜！: 1 9] あるいは [ 27] 〜 [31] であり、それぞれ、 0〇1：回路3と0。丁回路3，によって処理されることを意味する。同様に、 < 4〉が付された四角も 2つあるが、これらは、第 4フェーズで処理されることを意味し、また、そのとき処理されるデータは [20] 〜 [23] あるいは [24] 〜 [27] であり、それぞれ、 DCT回路 3と DCT回路 3，によって処理されることを意味する。

更に、各四角内の mo d e (モード） n (nは 0〜2の整数）は、各 DCT回路 3、 3，によって使用されるモードを表し、また、 d (n) (nは 1から 31 までの整数）は、各 DC T回路 3、 3 ' の乗算器 36 a、 36 b (図 1参照）でそれぞれ使用される乗算の係数を表している。例えば、第 1フェーズにおいて、 DCT回路 3はモード 0の機能素子（図 2の a) 参照）として機能し、このモード 0における機能素子の乗算器 36 aは、 d (16) という係数を用い、また、乗算器 36 bは d (24) という係数を用い、一方、同じく第 1フェーズにおいて、 DCT回路 3，はモード 0の機能素子（図 2の a) 参照）として機能し、このモード 0における機能素子の乗算器 36 ¾d (1 9) という係数を用い、また、乗算器 36 bは d (27) という係数を用いる、といった具合である。その後、ステップ 5で、各 DCT回路 3、 3，で処理された 8個のデータは、 F I FO 7 (図 1参照）に順次に書き込まれ、 32個全てのデータが書き込まれた後に、再び、順次に読み出される。このとき読み出されるデータは、第 1フエーズにおいては、 [0] 、 [1] 、 [2] 、 [3] 、 [1 2] 、 [1 3] 、 [1 4] 、 [15] 、第 2フェーズにおいては、 [4] 、 [5] 、 [6] 、 [7] 、

[8] 、 [9] 、 [10] 、 [1 1] 、第 3フェーズにおいては、 [16] 、 [ 1 7] 、 [18] 、 [1 9] 、 [28] 、 [29] 、 [30] 、 [31] 、第 4 フェーズにおいては、 [20] 、 [21] 、 [22] 、 [23] 、 [24] 、 [ 25] 、 [26] 、 [27] に対応する。

次いで、ステップ 6で、クロス部 4、 4，（図 1参照）によってデータの並ぴ替えが行われる。この並び替えにより、 F I FOからのデータは、図 3の 56で示すような順番となる。即ち、第 1フェーズのデータは、 [0] 、 [2] 、 [1 ] 、 [3] 、 [1 2] 、 [14] 、 [13] 、 [1 5] 、第 2フェーズのデータは、 [4] 、 [6] 、 [5] 、 [7] 、 [8] 、 [10] 、 [9] 、 [1 1] 、第 3フューズのデータは、 [1 6] 、 [18] 、 [1 7] 、 [1 9] 、 [28] 、

[30] 、 [29] 、 [3 1] 、第 4フェーズのデータは、 [20] 、 [22] 、

[21] 、 [23] 、 [24] 、 [26] 、 [25] 、 [27] である。

次いで、ステップ 7で、 F I F07から読み出されたデータは、第 2の動作モードで動作する 8 RZWメモリ回路 5 (図 1) に戻され（回路動作としては、ループされということになる）、そこに書き込まれ且つ読み出される。この結果、パームテーシヨンが行われ、第 1フェーズのデータ [0] 、 [1] 、 [2] 、 [ 3] 、 [12] 、 [13] 、 [14] 、 [1 5] はそれぞれ、 [0] 、 [16] 、

[1] 、 [17] 、 [6] 、 [22] 、 [7] 、 [23] に対応付けされることとなり、また、第 2フェーズのデータ [4] 、 [5] 、 [6] 、 [7] 、 [8] 、

[9] 、 [10] 、 [1 1] はそれぞれ、 [2] 、 [18] 、 [3] 、 [1 9] 、 [5] 、 [4] 、 [20] 、 [21] に対応付けされるることとなり、また、第 3フェーズのデータ [16] 、 [17] 、 [1 8] 、 [1 9] 、 [28] 、 [2 9] 、 [30] 、 [31] はそれぞれ、 [8] 、 [24] 、 [9] 、 [25] 、

[14] 、 [30] 、 [1 5] 、 [31] に対応付けされることとなり、更に、第 4フェーズのデータ [20] 、 [21] 、 [22] 、 [23] 、 [24] 、 [ 25] 、 [26] 、 [27] はそれぞれ、 [10] 、 [26] 、 [1 1] 、 [2 7] 、 [1 2] 、 [28] 、 [13] 、 [29] に対応付けされることとなる。次いで、ステップ 8で、パームテーシヨンが行われたデ一タを、再び、 DCT 回路 3、 3，で処理する。この処理は、ステップ 4で述べたのと同様である。次いで、ステップ 9で、 DCT回路 3、 3，からのデータを、再び、 F I FO 7で処理する。この処理は、ステップ 5で述べたのと同様である。

次いで、ステップ 10で、再びクロス部 4、 4、，（図 1参照）によって並ぴ替えが行われる。この処理は、ステップ 6で述べたのと同様である。

その後、ステップ 7〜ステップ 10の処理を更に 3回反復（回路動作で言えば「ループ」）する。この結果、ステップ 7〜10の処理を計 4回反復することになる（伹し、以下の記述や図 6から明らかなように、 4回目のノレープ時におけるステップ 10の処理は、最終結果とは無関係であるため省略してよい）。

最後に、ステップ 1 1で、 4回目のループ終了時に、ステップ 9の処理後に得られたデータ、つまり F I F07 (図 1参照) からのデータを [0] 、 [4] 、

[8] 、 [1 2] …の順番に並び替えるとともに、データ [0] については d ( 1) (つまり、（0. 5) ) の係数により乗算を行う。これらの処理は、最終結果を望ましい形で得るために必要とされる処理である。

B. 第 2の実施形態

再ぴ図 1を参照して、本発明の第 2の実施形態について説明する。この第 2の実施形態は、 DCTプロセッサの外部から内部にデータを入力する入力手段（図示されていない）を、 8 R/Wメモリ回路 5と DCT回路 3、 3' との間（一点鎮,線 Bと信号線 24との交差位置）に設けるもの、としたものである。

この結果、この第 2の実施形態では、第 1の実施形態と異なり、 DCTプロセッサの外部からのデータが、 8RZWメモリ回路 5を介さずに DCT回路 3、 3 ' ίこ直接付与されることになる。しかしながら、この場合にも、 DCT回路 3、 3，に付与されるデータは、 8 R/Wメモリ回路 5を介したデータと同じもの、更 ίこ言えば、第 1の動作モードの 8 RZWメモリ回路で処理されたデータと同じものとする必要がある。このため、この第 2の実施形態では、データを予め CP U等で処理するものとする。

mらかなように、第 2の実施形態では、 8 RZWメモリ回路 5を第 1の動作モ一で処理させる必要はない。別の言い方をすれば、第 2の実施形態では、 8R メモリ回路 5を上述した第 2の動作モードでのみ動作させるだけでよい。した力 Sつて、第 2の実施形態によれば、第 1の実施形態に比べて、 CPU等によつて行われる処理が多少多くなるものの、 8 RZWメモリ 5を単一の動作モード（第 2の動作モード）でのみ動作させればよいため、 8 RZWメモリ回路の制御や構成をより簡易なものとすることができる。これに対し、第 1の実施形態では、第 2の実施形態に比べて、 8 R/Wメモリ回路 5の制御や構成が多少複雑になるものの、 CPU等によって行われる処理を少なくすることができる点で有利である。

C. 第 3の実施形態

本発明の第 3の実施形態は、入力手段を D C T回路 3、 3，と F I F07との間（一点鎖線 Cと信号線 24との交差位置）に設けるもの、としたものである。この結果、この第 3の実施形態では、 DCTプロセッサの外部からのデータは、 8 RZWメモリ回路 5や DC T回路 3、 3 ' を介さずに F I F Ο 7に直接付与されることになる。しかしながら、この場合にも、 F I FO 5に付与されるデータは、 8 RZWメモリ回路 5や DCT回路 3、 3 ' を介したデータと同じもの、更に言えば、第 1の動作モードの 8 RZWメモリ回路と DC Τ回路 3、 3，で処理されたデータと同じものとする必要がある。この処理は CPU等によって行うことができる。

明らかなように、第 3の実施形態でも、第 2の実施形態と同様に、 8RZWメモリ回路 5を第 1の動作モードで処理させる必要はない。よって、第 2の実施形態で述べたものと同様の利点と欠点を有することになる。

D. DCTプロセッサの性能

下の表に、本発明の D C Tプロセッサの性能と従来装置である Lippen等による D C Tプロセッサのそれとを比較した比較結果を示す。

ここで、表中の「1つのサンプリングポイントを計算するに必要な算術演算器の数」とは、図 6に記載された算術演算器、即ち、加算 .減算器と乗算器の数を意味する。本発明では、各 DCT回路 3、 3' に 8個ずつ設けられているから計 16個である。また、「1サイクル毎に発生する中間出力値の数」とは、 DCT 回路による 1回の計算で発生し得る値の数であり、本発明では 32個のサンプリングポイントを 4回に分けて計算するから、 8個ということになる。更に、「レジスタファイル（データの蓄積装置）の数」とは、計算結果を記憶させるための装置の数を意味し、本発明では F I F 0 7と 8 R/Wメモリ回路 5ということになるから 2個である。「D C Tの推定コア領域」とは、 D C Tプロセッサ 1に必要な面積である。「出力レイテンシィ」は、出力結果を得るまでの平均時間である。

上の表より明らかなように、例えば、メモリブロック等の周辺ロジックに必要な面積に関して、本発明の D C Tプロセッサ 1は、 Lippenのアルゴリズムによるプロセッサで必要とされる面積の約半分ほどで足りる。また、出力レイテンシィ

(遅延）について言えば、本発明の D C Tプロセッサは、 Lippenのプロセッサのそれの約 1 Z 4程で足りる。このように、本発明の D C Tプロセッサは優れた性能を発揮する。

最後に、上の実施形態では、 F I F Oからのデータを並び替えるためにクロス部を用いているが、例えば、クロスバースィッチを用いても良い。また、クロス部を、 F I F Oの出力部や 8 RZWメモリ回路の入力部（8 RZWメモリ回路の内部）に設けても良い。必要なことは、 8 R/Wメモリ回路によるパームテーションが行われるよう、 8 RZWメモリ回路のメモリプロックに書き込みを行う前に並ぴ替えを行わなければならないことだけである。

本発明によれば、 8 RZWメモリ回路によってリソースシェアリングが促進されることから信号のパ一ムテーシヨン（置き換え）の複雑さが解消され、これによって、必要とされる部材数の減少、ファンクションブロックエリアの減少、消費電力の減少、更に、処理スピードの高速化、あるいは、出力レイテンシィの減少を図ることができる。

3

Claims

請求の範囲

1 . 離散コサイン変換を実行するために用いる D C Tプロセッサにおいて、データにパームテーションを行う記憶 ·処理装置と、

所定の D C Tアルゴリズムに従つて計算を行う計算装置と、を備え、前記記憶■処理装置と前記計算装置との間でデータを所定回数ループさせ、前記計算装置から読み出されたデータに基づいて離散コサイン変換の結果を求めることを特^¾とする D C Tプロセッサ。

2 . 離散コサイン変換を実行するために用いる D C Tプロセッサにお!/、て、複数の入力部と複数の出力部とを有し、前記複数の入力部を通じて入力される複数のデータにパームテーションを行った後に前記複数の出力部から出力する、前記記憶 ·処理装置と、

前記記憶 ·処理装置の出力部に接続された複数の入力部と複数の出力部とを有し、前記複数の入力部から入力されたデータを所定の D C Tアルゴリズムに従つて計算し前記複数の出力部から出力する計算装置と、

前記計算装置の出力部に接続された複数の入力部と前記記憶 ·処理装置の入力部に接続された複数の出力部とを有し、前記計算装置の出力部から出力された複数のデータを記憶し前記複数の出力部から出力する記憶装置と、

前記記憶装置と前記記憶 ·処理装置との間に設けられ、前記記憶装置からのデータを所定の順番に並び替える、並び替え手段と、を備え、

前記記憶装置の出力部から出力された複数のデータを、前記記憶 ·処理装置、前記計算装置、前記記憶装置、及ぴ前記並ぴ替え手段で、これらの順にそれらの間を所定回数ループさせ、前記記憶装置の出力部から読み出されたデータに基づいて離散コサイン変換の結果を求めることを特徴とする D C Tプロセッサ。

3 . 3 2個のサンプリングポイントでサンプリングすることによって得られた 3 2個のデータに対して離散コサイン変換を行う 3 2ポイント D C Tプロセッサにおいて、

8個の入力部と 8個の出力部とを有し、一度に 8個ずつ計 4回、計 3 2個のデータを入力し且つ出力することができる、記憶 ·処理装置であって、前記 8個の入力部を通じて一度に 8個ずつ計 4回、順次に所定の記憶位置に書き込まれた計 3 2個のデータを前記 8個の出力部に所定の順番で出力する、前記記憶 ·処理装置と、

各々が、前記記憶 ·処理装置の 8個の出力部のうちの 4個の出力部にそれぞれ接続された 4個の入力部と 4個の出力部とを有し、前記 8個の入力部から入力されたデータを一度に 4個ずつ C G A— D C Tアルゴリズムに従つて計算し、前記 4個の出力部からそれぞれ出力する、 2個の計算装置と、

前記 2個の計算装置の計 8個の出力部にそれぞれ接続された 8個の入力部と前記記憶 ·処理装置の計 8個の入力部にそれぞれ接続された 8個の出力部とを有し、一度に 8個ずつ計 4回、計 3 2個のデータを先入れ先出し方式で書き込み且つ読み出すことができる、記憶装置であって、前記計算装置の各出力部から出力された計 8個のデータを計 4回、計 3 2個のデータを記憶する、前記記憶装置と、前記記憶装置と前記記憶 ·処理装置との間に設けられ、前記記憶装置からのデータを所定の順番に並ぴ替える、並び替え手段と、

を備えることを特徴とする D C Tプロセッサ。

4 . 請求項 3記載の D C Tプロセッサにおいて、更に、前記 D C Tプロセッサの外部から内部にデータを入力する入力手段が、前記記憶 ·処理装置の直前に設けられている D C Tプロセッサ。

5. 請求項 4記載の DCTプロセッサにおいて、前記記憶 '処理装置は、前記データを前記所定の記憶位置に書き込む際、前記入力されるデータと前記出力されるデータとの対応付けを変更しない第 1の動作モードと、前記入力されるデータと前記出力されるデータとの対応付けを変更する第 2の動作モードのいずれかで動作するものであって、前記入力手段からのデータは前記第 1の動作モードで処理される、 DCTプロセッサ。

6. 請求項 5記載の DCTプロセッサにおいて、 '前記第 1の動作モードで動作する記憶'処理装置で処理された計 32個のデータを、前記計算装置、前記記憶装置で順に処理し、その後、前記記憶装置の出力部から読み出された計 32個のデータを、前記並び替え手段で処理した後に、前記第 2の動作モードで動作する前記記憶 ·処理装置、前記計算装置、前記記憶装置、及ぴ前記並び替え手段で、これらの順にそれらの間をループさせ、 4回目のループ時に前記記憶装置の出力部から読み出されたデータに基づいて、前記データを離散コサイン変換したときの結果を求める DC Tプロセッサ。

7. 請求項 3記載の DCTプロセッサにおいて、更に、前記 DCTプロセッサの外部から内部にデータを入力する入力手段が、前記記憶 ·処理装置と前記計算装置の間に設けられている DC Tプロセッサ。

8. 請求項 3記載の DCTプロセッサにおいて、更に、前記 DC Tプロセッサの外部から内部にデータを入力する入力手段が、前記計算装置と前記記憶装置の間に設けられている D C Tプロセッサ。

9. 請求項 3に記載の DCTプロセッサにおいて、前記記憶'処理装置は、計 3 2個の記憶位置を有しており、前記 32個のデータは、これら 3 2個のいずれかの記憶位置に 1つずつ書き込み且つ読み出される D CTプロセッサ。

10. 請求項 9記載の DCTプロセッサにおいて、前記 3 2個の記憶位置の各々に書き込みラインと読み出しラインが設けられており、これら書き込みラインと読み出しラインは互いに垂直に配線され、データの書き込み及び読み出し時に共用されない DC Tプロセッサ。

1 1. 請求項 3乃至 10のいずれかに記載の DCTプロセッサにおいて、前記所定の並び替えは、前記記憶装置と前記記憶 ·処理装置との間の伝送線をクロスさせることによって行う DCTプロセッサ。

1 2. 請求項 3乃至 1 1のいずれかに記載の DCTプロセッサにおいて、計 32 個のデータを前記 8個の出力部に所定の順番で出力するために並ぴ替え装置を用いる DCTプロセッサ。

13. 請求項 3乃至 12のいずれかに記載の DC Tプロセッサにおいて、前記記憶 ·処理装置は 8 RZWメモリ回路であり、前記計算装置は D C T回路であり、前記記憶装置は F I F Oである DC Tプロセッサ。

14. 請求項 3乃至 13のいずれかに記載の DCTプロセッサにおいて、前記並ぴ替え手段は記憶 ·処理装置に設けられている DCTプロセッサ。

1 5. 離散コサイン変換を実行するために用いる DCTプロセッサで使用する記憶 .処理装置であって、所定の D C Tアルゴリズムに従って計算を行う計算装置との間でデータを所定回数ループさせ、前記計算装置から読み出されたデータに基づいて離散コサイン変換の結果を求めるようにデータにパームテーシヨンを行うことを特徴とする記憶 ·処理装置。

1 6 . 離散コサイン変換を実行するために用いる D C Tプロセッサで使用する記憶 ·処理装置であって、該記憶'処理装置は、複数の入力部と複数の出力部とを有し、前記複数の入力部を通じて入力される複数のデータにパームテーシヨンを行った後に前記複数の出力部から出力するものであり、

前記 D C Tプロセッサは、更に、

前記記憶装置の出力部から出力された複数のデータを、前記記憶 ·処理装置、前記計算装置、前記記憶装置、及び前記並ぴ替え手段で、これらの順にそれらの間を所定回数ループさせ、前記記憶装置の出力部から読み出されたデータに基づいて離散コサイン変換の結果を求めることを特徴とする記憶 ·処理装置。

1 7 . 3 2個のサンプリングポイントでサンプリングすることによって得られた

3 2個のデータに対して離散コサイン変換を行う 3 2ポイント D C Tプロセッサで使用する記憶 '処理装置であって、該記憶 '処理装置は、 8個の入力部と 8個の出力部とを有し、一度に 8個ずつ計 4回、計 3 2個のデータを入力し且つ出力することができ、前記 8個の入力部を通じて一度に 8個ずつ計 4回、順次に所定の記憶位置に書き込まれた計 3 2個のデータを前記 8個の出力部に所定の順番で出力するものであり、

前記 D C Tプロセッサは、更に、

各々が、前記記憶 ·処理装置の 8個の出力部のうちの 4個の出力部にそれぞれ接続された 4個の入力部と 4個の出力部とを有し、前記 8個の入力部から入力されたデータを一度に 4個ずつ C G A— D C Tァルゴリズムに従つて計算し、前記 4個の出力部からそれぞれ出力する、 2個の計算装置と、

前記 2個の計算装置の計 8個の出力部にそれぞれ接続された 8個の入力部と前記記憶 ·処理装置の計 8個の入力部にそれぞれ接続された 8個の出力部とを有し、 —度に 8個ずつ計 4回、計 3 2個のデータを先入れ先出し方式で書き込み且つ読み出すことができる、記憶装置であって、前記計算装置の各出力部から出力された計 8個のデータを計 4回、計 3 2個のデータを記憶する、前記記憶装置と、前記記憶装置と前記記憶 ·処理装置との間に設けられ、前記記憶装置からのデータを所定の順番に並び替える、並び替え手段と、

を備えることを特徴とする記憶 ·処理装置。