WO2003050759A1

WO2003050759A1 - Appareil de traitement d'images et procede associe

Info

Publication number: WO2003050759A1
Application number: PCT/JP2002/012965
Authority: WO
Inventors: Yuji Yamaguchi
Original assignee: Sony Corporation
Priority date: 2001-12-12
Filing date: 2002-12-11
Publication date: 2003-06-19
Also published as: EP1460581B1; KR20040080920A; CN1297939C; EP1460581A4; KR100857657B1; JP2003178294A; EP1460581A1; CN1491401A; JP3840966B2; US20040111489A1; DE60222175D1; US7333115B2; DE60222175T2

Description

明糸田書画像処理装置およびその方法技術分野

本発明は、複数の演算処理装置が処理データを共有して並列処理を行う画像処理装置およびその方法に関するものである。背景技術

近年、 3次元コンビュ一タグラフィックス（3D Compu t e r Gr a p i c s) をハードウェアで高速に実行するグラフィックス LS Iの普及は著しく、特にゲーム機やパーソナルコンピュータ (PC) では、このグラフィックス LS Iを標準で搭載しているものが多い。

また、グラフィックス LS Iにおける技術的進歩は早く、「D i r e c t X」で採用された「Ve r t e x Shade r」や「P i xe l Shade rj に代表される機能面での拡張が続けられているとともに、 CPUを上回るペースで性能が向上している。

グラフィックス L S Iの性能を向上させるには、 L S Iの動作周波数を上げるだけではなく、並列処理の手法を利用することが有効である。並列処理の手法を大別すると以下のようになる。

第 1は領域分割による並列処理法であり、第 2はプリミティブレベルでの並列処理法であり、第 3はピクセルレベルでの並列処理法である。

上記分類は並列処理の粒度に基づいており、領域分割並列処理の粒度が最もあらく、ピクセル'レベル並列処理の粒度が最も細かい。それぞれの手法の概要を以下に述べる。

領一域分割による—並列処理画面を複数の矩形領域に分割し、複数の処理ュニットそれぞれが担当する領域を割り当てながら並列処理する手法である。

プリミティブレベルでの並列処理

複数の処理ユニットに別々のプリミティブ（たとえば三角形）を与えて並列動作させる手法である。

プリミティブレベルでの並列ィ匕処理について概念的に示したものを図 1に示す図 1において、 PM0〜PMn— 1がそれぞれ異なるプリミティブを示し、 P U0〜PUn— 1が処理ュニット、 MM0〜MMn— 1がメモリモジュールをそれぞれ示している。

各処理ユニット PU0〜PUn_ 1に比較的均等な大きさのプリミティブ PM 0〜PMn— 1が与えられているときには、各処理ユニット PU0〜PUn— 1 に対する負荷のバランスがとれ、効率的並列処理が行える。

ピクセルレベルでの並列処理

最も粒度の細かい並列処理の手法である。

図 2は、ピクセルレベルでの並列処理の手法に基づくプリミティブ ·レベルでの並列化処理について概念的に示す図である。

図 2のように、ピクセルレベルでの並列処理の手法では三角形をラスタライズする際に、 2 X 8のマトリクス状に配列されたピクセルからなるピクセルスタンプ（P i X e 1 S t amp) P Sと呼ばれる矩形領域単位にピクセルが生成される。

図 2の例では、ピクセルスタンプ PS 0からからピクセルスタンプ PS 7までの合計 8個のピクセルスタンプが生成されている。これらピクセルスタンプ PS 0〜PS 7に含まれる最大 16個のピクセルが同時に処理される。

この手法は、他の手法に比べ粒度が細かい分、並列処理の効率が良い。

しかしながら、上述した領域分割による並列処理の場合、各処理ユニットを効率良く並列動作させるためには、各領域に描画されるべきオブジェクトをあらかじめ分類する必要があり、シーンデータ解析の負荷が重い。

また、 1フレーム分のシーンデータが全て揃った上で描画を開始するのではなく、オブジェクトデータが与えられると即描画を開始するいわゆるイミ一デイエ一トモ一ドでの描画を行う際には並列性を引き出すことができない。

また、プリミティブレベルでの並列処理の場合、実際には、オブジェクトを構成するプリミティブ P M 0〜P Mn— 1の大きさにはバラツキがあることから、処理ュニット P U 0〜P U n— 1ごとに一つのプリミティブを処理する時間に差が生じる。この差が大きくなつた際には、処理ユニットが描画する領域も大きく異なり、データのローカリティが失われるので、メモリモジュールを構成するたとえば D R AMのページミスが頻発し性能が低下する。

また、この手法の場合には、配線コストが高いという問題点もある。一般に、グラフィックス処理を行うハ一ドウエアでは、メモリのバンド幅を広げるために、複数メモリモジュールを用いてメモリインタ一リーブを行う。

その際、図 1に示すように、各処理ユニット P U 0〜P U n— 1と各内蔵メモリモジュール MM 0〜MMn— 1を全て結ぶ必要がある。

また、ピクセルレベルでの並列処理の場合、グラフィックスで処理されるプリミティブの大きさは小さくなる傾向にあることから、ピクセルスタンプのサイズを大きくしても無効なピクセルが増えるだけで実行効率が上がらない。

したがって、この手法によって並列処理できるピクセルの数には限界がある。そこで、上述した各並列処理手法の特性に基づき、以下のような並列処理手法をとることが考えられる。

すなわち、並列処理の粒度という観点からはピクセルレベルの並列処理を採用する。

ただし、ピクセルレベルの並列処理では並列度に限界があるので、複数のプリミティブを同時処理する。また、処理ユニットとメモリモジュールを直結できる処理分配とし、配線コストを低減する。

図 3は、ピクセルレベルの並列処理を採用し、複数のプリミティブを同時処理し、処理ユニットとメモリモジュールを直結できる処理分配とする上記の画像処理装置の構成を概念的に示す図である。

画像処理装置 1は、図 3に示すように、ストリームデ一タコントロ一ラ（S t r e ami ng Da t a Con t r o l l e r i SDC) 2、および S DC 2に対して並列に接続された n個のモジュール 3— 0〜 3— n— 1を有している各モジュール 3_0〜3_n— 1は、それぞれ処理ユニット PU (0〜n— 1 ) およびメモリモジュール MM (0〜n— 1) を含む。

図 3において、各メモリモジュール MM 0〜MMn— 1はィン夕一リ一ブされているとする。

また、 SDC2は、 CPUや外部メモリとのデータの授受を司るとともに、処理ュニット PU0〜PUn— 1におけるラスタライゼーシヨンに必要なパラメ一夕を生成する。これらのパラメ.一夕は、全処理ユニット PU0〜PUn— 1に対して供給される。

各処理ユニット PU0〜PUn— 1は、あらかじめ対応するメモリインターリ —ブが決められており、それぞれ担当するピクセルのみを生成する。

図 4は、図 3の画像処理装置におけるピクセル生成について説明するための図である。

図 4の例では、メモリが 4 X 4の矩形領域単位にィンターリ一ブされている。それぞれの矩形領域を L s t amp (La r ge s t amp) と呼ぶこととする。ここでは、図 3で示した処理ユニット PUとメモリモジュール MMで構成されるモジュールの数は 4偭（3— 0〜3— 3) を想定している。また、モジユールの番号と図 4における矩形領域に付与した番号とが対応している。したがって、図 4に示した三角形の場合、モジュール 3— 0は 2個の L s t a mp、モジュール 3— 1から 3— 3はそれぞれ 3個の L s t ampを担当している。

図 4からもわかるように、 L s t amp内には多くの無効ピクセルが含まれている。そこで、図 3の画像処理装置 1において、 L s t ampをさらに 2 X 2の矩形領域 4個に分割し（スモールスタンプ： S m a 1 1 s t amp： S s t a mp ) 、有効ピクセルを含むスモールスタンプ S s t ampのみ後段で処理することにより演算リソースを有効利用することも可能である。

上述した図 3の並列化手法により、グラフィックス処理の描画系に関しては、処理ユニットとメモリモジュールを直結できる処理分配が可能で、配線コストを低減できる。

しかしながら、テクスチャリード系のメモリアクセスは、描画系のメモリァクセスとは異なるため、他のモジュールに属するメモリからの読み出しが必要となる。

したがって、テクスチャリード系のメモリアクセスに関しては何らかのクロスバーのような配線を必要とするが、それを実現する際には以下の重複アクセス、およびスケ一ラビリティの各課題を解決しなければならない。

重複アクセス

一般に、スクリーン上の矩形領域をテクスチャ空間に投影すると形状と大きさが異なる領域を占める。

図 5 A, 図 5 Bは、スクリーン上の矩形領域をテクスチャ空間に投影する様子を概念的に示す図である。

ここで、テクスチャデ一タは、フレームバッファや Zバッファのデータと同様に、インターリーブされたメモリに均等に格納されているとする。

すなわち、 4 X 4の矩形領域は、付与された番号に対応するモジュール内のメモリに格納される。図では、図 5 Aに示すスクリーン空間（S c r e e n S p ac e) 上で隣接する 4X4の矩形領域 4つが、図 5 Bに示すテクスチャ空間（ Tex t u r e Spac e) 上に投影されている様子を示している。たとえば、図 5 Bにおいて "モジュール 3— 0の領域（Reg i on f o r Mo du 1 e 3-0) " と記載された領域は、モジュール 3— 0が担当するスクリーン空間上で 4 X 4の矩形領域に対してマツピングされるテクスチャデータを示す。この場合、図 5A，図 5 Bに示すように、あるモジュール内に格納されているテクスチャデ一夕に対して、他の複数のモジュールがアクセスを行う。しかもァクセスするタイミングは、それぞれ異なってくる。

したがって、モジュール間の転送単位が 4 X 4テクセル単位であるとすると、図 5 Bのテクスチャ空間において網掛けで示されたデータは、 4回転送されることになる。

このように、同一のデータを複数回転送することは、電気的、物理的条件で制約されるメモリバンド幅を浪費し、性能低下を招く。

スケーラビリティ

図 6は、複数の処理ユニットで並列処理を行うシステムにおいて、テクスチャリード系のメモリアクセスに必要となるクロスバーを最も直接的な形で実現した例を示す図である。

図 6において、 GABで示すグロ一バルアクセスバス（G l ob a l Ac c e s s Bu s) がテクスチャアクセス用のクロスバーに相当する。

1つのメモリモジュールから読み出されるデータのビット数を Mビット、並列処理するモジュールの数を n個とすると、テクスチャアクセスに必要なデータ酉己線本数は、 MX n本である。

図 6に示したシステムを LS I化する際には、前記本数（MXn本）のデータ線が全モジュールに亘つて横方向に配線されるのみならず、各処理ュニットに引き込むための縦方向の配線も必要となる。

このような形態でのクロスバ一は、スケーラビリティを実現する上で以下の、処理ユニットのインターフエ一ス、配線コスト、および配線遅延という不利益をもたらす。

処理ュニットインターフェース

図 6において破線の楕円で示すように、各モジュール 3— 0〜3_n— 1における処理ユニット PU— 0〜PUn— 1は、 n個のメモリモジュール MM0〜M Mn— 1から読み出されたデータを受取り、必要なデータを選択するためのインターフェ一スを必要とする。

このイン夕一フエ一スは、集積されるモジュールの個数に依存するため、並列度を変えるたびに再設計しなければならない。

配線コスト

前述した重複アクセスやフィル夕リング処理に起因するバンド幅増大を考慮せず、読み出されたテクスチャ ·データが 1 00%有効利用される理想的状態において、最低限必要とされるグロ一バルアクセスバス GABの配線本数を算出してみる。

今、各処理ユニットでは、 1サイクル当たり 4ピクセルの処理を行い、 4つのテクスチャを同時アクセス可能とする。

このとき、 1ピクセルあたり平均して 1テクセルしか必要としない状態でも、 1モジュール当たり 4X4X 32 = 5 1 2ビットのバンド幅を必要とする。したがって、 n個のモジュールを集積したシステムの場合のグローバルアクセスバス GABの配線幅 W_B は以下のように求まる。

W_B = (5 1 2 XNXWp ) /N_L

ここで、 W_P は配線ピッチ、 N_L は配線に使うレイヤ数である。たとえば、想定する 0. 0 7 Xプロセスでの参考値として、 W_P =0. , N_L =2を適用すると、モジュール数を変えたときの配線幅は以下のようになる。

4モシユール： 0. 9mm、

8モンユール： 1. 8mm、 1 6モジユーレ： 3. 6 mm

チップサイズが 1 O mm角だとすると、 8モジュールの場合で、チップサイズの 2 0 %をグローバルアクセスバス GABの横配線のみで使用してしまう。しかも、これらの値は理想状態における最低限必要な配線を仮定したものであり、実際にはその倍以上はないと実行性能がでない。プロセスが微細化し、動作周波数も上がってくると、配線による遅延が支配的となる。たとえば、 1 GH z動作の場合、配線できる長さは l mmから 2 mm程度と言われる。

したがって、図 6に示したようなグロ一ノルアクセスバス GABの場合、バスの端から端までが 1 0 mmを越えることもある。その結果、配線にパイプラインレジスタを必要とし、読み出しレイテンシ一が増大する。

しかも、処理ュニットとメモリモジュールの組み合わせによって配線長が異なるため、組み合わせごとのタイミングの最適化を行わなければならず、設計しにくいという問題もある。発明の開示

本発明の目的は、複数の処理装置が処理データを共有して並列処理する際に、重複アクセスを低減でき、配線本数の多いクロスバーが不要で、設計が容易で、配線コスト、配線遅延を低減できる画像処理装置およびその方法を提供することにある。

上記目的を達成するため、本発明の第 1の観点は、複数のモジュールが処理デ —夕を共有して並列処理を行う画像処理装置であって、グローバルモジュールと、複数のローカルモジュールとを含み、上記グローバルモジュールは、上記複数の口一カルモジュールが並列に接続され、上記口一カルモジュールで必要な処理デー夕が記憶されるグローバルキャッシュを有し、ローカルモジュールからロ一カルキヤッシュフィルリクェストを受けると、上記グロ一バルキヤッシュにある要求に応じたデータを当該リクェストを出した口一カルモジュールに出力し、上記複数の口一カルモジュールは、画像に関するデータが記憶されるメモリモジュールと、少なくとも上記処理データを記憶するローカルキャッシュと、演算用パラメ一夕および上記ローカルキャッシュに記憶されている処理データに基づいてあらかじめ対応するメモリィン夕一リーブで決められた担当する処理を行う処理ユニットとを有し、処理に必要な処理データが上記ローカルキャッシュに無い場合には、必要なデータを要求するローカルキヤッシュフィルリクエストを出力し、当該リクエストに応じて送られてきたデータで上記ローカルキャッシュを更新する。

本発明の第 2の観点は、複数のモジュールが処理データを共有して並列処理を行う画像処理装置であって、グローバルモジュールと、複数の口一カルモジユールとを含む複数のクラスタを有し、上記各クラスタの上記グロ一バルモジュール. は、上記複数のローカルモジュールが並列に接続され、上記ローカルモジュールで必要な処理データが記憶されるグロ一バルキヤッシュを有し、ローカルモジュールから口一カルキャッシュフィルリクエストを受けると、上記グローバルキヤッシュにある要求に応じたデー夕を当該リクエストを出したローカルモジュールに出力し、上記複数のローカルモジュールは、画像に関するデータが記憶されるメモリモジュールと、少なくとも上記処理データを記憶する口一カルキャッシュと、演算用パラメ一夕および上記口一力ルキヤッシュに記憶されている処理データに基づいてあらかじめ対応するメモリインターリ一ブで決められた担当する処理を行う処理ユニットとを有し、処理に必要な処理データが上記ローカルキヤッシュに無い場合には、必要なデータを要求する口一カルキヤッシュフィルリクェストを出力し、当該リクエストに応じて送られてきたデータで上記ローカルキヤッシュを更新し、各クラスタのグロ一バルモジュールが互いにデー夕の授受を行ラ。また、本発明の第 2の観点では、上記複数のクラス夕は、マトリクス状に配置され、各クラスタのグローバルモジュールはリング状に接続されている。

本発明の第 1または第 2の観点では、上記グロ一バルモジュールは、ローカルモジュールからローカルキヤッシュフィルリクエストを受けると、グロ一バルキャッシュのエントリ一をチェックし、エントリーがあった場合には、要求されたブロックデータを読み出し、読み出したデータをリクエストを送出したローカルモジュールに送出する。

本発明の第 1または第 2の観点では、上記口一カルモジュールは、グローバルキャッシュフィルリクエストを受けると、要求されたブロックデータを上記グロ一パルモジュールに出力し、上記グロ一バルモジュールは、ローカルモジュールから口一カルキャッシュフィルリクエス卜を受けると、グロ—バルキャッシュのエントリーをチェックし、エントリ一がなかった場合には、要求されたブロックデータを保持するターゲットの口一カルモジュールに対してグローバルキヤッシュフィルリクエストを送り、その後タ一ゲットのローカルモジュールから送られてきたブロックデ一夕でグローバルキヤッシュを更新するとともに、当該ブロックデ一夕を読み出し、読み出したデータをローカルキャッシュフィルリクエストを送ってきたローカルモジュールに対して送出する。

本発明の第 1または第 2の観点では、上記口一カルモジュールは、グローバルキャッシュフィルリクエストを受けると、要求されたブロックデータを上記グロ —バルモジュールに出力し、上記グローバルモジュールは、ローカルモジュールからロ一カルキャッシュフィルリクエストを受けると、グローバルキャッシュのエントリーをチェックし、エントリーがあった場合には、要求されたブロックデ —夕を読み出し、読み出したデータをリク；:ストを送出したローカルモジュールに送出し、エントリーがなかった場合には、要求されたブロックデータを保持するターゲットのロー力ルモジュ—ルに対してグロ一バルキャッシュフィルリクェストを送り、その後夕ーゲットのローカルモジュールから送られてきたブロックデ一夕でグローバルキヤッシュを更新するとともに、当該プロックデ一夕を読み出し、読み出したデータを口一カルキャッシュフィルリクエストを送ってきた口 —カルモジュールに対して送出する。

好適には、上記演算用パラメ一夕を生成するコントローラを有し、上記グロ一バルモジュールは、上記コントローラで生成された演算用パラメ一タを上記複数のローカルモジュールに供給する。

本発明の第 1または第 2の観点では、上記グローバルモジュールは、各ロー力ルモジュール対応に設けられた複数のチャネルプロックを有し、上記複数のチヤネルブロックは、対応する口一カルモジュールとローカルキヤッシュフィルリクエストおよびデータの授受を行う。

好適には、上記複数のローカルモジュールは、上記グロ一バルモジュールを中心として、当該グローバルモジュールの周辺近傍に配置されている。

また、好適には、上記複数のローカルモジュールは、上記グローバルモジユールを中心として、当該グロ一バルモジュールの周辺近傍で、かつ、対応するチヤネルブロックの近傍にそれぞれ配置されている。

本発明の第 1または第 2の観点では、上記グロ一バルモジュールは、各口一力ルモジュール対応に設けられた複数のチャネルプロックを有し、上記複数のチヤネルブロックは、対応するローカルモジュールとローカルキャッシュフィルリクェスト、グローバルキャッシュフィルリクエストおよぴデータの授受を行う。好適には、上記並列処理は、ピクセルレベルでの並列処理である。

また、上記並列処理はテクスチャに関する処理である。

本発明の第 3の観点は、複数のモジュールが処理データを共有して並列処理を行う画像処理方法であつて、一つのグローバルモジュールに対して複数の口一力ルモジュールを並列に接続し、キャッシュの階層として、複数のローカルモジュ —ルが共有するグローバルキヤッシュと、各ローカルモジュールがローカルに持つローカルキャッシュの 2階層とし、グローバルモジュールにおいて、グローハ、ルキヤッシュにローカルモジュールで必要な処理データを記憶して、口一カルモジュールからローカルキヤッシュフィルリクエストを受けると、上記グロ一バルキャッシュにある要求に応じたデータを当該リクエストを出したローカルモジュ一レに出力し、上記複数のローカルモジュールにおいて、上記ローカルキヤッシュに少なくとも上記処理データを記憶して、演算用パラメ一夕およびローカルキャッシュに記憶されている処理データに基づいてあらかじめ対応するメモリイン夕一リーブで決められた担当する処理を行い、処理に必要な処理データが上記口一カルキヤッシュに無い場合には、必要なデータを要求するローカルキヤッシュフィルリクエス卜を出力し、当該リクエストに応じて送られてきたデータで上記ローカルキャッシュを更新する。

本発明の第 3の観点では、上記グローバルモジュールがローカルモジュールからローカルキヤッシュフィルリクェストを受けると、グローバルキヤッシュのェン卜リ一をチェックし、エントリ一があった場合には、要求されたブロックデー夕を読み出し、読み出したデータをリクエストを送出した口一カルモジュールに送出する。

本発明の第 3の観点では、上記ローカルモジュールがグロ一ノルキヤッシュフィルリクエストを受けると、要求されたブロックデータを上記グローバルモジュールに出力し、上記グローバルモジュールが、ローカルモジュールからローカルキャッシュフィルリクエストを受けると、グローバルキャッシュのエントリ一をチェックし、エントリーがなかった場合には、要求されたブロックデータを保持するターゲットのローカルモジュールに対してグローバルキャッシュフィルリクエス卜を送り、その後夕ーゲットのローカルモジュールから送られてきたブロックデータでグロ一バルキャッシュを更新するとともに、当該ブロックデータを読み出し、読み出したデータを口一カルキャッシュフィルリクエストを送ってきたローカルモジュールに対して送出する。

本発明の第 3の観点では、上記ローカルモジュールがグローバルキヤッシュフィルリクエストを受けると、要求されたブロックデ一夕を上記グロ一バルモジュールに出力し、上記グローバルモジュールがローカルモジュールからローカルキャッシュフィルリクエストを受けると、グローバルキヤッシュのェントリ—をチエックし、エントリ一があった場合には、要求されたブロックデータを読み出し、読み出したデータをリクエストを送出した口一カルモジュールに送出し、ェントリーがなかった場合には、要求されたブロックデータを保持する夕一ゲットの口一カルモジュールに対してグローバルキャッシュフィルリクエストを送り、その後夕ーゲットの口一カルモジュールから送られてきたブロックデータでグロ一バルキャッシュを更新するとともに、当該ブロックデータを読み出し、読み出したデータをローカルキャッシュフィルリクエストを送ってきたローカルモジユールに対して送出する。

本発明によれば、たとえばテクスチャ系の処理に場合には、コント口一ラにおいて演算用パラメ一夕が生成され、生成されたパラメ一タはたとえばグロ一バルモジュールを介してローカルモジュールにブロードキャストされる。

各ローカルモジュールでは、処理ユニットにおいて、たとえば以下の処理が行われる。

すなわち、処理ユニットにおいては、ブロードキャストされたパラメ一タを受け取ると、その三角形が自分が担当する領域、たとえば 4 X 4ピルセルの矩形領域単位でィンターリ一プされた領域に属しているか否かが判断される。その結果、属している場合には、各種データ（Z、テクスチャ座標、カラ一など）がラスタラィズされる。

次に、 L〇D (L e v e l o f D e t a i 1 ) 計算によるミツプマップ（ M i p M a p ) レベルの算出や、テクスチャアクセスのための (u , v) ァドレス計算が行われる。

そして、次に、テクスチャの読み出しが行われる。

この場合、各ローカルモジュールの処理ユニットでは、テクスチャリードの際に、まず、ローカルキャッシュのエントリーがチェックされる。

その結果、エントリ一があった場合には、必要なテクスチャデータが読み出される。

必要とするテクスチャデータが口一カルキャッシュ内に無い場合には、各処理ュニットでは、グローバルモジュールに対してローカルキャッシュフィルのリクエス卜が送出される。

グ口一バルモジュールにおいては、要求されたブロックデー夕がグ口一バルキャッシュにあると、対応するグロ一バルキヤッシュのアドレスから読み出されてチャネルを通してリクエストを送出したローカルモジュールに送り返される。一方、要求されたブロックデ一夕がグ口ーノルキャッシュにないと当該ブロックを保持するローカルモジュールに対してグローバルキヤッシュフィルのリクェストが送られる。

グローバルキャッシュフィルのリクエストを受けた口一カルモジュールにおいては、メモリから該当するブロックデータが読み出され、グロ一バルインターフエースを通してグローバルモジュールに送出される。

その後、グロ一バルモジュールでは、プロックデ一夕が所望のグロ一バルキヤッシュにフィルされるとともに、リクエストを送ってきたローカルモジュールに対して所望のチヤネルからデー夕が送出される。

グローバルモジュールから要求したブロックデータが送られてくると、該当する口一カルモジュールでは、ローカルキャッシュが更新され、処理ユニットによりブロックデ一夕が読み出される。

次に、ローカルモジュールでは、読み出されたテクスチャデータと、 ( U , V

) ァドレスを算出時に得た小数部を使って 4近傍補間などのフィルタリング処理が行われる。

次に、フィルタリング後のテクスチャデータと、ラスタライズ後の各種データを用いて、ピクセル単位の演算が行われる。そして、ピクセルレベルの処理における各種テストをパスしたピクセルデータは、メモリモジュール、たとえば内蔵 D RAMメモリ上のフレームバッファおよび Zパ、ッファに書き込まれる。図面の簡単な説明

図 1は、プリミティブレベルでの並列化処理について概念的に示す図である。図 2は、ピクセルレベルでの並列処理の手法に基づくプリミティブ ·レベルでの並列化処理について概念的に示す図である。

図 3は、ピクセルレベルの並列処理を採用し、複数のプリミティブを同時処理し、処理ユニットとメモリ ·モジュールを直結できる処理分配とする画像処理装置の構成を概念的に示す図である。

図 5 Aおよび図 5 Bは、スクリーン上の矩形領域をテクスチャ空間に投影する様子を概念的に示す図である。

図 6は、複数の処理ユニットで並列処理を行うシステムにおいて、テクスチャリード系のメモリアクセスに必要となるクロスパーを最も直接的な形で実現した例を示す図である。

図 7は、本発明の係る画像処理装置の一実施形態を示すプロック構成図である図 8は、本実施形態に係るストリームデ一夕コントローラ（S D C) の主な処理を説明するためのフローチヤ一トである。

図 9は、本実施形態に係るグロ一バルモジュールの機能を説明するためのフロ一チヤ一卜である。

図 1 0は、図 7のグローバルモジュールの具体的な構成例を示す回路図である図 1 1は、本実施形態に係るローカルモジュールにおける処理ユニットの主な処理を説明するための図である。

図 1 2は、本実施形態に係るテクスチャリード時のローカルモジュールの動作を説明するためのフローチャートである。

図 1 3は、本実施形態に係る口一カルモジュールにおける口一カルキャッシュの構成例を示すブロック図である。

図 1 4は、本実施形態に係る口一カルキヤッシュのリ一ドオンリ一キヤッシュの構成例を示すブロック図である。

図 1 5は、本実施形態に係る口一カルキャッシュのメモリコントローラの構成例を示すプロック図である。

図 1 6八〜図1 6 Eは、本実施形態に係るバンクのインターリ一ブに関するァドレッシングについて説明するための図である。

図 1 7八〜図1 7 Dは、本実施形態に係るバンクのインタ一リーブに関するァドレッシングについて説明するための図である。

図 1 8は、本発明の係る画像処理装置の他の実施形態を示すブロック構成図である。発明を実施するための最良の形態

図 Ίは、本発明に係る画像処理装置の一実施形態を示すプロック構成図である本実施形態に係る画像処理装置 1 0は、図 7に示すように、ストリームデータコントローラ ( S D C) 1 1、グロ一バルモジュール 1 2、およびローカルモジユール 1 3 _ 0〜1 3— 3を有している。

本画像処理装置 1 0では、 S D C 1 1とグローバルモジュール 1 2とがデーの授受を行い、一つのグローバルモジュール 1 2に対して複数個、本実施形態では 4個の口一カルモジュール 1 3 _ 0〜1 3— 3が並列に接続されて、複数の口一カルモジュール 13— 0〜 13— 3で処理データを共有し並列に処理する。そして、テクスチャリード系に関しては、他の口一カルモジュールに対するメモリアクセスを必要とするが、グローバルアクセスバスの形態をとる代わりに、ルータとしての機能を有する一つのグロ一バルモジュール 12を介したアクセスを行う。

また、後で詳述するように、グローバルモジュール 12はグローバルキヤッシュを有し、各口一カルモジュール 13— 0〜13— 3は口一カルキャッシュをそれぞれ有する。

すなわち、本画像処理装置 10は、キャッシュの階層として、たとえば 4つのローカルモジュール 13_0〜13— 3が共有するグロ一バルキャッシュと、各ローカルモジュールがローカルに持つローカルキャッシュの 2階層を有する。以下に各構成要素の構成および機能について、図面に関連付けて順を追って説明する。

S D C 11は、 C PUや外部メモリとのデータの授受、並びにグローバルモジュル 12とのデータの授受を司るとともに、頂点デ一夕に対する演算、各口一カルモジュール 13— 0〜13— 3の処理ュニットにおけるラスタライゼ一ションに必要なパラメ一タの生成等の処理を行う。

SDC 11における具体的な処理内容は以下の通りである。また、 SDC 11 の処理手順を図 8に示す。

SDC 11は、まず、データが入力されると（ST1) 、 Pe r_Ve r t e Xオペレーションを行う (ST2)

この処理においては、 3次元座標、法線ベクトル、テクスチャ座標の各頂点デ一夕が入力されると、頂点データに対する演算が行われる。代表的な演算としては、物体の変形ゃスクリーンへの投影などを行う座標変換の演算処理、ライティング（L i gh t i ng) の演算処理、クリッピング（C 1 i p p i n g) の演算処理がある。ここで行われる処理は、いわゆる V e r t ex Shade rの実行に相当する。

次に、 DDA (D i g i t a l D i f f e r en t i a l Ana l yz e r) パラメータを計算する（ST3) 。

この処理では、ラス夕ライゼーシヨン（Ra s t e r i z a t i on) に必要な各種データ（Z、テクスチャ座標、カラーなど）の傾き等の DDAパラメ一夕を算出する。

次に、算出した DD Aパラメ一夕をグロ一バルモジュール 12を介して全ローカルモジュール 13— 0〜13— 3にブロードキャストする（ST4) 。

この処理において、ブロードキャストされたパラメータは、後述するキヤッシュフィルとは別のチャネルを用いて、グローバルモジュール 12を介して各ローカルモジュール 13— 0〜 13— 3に渡される。ただし、グローバルキヤッシュの内容には影響を与えない。

グローバルモジュール 12は、ルータ機能および全ローカルモジュールで共用するグロ一バルキャッシュ 121を有する。

グローバルモジュール 12は、 SDC 11による DDAパラメータを並列に接続された全口一カルモジュール 13_0〜13— 3にブロードキャストする。また、グロ一バルモジュール 12は、ある口一カルモジュールからローカルキャッシュフィル（Loc a l Cache F i l l) LCFのリクエストを受けると、図 9に示すように、グロ一パリレキャッシュのエントリ一をチェックし（ ST11) 、エントリーがあった場合には（ST12) 、要求されたブロックデ —夕を読み出し（ST13) 、読み出したデータをリクエストを送出したロー力ルモジュールに送出し（ST14) 、エントリ一がなかった場合には (ST 12 ) 、当該ブロックデータを保持するターゲッ卜の口一カルモジュールに対してグローバルキャッシュフィル（G 1 o b a 1 Cache F i l U GCFのリクェストを送り（ST15) 、その後送られてきたブロックデータでグローバルキャッシュを更新するとともに（ST16, ST 17) 、ブロックデータを読み出し（ST13) 、読み出したデータを口一カルキャッシュフィル LDFのリクエストを送ってきたローカルモジュールに対して送出する（ST14) 。

図 10は、図 7のグロ一バルモジュールの具体的な構成例を示す回路図である本グロ一バルモジュール 12は、主としてローカルモジュール 13— 0とのデ —夕の授受を行うチャネルブロック CBLK0と、主としてローカルモジュール 13-1とのデータの授受を行うチャネルブロック CBLK1と、主として口一カルモジュール 13— 2とのデ一夕の授受を行うチャネルブロック CBLK 2と、主としてローカルモジュール 13 _3とのデータの授受を行うチャネルブロック CBLK3とを有する。

そして、本実施形態においては、各チャネルブロック CBLK0〜CBLK3 にそれぞれ所定容量のグロ一バルキヤッシュ 121— 0〜 121— 3が配置されている。

チャネルブロック CBLK0は、グロ一バルキャッシュ 121—0に加えて、ローカルキャッシュフィル用チャネル 1201— 0、グロ一バルキャッシュフィル用チャネル 1202— 0、セレクタ 1203— 0、タグ回路（Tag) 120 4一 0、アービタ（Arb i t o r) 1205— 0、およびたとえば F I FO ( F i s t t - I n F i r s t— Ou t) からなるキュー（Queue) レジス夕 1206— 0〜 1210— 0を有している。

同様に、チャネルブロック CBLK1は、グロ一バルキャッシュ 121—1に加えて、口一カルキャッシュフィル用チャネル 1201— 1、グローバルキヤッシュフィル用チャネル 1202— 1、セレクタ 1203— 1、タグ回路（Tag ) 1204- 1, アービタ（Ar b i t o r) 1205— 1、およびキュー（Q u e u e) レジスタ 1206— 1〜1210— 1を有している。

チャネルブロック C B L K 2は、グロ一バルキヤッシュ 121— 2に加えて、ローカルキャッシュフィル用チャネル 1201—2、グロ一バルキャッシュフィル用チャネル 1202— 2、セレクタ 1203— 2、タグ回路（Tag) 120 4-2, アービタ（Arb i t o r) 1205— 2、およびキュー（Queue ) レジスタ 1206— 2〜1210— 2を有している。

チャネルプロック C B L K 3は、グロ一バルキヤッシュ 121— 3に加えて、ローカルキャッシュフィル用チャネル 1201—3、グローバルキャッシュフィル用チャネル 1202— 3、セレクタ 1203— 3、タグ回路（Tag) 120 4— 3、アービタ（Arb i t o r) 1205— 3、およびキュー（Queue ) レジスタ 1206_3〜1210— 3を有している。

チャネルプロック C B L K 0における口一カルキヤッシュフィル用チャネル 1 201—0は、リクエスト用キューレジスタ 12011— 0およびデータ用キュ —レジスタ 12012— 0を有している。 .

リクエスト用キューレジスタ 12011—0は、ローカルモジュール 13-0 から転送されたローカルキャッシュフィル LCFのリクエストを入力し、キューレジスタ 1206一 0およびチャネルプロック CBLK 1のキュ一レジス夕 12 06-1, チャネルブロック CBLK2のキューレジス夕 1206— 2、およびチャネルブロック CBLK 3のキューレジスタ 1206— 3に出力する。

デ一夕用キューレジスタ 12012— 0は、グロ一バルキャッシュ 121-0 、 121— 1、 121— 2、または 121—3から読み出されセレクタ 1203 一 0で選択されたブロックデータを受けて、ローカルモジュール 13— 0に出力する。

チャネルブロック C B L K 0におけるグロ一バルキャッシュフィル用チヤネル 1202— 0は、リクエスト用キューレジスタ 12021— 0およびデ一夕用キユーレジスタ 12022— 0を有している。

リクエス卜用キューレジスタ 12021— 0は、タグ回路 1204一 0によるグロ一バルキャッシュフィル G C Fのリクエストを受けて、要求するブロックデ一夕を保持するターゲットのローカルモジュール 13— 0に出力する。

デ一夕用キューレジス夕 12◦ 22— 0は、グローノ 1レキャッシュフィルリクエストを受けたターゲットのローカルモジュール 13— 0から転送されたブロックデータを受けて、グローバルキヤッシュ 121— 0に供給する。

チャネルブロック CBLK0におけるセレクタ 1203— 0は、グロ一バルキャッシュ 121— 0、 121— 1、 121— 2、または 121— 3から読み出されブロックデータを図示しない制御系の指示に応じて選択し、ローカルキヤッシュフィル用チャネル 1201—0のデ一夕用キューレジス夕 12012— 0に供給する。 ―

チャネルブロック CBLK0におけるタグ回路 1204— 0は、グロ一バルキャッシュ 121 _ 0に記憶されているブロックデ一夕のァドレスタグを記憶するメモリを有し、キューレジスタ 1206— 0〜 1209— 0に保持されている各チャネルブロック CBLK0〜CBLK3を介した各口一カルモジュール 13— 0〜13— 3による口一カルキャッシュフィルリクエストの中からアービタ 12 05— 0により選択されたリクエストが要求するプロックデ一夕のァドレスと前記タグ回路 1204— 0内に記憶されたアドレスタグを比較し、一致するものがあれば当該ァドレス夕グに対応するグロ一バルキャッシュ 121— 0のデータが読み出され、各チャネルブロック CBLK0〜CBLK3のセレクタ 1203— 0〜1203— 3に供給される。

このとき、ローカルキャッシュフィルリクエストを送って来た口一カルモジュ —ルとデー夕の授受を行うチャネルブロックのセレクタにおいてチャネルブロック CBLKOのグローバルキャッシュ 121一 0から読み出されたデータを選択するように、図示しない制御系により指示される。

一方、タグ回路 1204—0は、アドレスタグとの比較の結果、グロ一バルキャッシュ 121— 0に、口一カルモジュール 13— 0〜 12— 3のいずれかから要求されたブロックデータが記憶されていないことが判明した場合には、グロ一バルキヤシュ 121— 0のどのアドレスにデ一夕が有るかを示すフラグをセットし、そのアドレスをキューレジスタ 1210— 0にセットするとともに、グロ一ノルキャッシュフィルリクエストをグロ一ゾ^レキャッシュ用チャネル 1202— 0のリクエスト用キューレジスタ 12021—0に供給する。グロ一バルキャッシュ 121一 0においては、グローバルキャッシュ用チャネル 1202— 0用キユーレジス夕 12022— 0に口一カルモジュール 13— 0から要求したデータが送られてくると、キューレジス夕 1210— 0にセットされたアドレスに基づいて当該データでグローバルキャッシュ 121一 0の内容を更新するとともに、各チャネルブロック CBLK0〜CBLK3のセレクタ 1203— 0〜 1203 一 3にローカレキャッシュフィルリクエストで要求されていたデータを供給するチャネルブロック CBLK0のアービタ 1205— 0は、キュ一レジスタ 12 06— 0〜1209_0に保持されてぃる各チャネルブロック。：6し1^0〜。8 LK 3を介した各ローカルモジュール 13_0〜13— 3による口一カルキャッシュフィルリクエストを受けて調停作業を行い、グローバルキヤッシュ 121— 0から同時読み出し可能なプロックデ一夕の数に応じてリクエストを選択し、夕グ回路 1204— 0に出力する。

チャネルブロック CBLK0のキューレジス夕 1206— 0は、チャネル 12 01-0を介したローカルモジュール 13-0による口一カルキヤッシュフィルリクエストのうち、口一カルモジュール 13—0のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

キューレジスタ 1207— 0は、チャネルブロック CBLK1のチャネル 12 01-1を介したローカルモジュール 13— 1による口一カルキャッシュフィルリクエストのうち、口一カルモジュール 13—0のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

キューレジス夕 1208— 0は、チャネルブロック CBLK2のチャネル 12 01一 2を介したローカルモジュール 13— 2によるローカルキャッシュフィルリクエストのうち、口一カルモジュール 13— 0のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

キュ一レジスタ 1209_ 0は、チャネルブロック CBLK3のチャネル 12 01—3を介した口一カルモジュール 13— 3によるローカルキャッシュフィルリクエストのうち、口一カルモジュール 13— 0のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

チャネルブロック C B LK 1におけるローカルキヤッシュフィル用チャネル 1

201— 1は、リクエス卜用キューレジスタ 12011— 1およびデータ用キュ —レジスタ 12012— 1を有している。

リクエスト用キューレジスタ 12011— 1は、ローカルモジュール 13-1 から転送されたローカルキャッシュフィル LCFのリクエストを入力し、キューレジスタ 1207-1およびチャネルブロック C B L K 0のキューレジスタ 12 07— 0、チャネルブロック CBLK2のキュ一レジスタ 1207— 2、およびチャネルブロック CBLK3のキューレジスタ 1207— 3に出力する。

データ用キューレジスタ 12012— 1は、グロ一バルキャッシュ 121-0 、 121— 1、 121— 2、または 121— 3から読み出されセレクタ 1203 一 1で選択されたブロックデータを受けて、ローカルモジュール 13—1に出力する。

チャネルブロック C B LK 1におけるグロ一バルキヤッシュフィル用チャネル 1202— 1は、リクエス卜用キューレジスタ 12021— 1およびデ一夕用キュ一レジスタ 12022— 1を有している。

リクエスト用キューレジスタ 12021— 1は、タグ回路 1204—1によるグローバルキヤッシュフィル G C Fのリクエストを受けて、要求するブロックデ一夕を保持するターゲットのローカルモジュール 13_ 1に出力する。

データ用キューレジスタ 12022— 1は、グロ一バルキャッシュフィフレリクエストを受けた夕一ゲットのローカルモジュール 13 _ 1から転送されたブロックデ一夕を受けて、グロ一パルキヤッシュ 121— 1に供給する。

チャネルブロック CBLK1におけるセレクタ 1203— 1は、グロ一バルキャッシュ 121— 0、 121— 1、 121— 2、または 121—3から読み出されブロックデ一夕を図示しない制御系の指示に応じて選択し、ローカルキヤッシュフィル用チャネル 1201—1のデ一夕用キューレジスタ 12012— 1に供給する。

チャネルブロック CBLK1におけるタグ回路 1204— 1は、グロ一バリレキャッシュ 121— 1に記憶されているプロックデータのァドレスタグを記憶するメモリを有し、キューレジス夕 1206— ;！〜 1209— 1に保持されている各チャネルプロック CBLK〜CBLK3を介した各ローカルモジュール 13-0 〜13— 3によるローカルキャッシュフィルリクエストの中からアービタ 120 5-1により選択されたリクエストが要求するブロックデータのアドレスと前記タグ回路 1204- 1内に記憶されたァドレスタグを比較し、一致するものがあれば当該ァドレスタグに対応するグローバルキヤッシュ 121— 1のデータが読み出され、各チャネルブロック 8 0〜じ]31^1^3のセレク夕1203— 0 -1203_ 3に供給される。 .

このとき、ローカルキャッシュフィルリクエストを送って来たローカルモジュ —ルとデ一夕の授受を行うチャネルブロックのセレクタにおいてチャネルブロック CBLK1のグローバルキャッシュ 121— 1から読み出されたデ一夕を選択するように、図示しない制御系により指示される。

一方、タグ回路 1204— 1は、ァドレスタグとの比較の結果、グローハレキャッシュ 121— 1に、ローカルモジュール 13— 0〜 12— 3のいずれかから要求されたプロックデ一夕が記憶されていないことが判明した場合には、グロ一バルキヤシュ 121- 1のどのァドレスにデータが有るかを示すフラグをセットし、そのアドレスをキューレジス夕 1210— 1にセットするとともに、グロ一バルキャッシュフィルリクエストをグロ一バルキャッシュ用チャネル 1202— 1のリクエスト用キューレジスタ 12021— 1に供給する。グロ一バルキャッシュ 121—1においては、グローバルキャッシュ用チャネル 1202— 1用キュ一レジス夕 12022-1にローカルモジュール 13— 0から要求したデータが送られてくると、キューレジス夕 1210—1にセットされたアドレスに基づいて当該デ一夕でグロ一ノレキャッシュ 121— 1の内容を更新するとともに、各チャネルブロックじ8 0〜じ8 1^3のセレク夕 1203— 0〜： 1203 一 3にローカルキャッシュフィルリクエス卜で要求されていたデータを供給するチャネルブロック CBLK1のアービタ 1205— 1は、キューレジスタ 12 06— 1〜 1209— 1に保持されている各チャネルブロック CBLK0〜CB LK3を介した各口一カルモジュール 13— 0〜13— 3によるローカルキヤッシュフィルリクェストを受けて調停作業を行い、グローバルキヤッシュ 121— 1から同時読み出し可能なプロックデータの数に応じてリクエストを選択し、夕グ回路 1204— 1に出力する。

チャネルブロック CBLK1のキューレジスタ 1206 _ 1は、チャネルブロック CBLK0のチャネル 1201一 0を介した口一カルモジュール 13— 0によるローカルキャッシュフィルリクエス卜のうち、ローカルモジュール 13-1 のメモリモジュールに記憶されているものと判靳されたリクエストを保持する。キューレジス夕 1207 _ 1は、チャネルブロック C B L K 1のチャネル 12 01-1を介したローカルモジュール 13—1による口一カルキャッシュフィルリクエストのうち、ローカルモジュール 13― 1のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

キューレジスタ 1208_ 1は、チャネルブロック CBLK2のチャネル 12 01-2を介したローカルモジュール 13— 2によるローカルキャッシュフィルリクエストのうち、ローカルモジュール 13— 1のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

キューレジス夕 1209— 1は、チャネルブロック CBLK3のチャネル 12 01—3を介したローカルモジュール 13— 3によるローカルキャッシュフィルリクエストのうち、ローカルモジュール 13— 1のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

チャネルブロック C B L K 2におけるローカルキヤッシュフィル用チャネル 1 201— 2は、リクエスト用キュ一レジスタ 12011—2およびデ一夕用キュ一レジスタ 12012-2を有している。

リクエスト用キューレジスタ 12011—2は、ローカルモジュール 13-2 から転送された口一カルキャッシュフィル LCFのリクエストを入力し、キュ一レジスタ 1208— 2およびチャネルブロック CBLK0のキューレジスタ 12 08-0, チャネルブロック CBLK1のキュ一レジスタ 1208_ 1、およびチャネルブロック CBLK 3のキューレジスタ 1208— 3に出力する。

データ用キューレジスタ 12012— 2は、グロ一バルキャッシュ 121-0 、 121— 1、 121-2, または 121 _3から読み出されセレクタ 1203 一 2で選択されたブロックデータを受けて、ローカルモジュール 13— 2に出力する。

チャネルブロック C B L K 2におけるグローバルキヤッシュフィル用チャネル 1202— 2は、リクエス卜用キュ一レジス夕 12021— 2およびデ一タ用キュ一レジス夕 12022-2を有している。

リクエス卜用キューレジス夕 12021_2は、タグ回路 1204— 2によるグロ一バルキャッシュフィル G C Fのリクエストを受けて、要求するブロックデ一夕を保持する夕一ゲットのローカルモジュール 13— 2に出力する。

デ一夕用キューレジス夕 12022— 2は、グロ一バルキヤッシュフィルリクエストを受けたターゲッ 1、のローカルモジュール 13— 2から転送されたブロックデータを受けて、グロ一バルキヤッシュ 121— 2に供給する。チャネルブロック CBLK 2におけるセレクタ 1203— 2は、グロ一バルキャッシュ 121— 0、 121— 1、 121— 2、または 121— 3から読み出されブロックデータを図示しない制御系の指示に応じて選択し、ローカルキヤッシュフィル用チャネル 1201一 2のデ一夕用キューレジスタ 12012— 2に供給する。

チャネルブロック CBLK2におけるタグ回路 1204— 2は、グロ一バルキャッシュ 121 _ 2に記憶されているプロックデ一夕のァドレスタグを記憶するメモリを有し、キューレジスタ 1206— 2〜1209— 2に保持されている各チャネルプロック CBLK〜CBLK3を介した各口一カルモジュール 13— 0 〜13— 3によるローカルキャッシュフィルリクエストの中からアービタ 120 5— 2により選択されたリクエストが要求するブロックデータのァドレスと前記タグ回路 1204— 2内に記憶されたァドレスタグを比較し、一致するものがあれば当該ァドレスタグに対応するグロ一ノルキヤッシュ 121 _ 2のデ一夕が読み出され、各チャネルブロック CBLK0〜CBLK3のセレクタ 1203— 0 〜 1203— 3に供給される。

このとさ、ローカルキャッシュフィルリクエス卜を送って来た口一カルモジュ —ルとデータの授受を行うチャネルブロックのセレクタにおいてチャネルブロック CBLK2のグロ一パルキャッシュ 121— 2から読み出されたデータを選択するように、図示しない制御系により指示される。

一方、タグ回路 1204— 2は、アドレスタグとの比較の結果、グロ一バルキャッシュ 121—2に、ローカルモジュール 13— 0〜12— 3のいずれかから要求されたプロックデータが記憶されていないことが判明した場合には、グロ一バルキヤシュ 121— 2のどのァドレスにデータが有るかを示すフラグをセットし、そのアドレスをキュ一レジスタ 1210— 2にセットするとともに、グロ一バルキヤッシュフィルリクエストをグローバルキヤッシュ用チャネル 1202- 2のリクエスト用キューレジスタ 12021— 2に供給する。グローバルキヤッシュ 121— 2においては、グロ一バルキャッシュ用チャネル 1202— 2用キュ一レジス夕 12022— 2にローカルモジュール 13— 0から要求したデ一夕が送られてくると、キュ一レジスタ 1210— 2にセッ卜されたアドレスに基づいて当該データでグロ一バルキャッシュ 121—2の内容を更新するとともに、各チャネルブロック08 0〜。8し1^3のセレクタ 1203— 0〜 1203 —3にローカルキャッシュフィルリクエストで要求されていたデータを供給するチャネルブロック CBLK 2のアービタ 1205— 2は、キューレジスタ 12 06— 2〜 1209— 2に保持されてぃる各チャネルブロック08 0〜。8 LK 3を介した各ローカルモジュール 13— 0〜13— 3によるローカルキヤッシュフィルリクエスト調停作業を行い、グローバルキャッシュ 121—2から同時読み出し可能なプロックデータの数に応.じてリクエストを選択し、夕グ回路 1 204— 2に出力する。

チャネルブロック CBLK 2のキューレジスタ 1206— 2は、チャネルブロック CBLK0のチャネル 1201—0を介した口一カルモジュール 13— 0による口一カルキャッシュフィルリクエストのうち、ローカルモジュール 13-2 のメモリモジュールに記憶されているものと判断されたリクエストを保持する。キューレジスタ 1207— 2は、チャネルブロック CBLK 1のチャネル 12 01-1を介した口一カルモジュール 13—1による口一カルキャッシュフィルリクエストのうち、口一カルモジュール 13— 2のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

キューレジスタ 1208— 2は、チャネルブロック CBLK2のチャネル 12 01—2を介した口一カルモジュール 13-2による口一カルキヤッシュフィルリクエストのうち、ローカルモジュール 13— 2のメモリモジュールに記憶されているものと判断されたリクエストを保持する。キューレジスタ 1209— 2は、チャネルブロック CBLK3のチャネル 12 01-3を介したローカルモジュール 13— 3による口一カルキャッシュフィルリクエストのうち、ローカルモジュール 13— 2のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

チャネルブロック CBLK 3におけるローカルキャッシュフィル用チャネル 1 201_3は、リクエスト用キューレジスタ 12011—3およびデータ用キュ —レジス夕 12012— 3を有している。

リクエスト用キューレジスタ 12011— 3は、ローカ^/モジュール 13— 3 から転送されたローカルキャッシュフィル LCFのリクエストを入力し、キュ一レジスタ 1209— 3およびチャネルブロック CBLK0のキューレジスタ 12 09— 0、チャネルブロック CBLK1のキューレジス夕 1209— 1、およびチャネルブロック CBLK 2のキューレジス夕 1209— 2に出力する。

データ用キューレジスタ 12012— 3は、グロ一バルキヤッシュ 121— 0 、 121— 1、 121— 2、または 121— 3から読み出されセレクタ 1203 一 3で選択されたブロックデータを受けて、口一カルモジュール 13— 3に出力する。

チャネルブロック C B LK 3におけるグローバルキヤッシュフィル用チャネル 1202— 3は、リクエスト用キューレジス夕 12021— 3およびデータ用キユーレジス夕 12022— 3を有している。

リクエスト用キューレジスタ 12021—3は、タグ回路 1204— 3によるグロ一バルキャッシュフィル G C Fのリクエストを受けて、要求するブロックデ一夕を保持する夕一ゲッ卜の口一カルモジュール 13-3に出力する。

データ用キューレジス夕 12022— 3は、グロ一バルキヤッシュフィルリクエストを受けた夕ーゲッ卜のローカルモジュール 13— 3から転送されたブロックデータを受けて、グローバルキヤッシュ 121— 3に供給する。

チャネルブロック CBLK 3におけるセレクタ 1203— 3は、グロ一バルキャッシュ 121— 0、 121— 1、 121— 2、または 121— 3から読み出されブロックデータを図示しない制御系の指示に応じて選択し、ローカルキヤッシュフィル用チャネル 1201一 3のデータ用キューレジスタ 12012— 3に供給する。

チャネルブロック CBLK 3におけるタグ回路 1204_ 3は、グロ一バ^/キャッシュ 121— 3に記憶されているプロックデータのァドレスタグを記憶するメモリを有し、キュ一レジスタ 1206— 3〜 1209— 3に保持されている各チャネルプロック CBLK〜CBLK3を介した各口一カルモジュール 13— 0 〜13— 3による口一カルキャッシュフィルリクエストの中からアービタ 120 5— 3により選択されたリクエストが要求するプロックデータのァドレスと前記タグ回路 1204— 3内に記憶されたアドレスタグを比較し、一致するものがあれば当該ァドレスタグに対応するグローバルキヤッシュ 121—2のデータが読み出され、各チャネルブロック CBLK0〜CBLK3のセレクタ 1203— 0 〜1203— 3に供給される。

このとさ、ローカルキャッシュフィルリクエストを送って来たローカルモジュ一ルとデ一夕の授受を行うチャネルブロックのセレクタにおいてチャネルブロック CBLK 3のグロ一バルキャッシュ 121— 3から読み出されたデータを選択するように、図示しない制御系により指示される。

一方、夕グ回路 1204— 3は、アドレスタグとの比較の結果、グローバルキャッシュ 121— 3に、ローカルモジュール 13— 0〜12— 3のいずれかから要求されたプロックデータが記憶されていないことが判明した場合には、グロ一バルキヤシュ 121— 3のどのァドレスにデータが有るかを示すフラグをセットし、そのアドレスをキューレジスタ 1210— 3にセットするとともに、グロ一バルキャッシュフィルリクエストをグローバルキャッシュ用チャネル 1202— 3のリクエスト用キューレジス夕 12021— 3に供糸合する。グローバルキヤッシュ 121— 3においては、グローバルキャッシュ用チャネル 1202— 3用キユーレジス夕 12022— 3に口一カルモジュール 13— 0から要求したデータが送られてくると、キュ一レジス夕 1210— 3にセットされたアドレスに基づいて当該データでグローバルキャッシュ 121—3の内容を更新するとともに、各チャネルブロック 8 1 0〜〇81^1：3のセレク夕1203— 0〜 1203 一 3にローカルキヤッシュフィルリクエストで要求されていたデータを供給するチャネルブロック CBLK 3のアービタ 1205— 3は、キューレジス夕 12 06— 3〜 1209— 3に保持されている各チャネルブロック CBLK0〜CB LK 3を介した各口一カルモジュール 13_0〜13— 3によるローカルキヤッシュフィルリクエスト調停作業を行い、グローバルキャッシュ 121— 3から同時読み出し可能なプロックデータの数に応じてリクエストを選択し、夕グ回路 1 204— 3に出力する。

チャネルブロック CBLK 3のキュ一レジス夕 1206 _ 3は、チャネルブロック CBLK0のチャネル 1201 _0を介した口一カルモジュール 13—0による口一カルキャッシュフィルリクエストのうち、ローカルモジュール 13— 3 のメモリモジュールに記憶されているものと判断されたリクェストを保持する。キューレジスタ 1207— 3は、チャネルブロック CBLK 1のチャネル 12 01-1を介したローカルモジュール 13—1によるローカルキャッシュフィルリクエストのうち、ローカルモジュール 13—3のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

キューレジスタ 1208 _ 3は、チャネルブロック C B L K 2のチャネル 12 01—2を介したローカルモジュール 13—2による口一カルキャッシュフィルリクエストのうち、ローカルモジュール 13—3のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

キュ一レジスタ 1209 _ 3は、チャネルブロック C B L K 3のチャネル 12 01一 3を介した口一カルモジュール 13— 3によるローカルキャッシュフィルリクエストのうち、ローカルモジュール 13— 3のメモリモジュールに記憶されているものと判断されたリクエストを保持する。

なお、図 10の構成は一例であり、グローバルキャッシュ 121を各チャネルプロック毎にそれぞれ配置した構成の代わりに、一つのキヤッシュを設けて各チャネルプロックからアクセスする等、種々の態様が可能である。

口一カルモジュール 13— 0は、処理ユニット 131— 0、たとえば DRAR Mからなるメモリモジュール 132— 0、モジュール固有のローカルキャッシュ 133— 0、およびグロ一バルモジュール 12のチャネルブロック CBLK0とのインターフェースを司るグローバルインターフェース (G l oba l Ac c e s s I n t e r f a c e ： GAI F) ) 134-0を有している。

同様に、ローカルモジュール 13— 1は、処理ュニット 131— 1、たとえば DRARMからなるメモリモジュール 132— 1、モジュール固有のローカルキャッシュ 133— 1、およびグローバルモジュール 12のチヤネリレブロック CB LK 1とのィンターフェ一スを司るグローバルインタ一フェース (GA I F) 1 34-1を有している。

ローカルモジュール 13— 2は、処理ユニット 131— 2、たとえば DRAR Mからなるメモリモジュール 132-2, モジュール固有の口一カルキャッシュ 133-2, およびグローバルモジュール 12のチャネルブロック CBLK 2とのインタ一フェースを司るグロ一バルインターフェース (GA I F) 134-2 を有している。

ローカルモジュール 13— 3は、処理ユニット 131— 3、たとえば DRAR Mからなるメモリモジュール 132— 3、モジュ一ル固有の口一カルキャッシュ 133— 3、およびグロ一ノレモジュール 12のチャネルブロック CBLK3とのインタ一フェースを司るグロ一バルインタ一フェース (GA I F) 134-3 を有している。各ローカルモジュール 13— 0〜 13— 3は、メモリモジュール 132-0- 132— 3が所定の大きさ、たとえば 4X4の矩形領域単位にインターリーブされており、メモリモジュール 132— 0と処理ユニット 131— 0、メモリモジユール 132—1と処理ユニット 131— 1、メモリモジュール 132— 2と処理ュニット 131— 2、およびメモリモジュール 132_ 3と処理ュニット 13 1一 3は、担当領域は 1対 1に対応しており、描画系については他のローカルモジュールに対するメモリアクセスが発生しない

一方、各ローカルモジュール 13 _0〜13— 3は、テクスチャリード系に関しては、他のローカルモジュールに対するメモリアクセスを必要とするが、この場合、グローバルモジュール 12を介したアクセスを行う。

各ローカルモジュール 1.3— 0〜13— 3の処理ュニット 131—0〜 131 一 3はそれぞれ以下の処理を行う。また、処理ュニット 131— 0〜 131— 3 の処理手順を図 11に示す。

処理ュニット 131は、プロ一ドキャストされたパラメータデータが入力されると（ST21) 、三角形が自分が担当する領域であるか否かを判断し（ST2 2) 、担当領域である場合には、ラスタライゼーシヨン（Ra s t e r i z a t i on) を行う（ST 23) 。

すなわち、ブロードキャストされたパラメ一タを受け取ると、その三角形が自分が担当する領域、たとえば 4 X 4ピクセルの矩形領域単位でィン夕一リ一ブされた領域に属しているか否かを判断し、属している場合には、各種データ（Z、テクスチャ座標、カラ一など）をラスタライズする。この場合、生成単位は、 1 ローカルモジュール当たり 1サイクルで 2 X 2ピクセルである。

次に、テクスチャ座標のパースペクティブコレクション（Pe r s p e c t i V e Co r r e c t i on) を行う（S T 24) 。また、この処理ステージには LOD Leve l o f D e t a i 1 ) 計算によるミツプマップ（M i ρ Map) レベルの算出や、テクスチャアクセスのための（u, V) アドレス計算 12965 も含まれる。

次に、テクスチャの読み出しを行う（ST25) 。

この場合、各口一カルモジュール 13— 0〜13— 3の処理ュニット 131— 0〜131— 3は、図 12に示すように、テクスチャリードの際に、まずは、口一カルキャッシュ 133— 0〜133— 3のエントリ一をチェックし（ST31 ) 、エントリ一があった場合には（ST32) 、必要なテクスチャデータを読み出す（ST33) 。

必要とするテクスチャ ·データが口一カルキャッシュ 133— 0〜 133— 3 内に無い場合には、各処理ュニット 131— 0〜 131— 3は、グロ一バルインターフェ一ス 134— 0〜134一 3を通して、グローバルモジュール 12に対して口一カルキャッシュフィルのリクエストを送る（ST34) 。

そして、グローバルモジュール 12は、要求されたブロックをリクエストを送出した口一カルモジュールに返すが、なかった場合には上述したように（図 9に関連付けて説明）、当該ブロックを保持するローカルモジュールに対してグロ一バルキヤッシュフィルのリクエストを送る。その後ブロックデータをグローバルキャッシュにフィルするとともに、リクエス卜を送ってきたローカルモジュールに対してデータを送出する。

グロ一バルモジュール 12から要求したブロックデータが送られてくると、該当するローカルモジュールは、口一カルキャッシュを更新し（ST35, ST3 6) 、処理ユニットはブロックデ一夕を読み出す（ST33) 。

なお、ここでは、最大 4テクスチャの同時処理を想定しており、読み出すテクスチヤデータの数は、 1ピクセルにっき 16テクセルである。

次に、テクスチャフィル夕リング (Tex t u r e F i l t e r i ng) を行う（ST26) 。

この場合、処理ュニット 133— 0〜 133— 3は、読み出されたテクスチャデータと、（u， v) アドレスを算出時に得た小数部を使って 4近傍補間などのフィルタリング処理を行う。

次に、ピクセルレベルの処理（Pe r— P i xe l Ope r a t i on) を行う（ST27) 。

この処理においては、フィルタリング後のテクスチャデータと、ラスタライズ後の各種データを用いて、ピクセル単位の演算が行われる。ここで行われる処理は、ピクセルレベルでのライティング (P e r—P i X e 1 L i gh t i ng ) などいわゆる P i xe 1 Sh ad e rに相当する。また、それ以外にも以下の処理が含まれる。

すなわち、アルファテスト、シザリング、 Zバッファテスト、ステンシルテスト、アルファブレンデイング、ロジカルオペレーション、ディザリングの各処理である。

そして、ピクセルレベルの処理における各種テストをパスしたピクセルデータを、メモリモジュール 132— 0〜132— 3、たとえば内蔵 DRAMメモリ上のフレームバッファおよび Zバッファに書き込まれる（ST28 ： Memo ry

Wr i t e) 。

各ローカルモジュール 13— 0〜13— 3のローカルキャッシュ 133— 0〜 133 _ 3は、処理ュニット 131— 0〜 131— 3の処理に必要な描画デ一夕やテクスチャデ一夕を格し、処理ュニット 131— 0〜 131— 3とのデータの授受、並びにメモリモジュール 132— 0〜132— 3とのデータの授受（書き込み、読み出し）を行う。

図 13は、各ローカルモジュール 13— 0〜13— 3の口一カルキャッシュ 1 33— 0〜133— 3の構成例を示すブロック図である。

ローカルキャッシュ 133は、図 13に示すように、リードオンリーキヤッシュ 1331、リード .ライトキャッシュ 1332、リォ一ダバッファ（R e o r de r Bu f f e r) 1333、およびメモリコントローラ 1334を含む。リードオンリーキャッシュ 1331はテクスチャ系データの記憶に用いられ、リード ·ライトキャッシュ 1332は描画系データの記憶に用いられる。

また、図 14は、テクスチャ系に用いられるリードオンリ一キャッシュ 133 1の構成例を示す図である。

図 14に示すように、このリードオンリーキャッシュ 1331は、 1つのローカルモジュールで 4つのテクスチャを処理することから、これに対応して 4個のキャッシュ CSH0〜CSH3が設けられている。

また、各キャッシュじ3110〜じ31^3には、 4近傍補間などのフィル夕リング処理を行うために、ピクセル毎に 4つのデータを必要とすることから、それぞれ 4つのメモリバンク BK0〜： BK 3が設けられる。

リオ一ダバッファ 1333は、いわゆる待ち合わせバッファであり、ローカルキャッシュの必要なデータがない場合、口一カルキャッシュフィルのリクエストを出したときに、グロ一バルモジュール 12が送られてくるデータの順番が異なる場合があるので、この順番を遵守し、処理ュニット 131— 0〜131— 3に要求順に戻すようにデータの順番を調整する。

また、図 15は、メモリコントローラ 1334のテクスチャ系の構成例を示すブロック図である。

このメモリコントローラ 1334は、図 15に示すように、 4つのキャッシュ CSH0〜CSH3に対応するキャッシュコントローラ 13340〜 13343 と、各キャッシュコントローラ 13340〜13343から出力されるローカルキャッシュフィルリクエストを調停しグローバルインターフェース 134 {—0 〜3} に出力するアービタ 13344と、グローバルインタ一フェース 134 { 一 0〜3} を介して入力したグロ一バルキャッシュフィルリクエストを受けて、データ転送の制御を行うメモリインタ一フエ一ス 13345を含む。

また、キャッシュコントローラ 13340〜13343は、 4つのピクセル P X 0〜P X 3それぞれに対応するデータに対して 4近傍補間を行う際に必要な各デ一夕の 2次元アドレス C〇u v 00〜(： Ouv03、 C〇uvl 0〜COuv 13、 COu v 20〜COu v 23、 COu v 30〜(：〇u v 33を受けてアドレスの競合をチェックし分配するコンフリクトチェッカ CC 10と、コンフリクトチェッカ CC 10で分配されたアドレスをチェックしリードオンリーキヤッシュ 1331にアドレスで示されたデ一夕が存在するか否かを判断するタグ回路 T AG 10と、キューレジスタ QR 10を有している。

タグ回路 TAG 10内は後述するバンクのインターリーブに関するアドレツシングに対応する 4つのタグメモリ BK10〜BK13を有し、リードオンリーキャッシュ 1331に記憶されている。

ブロックデ一夕のアドレスタグを保持するコンフリク卜チェッカ CC 10で分配されたアドレスと上記アドレスタグを比較し、一致したか否かのフラグと前記アドレスをキューレジスタ QR10にセットするとともに、一致しなかった場合には前記アドレスをアービタ 13344に送出する。

アービタ 13344は、キャッシュコントローラ 13340〜 13343から送出されるアドレスを受けて調停作業を行い、グロ一パルインタ一フェース（G A I F) 134を介して同時に送出できるリクエストの数に応じてアドレスを選択し、口一カルキャッシュフィルリクエストとしてグローバルィンターフェース (GA I F) 134に出力する。

グローバルインタ一フェース（GAI F) 134を介して送出されたローカルキャッシュフィルリクエストに対応してグロ一バルキヤッシュ 12からデ一夕が送られてくると、リオ一ダバッファ 1333にセットされる。

キャッシュコントローラ 13340〜13343は、キューレジスタ QRL 0 の先頭にあるフラグをチェックし、一致したことを示すフラグがセットされていた場合には、キューレジス夕 QRL 0の先頭にあるアドレスに基づいて、リ一ドオンリーキャッシュ 1331のデータを読み出し、処理ュニット 131に与える。一方、一致したことを示すフラグがセットされていなかった場合には、対応するデータがリオーダバッファ 1333にセットされた時点でリオーダバッファ 1 333から読み出し、キューレジスタ QRL 0のアドレスに基づいて当該ブロックデータでリードオンリ一キャッシュ 1331を更新するとともに、処理ュニット 131に出力する。

次に、本実施形態に係るバンクのインターリーブに関するァドレッシングについて、図 16 A〜図 16 Eおよび図 17 A〜図 17 Dに関連付けて説明する（文南犬： S t an f o rdUn i ve r s i t y 「P r e f e t ch i ng i n a Tex t u r e Ca s he Ar ch i t e c t u r e」照) 。

この場合、図 16Aに示すように、 2次元画像データを、たとえば 4X4のマトリクスとして図中縦方向を Vsuper 、横方向を Usuper とする。

そして、一つのブロックを図 16 Bに示すように、 8X 8のキャッシュサイズのスーパーブロックのマトリクスとして、図中縦方向 Vblockを、横方向を Ubl ock とする。

このス一パーブロックに、図 16Cに示すように、 4近傍のブロックに 0〜3 の番号を付与する。

また、ス一パープロックの一つを図 16 Dに示すように、 4X4のブロックのマトリクスとして、図中縦方向を Voffset、横方向を Uoffsetとする。

このブロックに、図 16 Eに示すように、 4近傍のブロックに 0〜3の番号を付与する。

そして、図 17 Aに示すような、 V方向に関する Vsuper 、 Vblock、および Voffsetと、 U方向に関する係る Usuper 、 Ublock、および Uof fsetとを合体して、図 17Bに示すように、各 0フィールドの後続して、 Vsuper フィールド、 Usuper フィールド、 Vblockフィールド、 Ublockフィールド、 Voffsetフィールド、 Uoffsetフィールドとなるようにソートする。

さらに、図 17Cに示すような、 0フィ一ルド〜 Ublockフィールドに対応する領域をベースアドレスフィールドとを合体して、図 17Dに示すように、タグフィールド、ブロックインデックスフィールド、ブロックオフセットフィールドからなるアドレスが生成される。

次に、メモリモジュールとしての D RAMと、ローカルキャッシュと、グロ一バルキャッシュのメモリ容量について説明する。

メモリ容量の関係は、当然のことながら D R AM >グロ一バルキャッシュ >口一カルキャッシュであるが、その割合については、アプリケーションに依存するキヤッシュブ口ックサイズとしては、キヤッシュフィル時に下位階層のメモリから読み出すデータサイズに相当する。

D RAMの特性として、ランダムアクセス時には性能が低下するが、同一行 ( R OW) に属するデータの連続アクセスは速いという点をあげることができる。グローバルキャッシュは、 D RAMからデータを読み出す関係上、前記連続ァクセスを行う方が性能上好ましい。

したがつて、キヤッシュブ口ックのサイズを大きく設定する。

たとえば、グローバルキヤッシュのキヤッシュブ口ックのサイズは D RAMマクロの 1行分 ( 8 2 9 2 b i t ) をブロックサイズにすることができる。

一方、ローカルキャッシュの場合には、ブロックサイズを大きくすると、キヤッシュに入れても、使われないデータの割合が増えるのと、下位階層がグローバルキャッシュで D R AMでなく連続ァクセスに必要性がないことから、ブロックサイズは小さく設定する。

ローカルキヤッシュのブロックサイズとしては、メモリインターリ—ブの矩形領域のサイズに近い値が適当で、本実施形態の場合、 4 X 4ピクセル分、すなわち 5 1 2ビッ卜とする。

次に、テクスチャ圧縮について説明する。

1ピクセルの処理を行うのに複数のテクスチャデ一夕を必要とするので、テクスチヤ読み出しバンド幅がポトルネックになる場合が多いが、これを軽減するためテクスチャを圧縮する方法がよく採用される。

圧縮方法には、いろいろあるが、 4X4ピクセルのように小さな矩形領域単位で圧縮 Z伸長できる方法の場合には、グローバルキヤッシュには圧縮されたままのデ一夕を置き、口一カルキャッシュには、伸長後のデ一夕を置くことが好ましい。

また、グローバルモジュール 12と各ローカルモジュール 13— 0〜 13— 3 との配置関係としては、図 7に示すように、グロ一バルモジュール 12を中心として各口一カルモジュール 13 _ 0〜 13 _ 3をその周辺近傍に配置することが望ましい。

具体的には、グロ一バルモジュール 12のチヤネリレブ口ック C B L K 0の近傍にチャネルブロック CBLK0とデータの授受を行うローカルモジュール 13- 0を配置し、グロ一バルモジュール 12のチャネルブロック CBLK1の近傍にチャネルブロック CBLK1とデータの授受を行うローカルモジュール 13-1 を配置し、グローバルモジュール 12のチャネルブロック CBLK 2の近傍にチャネルブロック CBLK2とデータの授受を行うローカルモジュール 13— 2を配置し、グローバルモジュール 12のチャネルブロック CBLK 3の近傍にチヤネルブロック C BLK3とデータの授受を行う口一カルモジュール 13— 3を配置する。

これにより、各対応するチャネルプロックとローカルモジュールまでの距離を均一に保つことができ、配線領域を整然と並べることができ、平均配線長を短くできる。したがって、配線遅延や配線コストを低減でき、処理速度の向上を図ることが可能となる。

次に、上記構成による動作を説明する。

ここでは、テクスチャ系の処理について説明する。

まず、 SDC 11において、 3次元座標、法線ベクトル、テクスチャ座標の各頂点データが入力されると、頂点データに対する演算が行われる。

次に、ラスタライゼ一ション（Ra s t e r i z a t i on) に必要な各種デ一夕（Z、テクスチャ座標、カラーなど）の傾き等の DDAパラメータが算出される。

そして、 SDC 11においては、算出した DDAパラメ一夕をグロ一バルモジユール 12を介して全ローカルモジュール 13—0〜13—3にブロードキャス卜される。

この処理において、ブロードキャストされたパラメータは、後述するキヤッシュフィルとは別のチャネルを用いて、グローバルモジュール 12を介して各ローカルモジュール 13— 0〜13— 3に渡される。ただし、グロ一バルキャッシュの内容には影響を与えない。

各口一カルモジュール 13— 0〜 13— 3では、処理ュニット 131— 0〜1 31-3において、以下の処理が行われる。

すなわち、処理ユニット 131 (— 0〜3) においては、ブロードキャストされたパラメ一夕を受け取ると、その三角形が自分が担当する領域、たとえば 4 X 4ピクセルの矩形領域単位でィンターリーブされた領域に属しているか否かが判断される。その結果、属している場合には、各種データ（Z、テクスチャ座標、カラーなど）がラスタライズされる。

次に、 L〇D (Leve l o f D e t a i 1 ) 計算によるミツプマップ（ Mi pMap) レベルの算出や、テクスチャアクセスのための（u， v) ァドレス計算が行われる。

そして、次に、テクスチャの読み出しが行われる。

この場合、各ローカルモジュール 13— 0〜13— 3の処理ュニット 131— 0〜131_3では、テクスチャリードの際に、まず、ローカルキャッシュ 13 3— 0〜： L 33— 3のエントリーがチェックされる。

必要とするテクスチャデータが口一カルキャッシュ 133— 0〜 133— 3内に無い場合には、各処理ュニット 131— 0〜 131— 3では、グローバルィンターフェ一ス 134— 0〜134— 3を通して、グロ一バルモジュール 12に対してローカルキャッシュフィルのリクエストが送出される。

グローバルモジュール 12においては、要求されたブロックデータがグロ一バルキャッシュ 121— 0〜 121— 3のいずれかにあると各チャネルブロック C 5 1^0〜〇8 1^3の夕グ回路1204—0〜： L 204— 3のうちのいずれかで判断されると、対応するグローバルキャッシュ 121— 0〜121—3のいずれかから読み出されてチャネル 1201— 0〜 1201— 3を通してリクエストを送出したローカルモジュールに送り返される。

一方、要求されたブロックデ一夕がグロ一バルキヤッシュ 121— 0〜 121 一 3のいずれかにもないと各チャネルブロック CBLK0〜CBLK3のタグ回路 1204— 0〜 1204— 3で判断されると、所望のチャネル 1202— 0〜 1202— 3のいずれかから当該ブロックを保持するローカルモジュールに対してグローバルキャッシュフィルのリクエストが送られる。

グローバルキャッシュフィルのリクエストを受けた口一カルモジュールにおいては、メモリから該当するプロックデータが読み出され、グローバルインターフエースを通してグロ一バルモジュール 12に送出される。

その後、グロ一バルモジュール 12では、ブロックデ一夕が所望のグローノルキャッシュにフィルされるとともに、リクエストを送ってきたローカルモジュ一ルに対して所望のチャネルからデータが送出される。

グローバルモジュール 12から要求したブロックデータが送られてくると、該当するローカルモジュールでは、口一カルキャッシュが更新され、処理ユニットによりプロックデータが読み出される。

次に、口一カルモジュール 13— 0〜 13— 3では、読み出されたテクスチャデータと、（u， v) アドレスは算出時に得た小数部を使って 4近傍補間などのフィルタリング処理が行われる。

次に、フィルタリング後のテクスチャデータと、ラスタライズ後の各種データを用いて、ピクセル単位の演算が行われる。

そして、ピクセルレベルの処理における各種テストをパスしたピクセルデ一夕を、メモリモジュール 1 3 2— 0〜1 3 2— 3、たとえば内蔵 D RAMメモリ上のフレームバッファおよび Zバッファに書き込まれる。

以上説明したように、本実施形態によれば、 S D C 1 1とグロ一バルモジユール 1 2とがデータの授受を行い、一つのグローバルモジュール 1 2に対して複数個（本実施形態では 4個）のローカルモジュール 1 3— 0〜1 3— 3が並列に接続されて、複数の口一カルモジュール 1 3 _ 0〜1 3— 3で処理データを共有し並列に処理し、グロ一バルモジュール 1 2はグロ一バルキャッシュを有し、各口一カルモジュール 1 3— 0〜1 3— 3は口一カルキャッシュをそれぞれ有し、キャッシュの階層として、 4つのローカルモジュール 1 3— 0〜1 3— 3が共有するグローバルキヤッシュと、各ローカルモジュールがローカルに持つローカルキャッシュの 2階層を有すること力、ら、複数の処理装置が処理データを共有して並列処理する際に、重複アクセスを低減でき、配線本数の多いクロスバーが不要となる。その結果、設計が容易で、配線コスト、配線遅延を低減できる画像処理装置を実現できる利点がある。

また、本実施形態によれば、グロ一バルモジュール 1 2と各口一カルモジュ一ル 1 3— 0〜1 3— 3との配置関係としては、図 7に示すように、グロ一バルモジュール 1 2を中心として各ローカルモジュール 1 3— 0〜 1 3— 3をその周辺近傍に配置すること力、ら、各対応するチャネルプロックとローカルモジュールまでの距離を均一に保つことができ、配線領域を整然と並べることができ、平均配線長を短くできる。したがって、配線遅延や配線コストを低減でき、処理速度の向上を図ることができる利点がある。なお、本実施形態においては、テクスチャデータが内蔵 DRAM上にあるケースを例に述べているが、他のケースとして、内蔵 DRAMには、カラ一データおよび zデータのみが置かれ、テクスチャデータは外部メモリに置かれることも可能である。この場合には、グローバルキャッシュでミスが発生すると、外部 DR AMに対してキャッシュフィル要求が出されることになる。

また、上述の説明では、図 7の構成、すなわち、一つのグロ一バルモジュール 12に対して複数個（本実施形態では 4個）のローカルモジュール 13_0〜1 3-3が並列に接続した画像処理装置 10を例に並列処理を行う場合に特化した形態となっているが、図 7の構成を一つのクラスタ CLSTとして、たとえば図 18に示すように、 4つのクラス夕 CLST0〜CLST4をマトリクス状に配置して、各クラス夕（ 1^3丁0〜( 3丁4のグローバルモジュ一ル12_0〜 12-3間でデータの授受を行うように構成することも可能である。

図 18の例では、クラスタ CLST0のグローバルモジュール 12— 0とクラスタ CLST1のグローバルモジュール 12-1とを接続し、クラスタ CLST 1のグローバルモジュール 12— 1とクラス夕 CLST3のグローバルモジュ一ル 12— 3とを接続し、クラスタ CLST 3のグローバルモジュール 12— 3とクラスタ CLST2のグローバルモジュール 12— 2とを接続し、クラスタ CL ST2のグローバルモジュール 12-2とクラスタ C LST0のグローバルモジユール 12— 0とを接続している。

すなわち、複数のクラス夕 CLST0~CLST4のグロ一バルモジュール 1 2-0-12— 3をリング状に接続している。

なお、図 18の構成の場合には、一つの SDCからパラメ一夕が CLST0〜 CL ST 4のグロ一バルモジュール 12— 0〜12— 3にブロドキャストされるように構成することが可能である。

このような構成を採用することにより、より精度の高い画像処理を実現でき、また、各クラスタ間の配線も単純に双方向として一系統で接続するので、各クラスタ間の負荷を均一に保つことができ、配線領域を整然と並べることができ、平均配線長を短くできる。したがって、配線遅延や配線コストを低減でき、処理速度の向上を図ることが可能となる。産業上の利用可能性

以上説明したように、本発明の画像処理装置および方法は、複数の処理装置が処理データを共有して並列処理する際に、重複アクセスを低減でき、配線本数の多いクロスバーが不要となり、その結果、設計が容易で、配線コスト、配線遅延を低減できることから、たとえば、複数の演算装置が処理データを共有して並列処理を行う画像処理システム等に適用可能である。

Claims

言青求の範囲

1 . 複数のモジュールが処理データを共有して並列処理を行う画像処理装置であって、

グロ一バルモジュールと、複数のローカルモジュールとを含み、上記グローバルモジュールは、

上記複数のローカルモジュールが並列に接続され、上記口一カルモジユールで必要な処理データが記憶されるグローバルキヤッシュを有し、ローカルモジュールからローカルキヤッシュフィルリクエストを受けると、上記グローバルキャッシュにある要求に応じたデータを当該リクエストを出したローカルモジユールに出力し、

上記複数の口一カルモジュールは、

画像に関するデ一夕が記憶されるメモリモジュールと、

少なくとも上記処理データを記憶するローカルキヤッシュと、演算用パラメータおよび上記ローカルキャッシュに記憶されている処理データに基づいてあらかじめ対応するメモリインタ一リ一ブで決められた担当する処理を行う処理ユニットとを有し、

処理に必要な処理デ一夕が上記ローカルキャッシュに無い場合には、必要なデータを要求する口一カルキャッシュフィルリクエストを出力し、当該リクエス卜に応じて送られてきたデータで上記ローカルキャッシュを更新することを特徴とする画像処理装置。

2 . 上記グローバルモジュールは、口一カルモジュールからローカルキヤッシュフィルリクエストを受けると、グローバルキャッシュのエントリ一をチェックし、エントリーがあった場合には、要求されたブロックデータを読み出し、読み出したデータをリクエストを送出したローカルモジュールに送出する

ことを特徴とする請求項 1記載の画像処理装置。

3 . 上記口一カルモジュールは、グローバルキャッシュフィルリクエストを受けると、要求されたブロックデータを上記グローバルモジュールに出力し、上記グローバルモジュールは、ローカルモジュールから口一カルキャッシュフィルリクエストを受けると、グローバルキャッシュのエントリーをチェックし、エントリ一がなかった場合には、要求されたブロックデータを保持する夕一ゲットのローカルモジュールに対してグローバルキャッシュフィルリクエストを送り、その後夕ーゲットのローカルモジュールから送られてきたブロックデータでグロ一バルキャッシュを更新するとともに、当該ブロックデータを読み出し、読み出したデータを口一カルキャッシュフィルリクエストを送ってきたローカルモジュールに対して送出する

ことを特徴とする請求項 1記載の画像処理装置。

4. 上記ローカルモジュールは、グローバルキャッシュフィルリクエストを受けると、要求されたブロックデ一夕を上記グロ一バルモジュールに出力し、上記グローバルモジュールは、口一カルモジュールから口一カルキャッシュフィルリクエストを受けると、グロ一バルキャッシュのエントリ一をチェックし、エントリーがあった場合には、要求されたブロックデ一夕を読み出し、読み出したデータをリクエストを送出したローカルモジュールに送出し、エントリーがなかった場合には、要求されたブロックデータを保持するターゲットの口一力ルモジュールに対してグローバルキャッシュフィルリクエストを送り、その後夕ーゲッ卜の口一カルモジュールから送られてきたブロックデータでグロ一バルキャッシュを更新するとともに、当該ブロックデ一夕を読み出し、読み出したデー夕をローカルキャッシュフィルリクエストを送ってきたローカルモジュールに対して送出する

ことを特徴とする請求項 1記載の画像処理装置。

5 . 上記演算用パラメ一夕を生成するコントローラを有し、

上記グローバルモジュールは、上記コントローラで生成された演算用パラメータを上記複数の口一カルモジュールに供給する

ことを特徴とする請求項 1記載の画像処理装置。

6 . 上記グローバルモジュールは、各ローカルモジュール対応に設けられた複数のチャネルブロックを有し、

上記複数のチャネルプロックは、対応するローカルモジュールと口一カルキャッシュフィルリクエストおよびデー夕の授受を行う

ことを特徴とする請求項 1記載の画像処理装置。

7 . 上記複数の口一カルモジュールは、上記グロ一バルモジュールを中心として、当該グローバルモジュールの周辺近傍に配置されている

ことを特徴とする請求項 6記載の画像処理装置。

8 . 上記複数の口一カルモジュールは、上記グロ一バルモジュールを中心として、当該グローバルモジュールの周辺近傍で、かつ、対応するチャネルブロックの近傍にそれぞれ配置されている

ことを特徴とする請求項 6記載の画像処理装置。

9 . 上記グロ一バルモジュールは、各ローカルモジュール対応に設けられた複数のチャネルブロックを有し、

上記複数のチャネルブロックは、対応する口一カルモジュールとローカルキャッシュフィルリクエスト、グローバルキャッシュフィルリクエストおよびデ —夕の授受を行う

ことを特徴とする請求項 4記載の画像処理装置。

1 0 . 上記複数のローカルモジュールは、上記グロ一バルモジュールを中心として、当該グローバルモジュールの周辺近傍に配置されている

ことを特徴とする請求項 9記載の画像処理装置。

1 1 . 上記複数のローカルモジュールは、上記グロ一バルモジュールを中心として、当該グローバルモジュールの周辺近傍で、かつ、対応するチャネルブロックの近傍にそれぞれ配置されていることを特徴とする請求項 9記載の画像処理装置。

1 2 . 上記並列処理は、ピクセルレベルでの並列処理である

ことを特徴とする請求項 1記載の画像処理装置。

1 3 . 上記並列処理はテクスチャに関する処理である

ことを特徴とする請求項 1記載の画像処理装置。

1 4. 複数のモジュールが処理データを共有して並列処理を行う画像処理装置であって、

グローバルモジュールと、複数の口一カルモジュールとを含む複数のクラス夕を有し、

上記各クラスタの上記グローバルモジュールは、

上記複数の口一カルモジュールが並列に接続され、上記口一カルモジユールで必要な処理データが記憶されるグローバルキヤッシュを有し、口一カルモジュールからローカルキャッシュフィルリクエストを受けると、上記グ口一バルキャッシュにある要求に応じたデ一夕を当該リクエストを出した口一カルモジユールに出力し、

上記複数のローカルモジュールは、

画像に関するデータが記憶されるメモリモジュールと、

少なくとも上記処理データを記憶するローカルキヤッシュと、演算用パラメ一夕および上記口一カルキャッシュに記憶されている処理データに基づいてあらかじめ対応するメモリィン夕一リ一ブで決められた担当する処理を行う処理ュニットとを有し、

処理に必要な処理データが上記ローカルキャッシュに無い場合には、必要なデータを要求するローカルキャッシュフィルリクエストを出力し、当該リクェストに応じて送られてきたデータで上記ローカルキャッシュを更新し、各クラスタのグロ一バルモジュ一ルが互いにデ一夕の授受を行う

ことを特徴とする画像処理装置。

1 5 . 上記複数のクラスタは、マトリクス状に配置され、各クラスタのグロ一バルモジュールはリング状に接続されている

ことを特徴とする請求項 1 4記載の画像処理装置。

1 6 . 上記グローバレモジュールは、口一カルモジュールからローカルキヤッシュフィルリクエストを受けると、グローバルキャッシュのエントリーをチェックし、エントリ一があった場合には、要求されたブロックデータを読み出し、読み出したデータをリクエストを送出した口一カルモジュールに送出する

ことを特徴とする請求項 1 4記載の画像処理装置。

1 7 . 上記口一カルモジュールは、グローバルキャッシュフィルリクエストを受けると、要求されたプロックデ一夕を上記グローバルモジュールに出力し、上記グ口一バルモジュールは、口一力ルモジュールから口一カルキャッシュフィルリクエス卜を受けると、グローバルキャッシュのエントリ一をチェックし、エントリ一がなかった場合には、要求されたブロックデータを保持するターゲットの口一カルモジュールに対してグロ一バルキヤッシュフィルリクエストを送り、その後夕一ゲットのローカルモジュールから送られてきたブロックデータでグローバルキヤッシュを更新するとともに、当該ブロックデ一夕を読み出し、読み出したデータを口一カルキャッシュフィルリクエストを送ってきたローカルモジュールに対して送出する

ことを特徴とする請求項 1 4記載の画像処理装置。

1 8 . 上記ローカルモジュールは、グロ一バルキャッシュフィルリクエストを受けると、要求されたブロックデータを上記グローバルモジュールに出力し、上記グローバルモジュールは、ローカルモジュールからローカルキヤッシュフィルリクエストを受けると、グローバルキヤッシュのェントリ一をチェックし、エントリ一があった場合には、要求されたブロックデータを読み出し、読み出したデータをリクェストを送出した口一カルモジュールに送出し、エントリ一がなかった場合には、要求されたブロックデ一夕を保持するターゲットのロー力ルモジュールに対してグロ一バルキヤッシュフィルリクエストを送り、その後夕 —ゲッ卜の口一カルモジュールから送られてきたブロックデータでグロ一バルキャッシュを更新するとともに、当該ブロックデータを読み出し、読み出したデー夕をローカルキャッシュフィルリクエストを送ってきたローカルモジュールに対して送出する

ことを特徴とする請求項 1 4記載の画像処理装置。

1 9 . 上記演算用パラメ一夕を生成するコントローラを有し、

ことを特徴とする請求項 1記載の画像処理装置。

2 0 . 上記グローバルモジュールは、各口一カルモジュール対応に設けられた複数のチャネルプロックを有し、

上記複数のチヤネルブロックは、対応するローカルモジュールとローカルキャッシュフィルリクエストおよびデー夕の授受を行う

ことを特徴とする請求項 1 4記載の画像処理装置。

2 1 . 上記複数のローカルモジュールは、上記グロ一バルモジュールを中心として、当該グローバルモジュールの周辺近傍に配置されている

ことを特徴とする請求項 2 0記載の画像処理装置。

2 2 . 上記複数のローカルモジュールは、上記グローバルモジュールを中心として、当該グローバルモジュールの周辺近傍で、かつ、対応するチャネルブロックの近傍にそれぞれ配置されている

ことを特徴とする請求項 2 0記載の画像処理装置。

2 3. 上記グローバルモジュールは、各ローカルモジュール対応に設けられた複数のチャネルプロックを有し、

上記複数のチャネルブロックは、対応するローカルモジュールとローカルキャッシュフィルリクエスト、グロ一バルキャッシュフィルリクエストおよびデ一夕の授受を行う

ことを特徴とする請求項 1 8記載の画像処理装置。

2 4. 上記複数の口一カルモジュールは、上記グローバルモジュールを中心として、当該グローバルモジュールの周辺近傍に配置されている

ことを特徴とする請求項 2 2記載の画像処理装置。

2 5 . 上記複数の口一カルモジュールは、上記グローバルモジュールを中心として、当該グローバルモジュールの周辺近傍で、かつ、対応するチャネルブロックの近傍にそれぞれ配置されている

ことを特徴とする請求項 2 2記載の画像処理装置。

2 6 . 上記並列処理は、ピクセルレベルでの並列処理である

ことを特徴とする請求項 1 4記載の画像処理装置。

2 7 . 上記並列処理はテクスチャに関する処理である

ことを特徴とする請求項 1 4記載の画像処理装置。

2 8 . 複数のモジュールが処理データを共有して並列処理を行う画像処理方法であって、

一つのグローバルモジュールに対して複数の口一カルモジュールを並列に接続し、

キヤッシュの階層として、複数の口一カルモジュールが共有するグローバルキャッシュと、各口一カルモジュールがローカルに持つ口一カルキャッシュの 2階層とし、

グロ一バルモジュールにおいて、

グ口一バルキャッシュに口一カルモジュ一^ Iレで必要な処理デー夕を記憶して、口一カルモジュールから口一カルキヤッシュフィルリクェストを受けると、上記グロ一バルキャッシュにある要求に応じたデータを当該リクエストを出した口一カルモジュールに出力し、

上記複数のローカルモジュールにおいて、上記ローカルキャッシュに少なくとも上記処理データを記憶して、演算用パラメ一夕およびローカルキャッシュに記憶されている処理データに基づいてあらかじめ対応するメモリインターリーブで決められた担当する処理を行い、処理に必要な処理データが上記口一カルキヤッシュに無い場合には、必要なデータを要求するローカルキャッシュフィルリクエストを出力し、当該リクェストに応じて送られてきたデータで上記ローカルキャッシュを更新することを特徴とする画像処理方法。

2 9 . 上記グローバルモジュールが口一カルモジュールから口一カルキャッシュフィルリクエストを受けると、グローバルキャッシュのエントリーをチェックし、エントリ一があった場合には、要求されたブロックデ一夕を読み出し、読み出したデータをリクエス卜を送出したローカルモジュールに送出する

ことを特徴とする請求項 2 8記載の画像処理方法。

3 0 . 上記口一カルモジュールがグロ一バルキャッシュフィルリクエストを受けると、要求されたブロックデータを上記グロ一バルモジュールに出力し、

上記グロ一バルモジュールが、ローカルモジュールからローカルキヤッシュフィルリクエストを受けると、グ口一バルキャッシュのエントリ一をチェックし、エントリーがなかった場合には、要求されたブロックデータを保持する夕一ゲットの口一カルモジュールに対してグロ一ノルキャッシュフィルリクエストを送り、その後ターゲットの口一カルモジュールから送られてきたブロックデータでグローバルキヤッシュを更新するとともに、当該プロックデータを読み出し、読み出したデータを口一カルキャッシュフィルリクエストを送ってきたローカルモジュールに対して送出する

ことを特徴とする請求項 2 8記載の画像処理方法。

3 1 . 上記ローカルモジュールがグローバルキャッシュフィルリクエストを受けると、要求されたプロックデータを上記グローバルモジュールに出力し、

上記グローバルモジュールがローカルモジュールからローカルキヤッシュフィルリクエストを受けると、グローバルキャッシュのエントリーをチェックし、エントリ一があった場合には、要求されたブロックデータを読み出し、読み出したデータをリクエストを送出した口一カルモジュールに送出し、エントリ一がなかった場合には、要求されたブロックデータを保持する夕一ゲットの口一カルモジュールに対してグロ一パルキヤッシュフィルリクエストを送り、その後夕一ゲッ卜の口一カルモジュールから送られてきたブロックデータでグローバルキヤッシュを更新するとともに、当該ブロックデータを読み出し、読み出したデータをローカルキャッシュフィルリクエストを送ってきた口一カルモジュールに対して送出する

ことを特徴とする請求項² 8記載の画像処理方法。