WO2006123822A1

WO2006123822A1 - 信号処理装置

Info

Publication number: WO2006123822A1
Application number: PCT/JP2006/310174
Authority: WO
Inventors: Yuji Yamaguchi; Masatoshi Imai; Toshiharu Noda; Naosuke Asari; Tomoo Mitsunaga; Mitsuharu Ohki; Kazumasa Ito; Hidetoshi Nagano; Sumito Arakawa; Kei Ito
Original assignee: Sony Corporation
Priority date: 2005-05-20
Filing date: 2006-05-22
Publication date: 2006-11-23
Also published as: CN1993709A; JP4893621B2; EP1883045A4; US8464025B2; US20090006773A1; CN1993709B; KR101270925B1; KR20080010377A; JPWO2006123822A1; EP1883045A1

Abstract

記憶手段へのアクセスを伴う処理において処理能力を高めることができる信号処理装置を提供する。ストリーム制御ユニット（ＳＣＵ）２０３＿０～３は、ホストプロセッサからの制御によるスレッドに従って、外部メモリシステムあるいはローカルメモリ２０４＿０～３にデータのアクセスを行う。プロセッサユニット（ＰＵ）アレイ２０２＿０～２０２＿３は、ＳＣＵ２０３＿０～３のスレッドとは別のスレッドで画像処理を行う。

Description

明細書

信号処理装置

技術分野

[0001] 本発明は、信号処理装置に関する。

本発明は、特に、画像処理に好適な、信号処理装置に関する。

背景技術

[0002] たとえば、特開平 06— 4690号公報は、 CCD(Charge Coupled Device)や CMOS (C omplementary Metal Oxide Semiconductor )等の撮像素子から入力した動画あるいは静止画の撮像情報を処理し、表示あるいは記録を行うための画像処理装置を開示している。

この画像処理装置は、例えば、撮像情報を構成する画素データを並列に演算処理することで、処理時間の短縮を図っている。

また、この画像処理装置では、メモリに対する画素データの読み出しおよび書き込み処理 (メモリアクセス）と、画素データを用いた演算処理とを同じスレッドに基づいて同期して行っている。

発明の開示

発明が解決しょうとする課題

[0003] 画像処理装置の処理能力をさらに向上したヽと!、う要請がある。

同様な要請は画像処理以外の処理にぉ、てもある。

[0004] 本発明の目的は、記憶手段へのアクセスを向上させて信号処理能力を向上させる信号処理装置を提供することにある。

課題を解決するための手段

[0005] 本発明によれば、記憶部と、前記少なくとも 1つの記憶部のうちいずれか所定の 1つの記憶部へのデータの読み出し及び Zまたは書き込みを制御する入出力データ制御部（SCU)と、前記入出力データ処理部が読み出したデータに対して所定の信号処理を行う信号処理部（PUアレイ或いは PU— SIMD)と、を有する信号処理装置であって、前記入出力データ制御部と、前記信号処理部とは別のスレッドに基づいて動作する信号処理装置が提供される。

発明の効果

[0006] 本発明によれば、記憶手段へのアクセスを伴う処理において、異なるスレッドを用いることにより、画像処理能力をさらに高めることができる信号処理装置が提供できた。図面の簡単な説明

[0007] [図 1]図 1は本発明の信号処理装置の実施形態に係わる画像処理装置の全体構成図である。

[図 2]図 2は図 1に示す画像処理エンジンの構成図である。

[図 3]図 3は図 2に示すプロセッサユニット（PU)アレイの構成図である。

[図 4]図 4は図 3に示す PUの構成図である。

[図 5]図 5は PUアレイに割り当てる画像領域を説明するための図である。

[図 6]図 6は複数のプロセッサエレメント (PE)に処理を割り当てる画素データを説明するための図である。

[図 7]図 7はフィルタ処理における複数の PEの割り当てを説明するための第 1部分図である。

[図 8]図 8はフィルタ処理における複数の PEの割り当てを説明するための第 2分図である。

[図 9]図 9はフィルタ処理における複数の PEの割り当てを説明するための第 3部分図である。

[図 10]図 10はフィルタ処理における複数の PEの割り当てを説明するための第 4部分図である。

[図 11]図 11は図 4に示す PEの構成図である。

[図 12]図 12は複数の PEにおいて行うフィルタ処理を説明するための第 1部分図である。

[図 13]図 13は複数の PEにおいて行うフィルタ処理を説明するための第 2部分図である。

[図 14]図 14は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 1部分図である。 [図 15]図 15は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 2部分図である。

[図 16]図 16は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 3部分図である。

[図 17]図 17は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 4部分図である。

[図 18]図 18は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 5部分図である。

[図 19]図 19は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 6部分図である。

[図 20]図 20は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 7部分図である。

[図 21]図 21は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 8部分図である。

[図 22]図 22は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 9部分図である。

[図 23]図 23は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 10部分図である。

[図 24]図 24は図 13に示すフィルタ処理における各 PEのストリームレジスタの動作を説明するための第 11部分図である。

[図 25]図 25は PU内の共有機能ユニットを説明するための図である。

[図 26]図 26は図 3等に示すストリーム制御ユニット（SCU : Stream Control Unit)による記憶領域の管理方法を説明するための第 1部分図である。

[図 27]図 27は図 3等に示す SCUによる記憶領域の管理方法を説明するための第 2 部分図である。

[図 28]図 28は図 3等に示す SCUによる記憶領域の管理方法を説明するための第 3 部分図である。

[図 29]図 29は図 3等に示す SCUによる記憶領域の管理方法を説明するための第 4 部分図である。

[図 30]図 30は図 3等に示す SCU ：よる記憶領域の管理方法を説明するための第 5 部分図である。

[図 31]図 31は図 3等に示す SCU ：よる記憶領域の管理方法を説明するための第 6 部分図である。

[図 32]図 32は図 3等に示す SCU ：よる記憶領域の管理方法を説明するための第 7 部分図である。

[図 33]図 33は図 3等に示す SCU ：よる記憶領域の管理方法を説明するための第 8 部分図である。

[図 34]図 34は図 3等に示す SCU ：よるコマンド「set BR lof4x4 sam」の実行処理を説明するための図である。

[図 35]図 35は図 3等に示す SCU ：よるコマンド「_set— b_xy」の実行処理を説明するための図である。

[図 36]図 36は図 3等に示す SCU ：よるコマンド「set BR 8xl#to#bxy」の実仃処理を説明するための図である。

[図 37]図 37は図 3等に示す SCU ：よるコマンド r_Set BR4567#lof4x4jの実行処理を説明するための図である。

[図 38]図 38は図 3等に示す SCU ：よるコマンド「set in#buffistraight」の実行処理を説明するための図である。

[図 39]図 39は図 3等に示す SCU よるコマンド「_set— in#buffiwith#BR#2xl」の実行処理を説明するための図である。

[図 40]図 40は図 3等に示す SCU よるコマンド「_set— in#buffiwith#BR#4xl」の実行処理を説明するための図である。

[図 41]図 41は図 3等に示す SCU よるコマンド「_set— BR#16xl Iの実行処理を説明するための図である。

[図 42]図 42は図 3等に示す SCU よるコマンド「_set— BR#32xl Iの実行処理を説明するための図である。

[図 43]図 43は図 3等に示す SCU よるコマンド「_set— BR#64xl Iの実行処理を説明するための図である。

[図 44]図 44は図 3等に示す SCUによるコマンド「set— BR#64x2」の実行処理を説明するための図である。

[図 45]図 45は図 3等に示す SCUによるコマンド「set— BR#64x2x2」の実行処理を説明するための図である。

[図 46]図 46は図 3等に示す SCUによるコマンド「set— BR#64x3」の実行処理を説明するための図である。

[図 47]図 47は図 3等に示す SCUによるコマンド「set— BR#64x3x3」の実行処理を説明するための図である。

[図 48]図 48は図 3等に示す SCUによるコマンド「set— BR#64x4」の実行処理を説明するための図である。

[図 49]図 49は図 3等に示す SCUによるコマンド「set— BR#64x4x4」の実行処理を説明するための図である。

[図 50]図 50は図 3等に示す SCUによるコマンド「set— BR#64x9」の実行処理を説明するための図である。

[図 51]図 51は図 3等に示す SCUによるコマンド「set— BR#64x9x3」の実行処理を説明するための図である。

[図 52]図 52は図 3等に示す SCUによる記憶領域の管理方法を説明するための図である。

[図 53]図 53は図 3等に示す SCUによる記憶領域の管理方法を説明するための図である。

[図 54]図 54は図 3等に示す SCUによる記憶領域の管理方法を説明するための図である。

[図 55]図 55は図 3等に示す SCUによるコマンド「set#DR#mask#64xl」の実行処理を説明するための図である。

[図 56]図 56は図 3等に示す SCUによるコマンド「set#DR#packed#64xl」の実行処理を説明するための図である。

[図 57]図 57は図 3等に示す SCUによるコマンド「set#DR#64xl」の実行処理を説明するための図である。

[図 58]図 58は図 3等に示す SCUによるコマンド「set#DR#128xl」の実行処理を説明するための図である。

[図 59]図 59は図 3等に示す SCUによるコマンド「set#DR#192xl」の実行処理を説明するための図である。

[図 60]図 60は図 3等に示す SCUによるコマンド「set#DR#256xl」の実行処理を説明するための図である。

[図 61]図 61は SCUが実行するコマンド「exec」を説明するための図である。

[図 62]図 62は SCUが実行するコマンド「Branch」を説明するための図である。

[図 63]図 63は SCUが実行するコマンド「set」を説明するための図である。

[図 64]図 64は SCUが実行するコマンド「addition」を説明するための図である。

[図 65]図 65は SCUが実行する特殊コマンド、並びにパラメータを説明するための図である。

[図 66]図 66は SCUと、プロセッサユニットとの処理の関係を説明するための図である

[図 67]図 67は SCUにおけるコマンドおよびデータのキュー処理を説明するための図である。

[図 68]図 68は図 2に示す画像処理エンジンのその他の構成図である。

[図 69]図 69は、第 2実施形態の画像処理エンジン 102の全体構成図である。

[図 70]図 70は、図 69に示す PUアレイ 202— 0の構成図である。

[図 71]図 71は、第 2実施形態における PEnの構成図である。

[図 72]図 72は、 SCU # 10の構造を示すブロック図である。

[図 73]図 73は、第 2実施形態において、ストリーム制御ユニット（SCU : Stream Contr ol Unit)による記憶領域の管理方法を説明するための部分図である。

[図 74]図 74は、 SCU # 10内部に設定される多重矩形画像領域に関する処理を行う機能を説明するための図である。

[図 75]図 75は、第 2実施形態における記憶領域内の矩形画像領域 WIR内の矩形画像領域 BRの規定方法の一例を示す図である。 [図 76]図 76は、第 2実施形態における記憶領域内の矩形画像領域 WOR内の矩形画像領域 DRの規定方法を一例を示す図である。

符号の説明

[0008] 100· "画像処理装置、 101…ホストプロセッサ、 102…画像処理エンジン、 103· ·· コーデックエンジン、 104· ··メモリ I/F、 105· ··メモリシステム、 106· ··センサ IZF、 1 07· ··カメラモジュール、 108…記録媒体 IZF、 109…記録媒体、 110…内蔵表示装置 IZF、 111· ··内蔵表示装置、 112· ··ビデオ IZF、 201· ··制御プロセッサ、 202—0 〜3…プロセッサユニット（PU)アレイ、 203— 0〜3"'SCU、 204— 0〜3…ロー力ノレメモリ、 PU…プロセッサユニット、 401…入力ラインバッファ、 403· ··共有機能ユニット、 404· ··出力ラインバッファ、 PE…プロセッサエレメント、 SR0〜2…ストリームレジスタ、 ALU…演算論理ユニット

発明を実施するための最良の形態

[0009] <第 1実施形態 >

以下、本発明の信号処理装置の実施の形態について、画像データの処理を例示して述べる。

先ず、本実施形態の構成要素と、本発明の構成要素との対応関係を説明する。図 2等に示すストリーム制御ユニット（SCU: Stream Control Unit) 203— 0〜3力本発明の入出力データ制御部の一例である。

図 3等に示すプロセッサユニット PUが本発明の信号処理回路の一例である。

図 4等に示す PEが本発明の信号処理エレメントの一例である。

図 1に示すホストプロセッサ 101が本発明のホスト処理回路の一例である。図 1等に示すメモリシステム 105あるいは図 2等に示すローカルメモリ 204— 0〜3が本発明の記憶部の一例である。

本発明の記録媒体は、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスクなどの任意の記録媒体を適用することができる。

[0010] 図 1は、本発明の信号処理装置の 1実施形態に係わる画像処理装置 100の全体構成図である。

画像処理装置 100は、例えば、ホストプロセッサ（Host CPU) 101、画像処理ェンジン 102、コーデック (CODEC)エンジン 103、メモリインターフェース（iZF) 104、メモリシステム 105、センサ IZF106、カメラモジュール 107、記憶媒体 lZF108、記憶媒体 109、内蔵表示装置 IZF110、内蔵表示装置 111、並びにビデオ IZF112を有する。

[0011] 画像処理装置 100は、ホストプロセッサ 101による画像処理エンジン 102内の処理のスレッドの制御に特徴を有して、る。

[0012] [ホストプロセッサ 101]

ホストプロセッサ 101は、画像処理装置 100全体を制御するプロセッサであって、例えば、実時間オペレーティングシステム (OS)を動作させ、画像処理装置 100で実行される各種タスクのスケジューリング、記憶媒体 109を用いたファイルシステムの実現

、データ入出力制御などを行う。

[0013] [画像処理エンジン 102]

画像処理エンジン 102は、プログラマブルな画像プロセッサであって、画像処理装置 100で実行されるアプリケーションプログラムに応じてホストプロセッサ 101が指示する画像処理を実行する。

画像処理の対象となる画像データとしては、センサ IZF106を介して入力される力メラモジュール 107で撮影されたデータ、メモリ IZF104を介して入力されるメモリシステム 105に格納されたデータ、記憶媒体 IZF108を介して入力される記憶媒体 10 9に格納されたデータ、あるいはコーデックエンジン 103から与えられるデータ、コーデックエンジン 103で処理されたデータがある。

画像処理エンジン 102は、自らの処理結果を、メモリ IZF104を介してメモリシステム 105に格納し、記憶媒体 IZF108を介して記憶媒体 109に格納し、コーデックェンジン 103に出力し、内蔵表示装置 IZF110を介して内蔵表示装置 111に表示し、あるいはビデオ IZF112を介して外部の装置に出力する。

[0014] [コーデックエンジン 103]

コーデックエンジン 103は、画像および Zまたは音声の圧縮伸長を行うユニットであり、例えば MPEG(Motion Picture Experts Group)— 2, MPEG— 4, H. 264などの動画像用コーデックや、 JPEGOoint Photographic Coding Experts Group)や JPEG2 000といった主に静止画に用いられるコーデックなどを実現する。

[0015] [メモリシステム 105]

メモリシステム 105は、ホストプロセッサ 101、画像処理エンジン 102、コーデックェンジン 103で処理されるデータ、およびホストプロセッサ 101、画像処理エンジン 102 、コーデックエンジン 103で実行されるプログラム PRGを格納するメモリであり、例えば DRAMを用いる。

メモリ I/F104は、上記メモリシステム 105とシステムバス 113を結ぶインターフエ一スである。

[0016] [カメラモジュール 107]

カメラモジュール 107は、レンズ、絞り、シャッターなどの光学系装置、 CCDイメージセンサある、は CMOSイメージセンサなどの撮像素子、それらを制御するコントロールユニットを含む装置である。

カメラモジュール 107は、その撮像結果をデジタル信号に変換された後、センサ IZ F106を介して、画像処理エンジン 102、または、メモリシステム 105に出力する。ホストプロセッサ 101あるいは画像処理エンジン 102は、センサ I/F106を介して、カメラモジュール 107に対して制御信号を出力する。

[0017] [記録媒体 109]

記憶媒体 109は、例えばノヽードディスク、フラッシュメモリなどの不揮発性メモリ、 D VD(Digital Versatile Disk)などの光ディスク、あるいはテープ型の記憶媒体であって、記憶媒体 IZF108を介して読み出し書き込みが行われる。

[0018] [内蔵表示装置 111]

内蔵表示装置 111は、カメラモジュール 107で撮像された画像を画像処理ェンジン 102で処理した結果、あるいは記憶媒体 109に格納されている画像データを表示する。

内蔵表示装置 111は、内蔵表示装置 IZF 110を介して入力した画像データに応じた画像を表示する。

[0019] [ビデオインターフェース 112]

ビデオ IZF112は、外部の画像表示装置や画像記録装置に対して画像データを供給するためのインターフェースである。

[0020] [画像処理エンジン 102]

図 2は、図 1に示す画像処理エンジン 102の構成図である。

画像処理エンジン 102は、制御プロセッサ（CPU) 201、 PU (プロセッサ'ユニット）アレイ 202— 0〜202— 3、ストリーム制御ユニット（SCU : Stream Control Unit) 203

— 0〜203— 3、並びにローカルメモリ 204— 0〜204— 3を有する。

[0021] 画像処理エンジン 102では、 SCU203— 0〜3と、 PUアレイ 202— 0〜202— 3内の PEとが異なるスレッドで動作する。

[0022] 制御プロセッサ 201は、画像処理エンジン 102全体を制御するプロセッサであって

、 PUアレイ 202— 0〜202— 3および SCU203— 0〜203— 3に対する設定や起動

、および SIMD(Single Instruction Multiple Data)型プロセッサアレイである PUアレイ

202での並列化が困難な処理の実行を担う。

[0023] PUアレイ 202— 0〜202— 3は、プログラマブルな演算部であって、後述するように複数の SIMD型プロセッサアレイ力構成される。

[0024] SCU203— 0〜203— 3は、 PUアレイ 202— 0〜202— 3が必要とするデータを内部バスを介してメモリシステム 105から読み出す場合、あるいは PUアレイ 202— 0〜2

02— 3が処理した結果を内部バスを介してメモリシステム 105に書き込む場合のデータ入出力を制御する。

[0025] ローカルメモリ 204— 0〜204— 3は、画像処理エンジン 102のワーキングメモリであって、メモリシステム 105に格納された画像データの一部の保持、それぞれ PUァレィ 202— 0〜202— 3で処理された中間結果の格納、それぞれ PUアレイ 202— 0〜2 02— 3で実行されるプログラムや各種パラメータの格納などを行う。

[0026] 画像処理エンジン 102は、ホストプロセッサ 101の制御により、例えば、図 2に示す PUアレイ 202— 0〜202— 3を共通のスレッドで動作させる。

共通のスレッドとは、例えば、共通のプログラムに基づいて処理を進めることを意味する。

ホストプロセッサ 101の制御により、 SCU203— 0〜203— 3は、 PUアレイ 202— 0 〜202 3とは別のスレッドで動作させる。 [0027] [PUアレイ 202一 0〜202一 3]

PUアレイ 202— 0につ!/、て説明する。

PUアレイ 202— 1〜202— 3は、 PUアレイ 202— 0と同様の構成を有している。図 3は、図 2に示す PUアレイ 202— 0の構成図である。

PUアレイ 202— 0は、 4つの PU— SIMD(Single Instruction Multiple Data)処理回路 # 0〜# 3を有する。

PU— SIMD処理回路 # 0〜# 3は、 SCU(Stream Control Unit)203— 0に対して並列に接続されている。

PU— SIMD処理回路 # 0は、コントロールユニット 303— 0と、 4つのプロセッサュニット PU # 00〜 # 03を有する。

4つのプロセッサユニット PU # 00〜 # 03は、同一命令で動作する SIMD型プロセッサを構成する。

4つのプロセッサユニット PU # 00〜 # 03は、一次元状に横接続されて、る。

プロセッサユニット PU # 00〜 # 03間の接続を隣接するプロセッサユニット間に限定するとともに、 SCU203— 0からのデータ供給に用いる I— BUS0を 4つのプロセッサユニットで共有することで、配線を少なく出来るとともに、バス制御を簡単にできる。プロセッサュ-ット？11 # 00〜# 03は、シリアルに接続したことで、隣接画素データを頻繁に使用する画像処理にお、て、 SCU203— 0を介さずに画素データを直接的に、隣接するプロセッサユニットに出力でき、処理時間を短縮できる。

PU— SIMD処理回路 # 1〜 # 3は、 PU— SIMD処理回路 # 0と同様の構成を有している。

[0028] [プロセッサユニット PU # 00]

図 4は図 3に示すプロセッサユニット PU # 00の構成図である。

プロセッサユニット PU # 00は、例えば、入力ラインバッファ (In Line Buffer)401、複数個のプロセッサエレメント PE0〜 15、 PE間で共有する共用機能ユニット (Shared Fu notion Unit)403、出力ラインバッファ 404を有する。

[0029] 図 4に示す入力ラインバッファ 401は、図 3に示す入力データバス I— BUS0に接続されている。出力ラインバッファ 404は、 34に示す出力データバス O—BUS0に接続されて!、る

[0030] 共有機能ユニット 403および PEO〜15は、入力ラインバッファ 401と出力ラインバッファ 404との間に並列に接続されて!ヽる。

PE0〜15は、図中左右に隣接する PE間で接続を有し、隣接する PE間でデータの受け渡しを行うことができる。

図 3および図 4で示した例では、一つのプロセッサユニット PUあたり 16個のプロセッサエレメント PEを有し、一つの PU—SIMD処理回路あたり 4個のプロセッサユニット PUを有するので、合計 64個の PEで PUアレイ 202— 0〜202— 3の各々が構成されている。

[0031] 図 3に示すように、プロセッサユニット PU間は、図 4におけるプロセッサエレメント PE 間と同様の接続を有する。

すなわち、あるプロセッサユニット PUにおける右端の PE15は、その右側のプロセッシングユニットにおける左端の PE0と接続する。

具体的には、図 3に示すプロセッサユニット PU # 01の図 4に示す PE15は、図 3に示すプロセッサユニット PU # 02の図 4に示す PE0と接続されて!、る。

[0032] 図 4に示すように、プロセッサエレメント PE0〜15が、隣接する両側の PE間でのみ直接データ入出力をできるように構成したことで、配線構造を非常に簡単にできる。また、隣接する PE0〜15間で画素データを入出力して共用することで、記憶領域へのアクセス回数を低減することができる。

[0033] SCU(Stream Control Unit)203— 0から入力データバス I— BUS0を介してプロセッサユニット PU # 00に入力したデータは、 PU # 00内の入力ラインバッファ 401に書き込まれる。

プロセッサエレメント PE0〜15の各々は、入力ラインバッファ 401から読み出したデータを用いて演算を行い、その演算結果を出力ラインバッファ 404に書き込む。

SCU203_0は、出力ラインバッファ 404から演算結果を読み出す。

[0034] 図 3に示すように、 PUアレイ 202— 0は、 4つの PU— SIMD処理回路 # 0〜# 3を独立して並列に動作させることも、直列動作させることもできる。当該動作制御は、 S CU203— 0力入力データバス I— BUS0〜3および出力データバス O— BUS0〜3 を切り換えることで実現される。

[0035] 図 3に示すコントロールユニット 303— 0は、図示されない命令格納用メモリを有し、当該命令格納用メモリから読み出した命令をデコードして得た制御信号を、 PU— SI MD # 0内の全ての PEに出力する。

コントロールユニット 303— 0内には、ここには図示されないプログラムフロー制御用ノレープレジスタや、後述する PE内のストリームレジスタにアクセスするためのポインタレジスタが含まれる。

ループレジスタは、プログラム中のループ回数を制御するレジスタであり、制御プロセッサ 201が設定する力、あるいはプログラム実行時に命令により設定することができる。

命令によりループレジスタを設定する場合に、 PE内のレジスタ値をソースオペランドとして指定することができる。その際には複数の PEのうち、予め決められた PE、例えば図中左端の PE、例えば、プロセッサユニット PU # 00の PE0、のレジスタ値を使用する。

ポインタレジスタについても、 PE内のレジスタ値をソースオペランドとして指定することができる力ループレジスタの場合と同様特定の PEのレジスタ値を使用する。コントロールユニット 303— 1から 303— 3についても同様である。

[0036] カメラモジュール 107を用いて撮像された静止画像を記録する場合を例に取り上げ

、画像処理装置 100における処理手順ならびに処理分配を説明する。

[0037] カメラモジュール 107内の撮像素子で撮影されたデータは、水平スキャンラインごとにセンサ I/F106を介して読み出され、画像処理エンジン 102に出力されると共に、メモリシステム 105に格納される。この際、画像処理エンジン 102では、検波処理の一部が実行される。

メモリシステム 105に 1フレーム分の画像データが格納されると、画像処理エンジン 102は、内部の PU—SIMD処理回路を効率よく並列動作させるため、 1フレーム分の画像データのうち、必要な矩形画像領域を読み出しながら検波処理の残りや各種カメラ信号処理、ならびに各種画像処理を実行する。画像処理エンジン 102の処理結果は、メモリシステム 105に格納される。

画像処理エンジン 102は、解像度変換も行う。解像度変換された画像データは、内蔵表示装置 IZF110を介して内蔵表示装置 111に表示される。

コーデックエンジン 103は、メモリシステム 105に格納されている画像処理エンジン 102により処理された複数フレームの画像データを用いて画像圧縮を行う。圧縮された画像データは、記憶媒体 IZF108を介して記憶媒体 109に記録される。

[0038] 画像処理エンジン 102は、複数個の PUアレイ 202— 0〜202— 3で構成されるが、ぞれぞれの PUアレイ 202— 0〜202— 3は、フレーム内の異なる領域を処理する。本実施形態のように 4つの PUアレイ 202— 0〜202— 3で構成する場合、例えば図 5に示すように各 PUアレイ 202— 0〜202— 3に領域を割り当てることができる。

PUアレイ 202— 0〜202— 3の各々は、前述したように 64個の PEから成る PU SI MD処理回路を複数個有し、例えば図 6に示すように、各 PUアレイ 202— 0〜202 —3に割り当てた領域を、さらに横 64ピクセル幅の矩形画像領域に分割し、各ピクセルを 1つの PEに割り当てることができる。

この時、各 PEは、図 7に示すように、自らの割り当てられた縦方向のピクセル列を順に処理する。

[0039] 例えば、 PUアレイ 202— 0が図 8に示すように、 5 X 5画素のフィルタ処理を行う場合を考える。

この時、 PUアレイ 202— 0内の各 PEは、図 8に示すように、処理対象の画素位置 P ixelの画素データのフィルタ処理を行うために、画素位置 Pixelを中心とした 5 X 5の画素位置の画素データを用いる。

PUアレイ 202— 0内の各 PEは、図 8に示す矢印（図中下向き）に順に処理対象の画素位置を移動させる。

PUアレイ 202— 0内の各 PEが画素位置 Pixelの上記 5 X 5画素のフィルタ処理を終了すると、 SCU203— 0は、図 9に示すように、次の 1ライン分の画素位置の画素データをローカルメモリ 204— 0あるいはメモリシステム 105から読み出して図 4に示す PUアレイ 202 0内のプロセッサユニット PUの入力ラインバッファ 401に書き込むそして、 PUアレイ 202— 0内の各 PEは、図 10に示すように、次の画素位置 Pixel— nextの画素データの 5 X 5画素のフィルタ処理を行う。

[0040] 図 3に示す PU— SIMD # 0を中心に説明したが、 PU— SIMD # 1〜# 3は PU— SIMD # 0と同様である。

PUアレイ 202— 1〜202— 3は、 PUアレイ 202— 0と同様である。

[0041] [プロセッサエレメント PE]

図 4に示す PEn (n = 1〜14)を説明する。

なお、 PEOは PE間では PE1との間でのみデータ入出力を行い、 PE15は PE14との間でのみデータ入出力を行う点を除いて PEnと同一である。

図 11は、図 4に示す PEnの構成図である。

PEnは、マルチプレクサ MUX1000〜： L005、ストリームレジスタ SRO, SRI, SR2 、レジスタ inO, inlなどの各種レジスタ、演算論理ユニット ALUを有する。

[0042] PEnは、入力ラインバッファ 401からストリームレジスタ SRO, SRI, SR2にデータ、または、制御フラグが転送され、ストリームレジスタ SRO, SRI, SR2から演算論理ュニット用レジスタ群の一部にデータ、または、制御フラグが取り込まれる。

演算論理ユニット ALUでは、演算論理ユニット用レジスタ群を一時格納先として用いながら演算が行なわれ、演算結果は出力ラインバッファ 404に書き込まれる。これらの一連の動作は、内容が個別に定められた命令の同時、あるいは、順次実行により行われる。

[0043] 入力ラインバッファ 401には、データ用と制御フラグ用があり、それぞれ 1つの PEあたり 16ビットと 4ビットである。

出力ラインバッファ 404にも、入力ラインバッファ 401と同じぐデータ用と制御フラグ用があり、それぞれ 1つの PEあたり 16ビットと 4ビットである。

[0044] ストリームレジスタ SRO, SRI, SR2のエントリ数は、それぞれ 16である。

ストリームレジスタ SRO, SR1のデータ長は 16ビットであり、ストリームレジスタ SR2 のデータ長は 4ビットである。

ここで、ストリームレジスタ SR2力ビットであるのは、ストリームレジスタ SR2が主に制御フラグの格納に用いられるためであり、演算論理ユニット用レジスタ群の condレジスタのデータ長と同じである。

ストリームレジスタ SRO, SRI, SR2は、主に SCU203— 0から入力ラインバッファ 4 01を通して供給される演算に必要なデータの格納や、演算結果の一時待避を行う際に使用され、直接参照の他にポインタによる参照が可能である。

なお、各ストリームレジスタ SRO, SRI, SR2毎に最大 4つのポインタを定義可能であり、各ポインタは、ポインタ定義領域の始点を示す Start値、ポインタ定義領域の終点を示す End値、現在のポインタ位置を示す Current値の 3つの値を有する。

[0045] ポインタの操作については、下記（1)〜（5)に示すようなポインタ操作を実現する命令がある。

(1)前述の 4つのポインタ中力選択した 1つのポインタが持つ 3つの値力選択した 1つの値を即値で書き換える命令。

(2)前述の 4つのポインタ中力も選択した 1つのポインタが持つ 3つの値力も選択した 1つの値を PEO内の一時退避用レジスタ tempO〜3、 tempsの任意の 1つの値で書き換える命令。ただし、指定した値が反映されるには所定のレイテンシが力かる。

(3)前述の 4つのポインタ中力選択した 1つのポインタが持つ Current値に正負の即値を加算して書き換える命令。

(4)前述の 4つのポインタ中力も選択した 1つのポインタが持つ Current値を同じポィンタの Start値に書き換える命令。

(5)前述の 4つのポインタ中力も選択した 1つのポインタが持つ 3つの値から選択した 1つの値を読み出し、その値で PU— SIMD内の全 PEにおいて一時退避用レジスタ t emp0〜3、 tempsの任意の 1つを書き換える命令。

[0046] 以上のような構成によるストリームレジスタ SRO, SRI, SR2は、例えば、 2種類のポインタを用い、第 1のポインタをライト（WRite)ポインタ、第 2のポインタをリード (read)ポインタとし、データの書き込みとライトポインタのインクリメントを繰り返し、書き込みが済んだエントリのデータの読み出しとリードポインタのインクリメントを繰り返すことにより、ストリームレジスタを FIFO(First- In First- Out)として使用可能である。

ストリームレジスタ SRO, SRI, SR2のエントリ数は 16である力 3本あるストリームレジスタのうち、ストリームレジスタ SR0と SR1とを連結し、 32エントリのストリームレジスタとして使用することもできる力連結モード時には、 32エントリのストリームレジスタ S ROとして動作するため、ストリームレジスタ SROのポインタのみ使用可能で、ストリームレジスタ SR1は参照できな!/、。

通常モードと連結モードは、すべての命令の実行前に所定の方法により設定し、命令の順次実行中には変更できな、。

[0047] ストリームレジスタ SRO, SRI, SR2の参照やポインタ操作を行った際に、 [Start, En d]で定義される領域、または、 [0, EN—1]の領域を超えることがある。ここで、 ENは、ストリームレジスタ SRO, SRI, SR2のエントリ数 (通常モード時 16、連結モード時 32)とする。この場合には、ポインタの値が存在するエントリになるように以下のような回り込み処理が行われる。

ストリームレジスタ SRO, SRI, SR2のエントリへの回り込み処理前と後の indexをそれぞれ idx、 idxwとする。なお、 2種類の回り込み処理の方式は、ストリームレジスタ参照命令に付加して指定する。

[0048] [Start, End]で定義される領域で回り込み処理する場合

iKidx > End) idxw = Start + (idx— End— 1) % (End - Start + 1);

else if (idxく Start) idxw =End― (Start— idx— 1) % (End— Start + 1);

else idxw = idx;

[0049] [0, EN— 1]の領域で回り込み処理する場合

iKidx≥ EN) idxw = idx % EN;

else if (idx≤ 0) idxw = (EN X (l -idx/EN) + idx) % EN;

else idxw = idx;

[0050] 演算論理ユニット用レジスタ群に属するレジスタは、 PEOにおいて行われる演算のソースオペランド、あるいは、デスティネーションオペランドに指定可能なレジスタである。 |¾ 1 1のレンスタ》10、 inl、 tempO〜d、 temps ^ acc.H/L、 cond、 penum、 const )^s それにあたる。

レジスタ inOおよび inl、はデータ長が 16ビットの入力レジスタであり、ストリームレジスタカ読み出した内容を格納する。算術論理演算命令のソースオペランドとして指定できるが、デスティネーションオペランドには指定できな!/、。レジスタ temp0〜3ならびに tempsはデータ長が 16ビットの一時退避用レジスタである。

このうち、レジスタ tempsは、後述する共有機能ユニット 403を利用する際に用いられるレジスタであり、共有機能ユニット 403へのアクセス以外の場合では、レジスタ te mp0〜3と全く同様にワーキングレジスタとして使用できる。これらのレジスタは、算術論理演算命令のソースオペランドとデスティネーションオペランドの両方に指定できるレジスタ acc.HZUま主に累積加算命令で用いられ、データ長が合わせて 32ビットの累積加算用レジスタであり、算術論理演算命令のソースオペランドとデスティネーシヨンオペランドの両方に指定できる。 32ビットのうち、上位 16ビットをレジスタ acc.H とし、下位 16ビットをレジスタ ac 丄とし、ソースオペランドとして用いる際に上位か下位かの指定を行う。

[0051] レジスタ condは、主に条件実行を行う際に用いられるデータ長が 4ビットのコンディシヨンレジスタである。算術論理演算のデスティネーションオペランドとして指定可能で、その際には、演算結果のうちの任意の 1ビット、演算論理ユニット ALUにおける演算の結果、キャリーが立った事を示すキャリーフラグ、あるいは演算結果力^であることを示すゼロフラグのどれかの選択とコンディションレジスタのどのビットに反映させるかを指定する。

レジスタ penumは、自身のプロセッシングエレメント番号 (0〜63)が格納されて!、るデータ長が 6ビットのプロセッサ番号レジスタであり、読み出し専用である。

レジスタ constは、定数値を格納するデータ長が 16ビットの定数レジスタであり、ェントリ数は 64である。定数レジスタは、各プロセッシングエレメント毎に持つわけではなく、共有機能ユニット 403内に持つ。

[0052] PU— SIMD処理回路内の全 PE共通で 1つのエントリを指定して使用する力算術論理演算のソースオペランドとして直接指定可能なので、演算論理ユニット用レジスタ群に含めている。

演算論理ユニット用レジスタ群の中には、隣接 PEから参照可能なレジスタも用意されて、る。 PU SIMD処理回路内の n番目の PE # nに注目する。この場合、当該 PE # nは、演算を行う際、当該 PE # n内のレジスタだけでなぐ隣接 PE # n—l, # n+ lのレジスタ in0、 inl、 ac H、 ac 丄を参照可能である。

PE # nのレジスタ cond、 acc.H、 acc丄、並びに隣接 PE # n—l, # n+ lのレジスタ i n0、 inl、 ac H、 ac 丄については、その値を PE # nのストリームレジスタ SRO, SRI, SR2に書き戻すことができる。

[0053] PE # nにお、ては、演算論理ユニット ALUにおける演算効率を高めるために、演算論理ユニット ALUにおける演算処理と複数のレジスタへのロード、または、ストアが同時に実行可能となっている。

同時実行可能なオペレーションは下記の A〜Jである。なお、 A〜Iについては、命令の条件実行が可能である。命令の条件実行とは、主に制御フラグが格納されているレジスタ condの任意のビットを指定し、その値が 1の時に命令を実行し、 0の時に命令を実行しな、と、う動作である。

[0054] A:ストリームレジスタ SR0への書き込み

B:ストリームレジスタ SR1への書き込み

C:ストリームレジスタ SR2への書き込み

D:レジスタ inOの書き込み

E:レジスタ in 1への書き込み

F:ストリームレジスタ SR2からレジスタ condへの書き込み

G:共有機能ユニット 403へのファンクション呼び出し

H:出力ラインバッファ 404への書き込み

I：算術論理演算

J:フロー制御命令

[0055] PE # n内の演算論理ユニット ALUで実行可能な算術論理演算を下記表 1に示す。逆数は後述の共有機能ユニット 403のルックアップテーブル機能を用いて実現する表 1中、ビット番号命令とは、ソースの 16ビットの最上位ビットから数えて最初に 1が現れたビット番号を返す命令である。

[0056] [表 1] 于ス亍ィ不一シヨンソース

命令の種類

オペランドオペランド

16ビット加減算命令 16b 16bit

32ビット加減算命令 32b o bit

¾r A

荣■#。卩 "Π 16または 32bit 16bit

累積加算命令 16または 32bit 16bit

絶対値命令 16bit 16bit

1または 16または

クリア命令

32bit

最大最小値命令 16bit 16bit

二 ¾/與昇 El卩 3 16bit 16bit

コピー命令 16bit 16bit

論理演算命令 16bit 16b

16ビットシフト命令 16bit 16bit

32ビットシフト命令 t 2bit 32b it

比較演算命令 16bit 16bit

ヒット番号命令 16bit 16bit

[0057] 以下、 5x3画素データのフィルタ処理を例に、プロセッサユニット PUおよび PEの動作例を、図 11に示すストリームレジスタ SRO, SR1に着目して説明する。

図 12に示すように、各 PEは縦の画素データ列を担当し、近傍の画素データに対して重み付け加算を行った結果をローカルメモリ 204あるいはメモリシステム 105に書き戻す。

例えば 5x3のフィルタ処理を行う場合、図 13に示すように、 801の領域にある画素データ 00 01 02 10 11 12 20 21 22 30 31 32 40 41 42の 15個の画素データに対して重み付け加算を行、、 802の位置の画素データを算出する。

[0058] 以下、隣接する PE間でどのようにデータの受け渡しが行われるか図を用いて説明する。以下で用いる図は、データの受け渡しに注目するため模式的に示している。図 13に示す 802の位置の画素データを含む縦の画素データ列を担当する PEが P E#nだとすると、図 14に示すように、画素データ 20 21 22の縦 3画素データが PE #nのストリームレジスタ SRO保持され、画素データ 10 11 12は隣接するプロセッサエレメント PE #(n-l)、画素データ 00、 01、 02はさらにその隣のプロセッサエレメント PE #(n- 2)のストリームレジスタ SR0に保持されて!、る。

同様に、画素データ 30、 31、 32は PE #(n+l)、画素データ 40、 41、 42は PE #(n+2 )のストリームレジスタ SR0保持されて!、る。

[0059] 本実施形態では、ストリームレジスタごとに最大 4つのポインタを定義可能である。ただし、 PU— SIMD処理回路 # 0〜# 3内の全 PEに共通であり、コントロールユニット 303— 0内〖こ含まれる。以下の例では、ストリームレジスタ SR0、 SRIそれぞれ一つのポインタをリードポインタ、一つのポインタをライトポインタとして定義し、ストリームレジスタを FIFOとして利用している。図では、リードポインタの位置が最下段になるように模式的に示している。

本実施例では、レジスタ inOにはストリームレジスタ SRO, SR1の両方からデータのロードが可能である。同様にレジスタ inlにもストリームレジスタ SR0、 SRIの両方からデータのロードが可能である。一方、ストリームレジスタ SRO, SRI, SR2には、隣接する PEのレジスタ inO, inl, acc.HZLからのデータを書き込むことができる力レジスタ inOはストリームレジスタ SR0、レジスタ inlはストリームレジスタ SRIにのみ書き込むことができる。しかし、回路規模は増えるが両方から書き込み可能としてもよい。

[0060] 第 1のサイクルでは、図 15に示すように、ストリームレジスタ SR0におけるリードポィンタの Current値にある画素データがレジスタ inlに書き込まれる。すなわち、 PE #nの場合には、画素データ 20がレジスタ inl書き込まれる。演算論理ユニット ALUでは、レジスタ inlに書き込まれた画素データ値をソースオペランドとして読み出し、係数を乗算する。演算に必要な係数は、定数レジスタであるレジスタ constに格納されている

[0061] ストリームレジスタ SRO, SRI, SR2にアクセスする場合、ポインタレジスタの Curren t値の位置だけでなく Current置からのオフセットを指定してアクセスすることができる。第 2のサイクルでは、図 16に示すように、ストリームレジスタ SR0におけるリードポインタの Current値にオフセット 1を加えた位置にある画素データがレジスタ inlに書き込まれる。すなわち、 PE #nの場合には、画素データ 21がレジスタ inlに書き込まれる。演算論理ユニット ALUでは、 inl(l 102)に書き込まれた画素データ値をソースオペランドとして読み出し、係数を乗算する。また、前サイクルでレジスタ inlに格納された画素データは、右隣りの PEのストリームレジスタ SR1に書き込まれる。

[0062] 以後同様の動作を続けることにより、図 17に示す状態となる。この時点で、自身のストリームレジスタ SROに格納している縦 3画素データ分の処理が完了する。

さらに次サイクル以降は、図 18に示すように、ストリームレジスタ SR1に格納された画素データを順次処理していく。この際、ストリームレジスタ SR1からの読み出し時に、リードポインタをインクリメントする。

以降同様の動作を続けることにより、図 19に示す状態となる。この時点で、もともと左隣のプロセッサエレメント (PE) 402が持つストリームレジスタ SROに格納されて!ヽた縦 3画素データ分の処理が完了する。

[0063] 次サイクル以降も同様の動作を繰り返す力先に述べたように、ストリームレジスタ S R1には、レジスタ inOから書き込むことができない。従って、ストリームレジスタ SR1に格納された画素データの処理を行いながら、ストリームレジスタ SROに格納された自身の画素データを左隣の PEが持つストリームレジスタ SR1に渡していくため、図 20 に示すように、ストリームレジスタ SROの画素データをレジスタ inlに、ストリームレジスタ SR1の画素データをレジスタ inOに書き込む。この際、ストリームレジスタ SROと SR 1の両方のリードポインタをインクリメントする。演算論理ユニット ALUでは、レジスタ in 0に書き込まれた画素データ値をソースオペランドとして読み出し、係数を乗算する。

[0064] 以降同様の動作を続けることにより、図 21に示す状態となる。この時点で、二つ左隣縦 3画素データ分の処理が完了する。また、ストリームレジスタ SR1には、右隣の P Eが持つストリームレジスタ SROに格納されて!、た画素データが格納されて!、る。以降は、図 22〖こ示すよう〖こ、再びストリームレジスタ SR1からレジスタ inlへの書き込み、レジスタ inlに書き込まれた画素データ値と係数の乗算、レジスタ inlから左隣の PEが持つストリームレジスタ SR1への書き込みを並行して行っていく。

以降同様の動作を続けることにより、図 23に示す状態となる。この時点で、図 13の 801で示した 5x3の領域に含まれる画素データのフィルタ処理が完了する。また、この時点までに、入力ラインバッファ 401には、 SCU203— 0から次のラインの画素データデータが書き込まれて、る。 [0065] 最後に、入力ラインバッファ 401からストリームレジスタ SROに次ラインの画素データをロードするとともに、フィルタ処理の結果を出力ラインバッファ 404に書き込む。 SC U203— 0は、出力ラインバッファ 404に書き込まれた演算結果を読み出し、ローカルメモリ 204あるいはメモリシステム 105に書き戻す。

以上のように、本実施形態によれば、演算論理ユニット ALUの演算処理と並行して、ストリームレジスタ SRO, SR1を用いた隣接 PE間のデータの受け渡しを効率よく行うことができ、演算論理ユニット ALUに対して間断なくデータを供給することが可能であり、かつ隣接 PE間でデータを共用することにより、ローカルメモリ 204— 0からの読み出し頻度を低減している。

[0066] [共有機能ユニット 403]

図 4を参照して説明したように、プロセッサユニット PU # 00は、共有機能ユニット 40 3を有する。

共有機能ユニット 403は、図 4に示す PE # 0〜15の図 11に示す演算論理ユニット ALUで実行可能な演算命令以外の演算のために用いられる。

プロセッサエレメント PE # 0〜15は、共有機能ユニット 403を利用するために、ファンクシヨン呼び出し命令を使用する。その際、 PE # 0〜15は、後述の利用可能な機能との対応を予め定めた機能識別番号を命令に付加して指定した要求を共有機能ユニット 403に出力する。

PE # 0〜15は、ソースオペランドに指定するレジスタに必要なデータをセットしてフアンクシヨン呼び出し命令を実行すると、所定のレイテンシ後に結果がレジスタ temps に返される。なお、ソースオペランドに指定したレジスタは、参照結果が書き戻されるまで書き換え不可である。

[0067] 共有機能ユニット 403が利用可能な機能を以下に示す。

共有機能ユニット 403は、例えば、図 25に示すように、ルックアップテーブル 1202 、加算演算器 1203、最大最小値演算器 1204およびべクタ演算ユニット 1205などの機能を有する。

ルックアップテーブル 1202は、複数のプロセッサエレメント（PE)間で共用し、ェントリ数に依存してレイテンシが可変な機能である。加算演算器 1203は、複数の PE力ものデータを入力とし、データ数に依存してレイテンシが可変な機能である。

最大最小値演算器 1204は、複数の PE力のデータを入力とし、データ数に依存してレイテンシが可変な機能である。

ベクタ演算ユニット 1205は、次元に依存してレイテンシが可変な機能である。

[0068] 共有機能ユニット 403のルックアップテーブル 1202としての機能を説明する。

ルックアップテーブル 1202は 1024エントリの単一テーブルとしての利用だけでなく、 512エントリや 256エントリなど、エントリ数を変えて使用することができる。

また、ルックアップテーブル 1202は、 1種類だけではなぐ複数の種類のテーブルを保持することもできる。例えば、ルックアップテーブル 1202は、逆数テーブルと対数テーブルを 1024エントリ中の異なる領域に格納することができる。

ルックアップテーブル 1202は、 16個の PEで共有しているので、 1024エントリを単一テーブルとして使用した場合には、参照に要するサイクル数は 16となる。

これに 1サイクルのアクセス遅延を加えた 17が 1024エントリのルックアップテーブル 1202のレイテンシである。

エントリ数を少なくし、同一種類のテーブルを複数個格納した場合には、 1個のテーブルを共有する PEの数が減る為、参照に要するサイクル数も減少する。例えば、 25 6エントリのテーブルとした場合には、 4個ずつの PEで共有することになる為、参照に要するサイクル数は 4、レイテンシは 5となる。なお、ルックアップテーブル 1202の構成は、共有機能ユニット 403がプログラム実行前に設定する。

[0069] 共有機能ユニット 403の加算演算器 1203としての機能について説明する。

加算演算器 1203は、複数個の PEからデータを入力すると、そのデータの合計値を所定のレイテンシ後にデータを出力した PEに出力する。

共有機能ユニット 403に 1つの加算演算器 1203があり、これを 16個の PEで共有する場合は、演算に要するサイクル数は 16となる。これに 1サイクルのアクセス遅延をカロえた 17が加算演算器 1203のレイテンシである。

共有機能ユニット 403に 2つの加算演算器 1203があり、それぞれを 8個の PEで共有する場合は、演算に要するサイクル数は 8である。これに 1サイクルのアクセス遅延をカロえた 9が加算演算器 1203のレイテンシである。なお、複数の加算演算器 1203 の構成は、共有機能ユニット 403がプログラム実行前に設定する。

[0070] 共有機能ユニット 403の最大最小値演算器 1204としての機能について説明する。

最大最小値演算器 1204は、複数個の PEからデータを入力すると、それらのデータの最大値、最小値が所定のレイテンシ後に、データを出力した PEに出力される。共有機能ユニット 403に 1つの最大最小値演算器 1204があり、これを 16個の PEで共有する場合は、演算に要するサイクル数は 16となる。これに 1サイクルのアクセス遅延をカ卩えた 17が最大最小値演算器 1204のレイテンシである。

共有機能ユニット 403に 2つの最大最小値演算器 1204があり、それぞれを 8個の P Eで共有する場合は、演算に要するサイクル数は 8となる。これに 1サイクルのァクセス遅延をカ卩えた 9が最大最小値演算器 1204のレイテンシである。なお、複数の最大最小値演算器 1204の構成は、共有機能ユニット 403がプログラム実行前に設定する。

[0071] 共有機能ユニット 403のべクタ演算ユニット 1205の機能について説明する。

ベクタ演算ユニット 1205は、複数個の PE力入力したデータ数を次元とするベクタ演算を行い、結果が所定のレイテンシ後に、データを出力した PEに出力する。

以下の式（1)は 2個の PEによる 2次元のベクタ演算であるから演算に要するサイクル数は 3である。これに 1サイクルのアクセス遅延をカ卩えた 3がべクタ演算ユニット 120 5のレイテンシである。

[0072] [数 1]

[0073] 同様に以下の式（2)の 4個の PEによる 4次元のベクタ演算であるから演算に要するサイクル数は 4である。これに 1サイクルのアクセス遅延をカ卩えた 5がべクタ演算ュ-ット 1205のレイテンシである。

[0074] [数 2]

[0075] どちらの場合も係数となる行列の各要素の値は、あら力じめ保持しておく。

[0076] [SCU(Stream Control Unit)203一 0〜203一 3]

以下、 SCU203— 0について説明する。

SCU203— 1〜203— 3は、 SCU203— 0と同じである。

[0077] SCU203— 0は、図 3等に示すように、複数の PU—SIMD (Single Instruction Mult iple Data)処理回路 # 0〜 # 3に対して、それを構成する個々のプロセッサエレメント PEの処理に必要なデータを効率よくデータを入出力するための制御を行う。

SCU203—0は、処理に必要なデータを半導体メモリなどに代表される記憶装置に収納する。

PU— SIMD処理回路 # 0〜# 3は、 SIMD型プロセッサであるため、すべての PE に対する入出力は時間的に同時に行われる。従って、 SCU203— 0による PU— SI MD # 0〜 # 3に対する入出力は、 PEの個数分の入出力データを同時に入出力することになる。以下同時に入出力されるデータを、ストリームデータと呼ぶことにする。

[0078] 一方、 PU— SIMD処理回路 # 0〜 # 3は画像情報の処理を主に行うが、処理対象である画像情報は、メモリなどの記憶装置において、物理的な 1次元のアドレスで管理された記憶領域内に、論理的な 2次元記憶領域を確保して記憶されている。その画像データの基本単位は画素データと呼ばれる。

SCU203— 0は、 PU— SIMD処理回路 # 0〜# 3と、メモリシステム 105および口一カルメモリ 204— 0との間に位置し、複数の画素データをストリームデータに変換して入出力を行う機能を持っている。

[0079] SCU203— 0の機能を具体的に示す。

(D SCU203 0は、ローカルメモリ 204 0またはメモリシステム 105 (以下、記憶領域とも記す)からデータ群を読み出し、そのデータを PU— SIMD # 0〜# 3で必要とされるストリームデータに変換し、 PU— SIMD # 0〜 # 3に出力する。

(2) SCU203— 0は、 PU— SIMD # 0〜 # 3が出力する出力ストリームデータを、記憶領域内部で必要とされるデータ形式に変換し、記憶領域へ書き込み転送する。

(3) SCU203— 0の記憶領域は、作業領域として使用する半導体メモリであり、記憶領域は SCU203— 0と共に SOC(System On Chip)に含まれる場合や、 SOCの外部に含まれる場合などのノリエーシヨンが想定できる。

(4) SCU203— 0が上記記憶領域をアクセスする場合は、 SCU203— 0からは 1次元の物理アドレスとしてアクセスできる。

(5) SCU203— 0内部において、記憶領域上のデータは、 PU— SIMD処理回路 # 0〜 # 3でのプログラム開発の容易さと画像情報の取り扱いの容易さのため、論理的な 2次元座標で配列された画素データを単位として扱うことが可能である。

(6)記憶領域上では、複数の画素データ力も構成された 1ワードデータが、 1次元物理アドレスによるアクセス単位となる。

(7) 1ワードデータ内の画素データ個数及び 2次元座標で見た場合の画素データ配列は、使用するメモリ種類に応じて可変であり、 SCU203— 0は複数の画素データ配列に対処可能である。

(8) SCU203— 0の記憶領域は、 SCU203— 0に接続される PU— SIMD処理回路 # 0〜 # 3単位に、記憶領域への readアクセスとデータ変換を行うための設定を必要とし、その設定を SCU203—0内部のレジスタにホストプロセッサ 101から書き込むことで可能となる。

(9) SCU203— 0は、記憶領域への readアクセスを行うために以下の事項を設定する。

a.記憶領域に含まれる複数の矩形画像領域を指定する第 1の開始アドレス。 b.第 1の開始アドレス力始まる記憶領域中に含まれ、 2次元論理座標で指定される、第 2の複数の矩形画像領域の幅高さ。

c第 2の矩形画像領域中に、階層的に含まれる 2次元論理座標で指定される第 3の矩形画像領域の幅高さ。 d.第 3の矩形画像領域内部のデータに対して、選択的にデータを読み出し、並ベ替えや演算などの処理を施し、 PU— SIMD処理回路 # 0〜 # 3が必要とするストリームデータへ変換する方式の指定。

(10) SCU203— 0は、記憶領域への WRiteアクセスを行うために以下の実行を設定する。

e.記憶領域に含まれると複数の矩形画像領域を指定する第 4の開始アドレス。 f.第 4の開始アドレス力始まる記憶領域中に含まれ、 2次元論理座標で指定される、第 5の複数の矩形画像領域の幅高さ。

g.第 5の矩形画像領域中に、階層的に含まれる 2次元論理座標で指定される第 6の矩形画像領域の幅高さ。

h.第 6の矩形画像領域内部のデータに対して、 PU— SIMD処理回路 # 0〜# 3 が出力するストリームデータ力択的にデータを読み出し、並べ替えや演算などの処理を施し、第 6の矩形画像領域内部のデータ形に書き込む方式の指定。

i. SCU203— 0は複数の記憶領域間のデータ転送を実現する。

j. SCU203—0を制御可能するコントローラであるホストプロセッサ 101との間で、通信を行うためのインターフェースを介して接続する。

[0080] PU— SIMD処理回路 # 0〜 # 3が、ストリームデータを処理する場合、記憶領域上に矩形画像領域を多重 (階層）指定し、それぞれの矩形画像領域を移動させながら、データの Read/WRite処理を行うことで効率よく処理を行う。

そのため、 SCU203— 0内部に多重構造の矩形画像領域を定義する。図 26は、記憶領域上の多重矩形画像領域から、 PU— SIMD処理回路 # 0〜# 3 ヘストリームデータを WRiteする場合及び、 PU— SIMD処理回路 # 0〜 # 3から記憶領域上の多重矩形画像領域へ、ストリームデータを WRiteする場合の動作を示している。

[0081] SCU203— 0が扱う記憶領域内の矩形画像領域の階層構成を、図 26を参照して説明する。

SCU203— 0は、記憶領域中に、作業領域として矩形画像領域 WRを指定する。また、 SCU203 0は、矩形画像領域 WRを、 PU SIMD処理回路 # 0〜 # 3毎に指定する。

SCU203— 0は、矩形画像領域 WR内に、画素データの読み出し元である矩形画像領域 ARを指定する。

SCU203— 0は、矩形画像領域 AR内に、矩形画像領域 BRを指定する。

SCU203— 0は、ホストプロセッサ 101から入力したプログラムに基づいて、矩形画像領域 BRから読み出した画素データを、 PU— SIMD処理回路 # 0〜 # 3が必要とするストリームデータに変換するデータ変換コマンド WI#data#opを実行 (指定)する。

SCU203— 0は、後述するように矩形画像領域 AR, BR, WI— data— op指定の一連の繰り返し処理をプログラム可能である。

[0082] SCU203— 0は、矩形画像領域 WR内に、画素データの書き込み先である矩形画像領域 CRを指定する。

SCU203— 0は、矩形画像領域 CR内に、矩形画像領域 DRを指定する。

SCU203— 0は、 PU— SIMD # 0〜# 3の出力ストリームデータから、矩形画像領域 DRへのデータ変換コマンド WO#data#opを実行する。

SCU203— 0は、後述するように矩形画像領域 CR、 DR、 WO— data— op指定は、一連の繰り返し処理をプログラム可能である。

SCU203— 0は、矩形画像領域 AR、 BR、 CR、 DRは矩形画像領域 WR内の任意の位置への配置と移動可能である。

SCU203— 0は、矩形画像領域 WR内において、矩形画像領域 AR、 BR、 CR、 D Rを、 2次元論理座標で指定が可能である。

SCU203— 0は、記憶領域に対して矩形画像領域 WRを物理アドレスで指定できる。

SCU203— 0は、矩形画像領域 WR,AR,DR,CR.DR内部の画素データがァクセスされた場合には、記憶領域へアクセスが必要になるため、論理アドレスから物理ァドレスへの変換を行って記憶領域にアクセスする。

[0083] 図 27は、 SCU203—0内部に設定される多重矩形画像領域に関する処理を行う機能を説明するための図である。

図 27に示すように、 SCU203 Οίま、 PU SIMD処理回路 # 0〜# 3の各々に、記憶領域内の矩形画像領域 WR0〜3の各々を割り当てる。

矩形画像領域 WRO〜3は、メモリシステム 105やローカルメモリ 204— 0などの記憶領域内に規定される。

矩形画像領域 WRO〜3の各々に、矩形画像領域 AR0〜7, BR0〜7, CRO〜3, DRO〜3が規定される。

[0084] 図 27〖こ示す SCU203— 0は、 WI— data— opにより、矩形画像領域 BR内のデータをストリームデータへ変換して、出力バッファ out— bufに WRiteする。

また、 SCU203— 0は、データ変換コマンド WO#data#opにより、 PU— SIMD処理回路 # 0〜 # 3から入力して入力バッファ in#bufに収納されて!、るストリームデータをデータ変換して矩形画像領域 DRに WRiteする。

[0085] 図 26を参照して上述したように、矩形画像領域 WR内に、矩形画像領域 AR, BR, CR, DRを階層構造で規定することで、例えば、矩形画像領域 AR, CR内で矩形画像領域 BR, DRを相対的に移動させる場合に、基準座標を矩形画像領域 AR, BR, CR, DR内のローカルな座標に加算する形式でのアドレス表現が可能になり、プログラミングが簡単になる。

本実施形態では、矩形画像領域の個数や多重指定の階層数などを具体的な数字で表現している力その構成や数量は組み合わせ自由であり、幅広い画像処理の必要性に応じて構成を変えることが可能である。

[0086] SCU203— 0がデータ転送のために行う接続を説明する。

[システムノス接続]

図 1に示すシステムバス 113は、 SCU203_0を、ホストプロセッサ 101およびメモリシステム 105などの他の処理モジュールを接続するバスであり、以下の特徴を有する

(1)システムバス 113は、 LSIや SOC内部で標準化されたバス規格を採用することが可能である。

(2)システムバス 113のバス幅は 128ビットであり、連続データ転送 (バースト転送）が可能な構成とすることで、バス使用効率を向上できる。

(3)システムバス 113上の記憶装置（例えば、メモリシステム 105)に対して、 SCU2 03— 0はバスマスタとしてアクセスする。

(4)システムバス 113上の SCU203—0以外のバスマスタから、 SCU203— 0の内部レジスタや SCU専用記憶装置（例えば、、ローカルメモリ 204— 0)へのアクセスを行う。

(5)システムバス 113は、データ転送効率や機能が満足されるのであれば、バス規格にはこだわらな、選択が可能である。

[0087] [SCU203— 0の専用記憶領域接続]

SCU203— 0は、専用記憶領域として専用記憶装置を接続することが可能である。専用記憶装置は SRAMや DRAMなどの半導体メモリが SOC内部外部にのどちらにあろうとも選択可能である。

上記専用記憶装置は、システムバス 113より広帯域なバスに接続される。上記専用記憶装置は、 1つの SCU203— 0が占有して使用する目的で用意されている。

システムバス 113上のバスマスタから、上記専用記憶装置へのアクセスが可能である。

[0088] [PU一 SIMD # 0〜# 3接続]

SCU203— 0には、 4つの PU— SIMD処理回路 # 0〜 # 3がバス接続される。 SCU203— 0から PU— SIMD処理回路 # 0〜 # 3へのストリームデータ入力は、各 PU— SIMD処理回路に 256ビットの単方向バスを使用し、転送効率は 256bit/cl ockである。

data/転送プロトコルとして 2線式のハンドシェークを採用する。

SCU203— 0内部には出力バッファ out— bufを用意する。

SCU203— 0から出力を行う場合は、 PU— SIMD処理回路 # 0〜 # 3に対してァドレスを指定することで PU— SIMD処理回路内部レジスタを識別する。

PU— SIMD処理回路 # 0〜 # 3から SCU203— 0へのストリームデータ入力は、各 PU— SIMDの 256ビットの単方向バスを使用し、転送効率は 256bit/clockであるまた、データ転送プロトコルとして 2線式のハンドシェークを採用する。 SCU203— 0内部には入力用の入力バッファ in— bufを用意する。

PU— SIMD処理回路 # 0〜 # 3から SCU203— 0へ入力を行う場合は、 PU— SI

MDに対してアドレスを指定することで PU—SIMD処理回路内部レジスタを識別する。

[0089] [SCU203— 0の物理論理アドレス変換]

SCU203—0がアクセスする図 26および図 27を用いて説明した記憶領域内の矩形画像領域 WR内部の画素対応位置 Pixelは 2次元論理アドレスで表現されている力、メモリシステム 105およびローカルメモリ 204— 0は物理アドレスで表現されている。従って、 SCU203— 0は、矩形画像領域 WR内の矩形画像領域 AR, BR, CR, D R内部に指定された画素対応位置 Pixelに対して Readまたは WRiteを行う場合は、 2 次元論理アドレス力物理アドレスへのアドレス変換を行う。

ここで、矩形画像領域 WR内の任意の画素対応位置を pixel(x,y)とする。ただし x,y は 2次元論理アドレスである。

画素対応位置 L— Pixel (x、 y)の物理アドレス (adrs)は以下の様に計算される。また、アドレス指定される wordの中で、画素対応位置 L— Pixel (x、 y)が占めるビット位置を Word[a:b]と表現する。（ただし a,bは word内で pixelを構成するビット範囲とする。）

[0090] 下記式（3)〜（4)にお!/、て、 wwは画素位置単位の矩形画像領域 WRの幅 (X方向）である。

なお、 1ワードデータ（lword)中の X方向 Pixel数を pwとする。

phは、 1 word中の y方向 Pixel数である。

nは、 lword中のビット位置を計算するための値である。

WR#bpは、記憶領域内部での矩形画像領域 WRの開始を示すアドレスである

1つの Pixel= 16ビットで表現しているがビット長としては他の値を採用することも可能である。

Int ()はカツコ内の値を超えな、整数を示す。

X mod yは整数 Xを整数 yで割った剰余である。 [0091] [数 3]

adres=WR#bp+int [y/ ph] *ww/ pw+int(x/ pw) · ·· (3)

[0092] [数 4]

n=(y mod ph)*pw+(x mod pw) · · · (4)

[0093] [数 5]

L#pixel(x,y)[15:0]=word[16*(n+l)-l:16*n] …（5)

[0094] 図 28は、 SCU203—0による物理論理アドレス変換を説明するための図である。

図 28に示すように、メモリシステム 105およびローカルメモリ 204— 0の物理的なァドレス空間 ADRS内に矩形画像領域 WRが規定される。

SCU203— 0は、 1つの物理アドレスによるアクセス単位を lwordとする。 WR#bp+は、矩形画像領域 WRの開始アドレスである。

wwは、矩形画像領域 WRの幅であり、画素対応位置 Pixel単位かつ pwの倍数である。

図 28に示すように、アドレス空間 ADRSの画素対応位置 L— Pixelは、 2次元論理アドレスによってで指定可能である。

図 28に示す pwは、 lword内の X方向の pixel数（画素データ数）を示す。図 28に示す phは、 lword内の y方向の pixel数を示す。

lpixelに含まれる情報量を nビットとし、 lwordに含まれる総ビット容量を wordsizeとすると以下の関係式が成立する。

[0095] [数 6]

wordsize=n*pw*pn · · · ( 6ノ

[0096] 本実施形態では、上述したように記憶領域を 2次元論理アドレスで管理することで、記憶領域内の任意の矩形画像領域にアクセスする場合に、従来のスキャンライン方式のようにカウント処理 (デットラインの検出処理)などが不要になり、プログラミングが簡単になる。

本実施形態では lpixel=16bビットの構成で説明を行って、る力 lpixelの情報量は特に限定されず、 8ビットや 32ビットなどでもよ、。

[0097] [SCU203 0による記憶領域へのアクセス] SCU203— 0は、上述したように、記憶領域として、システムバス 113に接続された大規模外部記憶装置であるメモリシステム 105と、小規模な専用記憶装置であるローカルメモリ 204— 0を使用することができる。

メモリシステム 105は、例えば、 SCU203— 0が含まれる SOCの外部に接続される D RAM- CHIPであり、一般的な DDRや RAMBUSなどのメモリ chipなどである。

ローカルメモリ 204— 0は、例えば、 SCU203— 0が含まれる SOC内部の SRAMや e DRAM (Embedede- DRAM:SCUと同じ SOCに含まれる On- chip DRAM)などである。

[0098] 一般的に、 DRAMは、 Raw/Column/bankといったアドレスの階層構造があり、同一の Rawに含まれる連続データアクセスは高速である力 Raw境界をまたがった連続データアクセスや、遠隔の Raw同士の連続アクセスは、ページプリチャージなどの処置を必要とするため、低速となるという特徴がある。

本実施形態では、 SCU203— 0は、例えば、メモリシステム 105やローカルメモリ 20 4—0として、 DRAMを使用している力 SRAMであっても問題はない。また、 DRAMを使用する場合、上記アクセス性能の不連続性を可能な限り避ける目的で、記憶領域内の画素データの矩形画像配列を、ストリームデータ生成時には可能な限り同一べージに配置する工夫をすることで、 DRAMアクセスの不連続性を可能な限り低減する処置をとることができる。

この工夫は、たとえば先にのベた物理論理アドレス変換における bpと wwの値に、以下に示すような制約を与えるなどで容易に実現可能である。

[0099] (制約例 1) wwは DRAMの columnの倍数であり、かつ pwの倍数である。

(制約例 2) WR#bpの値は DRAMの Raw単位である。

[0100] [SCU203— 0による多重矩形画像領域定義 (読み出し時) ]

SCU203— 0は、上述したように、記憶領域内の矩形画像領域 WR内に、図 29に示すように、 2次元論理アドレス表現で多重矩形画像領域として、矩形画像領域 AR , BRを規定できる。

それぞれの位置関係を示す値として以下の座標値が使われる。

wwは、矩形画像領域 WRの X方向矩形画像領域幅。

ax,ayは、矩形画像領域 WR内の矩形画像領域 ARの 2次元座標を示す。これは、矩形画像領域 WRの左上を原点 (0,0)とした座標系で、矩形画像領域 ARの左上の画素対応位置 Pixelの座標を示す。

aw及び ahは、矩形画像領域 ARの幅と高さを示す。

bx及び byは、矩形画像領域 AR内の矩形画像領域 BRの 2次元座標を示す。矩形画像領域 ARの左上を原点 (0,0)とした座標系で、矩形画像領域 BRの左上の画素対応位置 Pixelの座標を示す。

bw及び bhは、矩形画像領域 BRの幅と高さを示す。

X及び yは、矩形画像領域 BR内の画素対応位置 Pixelの 2次元座標を示す。矩形画像領域 BRの左上を原点 (0,0)とした座標系である。

[0101] [SCU203— 0による矩形画像領域 BRの定義モード]

SCU203— 0は、 bx,by及び bw,bhの値を調整することで、図 30に示すように、矩形画像領域 ARを逸脱するように矩形画像領域 BRを指定できる。

これにより、 SCU203— 0は、多様な形態で PU— SIMD処理回路 # 0〜# 3にストリームデータを出力できる。

以下、 SCU203— 0による矩形画像領域 BRの指定の形態を示す各種の BRモードを説明する。

(矩形画像領域) BRモード 1：

SCU203— 0は、 BRモード 1に設定されている場合に、矩形画像領域 ARから逸脱して矩形画像領域 BRを設定可能である。

SCU203— 0は、矩形画像領域 BRが矩形画像領域 ARから逸脱した場合に、逸脱した領域に対応した画素データ Pixelの値を予め設定された値 (COL)にする。

SCU203— 0は、矩形画像領域 BR内の画素データ Pixel (X, y)を、矩形画像領域 AR内の画素データ AR ()を用いて下記式（7)のように決定する。

[0102] [数 7]

iK(x+bx >= aw )|(y+by > ah》 pixel(x,y)=COL

else pixel(x,y)=AR(x+bx,y+by) · ·· (7)

[0103] (矩形画像領域) BRモード 2 :

SCU203— 0は、 BRモード 2に設定されている場合に、矩形画像領域 ARから逸脱して矩形画像領域 BRを設定可能である。

SCU203— 0は、図 31に示すように、矩形画像領域 BRが X方向に矩形画像領域 ARから逸脱した場合、逸脱領域を矩形画像領域 AR内部に折り返すように制御する

SCU203— 0は、図 31に示すように、矩形画像領域 BRが X方向と Y方向とに矩形画像領域 ARから逸脱した場合、矩形画像領域 ARには折り返されないこととし、画素データ Pixelの値を（COL)とする。

SCU203— 0は、矩形画像領域 BR内の画素データ Pixel (X, y)を、矩形画像領域 AR内の画素データ AR ()を用いて下記式 (8)のように決定する。

[0104] [数 8]

i aw、= x+bx) & (y+by <= ah- bh) pixel(x,y =AR(x+bx-aw, y+by+bh)

else if (aw <= X+DX & (ah- bh < y+by) pixel(x,y)=COL

else il ahく y+bx) pixel(x,y)=COL

else pixel(x,y)=AR(x+bx, y+by)

…

[0105] (矩形画像領域) BRモード 3 :

SCU203— 0は、 BRモード 3に設定されている場合に、矩形画像領域 ARから逸脱して矩形画像領域 BRを設定できなヽ。

SCU203— 0は、矩形画像領域 ARから逸脱した矩形画像領域 BRを指定した場合には、逸脱した領域の画素データ Pixel (X, y)はその値を保障しない。

SCU203— 0は、図 32に示すように、矩形画像領域 ARの外周から 2画素対応位置の領域に、矩形画像領域 BRが設定された場合に、矩形画像領域 ARの外周から内側 3画素対応位置の矩形画像領域 BR内の画素対応位置の画素データ Pixel (X, y)を、矩形画像領域 BRの外周から 2画素対応位置の画素データ Pixel (X, y)として設定するクランプ (Clamp)動作を行う。

矩形画像領域 BR内の画素データ Pixel (X, y)は、下記式（9)で規定される。

簡略化のために xp=x+bx; yp=y+by;として!/、る。

[0106] [数 9] if ((xp〈2) & (yp〈2)) pixel(x,y)=AR(2,2)

else iK(2<= xpく aw— 2) & (yp < 2) pixel(x,y)=AR(xp,2)

else iK(aw-2 <= xp) & (yp <2) pixel(x,y)=AR(aw-3,2)

else iK(xp < 2)&( 2 <= ypく ah- 2) pixel(x,y)=AR(2,yp)

else if ((aw— 2 < xp) & (2 <= ypく ah— 2) pixel(x,y)=AR(aw-3 ,yp)

else if ((xp < 2) & (ah— 2 <= yp) pixel(x,y)=AR(2,ah-3)

else if ((2 <= xpく aw— 2) & (ah— 2 <= yp) pixel(x,y)=AR(xp,ah-3)

else if ((aw— 2 <= xp) & (ah— 2 <= yp) pixel(x,y)=AR(aw— 3,ah— 3)

pixel(x,y) = AR(xp,yp)

… ）

[0107] 矩形画像領域 BRが、矩形画像領域 ARの外周から 1画素対応位置だけ内側に位置する場合には、 SCU203— 0は、図 33に示すように、クランプ動作を行う。

本実施形態では、上述したようにクランプ動作 (処理)を行うことで、任意の矩形画像領域のフィルタ処理などを行う場合に、矩形画像領域の外周におヽて当該矩形画像領域外の画素データを適切に代用することができる。

[0108] [SCU203— 0による PU— SIMDへのデータ入力処理]

SCU203— 0は、矩形画像領域 BR力も画素データ Pixel (X, y)を読み出し、これをデータストリームへデータに変換して (入力データ変換処理を行って）図 3に示す P U— SIMD処理回路 # 0〜 # 3に入力させる。

ここで、 SCU203— 0は、 PU— SIMD # 0〜# 3の各々について、上記変換の内容を指定できる。

SCU203— 0は、各 PU— SIMD # 0〜# 3に対応した出力バッファ out— bufを備えている。

SCU203— 0は、矩形画像領域 BRを指定するレジスタを備えて、る。

SCU203— 0は、各 PU— SIMD # 0〜# 3に対応した入力バッファ in— bufを備えている。

SCU203— 0は、矩形画像領域 BR力も画素データ Pixel (X, y)を読み出し、並べ替えなどのデータ変換処理を施した後に、ストリームデータとして図 27に示す出カバッファ out— bufに書き込む。

SCU203— 0は、矩形画像領域 BRを指定するレジスタ値を、ストリームデータとして出力バッファ out— bufに書き込む。

SCU203— 0は、矩形画像領域 BR力も画素データ Pixel (X, y)を読み出し、並べ替えなどのデータ変換処理を施した後に、 SCU203— 0内にある矩形画像領域 BR を指定するレジスタに書き込む。

SCU203— 0は、入力バッファ in— bufから読み出したデータを、データ変換処理を施した後に、ストリームデータとして出力バッファ out— bufに書き込む。

[0109] SCU203— 0は、上述した入力データ変換処理、すなわち PU— SIMD # 0〜 # 3 に書き込むためのデータストリームへの変換処理として、例えば、下記表 2に示す入力データ変換コマンドに応じて入力データ変換処理を行う。

SCU203— 0は、図 1に示すホストプロセッサ 101から入力データ変換コマンドを入力して実行する。

SCU203— 0は、表 2に示す各入力データ変換コマンドにおいて、表 3に示す従属ノラメータを指定できる。

[0110] [表 2]

入力データ変換 8R領域幅 BR領域高つマ、ノド

bw さ

set— BR— 1 of4x4— same 4 4

set_bxy 4 4

set— BR— 8x1— to— bxy 8 1 set_BR4567_1of4x4 4 4

set.in_.buf ^straight 論 ~JZ cE

疋親个安 i£教个要 set_in_buf_with_BR_2x1 2 1 set一 in— buf— with— BR— 4x1 4 1 set_BR_16x1 16 1 set„BR„32x1 32 1 set— BFL64x1 64 1 set_BR„64x2 128 1 set— BR— 64x2x2 128 2

set_BR_64x3 192 1 set_B _64x3x3 192 3

set^BR^64x4 256 1 set^BR„.64x4x4 256 4

set一 BR— 64x9 576 3

set_BR—64x9x3 576 6

入力データ変換備考

コマンドの

従厲パラメ一タ

B R^num ο BR番号（0..7)

csel[1:0] BR領域内 pixe!指定、 x方向連続する最大 4_ΡίχβΙから 1p elの選択

BR領域内 pixel指定、方向最大 16p elから Ipixelの選択 ysei[2:0] 領域内 pixel指定、 y方向最大 8pixelから 1 pixelの選択

sel out— bufに ¾き込まれる o4pixelの形指定

0の場合：

入力データ変換で生成された 64pixeiはそのまま out_bufへ loadされる

1の場合：

入力データ変換で生成された 64pixel中の個々の 1 pixelの LSB4bitを packして 16pixeけ：！け out— bufへ load

ld[15:0] out— bufの 64pixelを 4pixelごとにわけた load制御

loadの lb で 4pixel同時 loadを制御する

ld[n]:pixe)(4(n-1):4ri-1) (oaclfcf L0<=n< = l6 表 2に示したデータ変換コマンドに基づく入力データ変換処理のそれぞれを説明する。

[set#BR#lof4x4#same]

SCU203— 0は、例えば、ホストプロセッサ 101から入力データ変換コマンド「set#B R#lof4x4#same」を実行すると、図 34に示すように、その従属パラメータで指定された矩形画像領域 BR内の 1画素対応位置力画素データ Pixelを読み出し、それを 64 個複製して画素データ Pixel (0, ...63)を生成し、これを画素データ内部のビット選択の後に、出力バッファ out— bufを介して PU— SIMD処理回路 #0〜#3に入力される。

SCU203— 0は、従属パラメータ BRftiumにより、 4x4画素対応位置の矩形画像領域 BRを特定する。

SCU203— 0は、マルチプレクサ MUXl, MUX2および論理回路 LOG1を有するマルチプレクサ MUX1は、上記特定した矩形画像領域 BRから、従属パラメータ yse 1により、 x方向の 4画素対応位置の画素データ Pixelを読み出す。

そして、マルチプレクサ MUX2は、上記読み出した X方向の 4つの画素データ Pixe 1のなかから、従属パラメータ xselにより、 1つの画素データ Pixelを選択して論理回路 LOG1に出力する。

論理回路 LOG1は、従属パラメータ wselにより、上記選択した 1つの画素データ Pix elを各々が示す 64個の画素データ Pixelを、出力バッファ out— bufに書き込む。論理回路 LOG1は、従属パラメータ wselにより、 64個の画素データ Pixelをそのまま出力バッファ out— bufに書き込む力、あるいは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

SCU203— 0は、従属パラメータ Idにより、 4画素データ Pixel毎に load制御を行う [set#bxy]

SCU203— 0は、例えば、ホストプロセッサ 101から入力データ変換コマンド「set# bxy」を実行すると、図 35に示すように、従属パラメータ _XSel,y_Selで選択された矩形画像領域 BRの左端座標 (bx,by)を 32個ずつ複製して 64個の画素データのストリームデータを生成し、従属パラメータ wselによる画素データ内部のビット選択の後に、従属パラメータ Idにより出力バッファ out_bufに設定する。

本実施形態では、矩形画像領域 BRとして左端座標が異なる 8種類が用意されてヽる。

SCU203— 0は、矩形画像領域 BRの y方向の値を指定するレジスタ by0〜7と、 x 方向の値を指定するレジスタ bx0〜7とを備えている。

SCU203— 0は、 8個のマルチプレクサ MUX11を有する。

マルチプレクサ MUX11の各々は、それぞれ対応するレジスタ byの値とレジスタ xy の値とのうち一方を、従属パラメータ yselにより選択して、マルチプレクサ MUX12に出力する。

SCU203— 0は、 2つのマルチプレクサ MUX12を備えている。

マルチプレクサ MUX12は、それぞれ 4つのマルチプレクサ MUX11から入力した値のうち 1つを、従属パラメータ xselにより選択して論理回路 LOG31に出力する。論理回路 LOG31は、従属パラメータ wselにより、 64画素データをそのまま出カノッファ out— bufに書き込む力ある!/、は各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

SCU203— 0は、出力バッファ out— bufから PU— SIMD # 0〜 # 3への load制御を、従属パラメータ Idにより、 4画素データ Pixel毎に行う。

このように、矩形画像領域 BRの左端座標を PU— SIMD処理回路 # 0〜 # 3に出力するのは、 PU— SIMD処理回路 # 0〜# 3の PEにおいて、フィルタ処理などにおいて、当該座標を処理に用いるためである。

[0114] [set#BR#8xl#to#bxy]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#8xl#t o#bxy」を実行すると、例えば、図 36に示すように、矩形画像領域 BR内に X方向に連続する 2pixelを座標として扱うため、 BRftiumで選択された矩形画像領域 BR4〜7から 8画素データ Pixelを選択し、矩形画像領域 BRの左端座標 (bx,by)に設定する。このことは、後述する入力データ変換コマンド「WI#data#op=set#BR4567#lof4x4」と組み合わせて指定することで、メモリ間接アドレスを実現する。

すなわち、この例では、矩形画像領域 BR内に、矩形画像領域 BRの左端座標が、画素データとして記憶されて、る。

[0115] [set#BR4567#lof4x4]

SCU(Stream Control Unit)203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR4567#lof4x4」を実行すると、例えば、図 37に示すように、従属パラメ一タ xsel,yselにより、マルチプレクサ MUXl, MUX2で 4つの矩开画像領域 BRからそれぞれ 1画素データを読み出し、これを論理回路 LOG51に出力する。

論理回路 LOG51は、 SCU203— 0から入力した画素データを、従属パラメータ ws elにより、出力バッファ out— bufの所定のビット位置に書き込む。

論理回路 LOG51は、従属パラメータ wselにより、 64画素データをそのまま出カノッファ out— bufに書き込む力ある!/、は各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

SCU203 0は、出力バッファ out bufから PU SIMD # 0〜# 3への load制御を、 4画素データ毎に、従属パラメータ Idにより行う。

この例では、上記 4つの矩形画像領域 BRの左端座標として、上記「set#BR#8xl#to #bxyjによって設定されたものを用いることで、上記メモリ間接アドレスを実現する。

[0116] [set#in#buffistraight]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「setffin#buffistr aight」を実行すると、例えば、図 38に示すように、 PU_SIMD # 0〜 # 3毎に備えられた 4本の入力バッファ in— bufのなかから、 2本の入力バッファ in— buf (n) , (n—l )を選択する。

入力バッファ in— buf (n) , (n— 1)の各々は、 1 (高さ） X 64 (幅）画素データのサイズを有している。

SCU203— 0は、 64個のマルチプレクサ MUX1を備えて!/、る。

64個のマルチプレクサ MUX1の各々は、入力バッファ in— buf (η) , (η— 1)の対応する 2つの画素データのうち、一つを従属パラメータ yselにより選択して論理回路 L

OG61に出力する。

論理回路 LOG61は、従属パラメータ wselにより、 64画素データをそのまま出カノッファ out— bufに書き込む力ある!/、は各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

SCU203— 0は、出力バッファ out— bufから PU— SIMD処理回路 # 0〜 # 3への load制御を、 4画素データ毎に、従属パラメータ Idにより行う。

入力データ変換コマンド「set#in#buffistraight」により、図 3に示す PU— SIMD処理回路 # 0〜# 3間でのデータの入出力が可能になる。また、当該入力データ変換コマンド「setffin#buffistraight」によって、 PU— SIMD # 0〜 # 3を直列および並列の何れで接続するかをプログラミング (規定)できる。

[0117] [setffin#buffiwith#BR#2xl]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「setffin#buffiwit h#BR#2xl」を実行すると、例えば、図 39に示すように、 PU— SIMD # 0〜# 3毎に備えられた 4本の入力バッファ in— bufのなかから、 2本の入力バッファ in— buf (η) , (η— 1)を選択する。入力バッファ in— buf (n) , (n— 1)の各々は、 1 (高さ） X 64 (幅）画素データのサイズを有している。

SCU203— 0は、 62個のマルチプレクサ MUX1を備えて!/、る。

62個のマルチプレクサ MUX1の各々は、入力バッファ in— buf (η) , (η— 1)の対応する 2つの画素データのうち、一つを従属パラメータ yselにより選択して論理回路 L

OG71に出力する。

論理回路 LOG71は、従属パラメータ wselにより、 62画素データと、従属パラメータ BRftiumで選択された矩形画像領域 BRから読み出した 2画素データの合計 64画素データをそのまま出力バッファ out— bufに書き込む力、あるいは各画素データ Pixel の LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

[setffin#buffiwith#BR#4xl]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「setffin#buffiwit h#BR#4xl」を実行すると、例えば、図 40に示すように、 PU— SIMD処理回路 # 0〜 # 3毎に備えられた 4本の入力バッファ in— bufのなかから、 2本の入力バッファ in— buf (n) , (n - 1)を選択する。

SCU203— 0は、 60個のマルチプレクサ MUX1を備えて!/、る。

60個のマルチプレクサ MUX1の各々は、入力バッファ in— buf (η) , (η— 1)の対応する 2つの画素データのうち、一つを従属パラメータ yselにより選択して論理回路 L OG81に出力する。

論理回路 LOG81は、従属パラメータ wselにより、 60画素データと、従属パラメータ BRftiumで選択された矩形画像領域 BRから読み出した 4画素データの合計 64画素データをそのまま出力バッファ out— bufに書き込む力、あるいは各画素データ Pixel の LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

SCU203 0は、出力バッファ out bufから PU SIMD処理回路 # 0〜# 3への load制御を、 4画素データ毎に、従属パラメータ Idにより行う。

[0119] [set#BR#16xl]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#16xl」を実行すると、例えば、図 41に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 16画素データを 4倍に複製して 64画素データのストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

論理回路 LOG91は、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 16画素データを 4倍に複製して得られた 64画素データを入力し、これら 64画素データをそのまま出力バッファ out— bufに書き込む力、あるいは各画素データ Pixelの L SBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

SCU203— 0は、出力バッファ out— bufから PU— SIMD処理回路 # 0〜 # 3への load制御を、 4画素データ毎に、従属パラメータ Idにより行う。従って 4倍に複製したデータを out#bufに対して 16pixelごとに書き込むことも可能である。

[0120] [set#BR#32xl]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#32xl」を実行すると、例えば、図 42に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 32画素データを 2倍に複製して 64画素データのストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

論理回路 LOG101は、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 32画素データを 2倍に複製して得られた 64画素データを入力し、これら 64画素データをそのまま出力バッファ out— bufに書き込む力、あるいは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

SCU203— 0は、出力バッファ out— bufから PU— SIMD処理回路 # 0〜 # 3への load制御を、 4画素データ毎に、従属パラメータ Idにより行う。従って 2倍に複製したデータを out#bufに対して 32pixelごとに書き込むことも可能である。

[0121] [set#BR#64xl] SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#64xl」を実行すると、例えば、図 43に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 64画素データのストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

論理回路 LOG111は、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 64画素データを入力し、これら 64画素データをそのまま出力バッファ out— bufに書き込むか、あるいは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

[0122] [set#BR#64x2]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#64x2」を実行すると、例えば、図 44に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 128 X 1画素データのなかから、従属パラメータ xselにより、 64画素データを選択してストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

64個のマルチプレクサ MUX2の各々は、従属パラメータ BR#numで選択された矩形画像領域 BR内の X方向に隣接した 2画素データを入力し、従属パラメータ xselにより、 1画素データを選択して論理回路 LOG 121に出力する。

論理回路 LOG121は、従属パラメータ wselにより、 64個のマルチプレクサ MUX2 力入力した 64画素データをそのまま出力バッファ out— bufに書き込む力、ある!/ヽは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

SCU203— 0は、出力バッファ out— bufから PU— SIMD # 0〜 # 3への load制御を、 4画素データ毎に、従属パラメータ Idにより行う。

[0123] [set#BR#64x2x2]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#64x2x 2」を実行すると、例えば、図 45に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 128 X 2画素データのなかから、従属パラメータ xselにより、 64 画素データを選択してストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

128個のマルチプレクサ MUX1の各々は、従属パラメータ BR#numで選択された矩形画像領域 BR内の y方向に隣接した 2画素データを入力し、従属パラメータ yselにより、 1画素データを選択して、 64個のマルチプレクサ MUX2に出力する。

64個のマルチプレクサ MUX2は、 X方向に隣接する 2つの画素データのうち、 1の画素データを、従属パラメータ xselにより選択して論理回路 LOG131に出力する。論理回路 LOG131は、従属パラメータ wselにより、 64個のマルチプレクサ MUX2 力入力した 64画素データをそのまま出力バッファ out— bufに書き込む力、ある!/ヽは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

[set#BR#64x3]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#64x3」を実行すると、例えば、図 46に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 192 X 1画素データのなかから、従属パラメータ xselにより、 64画素データを選択してストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

64個のマルチプレクサ MUX3の各々は、従属パラメータ BR#numで選択された矩形画像領域 BR内の X方向に隣接した 3画素データを入力し、従属パラメータ xselにより、 1画素データを選択して論理回路 LOG141に出力する。

論理回路 LOG141は、従属パラメータ wselにより、 64個のマルチプレクサ MUX3 力入力した 64画素データをそのまま出力バッファ out— bufに書き込む力、ある!/ヽは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

[0125] [set#BR#64x3x3]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#64x3x 3」を実行すると、例えば、図 47に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 192 X 3画素データのなかから、従属パラメータ xselにより、 64 画素データを選択してストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

192個のマルチプレクサ MUX4の各々は、従属パラメータ BRftiumで選択された矩形画像領域 BR内の y方向に隣接した 3画素データを入力し、従属パラメータ yselにより、 1画素データを選択して、 64個のマルチプレクサ MUX3に出力する。

64個のマルチプレクサ MUX3は、マルチプレクサ MUX4から入力した X方向に隣接する 3つの画素データのうち、 1の画素データを、従属パラメータ xselにより選択して論理回路 LOG 151に出力する。

論理回路 LOG151は、従属パラメータ wselにより、 64個のマルチプレクサ MUX3 力入力した 64画素データをそのまま出力バッファ out— bufに書き込む力、ある!/ヽは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

[0126] [set#BR#64x4]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#64x4」を実行すると、例えば、図 48に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 256 X 1画素データのなかから、従属パラメータ xselにより、 64画素データを選択してストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

64個のマルチプレクサ MUX5の各々は、従属パラメータ BR#numで選択された矩形画像領域 BR内の X方向に隣接した 4画素データを入力し、従属パラメータ xselにより、 1画素データを選択して論理回路 LOG 161に出力する。論理回路 LOG161は、従属パラメータ wselにより、 64個のマルチプレクサ MUX5 力入力した 64画素データをそのまま出力バッファ out— bufに書き込む力、ある!/ヽは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

[0127] [set#BR#64x4x4]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#64x4x 4」を実行すると、例えば、図 49に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 256 X 4画素データのなかから、従属パラメータ xselにより、 64 画素データを選択してストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

256個のマルチプレクサ MUX6の各々は、従属パラメータ BR#numで選択された矩形画像領域 BR内の y方向に隣接した 4画素データを入力し、従属パラメータ yselにより、 1画素データを選択して、 64個のマルチプレクサ MUX5に出力する。

64個のマルチプレクサ MUX5は、マルチプレクサ MUX4から入力した X方向に隣接する 4つの画素データのうち、 1の画素データを、従属パラメータ xselにより選択して論理回路 LOG161に出力する。

論理回路 LOG161は、従属パラメータ wselにより、 64個のマルチプレクサ MUX5 力入力した 64画素データをそのまま出力バッファ out— bufに書き込む力、ある!/ヽは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

[0128] [set#BR#64x9]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#64x9」を実行すると、例えば、図 50に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 576 X 1画素データのなかから、従属パラメータ xselにより、 64画素データを選択してストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

64個のマルチプレクサ MUX7の各々は、従属パラメータ BR#numで選択された矩形画像領域 BR内の X方向に隣接した 9画素データを入力し、従属パラメータ xselにより、 1画素データを選択して論理回路 LOG 171に出力する。

論理回路 LOG171は、従属パラメータ wselにより、 64個のマルチプレクサ MUX7 力入力した 64画素データをそのまま出力バッファ out— bufに書き込む力、ある!/ヽは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

[set#BR#64x9x3]

SCU203— 0は、ホストプロセッサ 101から入力データ変換コマンド「set#BR#64x9x 3」を実行すると、例えば、図 51に示すように、従属パラメータ BRftiumで選択された矩形画像領域 BR内の 576 X 3画素データのなかから、従属パラメータ xselにより、 64 画素データを選択してストリームデータを生成し、これを所定の画素データ選択処理を経て、出力バッファ out— bufに書き込む。

576個のマルチプレクサ MUX8の各々は、従属パラメータ BR#numで選択された矩形画像領域 BR内の y方向に隣接した 3画素データを入力し、従属パラメータ yselにより、 1画素データを選択して、 64個のマルチプレクサ MUX7に出力する。

64個のマルチプレクサ MUX7は、マルチプレクサ MUX8から入力した X方向に隣接する 9つの画素データのうち、 1の画素データを、従属パラメータ xselにより選択して論理回路 LOG181に出力する。

論理回路 LOG181は、従属パラメータ wselにより、 64個のマルチプレクサ MUX7 力入力した 64画素データをそのまま出力バッファ out— bufに書き込む力、ある!/ヽは各画素データ Pixelの LSBから 4ビットをパックして 16個の画素データ Pixelに収納するかを決定する。

[0130] [SCU203— 0による多重矩形画像領域定義（書き込み時) ]

SCU203— 0は、記憶領域内の矩形画像領域 WR内に、図 52〖こ示すよう〖こ、 2次元論理アドレス表現で多重矩形画像領域として、矩形画像領域 CR, DRを規定できる。

wwは、矩形画像領域 WRの X方向矩形画像領域幅を示す。

cx,cyは、矩形画像領域 WR内の矩形画像領域 CRの 2次元座標を示す。これは、矩形画像領域 WRの左上を原点 (0,0)とした座標系で、矩形画像領域 CRの左上の座標を示す。

cw及び chは、矩形画像領域 CRの幅と高さを示す。

dx及び dyは、矩形画像領域 CR内の矩形画像領域 DRの 2次元座標を示す。矩形画像領域 CRの左上を原点 (0,0)とした座標系で、矩形画像領域 DRの左上の座標を示す。

dw及び dhは、矩形画像領域 DRの幅と高さを示す。

[0131] [SCU203— 0による矩形画像領域 DRの定義モード]

SCU203— 0は、 dx,dy及び dw,dhの値を調整することで、図 53〖こ示すよう〖こ、矩形画像領域 CRを逸脱するように矩形画像領域 DRを指定できる。

これにより、 SCU203— 0は、 PU— SIMD処理回路 # 0〜# 3からの多様な形態のストリームデータを入力できる。

[0132] 以下、 SCU203— 0による矩形画像領域 DRの指定の形態を示す各種の DRモードを説明する。

DRモード 1：

SCU203— 0は、 DRモード 1に設定されている場合に、矩形画像領域 CRから逸脱して矩形画像領域 DRを設定可能である。

SCU203— 0は、矩形画像領域 DRが矩形画像領域 CRから逸脱した場合に、逸脱した領域に含まれる画素対応位置の画素データの値を矩形画像領域 CRに書き込まない。矩形画像領域 DR内の画素データは、矩形画像領域 CR内では下記式（10)で規定される。

[0133] [数 10]

iK(x+dx >= cw )|(y+dy > ch》 pixel(x,y)は CRに WRiteされない

else し R(x+dx,y+dy)=pixel(x,y)

…ひ。）

[0134] DRモード 2 :

SCU203— 0は、 DRモード 2に設定されている場合に、矩形画像領域 CRから逸脱して矩形画像領域 DRを設定可能である。

SCU203— 0は、図 54に示すように、矩形画像領域 DRが X方向に矩形画像領域 CRから逸脱した場合、逸脱領域を矩形画像領域 CR内部に折り返すように制御するまた、 SCU203— 0は、図 54に示すように、矩形画像領域 DR力方向と y方向とに矩形画像領域 CRから逸脱した場合、矩形画像領域 DR内の画素データを矩形画像領域 CR内に書き込まな、。

矩形画像領域 DR内の画素データは、矩形画像領域 CR内において、下記式（11) のように規定される。

[0135] [数 11]

i cw、= χ+αχ) & (y+dy <= ch-dh) し R c+dx— cw,

else if (cw <= x+dx) & (ch— dh < y+dy) pixel(x,y)は CRに WRiteされな!/ヽ else iKch < y+dx) pixel(x,y)は CRに WRiteされない

else CR(x+dx, y+dy)=pixel(x,y)

ー（11)

[0136] [PU— SIMD処理回路 # 0〜 # 3の出力データ変換処理]

PU— SIMD処理回路 # 0〜# 3が出力したストリームデータは、入力バッファ in— bufに書き込まれる。

SCU203— 0は、入力バッファ in— bufからデータを読み出し、並べ替えなどのデータ変換処理を施した後に、矩形画像領域 DRに書き込む。また、 SCU203— 0は、必要に応じて、入力バッファ in— bufからデータを読み出し、マスクデータ DRftnaskに従った並べ替えなどのデータ変換処理を施した後に、矩形画像領域 DRに書き込む。

SCU203— 0は、 PU— SIMD処理回路 # 0〜 # 3の各々につ!/、て、上記変換処理を指定できる。

SCU203_0は、マスクデータ DRftnaskを記録するレジスタを備えている。 SCU203— 0は、 PU— SIMD処理回路 # 0〜 # 3の各々に対応した入力バッファ i n_bufを備えている。

[0137] SCU203— 0は、上述した出力データ変換処理、すなわち PU— SIMD処理回路

# 0〜# 3が出力したストリームを矩形画像領域 DRに書き込む処理を、例えば、下記表 4に示す出力データ変換コマンド WO#data#opに応じて行う。

SCU203— 0は、図 1に示すホストプロセッサ 101から出力データ変換コマンドを入力して実行する。

SCU203— 0は、表 4に示す各出力データ変換コマンドにおいて、表 5に示す従属ノラメータを指定できる。

[0138] [表 4]

[0139] [表 5] 従 a 属パラメータ意味

D _num DR番号（0..3)

bse i [ 1 : 0] ^ 1^(0..1 5)に1|又納された4*64(3 カゝら641> 選択

D R領域内の pi xelwrite番号、整列、

kip ,2ski p,3ski p指定

[0140] 以下、上記表 4に示した出力データ変換処理のそれぞれを説明する。

[set#DR#mask#64xl]

入力バッファ in— buf(0-15)の各々には、 PU— SIMD # 0〜 # 3から入力された 64 画素データが書き込まれる。なお、 1画素データは、 4ビットで表現されている。

ここで、例えば、各出力バッファ out— bufは、それぞれ図 3に示す一つのプロセッサユニット PUに予め対応付けられて、る。

SCU203— 0は、図 55に示すように、各画素データを構成する 4ビットから 1ビットを選択し、 64ビットのマスクデータ DRftnaskとして、マスクレジスタ MR11に書き込む。マスクデータ DRftnaskを構成する各ビットは、プロセッサユニット PUの出力を、矩形画像領域 DRに書き込む場合に、画素データ単位のマスク情報として用いられる。たとえばマスクデータ DRftnaskのビットが「1」の場合は画素データを矩形画像領域 DRに書き込むことを意味し、「0」の場合には書き込まな!/、ことを意味する。

SCU203— 0力矩形画像領域 DRに実際に画素データを書き込むのは、後述する出力データ変換処理コマンドが set#DR#packed=64xlの場合である。

[0141] SCU203— 0は、従属パラメータ DR#numで選択された 64ビット構成のマスクレジスタ MR1に 1に 64ビットのマスクデータ DRftnaskを書き込む。

また、 SCU203— 0は、従属パラメータ DRftiumで選択されたマスクサイズレジスタ MSR11には 64ビットのマスクデータ DRftnaskのなかで「1」となって!/、るビット数を書き込む。

従って、マスクサイズレジスタ MSR11に記憶される値は、 0〜64のいずれかである [0142] 図 55に示すように入力バッファ in buf(0-15)の各々には、対応するプロセッサュニット PU力入力された 64画素データが書き込まれる。

ビット選択器 SEL11は、入力バッファ in— buf(0-15)に格納されている 64画素データを構成する各 4〜1ビットを従属パラメータ bselにより選択する。選択は 4種類であり各画素データで同じ bitが選択される。

SCU203— 0は、従属パラメータ DR#numで選択したマスクレジスタ MR11に、ビット選択器 SEL11で選択されたデータをマスクデータ DRftnaskとして格納する。

[0143] [set#DR#packed#64xl]

図 56に示す入力バッファ in— buf(0-63)の各々には、対応するプロセッサユニット P U力も入力された 64画素データが書き込まれて、る。

SCU203— 0の書き込み制御回路 WC11は、従属パラメータ DRftiumで選択された 64ビット構成のマスクレジスタ MR11に記憶されて!、るマスクデータ DRftnaskに従い、入力バッファ in— bufに記憶されている画素データを、従属パラメータ DRftiumで選択された矩形画像領域 DRに書き込む。

このとき、書き込み制御回路 WC 11は、マスクデータ DRftnaskの「1」を示すビットに対応する画素データを、矩形画像領域 DRの X座標の小さヽほうから順に詰め合わせて (packして)書き込む。

矩形画像領域 DRの幅は、 64画素データで高さは、 1画素データである力マスクデータ DRftnaskに応じて画素データをパック（pack)して矩形画像領域 DRに書き込むため、矩形画像領域 DR全体に画素データが書き込まれるとは限らない。

[0144] [set#DR#64xl]

図 57に示す入力バッファ in— buf(0-63)の各々には、対応するプロセッサユニット P U力も入力された 64画素データが書き込まれて、る。

SCU203— 0は、入力バッファ in— bufから読み出した 64画素データを、従属パラメータ DRftiumで選択された矩形画像領域 DR内に書き込む。

本実施形態では、上記矩形画像領域 DRのサイズは、 64 X 1画素データである。

[0145] [set#DR#128xl]

図 58に示す入力バッファ in— buf(0-63)の各々には、対応するプロセッサユニット P U力も入力された 64画素データが書き込まれて、る。 SCU203— 0は、従属パラメータ selに従って、入力バッファ in— bufから読み出した 64画素データを、従属パラメータ DRftiumで選択された矩形画像領域 DR内に書き込む。

本実施形態では、上記矩形画像領域 DRのサイズは、 128 X I画素データである。

SCU203— 0は、従属パラメータ psel=0の場合は矩形画像領域 DRの X座標が 2の倍数の座標 (画素対応位置）に画素データを書き込む。

SCU203— 0は、従属パラメータ psel=lの場合は、矩形画像領域 DRの x座標が 2 の倍数 + 1の座標に画素データを書き込む。

[0146] [set#DR#192xl]

図 59に示す入力バッファ in— buf(0-63)の各々には、対応するプロセッサユニット P U力も入力された 64画素データが書き込まれて、る。

SCU203— 0は、従属パラメータ selに従って、入力バッファ in— bufから読み出した 64画素データを、従属パラメータ DRftiumで選択された矩形画像領域 DR内に書き込む。

本実施形態では、上記矩形画像領域 DRのサイズは、 192 X I画素データである。

SCU203— 0は、従属パラメータ psel=0の場合は矩形画像領域 DRの X座標が 3の倍数の座標 (画素対応位置）に画素データを書き込む。

SCU203— 0は、従属パラメータ psel=lの場合は、矩形画像領域 DRの x座標が 3 の倍数 +1の座標に画素データを書き込む。

SCU203— 0は、従属パラメータ psel=2の場合は、矩形画像領域 DRの x座標が 3 の倍数 +2の座標に画素データを書き込む。

[0147] [set#DR#256xl]

図 60に示す入力バッファ in— buf(0-63)の各々には、対応するプロセッサユニット P U力も入力された 64画素データが書き込まれて、る。

本実施形態では、上記矩形画像領域 DRのサイズは、 256 X I画素データである。 SCU203— 0は、従属パラメータ psel=0の場合は矩形画像領域 DRの x座標が 4の倍数の座標 (画素対応位置）に画素データを書き込む。

SCU203— 0は、従属パラメータ psel=lの場合は、矩形画像領域 DRの x座標が 4 の倍数 +1の座標に画素データを書き込む。

SCU203— 0は、従属パラメータ psel=2の場合は、矩形画像領域 DRの x座標が 4 の倍数 +2の座標に画素データを書き込む。

SCU203— 0は、従属パラメータ psel=3の場合は、矩形画像領域 DRの x座標が 4 の倍数 +3の座標に画素データを書き込む。

[0148] [SCU203— 0の動作シーケンス]

図 2、図 3、図 27に示す SCU203— 0の動作シーケンスについて説明する。

なお、 SCU203— 1〜3は、 SCU203— 0と基本的に同じである。

[0149] SCU203— 0は、 4組の内蔵プロセッサ、 4組のプログラムメモリ、 4組のプログラムカウンタを備えている。

SCU203— 0は、図 1に示すホストプロセッサ 101から入力したプログラムをプログラムメモリに格納する。

SCU203— 0の内蔵プロセッサは、プログラムカウンタに従って、上記プログラムメモリからプログラムを読み出して実行する。当該プログラムには、前述したデータ変換コマンド WI#data#op, WO— data— opが含まれる。

上記内蔵プロセッサは、例えば、 RISCプロセッサである。

上記内蔵プロセッサは、 PU— SIMD処理回路 # 0〜 # 3の処理開始を指示する。上記内蔵プロセッサは、矩形画像領域 WR/AR/BR/CR/DRのアドレス、サイズを指定すると共に、アドレスを即値加算、条件分岐などを行う。

上記内蔵プロセッサが実行するコマンド（命令）は、 instruction,operandO,displacem entからなる。

上記内蔵プロセッサは、 finish命令を実行すると、ホストプロセッサ 101に割り込み信号を出力してプログラムの実行を終了する。

[0150] SCU203— 0の内蔵プロセッサが実行するコマンド (命令）について説明する。

図 61に示すように、上記内蔵プロセッサは、コマンド「exec」を実行する。コマンド「exec」は、データ変換コマンド WI#data#op,WO#data#op、並びにそのパラメ ~~タで teる WIffdata#op#param,WOffdata#op#param 旨疋する。

コマンド「exec」は、 DMA転送を指定するために用いられる。

[0151] 図 62に示すように、上記内蔵プロセッサは、コマンド「branch」を実行する。

コマンド「Branch」には、条件なしの静的ループ処理と、条件付の処理とがある。当該条件付の処理では、矩形画像領域の座標 ax,ay,bx,by,cx,cy,dx,dyと即値との比較結果を基に条件を判断する。

[0152] 図 63に示すように、上記内蔵プロセッサは、コマンド「Set」を実行する。

コマンド「Set」は、矩形画像領域 ax,ay,aw,ah,bx,by,bw,bhなど座標指定、矩形画像領域 cx,cy,cw,ch,dx,dy,dw,dhなどの座標指定などを規定する。

コマンド「Set」は、矩形画像領域 WRを規定する bp,wwを指定する。

コマンド「Set」は、 DMA領域を規定する転送元開始アドレス、転送先開始アドレス、転送サイズを指定する。

[0153] 図 64に示すように、上記内蔵プロセッサは、コマンド「addZsub」を実行する。

コマンド「addZsub」は、矩形画像領域 ax,ay,aw,ah,bx.by,bw,bhなどの座標の加減算、並びに矩形画像領域 cx,cy,cw,ch,dx,dy,dw,dhなどの座標の加減算を行う。

また、コマンド「addZsub」は、 dxにおいてのみ、 PU— SIMD処理回路 # 0〜 # 3 力設定可能な値を加算可能である。

[0154] 図 65 (A)に示すように、上記内蔵プロセッサは、特別な命令としてプログラムカウンタのみ増加させる「no operationや、プログラム終了を指示する「finish progra m」などを実行できる。

[0155] データ変換コマンドの従属パラメータである WI#data#op#param,WO#data#op#para mは、例えば、図 65 (B)に示すように規定される。

当該従属パラメータは、データ変換コマンドと対応付けて、 SCU203— 0のメモリに格納される。

[0156] 図 66に示すように、 SCU203— 0は、コマンド「start PU— SIMD」を実行することで、 PU— SIMD # 0〜 # 3に処理を開始させる。

SCU203— 0は、データ変換コマンド WI#data#opを実行することで、矩形画像領域 WR力読み出したデータを変換して PU— SIMD処理回路 # 0〜 # 3に出力する。 SCU203— 0は、データ変換コマンド WO— data— opを実行することで、 PU— SIM

D # 0〜 # 3から入力したデータを変換して矩形画像領域 WRに書き込む。

本実施形態では、 SCU203— 0の処理 (スレッド）は、図 1に示すホストプロセッサ 1

01が開始指示する。

PU_SIMD(Single Instruction Multiple Data)処理回路 # 0〜 # 3は各 PU— SIM D処理に対応した個別のスレッドで動作し、当該スレッドは、 SCU203— 0あるいはホストプロセッサ 101によって開始指示される。

[0157] データ変換コマンド WI#data#op, WO— data— opのコマンド、並びに当該コマンドによって入出力されるデータは、図 67に示すように、 SCU203— 0内のキューに蓄えられ、順次実行、並びに処理される。

すなわち、内蔵プロセッサは、記憶領域のリード Zライト共に、コマンドを先行発行して実行する。

そして、内蔵プロセッサは、データ変換コマンド WI#data#op, WO#data#opの実行でアドレス計算を行い、そのアドレスをリードおよびライト別にキューに蓄える。

また、リードおよびライトに伴うデータもキューに蓄える。

[0158] [画像処理装置 100の全体動作例]

図 1に示すホストプロセッサ 101はプログラム PRGを実行し、これにより図 2に示す S CU203— 0〜3にプログラムを指定する。

SCU203— 0〜3は、ホストプロセッサ 101によって指定されたプログラムを実行して得たそれぞれ 4本ずつの所定のスレッドに基づ!/、て、それぞれ PUアレイ 202— 0 〜202— 3内の PEの処理進行に応じてメモリシステム 105あるいはローカルメモリ 20 4_0〜3に対するアクセスを実行する。

PUアレイ 202— 0〜202— 3内の図 3および図 4に示す PEは、 SCU203— 0〜3あるいはホストプロセッサ 101の制御に従って、 SCU203—0〜3によるメモリアクセス結果を利用しながら、 SCU203— 0〜3とは別のスレッドで動作する。

[0159] 各 PUアレイ 202— 0〜202— 3内では、 SCU203— 0〜203— 3によって、 PU— S IMD # 0〜 # 3が並列あるいは直列に選択的に接続されて動作する。 PU— SIMD # 0〜# 3内では、図 4に示すように、 16個の PEO〜15がシリアルに接続され、隣接する PE間で必要に応じて画素データの入出力が行われる。

[0160] 以上説明したように、本実施の形態の画像処理装置 100によれば、画像処理ェンジン 102において、 PUアレイ 202— 0〜202— 3内の PU— SIMD(Single Instruction Multiple Data)単位を共通のスレッドで動作させ、当該スレッドとは別のスレッドで SC U203— 0〜3を動作させる。

これにより、膨大な画素データについて、それに対する処理が予め特定でき、且つ相互に独立であることを利用して、複数のプロセッサエレメント（PE)において共通のスレッドを基に並列的に実行できる。

SCU203— 0〜3のスレッドを、 PUアレイ 202— 0〜202— 3のスレッドとは別にすることで、 PEの処理のバックエンドで、当該 PEの処理に係わるデータに関する記憶領域に対してのアクセスを効率的に実現できる。

[0161] 画像処理エンジン 102によれば、 PUアレイ 202— 0〜202— 3の処理に係わるデータについての記憶領域へのアクセスを SCU203— 0〜3が行うことで、 PUアレイ 2 02— 0〜202— 3の PEは記憶領域へのアクセス処理を行う必要がなぐ画像処理を効率的に行うことができる。

[0162] 画像処理エンジン 102によれば、図 3に示すようにプロセッサユニット PUがシリアル接続された両側のプロセッサユニット PUに画素データを入出力できると共に、図 4に示すようにプロセッサユニット PU内でシリアル接続された PEが両側の PEに画素データを入出力できる。これにより、各 PEが独立してメモリアクセスする場合に比べて、メモリアクセス回数を大幅に削減できる。

[0163] 本発明は上述した実施形態には限定されない。

すなわち、本発明の技術的範囲またはその均等の範囲内において、上述した実施形態の構成要素に関し、様々な変更、並びに代替を行っても本発明は適用される。例えば、図 2に示す例では、制御プロセッサ 201によって、複数の SCU203— 0〜 3を統括して制御する例を説明した力図 68に示すように、 SCU203— 0〜3の各々を制御する制御プロセッサ 201— 0〜201— 3を個別に設けてもよい。

[0164] <第 2実施形態 > 本第 2実施形態の画像処理装置 100は、図 1に示すような第 1実施形態と同様の構成を有するが、画像処理エンジン 102の構成が第 1実施形態と異なる。画像処理ェンジン 102以外の画像処理装置 100の構成は、第 1実施形態と同様であるので、ここでは説明を省略する。

以下、第 2実施形態の画像処理エンジン 102の構成について説明する。

[0165] [画像処理エンジン 102]

第 1実施形態と同様、画像処理エンジン 102は、プログラマブルな画像プロセッサであって、画像処理装置 100で実行されるアプリケーションプログラムに応じてホストプロセッサ 101が指示する画像処理を実行する。

[0166] 図 69は、第 2実施形態の画像処理エンジン 102の全体構成図である。

図 69に示すように、画像処理エンジン 102は、制御プロセッサ（CPU) 201、 PU ( プロセッサ.ユニット）アレイ 202— 0〜202— 3、並びにロー力ノレメモリ 204— 0〜204 —3を有する。

[0167] 制御プロセッサ 201は、画像処理エンジン 102全体を制御するプロセッサであって、画像処理エンジン 102の各構成要素に対する設定や起動、および SIMD (Single I nstruction Multiple Data)型プロセッサアレイである PUアレイ 202での並列化が困難な処理の実行を担う。

[0168] PUアレイ 202— 0〜202— 3は、プログラマブルな演算部であって、後述するように複数の SIMD型プロセッサアレイから構成される。また、本実施形態の PUアレイ 202— 0〜203— 0は、後述するように SCU (Stream Control Unit)をその内部に有する点が第 1実施形態と異なる。

[0169] ローカルメモリ 204— 0〜204— 3は、画像処理エンジン 102のワーキングメモリであって、メモリシステム 105に格納された画像データの一部の保持、それぞれ PUァレィ 202— 0〜202— 3で処理された中間結果の格納、それぞれ PUアレイ 202— 0〜2 02— 3で実行されるプログラムや各種パラメータの格納などを行う。

[0170] 画像処理エンジン 102は、ホストプロセッサ 101の制御により、例えば、図 69に示す PUアレイ 202— 0〜202— 3を共通のスレッドで動作させる。

[0171] [PUアレイ 202一 0〜202一 3]

PUアレイ 202— 0につ!/、て説明する。

PUアレイ 202— 1〜202— 3は、 PUアレイ 202— 0と同様の構成を有している。図 70は、図 69に示す PUアレイ 202— 0の構成図である。

図 70に示すように、 PUアレイ 202— 0は、 4つの PU— SIMD (Single Instruction M ultiple Data)処理回路 # 0〜# 3と、それぞれの PU— SIMDに対応して接続された SCU # 10〜 # 13を有する。

[0172] PU— SIMD処理回路 # 0は、コントロールユニット 303— 0と、 4つのプロセッサュニット PU # 00〜 # 03を有する。

プロセッサユニット PU # 00〜 # 03間の接続を隣接するプロセッサユニット間に限定するとともに、 SCUからのデータ供給に用いる I#BUSを 4つのプロセッサユニットで共有することで、配線を少なく出来るとともに、バス制御を簡単にできる。

プロセッサュ-ット？11 # 00〜# 03は、シリアルに接続したことで、隣接画素データを頻繁に使用する画像処理において、ローカルメモリを介さずに画素データを直接的に、隣接するプロセッサユニットに出力でき、処理時間を短縮できる。 PU— SIMD処理回路 # 1〜 # 3は、 PU— SIMD処理回路 # 0と同様の構成を有している。

[0173] [プロセッサユニット PU # 00]

プロセッサユニット PU # 00の構成については、第 1実施形態において図 4と関連付けて行った説明と同様であるため、ここでは説明を省略する。

[0174] SCU(Stream Control Unit) # 10から入力データバス I— BUS0を介してプロセッサユニット PU # 00に入力したデータは、 PU # 00内の入力ラインバッファ 401に書き込まれる。

SCU # 10は、出力ラインバッファ 404から演算結果を読み出す。

[0175] 図 70に示すように、 PUアレイ 202— 0は、 4つの PU— SIMD処理回路 # 0〜 # 3 を独立して並列に動作させることも、直列動作させることもできる。直列に動作させる場合には、 SCU間の接続を利用して接続される。

[0176] 図 70〖こ示すコントロールユニット 303— 0は、図示されない命令格納用メモリを有し、当該命令格納用メモリから読み出した命令をデコードして得た制御信号を、 PU— SIMD # 0内の全ての PEに出力する。

コントロールユニット 303— 0内には、ここには図示されないプログラムフロー制御用ノレープレジスタや、 PE内のストリームレジスタにアクセスするためのポインタレジスタが含まれる。

[0177] 以下、カメラモジュール 107を用いて撮像された静止画像を記録する場合を例に取り上げ、画像処理装置 100における処理手順ならびに処理分配を説明する。

[0178] カメラモジュール 107内の撮像素子で撮影されたデータは、水平スキャンラインごとにセンサ IZF106を介して読み出され、画像処理エンジン 102に出力されると共に、メモリシステム 105に格納される。この際、画像処理エンジン 102では、検波処理の一部が実行される。

メモリシステム 105に 1フレーム分の画像データが格納されると、画像処理エンジン 102は、内部の PU—SIMD処理回路を効率よく並列動作させるため、 1フレーム分の画像データのうち、必要な矩形画像領域を読み出しながら検波処理の残りや各種カメラ信号処理、ならびに各種画像処理を実行する。

画像処理エンジン 102の処理結果は、メモリシステム 105に格納される。画像処理エンジン 102は、解像度変換も行う。解像度変換された画像データは、内蔵表示装置 IZF110を介して内蔵表示装置 111に表示される。

[0179] 画像処理エンジン 102は、複数個の PUアレイ 202— 0〜202— 3で構成されるが、ぞれぞれの PUアレイ 202— 0〜202— 3は、フレーム内の異なる領域を処理する。本第 2実施形態のように 4つの PUアレイ 202— 0〜202— 3で構成する場合、例えば第 1実施形態において図 5に関連付けて説明したように、各 PUアレイ 202— 0〜2 02— 3に領域を割り当てることができる。

PUアレイ 202— 0〜202— 3の各々は、前述したように 64個の PEから成る PU SI MD処理回路を複数個有し、例えば第 1実施形態において図 6に関連付けて説明したように、各 PUアレイ 202— 0〜202— 3に割り当てた領域を、さらに横 64ピクセル幅の矩形画像領域に分割し、各ピクセルを 1つの PEに割り当てることができる。この時、各 PEは、第 1実施形態において図 7に関連付けて説明したように、自らの割り当てられた縦方向のピクセル列を順に処理する。

[0180] 例えば、 PUアレイ 202— 0が第 1実施形態の図 8に示すように、 5 X 5画素のフィルタ処理を行う場合を考える。

この時、 PUアレイ 202— 0内の各 PEは、第 1実施形態の図 8に示すように、処理対象の画素位置 Pixelの画素データのフィルタ処理を行うために、画素位置 Pixelを中心とした 5 X 5の画素位置の画素データを用いる。

PUアレイ 202— 0内の各 PEが画素位置 Pixelの上記 5 X 5画素のフィルタ処理を終了すると、は、第 1実施形態の図 9に示すように、次の 1ライン分の画素位置の画素データをローカルメモリ 204— 0あるいはメモリシステム 105から読み出して PUアレイ 202— 0内のプロセッサユニット PUの入力ラインバッファ 401に書き込む。

そして、 PUアレイ 202— 0内の各 PEは、第 1実施形態の図 10に示すように、次の画素位置 Pixel— nextの画素データの 5 X 5画素のフィルタ処理を行う。

[0181] なお、以上の説明では図 70に示す PU— SIMD # 0を中心に説明した力 PU— S IMD # 1〜 # 3は PU— SIMD # 0と同様である。

PUアレイ 202— 1〜202— 3は、 PUアレイ 202— 0と同様である。

[0182] [プロセッサエレメント PE]

次に、 PEn (n= l〜14)について説明する。

なお、 PE0は PE間では PE1との間でのみデータ入出力を行い、 PE15は PE14との間でのみデータ入出力を行う点を除いて PEnと同一である。

図 71は、第 2実施形態における PEnの構成図である。

図 71に示すように、 PEnは、マルチプレクサ MUX1000、 1001、ストリームレジスタ SR0〜SR3等の各種レジスタ、演算論理ユニット ALUを有する。

[0183] 入力ラインバッファ 401は、 SCU (Stream Control Unit)から送られる入力データを受け取るためのバッファである。 1つの PEあたり 16bitのデータを一段分保持することができる。

出力ラインバッファ 404は、 PEでの演算結果を SCUへ送るためのバッファである。 1つの PEあたり 16bitのデータを一段分保持することができる。

[0184] ストリームレジスタ SR0〜3は、 16bit幅、エントリ数 16のレジスタファイルであり、各 PEは合計 4本の SRを有する。

ストリームレジスタ SR0〜3は、主に、 SCU力供給される演算に必要なデータの格納ゃ、演算結果の一時待避を行うためのレジスタで、直接アドレス指定による参照による参照が可能である。各ストリームレジスタごとに最大 4つのポインタを定義できる。各ポインタは、以下の 3つの値を持つ。すなわち、ポインタ定義領域の始点である「St art」と、ポインタ定義領域の終点である「End」と、現在のポインタ位置である「Current 」である。ただし、 End≥ Startでなければならない。 2つのポインタの Startと Endを同一にし、一つを Readポインタ、他方を Writeポインタとして使用することにより、 FIFOとして機能させることができる。また、ポインタごとに Startと Endを変えてもよい。

また、同一ストリームレジスタ内の全く独立したポインタについて、 Startと Endで指定する領域が互いに重複することを禁止はしな、。

[0185] 以下、ストリームレジスタ SR0〜3に関連する機能について述べる。

1)ストリームレジスタ SR0〜3の参照

ストリームレジスタ SR0〜3に対して書き込みあるいは読み出しを行う際の参照方法としては、ポインタ参照と直接参照の 2種類がある。

ポインタ参照は、指定したポインタの Currentからのオフセットで参照する。オフセット値は、読み出しの場合には 0〜15の範囲の正の整数、書き込みの場合は 0〜3の範囲の正の整数である。

直接参照は、ストリームレジスタ SR0〜3内のエントリを即値で指定する。即値は、 0 〜 15の範囲の正の整数である。

[0186] 2)ポインタ操作

以下に示すようなポインタ操作を実現する命令が用意されている。

a)ポインタが持つ値の即値指定

Start, Endの各値を即値により指定する。

b) Current値に対する即値加算

加算する即値は、 8〜7の範囲の整数である。 c)ポインタが持つ値の初期化

Start, End, Currentの各値は、リセット後に、それぞれ、 0、 15、 0に初期化される。また、 Current値を Start値に初期化する命令も用意されて、る。

[0187] 3) Wraparound

ストリームレジスタ SR0〜3に対するポインタ参照やポインタ操作を行った際に、く St art,End〉で定義される領域を超えることがある。この場合には、以下のような Wraparou ndが行われる。ここで、ストリームレジスタ SR0〜SR3のエントリへの Wraparound前と後の indexをそれぞれ idxbw、 idxawとすると、

iaxaw = (idxbw > End)?

Start + (idxbw- End- 1) % (End- Start+1)： idxbw

idxaw = (idxbw < Start)?

End - (Start- idxbw- 1) % (End- Start+1)： idxbw

である。

[0188] 4)連結モード

4つあるストリームレジスタ SR0〜3のうち、 SR0と SR1あるいは SR2と SR3の糸且み合わせについて、同一ポインタで指定されるポインタ定義領域どうしを連結して使用することができる。例えば、 SR0と SR1の組み合わせについて、ポインタ 0を連結した場合には、 SR0用ポインタ 0の Startと Endで定義される領域と SR1用ポインタ 0の Star tと Endで定義される領域が連結される。あるポインタにつヽて連結モードを指定すると、ストリームレジスタペアのうち偶数側のポインタのみ有効となる。偶数側のポインタ値が Endを超えると、自動的に奇数側のポインタ領域にポインタ値が変更され、あた力も両領域が連続しているように使用することができる。また、奇数側のポインタ領域の Endを超えると、自動的に偶数側の Start値に変更される Wraparoud機能も実現する。この機能により、 2つのストリームレジスタの空き領域を有効利用したり、 16エントリを超えるポインタ領域を定義したりすることができる。ポインタの動作モードとして連結モードが設定された場合には、偶数側のポインタのみ使用できる。連結モードの設定は、ストリームレジスタ単位ではなぐポインタ単位で設定する。したがって、各ポインタに対する連結モードの設定は互、に独立して、る。 [0189] PEが有する他のレジスタ群について簡単に説明する。

レジスタ SO〜S3は、 4個の汎用レジスタであり、それぞれ 16bit長である。 32bitデータを扱う演算を行う場合には、連続する 2つのレジスタ、すなわち SOと S1あるいは S2と S3をレジスタ ·ペアとしてオペランド指定することができる。

レジスタ TEMPSはデータ長が 16ビットの一時退避用レジスタである。

レジスタ TEMPSは、共有機能ュ-ット 403を利用する際に用いられるレジスタであり、共有機能ユニット 403へのアクセス以外の場合では、ワーキングレジスタとして使用できる。これらのレジスタは、算術論理演算命令のソースオペランドとデスティネーシヨンオペランドの両方に指定できる。

[0190] レジスタ CONDは、主に条件実行を行う際に用いられるデータ長が 4ビットのコンデイシヨンレジスタである。算術論理演算のデスティネーションオペランドとして指定可能で、その際には、演算結果のうちの任意の 1ビット、演算論理ユニット ALUにおける演算の結果、キャリーが立った事を示すキャリーフラグ、あるいは演算結果力^であることを示すゼロフラグのどれかの選択とコンディションレジスタのどのビットに反映させるかを指定する。

レジスタ PENUMは、自身のプロセッシングエレメント番号（0〜63)が格納されて!ヽるデータ長が 6ビットのプロセッサ番号レジスタであり、読み出し専用である。

図 71にお!/、て Constと記載されたパスは、レジスタ CONSTANTをソースオペランドとして指定した場合に定数値を渡すパスであり、 16bit幅である。レジスタ CONST ANTは、複数のレジスタで構成される。レジスタ CONSTANTは、 PE毎に持つわけではなぐ SCU内に持たれる。

[0191] PEでは、演算を行う際に、自身のレジスタだけでなぐ隣接する PEのレジスタを参照することができる。すなわち、 PE1は PE0と PE2のレジスタを参照できる。ただし、隣接 PE間で参照できるのは、汎用レジスタ S0〜S3のみである。図 71において、 To Left PE、 To Right PEと記載したノス力それぞれ左隣接 PE、右隣接 PEに汎用レジスタ S0〜S 3の値を渡すパスである。また、 From Left PE、 From Right PEと記載したパスが、それぞれ左隣接 PE、右隣接 PEカゝら選択されたレジスタの値を受け取るパスである。本第 2実施形態の PEは、左隣接 PE用と右隣接 PE用とに別々のマルチプレクサを用意して、るので、左右それぞれ異なる汎用レジスタ参照を同一サイクルで行うことができるので、処理を早く行うことができる。なお、 PE0及び PE15が参照できるのは、左右いずれかの PEのレジスタのみとなる。

[0192] 次に演算論理ユニット ALUについて説明する。

図 71〖こ示すよう〖こ、 PEは 3種類の演算論理ユニットを持ち、これら 3つの演算論理ユニットを用いた演算を同時実行可能である。 3種類の演算論理ユニットは、乗算を行うユニットである Operator Resource Mと、主に加減算や比較演算を行うユニットである Operator Resource A/Bと、主に論理演算やシフトを行うユニットである Operator Resource Lである。

[0193] PEでの演算に必要なデータは、 SCUによって入力ラインバッファ 401に書き込まれる。入力ラインバッファ 401の容量は、 1PEあたり 16bit幅 1段分である。また、 PE で演算された結果は出力ラインバッファ 404に書き込まれる。入力ラインバッファ 401 と同じく、その容量は、 1PEあたり 16bit幅 1段分である。

PEは、ロード命令により入力ラインバッファ 401に書き込まれたデータをストリームレジスタ SR0〜SR3に転送する。ストリームレジスタ SR0〜SR3へは、入力ラインバッファの他に、レジスタ CONDからのロードも可能である。逆に、ストリームレジスタ SR0〜 SR3からレジスタ CONDへデータを移動する命令も用意されている。

出力ラインバッファ 404への書き込みは、通常は演算命令のデスティネーションォぺランドに直接指定することにより行うが、レジスタ CONDから出力ラインバッファ 40 4へデータを移動する命令も用意されてヽる。

これらデータ転送は、演算論理ユニット ALUが行う演算と並行して行われる。

すなわち、第 2実施形態の PEでは、同時に複数の演算を行うことができる。共有機能ユニット 403については、第 1実施形態において行った説明と同様であるため、説明を省略する。

[0194] [SCU (Stream Control Unit) # 10〜 # 13]

以下、 SCU # 10について説明する。

SCU # 11〜# 13は、 SCU # 10と同じである。

[0195] SCU # 10は、図 70等に示すように、複数の PU SIMD (Single Instruction Multi pie Data)処理回路 # 0に対して、それを構成する個々のプロセッサエレメント PEの処理に必要なデータを効率よくデータを入出力するための制御を行う。

同様に、 SCU # 11は PU— SIMD処理回路 # 1に対して、 SCU # 12は PU— SI MD処理回路 # 2に対して、 SCU # 13は PU— SIMD処理回路 # 3に対して、それを構成する個々のプロセッサエレメント PEの処理に必要なデータを効率よくデータを入出力するための制御を行う。

[0196] SCU # 10は、処理に必要なデータを半導体メモリなどに代表される記憶装置に収納する。

PU— SIMD処理回路 # 0〜# 3は、 SIMD型プロセッサであるため、すべての PE に対する入出力は時間的に同時に行われる。従って、 SCU # 10による PU— SIMD # 0に対する入出力は、 PEの個数分の入出力データを同時に入出力することになる。以下同時に入出力されるデータを、ストリームデータと呼ぶことにする。

[0197] 一方、 PU— SIMD処理回路 # 0〜 # 3は画像情報の処理を主に行うが、処理対象である画像情報は、メモリなどの記憶装置において、物理的な 1次元のアドレスで管理された記憶領域内に、論理的な 2次元記憶領域を確保して記憶されている。その画像データの基本単位は画素データと呼ばれる。

SCU # 10は、 PU— SIMD処理回路 # 0と、メモリシステム 105およびローカルメモリ 204— 0との間に位置し、複数の画素データをストリームデータに変換して入出力を行う機能を持っている。

[0198] 次に、 SCU # 10の構造について説明する。

図 72は、 SCU # 10の構造を示すブロック図である。

図 72に示すように、 SCU # 10は、書き込み部 # 101と、読み込み部 # 102と、制御部 # 103とからなる。

[0199] 書き込み部 # 101は、ローカルメモリ 204— 0またはメモリシステム 105 (以下記憶領域)への書き込みを行う。

読み込み部 # 102は、記憶領域からの読み込みを行う。

制御部 # 103は、 SCU # 10の全体的な制御を行う CPU等の制御装置であり、データ処理や PU SIMD処理回路 # 0へのデータ供給を行う。 [0200] 以下、 SCU # 10が記憶領域内に定義する矩形画像領域について説明する。

SCU # 10が扱う記憶領域内の矩形画像領域の階層構成を、図 73を参照して説明する。

図 73に示すように、 SCU # 10は、記憶領域中に、入力作業領域として矩形画像領域 WIRを指定する。

SCU # 10は、矩形画像領域 WIR内に、画素データの読み出し元である矩形画像領域 BRを指定する。

SCU # 10は、ホストプロセッサ 101から入力したプログラムに基づいて、矩形画像領域 BR力読み出した画素データを、 PU— SIMD処理回路 # 0〜 # 3が必要とするストリームデータに変換するデータ変換コマンド WI#data#opを実行 (指定)する。

SCU # 10は、後述するように矩形画像領域 BR及び WI— data— op指定の一連の繰り返し処理をプログラム可能である。

[0201] 図 73に示すように、 SCU # 10は、記憶領域中に、出力作業領域として矩形画像領域 WORを指定する。

SCU # 10は、矩形画像領域 WOR内に、画素データの書き込み先である矩形画像領域 DRを指定する。

SCU # 10は、 PU—SIMD # 0の出力ストリームデータから、矩形画像領域 DRへのデータ変換コマンド WO#data#opを実行する。

SCU # 10は、後述するように矩形画像領域 DR、 WO— data— op指定は、一連の繰り返し処理をプログラム可能である。

SCU # 10は、矩形画像領域 BRは矩形画像領域 WIR内の、矩形画像領域 DRは矩形画像領域 WOR内の、任意の位置への配置と移動可能である。

SCU # 10は、矩形画像領域 WIR或いは WOR内において、矩形画像領域 BR或いは DRを、 2次元論理座標で指定が可能である。

SCU # 10は、記憶領域に対して矩形画像領域 WIR或いは WORを物理アドレスで指定できる。

SCU # 10は、矩形画像領域 WIR、 WOR, BR、 DR内部の画素データがアクセスされた場合には、記憶領域へアクセスが必要になるため、論理アドレスから物理アドレスへの変換を行って記憶領域にアクセスする。

[0202] 図 74は、 SCU # 10内部に設定される多重矩形画像領域に関する処理を行う機能を説明するための図である。

図 74に示すように、 SCU # 10は、 PU— SIMD処理回路 # 0に、記憶領域内の矩形画像領域 WIRO及び WOROを割り当てる。

矩形画像領域 WIRO及び WOROは、メモリシステム 105やローカルメモリ 204— 0 などの記憶領域内に規定される。

また、本実施形態の SCU # 10は、記憶領域中に WIR0〜WIR7の 8種類の WIRと、 WOR0〜WOR7までの 8種類の WORを定義することが可能である。更に、それぞれの矩形画像領域 WIR0〜WIR7に矩形画像領域 BR0〜： BR7が、 WOR0〜WOR 7に DR0〜DR7力それぞれ 1つずつ規定される。

[0203] 図 72に示す SCU # 10は、データ変換コマンド WI— data— opにより、矩形画像領域 BR内のデータをストリームデータへ変換して、出力バッファ out— bufに Writeするまた、 SCU # 10は、データ変換コマンド WO#data#opにより、 PU— SIMD処理回路 # 0から入力して入力バッファ in#bufに収納されて、るストリームデータをデータ変換して矩形画像領域 DRに Writeする。

[0204] 図 72を参照して上述したように、矩形画像領域 WIR内に矩形画像領域 BR、 WOR 内に DRを階層構造で規定することで、例えば、矩形画像領域 WIR内で矩形画像領域 BRを、 WOR内で DRを相対的に移動させる場合に、基準座標を矩形画像領域 B R、 DR内のローカルな座標に加算する形式でのアドレス表現が可能になり、プロダラミングが簡単になる。

すなわち、第 1実施形態の SCU203_0が矩形画像領域内に AR或いは CRを設定し、さらにその中に BR或いは DRを設定していた力本第 2実施形態の SCU # 10 によれば、 WRの中に AR及び CRを設定せずに BR及び DRを設定しているので、 S CU # 10の動作は簡略化され、動作速度が速くなる。

[0205] 次に、 SCU # 10がデータ転送のために行う接続を説明する。

[システムノス接続]

図 1に示すシステムバス 113は、 SCU # 10を、ホストプロセッサ 101およびメモリシステム 105などの他の処理モジュールを接続するバスであり、以下の特徴を有する。

(3)システムバス 113上の記憶装置（例えば、メモリシステム 105)に対して、 SCU # 10はバスマスタとしてアクセスする。

(4)システムバス 113上の SCU # 10以外のバスマスタから、 SCU # 10の内部レジスタゃ SCU専用記憶装置（例えば、、ローカルメモリ 204— 0)へのアクセスを行う。

[0206] [SCU # 10の専用記憶領域接続]

SCU # 10は、専用記憶領域として専用記憶装置を接続することが可能である。専用記憶装置は SRAMや DRAMなどの半導体メモリが SOC内部と外部のどちらにあろうとも選択可能である。

上記専用記憶装置は、システムバス 113より広帯域なバスに接続される。上記専用記憶装置は、 1つの SCU # 10が占有して使用する目的で用意されている。

[0207] [PU_SIMD接続]

SCU # 10には、 PU— SIMD処理回路 # 0がバス接続される。

同様に、 SCU # 11には PU— SIMD処理回路 # 1力 SCU # 12には PU— SIM D処理回路 # 2が、 SCU # 13には PU SIMD処理回路 # 3がバス接続される。 SCU # 10から PU— SIMD処理回路 # 0へのストリームデータ入力は、 PU— SIM D処理回路 # 0に 256ビットの単方向バスを使用する。転送効率は 256bit/clockである。

SCU # 10内部には出力バッファ out_bufを用意する。

SCU # 10から出力を行う場合は、 PU— SIMD処理回路 # 0に対してアドレスを指定することで PU—SIMD処理回路内部レジスタを識別する。

PU— SIMD処理回路 # 0から SCU # 10へのストリームデータ入力は、各 PU— SI MDの 256ビットの単方向バスを使用し、転送効率は 256bit/clockである。

また、データ転送プロトコルとして 2線式のハンドシェークを採用する。

SCU # 10内部には入力用の入力バッファ in_bufを用意する。

PU— SIMD処理回路 # 0から SCU # 10へ入力を行う場合は、 PU— SIMDに対してアドレスを指定することで PU—SIMD処理回路内部レジスタを識別する。

[0208] [SCU # 10の物理論理アドレス変換]

SCU # 10がアクセスする図 73および図 74を用いて説明した記憶領域内の矩形画像領域 WR内部の画素対応位置 Pixelは 2次元論理アドレスで表現されてヽるが、メモリシステム 105およびローカルメモリ 204— 0は物理アドレスで表現されている。従つて、 SCU # 10は、矩形画像領域 WR内の矩形画像領域 AR, BR, CR, DR内部に指定された画素対応位置 Pixel〖こ対して Readまたは WRiteを行う場合は、 2次元論理アドレスから物理アドレスへのアドレス変換を行う。

アドレス変換の方法については、第 1実施形態と同様であるためここでは説明を省略する。

[0209] [SCU # 10による記憶領域へのアクセス]

SCU # 10は、上述したように、記憶領域として、システムバス 113に接続された大規模外部記憶装置であるメモリシステム 105と、小規模な専用記憶装置であるロー力ルメモリ 204— 0を使用することができる。

メモリシステム 105は、例えば、 SCU # 10が含まれる SOCの外部に接続される DRA M- CHIPであり、一般的な DDRや RAMBUSなどのメモリ chipなどである。ローカルメモリ 204— 0は、例えば、 SCU # 10が含まれる SOC内部の SRAMや eDR AM (Embedede- DRAM:SCUと同じ SOCに含まれる On- chip DRAM)などである。

[0210] 一般的に、 DRAMは、 Raw/Column/bankといったアドレスの階層構造があり、同一の Rawに含まれる連続データアクセスは高速である力 Raw境界をまたがった連続データアクセスや、遠隔の Raw同士の連続アクセスは、ページプリチャージなどの処置を必要とするため、低速となるという特徴がある。

本実施形態では、 SCU # 10は、例えば、メモリシステム 105やローカルメモリ 204 — 0として、 DRAMを使用している力 SRAMであっても問題はない。また、 DRAMを使用する場合、上記アクセス性能の不連続性を可能な限り避ける目的で、記憶領域内の画素データの矩形画像配列を、ストリームデータ生成時には可能な限り同一ぺージに配置する工夫をすることで、 DRAMアクセスの不連続性を可能な限り低減する処置をとることができる。

この工夫は、たとえば第 1実施形態で説明した方法等により実現することができる。

[0211] [SCU # 10による多重矩形画像領域定義 (読み出し時) ]

SCU # 10は、上述したように、記憶領域内の矩形画像領域 WIR内に、図 75に示すように、 2次元論理アドレス表現で多重矩形画像領域として、矩形画像領域 BRを規定できる。

WIRは、記憶領域中に物理アドレッシング可能な連続領域として定義される。また、 WIR内部の pixelの指定は、 SCUによって論理アドレッシングにより定義される。

ここで pixelは 16bit固定サイズで論理アドレッシングされる。ただし、記憶領域の情報量削減のために、 lpixelを 12bit或いは 8bitで表現することもでき、この場合は、記憶領域内部と SCUでの pixel表現の違、（例えば、記憶領域内では 8bitZpixel の場合、 SCU内部の lpixelが記憶領域内の 2pixelと等価）に留意する必要がある。

[0212] また、 WIR内には BRを定義することができる。

BRは、 WIR内に論理アドレス空間で定義される。

BRは、 WIRの部分コピーではなくアドレスマッピング変換でアクセスする。

BRを定義する際には、 WIRを逸脱して定義することもできるが、逸脱した場合の pi xel値は保障されない。

BRは、 BRO〜： BR7の 8種類存在する。

BR領域は、 BRn (n=0〜7)ごとに矩形の左端座標（図 75における bx、 by)を指定できる。

BR領域の矩形サイズは、以下の 8種類の中力 wi— data— opによって指定される。すなわち、水平方向 16、 32、 48、 64pixelで垂直方向に lpixelの領域、あるいは水平方向に lpixelで垂直方向に 16、 32、 48、 64pixelの領域のいずれかである。

[0213] それぞれの位置関係を示す値として以下の座標値が使われる。

wirwは、矩形画像領域 WIRの X方向矩形画像領域幅である。

bx及び byは、矩形画像領域 WIR内の矩形画像領域 BRの 2次元座標を示す。矩形画像領域 WIRの左上を原点 (0,0)とした座標系で、矩形画像領域 BRの左上の画素対応位置 Pixelの座標を示す。

bw及び bhは、矩形画像領域 BRの幅と高さを示す。

[0214] [SCU # 10による PU— SIMD # 0へのデータ入力処理]

SCU # 10は、矩形画像領域 BRから画素データ Pixel (bx, by)を読み出し、これをデータストリームへデータに変換して（入力データ変換処理を行って） PU— SIMD 処理回路 # 0に入力させる。この処理は、第 1実施形態において説明した処理と同様であるため、説明を省略する。

[0215] [SCU # 10による多重矩形画像領域定義 (書き込み時) ]

SCU # 10は、記憶領域内の矩形画像領域 WOR内に、図 76に示すように、 2次元論理アドレス表現で多重矩形画像領域として、矩形画像領域 DRを規定できる。

WORは、記憶領域中に物理アドレッシング可能な連続領域として定義される。また、 WOR内部の pixelの指定は、 SCUによって論理アドレッシングにより定義される。

[0216] また、 WOR内には DRを定義することができる。

DRは、 WOR内に論理アドレス空間で定義される。

DRは、 WORの部分コピーではなくアドレスマッピング変換でアクセスする。 DRを定義する際には、 WORを逸脱して定義することもできる力逸脱した場合の p ixel値は保障されない。

DRは、 DR0〜DR7の 8種類存在する。

DR領域は、 DRn (n=0〜7)ごとに矩形の左端座標（図 76における dx、 dy)を指定できる。

DR領域の矩形サイズは、以下の 8種類の中力 wo— data— opによって指定される。すなわち、水平方向 16、 32、 48、 64pixelで垂直方向【こ lpixelの領域、ある!/ヽは水平方向に lpixelで垂直方向に 16、 32、 48、 64pixelの領域のいずれかであるそれぞれの位置関係を示す値として以下の座標値が使われる。

worwは、矩形画像領域 WORの X方向矩形画像領域幅を示す。

dx及び dyは、矩形画像領域 WOR内の矩形画像領域 DRの 2次元座標を示す。矩形画像領域 WRの左上を原点 (0,0)とした座標系で、矩形画像領域 DRの左上の座標を示す。

dw及び dhは、矩形画像領域 DRの幅と高さを示す。

[0217] [PU— SIMD処理回路 # 0の出力データ変換処理]

PU— SIMD処理回路 # 0が出力したストリームデータは、入力バッファ in— bufに書き込まれる。

SCU # 10は、入力バッファ in— bufからデータを読み出し、並べ替えなどのデータ変換処理を施した後に、矩形画像領域 DRに書き込む。

また、 SCU # 10は、必要に応じて、入力バッファ in— bufからデータを読み出し、マスクデータ DRftnaskに従った並べ替えなどのデータ変換処理を施した後に、矩形画像領域 DRに書き込む。これらの処理に関しては、第 1実施形態において SCU203—0が行う処理と同様であるため、説明を省略する。

[0218] [画像処理装置 100の全体動作例]

図 1に示すホストプロセッサ 101はプログラム PRGを実行し、これにより図 70に示す SCU # 10〜 # 13にプログラムを指定する。

SCU # 10〜# 13は、ホストプロセッサ 101によって指定されたプログラムを実行して得たそれぞれ 4本ずつの所定のスレッドに基づ!/、て、それぞれ PUアレイ 202— 0 〜202— 3内の PEの処理進行に応じてメモリシステム 105あるいはローカルメモリ 20 4_0〜3に対するアクセスを実行する。

PUアレイ 202— 0〜202— 3内の PEは、 SCU203— 0〜3あるいはホストプロセッサ 101の制御に従って、 SCU # 10〜# 13によるメモリアクセス結果を利用しながら、 SCU # 10〜 # 13とは別のスレッドで動作する。

[0219] 各 PUアレイ 202— 0〜202— 3内では、 SCU # 10〜# 13と PU— SIMD # 0〜# 3とがそれぞれ接続されて動作する。

PU— SIMD # 0〜# 3内では、 16個の PE0〜15がシリアルに接続され、隣接する PE間で必要に応じて画素データの入出力が行われる。

[0220] 以上説明したように、本第 2実施形態の画像処理装置 100によれば、画像処理ェンジン 102において、 PUアレイ 202— 0〜202— 3内の PU— SIMD(Single Instructi on Multiple Data)単位を共通のスレッドで動作させ、当該スレッドとは別のスレッドで S CU # 10〜 # 13を動作させる。

これにより、膨大な画素データについて、それに対する処理が予め特定でき、且つ相互に独立であることを利用して、複数のプロセッサエレメント（PE)において共通のスレッドを基に並列的に実行できる。更に、第 2実施形態の PEでは、同時に複数の演算を行うことができるため、装置全体の処理速度が向上する。

また、 SCU # 10〜# 13のスレッドを、 PUアレイ 202— 0〜202— 3のスレッドとは別にすることで、 PEの処理のバックエンドで、当該 PEの処理に係わるデータに関する記憶領域に対してのアクセスを効率的に実現できる。

[0221] 画像処理エンジン 102によれば、 PUアレイ 202 0〜202 3の処理に係わるデータについての記憶領域へのアクセスを SCU # 10〜# 13行うことで、 PUアレイ 20 2— 0〜202— 3の PEは大規模な記憶領域へのアクセス処理を行う必要がなぐ画像処理を効率的に行うことができる。

[0222] 画像処理エンジン 102によれば、プロセッサユニット PUがシリアル接続された両側のプロセッサユニット PUに画素データを入出力できると共に、プロセッサユニット PU 内でシリアル接続された PEが両側の PEに画素データを入出力できる。これにより、各 PEが独立してメモリアクセスする場合に比べて、メモリアクセス回数を大幅に削減できる。

[0223] 更に、本第 2実施形態の画像処理装置 100によれば、 PU— SIMD毎に SCUを割り当て個別に処理を行うので、 SCUにかかる負荷が軽減され、画像処理に要する時間が短縮される。

更に、本第 2実施形態の画像処理装置 100によれば、 SCU # 10〜# 13の記憶領域内に定義する多重矩形画像領域が WRと BR (或いは DR)の 2重のみであるので、処理が簡略化され、画像処理装置 100全体にかかる負荷が軽減され、処理に要する時間が短縮される。

[0224] 本発明は上述した実施形態には限定されない。

すなわち、本発明の技術的範囲またはその均等の範囲内において、上述した実施形態の構成要素に関し、様々な変更、並びに代替を行っても本発明は適用される。

[0225] 上述した実施形態では、多量のデータを扱う画像処理を例示した力画像処理以外に各種のデータ処理についても本発明を適用可能である。

すなわち、本発明は、 PU— SIMD処理回路のように、それぞれ複数のプロセッサエレメント PEを有する複数のプロセッサユニット PUを用いて信号処理を分散処理する場合に、各プロセッサユニット PU内の対応する各プロセッサエレメント PEに記憶手段力もいかに効率よく対応するデータを提供する、あるいは、逆の各プロセッサエレメント PEからのデータを整合性を保って記憶手段に書き込むという処理を行う、各種の信号処理に適用できる。

[0226] 本実施形態で説明した PUアレイ 202— 0〜202— 3、 SCU203— 0〜203— 3、プ口セッサユニット PU、プロセッサエレメント PEの数は任意である。

Claims

請求の範囲

[1] 記憶部と、

前記少なくとも 1つの記憶部のうちいずれか所定の 1つの記憶部へのデータの読み出し及び Zまたは書き込みを制御する入出力データ制御部（scu)と、

前記入出力データ処理部が読み出したデータに対して所定の信号処理を行う信号処理部（PUアレイ或いは PU— SIMD)と、

を有する信号処理装置であって、

前記入出力データ制御部と、前記信号処理部とは別のスレッドに基づ、て動作する

信号処理装置。

[2] 前記信号処理部は、 SIMD (Single Instruction Multiple Data)方式の信号処理回路 (PU)を複数有し、

前記複数の信号処理回路は互いに直列に接続されており、

前記複数の信号処理回路の 1は、前記入出力データ制御部が前記記憶部から読み出し前記信号処理部に入力したデータを基に前記所定の処理を行うとともに、隣接する他の信号処理回路との間でデータのやり取りを行う

請求項 1に記載の信号処理装置。

[3] 前記入出力データ制御部は、前記複数の信号処理回路のうち任意の少なくとも 1 つの信号処理回路を、直列或いは並列の!/、ずれか一方で選択的に接続可能である請求項 2に記載の信号処理装置。

[4] 前記信号処理部を所定数有する信号処理装置であって、

前記信号処理部と同数の前記入出力データ処理部を有する

請求項 2に記載の信号処理装置。

[5] 前記入出力データ制御部は、内蔵メモリを有し、

前記入出力データ制御部は、前記複数の信号処理回路のうち 1の処理回路が他の処理回路の結果を用いる場合に、前記他の処理回路の処理の結果を前記内蔵メモリに書き込み、当該内蔵メモリから当該結果を前記処理回路に読み出す

請求項 2に記載の信号処理装置。

[6] 前記複数の信号処理回路は、それぞれ所定の数の信号処理エレメント (PE)を有し前記所定の数の信号処理エレメントは互、に直列に接続されており、

前記複数の信号処理エレメントの 1は、前記入出力データ制御部が前記記憶部から読み出し前記信号処理部に入力したデータを基に前記所定の処理を行うとともに、隣接する他の信号処理回路との間でデータのやり取りを行う

請求項 2に記載の信号処理装置。

[7] 前記データは画像データであり、

前記複数の信号処理回路は、画像データを処理する回路であり、

前記入出力データ制御部は、前記記憶部内に階層的に矩形の画像データ記憶領域を規定し、

前記矩形の画像データ記憶領域内のアドレスを当該矩形の画像データ記憶領域にローカルな 2次元アドレスで管理し、

前記記憶領域内における前記矩形の画像データ記憶領域の位置を示す基準アドレスと前記 2次元アドレスとを基に、 1次元アドレスを生成し、

前記 1次元アドレスを基に前記記憶部に記憶された画像データにアクセスする請求項 2に記載の信号処理装置。

[8] 前記データは画像データであり、

前記入出力データ制御部は、

前記記憶部から画像データを読み出して前記信号処理部に出力できる形式に変換し、及び Zまたは前記信号処理部から入力された画像データを前記記憶部に記憶できる形式に変換する変換部 (制御部）と、

前記記憶手段から読み出され前記変換部が変換した画像データを、前記信号処理部に出力する前に一時保持する第 1のバッファと、

前記信号処理部から入力され前記変換部が変換した画像データを、前記記憶部に書き込まれるまで一時保持する第 2のバッファと、

を有する請求項 1に記載の信号処理装置。

[9] 前記データは画像データであり、

前記入出力データ制御部は、前記記憶部から読み出した画像データを構成する複数の部分画像データを対応する前記複数の信号処理エレメントに出力する

請求項 6に記載の信号処理装置。

[10] 前記入出力データ制御部は、

前記矩形の画像データ記憶領域内のあらかじめ決まられた複数の基準アドレスの中から選択した基準アドレスを前記複数の処理回路に出力する

請求項 7に記載の信号処理装置。

[11] 前記入出力データ制御部は、

前記記憶部力前記基準アドレスを読み出し、

当該読み出した基準アドレスを基に、前記矩形の画像データ記憶領域へのァクセスを管理する

請求項 7に記載の信号処理装置。

[12] 前記入出力データ制御部は、前記複数の信号処理回路の各々に対応して前記第 1及び第 2のバッファをそれぞれ有し、

任意の前記信号処理回路に対応付けられた前記第 2のバッファから当該任意の信号処理回路が出力したデータを読み出して、他の信号処理回路に対応付けられた前記第 1のバッファに書き込む

請求項 8に記載の信号処理装置。

前記記憶管理回路は、

前記第 2のバッファ力読み出したデータを基にマスクデータを生成し、その後、前記マスクデータを基に、前記第 2のバッファ力読み出したデータを選択的に前記記憶手段に書き込む、

請求項 5に記載の信号処理装置。

[13] 前記入出力データ制御部は、前記複数の信号処理回路の前記第 1のスレッドの実行開始を指示する請求項 1に記載の信号処理装置。

[14] 前記信号処理エレメントは、

算術演算および Zまたは論理演算を行う演算論理回路と、

当該信号処理エレメントが直列に接続された他の 2つの前記信号処理エレメントと前記入出力データ制御部とから入力したデータを記憶する第 1レジスタと、

前記第 1レジスタから読み出され、前記他の 2つの信号処理エレメント、前記演算論理回路および前記入出力データ制御部の何れかに選択的に出力されるデータを記憶する第 2レジスタと

を有する、

請求項 13に記載の信号処理装置。

[15] 前記第 1のレジスタは、ポインタアクセス型のレジスタである

請求項 14に記載の信号処理装置。

[16] 前記演算論理回路における演算処理と、前記第 1のレジスタおよび前記第 2のレジスタに対するロードおよびストア処理は並列に実行可能である

請求項 15に記載の信号処理装置。

[17] 複数の前記第 1のレジスタのうち少なくとも一つの前記第 1のレジスタは、前記演算手段による前記演算処理を制御する制御フラグを設定するためのレジスタである請求項 16に記載の信号処理装置。

[18] ホスト処理回路と、

pL fe p[5ど、

を有する信号処理装置であって、

前記信号処理部は、前記ホスト処理回路ある!、は前記入出力データ制御部の制御により、共通の第 1スレッドに基づいて動作し、

前記入出力データ制御部は、前記ホスト処理回路の制御により、前記第 1スレッドとは別の第 2のスレッドに基づいて動作する信号処理装置。