WO2006013839A1

WO2006013839A1 - アレイ型演算装置

Info

Publication number: WO2006013839A1
Application number: PCT/JP2005/014077
Authority: WO
Inventors: Hiroyuki Morishita; Takeshi Tanaka; Masaki Maeda; Yorihiko Wakayama
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-08-04
Filing date: 2005-08-02
Publication date: 2006-02-09
Also published as: US20080282061A1; JPWO2006013839A1; CN101010671A; JP4213750B2; CN100458762C; US7606996B2

Abstract

　アレイ型演算装置は、順に配置された複数のプロセッサエレメントで構成されたプロセッサアレイを備え、１サイクル毎に、1個の命令を発行し、１サイクル毎に、最初のプロセッサエレメントの動作を制御する為の動作制御情報を作成し、作成した動作制御情報と1個の命令とに基づき、最初のプロセッサエレメントに対する命令を生成し、他のプロセッサエレメントの動作を制御する為の動作制御情報を、1つ前のプロセッサエレメントの動作を制御する為に作成した動作制御情報を基に作成し、作成した動作制御情報と前記命令取得手段で取得した1個の命令とに基づき、前記プロセッサエレメントに対する命令を生成する。

Description

明細書

アレイ型演算装置

技術分野

[0001] 本発明は DVDレコーダやデジタル TV等、デジタル信号を用いた映像、音響機器に用いる信号処理 LSIに関するものであり、特に、画像信号処理 LSIに関する。背景技術

[0002] 近年、地上波デジタル放送などに代表されるように、動画像のデジタル化が進んでいる。

それに伴い動画像の圧縮化の技術が開発され、 MPEG (Moving Picture Experts Group)符号ィ匕は、画像の中の動く部分だけを検出して保存することにより高効率圧縮を実現している。

[0003] さらに、近年のデジタル AV機器等の多様ィ匕により、様々な機器に MPEG符号化 L SIが搭載されるに至っており、例えば、据え置き機器である DVDレコーダとモノくィル機器であるカムコーダとでは、 MPEG2エンコードというアプリケーションが動作する。この場合、同じ MPEG2エンコーダというアプリケーションであっても、据え置き機器である DVDレコーダでは、モノくィル機器であるカムコーダに比べ、より高画質を保障するアルゴリズムの実行が要求される。

[0004] この要求に対応するためには、共通のハードウェア上で、ソフトウェアにより用途に応じた柔軟な処理を実現することが望まヽ。

ここで、 MPEG符号ィ匕について簡単に説明すると、この方式では、現フレームの被写体が過去又は未来のフレームでどの方向にどの程度動!、たかを表す動きベクトルと、動きベクトルだけでは表せな力つた輝度と色差の変化量とを保存して、る。

[0005] この動きベクトルを求める処理を動きベクトル探索処理（図 1参照）といい、この処理は、一般的なリサイズフィルタや動き補償等の画像処理に比べて処理量が非常に大きくなるという特徴がある。

というのは、通常、例えば 16 X 16ピクセルのマクロブロックと呼ばれる単位（図 1 :対象画像 200)で、そのブロックが過去又は未来のフレーム（図 1 :参照画像 100)のどこに移動したのかを 1ピクセルずつずらしながら検索し、最も類似度が高い部分を見つけ、動きベクトルを求める力もである。このマクロブロックは、例えば、 720 X 480ドットのフレームの場合 1350個となり、そのすべてについて、検索がなされる。

[0006] 従って、 MPEG符号ィ匕においては、動きベクトル探索処理の性能が重要になる。

この動きベクトル探索処理は、同様な処理の繰り返しであることから、複数の演算器を 1次元方向又は 2次元方向に展開した演算装置を使用して処理性能を向上させる技術が開発されている。

現在、一般的な画像処理では 1次元方向に展開した演算装置が使用されているが、これは、並列使用できる演算器の個数が少なぐ動作周波数の低減、すなわち電圧の低下が充分には実現できない場合が多い。従って、熱及び消費電力の問題から、モパイル機器や家電機器への適用は、並列使用できる演算器の個数がより多ぐ動作周波数の低減をより図ることができる 2次元方向に展開した演算装置 (以下、「2 次元アレイ型演算装置」 t 、う。 )を使用する方が望ま、。

[0007] この 2次元アレイ型演算装置の性能向上技術として、複数の演算器間のデータ通信の際に発生する待ち時間の低減を図る技術が開示されている (特許文献 1参照)。特許文献 1：特開平 09— 022404号公報

発明の開示

発明が解決しょうとする課題

[0008] しかし、 2次元アレイ型演算装置は、制御する演算器の数が格段に増えることから、これらの演算器をソフトウェアで制御し、機器に応じて異なるアルゴリズムを実現させるためには、ソフトウェアの命令長が伸びることは必然である。

その結果、それらの命令をフェッチする先の命令メモリ、及びその命令を解読する為の命令デコーダの規模が大きくなり、ハードウアの面積増加となり、結果的に LSI のコスト増につながり妥当ではない。

[0009] そこで、本発明は、ソフトウェアによって、 2次元アレイ型演算装置をより柔軟に制御して効率的な並列処理を実現し、かつ、ハードウアの面積が大きくならないような 2 次元アレイ型演算装置の提供を目的とする。

課題を解決するための手段 [0010] 上記課題を解決する為に、本発明のアレイ型演算装置は、順序付けられた複数のプロセッサエレメントで構成されたプロセッサアレイと、 1サイクル毎に、 1個の命令を取得する命令取得手段と、 1サイクル毎に、第 1順位のプロセッサエレメントの動作を制御する為の動作制御情報を作成し、作成した動作制御情報と前記命令取得手段で取得した 1個の命令とに基づき、第 1順位のプロセッサエレメントに対する命令を生成する手段と、 1サイクル毎に、次順位以降のプロセッサエレメントの動作を制御する為の動作制御情報を、前順位のプロセッサエレメントの動作を制御する為に作成した動作制御情報を基に作成し、作成した動作制御情報と前記命令取得手段で取得した 1個の命令とに基づき、前記次順位以降のプロセッサエレメントに対する命令を生成する手段とを備えることを特徴とする。

発明の効果

[0011] 本発明に係るアレイ型演算装置は、上述の構成を備えることにより、 1つの命令によつて、複数のプロセッサエレメント（P rocessor element 以 ρ 「P_t^」と!/、つ。 )に異なる動作をさせることができるようになるので、複数の PEを使用して柔軟な処理を行うことができるようになる。

また、命令数が少なくなることにより、実行に必要なハードウア資源も少なくて済むようになる。

[0012] また、前記プロセッサアレイは、信号線で連結された複数のプロセッサエレメントで構成され、 1サイクル毎に、各プロセッサエレメントの演算結果を、前記信号線を介して次順位のプロセッサエレメントに伝達することとしてもよ、。

これによりアレイ型演算装置は、 PEの演算結果を後続の PEに伝達することができ

、複数 PEの演算結果を用いた処理を一度に行うことが出来るので、処理速度を改善することが出来るようになる。

[0013] また、前記アレイ型演算装置は、更に、 1サイクル毎に、基本制御情報を生成する基本制御情報生成手段を備え、第 1順位のプロセッサエレメントの動作を制御する為の動作制御情報は、前記基本制御情報生成手段で生成された基本制御情報を基に作成されることとしてもよ、。

これにより、 1つの制御情報を生成することで、全ての PEの動作に影響を与えることが出来るので、同じ PEアレイを使用して、様々な処理を行うことが出来るようになる。

[0014] また、前記プロセッサエレメントは、それぞれ、複数種類のデータを取得するデータ取得手段を備え、前記動作制御情報は、各プロセッサエレメントが命令を実行する際に使用するデータの種類を指定する指定情報を含み、前記各プロセッサエレメントは、実行に際して、前記指定情報に応じて取得したデータを使用することとしてもよい。これにより、 PEごとに実行する際に使用するデータを変更することが出来るので、より柔軟な処理を行うことが出来るようになる。

[0015] また、前記動作制御情報は、前記命令取得手段で取得した 1個の命令を実行するか否かを指定する情報であって、前記動作制御情報が実行する旨の指示である場合には、前記プロセッサエレメントは前記命令を実行し、前記動作制御情報が実行しない旨の指示である場合には、該当するプロセッサエレメントへの電力供給を抑止することとしてちよい。

これにより、演算を実行しな、PEへの電源供給を行なわな、ようにすることが出来るので、消費電力を減らすことが出来るようになる。

[0016] また、本発明のアレイ型演算装置は、信号線で連結された N個のプロセッサエレメントを M行有した、 M行 X N列の 2次元アレイ構造のプロセッサアレイであって、各プ口セッサエレメントの演算結果を、次行のプロセッサエレメントに伝達可能に接続されたプロセッサアレイと、 1サイクル毎に、基本制御情報を生成する基本制御情報生成手段と、 1サイクル毎に、 1個の命令を取得する命令取得手段と、 1サイクル毎に、最初の行のプロセッサエレメントの動作を制御する為の動作制御情報を前記基本制御情報生成手段で生成された基本制御情報を基に作成し、作成した動作制御情報と前記命令取得手段で取得した 1個の命令とに基づき、最初の行に対する命令を生成する手段と、 1サイクル毎に、 2〜M行のプロセッサエレメントの動作を制御する為の動作制御情報を前行のプロセッサエレメントの動作を制御する為に作成した動作制御情報を基に作成し、作成した動作制御情報と前記命令取得手段で取得した 1個の命令とに基づき、前記 2〜M行のプロセッサエレメントに対する命令を生成する手段とを備え、前記プロセッサアレイのそれぞれの行に配列されて、る N個の前記プロセッサエレメントは、当該行に対する命令を実行することを特徴とすることとしてもよい。 [0017] これにより、 2次元アレイ型の演算装置に対して、 1つの命令を発行することで、複数の PEに異なる動作をさせることができるようになるので、より柔軟な処理を行うことがでさるよう〖こなる。

図面の簡単な説明

[0018] [図 1]動きベクトル探索処理の探索方法を示す図である。

[図 2]図 2 (a)は、参照画像 100の構成を表し、図 2 (b)は、対象画像 200の構成を表す図である。

[図 3]従来のアレイプロセッサの例を示す図である。

[図 4]アレイ型演算装置 1000と関連する周辺部の構成を表す図である。

[図 5]アレイ型演算装置 1000の構成の詳細を表す図である。

[図 6]参照画像 100を PEアレイ 1100へ供給する方法を示す図である。

[図 7]制御情報（トークン)を命令生成部（3100等）に供給する方法を示す図である。

[図 8]各 PEの相関記憶部 2400に記憶されている内容の遷移を示す図である。

[図 9]実施形態 1のアレイ型演算装置 1000で対象画像 200と参照画像 100との相関を求める処理を示すフローチャートである。

[図 10]実施形態 1の「exec_array」の処理を示すフローチャートである。

[図 11]実施形態 1の PEの処理を示すフローチャートである。

[図 12]図 12 (a)は、実施形態 1の制御情報生成部の処理を示すフローチャートであり

、図 12 (b)は、実施形態 1の命令生成部の処理を示すフローチャートである。

[図 13]実施形態 1のトークンと PEの動作を時間軸上にあらわした図である。

[図 14]実施形態 1のプログラムの例を示す図である。

[図 15]実施形態 2のトークンと PEの動作を時間軸上にあらわした図である。

[図 16]実施形態 2のプログラムの例を示す図である。

[図 17]実施形態 3のアレイ型演算装置 1000の構成の詳細を表す図である。

[図 18]実施形態 3のアレイ型演算装置 1000で対象画像 200と参照画像 100との相関を求める処理を示すフローチャートである。

[図 19]実施形態 3の「exec_array」の処理を示すフローチャートである。

[図 20]実施形態 3の PEの処理を示すフローチャートである。 [図 21]図 21 (a)は、実施形態 3の制御情報生成部 3000の処理を示すフローチャートであり、図 21 (b)は、実施形態 3の命令生成部（3100等）の処理を示すフローチヤ一トである。

[図 22]実施形態 3のトークンと PEの動作を時間軸上にあらわした図である。

[図 23]実施形態 3のプログラムの例を示す図である。

[図 24]実施形態 4の対象画像及び PEアレイに供給する参照画像の例を示す図である。

圆 25]実施形態 4のアレイ型演算装置 1000で対象画像 200と参照画像 100との相関を求める処理を示すフローチャートである。

[図 26]実施形態 4の「exec_array」の処理を示すフローチャートである。

[図 27]実施形態 4の PEの処理を示すフローチャートである。

[図 28]図 28 (a)は、実施形態 4の制御情報生成部 3000の処理を示すフローチャートであり、図 28 (b)は、実施形態 4の命令生成部（3100等）の処理を示すフローチヤ一トである。

[図 29]実施形態 4のトークンと PEの動作を時間軸上にあらわした図である。

[図 30]実施形態 4のプログラムの例を示す図である。

符号の説明

100 参照画像

200 対象画像

1000 アレイ型演算装置

1001 プログラムカウンタ

1002 命令メモリ

1003 命令発行部

1004 プログラム記憶部

1005 メモリキャッシュ

1006 メモリキャッシュ 0

1007 メモリキャッシュ 1

1009 ノス 1100 PEアレイ

1200 加算部

2000 PE

2100 演算部

2200 対象データ記憶部

2300 参照データ記憶部

2400 相関記憶部

2410 演算結果データ

2420 受信データ

3000 制御情報生成部

3010 カウンタ記憶部

3110、 3210、 3310 制御情報記憶部

5201、 5211、 6100 演算結果

5300、 7300、 8600 プログラム命令ジス卜

発明を実施するための最良の形態

[0020] <実施形態 1 >

<概要 >

本発明に係るアレイ型演算装置は、 2次元アレイ型演算装置であり、命令メモリ、及び命令デコーダの数は減らした上で、アレイ型に配列された演算器を制御等するソフトウェアの命令長を抑えることにより、命令メモリ、及び命令デコーダの規模の拡大を抑えようとするものである。

[0021] 例えば、図 3 (a)で示すように、演算器アレイを構成するそれぞれの PEに独立の演算命令を発行した場合、 PE数分の命令が必要となる。この場合、基本的に、 PE数分の命令デコーダと命令メモリが必要となる。

また、図 3 (b)に示すような 1次元アレイ型演算装置においても、同様の課題が発生する。

[0022] その解決法として、 SIMD (Single Instruction Multi Data)と!、う方式が広く知られており、これは、展開した方向の演算器には共通の命令を発行することで、ソフトウェア制御のために必要となるコストを削減するというものである。この方法は、各 PEが同様の動作を行うような画素処理に特に適して、る。

し力し、この方法であっても、全ての PEに対して 1つの命令で指示を出すには、命令長が長くなりすぎ現実的ではないため、例えば、図 3 (b)に示すように行 (又は列）単位で命令を発行して!/ヽる。

[0023] SIMD方式を採用することによって、各 PEに独立の演算命令を発行する場合に比ベて命令数は格段に減ったものの、前述した動きベクトル探索処理や画像認識処理に用いられるアレイは大規模なものであり、行 (又は列)数分の命令であっても、命令メモリサイズや命令デコーダに対する影響は大きい。基本的に、行数分の命令メモリと命令デコーダが必要となる。

[0024] 本発明に係る 2次元アレイ型演算装置では、命令メモリ及び命令デコーダをそれぞれ 1つとした上で、さらに命令長を削減することにより命令メモリサイズ等を小さくし、結果的に LSIの面積の増加を抑えようとして、る。

それとともに、例えば MPEG符号ィ匕処理のアルゴリズムの変更などが容易に出来る柔軟性をも実現する。

[0025] 以下、本発明の実施形態の 2次元アレイ型演算装置について説明する。

本実施形態の 2次元アレイ型演算装置は、 MPEG符号化処理における動きべタトル探索処理を行うものである。

<動きべタトル探索 >

図 1を用いて、動きベクトル探索処理にっ、て簡単に説明する。

[0026] 図 1は、動きベクトル探索処理の探索方法を示す図である。

対象画面 20は、現在の符号化対象フレームであり、対象画像 200は、いわゆるマクロブロックである。

また、参照画面 10は、動きベクトルを算出するための過去又は未来のフレームであり、参照画像 100は、対象画像 200の類似部分を検索する範囲である。

[0027] 参照画像 100の中で、左上から右下まで、マクロブロックと最も類似度が高い部分を、 1ピクセルずつずらして検索する（参照画像 100— 1、参照画像 100— 2)。

図 2は、参照画像 100と対象画像 200との構成を表す図である。図 2 (a)は、参照画像 100であり、左上のピクセルを「R(0,0)」とし、 xy座標系でピクセルの位置を表すものとする。また、図 2 (b)は、対象画像 200であり、図 2 (a)と同様に、左上のピクセルを「T(0,0)」と表すものとする。

[0028] 以下の説明で、「R(x,y)」又は「Rxy」は参照画像 100のピクセルを表し、「T(x,y)」又は「Txy」は対象画像 200のピクセルを表すものとする。また、図面において、口は参照画像 100のピクセルを、〇は対象画像 200のピクセルを表すものとする。

<構成>

以下、図 4及び図 5を用いて、本発明に力かる 2次元のアレイ型演算装置 1000の構成を説明する。

[0029] 図 4は、アレイ型演算装置 1000と関連する周辺部の構成を表す図である。

この図 4では、アレイ型演算装置 1000のほかに、プログラムカウンタ 1001、命令メモリ 1002、命令発行部 1003、プログラム記憶部 1004及びメモリキャッシュ 1005を記載している。

これらの各機能部及び各 PE等は、伝送するビット数に応じた本数のデータ信号線で接続されてヽるものとする。

[0030] プログラム記憶部 1004は、演算器の動作を示す命令ストリーム力もなるソフトウェアプログラムを記憶しており、プログラムカウンタ 1001は、プログラム記憶部 1004に記憶されて、る次に実行する命令を指して、る。

プログラムカウンタ 1001が指す命令を、命令メモリ 1002にフェッチし、命令発行部 1003は、命令メモリ 1002の命令をデコードし、アレイ型演算装置 1000全体に共通の命令である制御信号を発行する。

[0031] メモリキャッシュ 1005は、アレイ型演算装置 1000で使用するデータを記憶する。

次に、アレイ型演算装置 1000の構成について説明する。

このアレイ型演算装置 1000は、 5行 X 6列の 2次元に配列された 30個の PE (PE00 等）で成る PEアレイ 1100と、制御情報生成部 3000及び命令生成部（3100〜3500 )で構成される。

[0032] 各 PE及び各生成部はそれぞれバスで連結され、信号を伝達できるようになって!/ヽる。また各生成部は論理回路で構成されてヽるものとする。ここで、本アレイ型演算装置 1000の特徴は 2つある。 1つは、外部の命令発行部 1 003から入力される 1つの命令（InstO)で 30個の PEを制御するために、以下に説明する制御情報生成部 3000と各行への命令 (Inst00〜Inst40)を生成する命令生成部 (3100等）を有する点である。また、もう 1つは、各 PEが行方向だけでなぐ列方向にもバス 1009で連結されデータを送受信できるようになつている点である。

[0033] 次に、図 5を用いて、各機能部について説明する。

図 5は、アレイ型演算装置 1000の構成の詳細を表す図である。ここでは、説明の便宜上、一部の PE等のみを記載している。

アレイ型演算装置 1000は、複数の PE2000、制御情報生成部 3000、複数の命令生成部（3100等)及び加算部 1200で構成される。

[0034] まず、 1サイクルごとに、制御情報生成部 3000は制御情報を、命令発行部 1003は命令情報を発行する。ここで、サイクルとは、処理の基準となる一定のクロックサイクルである（以下、同様。）。

制御情報生成部 3000は、カウンタ記憶部 3010を有し、ここには、カウンタを記憶しておく。このカウンタの値に応じて制御情報を生成する。このカウンタ記憶部 3010には、生成した最新の制御情報も記憶しておくものとする。

[0035] ここで生成する制御情報は、各 PEの動作を制御する基本となるものといえる。

命令生成部 3100は、命令発行部 1003から発行された命令情報と、制御情報生成部 3000から発行された制御情報とを受け取り、 PEアレイ 1100の 1行分の PE (PE 00〜PE05)の演算処理を制御する命令を生成する。

ここで命令を生成する際には、制御情報生成部 3000から受取った制御情報を基に自分用の制御情報を作成し、作成した制御情報を基に PE用の命令を作成する。または、制御情報を送り出す前に作成する。つまり、受取った制御情報と送り出す制御情報とが、異なるということである。

[0036] 但し、受取った制御情報と送り出す制御情報とが同じでょ、場合も動作目的によつては当然ある。例えば、本実施形態 1では、制御情報はそのまま使用するが、後で説明する実施形態 4では受取った制御情報を加工して次の命令生成部に送り出して、る。またさらに、命令生成部 3100は制御情報記憶部 3110を有し、制御情報生成部 3 000から受信した制御情報を記憶する。新たな制御情報を記憶する前に、ここに記憶しておいた制御情報を命令生成部 3200に送信し、命令生成部 3200は、受取つた制御情報を基に命令を生成することになる。

[0037] 命令生成部（3200、 3300、 3400、 3500)は、命令生成部 3100と同様の機能を有するが、制御情報生成部 3000から発行された制御情報ではなぐ 1つ前の命令生成部から受取った制御情報を使用して各行の演算器 (PE10〜PE15等）の演算処理を制御する命令を生成する点が異なる。

また、命令生成部（3200〜3500)は、命令生成部 3100と同様に、各制御情報記憶部（3210、 3310等）に制御情報を記憶し、順次記憶する制御情報を送っていく。

[0038] 次に、 PEについて説明する。これらはすべて同じ構成をとるため、 PE00 (2000) のみを説明する。

PE00 (2000)は、演算部 2100、対象データ記憶部 2200、参照データ記憶部 23 00及び相関記憶部 2400で構成される。

対象データ記憶部 2200は、対象画像 200の 1ピクセルのデータを記憶する。具体的には、 30個の PE (図 4参照）はそれぞれ、対象画像 200の 30個のピクセル（図 2 ( b)参照）のデータを記憶する。

[0039] 例えば、 PE00の対象データ記憶部 2200は、ピクセル「T(0,0)」のデータを記憶し、 PE10の対象データ記憶部 2200は、ピクセル「Τ(1,0)」のデータを記憶する。

参照データ記憶部 2300は、参照画像 100の 1ピクセル（図 2 (a)参照）のデータを feす。。

但し、対象データ記憶部 2200は PEごとに異なるピクセルのデータを記憶して、た力参照データ記憶部 2300は PEの列ごとに異なる点で相違する。すなわち、同じ列の PEの参照データ記憶部 2300は同じデータを記憶している。

[0040] この参照データ記憶部 2300には、メモリキャッシュ 1005に記憶されている参照データを読み込み記憶する。

例えば、 PEOOと PE10の参照データ記憶部 2300は、ピクセル「R00」のデータを記憶する力 PE01と PE11の参照データ記憶部 2300は、ピクセル「R10」のデータを記憶する。

[0041] 演算部 2100は、対象データ記憶部 2200に記憶されている対象データと参照データ記憶部 2300に記憶されている参照データとの相関の強さを計算し、相関記憶部 2 400〖こ記憶する。相関の強さは、 SAD (Sum of Absolute Difference)を用いて判断するちのとする。

相関記憶部 2400は、自 PEの演算部 2100の結果データのほ力、 1つ前の行の PE から渡された受信データを記憶する。また、記憶しているデータを次の行の PEに送信する機能も有する (バス 1009参照)。この詳細は、図 8を用いて、後で説明する。

[0042] 加算部 1200は、最終行の PE力もの出力を加算した値を、アレイ型演算装置 1000 力も出力する。この値は、対象画像 200と参照画像 100の相関値となり、最も相関が強、、すなわち最も差分絶対値の合計が小さ、参照画像の位置力動画ベクトルを求めることになる。

次に、本アレイ型演算装置 1000での、相関値を求める方法を、制御情報等の各データの流れを示して説明し、その後、アレイ型演算装置 1000処理の流れを説明する

[0043] <相関の求め方 >

次に、図 6〜図 8を用いて、アレイ型演算装置 1000が対象画像 200と参照画像 10 0との相関を求める手順について説明する。図では、便宜上、「T(0,0)」は「T00」等と記載している（以下の図で、同様)。

ここでは、 ΡΕアレイ 1100への参照画像 100の供給の方法、制御情報の伝達方法及び相関記憶部 2400の内容の遷移のそれぞれについて、図を用いて説明する。

[0044] < ΡΕアレイへの参照画像 100の供給の方法 >

図 6は、参照画像 100を ΡΕアレイ 1100へ供給する方法を示す図である。

ΡΕアレイ 1100は、図 2 (b)の対象画像 200をアレイ型演算装置 1000の PEアレイ上に配置したものである。具体的には、対象データ記憶部 2200に記憶している（図 5参照)。

[0045] 対象画像 200をアレイ型演算装置 1000の PEアレイ上に保持し、参照画像 100を横 6画素の 1ラインずつ供給する。例えば、サイクル「Cyc 0」1Ο1に参照画像 100の最初のライン（R00〜R50)を供給した場合、 PEアレイ 1100に列単位で同じ参照データが供給される。具体的には、参照データ記憶部 2300に記憶される（図 5及び図 7参照)。

[0046] 続くサイクル「Cyc 1」 102に参照画像 100の 2行目のライン（R01〜R51)を供給した場合も同様に、行単位で同じ参照画像が供給され、サイクル「Cyc yj 103に最後の行のライン (R0y〜R5y)を供給した場合まで、同様の供給が成される。

<制御情報の伝達方法 >

図 7は、制御情報を命令生成部（3100等）に供給する方法を示す図である。

[0047] 図 7では、「Cycle 0」から「Cycle 3」まで時系列に、アレイ型演算装置 1000で制御情報が供給されて、く様子を記載して、る。

図では、制御情報生成部 3000が生成する制御情報を「tokenO」「tokenl」等と表し、 PE及び命令生成部（3100等)では、各記憶部と、その内容を表しているものとする。また、点線矢印は、記憶部の内容の送出を示している。

[0048] まず、 rcycle 0」では、制御情報生成部 3000で生成された制御情報「tokenO」が、命令生成部 3100の制御情報記憶部 3110に記憶されている。実際には、制御情報生成部 3000で制御情報が生成されるのは、 1つ前のサイクルであり、カウンタ記憶部 3010には「tokenl」が記憶されている力ここでは説明の便宜上「tokenO」と記載する。

[0049] このサイクルで、 PE00と PE01は、演算を行ない、その結果を相関記憶部 2400に feす。。

次に、「Cycle 1」では、制御情報生成部 3000で生成された制御情報「tokenl」が、命令生成部 3100の制御情報記憶部 3110に記憶され、命令生成部 3200の制御情報記憶部 3120には、命令生成部 3100の制御情報記憶部 3110に記憶されていた制御情報「tokenO」が記憶される。

[0050] このように、「Cycle 3」「Cycle 4Jと順次「tokenO」が送られて!/、く。

この制御情報「tokenO」等と命令発行部 1003が発行した命令「InstO」等とを基に、命令生成部（3100等）は PEアレイの各行に送る命令を生成することになる。

尚、 PEの相関記憶部 2400の「result」は、演算結果を表し、詳細は以下に説明する。

[0051] <相関記憶部 2400の内容の遷移 >

図 8は各 PEの相関記憶部 2400に記憶されている内容の遷移を示す図である。ここでは、各 PEの相関記憶部 2400に記憶されている内容を、時系列に順次、次の行の PEの相関記憶部 2400に送出して、く様子を記載して！/、る。

また、 1列の PEの相関記憶部 2400のみを記載している。各列ごとの動作は同じだ力もである。また、図 7の PEアレイの 1列目の PEの相関記憶部 2400の内容を記載している。

[0052] ここでは、説明の便宜上、対象画像 200のうち「T(0,0)」「Τ(0,1)」「Τ(0,2)」の 3ピクセルを対象画像とし、参照画像 100のうち「R(0,0)」「R(0,1)」「R(0,2)」「R(0,3)」の 4ピクセルを参照画像として説明する。従って、 PEアレイも「ΡΕ00」 ΓΡΕΙΟ]「PE20」の 3つとして説明する。

相関記憶部 2400の内容は、 2種類のデータが含まれている。 1っは自 PEの演算部 2100の演算結果データ 2410であり、もう 1つは、 1つ前の行の PEから送られた受信データ 2420である。

[0053] 実際には、対象データと参照データの相関値の合計を記憶している力ここでは内容を明確にするために相関を取ったピクセルを表している。例えば、「T(0,0)+R(0,0)」は、「T(0,0)」と「R(0,0)」の相関値を表し、「T(0,0)+R(0,0) T(0,1)+R(0,1)」は、「T(0,0)」と「R(0,0)」の相関値と「T(0, 1)」と「R(0, 1)」の相関値との合計値を表す。

「Cycle 0」において、「PE00」の相関記憶部 2400の演算結果データ 2410には「T(0 ,0)+R(0,0)」が記憶され、受信データ 2420には何も記憶されていない。前行の PEは存在しないからである。

[0054] 次に、「Cycle 1」では、「PE00」の演算結果データ 2410には「T(0,0)+R(0,1)」が記憶され、受信データ 2420には何も記憶されてヽな、。

また、「PE01」の相関記憶部 2400の演算結果データ 2410には「T(0,1)+R(0,1)」が記憶され、受信データ 2420には「Cycle 0」時の「PE00」の相関記憶部 2400の演算結果データ 2410と受信データ 2420との合計が記憶される。

[0055] このように、順次、演算結果データ 2410と受信データ 2420との合計を次行の PE に送っていく。

すると、最後の行の PE、ここでは PE20、力も送出される演算結果データ 2410と受信データ 2420との合計は、対象画像と参照画像の 1行分の相関値 2401となる。

[0056] 具体的には、「T(0,0)」「Τ(0,1)」「Τ(0,2)」と「R(0,0)」「R(0,1)」「R(0,2)」との相関値である。

その次のサイクルで最後の行の PEカゝら送出される相関値の合計は、対象画像と 1 ピクセルずれた参照画像の相関値 2402となる。

具体的には、「T(0,0)」「Τ(0,1)」「Τ(0,2)」と「R(0,1)」「R(0,2)」「R(0,3)」との相関値である。

[0057] このように、順次、 1ピクセルずつ Y方向にずらした参照画像 100と対象画像 200との 1行分の相関値が出力されることになる。

本説明では、 1列分について説明したが、各行の出力を合計することにより対象画面と参照画面の相関値が求まる。

<アレイ型演算装置の処理の流れ >

図 9〜図 13を用いて、アレイ型演算装置 1000の動作について説明する。

[0058] これらの処理を実行する機能部は組合せ順序回路で構成され、以下の処理を実行している（図 18等も同様)。

まず、図 9は、アレイ型演算装置 1000で対象画像 200と参照画像 100との相関を求める処理を示すフローチャートである。参照画像 100の中で、 1つのマクロブロック、すなわち対象画像 200と最も相関の高い位置を、参照画像 100を 1ピクセルずつずらしながら求める。

[0059] 最初に、対象画像 200から、各 PEの対象データ記憶部 2200にそれぞれの対象デ一タを読込む (ステップ S 100、図 6参照）。

制御情報生成部 3000のカウンタ記憶部 3010に値をセットする (ステップ S110)。ここでセットする値は、参照画像 100の行数である。例えば、「8」をセットする。

[0060] 次に、参照画像 100のうち、アレイ型演算装置 1000に供給する 1行分の先頭アドレスをレジスタ 0にロードする（ステップ S120)。尚、ロード先はレジスタ 0に限られず、システムに依存する。例えば、「R00」「R10」〜「R50」を供給する場合には（図 6参照）、メモリキャッシュ 10 05に記憶されて!、る「R00」のピクセルデータのアドレスをロードする。記憶されて！、ない場合は、メモリキャッシュに読込む処理を行う。

[0061] レジスタ 0に参照画像のアドレスがロードされたら、対象画像 200との相関を取る処理を実行する（ステップ S130)。この処理は、命令発行部 1003が、命令として「exec_ array」を発行することで実行される。

この「exec_array」の実行で、参照画像 100の 1行と対象画像 200の全行との相関が取られることになる。例えば、図 6の第 0サイクル 101で供給される参照データと PEァレイ 1100上の対象画像 200とが演算される。

[0062] 「exec_array」の処理が終了したら、 PEアレイ 1100の最終行の PEからの出力をカロ算部 1200で合計した値を出力する (ステップ S 140)。

参照画像 100の最終行まで演算していなければ (ステップ S 150 : NO)、レジスタ 0 に次の行のアドレス、例えば、「R01」のピクセルデータのアドレスをセットして、処理を繰り返す (ステップ S 120力もステップ S 140)。

[0063] ここで、参照画像 100の最終行まで演算するとは、対象画像 T(x,0)と参照画像 R(x,8 )との演算が終了するまでをいい、具体的には、参照画像の行数と対象画像の行数とを足した回数、 13回「exec_array」の処理を行う。

参照画像 100の最終行まで演算を終了したら (ステップ S 150 : YES)、次列に移り、演算を行なう（ステップ S 110〜ステップ S 150)。

[0064] 参照画像を 1ピクセル右にずらした 6ピクセル分のデータ、「R10」「R20」〜「R60」の「 R10」のピクセルデータのアドレスをレジスタ 0にロードし (ステップ 120)処理を行う。参照画像 100の最終列まで演算したら (ステップ S 160)処理を終了する。これで、 1マイクロブロックである対象画像 200の演算が終了することになり、演算結果の出力（ステップ S140)で出力された相関が最も強い場所力も動きベクトルを算出する。

[0065] 次に、図 10を用いて、「exec_array」の処理について説明する。

図 10は、「exec_array」の処理を示すフローチャートである。

まず、制御情報生成部 3000は、新しい制御情報（トークン)を生成し、命令生成部 (3100等）は記憶している制御情報を次の命令生成部に送る (ステップ S210)。制御情報を受取った命令生成部は、命令発行部 1003から発行された「exec— array

」命令と、制御情報記憶部（3110等）に記憶する制御情報とから、命令を生成し、該当する行の PEに送信する (ステップ S220)。

[0066] 生成された命令を受取った各 PEは、演算処理を行う（ステップ S240)。

これらの 3つの処理は、 1サイクルずつずれながら並行して行われる。

図 11を用いて、 PEの処理について説明する。

ステップ S210の制御情報生成部 3000の処理と、ステップ 230の命令生成部（310 0等）の詳細は、図 12を用いて、後で説明する。

[0067] 図 11は、 PEの処理を示すフローチャートである。

命令生成部（3100等)から送られた命令力実行するという命令であれば (ステップ S300 :実行）、メモリキャッシュ 1005力ゝら、レジスタ 0の指す先を参照して各 PEの参照データ記憶部 2300に該当する参照データを読込む (ステップ S305)。具体的には、命令発行部 1003が命令デコード時に該当するデータを書き込んでおいた PEァレイの各列に対応したメモリから、データが読込まれる。

[0068] 次に、演算部 2100は、対象データ記憶部 2200の対象データと参照データ記憶部 2300の参照データとの差分絶対値を求め (ステップ S310)、演算結果を、相関記憶部 2400の演算結果データ 2410に記憶する（ステップ S320、図 8参照）。

その後、演算結果データと受信データ 2420を加算して次行の PEに送り、データを受取った次行の PEは、自 PE内の受信データ 2420に記憶する。

[0069] 一方、命令生成部（3100等）から送られた命令力キャンセルという命令であれば（ステップ S300：キャンセル）、何もしな!、で終了する。

次に、図 12を用いて、制御情報生成部 3000の処理と、命令生成部（3100等）の処理について説明する。これらの処理は、同じサイクルで実行される。

まず、図 12 (a)を用いて、制御情報生成部 3000の処理について説明する。図 12 ( a)は、制御情報生成部の処理を示すフローチャートである。

[0070] 生成される制御情報は、「Valid」「Invalid」のうちのいずれかが生成されるものとするカウンタ記憶部 3010に記憶されているカウンタ「Counter」（図 9 :ステップ S110参照）の値が「0」の場合 (ステップ S41O :==0)には、「Invalid」トークンを生成し (ステップ S412)、カウンタ「Counter」の値が「0」でないの場合 (ステップ S410 :≠0)には、「Va lid」トークンを生成する（ステップ S411)。生成したトークンは、命令生成部 3100に送り、制御情報記憶部 3110に記憶させる。

[0071] また、トークンを生成後、カウンタ「Counter」の値から「1」を減算する。この場合、 0 以下になる場合は「0」とする。

次に、図 12 (b)を用いて、命令生成部（3100等）の処理について説明する。命令生成部（3100等）のそれぞれは、以下説明する処理と同様の処理を行う。

図 12 (b)は、命令生成部の処理を示すフローチャートである。

[0072] まず、制御情報記憶部 3110に記憶しているトークンを次の命令生成部に送信し（ステップ S450)、前の命令生成部又は制御情報生成部からトークンを受信する (ステップ S460)。

受信したトークンを基に、 PEに実行させる命令を生成する。

トークンが「Valid」の場合 (ステップ S470： Valid)は「exec_array」命令を実行する命令を生成し (ステップ S471)、 rinvalidjの場合 (ステップ S470： Invalid)は「exec_array 」命令を実行しな、キャンセル命令を生成する (ステップ S472)。

[0073] すなわち、トークンの値に応じて、 PEアレイの行単位で、実行するか否かを制御することがでさる。

生成した演算命令は、各 PEに送られ、トークンは制御情報記憶部 3110に記憶する。

以下に、制御情報生成部 3000が作成したトークンと PEの実行の関係について説明する。

[0074] 図 13は、トークンと PEの動作を時間軸上にあらわした図である。

横軸に時間軸をサイクル単位で示しており、制御情報生成部 3000の動作、及び P Eアレイ 1100の第 1行〜第 5行の動作を示して!/、る。

ここで、〇は、命令の基となったトークンであり、ここではカウンタ記憶部 3010又は各制御情報記憶部（3110等）が記憶しているトークンを表し、「val」は Validを、「Iv」は Invalidをあらわすものとする。すなわち、「val」の行の PEは演算を実行し、「Iv」の行の PEは演算を実行しない。

[0075] また、ここでは、第 1列の PEの動作のみを示している。各列の動作は同じだからである。

下部の表は、演算結果（5200、 5210)であり、対象画像と参照画像の相関を取つたピクセルを示している。

サイクル「Cyc=- 1」の時、 Counter5100は「8」であることから、「Value」トークンが作成される。このとき、 PEは、何も行わない。

[0076] サイクル「Cyc=0」の時は、 Counter5100は「7」であり、「Value」トークンが作成され、サイクル「Cyc=-l」の時作成されたトークンは PEアレイ第 1行の PEに移動している。従って、 PEアレイの第 1行の PEのみが実行される。

すなわち、 PEアレイ 1100の第 1行に配置された対象画像 200の第 1行のデータ「T 00」「Τ10」「Τ20」「Τ30」「Τ40」「Τ50」と、 PEアレイに対して供給された参照画像 100 の第 1行のデータ「R00」「R10」「R20」「R30」「R40」「R50」との間で差分絶対値を求める演算が行われ、その結果は、バスを通じて、第 2行の演算要素に受け渡される（図 6 、図 7参照)。

[0077] PEアレイの第 2行〜第 5行までも、参照画像 100の第 1行のデータ ROO〜R50は供給されているが、演算は行なわない。

同様に、サイクル「Cyc=l」の時は、 PEアレイの第 1行の PEと第 2行の PEとが実行される。

すなわち、 PEアレイの第 1行に配置された、対象画像の第 1行のデータ「Τ00」 ΓΤ10 」「Τ20」「Τ30」「Τ40」「Τ50」と、参照画像の第 2行のデータ「R01」「R11」「R21」「R31」「 R41J「R51」との間で差分絶対値を求める演算が行われ、その結果は、演算要素からの出力バスを通じて、第 2行の PEに受け渡される。同サイクルにおいて、 PEアレイの第 2行に配置された、対象画像の第 2行のデータ「Τ01」「Τ11」「Τ21」「Τ31」「Τ41」「Τ5 1」と、参照画像の第 2行の画像データ「R01」「R11」「R21」「R31」「R41」「R51」との間で差分絶対値を求める演算が行われ、その結果と、前サイクルの前行の演算結果の和力演算要素からの出力バスを通じて、第 3行の PEに受け渡される。 [0078] 同様の演算動作を繰り返すと、サイクル「Cyc=5」の時には、 | TOO〜T50— ROO 〜R50 I + I T01〜T51— R01〜R51 | + | T02〜T52— R02〜R52 | + | T 03〜T53— R03〜R53 | + | T04〜T54— R04〜R54 | の演算結果 5201力第 5行の PE出力として得られ、これを水平方向に加算したもの力相関の強さの評価値となる。

また、サイクル「Cyc=7」以降は、 Counter5100は「0」であり、「Invalid」トークンが作成される。サイクル「Cyc=8」の時は、「Invalid」トークンが PEアレイ第 1行の PEに移動している。従って、 PEアレイの第 2行〜第 5行の PEのみが実行される。

[0080] 制御情報生成部 3000は、 Counterに「8」をセットしてから、参照画像の行数「8」と対象画像の行数「5」と区切り「1」を加算した分の制御情報を生成して、参照画像 1列の処理が終了したことになる。従って、サイクル「Cyc=13」力も参照画像の 2列目のピクセル「R10」〜「R15」との相関を求める処理が始まり、サイクル「Cyc=19」で、演算結果 5211が、第 5行の PE出力として得られる。

[0081] 演算結果の動きにあわせて、演算必要な期間のみ PEを実行させることで、不要な演算を停止することができ、消費電力の削減が実現できる。図 13では、斜線の引かれた「Iv」のトークンに対応する行の PEの電源の供給を抑止することで、消費電力を削減できる。

次に、図 14は、プログラムの例を示す図である。

[0082] プログラム命令リスト 5300には、プログラム命令 5301ごとの動作 5302について記載している。また、制御情報（トークン）の値に応じての動作を示している。この図 14 では、「^^^(1」を「^^&1」、「Valid」を「val」と記載している（図 16、図 23、図 30で同様）例えば、トークン「Invalid」の場合は、「exec_array」は「nop」、すなわち実行は行なわず、「Valid」の場合は「exec」、すなわち実行するを示している。 [0083] 「ld[addr],r0」 5400は、レジスタ 0に参照データのアドレスをロードする指示である。また、「exec_array rOjは、レジスタ 0の指す先の参照データで演算を行なう指示である。

<実施形態 2>

本実施形態は、あるタイミングの相関の強さの評価値が所定値以上であった場合、以後の演算を不要なものとしてキャンセルする点力、実施形態 1と異なる。

[0084] 図 15は、トークンと PEの動作を時間軸上にあらわした図である。

具体的には、演算結果 6100が、ある値以上の相関の強さを持っていると判定された場合、実際には SADの値がある一定値以下であった場合には、「Cyc 6」以降の演算をキャンセルする。

rCyc n」からは、別の対象画像の演算が始まる。

[0085] キャンセルの方法は、例えば、 SADの値を評価する回路から、命令生成部（3100 等）に対して信号を出力し、演算停止を示すキャンセル命令を生成させる。これにより不要な演算部分 6200を停止することができ、消費電力の削減が実現できる。

次に、図 16は、プログラムの例を示す図である。

プログラム命令リスト 5300などは、実施形態 1と同じもので実行が可能である（図 14 参照)。

<実施形態 3 >

<概要 >

本実施形態は、実施形態 1と同じ演算を行なうが、実行速度を速めたものである点が異なる。

[0086] 実施形態 1のトークンと PEの動作を時間軸上にあらわした図である図 13において、対象画像と参照画像の 1列目との演算は、サイクル「Cyc - l」〜「Cyc 12」までであり、 2列目との演算はサイクル「Cyc 13」から始まる。この場合、サイクル「Cyc 7」〜「Cyc 1 7Jまでは、演算を行なって、な、PEが存在する。

本実施形態は、この演算を行なっていない PEにも演算を行なわせようとするものである。

[0087] 図 22は、実施形態 3のトークンと PEの動作を時間軸上にあらわした図である。図に示すように、参照画像の 1列目との演算はサイクル「Cyc - l」〜「Cyc 12」に行われる点は実施形態 1 (図 13参照）と同じであるが、 2行目との演算はサイクル「Cyc 8 」から始まる点が異なる。

このような動作を実施させるためには、「Cyc 9」から「Cyc 11」までは、参照画像の 1 行目と 2行目のデータをえり分けて各 PEの参照データ記憶部に読込む必要がある。

[0088] すなわち、実施形態 1では、 PEへの命令は演算実行かキャンセルの 2種類であつたが、本実施形態では、「1行目のデータで実行」、「2行目のデータで実行」及び「キヤンセル」の 3種類の命令を生成できる点が異なる。

以下、本実施形態 3の構成等を説明する。

<構成>

図 17は、実施形態 3のアレイ型演算装置 1000の構成の詳細を表す図である。

[0089] 実施形態 1の構成（図 5参照）との違いは、メモリキャッシュを 2つ使用する点である。もちろん、物理的に 2つである必要はない。

メモリキャッシュ 0 (1006)とメモリキャッシュ 1 (1007)は、両方とも参照データ記憶部 2300につながっており、各 PEは、どちら力もデータを読込むかを選択できるものとする。

[0090] <動作 >

次に、図 18〜図 21を用いて、本実施形態のアレイ型演算装置 1000の処理について説明する。基本的な処理の流れは実施形態 1 (図 9〜図 12)と同じであるので、相違点を中心に説明する。

図 18は、アレイ型演算装置 1000で対象画像 200と参照画像 100との相関を求める処理を示すフローチャートである。この処理において、実施形態 1での処理（図 9参照）と異なる点は、 2つのカウンタをセットする点と、参照画像のデータを 2行分使用する^;である。

[0091] 最初に、対象画像 200から、各 PEの対象データ記憶部 2200にそれぞれの対象デ一タを読込む (ステップ S 100、図 6参照）。

制御情報生成部 3000のカウンタ記憶部 3010に値をセットする (ステップ S501)。ここでは、「CounterO」に参照画像 100の行数「8」をセットし、「Counterl」の「0」をセットする。この場合、「CounterO」がアクティブカウンタとなる。尚、「Counterl」に「8」がセットされた場合は、「Counterl」がアクティブカウンタとなる。

[0092] 次に、参照画像 100のうち、アレイ型演算装置 1000に供給する 2行分の先頭アドレスをレジスタ 0及びレジスタ 1にロードする（ステップ S502)。

同時に 2行分のデータを必要とする場合があるからであり、一方の行を演算している途中で他方の行のロードを開始する、という処理を交互に繰り返すことになる（図 2 2参照)。

[0093] その後、「exe array」の実行を行い (ステップ S130)、演算結果を出力する（ステツプ S140)。参照画像 100の最終行まで演算処理を繰り返す (ステップ SI 20からステツプ S 150)。

参照画像 100の最終列まで演算したら (ステップ S 160)処理を終了する。図 19は、「exec_array」の処理を示すフローチャートであり、処理内容は、実施形態

1とほぼ同じである（図 10参照）力 PEの処理 (ステップ S503)が異なる。

[0094] 図 20を用いて、 PEの処理につ!、て説明する。図 20は、 PEの処理を示すフローチヤートである。

この処理で、実施形態 1での処理（図 11参照）と異なる点は、各 PEの参照データ記憶部 2300に参照データを読込む場合に、メモリキャッシュ 0またはメモリキャッシュ 1 力読込む点である。例えば、図 22で、サイクル「Cyc 9」〜「Cyc 11」までは、参照画像 2行分のデータが必要となり、 PEアレイの各行ごとにどちらのデータを読込むかを指定する必要がある。

[0095] 命令生成部（3100等)から送られた命令力実行するという命令であれば (ステップ S300 :実行）、レジスタ 0の指すメモリキャッシュ 0 (1006)又はレジスタ 1の指すメモリキャッシュ 1 (1007)から、各 PEの参照データ記憶部 2300に参照画像を読込む (ステツプ S 504)。

どちらのメモリキャッシュ力データを読むかは、命令生成部力渡される命令で指示されている。この命令については、図 21を用いて後で説明する。

[0096] 次に、演算部 2100は、対象データ記憶部 2200の対象データと参照データ記憶部 2300の参照データとの差分絶対値を求め (ステップ S310)、演算結果を、相関記憶部 2400の演算結果データ 2410に記憶する（ステップ S320)。その後、演算結果データと受信データ 2420を加算して次行の PEに送り、データを受取った次行の PEは、自 PE内の受信データ 2420に記憶する。

[0097] 一方、命令生成部（3100等）から送られた命令力キャンセルという命令であれば（ステップ S300：キャンセル）、何もしな!、で終了する。

図 21は、制御情報生成部 3000の処理と、命令生成部（3100等）の処理について説明する。

まず、図 21 (a)を用いて、制御情報生成部 3000の処理について説明する。図 21 ( a)は、実施形態 3の制御情報生成部 3000の処理を示すフローチャートである。

[0098] 本実施形態では、上述のように 3種類の制御情報で、 3種類の命令を生成する。

制御情報生成部 3000は、 2つのカウンタを使用して制御情報であるトークンの生成を行う。

ここでは、制御情報生成部 3000でのトークンの生成について説明する。「CounterO」と「Counterl」の 2つのカウンタの値によって、トークンを生成する（ステツプ S510)。

[0099] 制御情報生成部 3000では、「CounterO」 >0または、「Counterl」 >0の期間、演算実行を示す制御情報を発生する。ここでは、どちらか一方のカウンタがアクティブであるものとする。アクティブなカウンタを決定する手段は、命令発行部 1003からの信号であってもよいし、一方のカウンタがカウント完了になった時点で、自身がアクティブ状態でなくなり、他方がアクティブになるというものでもよい。ここでは、後者の方法を取っている。

[0100] rCounterOjと「Counterl」とが共に「0」の場合には、「Invalid」トークンを生成する（ステツプ S511)。

「CounterO」力^≠0」の場合には、「Valid,selO」トークンを (ステップ S512)、「Counte rl」力^≠0」の場合には、「Valid,sell」トークンを生成する（ステップ S513)。尚、「Cou nterOjと「Counterl」とが共に「半 0」の場合は、エラーとする。

[0101] 「selO」とは、レジスタ 0の指す先のデータを使用する旨の指示であり、「sell」は、レジスタ 1の指す先のデータを使用する旨の指示である。 PEは、この指示により、メモリキャッシュ 0とメモリキャッシュ 1のどちら力もデータを読込むかを決定することになる。トークン作成後に、「≠0」であったカウンタ、すなわちアクティブカウンタの値を 1減算する（ステップ S 520)。

[0102] 次に、図 21 (b)を用いて、命令生成部（3100等）の処理について説明する。図 21 ( b)は、命令生成部（3100等）の処理を示すフローチャートである。

命令生成部（3100等）は、実施形態 1と同様、それぞれは同様の処理を行う。

まず、制御情報記憶部 3110に記憶して、るトークンを次の命令生成部に送信し（ステップ S550)、前の命令生成部又は制御情報生成部からトークンを受信する (ステップ S 560)。

[0103] 受信したトークンを基に (ステップ S570)、 PEに実行させる命令を生成する。

トークンが「Invalid」の場合は「exec_array」命令を実行しな、命令を生成し (ステップ S571)、 rValid.selOjの場合は「data_selO」を使用して「exec_array」命令を実行する命令を生成し (ステップ S572)、「Valid,sell」の場合は「data_sell」を使用して「exec_arra y」命令を実行する命令を生成する (ステップ S573)。

[0104] 生成した演算命令は、各 PEに送られ (ステップ S575)、トークンは制御情報記憶部 3110に記憶する（ステップ S580)。

図 22は、トークンと PEの動作を時間軸上にあらわした図である。

[0105] rCounterOj >0の場合に発行されたトークンは「Valid,selO」であり、「Counterl」 >0 の場合に発行されたトークンは「Valid,sell」である。

従って、例えば、サイクル「Cyc 10」では、 1行目と 2行目の PEは、「Valid,sell」トークンで生成された命令を実行し、 4行目と 5行目の PEは、「Valid,selO」トークンで生成された命令を実行する。尚、 3行目の PEは実行を行なわず、各 PEの相関記憶部 240 0がクリアされる。順次、 PEがキャンセルされることで（7100)、参照画像の列の区切りとなる。

[0106] 次に、図 23は、実施形態 3のプログラムの例を示す図である。

プログラム命令リスト 7300には、プログラム命令 7301ごとの動作 7302について記載している。また、制御情報（トークン）の値に応じての動作を示している。例えば、トークン「Invalid」7303の場合は、 ^ 6(；_& &」は^0」、すなわち実行は行なわず、 ^(1^10」7304の場合は「€^&_3610を使用して実行」することを示し、「V alid.sellj 7305の場合は「data_sellを使用して実行」することを示して!/、る。

[0107] 「ldp[addr],rO,rl」 7400は、レジスタ 0及びレジスタ 1に、参照画像行のアドレスを口ードする指示である。

具体的には、レジスタ 0に [addr]が示すアドレスをロードし、レジスタ 1には [addr] +of fset が示すアドレスを同時にロードする。この offsetは、ある行データのアドレスとの差分値であり、予め与えられているものであっても、適時生成するものであってもよい。予め与えられている例として、参照画像において、ある列の最後の行データと、次列の最初の行データとのアドレスの差がある。

[0108] また、「exec_array r0 rlj 7401は、レジスタ 0及びレジスタ 1の指す先の参照画像 2 行分を用いて演算を行なう指示である。

<実施形態 4 >

<概要 >

本実施形態は、対象画像 200の全てのピクセルを用いて参照画像との相関を求めるのではなく、一定の間弓 Iきをして評価を行うものである。

[0109] この方法は、演算量を削減するために有効であり、電力が有限であるバッテリ駆動のモパイル機器などにぉ、て特に有効である。

ピクセルを間引く際の有効な間引き方として、市松模様に間引く手法が知られている。

本実施形態では、対象画像を市松模様に間引いて、すなわち、格子状に 1つおきのピクセルを用いて相関を求める。

[0110] 図 24は、実施形態 4の対象画像及び PEアレイに供給する参照画像の例を示す図である。

本実施形態では、対象画像 8200と対象画像 8210との 2つを、 PEアレイ 1100上に配置、すなわち、 PEの対象データ記憶部 2200に記憶する。この対象画像 8200と対象画像 8210は、同じものである。 [0111] 2つの対象画像（8200、 8210)のうち、演算対象のピクセルのデータのみを配置して、 PEアレイ 1100上に対象画像（8201、 8011)を作成する。

巿松模様型に間引くことによって、 2つの横 6画素、縦 5画素を同時にマッピングすることがでさる。

一方、参照画像 100の方は、 2行分 (8010、 8020)を、それぞれ奇数番目と偶数番目の参照データをまとめて、 2つの参照画像（8011、 8021)を作成する。

[0112] すなわち、参照画像を供給する場合に、 7画素力もなる 1行を、 6画素からなる 1行 8 010と、 1画素ずれた 6画素力もなる 1行 8020として供給する。これにより、同時に 2 位置の水平方向位置を探索することができるようになる。

参照データ 8010からは 2段の参照データ 8011が、参照データ 8020からは 2段の参照データ 8021が作成され、それぞれ合わせて、奇数番目の参照データ 8100と偶数番目の参照データ 8101を作成する。

[0113] ここで作成したような PEアレイ 1100上の対象画像（8201、 8011)と参照データ（8 011、 8021)とで演算を行なう。

従って、参照データ 2つ分を一度に演算するので、簡易な制御回路によって、処理時間および消費電力を大幅に削減できることになる。

尚、本実施形態のアレイ型演算装置 1000の構成は、実施形態 3のものと同じである（図 17参照)。

[0114] <動作 >

次に、図 25〜図 28を用いて、本実施形態のアレイ型演算装置 1000の処理について説明する。基本的な処理の流れは実施形態 1 (図 9〜図 11)と同じであるので、相違点を中心に説明する。

図 25は、アレイ型演算装置 1000で対象画像 200と参照画像 100との相関を求める処理を示すフローチャートである。この処理において、実施形態 1での処理（図 9参照）と異なる点は、 PEにセットする対象データが間引いたものである点と、参照データ 2行分を奇数番目と偶数番目とに分けてメモリキャッシュ 0とメモリキャッシュ 1との 2 つにセットする点である。

[0115] 参照データを 2行分使用する点で実施形態 3と共通する。しかし、実施形態 3では 2 行分のデータを同時に使用する期間があるために、 1行目を使用している途中で 2行目を別のメモリキャッシュにセットする力実施形態 4では 2つのメモリキャッシュのデータは同じ期間で使用するため、同時にセットする点が異なる。また、実施形態 4では、メモリキャッシュのデータを交互に使用する。

[0116] 最初に、対象画像 200から、各 PEの対象データ記憶部 2200にそれぞれの対象デ一タを読込む (ステップ S601)。

例えば、対象画像 200を巿松模様状に間引いた対象画像である図 24の対象画像 (8201、 8011)をセッ卜する。

制御情報生成部 3000のカウンタ記憶部 3010に値をセットする (ステップ S110)。例えば、「Counter」に「8」をセットする。

[0117] 次に、参照画像 100のうち、アレイ型演算装置 1000に供給する 2行分データのアドレスをレジスタ 0及びレジスタ 1にロードする（ステップ S602)。

例えば、図 24の参照データ 8100のアドレスをレジスタ 0に、参照データ 8101のァドレスをレジスタ 1にロードする。

その後、「exe array」の実行を行い (ステップ S130)、演算結果を出力する (ステツプ S140)。参照画像 100の最終行まで演算処理を繰り返す (ステップ SI 20からステツプ S 150)。

[0118] 参照画像 100の最終列まで演算したら (ステップ S 160)処理を終了する。

図 26は、「exec_array」の処理を示すフローチャートであり、処理内容は、実施形態

1とほぼ同じである（図 10参照）力 PEの処理 (ステップ S603)が異なる。

図 27を用いて、 PEの処理について説明する。図 27は、 PEの処理を示すフローチヤートである。

[0119] この処理は、実施形態 1での処理（図 11参照）と異なる点は、各 PEの参照データ記憶部 2300に参照データを読込む場合に、メモリキャッシュ 0とメモリキャッシュ 1とから交互に読込む点である。

例えば、図 29で、 PEアレイ 1100の 1行目の PEには、「T01」「Τ20」「Τ40」〜の対象データがセットされているので、「R0y」「R2y」「R4y」〜の参照データと演算し、 PEァレィ 1100の 2行目の PEには、「T11」「Τ31」「Τ51」〜の対象データがセットされているので、「Rly」「R3y」「R5y」〜の参照データと演算をする必要があるからである。

[0120] 命令生成部（3100等)から送られた命令力実行するという命令であれば (ステップ S300 :実行）、レジスタ 0の指すメモリキャッシュ 0 (1006)又はレジスタ 1の指すメモリキャッシュ 1 (1007)から、各 PEの参照データ記憶部 2300に参照データを読込む（ステップ S604)。

どちらのメモリキャッシュ力データを読むかは、命令生成部力渡される命令で指示されている。この命令については、図 28を用いて後で説明する。

[0121] 次に、演算部 2100は、対象データ記憶部 2200の対象データと参照データ記憶部 2300の参照データとの差分絶対値を求め (ステップ S310)、演算結果を、相関記憶部 2400の演算結果データ 2410に記憶する（ステップ S320)。その後、演算結果データと受信データ 2420を加算して次行の PEに送り、データを受取った次行の PEは、自 PE内の受信データ 2420に記憶する。

[0122] 一方、命令生成部（3100等）から送られた命令力キャンセルという命令であれば（ステップ S300：キャンセル）、何もしな!、で終了する。

図 28は、制御情報生成部 3000の処理と、命令生成部（3100等）の処理について説明する。

まず、図 28 (a)を用いて、制御情報生成部 3000の処理について説明する。図 28 ( a)は、実施形態 4の制御情報生成部 3000の処理を示すフローチャートである。

[0123] ここでは、制御情報生成部 3000でのトークンの生成について説明する。

カウンタ「Counter」の値によって、トークンを生成する（ステップ S610)。

制御情報生成部 3000では、「Counter」が「==0」の場合には、「Invalid」トークンを生成し (ステップ S611)、「Counter」が「≠0」の場合には、「Valid,selO」トークンを生成する（ステップ S 612)。

[0124] 「selO」とは、レジスタ 0の指す先のデータを使用する旨の指示である。

トークン作成後に、「Counter」の値を 1減算する（ステップ S620)。

次に、図 28 (b)を用いて、命令生成部（3100等）の処理について説明する。図 28 ( b)は、命令生成部（3100等）の処理を示すフローチャートである。

命令生成部（3100等）は、実施形態 1と同様、それぞれは同様の処理を行う。 [0125] まず、制御情報記憶部 3110に記憶しているトークンを次の命令生成部に送信し（ステップ S650)、前の命令生成部又は制御情報生成部からトークンを受信する (ステップ S660)。

トークンが「Invalid」の場合 (ステップ S670)は「exec_array」命令を実行しな!、命令を生成し (ステップ S671)、 rvalid,sel0jの場合は「data_sel0」を使用して「exec_array」命令を実行する命令を生成し (ステップ S672)、「Valid,sell」の場合は「data_sell」を使用して「e_Xec_array」命令を実行する命令を生成する (ステップ S673)。

[0126] その後、トークンを反転させて、「sel0」であった場合には「sell」に、「sell」であった場合には「sel0」にする（ステップ S680)。すなわち、次の行の PEで読むメモリキヤッシュを換えるためである。

生成した演算命令は、各 PEに送られ (ステップ S685)、トークンは制御情報記憶部 3110に記憶する（ステップ S690)。

[0127] 以下に、制御情報生成部 3000が作成したトークンと PEの実行の関係について説明する。

図 29は、トークンと PEの動作を時間軸上にあらわした図である。

制御情報生成部 3000で発行される Validトークンは、「Valid,selO」である力 PEァレィの各行の PEでは、「Valid,selO」と「Valid,sell」とのどちらかを基に生成された命令が渡ること〖こなる。

[0128] 従って、例えば、サイクル「Cyc 0」では、 PEアレイ 1行目のトークンは「Valid,selO」である。サイクル「Cyc 0」では、 2行目のトークンは 1行目のトークンを反転した「Valid,sel 1」で、 1行目のトークンは「Valid,selO」である。

すなわち、 1行目の PEと 3行目の PEと 5行目の PEには「Valid,selO」、 2行目の PEと 4 行目の PEには「Valid,sell」トークンで生成された命令を実行する。

[0129] 次に、図 30は、実施形態 4のプログラムの例を示す図である。

プログラム命令リスト 8600には、プログラム命令 8601ごとの動作 8602について記載している。また、制御情報（トークン）の値に応じての動作を示している。

例えば、トークン「Invalid」8603の場合は、 ^ 6(；_& &」は^0 」、すなわち実行は行なわず、 ^(1^10」8604の場合は「€^&_3610を使用して実行」することを示し、「V alid,sell」 8605の場合は「data_sellを使用して実行」することを示して!/、る。

[0130] 「ld[addr],rO,rl」8700は、レジスタ 0とレジスタ 1に、次の参照画像のアドレスをロードする指示である。具体的には、レジスタ 0に [addr]が示すアドレスをロードし、レジスタ 1には [addr] +offset が示すアドレスを同時にロードする。例えば、図 24の参照データ 8100と参照データ 8101が連続してメモリに存在する場合に、 [addr]は参照データ 8100のアドレスであり、 offsetは、参照データ 8100の長さとなる。

[0131] また、「exec_array rO rl」 8701は、レジスタ 0又はレジスタ 1の指す先の参照データを用いて演算を行なう指示である。

「exec_array rO rl」8701と「exec_array rO rl」8702は、命令は同じであるが、どちらのレジスタを使用するかは、トークンによる。

<補足 >

以上、本発明に係るアレイ型演算装置にっ、て実施形態に基づ、て説明したが、この実行装置を部分的に変形することもでき、本発明は上述の実施形態に限られないことは勿論である。即ち、

(1)実施形態では、 PEアレイの各 PEは、行方向に隣接され、行単位に命令生成部を設けて動作させることとしているが、行方向だけでなぐ列方向、斜めを含め隣接する各 PEを接続して命令生成部を設けてもょヽ。

[0132] この構成においては、トークンを元に生成される命令は、 PEアレイの任意の PEに送ることができる。その場合、レジスタ設定やトークンにより各 PEが使用するデータの入力先を動的に変更したり、また、命令を実行する PEを定める、すなわち、命令の適用範囲を定めることにより、より柔軟な実行が可能となる。

(2)実施形態では、 PEアレイはハードウェアで実現しているが、動的に再構成可能なハードウェアを用いて実現してもよい。ここで動的に再構成可能なハードウェアとは、ハードウェアの各ロジックを接続するプログラム可能な配線に、構成情報を与えることで，ハードウェアの論理構造を動的に変更可能なものとする。

(3)実施形態 4では、参照データの変換は、トークンを反転させることで行っているが、固定的に、変換回路が偶数位置か奇数位置かを示す情報を持ってもよい。すなわち、 PEアレイの行ごとに読込むレジスタを固定しておく。

産業上の利用可能性

本発明に力かるアレイ型演算装置は、簡易な装置で柔軟かつ高性能な処理を実現することが可能であるため、画像処理 LSIの演算器等として特に有用である。

Claims

請求の範囲

[1] 順序付けられた複数のプロセッサエレメントで構成されたプロセッサアレイと、

1サイクル毎に、 1個の命令を取得する命令取得手段と、

1サイクル毎に、第 1順位のプロセッサエレメントの動作を制御する為の動作制御情報を作成し、作成した動作制御情報と前記命令取得手段で取得した 1個の命令とに基づき、第 1順位のプロセッサエレメントに対する命令を生成する手段と、

1サイクル毎に、次順位以降のプロセッサエレメントの動作を制御する為の動作制御情報を、前順位のプロセッサエレメントの動作を制御する為に作成した動作制御情報を基に作成し、作成した動作制御情報と前記命令取得手段で取得した 1個の命令とに基づき、前記次順位以降のプロセッサエレメントに対する命令を生成する手段とを備えることを特徴とするアレイ型演算装置。

[2] 前記プロセッサアレイは、信号線で連結された複数のプロセッサエレメントで構成され、

1サイクル毎に、各プロセッサエレメントの演算結果を、前記信号線を介して次順位のプロセッサエレメントに伝達する

ことを特徴とする請求項 1記載のアレイ型演算装置。

[3] 前記アレイ型演算装置は、更に、 1サイクル毎に、基本制御情報を生成する基本制御情報生成手段を備え、

第 1順位のプロセッサエレメントの動作を制御する為の動作制御情報は、前記基本制御情報生成手段で生成された基本制御情報を基に作成される

ことを特徴とする請求項 1記載のアレイ型演算装置。

[4] 前記プロセッサエレメントは、それぞれ、複数種類のデータを取得するデータ取得手段を備え、

前記動作制御情報は、各プロセッサエレメントが命令を実行する際に使用するデータの種類を指定する指定情報を含み、

前記各プロセッサエレメントは、実行に際して、前記指定情報に応じて取得したデータを使用する

ことを特徴とする請求項 1記載のアレイ型演算装置。

[5] 前記動作制御情報は、前記命令取得手段で取得した 1個の命令を実行するか否かを指定する情報であって、

前記動作制御情報が実行する旨の指示である場合には、前記プロセッサエレメントは前記命令を実行し、前記動作制御情報が実行しな!、旨の指示である場合には、該当するプロセッサエレメントへの電力供給を抑止する

ことを特徴とする請求項 1記載のアレイ型演算装置。

[6] 信号線で連結された N個のプロセッサエレメントを M行有した、 M行 X N列の 2次元アレイ構造のプロセッサアレイであって、各プロセッサエレメントの演算結果を、次行のプロセッサエレメントに伝達可能に接続されたプロセッサアレイと、

1サイクル毎に、基本制御情報を生成する基本制御情報生成手段と、

1サイクル毎に、 1個の命令を取得する命令取得手段と、

1サイクル毎に、最初の行のプロセッサエレメントの動作を制御する為の動作制御情報を前記基本制御情報生成手段で生成された基本制御情報を基に作成し、作成した動作制御情報と前記命令取得手段で取得した 1個の命令とに基づき、最初の行に対する命令を生成する手段と、

1サイクル毎に、 2〜M行のプロセッサエレメントの動作を制御する為の動作制御情報を前行のプロセッサエレメントの動作を制御する為に作成した動作制御情報を基に作成し、作成した動作制御情報と前記命令取得手段で取得した 1個の命令とに基づき、前記 2〜M行のプロセッサエレメントに対する命令を生成する手段とを備え、前記プロセッサアレイのそれぞれの行に配列されている N個の前記プロセッサエレメントは、当該行に対する命令を実行する

ことを特徴とするアレイ型演算装置。