WO2007060932A1

WO2007060932A1 - 動的再構成論理回路を有するマルチスレッドプロセッサ

Info

Publication number: WO2007060932A1
Application number: PCT/JP2006/323177
Authority: WO
Inventors: Masaki Maeda; Hideshi Nishida; Yorihiko Wakayama
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2005-11-25
Filing date: 2006-11-21
Publication date: 2007-05-31
Also published as: JPWO2007060932A1; US20090307470A1; US7949860B2; JP5096923B2

Abstract

　本発明に係るプロセッサは、複数のスレッドを巡回的に、各スレッドに割当てられた時間ずつ実行するプロセッサであって、各々異なる特定数の演算セルを順番に繰り返し実行する複数のスレッド各々に対応する、各演算セルのセル構成情報を記憶し、順次、現スレッドに割当てられた時間での最後の演算を終了した演算セルを、記憶している次スレッドに対応する当該演算セルのセル構成情報に基づき再構成させ、次スレッドに対応する構成の演算セルと現スレッドの構成に対応する演算セルとをそれぞれ同時に実行させる。

Description

動的再構成論理回路を有するマルチスレッドプロセッサ

技術分野

[0001] 本発明は、再構成可能な論理回路を有するマルチスレッドプロセッサに関し、特に

、スレッドの切り替え技術に関する。

背景技術

[0002] 近年のプロセッサ、例えば、デジタル信号を用いた映像、音響機器に搭載されるプ口セッサは、複数の処理を並行して行う必要性から、マルチスレッド処理に対応している。

一方、プログラムにより論理構成を変更できるデバイス、例えば、 FPGA (Field Prog rammable Gate Array)や PLD (Programmable Logic Device)が開発され、更に、その構成の変更を高速に行うことが出来る動的再構成論理回路が提案されている。

[0003] このようなソフトウェア処理の柔軟性とハードウェア処理の高速性の両立を目指して開発された動的再構成論理回路を利用して、マルチスレッド処理を行う技術が開発されている (特許文献 1参照)。

この技術を、図 33を用いて簡単に説明する。

マルチスレッドプロセッサ 10と動的再構成演算回路 20とは協調してマルチスレッド処理を実現する。

[0004] スレッド切り替えを指示するマルチスレッドプロセッサ 10からの割り込みにより、動的再構成演算回路 20の構成、具体的には、アレイ状に配した演算セル 21の構成と演算セル間の接続構成とを、次に実行するスレッド用に再構成を行い、次のスレッドを実行する。

このスレッド切り替えの際、各演算セル 21は、現在実行しているスレッドの演算内容を各演算セル 21内の中間演算データ格納レジスタ 211に退避した後、再構成を行う

[0005] この技術により、スレッド切り替え時に、各演算セルの演算内容を破棄したり、全ての演算セルの演算が終了するまでマルチスレッドプロセッサ 10が待つことをせずとも、全演算セルを次のスレッド用に再構成をすることができるので、マルチスレッドプロセッサ 10が次のスレッドの実行を開始するまでの時間を短くでき、全体として演算性能の低下を抑制できるという利点がある。

特許文献 1 :特開 2005— 165961号公報

発明の開示

発明が解決しょうとする課題

[0006] しかし、このような動的再構成演算回路は、各演算セル内に、実行するスレッド数分の格納レジスタが必要となることから、演算セルの個数やスレッド数が多くなればなるほど動的再構成演算回路の面積が大きくならざるを得ない。

また、動的再構成演算回路の面積を大きくしない為に、動的再構成演算回路内に格納レジスタを持たな、で外部のメモリ等に退避することとすると、全演算セルのデータの退避を同時に行う必要があることから入出力ポートが大量に必要となり、動的再構成演算回路内のレジスタによる面積は増えないが、入出力ポート分の面積が増免ることとなる。

[0007] そこで、本発明は、スレッド切り替え時の再構成による性能劣化を抑制しつつ、回路面積の増加をも抑えることができる、動的再構成論理回路を備えるマルチスレッド対応のプロセッサの提供を目的とする。課題を解決するための手段

[0008] 上記課題を解決する為に、本発明に係るプロセッサは、複数のスレッドを巡回的に、各スレッドに割当てられた時間ずつ実行するプロセッサであって、複数の演算セルを含み、当該演算セルの構成と各演算セル間の接続とを再構成可能な演算回路と、演算セルの構成及び当該演算セルと他の演算セルとの接続を、セル構成情報に基づいて、再構成する再構成手段と、各々異なる特定数の演算セルを順番に繰り返し実行する複数のスレッド各々に対応する、各演算セルのセル構成情報を記憶する構成情報記憶手段と、順次、前記再構成手段に、現スレッドに割当てられた時間での最後の演算を終了した演算セルを、前記構成情報記憶手段に記憶してヽる次スレツドに対応する当該演算セルのセル構成情報に基づき再構成させ、次スレッドに対応する構成の演算セルと現スレッドの構成に対応する演算セルとをそれぞれ同時に実行させる制御手段とを備えることを特徴とする。

発明の効果

[0009] 本発明に係るプロセッサは、上述の構成を備えることにより、スレッドを切り替える際に、現在実行しているスレッド (以下、「現スレッド」という。）の演算を終了した演算セルから順に、次に実行するスレッド (以下、「次スレッド」という。）の構成に再構成して V、き、現スレッドの実行と並行して再構成した演算セルを用いて次スレッドの演算を行うので、スレッド切り替え時の時間を必要最小限とすることができる。且つ、退避用のレジスタや入出力ポートを必要とせず、回路面積をも必要最小限とすることができる。

[0010] すなわち、動的再構成演算回路を、一度に、現スレッド用の構成力ゝら次スレッド様の構成に再構成する場合には、現スレッド終了時力ゝら次スレッド開始時までの間に、少なくとも再構成の時間が必要となる。しかし、本発明では、その時間さえも不要であり、スレッド切り替えの際には、現スレッドの実行と次スレッドの実行とが同時に行われるので、切替時間が短くなるだけでなぐ全体として実行時間が短くなるという優れた効果を奏することができる。

[0011] また、前記プロセッサは、更に、各スレッドの演算セルの演算結果を、それぞれ別の領域に記憶する演算結果記憶手段を備え、前記制御手段は、同時に実行させている現スレッドで順番に繰り返し実行する演算セルのうちの最後の演算セルの演算結果を前記演算結果記憶手段の現スレッドの領域に記憶させ、同時に実行させて、る次スレッドの領域に記憶されている演算結果を、次スレッドの最初に実行する演算セルに参照させて演算を実行させることとしてもょ、。

[0012] これにより、動的再構成演算回路の演算結果のみを記憶することになるので、各演算セルの中間演算データを格納する必要がなぐ演算セル内部のレジスタは当該演算セルの実行に必要な量でよぐまた、全ての演算セルの演算結果データを一度に演算結果記憶部に出力する必要はないので、最小限の入出力ポートでよい。従って、中間演算データを記憶するためのレジスタや、ポート分の面積を抑制することができ、プロセッサ全体の面積を小さくすることが可能となる。

[0013] また、前記プロセッサは、更に、スレッドに割当てられた時間での最後の演算を終了した演算セルであって、当該スレッドで順番に繰り返し実行する演算セルのうちの最後の演算セルの演算結果を記憶する演算結果記憶手段を備え、前記制御手段は、現スレッドで順番に繰り返し実行する演算セルのうちの最後の演算セルの演算結果に基づいて、次の繰り返しの最初に実行する演算セルを実行させ、スレッドを切り替える際には、次スレッドに対して前回割当てられた時間に前記演算結果記憶手段に記憶した演算結果を、次スレッドの最初に実行する演算セルに参照させて演算を実行させることとしてもよい。

[0014] これにより、動的再構成演算回路力もの演算結果データを、直接マルチスレッドプ口セッサが取得できるので、演算結果記憶部への書き込みと読み出しの時間が不要となり、スレッドの実行効率が良くなる。言い換えれば、与えられた時間内で行うことが出来るスレッドの処理が増えることになる。

また、本発明に係るプロセッサは、複数のスレッドを巡回的に、各スレッドに割当てられた時間ずつ実行するプロセッサであって、複数の演算セルを含み、当該演算セルの構成と各演算セル間の接続とを再構成可能な演算回路と、演算セルの構成及び当該演算セルと他の演算セルとの接続を、セル構成情報に基づいて、再構成する再構成手段と、各々異なる特定数の演算セルを順番に繰り返し実行する複数のスレッド各々に対応する、各演算セルのセル構成情報を記憶する構成情報記憶手段と、順次、前記再構成手段に、現スレッドに割当てられた時間での最後の演算を終了した演算セルを、前記構成情報記憶手段に記憶して、る次スレッドに対応する当該演算セルのセル構成情報に基づき再構成させ、現スレッドで実行する最後の演算セルの演算終了後、次スレッドの構成の演算セルを実行させる制御手段とを備えることを特徴とする。

[0015] この構成を備えることにより、本発明に係るプロセッサは、スレッド切り替えに際して、現スレッド終了時には、動的再構成演算回路の構成を次スレッド用の構成とすることができるので、現スレッド終了後すぐに次スレッドの実行を開始することが出来るようになる。

図面の簡単な説明

[0016] [図 1]プロセッサ 100の構成例を表す図である。圆 2]動的再構成演算回路 2000の構成を示す概略図である。

圆 3]1つの演算セルと、関連する動的再構成接続部とを示す図である。

圆 4]演算セルと演算データ選択器、出力データ選択器に構成情報と制御信号とを供給する信号線を示す図である。

圆 5]演算セルに演算データを供給する信号線を示す図である。

[図 6]スレッド Aのデータの流れを示す図である。

[図 7]スレッド Bのデータの流れを示す図である。

[図 8]スレッド Cのデータの流れを示す図である。

[図 9]図 9 (a)は、演算セル段数テーブルの構成及び内容例を示し、図 9 (b)は、スレッド段数テーブルの構成及び内容例を示す。

[図 10]演算セル構成情報テーブル 3100の構成及び内容例を示し、このデータは、構成情報記憶部 3000が予め記憶しているデータである。

[図 11]従来のスレッドの切り替えを示す図である。

[図 12]スレッドに割当てられた時間の最後のサイクルに実行される演算セル 2100を示した図である。

[図 13]本発明のスレッドの切り替えを示す図である。

[図 14]図 14は、スレッド切り替え時のマルチスレッドプロセッサ 1000と構成切替部 40

00との処理を示すフローチャートである。

[図 15]待ちサイクル数の算出処理を示すフローチャートである。

圆 16]演算セル、演算ソース選択器の再構成処理を示すフローチャートである。

[図 17]スレッド Aからスレッド Bへの切り替え時の動的再構成演算回路の遷移図である。

[図 18]スレッド切り替えの際の、マルチスレッドプロセッサ 1000等からの制御信号と演算セル等の処理との関係を表すタイムチャートである。

[図 19]これら制御信号と出力データ選択器 2250の処理との関係を表すタイムチヤ一トである。

[図 20]これらの制御信号と演算結果記憶部 5000の処理との関係を表すタイムチヤ一トである。 [図 21]演算結果記憶部 5000内の各スレッドの領域を表す図である。

[図 22]スレッド Cからスレッド Aへの切り替え時の動的再構成演算回路の遷移図である。

[図 23]スレッド切り替えの際の、マルチスレッドプロセッサ 1000等からの制御信号と演算セル等の処理との関係を表すタイムチャートである。

[図 24]スレッドの切替スケジュールを表したタイムチャートである。

[図 25]演算結果記憶部 5000に関する命令例等である。

[図 26]図 26 (a)は、マルチスレッドプロセッサ 1000からの動的再構成演算回路 200 0への演算命令例であり、図 26 (b)は、演算結果記憶部 5000に対する演算結果読み出し命令例である。

[図 27]図 27 (a)は、スレッド Aでの Rcn— exe命令と、 Rcn—rd命令のみのプログラム例であり、図 27 (b)は、 Rcn— exe命令、 Rcn— rd命令の間に 4サイクル分の演算用命令を挿入してあるプログラム例である。

[図 28]待ちサイクル期間が生じないスレッド切り替えのスケジュールを示したタイムチヤートである。

[図 29]命令仕様書の Rcn— exe命令の記載例である。

圆 30]本発明の実施形態 3における動的再構成論理回路装置 200の構成を示す機能ブロック図である。

圆 31]本発明の実施形態 4における動的再構成論理回路装置 300の構成を示す機能ブロック図である。

圆 32]本発明のプロセッサが搭載された移動体通信装置を示す図である。

[図 33]動的再構成演算回路を備える、マルチスレッドプロセッサの従来例である。符号の説明

100 200 300 プロセッサ

10 1000 マルチスレッドプロセッサ

20 2000 動的再構成演算回路

21 2100 演算セル

2200 動的再構成接続部 2210 演算ソース選択器

2250 出力データ選択器

3000 構成情報記憶部

3100 演算セル構成情報テーブル

4000 構成切替部

4100 演算セル段数テーブル

4200 スレッド段数テーブル

5000 演算結果記憶部

6000 演算結果選択器

7000 演算ソース記憶部

10000 移動通信装置

発明を実施するための最良の形態

[0018] <実施形態 1 >

<概要 >

本発明に係るプロセッサは、動的再構成演算回路を備えるマルチスレッド処理に対応したプロセッサであり、スレッドを実行する毎に、動的再構成演算回路を当該スレツド用の構成に再構成するものである。この動的再構成演算回路は、複数の演算セル等を備えており、この演算セル等の構成を再構成することで動的再構成演算回路を再構成する。

[0019] 本発明に係るプロセッサでは、そのスレッド切り替えの際に、全ての演算セルを同時に次スレッド用に再構成するのではなぐ演算の終了した演算セルを順次再構成して実行して、くものである。

従って、スレッド切り替え時には、切り替え前のスレッドである現スレッドの処理を行つて、る演算セルと、切り替え後のスレッドである次スレッドの処理を行って、る演算セルとが混在し、現スレッドと次スレッドが同時に実行されることとなる。

[0020] このように、現スレッドの処理が終了する前に次スレッドの処理を開始するので、演算セルが遊んでしまう時間を最小限度にすることができ、スレッド切り替えによる性能低下を抑制し、全体の実行時間を短縮することが可能となる。以下、本発明の実施形態のプロセッサについて説明する。

本実施形態のプロセッサは、マルチスレッドプロセッサであり、マルチスレッドを実現するための方法として、各タスクを一定時間ずつ順番に実行していくラウンドロビン方式を取るものとする。

[0021] 尚、イベントドリブン方式として、データ転送コントローラ DMAC (Direct Memory Ac cess Controller)のデータ転送完了信号や、他のプロセッサやハードワイヤードロジックの演算終了信号などを要因として、タスクを切り替えても良い。

スレッドは、動的再構成演算回路にデータを入力し、特定数の演算セルを決められた順に実行しその結果を出力する、という一連の処理 (以下、「ループ」ともいうものとする。）を繰り返し行う。この一連の処理で必要な演算セルの個数を演算段数というものとする。

[0022] 出力した結果は、演算結果記憶部を介してマルチスレッドプロセッサによって読み込まれ、新たなデータが動的再構成演算回路に入力される。

本実施形態のスレッドは、それぞれ演算段数が異なるものとする。従って、動的再構成演算回路を構成する演算セルの個数に応じて、各スレッドで並列に実行できるループの最大数が異なる。尚、実際に実行するループ数は、スレッドの処理内容に依存する。

[0023] く構成〉

以下、図 1を用いて、本発明に力かるプロセッサ 100の構成を説明する。図 1は、プロセッサ 100の構成例を表す図である。

プロセッサ 100は、マルチスレッドプロセッサ 1000、動的再構成演算回路 2000、構成情報記憶部 3000、構成切替部 4000及び演算結果記憶部 5000で構成される

[0024] ここで、実線矢印は演算結果等のデータの流れ、点線矢印は制御の信号等の流れ、二重線矢印は構成情報の流れをそれぞれ表すものとする（図 2、図 3等も同様)。マルチスレッドプロセッサ 1000は、複数の異なる処理を時分割で実行することができる、いわゆるマルチスレッドプロセッサである。動的再構成演算回路 2000と協調して演算を行い、スレッドの処理を実行していく。 [0025] 具体的にマルチスレッドプロセッサ 1000は、あるスレッドの処理を行う場合は、そのスレッド用に動的再構成演算回路を構成し、演算段数分の演算セルの処理を繰り返し行わせる。

また、本マルチスレッドプロセッサ 1000は、次に実行するスレッドを決定し、実行する機能を有する。具体的には、スレッドに割当てた時間の終了を知らせるタイマ割り込みによって、スレッドの切替時を検出し、次スレッド用に動的再構成演算回路 200 0の再構成を行うよう構成切替部 4000に指示を出す。この際、現スレッドと次スレッドを通知する。

[0026] 尚、スレッドの切替時の検出には、データ転送コントローラ DMAC (Direct Memory Access Controller)のデータ転送完了信号や、他のプロセッサやハードワイア一ドロジックの演算終了信号などを要因として、検出するものであっても良い。この場合も、以下、スレッドに割当てられた時間として説明する。

次に、動的再構成演算回路 2000は、アレイ状に配置された複数の演算セル 2100 を含み、各演算セルの構成及び各演算セル間の接続構成を変更することが可能な演算回路である。すなわち、各演算セルの構成を所定の演算を行うように再構成し、接続構成を各演算セルが所定のデータを入力するように再構成することで、動的再構成演算回路 2000を所望の処理を行う回路に再構成する。詳細は、図 2〜図 5を用いて後で説明する。

[0027] 構成情報記憶部 3000は、動的再構成演算回路 2000を所望の回路に再構成する為の構成情報を記憶する機能を有する。また、構成切替部 4000からの指示を受けて、順次必要な構成情報を読み出し、動的再構成演算回路 2000に対して供給する機能を有する。

本実施形態における構成情報は、スレッド毎に記憶され、各演算セル毎に記憶されているものとする。詳細は、図 10を用いて後で説明する。

[0028] 構成切替部 4000は、マルチスレッドプロセッサ 1000からの指示を受けて、次スレツド用に、順次、動的再構成演算回路 2000の再構成を行う機能を有する。再構成は、本構成切替部 4000が、演算結果記憶部 5000、動的再構成演算回路 2000、構成情報記憶部 3000を制御することで行う。演算結果記憶部 5000は、動的再構成演算回路 2000が出力する演算結果を記憶する機能を有する。

[0029] この演算結果は、スレッド毎に記憶されており、このスレッド毎の演算結果は、各スレッドの 1ループの結果であり、マルチスレッドプロセッサ 1000により読み出される。本実施形態では、ループの都度、書き込まれ、マルチスレッドプロセッサ 1000によつて読み出される。また、該当スレッドに時間が再び割当てられてスレッド処理を続行するときに、読み出されて利用される。

[0030] この演算結果記憶部 5000は、構成切替手段 4000から、現スレッドと次スレッドを通知され、動的再構成演算回路 2000からの書き込み領域及び、マルチスレッドプロセッサ 1000からの読み出し領域を変更する。

次に、図 2〜図 5を用いて、動的再構成演算回路 2000の詳細について説明する。

<動的再構成演算回路 2000の詳細 >

まず、図 2は、動的再構成演算回路 2000の構成を示す概略図である。

[0031] 動的再構成演算回路 2000は、複数の演算セル（2100a〜2100p)と、演算セルを接続する動的再構成接続部 2200とで構成される。

以下、演算セル 2100aは「演算セル a」、演算セル 2100bは「演算セル b」等というものとし、図 4等でも同様とする。また、演算セル 2100という場合は、 1つの演算セルを指すものとする。

[0032] 各演算セル 2100には、構成切替部 4000と構成情報記憶部 3000とからそれぞれ信号線が引かれ、構成切替部 4000からは制御信号 (点線矢印）が送られ、構成情報記憶部 3000からは構成情報（二重線矢印）が送られる。

また、マルチスレッドプロセッサ 1000から動的再構成接続部 2200を介して、演算セル 2100等に必要な演算データが渡される。

[0033] 演算セル 2100は、乗算、シフト、加算、論理演算が可能であり、設定された構成情報での演算を行う。動的再構成演算セル 2100の 1回の演算に要する期間は、プロセッサの 1サイクルとする。また、再構成に要する期間も、同様に、プロセッサの 1サイクルとする。

以下、動的再構成接続部 2200の構成を図 3を用いて説明する。 [0034] く動的再構成演算接続部 2200について〉

図 3は、 1つの演算セルと、関連する動的再構成接続部 2200とを示す図である。本図では、 1対の演算セル 2100と演算ソース選択器 2210、出力データ選択器 22 50を示している。

動的再構成接続部 2200は、演算セル 2100と対となる演算ソース選択器 2210、すなわち、演算セル 2100と同数の演算ソース選択器 2210と、 1つの出力データ選択器 2250と、マルチスレッドプロセッサ 1000からのデータの配線及び演算セル間の配線とで構成される。

[0035] 演算セル 2100、演算ソース選択器 2210及び出力データ選択器 2250には、それぞれ構成切替部 4000から制御信号が、構成情報記憶部 3000から構成情報が入力される。これにより、各演算セル 2100等は、別々のタイミングでの構成切り替えが可能となる。

演算ソース選択器 2210は、他の演算セル 2100の演算結果である演算データを入力し、そのうちから 1つの演算データを選択し、対となる演算セル 2100に出力する。尚、 1段目の演算セル a〜演算セル dは、他の演算セル 2100からの演算データとマルチスレッドプロセッサ 1000からの演算データのうち 1つの演算データを選択する。

[0036] 演算ソース選択器 2210の構成の切り替えは、対である演算セル 2100と同時に行う。そのため、構成切替手段 4000からの切り替え信号線は、演算セル 2100に接続されたものが同じく接続されている。

また、演算セル 2100は、演算結果の演算データを他の演算セル 2100の演算ソース選択器 2210に出力する。尚、最下段の演算セル m〜演算セル pは、他の演算セル 2100と出力データ選択器 2250に演算データを出力する。

[0037] 出力データ選択器 2250は、演算セル力も入力された演算データ力も必要な演算データを選択して演算結果記憶部 5000に出力する。

この出力データ選択器 2250の構成の切り替えは、演算セル 2100と同じぐ構成切替手段 4000から構成切り替えの信号線及び構成情報記憶部 3000からの構成情報転送用の信号線が接続されており、構成切り替えの信号を受けると、そのときの構成情報記憶部 3000からの構成情報に切り替える。 [0038] <構成情報、制御信号、演算データの流れにつ!、て >

図 4は、演算セルと演算データ選択器と出力データ選択器とに、構成情報と制御信号とを供給する信号線を示す図であり、図 5は、演算データを供給する信号線を示す図である。

図 4において、構成切替部 4000からは制御信号力演算セル a〜演算セル p、演算ソース選択器 _a〜演算ソース選択器 p及び出力データ選択器 2250にそれぞれ出力され、構成情報記憶部 3000からは構成情報が出力される。

[0039] 対となる演算セル 2100と演算ソース選択器 2210には、同じ制御信号と同じ構成情報が入力される。また、全ての演算セル 2100等には、同時に、構成情報記憶部 3 000から同じ構成情報が送出される。

各演算セル 2100、各演算ソース選択器 2210、出力データ選択器 2250は、構成切替部 4000から送られる制御信号に応じて、構成情報を読み込み、再構成を行う。

[0040] すなわち、構成切替部 4000は、構成情報記憶部 3000に構成を変更しょうとする演算セルの構成情報を出力させ、同時に、構成を変更しょうとする演算セルに対してのみ再構成を指示する命令を送出する。再構成の指示を受けた演算セルは、構成情報を読み取り再構成を行う。

演算ソース選択器 2210、出力データ選択器 2250も同様である。

[0041] 図 5は、演算データの流れを示し、各演算セル 2100は、演算結果である演算データを、次の段の演算セルの演算ソース選択器 2210と、隣の演算セルの演算ソース選択器 2210とに出力する。例えば、演算セル bは、演算データを演算ソース選択器 fと演算ソース選択器 _aと演算ソース選択器 cとに出力する。

演算ソース選択器 2210は、入力される複数の演算データの 1つを選択して、対である演算セルに出力する。例えば、演算ソース選択器 fは、演算セル bと演算セル eと演算セル gとから送られる演算データのうちの 1つを選択して、演算セル fに出力する。演算セル fは、演算ソース選択器 fから出力された演算データを基に演算を行う。

[0042] 演算ソース選択器 2210が、どの演算データを選択するかは、演算ソース選択器 22 10の構成に依存する。例えば、演算ソース選択器演算セル g力もの演算データを選択する構成となっている場合は、常に、演算セル g力もの演算データを選択し、再構成が成されれば、その構成に応じて演算セル bや演算セル eからの演算データを選択することになる。

[0043] また、出力データ選択器 2250も、入力した演算データのうち、いずれを演算結果記憶部 5000に出力するかは、その構成に依存する。すなわち、演算結果記憶部 50 00に出力する演算データは、 1つとは限らず、スレッドの処理に応じた出力データ選択器 2250の構成に依存する。

尚、本実施形態では、演算データを下段と左右の演算セルの演算ソース選択器に送ることとしているが、これに限られず、他の演算セルの演算ソース選択器に送信する構成としてももちろんよい。

[0044] <データ >

以下、プロセッサ 100が、スレッドの切り替えを行う際に使用するデータについて、図 9と図 10とを用いて説明する。

データを説明する前に、本実施形態での説明で使用するスレッドについて図 6〜図 8を用いて説明する。

[0045] <スレッドについて >

本実施形態では、スレッド A、スレッド B、スレッド Cの 3つのスレッドを巡回的に実行するものとする。

図 6〜図 8は、各スレッドのデータの流れを示す図である。説明の便宜上、演算ソース選択器 2210及び出力データ選択器 2250は記載せずに、演算データの流れのみ示すものとする。

[0046] まず、図 6は、スレッド Aのデータの流れを示す図である。スレッド Aの演算段数は「 4」であり、動的再構成演算回路 2000の演算セルが 16個であることから、 4つの演算処理を並行して行うものとする。

すなわち、マルチスレッドプロセッサ 1000から演算セル aに演算ソースが渡され、演算セル aの演算結果を演算セル eに送り、演算セル eは演算セル aから受け取った演算データを基に演算を行い演算結果を演算セル iに送る。演算セル iは、演算セル e 力受け取った演算データを基に演算を行う。 t 、うように順に演算結果を送り演算セル mまで演算を実行する。同様に、マルチスレッドプロセッサ 1000から演算セル b 、演算セル c、演算セル dに演算データが渡され、それぞれ並行して処理を行う。

[0047] 演算セル m、演算セル n、演算セル o、演算セル pの演算結果が演算結果記憶部 5 000に記憶される。

この記憶された演算結果は、マルチスレッドプロセッサ 1000によって読み出され、マルチスレッドプロセッサ 1000内での演算等に使用される。尚、演算セル a等に供給されてもよい。マルチスレッドプロセッサ 1000は、演算データを読み出し、演算するというループを繰り返すことでスレッド Aを実行する。演算セルに供給するデータは、読み出した演算データそのまま又は何らかの処理が成されたもの、他のデータ等であつてもよく、スレッドの処理に依存する。このループは、スレッド B、スレッド Cにおいても同様である。

[0048] 図 7は、スレッド Bのデータの流れを示す図である。スレッド Bの演算段数は「8」であり、 2つの演算処理を並行して行う。

マルチスレッドプロセッサ 1000から、演算セル aに演算ソースが渡され、演算セル a →演算セル b→演算セル f→演算セル e→演算セル i→演算セル j→演算セル 11→演算セル mの順に演算データを送って処理を行う。同様に、マルチスレッドプロセッサ 1 000から演算セル cに演算データが渡され、演算セル oまで処理を行う。

[0049] 演算セル mと演算セル oの演算結果が演算結果記憶部 5000に記憶される。

図 8は、スレッド Cのデータの流れを示す図である。スレッド Bの演算段数は「16」であり、 1つの演算処理を行う。

マルチスレッドプロセッサ 1000から、演算セル aに演算ソースが渡され、演算セル a →演算セル b→演算セル c→演算セル d→演算セル h→演算セル g→演算セル→演算セル e→演算セル i→演算セル j→演算セル k→演算セル 1→演算セル p→演算セル o→演算セル n→演算セル mの順に演算データを送って処理を行う。

[0050] 演算セル oの演算結果が演算結果記憶部 5000に記憶される。

<スレッド切り替えに使用するデータについて >

以下、これらのスレッド A、スレッド B、スレッド Cを巡回的に実行する場合のスレッドの切り替えに際し使用するデータについて、図 9と図 10とを用いて説明する。

図 9 (a)は、演算セル段数テーブルの構成及び内容例を示し、図 9 (b)は、スレッド段数テーブルの構成及び内容例を示す。

[0051] これらのデータは、構成切替部 4000が予め記憶しているデータである。

まず、図 9 (a)の演算セル段数テーブル 4100について説明する。

演算セル段数テーブル 4100は、スレッド ID4110と演算セル ID4120とで構成され、スレッドごとの各演算セルの段数目 4130を示す。

スレッド ID4110は、本プロセッサで実行するスレッドの識別子をいい、本実施形態では「スレッド A」、「スレッド B」及び「スレッド C」である。

[0052] 演算セル ID4120は、本プロセッサの動的再構成演算回路 2000を構成する演算セル 2100それぞれの識別子をヽ、本実施形態では「演算セル a」〜「演算セル p」の 16個である。

スレッドごとの各演算セルの段数目 4130とは、該当スレッドの 1ループの処理において、該当演算セルが何番目に実行されるかを示すものである。ここでの番数は、「0 」〜「15」で表すものとし、「0」段数目の演算セルが最初に実行されるものとする。

[0053] 例えば、スレッド ID4110「スレッド A」の演算セル ID4120「演算セル b」の演算段数目 4130は「0」であることから、スレッド Aでは最初に実行される演算セルである（図 6 参照）。また、スレッド ID4110「スレッド B」の演算セル ID4120「演算セル b」の演算段数目 4130は「1」であり、スレッド Bでは 2番目に実行される演算セルである（図 7参照)。

[0054] 次に、図 9 (b)のスレッド段数テーブル 4200は、スレッド ID4210と演算段数 4220 とで構成される。

スレッド ID4210は、図 9 (a)のスレッド ID4110と同様である。

また、演算段数 4220は、各スレッドの演算段数を示す。例えば、スレッド ID4210「スレッド A」は、演算段数 4220「4」であり 4個の演算セルを順に用いて行い、スレッド I D4210「スレッド C」は、演算段数 4220「16」であり 16個の演算セルを順に用いて行う。この順は、演算セル段数テーブル 4100に示されるとおりである（図 9 (a)参照)。

[0055] 次に、図 10は、演算セル構成情報テーブル 3100の構成及び内容例を示し、このデータは、構成情報記憶部 3000が予め記憶して、るデータである。

演算セル構成情報テーブル 3100は、スレッド ID3110と演算セル ID3120とで構成され、スレッドごとの各演算セルの構成情報を特定する構成情報名 3130を示している。すなわち、構成情報名 3130は、構成情報の識別子である。

[0056] 演算セル ID3120が「演算セル a」〜「演算セル ρ」の構成情報名 3130で特定れる構成情報は、演算セルと、対となる演算ソース選択器とを再構成するための情報である。

また、演算セル構成情報テーブル 3100には、更に、スレッド毎の出力データ選択器 2250の構成情報を特定する構成情報名 3130も記憶されている。

[0057] 構成情報記憶部 3000には、構成情報名 3130で示される構成情報は全て記憶されているものとする。

例えば、スレッド ID3110「スレッド Α」の演算セル ID3120「演算セル a」の構成情報名 3130は「構成情報 A0」であることから、スレッド A実行時の演算セル aと演算ソース選択器 aとは、「構成情報 A0」で示される構成情報で再構成されたものである。

[0058] 構成情報記憶部 3000は、構成切替部 4000からの指示を受け、この演算セル構成情報データ 3100を基に、該当する構成情報名 3130で示される構成情報を動的再構成演算回路 2000に送出する。

<動作 >

次に、図 11〜図 27を用いて、本発明に係るプロセッサの動作を説明する。

[0059] まず、図 11〜図 13を用いて、従来と本発明とを比較して、スレッドの切り替えについて簡単に説明する。

その後、本発明の、スレッドの演算段数 4220 (図 9 (b)参照）が異なるスレッドへの切り替えについて説明する。この切り替えについては、現在実行している現スレッドの演算段数より大きい演算段数のスレッドに切り替える場合と、現スレッドの演算段数より小さい演算段数のスレッドに切り替える場合とに分けて説明する。

[0060] 尚、動的再構成演算回路 2100の各演算セル 2100は、演算、再構成ともに、プロセッサの 1サイクノレで行う。

<従来と本発明とのスレッド切り替えにつ、て >

図 11は、従来のスレッドの切り替えを示す図である。

プロセッサ 100がスレッド A、スレッド B、スレッド Cを巡回的に実行し、それぞれのスレッド実行時の動的再構成演算回路 2000を示している。

[0061] 動的再構成演算回路 2000Aは、スレッド A実行時の動的再構成演算回路 2100であり、同様に、動的再構成演算回路 2000B、動的再構成演算回路 2000Cは、それぞれスレッド B、スレッド C実行時の動的再構成演算回路 2100である。

動的再構成演算回路 2000の各演算セル 2100が、どのスレッド用の構成であるかを示している。例えば、動的再構成演算回路 2000Aの「演算セル a」の下に記載して

V、る「スレッド A」は、スレッド A用の構成であることを示して!/、る。

[0062] 従来は、スレッド Aの実行が終了すると、動的再構成演算回路 2000Aカゝら動的再構成演算回路 2000Bに再構成し、スレッド Bの実行を開始していた。従って、動的再構成演算回路 2000Aから動的再構成演算回路 2000Bに再構成して、る間、スレツドを実行は行うことが出来ない。

次に、図 12は、スレッドに割当てられた時間の最後のサイクルに実行される演算セル 2100を示した図である。すなわち、図 11における各スレッドの再構成直前の動的再構成演算回路 2000の図である。

[0063] 動的再構成演算回路 2000Aのハッチングが掛けられている演算セル 2100力スレッド Aに割当てられた時間の最後のサイクルに実行される演算セル 2100であり、同様に、動的再構成演算回路 2000B、動的再構成演算回路 2000Cは、それぞれにスレッド B、スレッド Cのものを示す。

すなわち、ハッチングが掛けられていない演算セル 2100、スレッド Aでは 12個、スレッド Bでは 14個、スレッド Cでは 15個の演算セルは、遊んでいることになる。

[0064] 本図では、スレッドに割当てられた時間の最後のサイクルについて説明しているが

、スレッドに割当てられた時間の最後のループでの演算を終了した演算セルは、当該スレッドが終了するまで遊んでいることになる。例えば、動的再構成演算回路 200

OAの演算セル aは、最後の演算を行い演算結果を演算セル eに渡すと、以後、演算セル mの演算が終了するまで何も行わな、。

[0065] 本発明は、スレッド切り替え時に遊んでしまっている演算セルを、次スレッド用に再構成して次スレッドの処理を行わせようとするものである。

図 13は、本発明のスレッドの切り替えを示す図である。スレッド Aの実行が終了した演算セル力順にスレッド B用に再構成を行!、スレッド Bの演算を行う。

[0066] 従って、動的再構成演算回路 2000Aから動的再構成演算回路 2000Bのように、全ての演算セル 2100がスレッド B用になる間に、動的再構成演算回路 2000ABに示すように、スレッド A用の演算セルとスレッド B用の演算セルとが混在する期間が存在する。すなわち、スレッド Aとスレッド Bとが並行して実行されていることになる。同様に、スレッド Bからスレッド Cに切り替わる際にも、動的再構成演算回路 2000B Cに示すように、スレッド B用の演算セルとスレッド BCの演算セルとが混在する期間が存在することになる。

[0067] このように並行に処理することで、スレッドの切り替えの際に必要な演算セル 2100 の再構成の時間をなくすことができ、スレッドの実行の一部を並行に行うことで、より無駄をなくすことが可能となる。

具体的には、図 11における再構成に必要なスレッド間の時間は不要となり、さらには、現スレッド処理の終わりと次スレッド処理の開始とが重なるため、より全体としてのスレッド実行時間を短くすることが可能となる。

[0068] <現スレッドの演算段数より大きい演算段数のスレッドに切り替える場合 >

図 14〜図 16のフローチャートを用いて、本プロセッサの動作を説明する。この説明の際、図 17〜図 21を参照する。

ここでは、現スレッドをスレッド A、次スレッドをスレッド Bとする。すなわち、演算段数「4」のスレッド Aから、演算段数「8」のスレッド Bに切り替える処理を例に取り説明する

[0069] 図 17は、スレッド A力スレッド Bへの切り替え時の動的再構成演算回路の遷移図である。本図では、スレッド切り替えの際の、サイクル 1〜サイクル 11までの動的再構成演算回路の遷移を表す。動的再構成演算回路 C1は、サイクル 1の回路を表し、動的再構成演算回路 C2は、サイクル 2の回路を表すものとする。演算セル内の「A」はスレッド A用の構成、「B」はスレッド B用の構成、「C」はスレッド C用の構成であることを表し、ノ、ツチングは実行していることを表す。また、「再構成」は次スレッド用に再構成していることを表す。 [0070] 図 18は、スレッド切り替えの際の、マルチスレッドプロセッサ 1000等からの制御信号と演算セル等の処理との関係を表すタイムチャートである。本図では、 16個の演算セル 2100のうち、説明の便宜上、演算セル a、演算セル b、演算セル fの処理のみを表している。

図 19は、これら制御信号と出力データ選択器 2250の処理との関係を表すタイムチヤートであり、また、図 20は、これらの制御信号と演算結果記憶部 5000の処理との関係を表すタイムチャートである。

[0071] 尚、図 18〜図 20のタイムチャートのサイクルは、図 17のサイクルと同じタイミングのサイクルである。すなわち、図 17と図 18のサイクル C1は、同じタイミングのサイクルである。

図 21は、演算結果記憶部 5000内の各スレッドの領域を表す図である。本実施形態では、スレッド A用の領域を 0x00〜0x3F番地、スレッド B用の領域を 0x0 040〜0x5F番地、スレッド C用の領域を 0x60〜0x6F番地とする。

[0072] 以下、図 14のフローチャートに沿って、切り替え処理を説明する。

図 14は、スレッド切り替え時のマルチスレッドプロセッサ 1000と構成切替部 4000との処理を示すフローチャートである。

まず、マルチスレッドプロセッサ 1000は、動的再構成演算回路 C1 (図 17参照）を動作させながら現スレッドであるスレッド Aを実行する（ステップ S100)。

[0073] 具体的には、マルチスレッドプロセッサ 1000は、演算データを演算セル a、演算セル1)、演算セル c、演算セル dに供給する。

演算データを入力した各演算セルは、順に下段の演算セルに演算結果を渡して、き、最後に演算結果記憶部 5000に演算結果を記憶する。

マルチスレッドプロセッサ 1000は、次のループの開始時にこれらの記憶されている演算データを読み出し、所定の処理を施し、演算セルに供給することを繰り返すことでスレッド Aを実行する（図 6参照)。

[0074] マルチスレッドプロセッサ 1000は、この繰り返しであるループの最後のループである場合、すなわち、スレッド Aに与えた時間のうちの最後のループである力否かを判断し (ステップ S 110)、最後のループであってプロセッサ 100の処理を終了しないと判断した場合 (ステップ SI 10 : Y、ステップ SI 20 : Ν)には、スレッドの切り替えを開始する。

[0075] 最後のループではないと判断した場合 (ステップ S 110 : Ν)には、現スレッドのループを繰り返す。また、プロセッサ 10の処理を終了すると判断した場合 (ステップ S120

： Υ)には、終了処理を行う。

スレッドの切り替えを開始すると判断したマルチスレッドプロセッサ 1000は、次スレッドを選択し (ステップ S 130)、構成切替部 4000に切り替えの指示を出す (ステップ

S140)。この指示に際し、マルチスレッドプロセッサ 1000は、現スレッドの IDと次スレッド IDとを渡す (ステップ S 141)。

[0076] その後、マルチスレッドプロセッサ 1000は、次スレッドの処理を開始する（ステップ S

100)。但し、構成切替部 4000からの、処理の停止信号の発行 (ステップ S221)があつた場合は、次スレッドの処理を開始しない。

切り替え指示を受けた構成切替部 4000は (ステップ S200)、待ちサイクル数を算出する（ステップ S210)。スレッド Aからスレッド Bへの切り替えでは、待ちサイクル数は「0 (ゼロ）」となる。待ちサイクル数の算出処理の詳細は、図 15を用いて後で説明する。

[0077] 待ちサイクル数を算出した構成切替部 4000は、算出したサイクル数待つ (ステップ S220)。待ちの間は、マルチスレッドプロセッサ 1000に対して、停止信号を発行する (ステップ S221)。

その後、演算結果記憶部 5000の読み込み領域を、次スレッド用に切り替え (ステツプ S230)、演算セル及び演算ソース選択器の再構成を行う（ステップ S240)。

[0078] この構成切替部 4000が行う演算セル及び演算ソース選択器の再構成は、一度に行われるのではなく、図 17の動的再構成演算回路 C2〜動的再構成演算回路 C9で示されるように、順を追って行われる。この演算セル及び演算ソース選択器の再構成処理は、図 16を用いて後で説明する。

構成切替部 4000は、全ての演算セル 2100及び演算ソース選択器 2210の再構成が終了すると、出力データ選択器 2250の再構成を行う (ステップ S250、図 17 :動的再構成演算回路 C10)。この出力データ選択器の再構成処理のタイミングについては、図 19を用いて後で説明する。

[0079] 出力データ選択器 2250の再構成が行われると、全てスレッド B用の構成となる（図 17 :動的再構成演算回路 Cl l)。

その後、演算結果記憶部 5000の書き込み領域を、次スレッド用に切り替える (ステップ S 260)。

一方、構成切替部 4000からの停止信号を受信したマルチスレッドプロセッサ 1000 は、次スレッドの実行の開始を停止し、停止信号が切れた場合には、 1サイクル待つて、次スレッドの演算データの供給を開始する（ステップ S100)。この 1サイクルは、最初の演算セルが再構成されるサイクルである。

[0080] このスレッドの切り替え処理の際、マルチスレッドプロセッサ 1000は、演算結果記憶部 5000から次スレッド用の演算データを読み込む力同時に、現スレッドの演算結果が演算結果記憶部 5000に書き込まれて、る。この演算結果記憶部の領域変更処理 (ステップ S230、ステップ S260)のタイミングは、図 20を用いて後で説明する。

<待ちサイクル数の算出処理 >

図 15は、待ちサイクル数の算出処理を示すフローチャートである。

[0081] 待ちサイクル数とは、スレッドを切り替える場合に、次スレッドが滞りなく実行できるように、切り替え処理の開始を遅らせるサイクル数である。

現スレッドの演算段数と次スレッドの演算段数が異なる場合には、現スレッドの演算が終了した演算セルを、即、次スレッド用に書き換えたとしても、その演算結果を渡す演算セルが現スレッドの演算を行っていて、次スレッド用への書き換えが出来ない場合等がある力である。

[0082] このような場合、次スレッドの実行制御が煩雑となるため、本実施形態では、スレッド切り替え処理の演算セル等の再構成の開始を遅らせることで、次スレッドの実行をスムーズに行うことを可能として、る。

構成切替部 4000は、マルチスレッドプロセッサ 1000力も切り替えの指示を受けた際に（図 14 :ステップ S200参照）受け取った現スレッド IDと次スレッド IDとの演算段数から、待ちスレッド数を算出する。

[0083] スレッドの演算段数は、スレッド段数テーブル 4200を参照して求める（図 9 (b)参照 ) o

例えば、現スレッドのスレッド ID4210が「スレッド A」の場合、演算段数 4220は「4」である。

まず、現スレッドの演算段数を「M」、次スレッドの演算段数を「N」とすると、 Mから N を減算し「D」を求める（ステップ S300)。

[0084] 「D」が 0 (ゼロ）より大きい場合は、待ちサイクル数を Dとし (ステップ S320)、「D」が 0 (ゼロ）以下の場合は、待ちサイクル数を 0 (ゼロ）とする (ステップ S330)。

すなわち、スレッドの演算段数力同じ又は大きなスレッドへの切り替えの場合には、待ちサイクル数は 0 (ゼロ）となり、演算段数がより小さいスレッドへの切り替えの場合には、その差の段数分が待ちサイクル数となる。

[0085] 例えば、スレッド Aからスレッド Bに切り替わる場合は、演算段数「4」から「8」であるため、待ちスレッド数は 0 (ゼロ）となり、スレッド Cからスレッド Aに切り替わる場合は、演算段数「16」から「4」であるため、待ちスレッド数は 12となる。

従って、スレッド Aからスレッド Bへの切り替えの場合には、サイクルの待ちは無く、演算セルの再構成が開始される。図 17に示すように、動的再構成演算回路 C1の次のサイクルでは、動的再構成演算回路 C2のように再構成が行われる。

[0086] <演算セル及び演算ソース選択器の再構成処理 >

図 16は、演算セル、演算ソース選択器の再構成処理を示すフローチャートである。まず、構成切替部 4000は、再構成する演算セル 2100と演算ソース選択器 2210とを選択する (ステップ S400)。ここでの演算ソース選択器は、演算セルと対となるものである。

[0087] 最初に選択される演算セル 2100は、次スレッドの演算段数目 4130が「0 (ゼロ）」の演算セルである。演算段数目は、演算セル段数テーブル 4100を参照する（図 9 (a) 参照)。

例えば、次スレッドがスレッド Bの場合、最初に選択される演算セルは、演算セル a、演算セル cの 2つである。

[0088] 次に、構成切替部 4000は、構成情報記憶部 3000に対し、選択した演算セルと演算ソース選択器の構成情報を送出を依頼する (ステップ S410)。この際、スレッド ID と演算セル IDとを通知する（ステップ S411)。

依頼を受けた構成情報記憶部 3000は (ステップ S500)、通知されたスレッド IDと演算セル IDから構成情報名 3130を求め、その名で特定できる構成情報を選択し（ステップ S510)、送出する（ステップ S520、ステップ S521)。

[0089] 例えば、選択された演算セルが演算セル aと演算ソース選択器 aの場合は、演算セル aと演算ソース選択器 aの構成情報が送出される（図 18 :サイクル C2の構成情報記憶部からの信号)。

また、同時に、構成切替部 4000は、選択した演算セルと演算ソース選択器に対して、再構成を指示する (ステップ S420、ステップ S421)。

[0090] 再構成の指示を受けた演算セルと演算ソース選択器は (ステップ S600)、構成情報を受信し (ステップ S610)、再構成を行う（ステップ S620)。

例えば、選択された演算セル等が演算セル aと演算ソース選択器 aの場合は、構成情報の信号線カゝら構成情報を取得し、再構成する（図 18 :サイクル C2の演算セル aと演算ソース選択器 _aの処理、図 17 :動的再構成演算回路 C2)。

[0091] 再構成を行った演算セルと演算ソース選択器は、演算を行う (ステップ S630)。

例えば、再構成された演算セル aと演算ソース選択器 aは、スレッド Bの演算を行う（図 18 :サイクル C3の演算セル aと演算ソース選択器 aの処理）。このとき、マルチスレッドプロセッサ 1000は、スレッド B用の演算データを演算ソース選択器に提供する。

[0092] 構成情報記憶部 3000と、選択した演算セル及び演算ソース選択器とに対して指示を出した構成切替部 4000は、全ての演算段数の演算セルの再構成を行って!/、な V、場合は (ステップ S430： N)、次の段数の再構成を行う（ステップ S400)。全ての演算セル段数の再構成を行った場合 (ステップ S430 :Y)は、終了する。

例えば、次スレッドがスレッド Bの場合には、 2段目の演算セル、すなわち、演算セル段数テーブル 4100で演算セル段数 4130力「1」の演算セル、演算セル bと演算セル dが選択され、再構成される（図 18 :サイクル C3参照、図 17 :動的再構成演算回路 C3)。

[0093] 次スレッドがスレッド Bの場合は、演算段数 4220が「8」であるため、演算セル段数 4 130が「0」〜「7」までを繰り返すことになる（図 17 :動的再構成演算回路 C2〜C9)。 <出力データ選択器の再構成処理 >

図 19は、制御信号と出力データ選択器 2250の処理との関係を表すタイムチャートである。

[0094] 出力データ選択器 2250は、演算セルが全て次スレッド用に切り替わったら、次スレッド用に再構成される（図 19：サイクル C 10、図 14：ステップ S240)。

再構成の手順は、図 16に示す演算セルの再構成と同様である。以下、簡単に説明する。

次スレッド用に全演算セルが再構成されたと判断した構成切替部 4000は（図 16：ステップ S430 : Y)、構成情報記憶部 3000に次スレッドの出力データ選択器 2250 の構成情報を送出するよう依頼する。同時に、出力データ選択器 2250に、再構成を指示する。

[0095] 次スレッドの出力データ選択器 2250の構成情報を送出するよう依頼を受けた構成情報記憶部 3000は、演算セル構成情報データ 3100を参照し、該当する構成情報を送出する。再構成指示を受けた出力データ選択器 2250は、構成情報を入力し、再構成を行う。

例えば、次スレッドがスレッド Bの場合、スレッド Bの演算段数「8」の処理が終了したら、構成情報記憶部 3000は構成情報を送出し、出力データ選択器 2250は、構成情報を入力し、再構成を行う（図 19 :サイクル C10、図 17 :動的再構成演算回路 C10

) o

[0096] 尚、図 19の出力データ選択器 2250の「スレッド A用の構成」を示す図における点線で示す期間（サイクル C5〜サイクル C9)は、出力データ選択器 2250が処理を行わない期間であることを示している。スレッド Aの実行が終了し、出力データ選択器 2 250に演算結果データが出力されないからである。

<演算結果記憶部の領域変更処理 >

図 20は、制御信号と演算結果記憶部 5000の処理との関係を表すタイムチャートである。

[0097] 演算結果記憶部 5000は、図 21に示すようにスレッド毎に領域が確保されており、出力データ選択器 2250からの出力を記憶し、マルチスレッドプロセッサ 1000によつて読み出される。

通常は、同一スレッドの領域に対して読み書きが行われる力スレッド切り替えの際には、記憶する演算データのスレッドと、読み出される演算データのスレッドが異なる場合が生じ、アクセスする領域が異なる。

[0098] 例えば、現スレッドがスレッド Aで、次スレッドがスレッド Bの場合には、スレッド A用の領域に演算データを書き込み、スレッド B用の領域力演算データを読み込む必要がある。

構成切替部 4000は、次スレッドの最初の段数の演算セルを再構成するタイミングで、読み出し領域を次スレッド用に切り替える指示を演算結果記憶部 5000に出す（図 20 :サイクル C2)。最初の演算セルの再構成のサイクルの次のサイクルで、マルチスレッドプロセッサ 1000から読み出される力もである。

[0099] また、次スレッド用に演算セルの全てを再構成したタイミングで、書き込み領域を次スレッド用に切り替える指示を演算結果記憶部 5000に出す（図 20：サイクル C10)。最後の演算セルの再構成が行われる次のサイクルで、演算データが書き込まれるからである。

尚、図 20の演算結果記憶分 5000の「スレッド A用の書き込み」期間を示す図における点線で示す期間（サイクル C5〜サイクル C9)は、スレッド Aによる書き込みは行われな、期間であることを示して!/、る。

[0100] く現スレッドの演算段数より小さい演算段数のスレッドに切り替える場合〉

演算段数がより小さ、スレッドへの切り替える場合にっ、て、図 22及び図 23を用いて説明する。

ここでは、演算段数が「16」のスレッドじから、演算段数が「4」のスレッド Aに切り替わる場合を説明する。

[0101] 図 22は、スレッド C力スレッド Aへの切り替え時の動的再構成演算回路の遷移図である。本図では、スレッド切り替えの際の、サイクル 1〜サイクル 19までの動的再構成演算回路の遷移を表す。動的再構成演算回路 C1は、サイクル 1の回路を表し、動的再構成演算回路 C2は、サイクル 2の回路を表すものとする。

図 23は、スレッド切り替えの際の、マルチスレッドプロセッサ 1000等からの制御信号と演算セル等の処理との関係を表すタイムチャートである。本図では、 16個の演算セル 2100のうち、説明の便宜上、演算セル a、演算セル e、演算セル iの処理のみを表している。

[0102] 切り替え処理の流れは、図 14〜図 16のフローチャートと同様である。ここでは、上述した演算段数がより大きいスレッドへの切り替えの場合との相違点について説明する。

相違点は、演算セル等の再構成の開始タイミングが異なる点である。

すなわち、上述した演算段数がより大きいスレッドへの切り替えの場合には、構成切替部 4000は、マルチスレッドプロセッサ 1000からの切り替え指示後、すぐに演算セルの再構成処理を開始した。待ちサイクル数が 0 (ゼロ）だった力もである。

[0103] 一方、演算段数がより小さいスレッドへの切り替えの場合には、必要なサイクル数待つてカゝら演算セルの再構成処理を行う点が異なる。この場合、現スレッドの演算が終了した演算セルを、即、次スレッド用に書き換えて演算を実行したとしても、その演算結果を渡す演算セルが現スレッドの演算を行って、て、次スレッド用への書き換えが出来なヽ場合等があるからである。

[0104] 現スレッドであるスレッド Cの演算段数（M= 16)から、次スレッドであるスレッド Aの演算段数 (N= 4)を減算したサイクル数 (D)は、 16— 4 = 12となり（図 14 :ステップ 2 10、図 15 :ステップ S300)、 0 (ゼロ）より大きいことから（ステップ S310 :Y)、待ちサイタル数は 12サイクルとなる（ステップ S320)。

構成切替部 4000は、この 12サイクルを待って（図 14 :ステップ S220、図 23 :サイクル C2〜サイクル C13)、演算セル等の再構成を開始する（図 14 :ステップ S240、図 23 :サイクル C14)。図 22に示す動的再構成演算回路 C14〜動的再構成演算回路 C17で、再構成を行う。

[0105] 待っている間、すなわち、動的再構成演算回路 C2〜動的再構成演算回路 C13までのサイクル C2〜サイクル C13間は、スレッド Cの処理のみ進んでいる。

その後、サイクル C 14でスレッド Aの最初の段の演算セルから再構成を行う。図 22 に示す動的再構成演算回路 C14である。

一方、マルチスレッドプロセッサ 1000は、このサイクル C2〜サイクル C14の間は、次スレッドであるスレッド Aの実行開始を待って、る状態である（図 23：サイクル C2〜サイクル C 14)。

[0106] ここで、スレッドの切り替え処理のスケジュールをまとめると、図 24のようになる。図 2 4は、スレッドの切替スケジュールを表したタイムチャートである。

ここでは、スレッド A→スレッド B→スレッド C→スレッド Aとスレッドを切り替える場合を示している。

マルチスレッドプロセッサ 1000の期間 9000は、マルチスレッドプロセッサ 1000のスレッド Aの処理期間を、期間 9001はスレッド Bの処理期間を、期間 9002はスレッド Cの処理期間を表す。期間 9008は、動的再構成演算回路 2000内の演算処理終了待ちのバブル期間、すなわち、マルチスレッドプロセッサ 1000による現スレッドへの演算データの供給が終了し、次スレッドの演算データの供給が始まるまでの期間である（図 22 :動的再構成演算回路 C2〜C14)。

[0107] 期間 9100aは演算セル aのスレッド Aの処理期間を、期間 9101aはスレッド Bの処理期間を、期間 9102aはスレッド Cの処理期間を表す。期間 9108aは、動的再構成演算回路 2000内の演算処理終了待ちのバブル期間である（図 22 :動的再構成演算回路 C2〜C14)。

期間 9100mは演算セル mのスレッド Aの処理期間を、期間 910 lmはスレッド Bの処理期間を、期間 9102mはスレッド Cの処理期間を表す。期間 9109mは、前段の演算セル 2100の構成切り替え待ちのバブル期間である。スレッド Aからスレッド Bへの切り替え時の期間 9109mは、図 17に示す動的再構成演算回路 C5〜C9の期間である。

[0108] 期間 9200は出力データ選択器 2250のスレッド Aの処理期間を、期間 9201はスレッド Bの処理期間を、期間 9202はスレッド Cの処理期間を表す。期間 9209は、演算セル 2100の構成切り替え待ちのバブル期間である。スレッド Aからスレッド Bへの切り替え時の期間 9209は、図 17に示す動的再構成演算回路 C5〜C10の期間である（図 19：サイクル C5〜サイクル C 10参照）。

[0109] <プログラム例 >

以下、本実施形態のプロセッサで実行する各種命令例、プログラム例を説明する。まず、図 25は、演算結果記憶部 5000に関する命令例等である。

図 25 (a)は、演算結果記憶部 5000内のスレッド占有領域の設定命令例であり、図

25 (b)は、各スレッド領域の設定プログラム例であり、図 25 (c)は、スレッド実行時の設定値である。

[0110] 図 25 (a)の「DMset」命令では、「St_Adr」番地から「Ed_Adr」番地までを、スレッド番号「The_num」のスレッドが使用することを指定する。

図 25 (b)のプログラムは、スレッド Aは、「0x00」番地から「0x3F」番地までを使用し、スレッド Bでは、「0x40」番地から「0x5F」番地を、スレッド Cでは、「0x60」番地から「0x6 F」番地までを使用する旨を指定している（図 21参照)。

[0111] 図 25 (c)は、プロセッサ 100がスレッド A等の処理を開始するときに、演算結果記憶部 5000に記憶されている内容例である。

図 25 (c)に示すように、演算結果記憶部 5000内に、各スレッドで FIFOの読み出しアドレス（DMRA)と、書き込みアドレス（DMWA)とが記憶される。マルチスレッドプ口セッサ 1000からの読み出し番地は、実行中のスレッドの DMRAとなり、動的再構成演算回路 2000からの書き込み番地は、実行中のスレッドの DMWAとなる。 DMR A、 DMWAの初期値は、図 5 (b)のプログラムの実行時に、各スレッド用領域の開始番地として設定される。

[0112] 例えば、スレッド Aの DMRAを DMRA— A、 DMWAを DMWA— A、スレッド Bの DMRAを DMRA— B、 DMWAを DMWA— B、スレッド Cの DMRAを DMRA— C 、 DMWAを DMWA— Cとする。図 25 (b)のプログラムの実行により、それぞれスレツド領域の開始番地は、図 25 (c)のように設定がなされる。

この設定後、マルチスレッドプロセッサ 1000及び、動的再構成演算回路 2000にて、各スレッドの処理が行われる。動的再構成演算回路 2000より、演算結果が演算結果記憶部 5000に書き込まれれば、各スレッドの DMWAをインクリメントすればよ!、。

[0113] 例えば、 DMWAの単位がワードであり、書き込まれるデータが 1ワードである場合には、「DMWA=DMWA+ 0x01」のように、実行中のスレッドの DMWAのみがィンクリメントされる。

なお、演算データが W個の場合、 DMWAには、 Wが加算される。また、マルチスレッドプロセッサ 1000から、演算結果記憶部 5000内の演算結果データが読み出されると、 DMRAをインクリメントすればょ、。

[0114] 「DMRA=DMRA+ 0x01」のように、実行中のスレッドの DMRAのみがインクリメントされる。

なお、演算データが W個の場合、 DMRAには、 Wが加算される。

各 DMWA、 DMRAが図 25 (b)のプログラムで設定された、各スレッド領域の終了番地 Ed— Adrを超えた場合には、 St— Adrが設定される。

[0115] この構成により、各スレッドの領域を FIFOとして管理できる。

次に、図 26 (a)は、マルチスレッドプロセッサ 1000からの動的再構成演算回路 20 00への演算命令例であり、図 26 (b)は、演算結果記憶部 5000に対する演算結果読み出し命令例である。

図 26 (a)の「Rcn_exe」命令は、動的再構成演算回路 2000での演算命令であり、「s rcA」と「31^8」は、マルチスレッドプロセッサ 1000内のレジスタ番号を指定する。

[0116] この命令で、スレッドの 1ループが実行される。

図 26 (b)の「Rcn_rd」命令は、動的再構成演算回路 2000の演算結果を読み出す命令であり、「dstA」は、マルチスレッドプロセッサ 1000内のレジスタ番号であり、当該レジスタに演算結果データを格納する。

簡単に動作を説明すると、「Rcn_exe」命令により、実行中のスレッドでの構成にて、動的再構成演算回路 2000内の演算が実行される。この演算の演算データとして、「 Rcn__exe」命令で指定したレジスタ番号のデータを使用する。動的再構成演算回路 2 000の演算結果データは、演算結果記憶部 5000の該当スレッドの DMWAの指すアドレスに格納される。

[0117] 「Rcn_rd」命令は、演算結果記憶部 5000に格納されている演算データを、マルチスレッドプロセッサ 1000に読み出す命令であり、該当スレッドの DMRAの指すアドレスの演算データが、「Rcn_rd」命令で指定したレジスタに転送される。

尚、演算結果記憶部 5000内に該当スレッドのデータが格納されていない場合、演算結果記憶部 5000は、マルチスレッドプロセッサ 1000に対して、演算停止信号を発行する。演算データが無いことの判定は、該当スレッドの DMRAと DMWAが同じ場合であることを検出すればよい。

[0118] 演算結果記憶部 5000内に該当スレッドのデータが格納されていない場合は、マルチスレッドプロセッサ 1000が動的再構成演算回路 2000に演算データを供給せずに、演算結果を読み出した場合に生ずる。この場合、マルチスレッドプロセッサ 1000は、演算結果記憶部からの読み込み処理を停止し、動的再構成演算回路には別の演算データを供給するなど、スレッドの処理に応じた動作を行うものとする。

[0119] 動的再構成演算回路 2000より、演算結果記憶部 5000に演算結果データが格納された後、演算停止信号が解除される。その後、マルチスレッドプロセッサ 1000は、演算結果記憶部 5000に格納された演算結果データを読み出す。

以上の構成により、演算結果データは、スレッド毎に FIFOでの管理を実現でき、動的再構成演算回路 2000の構成の切り替えに左右されることなく演算結果記憶部 50 00内の各スレッドの所定領域に格納される。

[0120] このようにすることにより、マルチスレッドプロセッサ 1000では、動的再構成演算回路 2000のスレッドの切り替えによる演算結果格納の順番を意識する必要がないため、所望のスレッドでの演算結果データの管理が容易となる。

具体的には、 Rcn— exe命令の演算結果を取得する、 Rcn— rd命令は、動的再構成演算回路 2000の演算段数分のサイクル + 1サイクル後に発行可能となる。動的再構成演算回路 2000内での演算のために、演算段数分のサイクルを要し、更に演算結果記憶部 5000への書き込みのために、 1サイクル要する。

[0121] Rcn— exe命令と、 Rcn— rd命令の発行を、具体的にプログラム図 27 (a)と図 27 (b )とを用いて説明する。

図 27 (a)は、スレッド Aでの Rcn— exe命令と、 Rcn— rd命令のみのプログラムである。このプログラムの実行前には、演算結果記憶部 5000には、スレッド A用の演算結果データは格納されて、な、ものとする。

[0122] 例えば、スレッド Aは、引数を変えつつ Rcn— exe命令と Rcn— rd命令とを繰り返し実行することで処理を行う。

図 27 (a)の Rcn— exe命令が発行されると、マルチスレッドプロセッサ 1000内のレジスタ Rl、 R2のデータが動的再構成演算回路 2000に伝達され、動的再構成演算回路 2000内での演算が開始される。

[0123] 次のサイクルで、マルチスレッドプロセッサ 1000は、 Rcn— rd命令を発行する。このサイクルでは、演算結果記憶手段 5000内に演算結果データは格納されていない (DMWA— Aと DMRA— Aが同じ値である）。そのため、マルチスレッドプロセッサ 1 000は、演算結果記憶部 5000より、演算停止信号を受け、処理を停止する。

Rcn— exe命令発行カゝら 4サイクル後（Rcn— rd命令発行から 3サイクル後）、動的再構成演算回路 2000内の演算が完了する。

[0124] 次のサイクルで、演算結果記憶手段 5000に演算結果データが格納され、 DMWA — Aの値が増え、 DMWA— Aが DMRA— Aと異なる値になり、演算結果記憶部 50 00からマルチスレッドプロセッサ 1000への演算停止信号が解除される。この後、 Rc n—rd命令の実行が再開され、演算結果記憶部 5000からの演算結果データの読み出し処理が行われる。

[0125] 以上のプログラムにより、 Rcn— exe命令、 Rcn— rd命令での動的再構成演算回路 2000の演算指示及び、演算結果読み出しを実現できる。

図 27 (a)のプログラムでは、マルチスレッドプロセッサ 1000の演算停止が 4サイクル発生したが、演算停止を発生させないプログラムを図 27 (b)を元に説明する。図 27 (b)のプログラムは、図 27 (a)の Rcn— exe命令、 Rcn— rd命令の間に 4サイクル分の演算用命令を挿入してある。 Add命令は、マルチスレッドプロセッサ 1000内のレジスタを演算ソースとし、加算を行い、演算結果データをマルチスレッドプロセッサ 1000内のレジスタに書き込む命令である。演算リソースは、マルチスレッドプロセッサ 1000内で閉じており、動的再構成演算回路 2000を使用しない。 Add命令の演算には 1サイクル必要である。

[0126] この Add命令力サイクル分あるため、 Rcn— rd命令の発行は、 Rcn— exe命令の発行から 5サイクル経過しているため、動的再構成演算回路 2000での演算が終了し、 DMWA— Aが DMRA— Aと異なる値になっており、マルチスレッドプロセッサ 100 0は演算の停止をしない。

以上説明した構成により、動的再構成演算回路 2000内の構成切り替え時の性能劣化を抑制できる。また、一度に読み出し書き込みを必要とする中間演算データを退避する必要が無ぐ順次読み出し書き込みが発生する演算結果データだけを格納すればよい。このため、記憶手段を少ない入出力ポートのメモリで実現でき、回路の面積を抑制できる。

[0127] また、この記憶領域に格納された演算結果データは、 FIFOでスレッド毎に管理される。このため、マルチスレッドプロセッサ 1000で実行するプログラムでは、特に構成切り替え時の演算順番を意識せずに済み、スレッド毎の管理で良いため、読み出しのプログラムを容易に作成できる。

<実施形態 2>

実施形態 1では、演算段数がより小さいスレッドに切り替える際には、マルチスレッドプロセッサ 1000の待ちサイクルが生じて!/、た（図 24：期間 9008参照）。

[0128] 実施形態 1では、スレッドのスムーズな切替のために、この待ちサイクルを構成切替部 4000で意識して、マルチスレッドプロセッサ 1000を停止させていた。本実施形態では、この待ちサイクルを構成切替部 4000ではなぐプログラム側で意識するものである。

従って、本実施形態では、マルチスレッドプロセッサ 1000において、この待ちサイクル期間は生じな、ことになる。

[0129] 図 28は、待ちサイクル期間が生じないスレッド切り替えのスケジュールを示したタイムチャートである。図 24のスケジュールと比べ、期間 9008が生じていない以外は、図 24と同様である。従って、待ちサイクルを算出し、マルチスレッドプロセッサに停止信号を発行すること以外は、実施形態 1と同様である。

この待ちサイクル期間をなくしたことにより、本実施形態では、プログラム側で待ちサイタル期間を意識してスレッドを実行することになる。

[0130] <概要 >

図 29は、命令仕様書の Rcn— exe命令の記載例である。

本図では、動的再構成演算回路 2000への演算指示命令と演算結果記憶部 5000 へのデータ読み出し命令、及び、それぞれの解説例を示す。

実施形態 1では、スレッド切り替え時に、マルチスレッドプロセッサ 1000に、スレッド Cからスレッド Aでの処理切り替えにおいて、期間 9008の演算停止期間が発生した（図 24参照)。これは、動的再構成演算回路 2000の演算段数が多い構成から、少ない構成に変更する場合、構成の切り替え期間、動的再構成演算回路 2000への新たな演算命令の発行を停止するためである。この制御は、構成切り替え手段 4000より

、図 14のステップ S210等の処理により行われていた。

[0131] 実施の形態 2では、図 14のステップ S210等の、構成切り替え部 4000からマルチスレッドプロセッサ 1000への演算停止制御のみを省く（ステップ S210とステップ S22

0の Dサイクル待機する処理は残る）。その他の構成切り替え部 4000の制御フローは

、実施の形態 1と同じである。

マルチスレッドプロセッサ 1000への演算停止制御を省くことにより、期間 9008の演算停止期間が発生せず、命令を発行できる期間が増加する。期間 9008の演算停止期間が発生しない動作スケジューリングが図 28となる。

[0132] ただし、期間 9008の間、動的再構成演算回路 2000への Rec—exe命令は保証されない。プログラマーにより、期間 9008の間（Dサイクル）、 Rec—exe命令の発行しないように、保証されなければならない。

そのため、命令仕様書などに、 Rcn— exe命令は、 Dサイクル期間発行してはいけないと、記述されることが望ましい。

<実施形態 3 >

実施形態 1では、動的再構成演算回路 2000から出力された演算データは、一旦、演算結果記憶部 5000に記憶され、マルチスレッドプロセッサ 1000は、演算結果記憶部 5000から演算データを読み出していた。本実施形態では、最低限記憶してお力なければならない演算データ、すなわち、スレッドに割当てられた時間が終了する時の演算結果データ以外は、演算結果記憶部 5000に記憶せずに、直接マルチスレッドプロセッサ 1000に渡すものである。

[0133] <概要 >

実施形態 3が実施形態 1と異なる点は、図 1の演算結果記憶部 5000から、マルチスレッドプロセッサ 1000へ出力される処理および構成であり、演算結果選択器 6000 が追加されて、る点である。

図 30は、本発明の実施形態 3における動的再構成論理回路装置 200の構成を示す機能ブロック図である。本図において、図 1と同じ構成要素については同じ符号を用い、説明を省略する。

[0134] この演算結果選択器 6000は、動的再構成演算回路 2000と演算結果記憶部 500 0からの演算結果データを選択し、マルチスレッドプロセッサ 1000に伝達する。制御は、演算結果記憶部 5000より行われる。

実施形態 1では、演算結果データは、演算結果記憶手段 5000からのみ、マルチスレッドプロセッサ 1000に伝達されていた。この構成では、必ず演算結果記憶手段 50 00を経由するため、記憶手段 5000での書き込み、読み出しのサイクル分だけ、遅延が発生する。

[0135] すなわち、動的再構成演算回路 2000演算結果データを、演算直後に、マルチスレッドプロセッサ 1000の演算データとする場合には、この遅延により演算性能が劣化する。

実施の形態 3では、この問題を解決する。

演算結果記憶手段 5000内に演算データが格納されている（DMWAと DMRAが異なる値)場合は、演算結果選択器 6000は、演算結果記憶部 5000からのデータを選択し、実施形態 1で説明した処理が行われる。

[0136] 一方、演算結果記憶手段 5000内に演算データが格納されていない（DMWAと D

MRAが同じ値)場合は、演算結果記憶部 5000は、マルチスレッドプロセッサ 1000 に対して、演算停止信号を発行する。

その後、動的再構成演算回路 2000が演算結果データを演算結果記憶部 5000に格納するサイクルにて、演算結果記憶部 5000は以下の制御を行う。

[0137] 演算結果選択器 6000に対して、動的再構成演算回路 2000からのデータを選択するように制御する。また、マルチスレッドプロセッサ 1000に対する演算停止を解除する。

この処理により、動的再構成演算回路 2000の演算結果データは、演算結果記憶部 5000に格納されず、マルチスレッドプロセッサ 1000に直接渡される。該当スレッドの DMWA、 DMRAのアドレスはインクリメントされな!/、。

[0138] この構成および制御により、演算結果記憶部 5000での書き込み、読み出し処理分のレイテンシを抑制できる。これにより、動的再構成論理回路装置 100の演算性能を向上が可能となる。

<実施形態 4>

図 31は、本発明の実施形態 4における動的再構成論理回路装置 300の構成を示す機能ブロック図である。図 31において、図 1と同じ構成要素については同じ符号を用い、説明を省略する。

[0139] 実施形態 1と異なるのは、図 1のマルチスレッドプロセッサ 1000が存在せず、演算ソース記憶部 7000が追加されて、ることである。

すなわち、本実施形態は、処理は全て動的再構成演算回路 2000で行うことが出来るスレッドを実行する場合である。

<概要 >

実施形態 4では、マルチスレッドプロセッサ 1000が行っていた、動的再構成演算回路 2000への演算データ供給を演算ソース記憶部 7000が行い、動的再構成演算回路 2000への演算指示を構成切り替え手段 4000が行ヽ、演算結果記憶部 5000からの演算結果データ読み出しを図示しないデータ転送コントローラ DMACが行う。

[0140] 演算ソース記憶部 7000は、動的再構成演算回路 2000の演算ソースデータが格納され、図示しな!、データ転送コントローラ DMACより演算ソースデータが供給される。

演算ソース記憶部 7000は、構成切替部 4000より制御され、書き込み、読み出しのアドレスはスレッド毎に管理される。

この演算ソース記憶部 7000の読み出し '書き込みアドレスの管理は、実施形態 1の演算結果記憶部 5000と同じとなる。但し、読み出し要求は構成切替手段 4000により行われ、書き込みデータはデータ転送コントローラ DMACから、読み出しデータは動的再構成演算回路 2000に転送される。

[0141] 以上説明した構成により、プロセッサを構成要素としなくとも、動的再構成演算回路 2000内の構成切り替え時の性能劣化を抑制できる。

また、一度に読み出し書き込みを必要とする中間演算データを退避する必要が無く、順次読み出し書き込みが発生する演算結果データだけを格納すればよい。このため、記憶手段を少ない入出力ポートのメモリで実現でき、回路の面積を抑制できる。

[0142] また、演算ソース記憶部 7000、演算結果記憶部 5000内の記憶領域に格納された演算結果データは、 FIFOでスレッド毎に管理される。このため、プロセッサ 300で実行するプログラムでは、特に構成切り替え時の演算順番を意識せずに済み、スレッド毎の管理で良いため、データ転送コントローラ DMACでは、スレッド毎の演算結果データの読み出しを容易に行える。

[0143] <応用例 >

本発明のプロセッサは、例えば、移動体通信装置等に搭載することが可能である。図 32は、本発明のプロセッサが搭載された移動体通信装置を示す図である。

移動通信装置 10000は、ディスプレイ 11000、撮像手段 12000、音出力手段 130 00、音入力手段 14000、コマンド入力手段 15000、アンテナ 16000及び、内部に本発明であるプロセッサ 100 (図 1参照）を備える。

[0144] プロセッサ 100は、ディスプレイ 11000と、ビデオフレームバッファを介して接続される。プロセッサ 100は、 JPEGなどの静止画デコード処理、 MPEGなどの動画デコード処理、ゲームなどの 3次元グラフィックス処理、テキスト描画処理を行い、またそれぞれの映像の重ね合わせ処理を行う。ディスプレイ 11000は、プロセッサ 100で処理された映像を表示する。

[0145] また、プロセッサ 100は、撮像手段 12000と、ビデオフレームバッファを介して接続される。プロセッサ 100は、撮像手段 12000より入力された映像に対して、 JPEGなどの静止画エンコード処理、 MPEGなどの動画エンコード処理を行う。

さらに、プロセッサ 100は、音出力手段 13000と、オーディオフレームバッファを介して接続される。プロセッサ 100は、 MPEGなどの音声デコード処理を行う。音出力手段 13000は、プロセッサ 100で処理された音声を出力する。

[0146] また、プロセッサ 100は、音入力手段 14000と、オーディオフレームバッファを介して接続される。プロセッサ 100は、音入力手段 14000より入力された音声に対して、 MPEGなどの音声エンコード処理を行う。

JPEG, MPEGなどの、ビデオ処理規格、音声処理規格は、様々な種類があり、それぞれ処理の内容が異なる。この処理が異なり、マルチスレッドプロセッサ 1000では負荷の重い部分を、動的再構成演算回路 2000にて処理させることで、複数の規格の処理に柔軟に対応可能となる。

[0147] プロセッサ 100は、アンテナ 16000と図示しない無線周波数回路ブロックと接続され、プロセッサ 100により通信処理が行われることにより、無線ネットワークを構成する。また、プロセッサ 100は、送受信データの喑復号処理も行う。

通信規格、暗号規格は、様々な種類があり、それぞれ処理の内容が異なる。この処理が異なり、マルチスレッドプロセッサ 1000では負荷の重い部分を、動的再構成演算回路 2000にて処理させることで、複数の規格の処理に柔軟に対応可能となる。

[0148] 移動通信装置 10000は、コマンド入力手段 15000より、移動通信装置 10000への操作を、針や指を用いて入力することが可能である。

通信システム、映像処理システム、セキュリティー処理システムの多くは、複数の規格に対応するため、本発明の効果を受ける。説明を行った、移動通信装置だけでなぐ TV'DVDプレイヤ一'カーナビなどの映像表示装置、 DVDレコーダ 'ビデオカメラ · DSC ·セキュリティーカメラ ·などの映像記録装置、オーディオプレイヤーなどの装置、通信装置内の、通信システム、セキュリティー処理システムに有益である。

[0149] <補足 >

以上、本発明に係るプロセッサについて実施形態に基づいて説明したが、このプロセッサを部分的に変形することもでき、本発明は上述の実施形態に限られないことは勿論である。即ち、

(1)実施形態では、動的再構成演算回路 2000の演算セルは 4x4の行列形式に配置していた力例えば、 10x4での矩形行列形式でも良い。また、ライン単位で配置されていてもよぐ配置の構成を問わない。

[0150] また、演算セル 2100は、乗算、シフト、加算、論理演算を行えるとした力更に除算や減算、ローテート演算など演算の種類が増えても、また演算の種類が少なくても良い。

更にこの演算セル 2100は、全て同じ構成としていた力特定の演算セルのみ除算ができるなど、構成が違う演算セル 2100があってもよい。

[0151] なお、演算セル 2100の構成の切り替わりは、同時に複数個構成が切り替わっても良い。

全ての演算セル 2100及び動的再構成接続器 2200は、構成の切り替え可能とした力一部構成が切り替わらない演算セル 2100及び、動的再構成接続器 2200があつてもよい。

[0152] 演算セル 2100は 1入力 1出力であった力 3入力 2出力など、入出力の個数は変わっても良い。その場合は、演算ソース選択器 2210の入力個数および、選択する個数を増やし、出力データ選択器 2250の入力個数も増やすことにより、対応する。構成切替手段 4000から、演算セル 2100への構成切り替え信号線は、演算セル 2

100毎に個別に引いていた力必ず同時に切り替わる演算セル 2100同士は、同じ切り替え信号線を引いても良い。

[0153] なお、演算セル 2100は、同じクロックで動作させていた力複数のクロックラインを配し、演算セル毎に演算動作クロックを変えても良い。

動的再構成演算回路 2000は、マルチスレッドプロセッサ 1000で実行中のスレッドと同期して構成を変更していた力プロセッサの処理スレッドを変更せずに、動的再構成演算回路 2000のみを適宜構成変更してもよ、。

(2)実施形態 1、 2では、マルチスレッドプロセッサ 1000で動作するスレッド A、 B、 C は、全て動的再構成演算回路 2000で演算が行っていたが、動的再構成演算回路 2 000を用いないスレッドがあってもよい。その場合は、次に動的再構成演算回路 200 0を使用するスレッドの構成に切り替わって、ても良、。

[0154] また、マルチスレッドプロセッサ 1000と動的再構成演算回路 2000は、同じクロックで動作していたが、複数のクロックラインを配し、演算動作クロックを変えても良い。さらに、マルチスレッドプロセッサ 1000は、複数スレッドをサポートしないプロセッサであってもよぐ複数のコアを集積したマルチコアの構成でもよぐまた、内部構成が再構成可能演算回路であっても良い。

(3)実施形態 1、 2では、演算結果記憶手段 5000への、マルチスレッドプロセッサ 10 00からの読み出し用の命令では、マルチスレッドプロセッサ 1000で処理中のスレツドでの動的再構成演算回路 2000の演算結果データのみ、読み出せていたが、これを他スレッドの演算結果も読み出せるようにしても良、。 [0155] その場合は、読み出し命令にスレッド番号を指定するオペランドを追加し、読み出し時に、マルチスレッドプロセッサ 1000から演算結果記憶部 5000にスレッド番号を与えるようにする。この時、演算結果記憶部 5000は、与えられたスレッド番号の DM RAに切り替える。これにより、他のスレッドの演算結果の読み出しを実現できる。更に、マルチスレッドプロセッサ 1000は読み出し用命令をサポートしなくても良い。代わりに動的再構成演算回路 2000への演算指示命令のオペランドに、マルチスレッドプロセッサ 1000内のレジスタをデスティネーションとして指定できるようにし、動的再構成演算回路 2000での演算が終わると、そのレジスタに演算結果データが書き込まれるようにしてもよい。

[0156] また、演算用命令のソースデータ個数を 2、読み出し用命令のデータ個数を 1とした力この個数を変更しても良い。動的再構成演算回路 2000への演算ソースデータ個数の増加に対応するためには、マルチスレッドプロセッサ 1000から動的再構成演算回路 2000へのデータ配線を増加し、マルチスレッドプロセッサ 1000からの出力ポート個数、動的再構成演算回路 2000への入力ポートを増加すればよい。

[0157] 演算結果記憶部 5000からの読み出しデータ個数の増加は、演算結果記憶部 500 0からマルチスレッドプロセッサ 1000への配線を増やし、マルチスレッドプロセッサ 10 00の入力ポート個数、演算結果記憶部 5000の出力ポートを増加すればよい。

更に、演算結果記憶部 5000へのスレッド毎の領域アドレスを設定する命令にて、領域の終了アドレスも設定していた力このオペランドが無くてもよい。全スレッドの領域開始アドレスが設定されれば、他のスレッド領域開始アドレスまでを、各スレッドの領域と判定すればよい。

[0158] なお、マルチスレッドプロセッサ 1000の処理切り替えを 1サイクルとしたが、複数サイタル要しても良い。この場合は、構成切り替え手段 4000により動的再構成演算回路 2000及び、演算結果記憶手段 5000に対し、そのマルチスレッドプロセッサ 1000 の切り替え処理のサイクル数だけ、処理停止制御をすればょ、。

(4)実施形態 1、 2、 3では、演算結果記憶部 5000にて、各スレッド用領域を FIFOで管理していた力 LIFO (Last In First Out)形式など、他の形式で管理しても良い。 [0159] また、演算結果記憶部 5000にて管理される DMWA、 DMRAの管理を、マルチスレッドプロセッサ 1000や構成切替部 4000にて行っても良い。

(5)実施の形態 4では、演算ソース記憶部 7000にて、各スレッド FIFOで管理していたが、 LIFO (Last In First Out)形式など、他の形式で管理しても良い。

[0160] また、演算ソース記憶部 7000にて管理される書き込み、読み出しアドレスの管理を、構成切替部 4000にて行っても良い。

(6)実施形態 1、 2. 3では、構成情報記憶部 3000内に、各スレッドの構成情報を保存していた力これはなくても良い。代わりに、各演算セル、演算ソース選択器、出力データ選択器内に、全スレッドの構成情報を予め保持する記憶手段を設け、構成切り替わり時に、スレッド番号と切り替わり指示を構成切替部 4000から受け、所望の構成に切り替わっても良い。

[0161] この場合、構成情報記憶部 3000からの配線を削除できる力全スレッドの構成情報を予め保持する記憶部はレジスタでの構成となる。構成情報記憶部 3000は入出力ポートの少な、メモリで構成できるため、記憶手段分の面積が増加する。

(7)実施形態では、各演算セルの再構成のタイミングを、構成切替部 4000からの指示によって行うこととしているが（図 16 :ステップ S400〜ステップ S420参照）、それぞれの演算セルで再構成のタイミングを判断することとしても良い。

[0162] 例えば、全演算セル 2100が、以下の判定を並列に行う。

構成切替部 4000から待ちサイクルが経過し、再構成の指示があったら、各演算セル 2100は、待機サイクル Eを判定し、そのサイクルだけ切り替え制御を待機する。 E は、次スレッドでの、該当演算セルより前にある、演算セル 2100の個数 (演算段数）を表す。各演算セル Eの値は、演算セル段数テーブル 4100 (図 9 (a)参照）を参照する。

[0163] 例えば、各スレッドにおいて、演算セル aは、前の演算段数は、 0であるから、再構成指示があれば、すぐに構成変更の処理が行われる。一方、演算セル mは、スレッド Aでは 3サイクル、スレッド Bでは 7サイクル、スレッド Cでは 15サイクル待たされることになる。

この待機サイクル Eの算出が終わると、構成切替部 4000は、構成情報記憶部 300 0に指示し、該当演算セル 2100の次スレッドでの構成情報及び、その演算セル 210 0に対応する演算ソース選択器 2210の次スレッドでの構成情報の読み出し処理を行う。この構成情報は、構成情報転送用のバスを通して、該当演算セル 2100及び該当演算ソース選択器 2210に供給される。

[0164] 次に、該当演算セル 2100及び該当演算ソース選択器 2210に対して、構成切り替え信号を生成し、該当演算セル 2100及び該当演算ソース選択器 2210は、この信号を受けて、構成情報転送用のバスに供給されている構成情報を読み込み、次スレッドの構成に切り替わる。

構成切替部 4000は、全演算セルが次スレッド用に再構成されるサイクルをスレッド段数テーブル 4200 (図 9 (b) )を参照して求め、出力データ演算器 2250の再構成を開始する。

(8)実施形態では、スレッド切り替え時に、現スレッドの演算セルと次スレッドの演算セルとを、同時に動作させることとしている力現スレッドの処理が終了したら、すぐに次のサイクルで、次スレッドの実行を開始することとしても良い。現スレッド実行中に、演算の終了した演算セル力順に次スレッド用に再構成しているので、再構成の時間が不要だからである。

(9)実施形態で示したプロセッサの各機能を実現させる為の各制御処理（図 14等参照）を CPUに実行させる為のプログラムを、記録媒体に記録し又は各種通信路等を介して、流通させ頒布することもできる。このような記録媒体には、 ICカード、光デイスク、フレキシブルディスク、 ROM,フラッシュメモリ等がある。流通、頒布されたプログラムは、機器における CPUで読み取り可能なメモリ等に格納されることにより利用に供され、その CPUがそのプログラムを実行することにより実施形態で示したプロセッサの各機能が実現される。

産業上の利用可能性

[0165] 本発明に力かるマルチスレッド対応プロセッサ 100は、動的再構成演算回路 2000 内の構成切り替え時の性能劣化を抑制できる。

また、一度に読み出し書き込みを必要とする中間演算データを退避する必要が無く、順次読み出し書き込みが発生する演算結果データだけを格納すればよい。このため、記憶手段を少ない入出力ポートのメモリで実現でき、回路の面積を抑制できる。更に、この記憶領域に格納された演算結果データは、 FIFOでスレッド毎に管理される。このため、マルチスレッドプロセッサ 1000で実行するプログラムでは、特に構成切り替え時の演算順番を意識せずに済み、スレッド毎の管理で良いため、読み出しのプログラムを容易に作成できる。

この構成により、時分割多重処理が必要となるメディア処理装置として有用である。また通信やセキュリティ一等の用途にも応用できる。

Claims

請求の範囲

[1] 複数のスレッドを巡回的に、各スレッドに割当てられた時間ずつ実行するプロセッサであって、

複数の演算セルを含み、当該演算セルの構成と各演算セル間の接続とを再構成可能な演算回路と、

演算セルの構成及び当該演算セルと他の演算セルとの接続を、セル構成情報に基づいて、再構成する再構成手段と、

各々異なる特定数の演算セルを順番に繰り返し実行する複数のスレッド各々に対応する、各演算セルのセル構成情報を記憶する構成情報記憶手段と、

順次、前記再構成手段に、現スレッドに割当てられた時間での最後の演算を終了した演算セルを、前記構成情報記憶手段に記憶して、る次スレッドに対応する当該演算セルのセル構成情報に基づき再構成させ、次スレッドに対応する構成の演算セルと現スレッドの構成に対応する演算セルとをそれぞれ同時に実行させる制御手段と

を備えることを特徴とするプロセッサ。

[2] 前記プロセッサは、更に、各スレッドの演算セルの演算結果を、それぞれ別の領域に記憶する演算結果記憶手段を備え、

前記制御手段は、同時に実行させて、る現スレッドで順番に繰り返し実行する演算セルのうちの最後の演算セルの演算結果を前記演算結果記憶手段の現スレッドの領域に記憶させ、同時に実行させている次スレッドの領域に記憶されている演算結果を、次スレッドの最初に実行する演算セルに参照させて演算を実行させることを特徴とする請求項 1記載のプロセッサ。

[3] 前記プロセッサは、更に、スレッドに割当てられた時間での最後の演算を終了した演算セルであって、当該スレッドで順番に繰り返し実行する演算セルのうちの最後の演算セルの演算結果を記憶する演算結果記憶手段を備え、

前記制御手段は、現スレッドで順番に繰り返し実行する演算セルのうちの最後の演算セルの演算結果に基づ、て、次の繰り返しの最初に実行する演算セルを実行させ、スレッドを切り替える際には、次スレッドに対して前回割当てられた時間に前記演算結果記憶手段に記憶した演算結果を、次スレッドの最初に実行する演算セルに参照させて演算を実行させる

ことを特徴とする請求項 1記載のプロセッサ。

[4] 複数の演算セルを含み、当該演算セルの構成と各演算セル間の接続とを再構成可能な演算回路を備え、複数のスレッドを巡回的に、各スレッドに割当てられた時間ずつ実行するプロセッサで用いられる実行方法であって、

演算セルの構成及び当該演算セルと他の演算セルとの接続を、セル構成情報に基づいて、再構成する再構成ステップと、

各々異なる特定数の演算セルを順番に繰り返し実行する複数のスレッド各々に対応する、各演算セルのセル構成情報をメモリに記憶する構成情報記憶ステップと、順次、前記再構成ステップで、現スレッドに割当てられた時間での最後の演算を終了した演算セルを、前記構成情報記憶ステップでメモリに記憶して、る次スレッド〖こ対応する当該演算セルのセル構成情報に基づき再構成させ、次スレッドに対応する構成の演算セルと現スレッドの構成に対応する演算セルとをそれぞれ同時に実行させる制御ステップと

を備えることを特徴とする実行方法。

[5] 複数の演算セルを含み、当該演算セルの構成と各演算セル間の接続とを再構成可能な演算回路を備え、複数のスレッドを巡回的に、各スレッドに割当てられた時間ずつ実行するプロセッサに実行処理を行わせるコンピュータプログラムであって、演算セルの構成及び当該演算セルと他の演算セルとの接続を、セル構成情報に基づいて、再構成する再構成ステップと、

各々異なる特定数の演算セルを順番に繰り返し実行する複数のスレッド各々に対応する、各演算セルのセル構成情報をメモリに記憶する構成情報記憶ステップと、順次、前記再構成ステップで、現スレッドに割当てられた時間での最後の演算を終了した演算セルを、前記構成情報記憶ステップでメモリに記憶して、る次スレッド〖こ対応する当該演算セルのセル構成情報に基づき再構成させ、次スレッドに対応する構成の演算セルと現スレッドの構成に対応する演算セルとをそれぞれ同時に実行させる制御ステップとを備えることを特徴とするコンピュータプログラム。

複数のスレッドを巡回的に、各スレッドに割当てられた時間ずつ実行するプロセッサであって、

順次、前記再構成手段に、現スレッドに割当てられた時間での最後の演算を終了した演算セルを、前記構成情報記憶手段に記憶して、る次スレッドに対応する当該演算セルのセル構成情報に基づき再構成させ、現スレッドで実行する最後の演算セルの演算終了後、次スレッドの構成の演算セルを実行させる制御手段と

を備えることを特徴とするプロセッサ。