WO2008105558A1

WO2008105558A1 - メモリ管理方法、情報処理装置、プログラムの作成方法及びプログラム

Info

Publication number: WO2008105558A1
Application number: PCT/JP2008/053891
Authority: WO
Inventors: Hironori Kasahara; Keiji Kimura; Hirofumi Nakano; Takumi Nito; Takanori Maruyama; Tsuyoshi Miura; Tomohiro Tagawa
Original assignee: Waseda University
Priority date: 2007-02-28
Filing date: 2008-02-27
Publication date: 2008-09-04
Also published as: CN101601017A; GB2478874B; GB0914592D0; GB2478874A; GB2459802B; GB201109237D0; KR20090106613A; US20100174876A1; CN101601017B; JP5224498B2; US8438359B2; KR101186174B1; GB2459802A; JP2008217134A

Abstract

プロセッサによって使用されるメモリの記憶領域を管理する方法であって、前記プロセッサは、タスクの実行時に使用されるデータを格納するメモリに接続されており、前記メモリの記憶領域を複数の異なるサイズのブロックに分割し、前記タスクの実行時に使用されるデータに適合するサイズのブロックを選択し、前記選択されたブロックに、前記タスクの実行時に使用されるデータを格納することによって、メモリへデータを効率よく配置する。

Description

明細書メモリ管理方法、情報処理装置、プログラムの作成方法及びプログラム技術分野

本発明は、複数のプロセッサコアで構成されるマルチプロセッサシステムにおけるメモリの管理方法に関し、特に、コンパイラが取得した情報に基づいて、プ口セッサによってアクセスされるデータをメモリの分割された領域に割り当てる方法に関する。背景技術

複数のプロセッサコアを一つのチップ上に集積したマルチコアプロセッサ（チップマルチプロセッサ）力各マイクロプロセッサメーカによって次々に発表されている。ス一パーコンピュータ、サーバ、デスクトップコンピュータ及び P C サーバ分野の他、情報家電及び装置組み込みの分野（例えば、携帯電話機、ゲ ·. ム機、カーナビゲーシヨンシステム、デジタルテレビ受像機、 HD DZD V Dレ：コーダ ·プレーヤ等）においても、マイクロプロセッサのマルチコア化の動きが -，見られる。

このように、現在情報家電からスーパーコンピュータに至るほとんどの情報機器においてマルチコアプロセッサが使われるようになつており、今後、さらに多くの情報機器にマルチコアプロセッサが組み込まれていくと考えられる。

マルチコアプロセッサは、細粒度命令レベルの並列性だけでなく、より並列性の大きいループレベルの並列性、さらに粒度の粗いループ間の並列性、関数間の粗粒度タスク並列性も利用することができる。このように、マルチコアプロセッサは、より大きな並列性の利用によって、プロセッサの処理性能を向上させることができる点で有利である。また、マルチコアプロセッサは、 n台のプロセッサコアを用い同一性能を達成することができるので、ク口ック周波数を n分の 1にし、印加する電圧も下げることによって、消費電力（電圧の 2乗で増大する）を低く抑えることができる点でも有利である。

また、ソフトウェア面では、マルチプロセッサ用の並列プログラミングは、通常、チューニングに多大な時間を要することから、アプリケーションソフトゥェァの開発が大変である。しかし、比較的少数のプロセッサが集積されている現時点では、逐次プログラムを自動的に並列化する自動並列化コンパイラによって高性能を得ることができる。情報家電分野ではアプリケーションの質と数が市場での競争力を決めることから、コンパイラによって、 4コア、 8コア、 1 6コアのマルチプロセッサ用のプログラムの自動並列化が可能となれば、マルチコアの優位性が高まる。

また、マルチグレイン並列化では、文レベル、ループレベル、より粗いレベル (例えば、ループ間、サブルーチン間、ベーシックブロック間）の全ての並列性を組み合わせて最早実行可能条件解析によって並列性を抽出する技術が、特開 2 0 0 1 - 1 7 5 6 1 9号公報に開示されている。発明の開示

このような、ローカルメモリの最適化は、従来から行われていた。し力し、従来のローカルメモリの最適化は、並列ループが連続する場合に、並列可能なループを連続的に実行することによってメモリ上のデータを使い回すだけのものであつた。

しかし、一つのループで使用されるデータサイズはローカルメモリのサイズよりも大きい場合が多く、ループの中でデータのロード及びストァが発生していた _c このとき、プロセッサは、次に使用するデータが準備されるまで処理を待つ必要があり、プロセッサによる処理のオーバーへッドが発生していた。

また、ローカルメモリ上のデータを使いながらプログラムを実行していくデータロー力ライゼーションによると、ローカルメモリだけを使って処理をするために、逐次形のループ及びベーシックブロックで使用される大きなデータもロー力ルメモリに格納しなければならない。ローカルメモリに載せられないデータは共有メモリに格納していた。よって、プログラム全域に渡ってデータをロー力ライゼーションを適用することが望まれている。

また、スタティックスケジユーリング時及びダイナミックスケジユーリングコ一ドの生成時には、各プロセッサ上のローカルメモリ又は分散共有メモリを有効に使用し、プロセッサ間のデータ転送量を最小化するためのデータロー力ライゼーションも用いられる。

さらに、プロセッサの集積度が高まり、 1チップに含まれるプロセッサコア数が増えてくると、プログラムを並列化してもそれほど処理性能が向上しない。なぜなら、プロセッサの動作が早くなつても、プロセッサによる処理速度とメモリアクセス速度との差が拡大することによって、プロセッサが使用するデータを適切なタイミングでメモリへ供給できないという、メモリウォールの問題が生じるからである。

そこで、プロセッサに近接して設けられているメモリを上手に使う必要がある。すなわち、プロセッサに近接するメモリの記憶容量は小さいので、大きなデータが必要な場合は、データを分割してメモリに載せることが必要となる。さらに、メモリ間のデータの転送は時間がかかるので、メモリに載っているデータを使い回せるように、プログラムの処理の順序を工夫したスケジューリングをすることが求められる。さらに、メモリ間でデータを転送するときに DMAコントローラを使って、オーバヘッドを隠す必要がある。

コンパイラは、プロセッサで実行されるプログラムの並列性を解析するときに、プログラム内のタスクの実行順序の情報を取得し、タスク間でのデータの依存関係（定義、参照の関係）も解析する。また、分岐が決まると、同じデータを使うプログラムが分かる。このように、コンパイラが取得した情報によって、メモリに格納されたデータが使用されるタイミングが分かり、複数のタスク間でデータを使い回すことができる。

すなわち、本発明では、プロセッサ近傍に配置された高速なメモリに格納されたデータを、可能な限り連続して長期間置いたまま処理を続けられるようにするために、データを効率よく配置する。具体的には、必要なデータをプロセッサ近傍の高速なメモリに格納し、不必要となったデータを低速だが大容量のメモリへ順次転送する。さらに、本発明では、データを分割してローカルメモリに割り当てる。また、ローカルメモリに格納されたデータを長期間使えるようにするために、コンパイラが持っている情報（データが何時どこで使われるかの情報）に基づいて、どのデータを追い出すかを決める。また、必要となるデータを先にロードするように DMAをスケジユーリングする。

なお、本発明は、同一種類のプロセッサにおけるメモリ管理のみでなく、異なる種類のヘテロジニアス ·マルチプロセッサにおけるメモリ管理にも適用することができる。

本発明によれば、メモリの記憶領域の管理が容易になることから、ローカルメモリ及び分散共有メモリへのデータの配置を最適化することができる。これにより、メモリに載っているデータを使い回すことができ、メモリ間でデータの転送を減らすことができる。図面の簡単な説明

図 1は、本発明の実施の形態のシングルチップマルチコアプロセッサの構成図である。図 2は、本発明の実施の形態のマルチグレイン並列処理の説明図である。

図 3は、本発明の実施の形態のマクロフローグラフの説明図である。

図 4は、本発明の実施の形態のローカルメモリ管理の概要の説明図である。図 5は、本発明の実施の形態のメモリの記憶領域の分割の状態の説明図である。図 6は、本発明の実施の形態のメモリの掃き出し優先度の説明図である。

図 7は、本発明の実施の形態のメモリにロードされている変数の推移の説明図である。

図 8は、本発明の実施の形態のループの分割手順の具体例の説明図である。図 9は、本発明の実施の形態のループの分割手順の具体例の説明図である。図 1 0は、本発明の実施の形態のループの分割手順の具体例の説明図である。図 1 1は、本発明の実施の形態のループの分割手順の具体例の説明図である。図 1 2は、本発明の実施の形態のブロックサイズの決定手順の具体例の説明図である。

図 1 3は、本発明の実施の形態のブロックサイズの決定手順の具体例の説明図である。

図 1 4は、本発明の実施の形態のローカルメモリ管理マクロタスクの生成の具体例（デイストリビューシヨン前）の説明図である。

図 1 5は、本発明の実施の形態のローカルメモリ管理マクロタスクの生成の具体例（デイストリビューシヨン後）の説明図である。

図 1 6は、本発明の実施の形態のテンプレートの作成手順の例を示す。

図 1 7は、本発明の実施の形態のテンプレートがマッピングされたローカルメモリの状態の説明図である。

図 1 8は、本発明の実施の形態のテンプレートがマッピングされたローカルメモリの状態の説明図である

図 1 9 A及ぴ図 1 9 Bは、本発明の実施の形態のコードイメージの作成例（状態 1) の説明図である。

図 2 OA及び図 20 Bは本発明の実施の形態のコードイメージの作成例（状態 2) の説明図である。

図 21 A及び図 21 Bは本発明の実施の形態のコードイメージの作成例（状態 3) の説明図である。

図 22 A及び図 22 Bは本発明の実施の形態のコードイメージの作成例（状態 4) の説明図である。

図 23 A及び図 23 Bは本発明の実施の形態のコードイメージの作成例（状態 5) の説明図である。

図 24 A及び図 24 Bは本発明の実施の形態のコードイメージの作成例（状態 6) の説明図である。

図 25 A及び図 25 Bは本発明の実施の形態のコードイメージの作成例（状態 7) の説明図である。

図 26 A及び図 26 Bは本発明の実施の形態のコードイメージの作成例（状態 8) の説明図である。

図 27 A及び図 27 Bは本発明の実施の形態のコードイメージの作成例（状態 9) の説明図である。

図 28 A及び図 28 Bは. 本発明の実施の形態のコードイメージの作成例（状態 10) の説明図である。

図 29 A及び図 29 Bは. 本発明の実施の形態のコードイメージの作成例（状態 1 1) の説明図である。

図 3 OA及び図 30 Bは. 本発明の実施の形態のコードイメージの作成例（状態 1 2) の説明図である。

図 31 A及び図 31 Bは. 本発明の実施の形態のコードイメージの作成例（状態 1 3) の説明図である。図 3 2 A及び図 3 2 Bは、本発明の実施の形態のコードイメージの作成例（状態 1 4 ) の説明図である。

図 3 3 A及び図 3 3 Bは、本発明の実施の形態のコードイメージの作成例（状態 1 5 ) の説明図である。

図 3 4 A及び図 3 4 Bは、本発明の実施の形態のコードイメージの作成例（状態 1 6 ) の説明図である。発明を実施するための最良の形態

まず、本発明の概要を説明する。

本発明は、コンパイラがプログラムの解析によって取得した情報に基づいて、メモリの記憶領域を管理する。コンパイラはプログラムをコンパイルする際に、プログラムの情報を取得する。具体的には、コンパイラは、前記プログラムで使用されるデータの情報、前記データが次に使用されるタイミングの情報、前記データが使用されるプロセッサの情報を、プログラムの解析によって取得できる。すなわち、プログラムによってデータが使用されるタイミングを取得できる。本発明の第 1の特徴は、プログラムを解析して得られた情報に基づいて、メモリの記憶領域の割り当てを管理することである。，

具体的には、コンパイラは、プログラム（例えば、ネストされた各階層の処理）の実行スケジュールの情報を持っているので、データがいつアクセスされるかの情報を取得できる。よって、プログラムの実行スケジュールに基づいてメモリの記憶領域をデータに最適に割り当てることができるので、データの転送を最小化することができる。

さらに、メモリに割り当てられたデータを、どのプロセッサが、いつ必要とするかの情報を取得できる。よって、プロセッサによる処理に影響することなく D MAコントローラによって、データをメモリに連続的に供給（ロード）できる。よって、データがメモリに供給されるのを待っために、プロセッサが止まらない, さらに、コンパイラは、データがプログラムによっていつアクセスされるかの情報を取得できるので、既に不要となったデータ又は直ぐにはアクセスされないデータを特定することができ、 DMAコントローラによって不要となったデータ又は直ぐにはアクセスされないデータをメモリの記憶領域から掃き出す（ストァ）ことができる。この将来の情報に基づいたデータの掃き出しは、従来用いられていた L R U (Least Recently Used) と異なり、最近使われていないが直ぐに使われるかもしれないデータが掃き出されることがなく、メモリの利用を最適ィ匕して、メモリ間のデータ転送を減らすことができる。

すなわち、本発明の第 2の特徴は、プログラムを解析して得られた情報に基づいて、メモリへ、及び又は、メモリからデータを転送するタイミングを決めることである。，

このようにメモリの記憶領域を管理するために、メモリの記憶領域を固定サイズのブロックに分割して、ブロック毎にデータを割り当てる。記憶領域が分割されるブロックのサイズは、コンパイル時に取得したプログラムの性（プログラムで使用されている配列サイズ、配列の形状、プログラムの実行パターン等）に応じて適切なサイズを決定する。また、ブロックのサイズは整数倍（例えば、 2 の倍数）の関係にするとよい。

すなわち、本発明の第 3の特徴は、プログラムを解析して得られた情報に基づいて、メモリの記憶領域を適切なサイズのブロックに分割して、データを割り当てることである。プログラムの特性に応じて記憶領域を固定サイズのプロックに分割することは、ハードウェアや O S (オペレーティングシステム）では成し得ない。これは、ハードウェアや O Sによって記憶領域を分割すると、いつも決まつたサイズで分割されてしまうからである。

さらに、アクセスするデータの種類や範囲によって、プログラムに使用されるデータのサイズが異なる場合がある、よって、プログラム中で使用されるデータのサイズに適合するように、複数のサイズのブロックを用意する。そして、データのサイズに適合するように割り当てられるプロックのサイズを変える。

さらに、プログラムの実行時に必要となるデータ（ある瞬間にメモリに載っていなければならないデータを「ワーキングセット」という）の分割にあわせて、プログラムも分割する。例えば、ループを 2分の 1に分割すると、使用されるデータも 2分の 1になる。本発明の第 4の特徴は、プログラムを解析して得られた情報に基づいて、メモリの記憶領域にワーキングセットが載るように、プロダラムの分割数を決めることである。例えば、プログラムの分割は、一つの大きなループを分割して、細かい単位のループを繰り返し実行する。

さらに、多重ループでは、通常、多次元配列変数が使用される。 1次元アドレス空間を有する固定サイズのプロックに多次元配列変数を割り当てる際に、 1次元のブロックに多次元配列テンプレートを割り当てる。この多次元配列テンプレートの形状及びサイズは、プログラムで使用される配列変数の形状及びサイズに基づいて決定される。本発明の第 5の特徴は、プログラムを解析して得られた情報に基づいて、プロックに割り当てられるテンプレートを決定することである。これによつて、配列変数の添字を変換する手間やプログラムの複雑化を避けながら、任意の配列をメモリ上の任意のァドレスに割り当てることができる。

なお、以下の本発明の実施の形態では、データの使用について具体的に説明するが、プロセッサによるデータの使用（参照）の他に、データの定義（データを計算してメモリへ格納すること）におけるメモリ管理も本発明の範疇である。すなわち、本発明は、データの使用及び定義の両方を含むデータのアクセスについて適用可能されるものである。

次に、本発明の実施の形態について、図面を参照して説明する。

図 1は、本発明の実施の形態のシングルチップマルチコアプロセッサの構成図である。

本発明の実施形態のシングルチップマルチプロセッサ 1 0は、複数のプロセッサコア（PC 0、 PC 1、 "'、 PCn) 1 6を含む複数のマルチコアチップ（C MP 0、 ·■·、 CMPm) 1 0、複数の集中共有メモリ（C SM0、 ·'·、 C SM j ) 1 4、入出力制御を行う複数の入出力用チップ（I/O C S P 0、 ···、 I /Ό C S P k) 1 8、及び、チップ間結合網（ I n t e r CCN) 1 2を備える。

チップ間結合網 1 2は、既存の接続技術（クロスバースィッチ、バス、マルチステージネットワーク等）によって実現され、複数のプロセッサコア 1 6、複数の集中共有メモリ 1 4及び入出力用チップ 1 8を接続する。集中共有メモリ 14 は、システム中の全プロセッサコア 1 6によって共有され、各プロセッサコア 1 6からアクセス可能なメモリである。集中共有メモリ 1 4は、マルチコアチップ 1 0内に備わる集中共有メモリ 28を補完する。

各マルチコアチップ 1 0は、複数のプロセッサコア（PC) 1 6、集中共有メモリ（C SMZL 2 C a c h e) 28及びチップ内結合網（ I n t r a CC N) 34を備える。各プロセッサコア 1 6は、 CPU 20、分散共有メモリ（D SM： distributed shared memory) 2 2、ロー力ノレプログラムメモリ (L PM I— C a c h e) 24、ローカルデ

一タメモリ（LDMZD— c a c h e) 26、データ転送コントローラ（DT C) 30、ネットワークインターフェイス（N I ) 3 2及び電力制御レジスタ (F VR) 3 6を備える。

C PU 20は、整数演算及び浮動小数点演算が可能なものであればよく、特に限定されない。例えば、データのロード及びストアのアーキテクチャが単純なシングルイッシユー R I S Cアーキテクチャの CPUを用いることができる。また、スーパースカラプロセッサ、 VL IWプロセッサ等も用いることができる。分散共有メモリ（D S M) 2 2は、デュアルポートメモリで構成されており、データ転送コントローラ 3 0を介して、他のプロセッサコア 1 6からデータを直接読み書きすることができ、タスク間のデータ転送に使用される。

ローカルプログラムメモリ（L P M) 2 4は、スケジューラによって定められたタスクの実行順序に従って、実行すべき命令を他のメモリから先読みしてキヤッシュする。なお、プログラムの特徴に応じ、通常のデータキャッシュメモリとしても使用でき、ヒットミスを少なくするためのキャッシュとしても使用される。ローカルデータメモリ（L DM) 2 6は、各プロセッサコア 1 6内だけでァクセスできるメモリであり、各プロセッサコア 1 6に割り当てられたタスクで使用されるデータ（例えば、配列変数）を格納する。また、ローカルデータメモリ 2 6は、 L 1データキヤッシュに切り替えることができる。

データ転送コントローラ（D T C ) 3 0は、公知の DMAコントローラによつて構成され、スケジューラによって定められたタイミングに従って、実行すべき命令や使用されるデータをメモリ間で転送する。具体的には、自又は他のプロセッサコア 1 6上のローカルメモリ 2 6、自及び他のプロセッサコア 1 6上の分散共有メモリ 2 2、自及び他のマルチコアチップ 1 0上の集中共有メモリ 2 8、及び、他のチップに設けられた集中共有メモリ 1 4間でデータを転送する。

なお、ローカルデータメモリ 2 6とデータ転送コントローラ 3 0との間の破線は、シングルチップマルチプロセッサの用途に応じて、データ転送ントローラ 3 0がローカルデータメモリ 2 6にアクセスできるように構成してもよいことを示している。このような場合、 C P U 2 0力転送指示を、ローカルデータメモリ 2 6を介して、データ転送コントローラ 3 0に与えることができる。また、 C P U 2 0が、転送終了後に転送されたデータをチヱックすることができる。

C P U 2 0は、ローカルデータメモリ 2 6、分散共有メモリ 2 2又は専用のバッファ（図示省略）を介して、データ転送コントローラ 3 0へデータ転送を指示する。また、データ転送コントローラ 3 0は、ローカルデータメモリ 2 6、分散共有メモリ 2 2又は専用のバッファ（図示省略）を介して、 C P U 2 0へデータ転送の終了を報告する。このとき、どのメモリ又はバッファを使うかはプロセッサの用途に応じて、プロセッサの設計時に決められる。又は、複数のハードゥエァ的な方法を用意し、プログラムの特性に応じて、コンパイラ又はユーザがソフトウエア的に使い分けられるようにしてもよい。

データ転送コントローラ 3 0へのデータ転送指示（例えば、何番地から何バイトのデータを、どこにストアし又はロードするか、及び、データ転送のモード (連続データ転送、ストライド転送等）等）は、コンパイラが、データ転送命令をメモリ又は専用バッファに格納して、プログラムの実行時にはどのデータ転送命令を実行するかの指示のみを出すようにして、データ転送コントローラ 3 0を駆動するためのオーバへッドを削減することが望ましい。

ネットワークインタフェース（N I ) 3 2は、各マルチコアチップ 1 0内のプ口セッサコア 1 6の間を通信可能にするために、チップ内結合網 3 4に接続される。チップ内結合網 3 4はチップ間結合網 1 2に接続されている。プロセッサコァ 1 6は、チップ間結合網 1 2によって、他のマルチコアチップ 1 0内のプロセッサコア 1 6と通信することができる。

プロセッサコア 1 6は、チップ內結合網 3 4を介して、集中共有メモリ 1 4に接続される。集中共有メモリ 1 4は、チップ間結合網 1 2に接続される。

なお、ネットワークインタフェース 3 2は、チップ内接続ネットワーク 3 4を介さずに、チップ間結合網 1 2とを直接接続することもできる。このような構成は、システム中の全プロセッサコア 1 6が、各チップ上に分散して配置された集中共有メモリ 2 8及び分散共有メモリ 2 2に、平等なアクセスを可能にする。また、直結されたパスを設けることによって、チップ間のデータの転送量が多い場合でも、システム全体のデータ転送能力を高めることができる。電力制御レジスタ（F V R) 3 6は、プロセッサコア 1 6の動作周波数及び動作電圧を制御するために、プロセッサコア 1 6に供給される電源電圧やクロック周波数が設定される。なお、図示したように、電力制御レジスタは、プロセッサコア 1 6だけでなく、マルチコアチップ 1 0、チップ間結合網 1 2、集中共有メモリ 1 4、入出力用チップ 1 8、集中共有メモリ 2 8及びチップ内結合網 3 4にも設けられ、これらの各構成の動作周波数及び動作電圧を制御するためのデータが格納される。

図 2は、本発明の実施の形態のマルチグレイン並列処理を説明する図である。マルチグレイン並列処理とは、粗粒度並列性、中粒度並列性及び近細粒度並列性を階層的に利用する並列処理方式である。粗粒度並列性とは、サブルーチン間、ループ間及び基本ブロック間の並列性であり.、中粒度並列性とは、ループのイタレーシヨン間の並列性であり、近細粒度並列性とは、ステートメント間及び命令間の並列性である。このマルチグレイン並列処理によって、従来行われてきた局所的かつ単一粒度の並列化（ループの並列化及び命令レベルの並列化等）とは異なり、プログラム全域にわたるグローバルかつ複数粒度にわたるフレキシブルな並列処理が可能となる。

マルチグレイン並列処理においては、以下の手順で並列化処理が行われる。

1 ) ソースプログラムからマクロタスクを生成。

2 ) マクロタスク間の制御フロー及びデータ依存を解析しマクロフローグラフを生成。

3 ) 最早実行可能条件解析によってマクロタスクグラフを生成。

以下、この手順を具体的に説明する。

単一プログラム中のサブルーチン、ループ、基本ブロック間の並列性を利用するマルチグレイン並列処理では、ソースとなる、例えばフォートランプログラムを、粗粒度タスク（マクロタスク）として、繰り返しブロック（R B ： repetition block) 、サブノレ一チンブロック ( S B ： subroutine block) 、及び疑似代入文ブロック（B P A ： block of pseudo assignment statements) の 3 種類のマクロタスク（MT ) に分解する。繰り返し

ブロックは、各階層での最も外側のループである。

また、疑似代入文プロックは、スケジューリングオーバヘッド及び並列性を考慮して、結合及び/又は分割された基本ブロックである。ここで、疑似代入文ブロックは、基本的には通常の基本プロックであるが、並列性抽出のために単一の基本ブロックを複数に分割してもよい。また、一つの疑似代入文ブロックの処理時間が短く、ダイナミックスケジューリング時のオーバへッドが無視できない場合には、複数の疑似代入文ブロックを結合して一つの疑似代入文ブロックを生成する。

最外側ループである繰り返しブロックが D o a 1 1ループである場合は、ルーブインデクスを分割することによって、複数の部分 D o a 1 1ループに分割し、分割された D o a 1 1ループを新たに繰り返しブロックと定義する。繰り返しブロックが n o n— D o a 1 1ループである場合は、繰り返しブロック内の並列性に、階層的マクロデータフロー処理を適用するとよい。

サブルーチンブロックは、可能な限りインライン展開するとよい。しかし、コ一ド長を考慮した結果、効果的にインライン展開ができないサブルーチンは、そのままサブルーチンプロックとする。この場合、サブルーチンブロック內の並列性に、階層的マクロデータフロー処理を適用するとよい。

次に、マクロタスク間の制御フローとデータ依存を解析し、図 3に示すようなマクロタスクグラフ（MT G)

を作成する。マクロフローグラフでは、マクロタスク（M T ) 間の制御フローを表している。マクロタスクグラフを作成する際は、マクロタスク間の制御依存及びデータ依存を同時に解析し、各マクロタスクが最も早く実行できる条件（最早実行可能条件）の形でマクロタスク間の並列性を検出する。。また、この最早実行開始条件をグラフで表現したものがマクロタスクグラフである。

そして、コンパイラは、マクロタスクグラフ上のマクロタスクを、プロセッサクラスタ（コンパイラ又はユーザによって定義されるプロセッサのグループ）へ割り当てる。このタスクの割り当てには、コンパイル時に割り当てるスタティックスケジューリングと、実行時に割り当てるダイナミックスケジューリングがある。ダイナミックスケジューリングの場合、ダイナミック C Pアルゴリズムを用いてダイナミックスケジユーリングコ一ドを生成し、生成されたダイナミックスケジユーリングコードをプログラム中に埋め込む。なお、ダイナミックスケジュ一リング時には、実行時までどのマクロタスクがどのプロセッサで実行されるか分からないので、マクロタスク間で共有されるデータは全プロセッサから等距離に見える集中共有メモリ 1 4に割り当てるとよい。

マルチグレイン並列化では、マク口データフロー処理によってプロセッサクラスタに割り当てられるループブロックは、そのループブロックが D o a 1 1ループ又は D o a c r o s sループである場合、プロセッサクラスタ内の複数のプロセッサコア 1 6によって処理がされるように、イタレーションレベルでループが分割され、ループが並列化される。

ループの再構築には、ステートメントの実行順序の変更、ループディストリビユーシヨン、ノードスプリツティングスカラェクスパンシヨン、ループインタ —チェンジ、ループアンローリング、ストリップマイニング、アレイプライベタィゼーシヨン、及び、ュニモジュラ一変換（ループリバーサル、パーミュテーシヨン、スキュ一^ ング等）等の従来の技術がそのまま利用できる。

また、ループ並列処理が適用できないループには、近細粒度並列処理、又は、ループのボディ部を階層的にマクロタスクに分割する粗粒度タスク並列処理を適用する。プロセッサクラスタに割り当てられるマクロタスクが疑似代入文プロックであるか、又は、ループ並列化も階層的なマクロデータフロー処理も適用できないル一プブロックの場合は、疑似代入文ブロック内のステートメント又は命令を近細粒度タスクとして、プロセッサクラスタ内のプロセッサで並列処理する。

マルチプロセッサシステムでの近細粒度並列処理では、プロセッサ間の負荷バランスだけでなくプロセッサ間のデータ転送を最少にするように、近細粒度タスクをプロセッサにスケジユーリングすることによって、効率よい並列処理を実現する。さらに、この近細粒度並列処理で要求されるスケジューリングでは、近細粒度タスク間にはデータ依存による実行順序の制約があるため、タスクの実行順序が問題となる。

このようにして生成された近細粒度タスクグラフを各プロセッサにスタティックにスケジューリングする。この際、スケジューリングアルゴリズムとして、データ転送オーバへッドを考慮し実行時間を最小化するために、公知のヒユーリスティックアルゴリズム（C P /D T ZM I S F法、 C P Z E T F ZM I S F法、 E T F Z C P法、又は、 D T Z C P法）を適用し最適なスケジュールを決定する。スケジユーリングの終了後、コンパイラはプロセッサコアに割り当てられたタスクの命令列を順番に並べ、データ転送命令や同期命令を必要な箇所に挿入することによって、各プロセッサ用のマシンコードを生成する。このとき、挿入されるデータ転送命令は、マクロタスク間の制御依存及びデータ依存よつて、ロー力ルメモリ 2 6にデータを格納する及びローカルメモリ 2 6からデータを掃き出すタイミングを決められる。

近細粒度タスク間の同期にはバージョンナンバー法を用い、同期フラグの受信は受信側プロセッサコアのビジーウェイトによって行うとよい。ここで、データ転送指示及び同期フラグの設定は、送信側のプロセッサが受信側のプロセッサコァ 1 6上の分散共有メモリ 2 2に直接書き込むことによって、低オーバヘッドで行うことができる。

<口一力/レメモリ管理〉

図 4は、本発明の実施の形態のローカルメモリ管理の概要を説明する図である。プログラムは、一般に、サブルーチン及び多重ループによって複数の階層に分かれている。よって、プログラムの実行に必要なデータをどのタイミングで転送するかを考えることが重要である。例えば、ループにおいては、ループの前後でデータを転送するとよい。具体的には、ループの実行前にデータをローカルメモリに転送し、ループの実行後にデータをローカルメモリから転送する。そして、ループ内ではデータをローカルメモリに載せたままで、ループが実行できるようにデータを配置するとよレ、。このように、データをローカルメモリに載せたままで実行できるプログラムの単位を「ローカルメモリ管理マクロタスク」とレヽう。すなわち、ローカルメモリ管理マクロタスクで扱うデータは必ずローカルメモリ上に載るサイズのデータである。また、ローカルメモリ管理マクロタスクの実行に必要なデータは、ローカルメモリ管理マクロタスクの実行前又は実行後の適切なタイミングで転送（ロード、ストア）される。さらに、タスク内でデータの転送が発生しないように、ローカルメモリ管理マクロタスクを決定する。

そして、必要な全てのデータをローカルメモリに載せることができないループは、そのループの中で、使用される全てのデータがローカルメモリに載る部分をローカルメモリ管理マクロタスクと定義する。すなわち、必要な全てのデータがローカルメモリに載るようにプログラムを分割し、ローカルメモリ管理マクロタスクを決める。このようにローカルメモリ管理マクロタスクを決めて、ローカルメモリ管理マクロタスクの実行に必要なデータは、マクロタスクの実行前後で転送（ローカルメモリへのロード、ローカルメモリから集中共有メモリへのストァ）する。このため、マクロタスク内において、データの転送が発生しない。以上、ループについて説明したが、プログラム中のベーシックブロック及びサプル一チンでも同じである。なお、サブルーチンについては、後述する例外がある。

また、本明細書では、ローカルメモリの管理について説明するが、容量に制限のある（記憶容量が使用されるデータより少ない）メモリであれば、本発明を適用することができる。例えば、ローカルメモリ 26の他、プロセッサコア 16内の分散共有メモリ 22、オンチップの集中共有メモリ 28及ぴオフチップの集中共有メモリ 14にも、本発明を適用することができる。

以上説明したプログラムを分割して、ローカルメモリ管理マクロタスクを生成する方法について、図 4を参照して説明する。

ローカルメモリに配列変数の要素が 1000個載ると仮定する。また、図 4に示すように、このプログラムは変数 i、 jによる 2重ループが含まれている。ループ中で配列変数 A [1 : 30, 1 : 20] は 600要素が使用され、配列変数 B [1 ： 30] は 30要素が使用され、配列変数 C [1 : 30， 1 : 20] は 6 00要素が使用される。合計すると、このループでは 1230個の配列要素が使用される。よって、全てのデータをローカルメモリに載せて、このループを実行することができない。

そこで、本発明の実施の形態のコンパイラは、変数 iのループを、 i = l〜l 0及び、 i =l 1〜20の二つのループに分割する。すると、各ループでァクセスされるデータは 630要素になるので、全てのデータを,ローカルメモリに載せたまま、ループを最初から最後まで実行することができる。この分割されたループが、ローカルメモリ管理マクロタスクである。そして、このマクロタスクの実行前後に必要なデータがロード及びストァされる。

データのローカルメモリへの転送（ロード）はマクロタスクの実行直前でなくても、他のデータのブロックへの割り当てを考慮して、もっと前の時点で実行してもよレ、。このように、配列変数（データ）が使用されるマクロタスクの実行開始前までの任意のタイミングで、そのマクロタスクで使われる配列変数をメモリにロードすることを「プレロード」という。このプレロードは、他のマクロタスクの実行中であっても、そのデータがロードされるべきブロックが空いていれば、

DMAによってデータの転送が可能である。このように、ブロックの空き状態によって、マクロタスクの実行前でもデータをロードすることができ、プログラム実行までに必要なデータを揃えることができる。このため、メモリに必要なデータがロードされていないことによるプロセッサの待ち時間を削減することができる。

また、データのローカルメモリからの転送（ストア）はマクロタスクの実行終了直後でなくても、他のデータのプロックへの割り当てを考慮して、もっと後の時点で実行してもよい。このように、配列変数（データ）が使用されるマクロタスクの終了後の任意のタイミングで、そのマクロタスクで使われた配列変数をメモリにロードすることを「ポストストア」とレヽう。このポストストアは、他のマクロタスクの実行中であっても、 DMAによってローカルメモリから集中共有メモリへのデータの転送が可能である。このように、任意のタイミングでデータをストァすることによって、 DMAの負荷がマクロタスクの実行前後に集中することを避けることができる。

次に、前述したサブルーチンにおける例外について説明する。

前述したように、一般的には、口一カルメモリ管理マクロタスク内でデータの転送が発生することはない。しかし、サブルーチンがローカルメモリ管理マクロタスクとなった場合、及び、内部でサブルーチンを呼び出しているループがローカルメモリ管理マクロタスクとなった場合の二つの場合には、サブルーチン内においてデータを転送（ロード及び Z又はストア）する必要がある。

具体的には、サブルーチンの開始時に、サブルーチン呼び出し元で使用していた配列変数をロードする。例えば、フォートランにおけるセーブ、コモン及びデータ変数、 C言語におけるスタティック変数及びグローバル変数を使用すると、これらの変数は呼び出し元では管理することができない。よって、マクロタスク内のサブルーチンの処理が終わったら使用された変数を共有メモリに転送する必要がある。サブルーチン終了時に変数をローカルメモリから読み出して共有メモリに書き込まないと、データの整合性がとれないからである。なお、マクロタスクは一つの物理プロセッサによって実行されるので、マクロタスク内でデータをロード及びストアしても正しい値が保証される。

<記憶領域の分割〉

図 5は、本発明の実施の形態のメモリの記憶領域の分割の状態を説明する図である。

本発明で、記憶領域の管理の対象となるメモリは、ローカルメモリ及び分散共有メモリである。これらの管理対象のメモリの記憶領域は、複数のブロック（サブブロック等も含む） 1 0 1〜1 0 4に分割されている。

図 5に、ローカルメモリの記憶領域を分割したブロックを示す。ブロック 1 0 1は、ローカルメモリの記憶領域が 2のべき乗分の 1 (図示する状態では 8分の 1 ) に分割された固定長の領域である。更に、ブロック 4〜7は、ブロックサイズの半分のサブブロック 8〜 1 5 ( 1 0 2 ) に分割されている。さらに、サブブロック 1 2〜 1 5は、サブブロックサイズの半分のサブサブブロック 2 4〜 3 1 ( 1 0 3 ) に分割されている。さらに、サブサブブロック 2 8〜3 1は、サブサブブロックサイズの半分のサブサブサブプロック 5 6〜6 3 ( 1 0 4 ) に分割されている。

ブロック 1 0 1、サブプロック 1 0 2、サブサブプロック 1 0 3、サブサブサブブロック 1 0 4は独立して管理される。コンパイラは、メモリの各アドレス空間に任意のサイズのプロックを設定することができる。コンパイラは、コンパィルされるプログラムに応じて適切なサイズのブロック等を設定する。すなわち、大きいデータを扱うプログラムでは大きなサイズのブロックを、小さいデータを扱うプログラムでは小さなサイズのプロックを用意することによって、ローカルメモリを無駄なく、かつ効率よく使用することができる。

なお、ブロックの管理を容易にするため、サブブロック等も、記憶領域の先頭アドレスから通し番号を付与する。このため、一つのアドレスによって示される領域が、複数のブロック、サブブロックに含まれる。例えば、ブロック 0、サブブロック 0〜 1、サブサブプロック 0 ~ 3、及びサブサブサブプロック 0〜 7は、同じメモリ空間（アドレス 0〜 1 2 7 ) を示す。このように、複数種類のブロックをメモリ空間の同じアドレスに設定することによって、随時、適切な種類のブロック等を使用するようにメモリを管理することができる。

このように設定された、サブプロックのサイズはブ口ックのサイズの 1 2であり、サブサブブロックのサイズはブロックのサイズの 1 / 4であり、サブサブサブブロックのサイズはブロックのサイズの 1ノ 8となるように分割されている。つまり、メモリの記憶領域は、サイズが 2のべき乗の関係（隣接するサイズのブロックと 2倍の関係）にある複数のサイズのプロックに分割され、分割された複数のサイズのブロックが記憶領域として提供される。

なお、ブロックサイズは、コンパイラがプログラムをコンパイルする際に取得したプログラムの情報によつて決定されるので、プログラム実行開始から終了までの間変更されない。し力し、コンパイラが、別のプログラムをコンパイルすると、コンパイル対象のプログラムの特性に適合するように、ブロックの数及びサィズは異なってくる。すなわち、本発明のローカルメモリの記憶領域の管理単位となるブロックは、完全に固定されたサイズではなく、コンパイラがプログラムを解析した情報に基づいて、プログラムで使用されるデータサイズに最適なブ口ックサイズを決めることができる。ブロックサイズはプログラム内では固定だが、プログラム毎に最適なブロックサイズを選択する。なお、プログラム実行中にブロックサイズを変えてもよい。具体的には、プログラムのあるステップまでは大きな配列データを使ったが、あるステツプ以後は小さなスカラーデータ（1次元変数）を使うときは、配列データの使用終了時にブロックを分割してサブブロックにしてもよレ、。また、テンプレートの割り当てを変えることによって、ブロックに載せられる配列変数のサイズを変更することができる。テンプレートのブ口ックへの割り当ては後述する。

本発明では、一つのローカルメモリ管理マクロタスクで使用される全てのデータがーつのブロックに格納できるように、ブロックサイズが決定される。換言すると、プロックのサイズによって、ローカルメモリ管理マクロタスクのサイズが定まる。なお、定められたブロックサイズにデータを出し入れするタイミングは、その後、マクロタスクに実行タイミングに基づいて、スケジューラによって決められる。

このようにして、口一カルメモリの記憶領域を複数のサイズのプロックに分割することによって、ローカルメモリ管理マクロタスクにおいて使用されるデータに最適なサイズのブロックに、必要なデータがロードされる。また、ローカルメモリの記憶領域を固定サイズの領域で管理することによって、可変サイズの領域で管理する場合に生じる断片化（フラグメンテーション）の問題を回避することができる。

図 4に示した分割したループの例では、配列変数 Aはローカルメモリの一つのブロックに収まる。また、配列変数 Bは一つのサブサブブロックに収まる。換言すれば、ブロックのサイズは、コンパイラによって、プログラムの性質に応じて決められる。より具体的には、配列変数 Aがローカルメモリの一つのブロックに収まるようにブロックサイズが決められ、ループが分割される。そして、通常は、ブロックサイズはコンパイル対象のプログラムの開始時から終了時までは変更されない。 <データのロード及びストァ〉

次に、ブロックへのデータの書き込み（ロード）、読み出し（ストア）、及び、プロックの割り当てについて説明する。

図 5に示すように記憶領域が分割されたメモリには、ローカルメモリ管理マク口タスクにおいて使用されるデータがロードされる。まず、スケジューラは、データをロードするメモリ力ローカルメモリか分散共有メモリかを決める。このとき、複数のプロセッサコアによって共有されるデータは分散共有メモリにロードするとよい。

次に、スケジューラは、必要なデータが既にロードされているブロックがある場合、そのブロックにロードされているデータをそのまま使用する。一方、必要なデータがいずれのブロックにもロードされていない場合、空いているブロックを当該ロードされるデータに割り当て、割り当てられたプロックに必要なデータをロードする。さらに、空いているブロックがなければ、掃き出し優先度の最も高いデータをローカルメモリ 2 6から読み出して、集中共有メモリ 2 8又は 1 4 に書き込み、空きブロックとなった記憶領域に必要なデータをロードする。

図 6は、本発明の実施の形態のメモリの掃き出し優先度を説明する図であり、横軸に時間の経過を示す。

本発明の実施の形態では、掃き出し優先度は以下の順で決められる。

1 ) 以後アクセスされないデータ。

2 ) 他プロセッサでアクセスされるが、自プロセッサではアクセスされないデータ。

3 ) 再度自プロセッサで使用されるが、先の時間で使用されるデータ。

4 ) 自プロセッサですぐに使用されるデータ。

以後アクセスされないデータは、例えば、新たに再計算されてしまっている変数である。このような既に死んでいる変数は残しておく必要がないため、掃き出し優先度は一番高くなる。他のプロセッサでアクセスされるが、今後自プロセッサでアクセスされないデータは、そのデータを必要とするプロセッサコア 16の分散共有メモリ 22に転送するとよいので、次に掃き出し優先度が高くなる。他プロセッサでアクセスされるデータは直ぐに分散共有メモリ 22へ転送すればよいが、他のプロセッサコア 16のメモリの状況によって、すぐに転送できない場合には、少し時間をずらしてから分散共有メモリ 22へ転送する力、集中共有メモリ 28又は 14へ転送する。このようにローカルメモリ 26からのデータの転送タイミングに自由度を持たせるために、アクセスされないデータより掃き出し優先度を低く設定している。

最後に、再び自プロセッサでアクセスされるデータについては、次に使用されるまでの時間によつて優先度を決める。そのデータが使用される時間が先である程、掃き出し優先度は高く、すぐ近くで使用されるデータは掃き出し優先度を低くし、なるべくメモリに載ったまま残るようにする。

図 6を参照して、時間の経過と共にメモリの掃き出し優先度について説明する。図 6では、現在、プロセッサコア 0 (PC0) で実行されているローカルメモリ管理マクロタスクにおいて、配列変数 A、 B、 C及び Dがローカルメモリにロードされている状態を考える（1001) 。

このローカルメモリ管理マクロタスクでは、始め、プロセッサコア 0 (PC 0) で、配列変数 Aを定義し（De f A) 、配列変数 Aを使用している（10 02) 。

次に、プロセッサコア 1 (PC 1) で、別の配列変数 Aを定義した（100 3) 。すると、 PC 0のローカルメモリにロードされている配列変数 Aは既に変わっているので、今後アクセスされることはない。よって、掃き出し優先度が最高位になる。キャッシュのコヒーレンス制御と同様に、整合性がとれないデータは、不要なデータと判断すればよいからである。次に、後に実行されるべきマクロタスクを検討する。配列変数 Bは、他のプロセッサ（PC 1) で使用される（1004) 。配列変数 C及び Dは、自プロセッサ（P C 0) で使用される（1005、 1006) 。よって、配列変数 Bの掃き出し優先度は、配列変数 C及び Dの掃き出し優先度より高くなる。

配列変数 Cと配列変数 Dを比較すると、配列変数 Dの方が配列変数 Cより先に使用される。よって、配列変数 Cの掃き出し優先度は、配列変数 Dの掃き出し優先度より高くなる。なお、配列変数 C及び Dは、後に利用されるので、集中共有メモリ CSMに一旦書き戻して、次に必要になるときにロードすればよい。

このため、掃き出し優先度は A、 B、 C、 Dの順となる。

図 7、本発明の実施の形態のメモリにロードされている変数の推移を説明する図である。

図 7は、一つのプロセッサコア上で、二つのロー力ノレメモリ管理マクロタスク (MT 1、 MT 2) が含まれるプログラムが一つの階層で実行される場合に、プログラムの実行開始前のメモリの状態を、マクロタスク 1 (MT 1) の実行終了時のメモリの状態、マクロタスク 2 (MT2) の実行開始時のメモリの状態、及び、マクロタスク 2 (MT2) の実行終了時のメモリの状態を示す。なお、ローカルメモリの記憶領域は、図 5で示したように分割されている。

マクロタスク 1 (MT 1) の実行開始前には、全てのメモリの記憶領域（プロック）は、空き状態である（101 1) 。そして、マクロタスク 1の開始時には、マクロタスク 1で必要とされるデータ（配列変数 A、 B、 C、 D、 E、 F) にブロックが割り当てられ、各配列変数がメモリにロードされる。その後、マクロタスク 1による処理が開始する。具体的には、宣言文 d e f Aによって、配列変数 Aがブロック 0に割り当てられる。同様に、配列変数 Bがブロック 1に割り当てられ、配列変数 Cがブロック 2に割り当てられ、配列変数 Dがブロック 3に割り当てられ、配列変数 Eサブブロック 8に割り当てられ、配列変数 Fがサブプロック 9に割り当てられる。

マクロタスク 1の実行終了時には、各配列変数がブロックにロードされている ( 1 0 1 2 ) 。

マクロタスク 2 (MT 2 ) の実行開始時には、マクロタスク 2で使用される全てのデータがメモリにロードされている必要がある。マクロタスク 2では、配列変数 A、 B、 C、 G、 E、 H、 I及び Jが使用されるので、 4個のブロック及び 4個のサブブロックが必要である。必要な配列変数のうち、配列変数 A、 B、 C 及び Eは、既にローカルメモリにロードされているので、マクロタスク 2の実行時に新たにロードすべき配列変数は、配列変数 G、 H、 I及び Jである。このうち、配列変数 Hは、マクロタスク 2の実行開始前にサブブロック 1 0にプレロードされている。また、サブブロック 1 1は空いている。よって、マクロタスク 2 の実行開始の段階で 1個のブロック及び 1個のサブブロックを空ける必要がある。そこで、必要なデータをロードするブロックを確保するために、掃き出し優先度に従って配列変数 Dをプロック 3から掃き出し、配列変数 Fをサブプロック 9 から掃き出す。これによつて、 1個の空きブロック及び 1個の空きサブブロックを確保する（1 0 1 4 ) 。

このため、マクロタスク 1の実行終了後、マクロタスク 2の実行前には、配列変数 D及び Fの集中共有メモリへの転送、配列変数 Hのローカルメモリへの転送が必要となる（1 0 1 3 ) 。

マクロタスク 2の実行開始前に、配列変数 Gがブロック 3に割り当てられ、配列変数 Iがサブプロック 9に割り当てられ、配列変数 Jがサブプロック 1 1に割り当てられる。その後、マクロタスク 2が実行され、配列変数 G、 I及び Jがマクロタスク 2で使用される（1 0 1 4 ) 。

このように、前述した優先度によって、メモリからデータを分散共有メモリ又は集中共有メモリにストアするので、従来の L R Uとは異なり、メモリの利用を最適化することができ、メモリ間のデータ転送を減らすことができる。すなわち、従来の L R Uによると、最近使われていないが直ぐに使われるかもしれないデータもメモリから転送されてしまう。しかし、本発明のように、コンパイラが取得した情報によると、そのデータが次に使用されるタイミングが分かり、メモリを最適に使用することができる。

<ループの分割〉

次に、図 8から図 1 1を参照して、ループの分割手順の具体例を説明する。ループの分割は、複数のループを見て整合分割を行う。多重化されたループで一番広くアクセスする範囲を解析して、グロ一バルインデックスレンジとする。すなわち、ローカルメモリをアクセスすればよい範囲と、隣のプロセッサと通信をしなければいけない範囲とがあるので、データのアクセス範囲を解析し、これを切り分ける。このため、プログラムの構造を解析し、ターゲットループグループ（T L G) を選択する。本実施形態では、従来のコンパイラによる並列的なループを連続的に実行するための解析と異なり、複数のループにわたってどのようにメモリがアクセスされるかを解析する。

ここで、二つのループが整合するとは、以下の全ての条件を満たすことである。 1 ) 各ループが、 D o a 1 1ループ、 R e d u c t i o nループ、ループキヤリッドデータ依存（リカレンス）による S e q u e n t i a lループのいずれかである。

2 ) ループ間に配列変数のデータ依存が存在する。

3 ) 各ループのループ制御変数が同一配列の同じ次元の添字式で使用されており、次元の配列添字がループ制御変数の一次式で表されている。

4 ) ループ間にデータ依存を導く各配列に対して、配列添字中のループ制御変数係数のループ間での比が一定である。

このとき、選択されていない単一のループも全てターゲットループグループとし、ターゲットループグループの入れ子を許容し、間接参照を含むループも選択する。すなわち、タ一ゲットループグループに選ばれたループの内側にもループが存在していた場合、内側のループに対してもターゲットループグループを生成する。また、他のループと整合可能でないループは、そのループのみでターゲットループグループを成す。

ターゲットループグループとは、マクロタスク上でループ整合分割が適用可能な繰り返しブロック（RB) の集合であり、マクロタスクグラフ上で直接データ依存先行、後続関係を持つ繰り返しブロックの集合である。これは、実行時のコスト（メモリ及びプロセッサ等のリソースの消費）が大きい繰り返しブロックとその繰り返しブロックに直接データ依存先行、後続関係を持つ繰り返しブロックは大きなデータを扱うので、分割の効果が高いためである。これによつて、ループ間で同じデータを使う場合に、同じ領域を使い回して、キャッシュミスを防止することができる。

具体的に、図 8に示すプログラムでは、変数 iによる二つのループが TLG 1 となり、各 TLG 1内の変数 j によるループが TLG 1 - 1及び TLG 1— 2となる。さらに、 TLG 1— 1内の変数 kによるループが TLG 1 _ 1— 1なり、 TLG 1— 2内の変数 kによるループが TLG 1— 2— 1なる。

次に、図 9に示すように、 TLG集合を生成する。 TLGが以下の生成条件の全てを満たす場合に、 TLG集合が生成される。

1) 少なくとも一つ以上共有配列を持つ（依存関係も考慮される）。

2) 共有配列の整合次元が全て一致する。

3) サブルーチンを跨った場合は、共有配列の形状が一致する。

次に、図 10に示すように、分割候補 TLG集合を生成する。これは、入れ子になった TLGがある場合、コストが最大の TLG集合を選択し、選択された T LG集合を分割候補とする。その後、分割候補 TLG集合毎に G I Rを計算する。このようにすると、プログラム中の全てのコードをカバーすることができる。具体的には、 TLG集合 1が分割候補 TLG集合 1となり、 G I Rは [1 : 10] となる。

次に、分割基準領域を決定する。分割基準領域は、各 TLG集合で使用されるデータを収めなければならない記憶領域である。具体的には、分割候補 TLG集合で使用されるデータサイズの比を計算する。ここで、 3個の分割候補 TLG集合があり、集合 1で使用されるデータサイズが 300 k、集合 2で使用されるデータサイズが 200 k、集合 3で使用されるデータサイズが 100 kであれば、データサイズの比は 3 ： 2 ： 1になる。

この比に基づいて、最小メモリ領域（ローカルメモリと分散共有メモリとのうち、容量が小さいもの）を各分割候補 TLG集合に割り当てる。具体的には、分割候補 TLG集合で使用されるデータが最小メモリ領域よりも小さいの領域に収まるように、分割候補 TLG集合を分割する。なお、実際には、この時に割り当てられた領域以外の領域にも分割候補 T L G集合で使用されるデータを載せることができるが、分割用の目安としてこのような処理をする。

これによつて、分割後の各分割候補 T L G集合で使用されるデータを同時に口一カルメモリに載せることが可能となる。なお、実際にデータをメモリに載せるかは、スケジューリング及びメモリ管理ルーチンによって決まる。

次に、ブロックサイズを決定する。

まず、コストが最も大きい分割候補 TLG集合を、ブロックサイズを決定する基準にする。但し、多重分割が必要となった場合、分割候補 TLG集合には最大分割数が採用される。ここで、最大分割数とは、割り当てられるプロセッサダループ（PG) 内のプロセッサコア（PC) の構成と、並列処理によるオーバーへッドを考慮した場合の最大の分割数である。 CPUの数が一つである場合、最大分割数は、ループのイタレーシヨン数である。以後、多重分割が必要となった T LG集合は、分割候補 TLG集合に選ばない。そして、再び、分割候補 TLG集合を生成する。

具体的には、図 1 1に示すように、 TLG集合 1は最大分割数で分割されるので、次の TLG集合 2が分割候補 TLGに選択される。分割候補となった TLG 集合 2は、 G I Rは [1 ： 20] である。

次に、プロックサイズの決定手順について説明する。

まず、ブロックサイズ決定前処理を実行する。基準となる分割候補 TLG集合でアクセスするデータが、分割基準領域よりも小さいサイズになる分割数を計算する。ここではアクセスされるデータのサイズのみを考え、間接的に参照されるデータのアクセスについては考慮しない。分割数は、プロセッサグループの数の整数倍となるように選択する。求められた分割数で T L G集合内の各ループの分割を試行する。

具体的には、最外ループ（ iのループ）で 4分割を試行する。アクセスされる配列変数 A及び Bのサイズは、 [k， j， i ] = [l : 30， 1 : 20， 1 ： 3] である。総データサイズは、 30 X 20 X 3 X 2 = 3600になる。

次に、ブロックサイズを決定する。

分割後の配列アクセス範囲に基づいて、 TLG集合中の全てのローカル配列のテンプレートを作成し、作成されたテンプレートの大きさを仮プロックサイズとする。テンプレートの作成の詳細は後述する。ここでも、間接参照される配列データのアクセスについて考慮しない。テンプレートの作成に失敗した場合、分割数を大きくして、ブロックサイズ決定前処理からやり直す。

決定された仮プロックサイズを用いて、分割基準領域に割り当てできるかを判定する。このステップでは、データを間接的に参照している場合は、その次元については配列の宣言サイズを用いて判定する。間接的に参照されている配列がブロックに収まらなかった場合、共有メモリに置くことを決定してもよい。 TLG集合で使用されるデータが仮プロックサイズに割り当てできる場合、テンプレートを作成したときの分割数を採用する（すなわち、さらに分割はしない）。そして、仮ブロックサイズをブロックサイズと決定する。

一方、 TLG集合で使用されるデータが仮プロックサイズに割り当てできない場合、分割数を大きくして、ブロックサイズ決定前処理からやり直す。さらに、最大分割数でも割り当てできなかった場合、最大分割数を採用し、以後、割り当てできなかった TLG集合は、分割候補 TLG集合に選ばない。そして、再び、分割候補 T L G集合を生成する。

次に、分割数を決定する。

分割候補 TLG集合毎に、先に決められたブロックサイズに基づいて、分割基準領域決定で決めた領域中にいくつのプロックが確保できるか計算し、割り当てできる分割数を求める。その結果、いずれかの分割候補 TLG集合の割り当てに失敗した場合、再び、分割候補 TLG集合を生成する。

その際、割り当てできなかった分割候補 TLG集合は最大分割数を採用し、以後、割り当てできなかった TLG集合は、分割候補 TLG集合に選ばず、プロックサイズは再計算しない。既に、分割数が決められた分割候補 TLG集合のデータサイズをローカルメモリのサイズから減じて、まだ残っている分割候補 TLG 集合のデータサイズの比に基づいて、再度、 TLG集合を割り当てる。そして、分割数が決定した分割候補 TLG集合内にある各ループを。ローカルメモリ管理マクロタスク候補とする。

具体的には、 TLG集合 1で使用されるデータサイズが 300 k、 TLG集合 2で使用されるデータサイズが 200 k、 TLG集合 3で使用されるデータサイズが 100 kである例を考える。 TLG集合 1を基準にプロックサイズが決定できたとする。 TLG集合 2を最大分割数でも割り当てに失敗した場合、 TLG集合 2の中に TLG集合 4、 TLG集合 5及び TLG集合 6があった場合、これらが次の分割候補 T L G集合に加わる。

全てのデータがローカルメモリに配置できるループの分割数が決まった場合、どのデータがどのようなパターンでアクセスされる力 \ 及び、どのデータがどの大きさのプロック等を使用すると仮定して分割したかの情報を、データをロー力ルメモリに割り当てるときのために、記憶しておく。

次に、マクロタスクの分割、ループの再構築を行う。ここで行われる処理は、マクロタスクの分割、ループディストリビューション、ループフュージョン及びループの再構築である。

ここで、ループディストリビューション（Loop distribution) とは、具体的には図 1 4及び図 1 5で後述するが、多重分割を行った際にデータを使い回すための処理である。 /レープフュージョン（Loop fusion) とは、レジスタを使い回すための処理である。

そして、ループの再構築（Loop restructuring) 後、外側階層のループから順に分割数が設定されているマクロタスクを探し、見つかったマクロタスクをローカルメモリ管理マクロタスクとする。ローカルメモリ管理マクロタスクに設定されたマクロタスクの内側では、マクロタスクの探索を行わない。

<テンプレー卜の作成 >

次に、テンプレートの作成手順について説明する。

本実施の形態において、テンプレートとは、配列変数をローカルメモリに割り当てる単位である。コンパイラは、プログラムがデータにアクセスするパタンに応じてテンプレートを準備する。提供されるテンプレートのサイズは、ブロック又はサブブロックのサイズと同じである。また、テンプレートは、次元毎（1次元配列、 2次元配列、 3次元配列、 · · ·）に用意され、プログラムによってァクセスされるサイズ以上の大きさである。

ブロックを用いてローカルメモリを管理する場合に、同一アドレス領域のブロックに様々なデータ（形状、次元が異なる配列等）を載せる必要がある。すなわち、データのサイズがブロックに収まるものであっても、 1次元で宣言されているスカラー変数であったり、 2次元、 3次元の配列変数である場合がある。また、同じ次元のデータであっても各次元のサイズが異なるデータである場合もある。これらを同じアドレス空間のブロックに載せるために、すべてのデータを 1次元のデータに変換してメモリアドレスと一致させることもできる。しかし、配列変数の場合、添字変換が必要となり、ユーザーが書いたプログラムと異なるものとなってしまう。このような添字変換をすると、プログラムが分かりにくくなり、デバッグも困難になり、並列性の解析が分かりにくくなる。

そこで、プログラムの可読性を保ったまま、ローカルメモリを管理するためにプロック等のサイズと同じサイズのテンプレートを利用する。テンプレートとは、配列変数が格納されるテンプレートである。テンプレートに必要なデータを格納することによって、口一カルメモリ上の任意のブロックにデータを載せることを実現する。

テンプレートは以下の手順によって作成される。

まず、 T L G集合内の全ての配列について、各次元のアクセスサイズよりも大きく、かつ最も小さい 2のべき乗の数を求める。そして、各次元が求められた大きさの仮テンプレートを作成する。

前述した例では、最外の変数 iのループで 4分割を試行する。例えば、 i = l 〜3、 4〜6、 7 ~ 8、 9〜： I 0の 4個のノレープに分割すれば、 3回転の 2個のループ、 2回転の 2個のループができる。分割されたループ内での配列変数 A及び Bのアクセスサイズは、共に、 [ k， j , i ] = [ 1 ： 3 0， 1 : 2 0， 1 ： 3 ] である。なお、 3次元目はループの回転数のうち大きい方を選択し、 3回転とする。

次に、仮テンプレートの大きさを計算する。テンプレートの各次元は配列変数の各次元のサイズより大きな 2のべき乗の数としているので、テンプレートサイズは、 3 2 X 3 2 X 4 = 4 k要素となる。そして、最も大きい仮テンプレートのサイズをブロックサイズとする。前述した例では、ブロックサイズは 4 k要素となる。

その後、分割基準領域サイズをブロックサイズで除算し商を求める（分割基準領域サイズ Zブロックサイズ）。この求められた商が 1以上である場合は、除算に依って求められた商の小数点以下を切り捨てることによって、用意できるプロックの数（B 1 o c k _ n u m) を求める。一方、求められた商が 1未満である場合は、このテンプレートサイズでは一つもブロックが作成できないので、テンプレートの作成が失敗したと判断する。

また、ブロックサイズを各テンプレートのサイズで除算し（ブロックサイズ/ 各テンプレートのサイズ）、その商をサブブロックの数とする。

前述した例では、分割されるローカルメモリの領域が 1 2 k要素分なので、用意できるプロック数は、 1 2 k Z 4 k = 3個と求まる。最終的に、 4 k要素のサィズの 3個のテンプレート [ 1 : 3 2， 1 : 3 2， 1 : 4 , 0 : 2 ] が用意される。テンプレートサイズ及びテンプレート数が決まったので、ループの分割数は 4で確定する。

すなわち、この処理では、プログラム全体を見て、最適なブロックサイズを決定する。このため、マクロタスクで使用されるデータ（ワーキングセット）を口一カルメモリに載せるためのプログラムの分割数を定める。そして、分割されたデータサイズより大きなプロックサイズとなるように、分割数を選択する。く口一力ノレメモリ管理マクロタスクの決定の例 1〉

次に、図 1 2〜図 1 3を参照して、ブロックサイズの決定手順の別な具体例について説明する。

ブロックサイズを決定するためには、まず、ループ内でアクセスされるデータを解析して、 2のべき乗の大きさのテンプレートを作る。

この例では、ローカルメモリのサイズ（フラグ領域除く）が 2 kB、各配列要素のサイズは 4 BZ要素と仮定し、分散共有メモリの存在は考えない。

まず、最外ループを最大分割数で分割した場合を考える。

図 12に示すように、変数 iによる最外ループ 1020、ループ 1020の中に変数 jによる内側ループ 1021、及び、ループ 1021の中に変数 kによる最内ループ 1022がある、 3重ループ構造となっている。

具体的には、ループの分割を考えない場合、最内ループ 1022で使用される配列変数 A、 B及び Cのサイズは、 [k, j， i ] = [1 ： 10, 1 : 10， 1 : 10] である。前述した手順によって仮テンプレートを作成する。作成される仮テンプレートのサイズは、 [k， j， i ] = [1 ： 16, 1 : 16， 1 : 1 6] となる。この仮テンプレートに必要なブロックサイズは 16 X 16 X 16 X 4= 16 kBである。ローカルメモリのサイズは 2 k Bなので、一つもブロックを用意できない。そこで、最外ループ 1020を分割することを考える。

図 13に示すように、最外ループ（変数 i ) 1020を最大分割数で分割（ 1 0分割）する。最大分割数は、ループのイタレーシヨン数である。なお、外側のループは限界まで分割しても必要なプロック数が確保できない場合に、内側のループを分割することが望ましい。

この場合、最内ループ 1022で使用される配列変数 A、 B及び Cのサイズは、 [k， j， i ] = [1 ： 10， 1 ： 10， 1 ： 1] である。前述した手順によつて作成される仮テンプレートのサイズは、 [k， j , i ] = [1 ： 16, 1 : 1 6, 1 : 1] となる。この仮テンプレートに必要なブロックサイズは 16 X 16 X 1 X4 = l k Bである。ローカルメモリのサイズは 2 k Bなので、用意できるブロック数は、分割基準領域サイズ（2 kB) ブロックサイズ（I kB) =2 個となる。このループでは 3個の配列変数を使用するので、この状態では必要なブロックが確保できない。そこで、次に、内側ループ 1021を分割することを考える。

内側ループ 1021を 2分割（2等分）した場合、最内ループ 1022で使用される配列変数 A、 B及び Cのサイズは、 [k， j , i ] = [1 ： 10, 1 : 5 1 ： 1] である。前述した手順によって作成される仮テンプレートのサイズは、 [k, j , i] = [l : 16， 1 : 8， 1 : 1] となる。この仮テンプレートに必要なブロックサイズは 16 X 8 X 1 X 4 = 512 Bである。ローカルメモリのサイズは 2 k Bなので、分割基準領域サイズ（ 2 k B ) Zブロックサイズ（51 2 B) によって用意できるブロック数を求めると、用意できるブロックは 4個となる。

よって、このループで使用される 3個の配列変数が割り当てられるブロックが確保できるので、ブロックのサイズ及び個数が決定する。作成されるテンプレートは、 [1 : 16， 1 : 8， 1 : 1， 0 ： 3] となる。

そして、内側ループ 1021を j =l : 5と、 j =6 : 10とに分けたループ力ローカルメモリ管理マクロタスクとなる。

ループ 1030、 1031も、同様に分割する。

このように、外側ループの分割に失敗した場合、内側（他の次元）のループでも分割（多次元分割）することによって、ローカルメモリのサイズに適したローカルメモリ管理マクロタスクを決定することができる。

くローカルメモリ管理マクロタスクの決定の例 2 >

次に、図 14から図 15を参照して、ローカルメモリ管理マクロタスクの生成の別な具体例を説明する。

この例でも、前述の例と同様に、ローカルメモリのサイズ（フラグ領域除く）が 2 kB、各配列要素のサイズは 4 BZ要素と仮定し、分散共有メモリの存在は考えない。このプログラムは、図 14に示すように、変数 j、 kによる 3重ループを有する。変数 iによる最外ループ 1041内に、内側ループ 1042 ( j = 1 ： 10) 及び内側ループ 1043 ( j = 11 ： 20) が含まれている。同様に、変数 iによる最外ループ 1051内に、内側ループ 1052 ( j = 1 ： 10) 及び内側ループ 1053 ( j = 1 1 ： 20) が含まれている。

ループ 1051は、ループ 1041の後に実行される、また、ループ 1042 とループ 1052とは同じデータ（配列変数 A [1 : 30， 1 : 10， 1 : 1] 及び配列変数 B [1 : 30， 1 : 10， 1 : 1] ) を使用し、ループ 1043とループ 1053とは同じデータ（配列変数 A [1 : 30， 1 1 : 20， 1 : 1] 及び配列変数 B [1 : 30， 1 1 : 20， 1 : 1] ) を使用する。

し力し、このプログラムでは、ループ 1042、ループ 1043、ループ 10 52、ループ 1053の順に実行されるため、同じデータをローカルメモリ上に載せたまま使い回すことができない。そこで、図 15に示すように、最外ループ 1041を、内側ループ 1042 ( j = 1 ： 10) と内側ループ 1043 ( j = 11 : 20) とに分割する。同様に、最外ループ 1051を、内側ループ 105 2 ( j = 1 ： 10) と内側ノレ一プ 1053 ( j = 1 1 ： 20 ) とに分割する。この分割によって、分割された最外ループ 1041 Aと最外ループ 1051 A とを順に実行することができる（すなわち、内側ループ 1042と内側ループ 1 052とが順に実行される）。このため、ループ 1042で使用した配列データを、そのまま、ループ 1052で使用することができる。つまり、ループ 104 1 Aの実行終了時とループ 1051 Aの実行開始時との間でデータ（配列変数）の転送が発生しない。

同様に、分割された最外ループ 1041 Bと最外ループ 1051 Bとを順に実行することができる（すなわち、内側ループ 1043と内側ループ 1053とが順に実行される）。このため、ループ 1043で使用した配列データを、そのまま、ループ 1 0 5 3で使用することができる。つまり、ループ 1 0 4 1 Bの実行終了時とループ 1 0 5 1 Bの実行開始時との間でデータ（配列変数）の転送が発生しない。

このように、プログラムの実行順序と、そのプログラムで使用されるデータとが整合しない場合、ループのデイストリビューションを実行して、同じデータを扱うループを連続的に実行するようにする。これによつて、ループの実行時にデータの転送が発生しないようにすることができる。

<テンプレートの作成手順の例 >

図 1 6は、本発明の実施の形態のテンプレー卜の作成手順の例を示す。

テンプレートは、ローカルメモリをマクロタスク上で扱うために、ローカルメモリに配列変数を割り当てる単位である。

テンプレートは、 1次元配列、 2次元配列、 3次元配列 · · ·等が用意され、その形はマクロタスクで使用される配列変数によって様々である。例えば、 2次元配列を考えると、配列変数の各添字の最大値が等しい正方形や、添字の最大値が異なる長方形（縦長、横長）力マクロタスクで使用される配列変数の大きさに合うように用意される。

テンプレートのサイズは、ローカルメモリ管理マクロタスクで使用されるデータのサイズより大きくなる。さらに、テンプレートの各次元の添字の最大値は、ローカルメモリ管理マクロタスクで使用される配列変数の各次元の添字の最大値より大きく、かつ最も小さい 2のべき乗の数が選択される。このため、テンプレートは、その形が変わっても、その大きさはブロック及びサブブロック等のいずれかのサイズと等しい。

よって、テンプレートのサイズは、ブロックサイズと等しい又はブロックサイズの 2のべき乗分の 1となる。これによつて、データが収まる最小の大きさのテンプレートを作り、この作られたテンプレートにデータが収まるようにプログラム（ループ）を分割する。そして、配列変数をローカルメモリに割り当てる際に、同じサイズのブロック等に割り当てることができ、ローカルメモリの記憶容量を無駄なく使用することができる。

割り当てられたテンプレートを使用することで、プロック 0に割り当てられたテンプレートは、ブロック 0のメモリ空間を使用し、ブロック 1に割り当てられたテンプレートは、プロック 1のメモリ空間を使用する。

テンプレートは同じ形状のものをプロック数分用意する。そしてブロック番号によって使用するテンプレート配列を変える。そのために、用意されるテンプレートは同じテンプレートを複数個並べた形（データを載せて使用する配列変数の次元 + 1次元）が実際に作成されるテンプレートとなる。新たに作られた次元はブロック指定用の次元となり、要素数はブロックの数となる。

すなわち、テンプレートの次元は、配列変数の次元より 1次元大きくなつている。これは、テンプレートの追加された次元の添字の値によって、複数の配列変数を切り替え、アクセスするブロックを変えるためである。なお、各テンプレートは、ローカルメモリの異なるブロック（異なるアドレス）に割り当てられる。配列変数の形状及び大きさが同じである場合、同じテンプレートを使用することができる。例えば、均等に分割されたループは、同じ形状及び大きさの配列変数を使用することから、このようなテンプレートを用意することが有効である。例えば、ブロック数が 8個であり、その各々のサイズが [1 : 2， 1 : 16， 1 : 4] である場合、 t empA [l : 2， 1 : 16， 1 : 4， 0 : 7] のテンプレートをローカルメモリに割り当てる。なお、このとき、プログラム中に表れる配列変数が 5個であった場合は、 t em p A [1 : 2， 1 : 1 6， 1 : 4， 0 ： 4] として、ブロック 0から 4のみにテンプレートを割り当てる。他のプロックは、更に分割してサブプロックとして利用してもよい。

図 1 7に、テンプレートがマッピングされたローカルメモリの状態を示す。テンプレートのマッピングには、例えば FORTRANでは、 EQUIVALENCE文が用いられる。具体的には、 EQUIVALENCE (LM (1), tem_PA(l, 1， 1,0))と宣言することによつて、ローカルメモリのブロック 0に、テンプレート Aを割り当てることができる。テンプレート Aは、 3次元配列用のテンプレートで、各次元は t empA

[1 : 2， 1 : 16， 1 : 4， 0 : 7] である。よって、プロック 0 (ァドレス 0〜127) には t empA [1, 1， 1， 0] が割り当てられ、ブロック 1 (アドレス 1 28〜255) には t empA [1, 1， 1， 1] が割り当てられる。

すなわち、前述したように、テンプレートの最外側の 4次元目はテンプレート自体の次元ではなく、テンプレートが割り当てられるブロック番号を示す。

さらに具体的に例示すると、

do dim3 = 1, 4

do dim2 = 1, 16

do diml - 1， 2

tempA(diml, dim2， dim3, 2) = GA(diml, dim2， dim3)

enddo

を実行することによって、配列変数 G Aのデータが、ローカルメモリのブロック 2に格納される。

図 18に、別なテンプレートがマッピングされた口一カルメモリの状態を示す。前述した例と異なり、プログラム中に表れる配列サイズが [1 : 2， 1 : 8， 1 : 4] である場合、サブブロックサイズに適合するテンプレート t e mp_s u b A [1 ： 2, 1 : 8， 1 : 4， 0 : 1 5] をローカルメモリに割り当てられる。このように最外側の要素の値によってアクセスするサブブロックが可変となる。

前述と同様に EQUIVALENCE文を用いて、 EQUIVALENCE (LM(1),

temp_subA(l, 1， 1， 0) )と宣言することによって、ローカルメモリのサブブロック 0に、テンプレート（サブ） Aを割り当てることができる。 .

テンプレート Aは、 3次元配列用のテンプレートで、その大きさは t emp— s u b A [1 ： 2, 1 : 8， 1 : 4， 0 : 15] である。よって、サブプロック 0 (アドレス 0〜 63) には t emp— s u bA [l， 1， 1， 0] が割り当てられ、サブブロック 1 (アドレス 64〜： I 27) には t emp— s u bA [1， 1， 1， 1] が割り当てられる。

さらに具体的に例示すると、

do dim3 = 1, 4

do dim2 = 1, 8

do diml = 1， 2

temp_subA(diml, dim2, dim3， 4) = GA(diml, dim2, dim3)

enddo

を実行することによって、配列変数 G Aのデータが、ローカルメモリのサブブロック 4に格納される。

このように、コンパイラがプログラムを解析して取得した情報に基づいて、プログラム中で使用される配列変数の形を特定してテンプレートを作成し、その変数をどのテンプレートに割り当てるかを決める。これによつて、メモリの 1次元のァドレス空間を多次元に見せることができ、プログラム中で使用された多次元配列をそのままの形でメモリに割り当てることができる。

くテンプレート配列を用いたコードイメージの作成〉次に、図 1 9から図 34を参照して、テンプレート配列を用いたコードィメージの作成の具体例について説明する。図 1 9から図 34の説明は、ローカルメモリサイズを 1024、ブロックサイズは 1 28とし、ローカルメモリの領域を 4 個のブロック 101、 4個のサブブロック 102、 4個のサブサブブロック 10 3、 8個のサブサブサブブロック 104に分割した場合に、コンパイラがコードを書き換える様子及びプログラム実行時のローカルメモリの状態を示す。

図 1 9は、コンパイル前のオリジナルコード及びローカルメモリの状態（状態 1) を示す。このオリジナルコード中には、三つのループ及び二つのサブルーチン呼び出しが含まれており、これらのループ及びサブルーチン呼び出しが、ローカルメモリ管理マクロタスクとなる。

図 20は、テンプレートがブロック等に設定される状態（状態 2) を示す。 L M領域及びテンプレート配列を定義し、 EQUIVALENCE文によってテンプレー卜をロー力/レメモリの

アドレス空間に割り当てる。この割り当てによって、ローカ^/メモリとテンプレ一トとは同じ領域を指す。そして、テンプレートの添字（0〜7) を変えることによって対応する領域が変わる。なお、テンプレート配列によって宣言されるが t emp i (1， 4) 以後はサブブロック等に割り当てられた領域なので、ブロックとしては使用されない。

具体的には、以下の文がプログラムに挿入される。

Integer a (128), b(128)， c(128), d(128)， e(128)

Integer LM(1024)

Integer tempi (128, 0:7)

EQUIVALENCE (LM, tempi)

これによつて、テンプレートがローカルメモリに割り当てられる。

図 21は、テンプレート配列へ変換される状態（状態 3) を示す。ローカルメモリに載せて使用したい配列を、新しく定義したテンプレート配列へ変換する。オリジナルコード中の配列をテンプレート配列にすることによって、ローカルメモリを使用していることになる。ブロックを指定する次元の値（添字）を変えることによって、使用されるブロック（ローカルメモリのアドレス）を変えることができる。

具体的には、オリジナルのコード中の配列名 a ( i ) 、 b ( i ) 、 c ( i ) は、 t e mp i ( i， 0) 、 t emp i ( i， 1) 、 t emp i ( i， 2) に書き換えられる。

図 2 2は、ブロックからデータが掃き出される状態（状態 4) を示す。二つ目のマクロタスクでは、四つの配列 b、 c、 d及び eを使用するため、 4個のプロックが必要である。一つ目のマクロタスクが終了した時点で、次に実行されるマクロタスクで必要なブロック数が空いていない場合、掃き出し優先度に従って必要な数のブロックを空ける。具体的には、三つの配列 a、 b及び cが、ローカルメモリ上に載っているが、配列 b及び cは継続して使用される。よって、配列 e をロードするために、配列 aが掃き出される。掃き出されるブロックに格納されていたデータは集中共有メモリ 28又は 1 4に転送される。よって、テンプレート配列に格納されたデータを集中共有メモリ 28又は 1 4の配列へ転送する命令がオリジナルコードに挿入される。 .

図 2 3は、テンプレート配列へ変換される状態（状態 5) を示す。状態 3 (図 2 1) に示した状態と同様に、ローカルメモリに載せて使用したい配列を、新しく定義したテンプレート配列へ変換する。ブロック 0から配列 aが掃き出され、配列 dが格納されている。

図 24は、サブルーチンが解析される状態（状態 6) を示す。サブルーチンの引数と、サブルーチン内の処理に必要なブロック数を解析する。図示する例では、サブルーチン s u b 1では引数配列 X及び自動変数である配列 yを使用している。つまり、引数用に 1個のブロック、内部処理用に 1個のブロック。合計 2個のブ口ックが必要である。

図 2 5は、サブルーチン内でブロック指定変数を用いたテンプレート配列へ変換される状態（状態 7 ) を示す。ここで、前述したように、サブルーチンは複数箇所から呼ばれる可能性があるため、テンプレート配列のブロック指定次元を定数によって指定すると、メモリ管理上の制限が強くなる。そのため、ブロック指定変数 block_nol を用いて、テン

プレートを任意の場所に置けるように、テンプレート配列を変換をする。

図 2 6は、サブルーチン処理用のブロックを確保する状態（状態 8 ) を示す。既に、サブルーチン内の解析が終わり、サブルーチンで必要なブロック数が分かつているので、必要な数のブロックをサブルーチン呼び出し時に空けて、サブル一チン処理用のプロックを確保する。必要な数のプロックが空いていない場合は、既にロードされているデータを掃き出す。掃き出されるデータは、掃き出し優先度に従って決められる。

具体的には、このサブルーチンでは、 1個の引数ブロック及び 1個の内部処理用ブロックが必要である。メモリ上に配列 b、 c、 d及び eが載っているが、配列 eは引数として使用される。よって、 1個のブロックを内部処理用に空ける必要がある。掃き出し優先度を考慮すると、配列 c及び dは直ぐに使用されるため、配列 bが掃き出される。

図 2 7は、ブロック指定変数が設定される状態（状態 9 ) を示す。サブルーチン内で使用される内部処理用の配列は、ブロック指定変数 block_nol によって任意のブロックを

使用できる。このため、内部処理用の配列変数に割り当てられるブロック番号を指定変数に設定する。

図 2 8は、サブルーチンが実行される状態（状態 1 0 ) を示す。サブルーチン呼び出し時に設定されたプロック指定変数によって、使用されるプロックが決定される。すなわち、ブロック 1は内部処理用の配列 yに割り当てられ、ブロック 3は引数用の配列 Xに割り当てられる。サブルーチンでは、指定されたブロックを使用して、サブルーチンの処理が行なわれる。

図 2 9は、サブルーチンの実行終了時の状態（状態 1 1 ) を示す。サブルーチンの処理が終わると、内部処理用のブロックは N U L Lとなる。引数用のプロックは、引数として受け取った元の配列に戻る。

図 3 0は、テンプレート配列へ変換される状態（状態 1 2 ) を示す。状態 3 (図 2 1 ) 及び状態 5 (図 2 3 ) に示した状態と同様に、ローカルメモリに載せて使用したい配列を、新しく定義したテンプレート配列へ変換する。

図 3 1は、サブルーチン処理用のブロックを確保する状態（状態 1 3 ) を示す。既に、サブルーチン内の解析が終わり、サブルーチンで必要なブロック数が分かつているので、サブルーチン呼び出し時に必要な数のブロックを空けて、サブル一チン処理用のブロックを確保する。必要な数のブロックが空いていない場合は、既にロードされているデータを掃き出す。掃き出されるデータは、掃き出し優先度に従って決められる。

具体的には、次のマクロタスク（サブルーチン呼び出し）で、サブルーチンの内部処理用に 1個のプロックを空ける必要がある。ローカルメモリに載っている配列 d、 a、 c及び eのうち、配列 aはサブルーチンの引数として使用される。配歹 lj d、 c及び eの掃き出し優先度は同じなので、ブロック番号の最も小さいブロック 0に格納されている配列 dを掃き出す。また、次のマクロタスクで配列 a が必要なことが分かっているので、データ転送ユニットによって、ローカルメモリの空いているブロック 1に配列 aを転送する。

図 3 2は、ブロック指定変数が設定される状態（状態 1 4 ) を示す。サブルーチン内で使用される内部処理用の配列は、ブロック指定変数 block— nol によつて任意のブロック

を使用できる。このため、サブルーチン呼出時に、内部処理用の配列変数に割り当てられるブロック番号を指定変数に設定する。前のサブルーチン呼出時（図 2 7に示す状態 9 ) と異なるプロック番号を設定することができる。

図 3 3は、サブルーチンが実行される状態（状態 1 5 ) を示す。サブルーチン呼び出し時に設定されたプロック指定変数によって、使用されるプロックが決定される。すなわち、ブロック 0は内部処理用の配列 yに割り当てられ、ブロック 1は引数用の配列 Xに割り当てられる。サブルーチンでは、指定されたブロックを使用して、サブルーチンの処理が行なわれる。前のサブルーチン呼出時（図 2 8に示す状態 1 0 ) とは別の領域で処理を行っている。

図 3 4は、サブルーチンの実行終了時の状態（状態 1 6 ) を示す。図 3 4に示すコードがコンパイル完了時のコードである。サブルーチンの処理が終わると、内部処理用のブロックは NU L Lとなる。引数用のブロックは、引数として受け取った元の配列に戻る。産業上の利用可能性

本発明は、プロセッサによって使用されるメモリの記憶領域の管理に適用でき、特に、マルチタスクプロセッサによって使用されるメモリの記憶領域の管理に適している。

Claims

請求の範囲

1 . プロセッサによって使用されるメモリの記憶領域を管理する方法であって、前記プロセッサは、タスクの実行時にアクセスされるデータを格納するメモリに接続されており、

前記メモリの記憶領域を複数の異なるサイズのブ口ックに分割し、前記タスクの実行時にアクセスされるデータに適合するサイズのブロックを選択し、

前記選択されたプロックに、前記タスクの実行時にアクセスされるデータを格納することを特徵とするメモリ管理方法。

2 . 請求項 1に記載のメモリ管理方法であって、

前記タスクを含むプログラムの解析によって得られた情報に基づいて決定されるサイズに、前記プロックを分割することを特徴とするメモリ管理方法。 3 . 請求項 1に記載のメモリ管理方法であって、

前記ブロックは、複数のサイズのブロックを含み、前記ブロックの複数のサイズは整数倍の関係にあることを特徴とするメモリ管理方法。

4 . 請求項 1に記載のメモリ管理方法であって、

前記データに前記選択されたブロックへ割り当てることを決定した後、データ転送手段によって、前記データを前記選択されたプロックに格納し、前記ブロックの解放タイミングまでに、前記データ転送手段によって、前記選択されたプロックに格納されたデータを読み出し、他のメモリに格納することを特徴とするメモリ管理方法。請求項 1に記載のメモリ管理方法であって、

前記タスクでアクセスされるデータに n次元の配列データが含まれる場合に、前記タスクでアクセスされる配列データに整合するように選択された n + 1次元のテンプレートを、前記ブロックに割り当て、

データを格納するブロックを指定する場合に、前記加えられた次元の値によって、アクセスされるブロックが異なるように、次元の値の異なる前記テンプレートを前記各プロックに割り当てることを特徴とするメモリ管理方法。プロセッサがメモリの記憶領域を管理する方法であって、

前記プロセッサは、プログラムの実行時にアクセスされるデータを格納するメモリに接続されており、

前記方法は、

前記メモリの記憶領域をブロックに分割し、

前記プログラムの解析によって得られた情報に基づいて定められた複数の形状及びサイズのテンプレートを、適合する大きさのブロックに割り当て、前記割り当てられたテンプレートに適合する形状及び大きさのデータを、前記テンプレートに格納することを特徴とするメモリ管理方法。請求項 6に記載のプログラムの作成方法であって、

前記テンプレートを割り当てるステップでは、

各プロックに割り当て可能な複数種類のテンプレートから、前記プロダラムでアクセスされる配列データの次元に 1を加えた次元を有し、各次元の最大値が前記プログラムでアクセスされる配列データの各次元の最大値より大きいテンプレートを割り当て、

前記加えられた次元の値によって、アクセスされるブロックが異なるように、複数の前記テンプレートを複数の前記ブロックに割り当てることを特徴とするプログラムの作成方法。

8 . プロセッサ及び前記プロセッサによってアクセスされるデータを格納するメモリを備える情報処理装置であって、

前記メモリの記憶領域は、前記プロセッサで実行されるプログラムの解祈によって得られた情報に基づいて決定される複数のサイズのプロックに分割され、

前記プロックに割り当てられるテンプレートの形状及びサイズは、前記プ口グラムの解析によつて得られた情報に基づいて定められており、

前記プロセッサは、

前記プロセッサで実行されるプログラムの解析によって得られた情報に基づいて決定される複数のサイズのプロックに、前記メモリの記憶領域を分割し、

前記プログラムの解析によって得られた情報に基づいて定められた形状及びサイズのテンプレートを、適合する大きさのブロックに割り当て、前記割り当てられたテンプレートに適合する形状及び大きさのデータを、前記テンプレートに格納することを特徴とする情報処理装置。 9 . 請求項 8に記載の情報処理装置であって、

前記プログラムでアクセスされる配列データの次元に 1を加えた次元を有し、加えられた次元以外の各次元の最大値が前記プログラムでアクセスされる配列データの各次元の最大値以上のテンプレートが割り当てられ、前記加えられた次元の値によって、アクセスされるプロックが異なるように、複数の前記テンプレートが複数の前記ブロックに割り当てられることを特徴とする情報処理装置。 . プロセッサによって実行可能なプログラムの作成方法であって、

プログラムの情報をコンパイラによって解析し、

前記プログラムに含まれる各タスクの実行に必要なデータを特定し、前記タスクの実行タイミングに従って、必要なデータをメモリに読み書きするタイミングを決定し、

前記決定されたデータの書き込みタイミングまでに前記メモリの領域を割り当てる命令を、コンパイルされるプログラムに追加することを特徴とするプログラムの作成方法。 . 請求項 1 0に記載のプログラムの作成方法であって、

前記プログラムの解析によって得られた情報に基づいて、解放する前記領域及び前記領域を解放するタイミングを決定し、

前記割り当てられた領域を解放するために、前記決定されたタイミングまでに前記メモリに書き込まれたデータを読み出す命令を、前記コンパイルされるプログラムに追加することを特徴とするプログラムの作成方法。 . 請求項 1 1に記載のプログラムの作成方法であって、

前記メモリの領域を割り当てた後に、データ転送手段によって、前記データを前記メモリに格納する命令、及び

前記メモリの領域の解放タイミングまでに、前記データ転送手段によって、前記メモリに格納されたデータを読み出し、他のメモリに格納する命令を、前記コンパイルされるプログラムに追加することを特徴とするプログラムの作成方法。

1 3 . 請求項 1 0に記載のプログラムの作成方法であって、

前記プログラムの解析によって得られた情報は、前記プログラムでァクセスされるデータの情報、前記データが次にアクセスされるタイミングの情報、前記データをアクセスするプロセッサの情報の少なくとも一つを含むことを特徴とするプログラムの作成方法。

1 4 . 請求項 1 0に記載のプログラムの作成方法であって、

前記プロセッサは複数のプロセッサコアを備えるマルチプロセッサであつて、

前記方法は、前記タスクをいつどのプロセッサに実行させるかを決定し、前記決定されたプロセッサに前記タスクを割り当てる命令を、前記コンパィルされるプログラムに追加することを特徴とするプログラムの作成方法。 1 5 . 請求項 1 0に記載のプログラムの作成方法であって、

前記メモリの領域は、前記メモリの記憶領域が固定サイズのプロックに分割された領域であることを特徴とするプログラムの作成方法。

1 6 . 請求項 1 5に記載のプログラムの作成方法であって、

前記メモリの領域は複数の異なるサイズのプロックに分割された領域であつて、

前記複数のサイズは、前記プロックの複数のサイズは整数倍の関係にあることを特徴とするプログラムの作成方法。 1 7 . 請求項 1 5に記載のプログラムの作成方法であって、前記プロックのサイズは、前記コンパイラがプログラムを解析して得られた情報に基づいて決定ざれることを特徴とするプログラムの作成方法。 . 請求項 1 5に記載のプログラムの作成方法

前記タスクでアクセスされるデータを前記一つのブロックに収まるようにするために、前記プログラムを分割することを特徴とするプログラムの作成方法。 . 請求項 1 8に記載のプログラムの作成方法であって、

前記プログラムは多重ループを含み、

外側のループの分割によって生成されたタスクでアクセスされるデータが前記ブロックに収まるか否かを判定し、

前記外側のループが分割によって生成されたタスクでアクセスされるデータが前記プロックに収まらなければ、更に内側のループを分割することによつて、前記データのサイズを変更することを特徴とするプロダラムの作成方法。 . 請求項 1 0に記載のプログラムの作成方法

前記プログラムでアクセスされるデータに n次元の配列データが含まれる場合に、前記プログラムでアクセスされる配列データに整合するように選択された n + 1次元のテンプレートを割り当て、

データを格納する領域を指定する場合に、前記加えられた次元の値によつて、アクセスされる領域が指定されるように、複数の前記テンプレートを複数の領域に割り当てることを特徴とするプログラムの作成方法。

. プロセッサによって実行可能なプログラムであって、

前記プログラムは、コンパイラによって、

プログラムの情報が解析され、

前記プログラムに含まれる各タスクの実行に必要なデータが特定され、前記タスクの実行タイミングに従って、必要なデータをメモリに読み書きするタイミングが決定され、

前記決定されたデータの書き込みタイミングまでに前記メモリの領域を割り当てる命令が追加されることによって生成されるプログラム。