WO2005078579A1

WO2005078579A1 - プログラム変換装置およびプログラム変換方法

Info

Publication number: WO2005078579A1
Application number: PCT/JP2005/001670
Authority: WO
Inventors: Teruo Kawabata; Hajime Ogawa; Taketo Heishi; Yasuhiro Yamamoto; Shohei Michimoto
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-02-12
Filing date: 2005-02-04
Publication date: 2005-08-25
Also published as: US20060248520A1; CN100409187C; JPWO2005078579A1; CN1918546A

Abstract

　インターロックを引き起こす可能性のある命令を無駄に発行せずに、プログラム実行時の処理速度を向上させるコンパイラは、実行時にインターロックを起こす可能性のある命令を備えたプロセッサ向けのコンパイラであって、入力プログラムに対し、ループ回数がｘ回のループをループ回数がｙ回のループに分割し、前記ループ回数がｙ回のループを内側ループとし、ループ回数がｘ／ｙ回のループを外側ループとする二重ループ変換を行うループ構造変換部（１８６）と、前記二重ループ変換後のプログラムに対して、インターロックを起こす可能性のある命令の配置を行う命令最適配置部（１８７）としてコンピュータを機能させることを特徴とする。

Description

明細書

プログラム変換装置およびプログラム変換方法

技術分野

[0001] 本発明はプログラム変換装置に関し、特に実行時に外部力もの所定の応答を待つ命令を含む命令セットを備えたプロセッサ向けのプログラム変換装置に関する。背景技術

[0002] 近年、プロセッサの処理速度は急激に向上している力それに比べてメインメモリのアクセス速度向上は小さぐ両者の速度差は年々大きくなつている。このため、情報処理装置の高速処理においてメモリアクセスがボトルネックとなることが従来指摘されている。

[0003] この問題を解消するために、記憶階層の考え方力キャッシュ機構が用いられている。キャッシュ機構では、プロセッサで必要とされるデータを主記憶から高速なキヤッシュへ予め転送（プリフェッチ）しておく。これにより、プロセッサからのメモリアクセスに高速に対応することが可能である。

[0004] し力し、プロセッサがキャッシュ上に無いデータにアクセスした場合にはキャッシュミスが発生してしまう。このため、主記憶からキャッシュへのデータの転送時間がかかつてしまうという問題がある。

[0005] ユーザがキャッシュを意識することなくプログラミングを行い、そのプログラムが実行されれば、このようなキャッシュミスが頻発することが想定される。その結果、キャッシュミスによるペナルティがプロセッサの性能を大きく劣化させることになる。そのため、コンノイラがキャッシュを考慮した最適化を行う必要がある。

[0006] キャッシュ最適化の技術の一つとしてプリフェッチ命令の挿入が挙げられる。プリフエッチ命令とは、あるメモリアドレスの参照が起こる前に、そのアドレスのデータを前もつて主記憶力もキャッシュへ転送しておくものである。プリフェッチ命令の挿入による最適化では、当該メモリアドレスの参照が起こる少し前のサイクルにプリフェッチ命令の挿入をおこなうものである。

[0007] 例えば、図 1 (a)に示すようなループ処理に対しては、図 1 (b)に示すようにデータが参照されるまでのレイテンシを考慮し、数イタレーシヨン先で参照されるデータをプリフエツチするようにプリフェッチ命令 (dpref O )がループ内に挿入される。なお、ここでは、 int型の配列 aの要素は 4バイト、キャッシュのラインサイズを 128バイトとする。発明の開示

発明が解決しょうとする課題

[0008] し力し、図 1 (b)に示すコードでは、 1イタレーシヨンにつき配列 aの参照とプリフェツチとがそれぞれ行われている力参照は 4byteずつしか行われないのに対して、プリフェッチは 1ライン（128byte)単位で行われる。

[0009] よって、 1回のプリフェッチで 32回分の参照に対応できるため、残り 31回は無駄にプリフェッチが行われていることになる。すなわち、同じラインのプリフェッチ命令を連続発行してしまっている。

[0010] また、プロセッサによっては、 dpref命令によるデータ転送中に、次の dpref命令を実行しょうとすると、前の dpref命令による主記憶力キャッシュへのデータ転送が終了していないにもかかわらず、次の dpref命令が発行されてしまい、本来インターロックを解消するために dpref命令を挿入したにも関わらず、インターロックが起こってしまつ。

[0011] よって、上記のようにループの 1イタレーシヨンが短ぐ 2つの dpref命令の間隔が短いと、 dpref命令による主記憶力もキャッシュへのデータ転送に力かる時間（レイテンシ）が顕在化し、力えって性能を悪ィ匕させてしまう。

[0012] また、 dpref命令の実行時以外であっても、メモリアクセス命令などのように、命令発行後に何らかの応答待ちが発生するような命令の場合であっても、インターロックを起こす可能性がある。

[0013] 本発明は、上述の課題を解決するためになされたもので、インターロックを引き起こす可能性のある命令を無駄に発行せずに、プログラム実行時の処理速度を向上させるプログラム変換装置およびプログラム変換方法を提供することを目的とする。

[0014] また、命令発行後に何らかの応答待ちが発生する命令を無駄に発行せずに、プログラム実行時の処理速度を向上させるプログラム変換装置およびプログラム変換方法を提供することを目的とする。 [0015] また、プログラム実行時にインターロックを引き起こさないプログラム変換装置およびプログラム変換方法を提供することを目的とする。課題を解決するための手段

[0016] 上記目的を達成するために、本発明に係るプログラム変換装置は、実行時に外部力もの所定の応答を待つ命令を含む命令セットを備えたプロセッサ向けのプログラム変換装置であって、入力プログラムに含まれる繰返し回数力回のループを、繰返し回数力回のループを内側ループとし、繰返し回数力 Zy回のループを外側ループとするネスト構造への変換である二重ループ変換を行うループ構造変換手段と、前記内側ループの外部の位置に、前記命令を配置することにより、当該命令を含む出力プログラムに変換する命令配置手段とを備えることを特徴とする。

[0017] これにより、例えば図 2に示すように、図 1 (a)に示すようなループ処理を二重ループ化し、最内ループの外側にプリフェッチ命令を挿入することができる。これにより、無駄なプリフェッチ実行がなくなる。よって、処理速度が向上する。また、ある dpref命令が実行されてカゝら次の dpref命令が実行されるまでの間に、主記憶からキャッシュへのデータ転送に力かるレイテンシを隠蔽することが可能になり、インターロックが生じにくくなる。

[0018] すなわち、本発明によると、ループを二重化することにより、内側ループの外側でィンターロックを起こす可能性のある命令を実行するようにすれば、当該命令を無駄に発行せずに、プログラム実行時の処理速度を向上させることができる。

[0019] また、ループを二重化することにより、インターロックを起こす可能性のある命令を発行してから次のインターロックを起こす可能性のある命令までの間のサイクル数を確保することができる。このため、プログラム実行時にインターロックを引き起こしにくくなる。

[0020] なお、プログラム変換装置は、コンパイラ、 OS (Operating System)、または CP

U等の集積回路として実現可能である。

[0021] 応答待ち命令には、上述した dpref命令のようにインターロックを起こす可能性のある命令や、命令実行時に外部からの所定の応答を待つ命令の他に、応答を待つ場合と待たな!、場合とがある命令も含む。 [0022] なお、本発明は、このような特徴的な手段を備えるプログラム変換装置として実現することができるだけでなぐプログラム変換装置が備える特徴的な手段をステップとするプログラム変換方法として実現したり、プログラム変換装置としてコンピュータを機能させるプログラムとして実現したりすることもできる。そして、このようなプログラムは、 C D— ROM (Compact Disc-Read Only Memory)等の記録媒体やインターネット等の伝送媒体を介して流通させることができるのは言うまでもない。

発明の効果

[0023] 本発明によると、プログラム実行時の処理速度を向上させることができる。

また、プログラム実行時にインターロックを引き起こしに《なる。

図面の簡単な説明

[0024] [図 1]図 1は、従来の最適化技術の問題点を説明するための図である。

[図 2]図 2は、本発明によるループ処理の構造変換を説明するための図である。

[図 3]図 3は、本実施の形態に係るコンパイラシステムの構成を示す図である。

[図 4]図 4は、コンパイラの構成を示す図である。

[図 5]図 5は、コンパイラが実行する処理のフローチャートである。

[図 6]図 6は、ループ構造変換処理の詳細を説明するための図である。

[図 7]図 7は、コピー型内側ループ分割処理の詳細を示すフローチャートである。

[図 8]図 8は、条件型内側ループ分割処理の詳細を示すフローチャートである。

[図 9]図 9は、プリフェッチ命令配置処理の詳細を示すフローチャートである。

[図 10]図 10は、プリフェッチ命令挿入処理の詳細を示すフローチャートである。

[図 11]図 11は、ピーリングが必要な、場合のシンプルループ分割処理にっ、て説明するための図である。

[図 12]図 12は、ピーリングが必要のない場合のソースプログラムの一例を示す図である。

[図 13]図 13は、図 12に示したソースプログラムに対応する中間言語のプログラムを示す図である。

[図 14]図 14は、図 13に示された中間言語のプログラムを二重ループに構造変換した後の中間言語のプログラムを示す図である。 [図 15]図 15は、図 14に示された中間言語のプログラムにプリフェッチ命令を挿入した後の中間言語のプログラムを示す図である。

[図 16]図 16は、ピーリングが必要な場合のシンプルループ分割処理について説明するための図である。

[図 17]図 17は、ループ内に複数の配列アクセスが存在する場合のループ分割処理について説明するための図である。

[図 18]図 18は、ループ内に複数の配列アクセスが存在する場合のループ分割処理について説明するための図である。

[図 19]図 19は、ループ内に複数の配列アクセスが存在し、かつ配列の要素のサイズがすべて同じではない場合のループ分割処理について説明するための図である。

[図 20]図 20は、ループ内に複数の配列アクセスが存在し、かつ配列の要素のサイズがすべて同じではない場合のループ分割処理について説明するための図である。

[図 21]図 21は、ループ内にストライドが異なる複数の配列アクセスが存在する場合のループ分割処理について説明するための図である。

[図 22]図 22は、ループ回数が不定なループ処理のループ分割処理を説明するための図である。

[図 23]図 23は、ループ回数が不定なループ処理のループ分割処理を説明するための他の図である。

圆 24]図 24は、ループ分割が不要な場合の最適化処理を説明するための図である

[図 25]図 25は、ループ内でアクセスされる要素が主記憶上で適切にァラインされて Vヽな、場合のループ分割処理を説明するための図である。

[図 26]図 26は、ループ内でアクセスされる要素が主記憶上で適切にァラインされて Vヽな、場合のループ分割処理を説明するための図である。

[図 27]図 27は、ァラインされていない配列要素を動的に特定して、ループ処理の最適化を行う処理について説明するための図である。

[図 28]図 28は、ァラインされていない配列要素を説明するための図である。

[図 29]図 29は、ァラインされていない配列要素をプロファイル情報を用いて特定し、ループ処理の最適化を行う処理について説明するための図である。

[図 30]図 30は、最内ループ以外のループに対する構造変換について説明するための図である。

[図 31]図 31は、プラグマ「# pragma —loop— tiling— dpref 変数名 [,変数名]」により変数が指定された場合の最適化処理について説明するための図である。

[図 32]図 32は、 PreTouch命令挿入時におけるピーリングが必要ない場合のシンプルループ分割処理について説明するための図である。

[図 33]図 33は、 PreTouch命令挿入時におけるピーリングが必要な場合のシンプルループ分割処理について説明するための図である。

[図 34]図 34は、ァラインされていない配列要素を動的に特定して、ループ処理の最適化を行う処理について説明するための図である。

符号の説明

141 ソースプログラム

142 キャッシュノラメータ

143 アセンブラフアイノレ

144 才ブジェクトフアイノレ

145 実行プログラム

146 実行ログデータ

147 プロファイルデータ

148 コンノイラシステム

149 コンパイラ

150 アセンブラ

151 リンカ

152 シミュレータ

153 プロファイラ

181 最適化補助情報

182 構文解析部

183 最適化情報解析部 184 一般最適化部

185 命令スケジューリング部

186 ループ構造変換部

187 命令最適配置部

188 コード出力部

発明を実施するための最良の形態

[0026] [システム構成]

図 3は、本実施の形態に係るコンパイラシステムの構成を示す図である。コンパイラシステム 148は、 C言語等の高級言語で記述されたソースプログラム 141を機械語の実行プログラム 145に変換するソフトウェアシステムであり、コンパイラ 149と、ァセンブラ 150と、リンカ 151とを含む。

[0027] コンパイラ 149は、キャッシュを備えるコンピュータの CPU (Central Processing Unit)をターゲットプロセッサとし、ソースプログラム 141をアセンブラ言語で記述されたアセンブラファイル 143に変換するプログラムである。コンパイラ 149は、ソースプログラム 141をアセンブラファイル 143に変換する際に、キャッシュのラインサイズやレイテンシサイクル等に関する情報であるキャッシュパラメータ 142や、後述するプロファィルデータ 147に基づいて、最適化処理を行い、アセンブラファイル 143を出力する

[0028] アセンブラ 150は、アセンブラ言語で記述されたアセンブラファイル 143を機械語で記述されたオブジェクトファイル 144に変換するプログラムである。リンカ 151は、複数のオブジェクトファイル 144を結合し、実行プログラム 145を生成するプログラムである。

[0029] 実行プログラム 145の開発ツールとして、シミュレータ 152およびプロファイラ 153が用意されている。シミュレータ 152は、実行プログラム 145をシミュレートし、実行時の各種実行ログデータ 146を出力するプログラムである。プロファイラ 153は実行ログデータ 146を解析し、プログラムの実行順序等を解析したプロファイルデータ 147を出力するプログラムである。

[0030] [コンパイラの構成] 図 4は、コンパイラの構成を示す図である。コンパイラ 149は、構文解析部 182と、最適化情報解析部 183と、一般最適化部 184と、命令スケジューリング部 185と、ループ構造変換部 186と、命令最適配置部 187と、コード出力部 188とを含む。各構成処理部は、プログラムとして実現される。

[0031] 構文解析部 182は、ソースプログラム 141を入力として受け、構文解析処理を行つた後、中間言語のプログラムを出力する処理部である。

[0032] 最適化情報解析部 183は、キャッシュパラメータ 142、プロファイルデータ 147、コンノィルオプションおよびプラグマなどの中間言語の最適化処理に必要な情報を読み込み、解析する処理部である。一般最適化部 184は、中間コードに一般的な最適化処理を施す処理部である。命令スケジューリング部 185は、命令の並びを最適化し、命令スケジューリングを行う処理部である。コンパイルオプションおよびプラグマはいずれもコンパイラに対する指示である。

[0033] ループ構造変換部 186は、一重ループを二重ループに変換する処理部である。命令最適配置部 187は、変換された二重ループ内にプリフェッチ命令を配置する処理部である。コード出力部 188は、最適化された中間言語仕様のプログラムをァセンブラ言語で記述されたプログラムに変換してアセンブラファイル 143を出力する処理部である。

[0034] [処理の流れ]

次に、コンパイラ 149の実行する処理の流れについて説明する。図 5は、コンパイラ 149が実行する処理のフローチャートである。

[0035] 構文解析部 182は、ソースプログラム 141の構文解析を行い、中間コードを生成する（Sl)。最適化情報解析部 183は、キャッシュパラメータ 142、プロファイルデータ 1 47、コンノィルオプションおよびプラグマなどを解析する（S2)。一般最適化部 184 は、最適化情報解析部 183における解析結果に従い、一般的な中間コードの最適化を行う（S3)。命令スケジューリング部 185は、命令のスケジューリングを行う（S4)。ループ構造変換部 186は、中間コードに含まれるループ構造に着目し、必要であれば一重ループ構造を二重ループ構造に変換する（S5)。命令最適配置部 187は、ループ構造内で参照されるデータをプリフェッチする命令を中間コードに挿入する（S6 ) oコード出力部 188は、中間コードをアセンブラコードに変換し、アセンブラファイル

143として出力する（S7)。

[0036] 構文解析処理 (SI)、最適化情報解析処理 (S2)、一般的な最適化処理 (S3)、命令スケジューリング処理 (S4)およびアセンブラコード出力処理 (S7)は、一般的な処理と同様であるため、その詳細な説明はここでは繰返さない。

[0037] 以下、ループ構造変換処理（S5)およびプリフェッチ命令配置処理（S6)について詳細に説明する。

[0038] 図 6は、ループ構造変換処理（図 5の S6)の詳細を説明するための図である。ループ構造変換部 186は、ループ回数が即値で与えられており算出可能であるか、それ以外の変数等で与えられており算出不可能であるかを判断する（S11)。すなわち、ループ回数が固定であるか不定であるかを判断する。

[0039] ループ回数が不定の場合には（SI 1で NO)、プラグマまたはコンパイルオプションにより最低のループ回数の指定がある力またはプログラム実行時に動的にループ回数を判定し、ループ分割をする旨の指定があるかについて判断する（S12)。

[0040] V、ずれかの指定がある場合 (S 12で YES)またはループ回数が固定値の場合には

(S 11で YES)、ループ内で参照されている配列の添え字が解析可能か否かについて調べる（S13)。すなわち、ループカウンタがある規則性を持って変化している場合には解析可能であると判断される。例えば、ループカウンタの値力タレーシヨン内で書換えられるような場合には、解析不可能であると判断される。

[0041] 添え字が解析可能である場合には（S 13で YES)、ループ処理内で参照される各配列について 1イタレーシヨンで参照される要素のバイト数を求め、そのうち最小の値 LBを導出する（S14)。

[0042] 次に、キャッシュのラインサイズ CSを値 LBで割った値が 1よりも大きいか否か判断する（S15)。 CSZLBの値が 1よりも大きい場合には（S15で YES)、ループ処理の配列がァラインされている力否かを調べる（S16)。配列がァラインされているか否かの判断は、プラグマやコンノィルオプション等によりァラインされているとの指示がある力否かにより判断される。

[0043] 配列がァラインされていない場合には（S17で NO)、「LB * LCZIC」が CSよりも大きいか否かについて判断する（S 16)。ここで、 LCは、レイテンシのサイクル数を示し、 ICは 1イタレーシヨンあたりのサイクル数を示す。「LCZIC」は、ループを複数の最内ループに分割した場合の各ループのループ回数を示しており、「LB * LC/IC 」は、各ループでのアクセス容量を示している。

[0044] 「LB * LCZIC」がラインサイズ CSよりも大きい場合には、（S16で YES)、分割後の各ループ処理では 1ラインサイズ以上の要素の参照が行われる。このため、分割要因をサイクルとし、各ループ処理を二重ループ化した際の最内ループのループ回数 DTを次式（1)に従い導出する（S18)。

[0045] DT= (LC-1) /IC+ 1 …ひ）

「LB * LC/ICJがラインサイズ CS以下の場合（S 16で NO)または配列がァラインされている場合には（S 17で YES)、分割要因をサイズとし、各ループ処理を二重ループ化した際の最内ループのループ回数 DTを次式（2)に従い導出する（S19)。

[0046] DT= (CS-1) /LB+ 1 - -- (2)

最内ループのループ回数 DTが導出処理（S 18または S 19)後、最内ループのループ回数 DTが 1よりも大きいか否か判断される（S20)。 DTが 1の場合には（S20で NO)、最内ループのループ回数 DTが 1回であるため、ループを二重ループに構造変換する必要がない。このため、ループ構造変換処理 (S 5)を終了させる。

[0047] 最内ループのループ回数 DTが 2以上の場合には（S20で YES)、ループを二重ループに構造変換した場合の外側のループ構造が作成される（S21)。外側ループ構造を生成する際に、ピーリング処理が必要力否かを判断する（S22)。ピーリング処理およびピーリング処理が必要力否かの判断方法については後述する。

[0048] ピーリング処理が必要な場合には（S22で NO)、ピーリング処理を行、、ピーリングコードを生成する（S24)。その後、コンパイルオプション「一 0」または「一 Os」による指定があるか否かを調べる（S25)。ここで、コンパイルオプション「一 0」は、プログラムサィズおよび実行処理速度ともに平均的なアセンブラコードをコンノイラに出力させるための指示である。コンパイルオプション「一 Os」は、プログラムサイズ抑制を重視したアセンブラコードをコンパイラに出力させるための指示である。

[0049] ピーリング処理する必要がないか（S22で YES)またはコンパイルオプション「一 0」または「一 Os」の指定がな!、場合には（S25で NO)、内側ループ (最内ループ）のループ回数の条件式を生成する（S23)。

[0050] コンパイルオプション「一 0」または「一 Os」の指定がある場合には（S25で YES)、ピ一リングされたループ処理を二重ループに畳み込み、最内ループのループ回数の条件式を生成する（S26)。

[0051] 最内ループのループ回数条件生成処理（S23、 S26)の後、最内ループにおける参照の対象配列は 1つであるか否力調べられる（S27)。最内ループにおける参照の対象配列が 1つの場合には、（S27で YES)、ループ構造変換処理 (S5)を終了する

[0052] 最内ループにおける参照の対象配列が 2つ以上ある場合には（S27で NO)、最内ループの分割個数を導出し、分割後の各最内ループのループ回数の比率を決定する（S28)。その後、分割後の最内ループ回数 DTを分割個数で割った値が 1よりも大きいか否力判断する（S29)。すなわち、当該値が 1以下の場合には（S29で NO)、分割後の各ループ回数が 1回以下であるため、分割する意味がない。このため、ループ構造変換処理 (S5)を終了させる。

[0053] 当該値が 1よりも大きい場合には（S29で YES)、分割後の各ループ回数が 2回以上である。この場合には、コンパイルオプション「一 0」または「一 Ot」による指定があるか否かを調べる（S30)。コンパイルオプション「一 Ot」は、実行処理速度向上を重視したアセンブラコードをコンパイラに出力させるための指示である。

[0054] コンパイルオプション「一 0」または「一 Os」による指定がある場合には（S30で YES) 、後述する実行処理速度向上を重視したコピー型内側ループ分割処理 (S31)を実行し、ループ構造変換処理 (S5)を終了する。

[0055] コンパイルオプション「一 0」または「一 Os」による指定がない場合には（S30で NO)、後述するプログラムサイズ抑制を重視した条件型内側ループ分割処理 (S32)を実行し、ループ構造変換処理 (S5)を終了する。

[0056] 図 7は、コピー型内側ループ分割処理（図 6の S31)の詳細を示すフローチャートである。

[0057] 最内ループのループ回数 DTを分割個数で割った値を細分割後内側ループ回数とする（S41)。次に、内側ループを分割個数分だけ複製し、生成する（S42)。その後、細分割後の各内側ループ回数を細分割後内側ループ回数に修正する（S43)。さらに、 DTを分割個数で割った剰余を細分割後の先頭ループのループ回数に加算し (S44)、コピー型内側ループ分割処理を終了する。

[0058] 図 8は、条件型内側ループ分割処理（図 6の S32)の詳細を示すフローチャートである。

[0059] 最内ループのループ回数 DTを分割個数で割った値を細分割後内側ループ回数とする（S51)。次に、内側ループ回数条件の切換え switchテーブルを生成する（S5 2)。すなわち、内側ループ回数を順次切り替えるように、 C言語で言うところの switc h文を生成する。なお、 if文であってもよい。

[0060] テーブル生成後、細分割後の各内側ループ回数条件を細分割後の内側ループ回数に修正する（S53)。その後、 DTを分割個数で割った剰余を細分割後の先頭ループの回数条件に加算し (S54)、条件型内側ループ分割処理を終了する。

[0061] 図 9は、プリフェッチ命令配置処理（図 5の S6)の詳細を示すフローチャートである。

[0062] プリフェッチ命令配置処理では、すべてのループについて以下の処理を繰返す（ループ A)。まず、着目しているループが命令挿入対象のループであるか否かを調べる（S61)。命令挿入対象のループであるか否かの情報は、ループ構造変換部 186 の解析結果より取得される。

[0063] 命令挿入対象のループの場合には（S61で YES)、そのループに対して条件型ループ分割が行われて、るか否かを調べる（S62)。条件型ループ分割が行われて!/ヽれば、各条件文における命令挿入位置を解析し (S63)、プリフツチ命令を挿入する（S64)。命令挿入対象のループに対して条件型ループ分割が行われていなければ（S62で NO)、そのループに対してコピー型ループ分割が行われているか否かを調べる（S65)。コピー型ループ分割が行われていれば（S65で YES)、そのループの手前の命令挿入位置を解析する（S66)。その後、プリフツチ命令が挿入される（ S67)。ピーリングされたループの場合には（S68で YES)、当該ループの手前に命令挿入するように命令挿入位置が解析され (S69)、その位置にプリフツチ命令が挿入される（S70)。 [0064] 図 10は、プリフェッチ命令挿入処理（図 9の S64、 S67および S 70)の詳細を示すフローチャートである。

[0065] 命令挿入処理では、挿入命令、挿入位置、挿入アドレス等カゝらなる情報リストがすベて空になるまで以下を繰返す (ループ B)。

[0066] プリフェッチ命令を挿入しょうとして、る配列要素がァライン済みである力否かを判断する（S72)。ァラインされていなければ（S72で NO)、サイクル要因に従ってループ分割されたものであるの力、サイズ要因に従ってループ分割されたものであるのかを調べる（S73)。

[0067] ァライン済みであるか（S72で YES)またはサイクル要因でループ分割されたものであれば（S73で YES)、 1ライン先のデータをプリフェッチする命令を挿入する（S74) 。ァラインされておらず、かつサイズ要因でループ分割されたものであれば（S73で N 0)、 2ライン先のデータをプリフツチする命令を挿入する（S75)。最後に、解析済みの情報を情報リストから削除する（S76)。

[0068] [コンパイルオプション]

コンパイラシステム 148では、コンパイラに対するコンパイルオプションとして、ォプシヨン「一 fno— loop— tiling— dpref」が用意される。このオプションが指定されれば、プラグマの指定に関わらず、ループに対する構造変換は行わない。本オプションの指定がなければ、構造変換の実施はプラグマ指定の有無に従う。

[0069] [プラグマ指定]

本指定は、直後のループに対するものである。

[0070] プラグマ「 # pragma —loop— tiling— dpref 変数名 [,変数名 ]」により変数が指定された場合には、プラグマ指定された変数のみに着目してループ分割を行う。指定する変数は、配列でも、ポインタでもよい。

[0071] プラグマ「 # pragma —loop— tiling— dpref— all」によりループが指定された場合には、ループ内で参照される配列の全てに着目して構造変換が行われる。

[0072] 以下、いくつかの具体的曲面におけるループ分割処理について説明する。なお、以降の処理では、説明の簡単ィ匕のため C言語によるプログラム記述を行っているが、実際には中間言語による最適化処理が行われる。 [0073] [シンプルループ分割]

図 11は、ピーリングが必要な、場合のシンプルループ分割処理にっ、て説明するための図である。

[0074] 図 11 (a)に示すようなソースプログラム 282が入力された場合について考える。このソースプログラム 282では、配列 Aの要素が順次参照され、変数 sumに加算される。ここで、配列 Aの各要素のサイズは 4バイトであるものとし、キャッシュの 1ラインサイズは 128バイト（以降の説明でも、キャッシュのラインサイズは 128バイトであるものとする。）であるものとする。すなわち、キャッシュの 1ラインには配列 Aの要素が 32個記憶される。また、ソースプログラム 282に含まれるループのィテレーシヨンの回数 128回は、 32の整数倍である。このため、ソースプログラム 282は、図 11 (b)のプログラム 28 4に示すように、二重ループに構造変換することができる。すなわち、最内ループでは 32回の繰り返し処理を行い、その外のループでは、最内ループを 4回繰返すループ処理を行う。最内ループ処理ではキャッシュの 1ライン分のデータが参照される。その後、図 11 (c)のプログラム 286に示されるように、最内ループの実行前に、プリフエツチ命令 (dpref (&A[i+ 32]) )が挿入される。プリフェッチ命令を挿入することにより、最内ループ実行時には、当該ループで参照される配列 Aの要素がキャッシュに乗つてヽること〖こなる。

[0075] 図 12—図 15は、ピーリングが不要なシンプルループ分割処理における中間言語の推移を説明するための図である。

[0076] 図 12は、図 11 (a)と同様に、ピーリングが必要のない場合のソースプログラムの一例を示す図である。図 13は、図 12に示したソースプログラム 240に対応する中間言語のプログラムである。 [BGNBBLK]と [ENDBBLK]とで挟まれた内部の命令列が 1つの基本ブロックに対応しており、 [BGNBBLK] B1で始まる基本ブロックが forループの直前までの処理を示しており、 [BGNBBLK] B2で始まる基本ブロックが for ループを示しており、 [BGNBBLK] B3で始まる基本ブロックが forループの後の処理を示している。

[0077] 図 14は、図 13に示された中間言語のプログラムを二重ループに構造変換した後の中間言語のプログラムを示している。 [BGNBBLK] B2で始まる基本ブロックが最内ループに対応しており、 [BGNBBLK]B4および [BGNBBLK]B5で始まるループがその外側のループに対応して、る。

[0078] 図 15は、図 14に示された中間言語のプログラムにプリフェッチ命令を挿入した後の中間言語のプログラムを示している。プログラム 270では、 [BGNBBLK]B4で始まる基本ブロックの内部にプリフェッチ命令（dpref)が新たに挿入されて!、る。

[0079] 図 16は、ピーリングが必要な場合のシンプルループ分割処理について説明するための図である。

[0080] 図 16 (a)に示すようなソースプログラム 292が入力された場合について考える。このソースプログラム 292では、配列 Aの要素が順次参照され、変数 sumに加算される。ここで、配列 Aの各要素のサイズは 4バイトであるものとする。すなわち、キャッシュの 1 ラインには配列 Aの要素が 32個記憶される。また、ソースプログラム 292に含まれるループのィテレーシヨンの回数は 140回であるものとする。すなわち、 1ラインに記憶される配列 Aの要素数 32で割った場合に余りが出る数である。

[0081] このような場合には、図 16 (b)に示すプログラム 294のように、 140を 32で割った余りのループ回数をピーリングし、それ以外の部分を図 11 (b)と同様に二重ループ構造に構造変換する。その後、ピーリングされた部分を二重ループ構造に含ませるためのピーリング畳み込み処理を行い、図 16 (c)に示すようなプログラム 296が得られる。すなわち、通常状態では最内ループで 32回の繰り返し処理が行われ、最後に最内ループが実行される場合には、残りの 12 ( = 140— 128)回の繰り返し処理が行われる。その後、図 16 (d)のプログラム 298に示されるように、最内ループの実行前に、プリフツチ命令（dpref ( & A [i + 32] ) )が挿入される。

[0082] [複数配列アクセスが存在する場合 (ピーリング必要なし) ]

図 17は、ループ内に複数の配列アクセスが存在する場合のループ分割処理について説明するための図である。

[0083] 図 17 (a)に示すようなソースプログラム 301が入力された場合について考える。このソースプログラム 301では、配列 Aおよび配列 Bの要素が順次参照され、当該要素同士の積が変数 sumに加算される。ここで、配列 Aおよび配列 Bの各要素はそれぞれ 4 バイトであるものとする。すなわち、キャッシュの 1ラインには配列 Aの要素が 32個記憶される。または、配列 Bの要素が 32個記憶される。すなわち、 1ラインに格納される要素数は配列 Aと配列 Bとで同じである。また、ソースプログラム 301に含まれるループのィテレーシヨンの回数 128回は、 32の整数倍である。このため、ソースプログラム 301は、図 17 (b)のプログラム 302に示すように、ピーリングをすることなく二重ループに構造変換することができる。

[0084] 複数配列アクセスが存在する場合の二重ループ構造は、コピー型と呼ばれる実行処理速度を向上させるための最適化と、条件型と呼ばれるプログラムサイズを小さくするための最適化との二種類がある。

[0085] まず、コピー型の最適化について説明する。プログラム 302に含まれる最内ループのループ回数を配列 Aと配列 Bとの要素の大きさの比で分割する。ここでは、配列 A と配列 Bとはともに同じ要素の大きさである。したがって、図 17 (c)に示すプログラム 3 03のように最内ループを二等分し、ループ回数が 16回の最内ループ 2つに分割する。次に、図 17 (d)のプログラム 304に示すように、各最内ループの直前にプリフェツチ命令を挿入する。最初の最内ループの直前には、 1ライン分の配列 Aの要素をプリフツチするためのプリフツチ命令（dpref (&A[i+ 32] ) )が挿入され、 2番目の最内ループの直前には、 1ライン分の配列 Bの要素をプリフェッチするためのプリフェツチ命令（dpref ( & B [i+ 32] ) )が挿入される。

[0086] このようにプリフェッチ命令間にループ処理を挿入させることにより、異なる配列に対するプリフェッチ命令が連続することが無くなり、プリフェッチ命令実行によるレイテンシを隠蔽することができる。このため、実行処理速度を向上させることができる。

[0087] 次に、条件型の最適化について説明する。条件型の場合も、コピー型の場合と同様にして最内ループのループ回数を配列 Aと配列 Bとの要素の大きさの比で分割する。ただし、プログラム 303のように最内ループを 2つ並べるのではなぐ図 17 (e)に示すプログラム 305のように最内ループの個数は 1つであり、そのループ回数を条件分岐させるようにしている。すなわち、変数 K= lの場合と、 Κ=0の場合とで最内ループのループ回数 Νを変えるようにしている。ただし、この例では変数 Κの値に関係なく最内ループの回数 Νは 16回となっている。次に、図 17 (f)に示すプログラム 306 のように、 K= lの場合には配列 Αの要素を 1ライン分プリフェッチし、 K=0の場合には配列 Bの要素を 1ライン分プリフェッチするように条件分岐式およびプリフェッチ命令の挿入が行われる。なお、ここでは、最適化によりループ回数 Nは即値 16に置き換えられている。

[0088] このように、最内ループの個数を 1つにし、条件分岐式で最内ループのループ回数およびプリフェッチ命令を変えるようにすることにより、最終的に生成される機械令のプログラムサイズを小さくすることができる。ただし、条件分岐処理があるため、コピー型に比べて処理速度が多少遅くなる可能性がある。

[0089] [複数配列アクセスが存在する場合 (ピーリング必要） ]

図 18は、ループ内に複数の配列アクセスが存在する場合のループ分割処理について説明するための図である。

[0090] 図 18 (a)に示すようなソースプログラム 311が入力された場合について考える。このソースプログラム 311では、配列 Aおよび配列 Bの要素が順次参照され、当該要素同士の積が変数 sumに加算される。ここで、配列 Aおよび配列 Bの各要素はそれぞれ 4 バイトであるものとする。すなわち、キャッシュの 1ラインには配列 Aの要素が 32個記憶される。または、配列 Bの要素が 32個記憶される。すなわち、 1ラインに格納される要素数は配列 Aと配列 Bとで同じである。また、ソースプログラム 311に含まれるループのイタレーシヨンの回数は 140回であるものとする。

[0091] したがって、ソースプログラム 311を二重ループに構造変換する場合には、図 16 (b )に示したプログラム 294と同様、図 18 (b)に示すようにピーリング処理されたプロダラム 312が生成される。

[0092] コピー型の最適化を行う際には、配列 Aと配列 Bとの要素の大きさの比で最内ループを分割する。すると、図 18 (c)に示すプログラム 313が生成される。次に、図 18 (d) のプログラム 314に示すように、最初の最内ループの直前には、 1ライン分の配列 A の要素をプリフェッチするためのプリフェッチ命令（dpref (&A[i+ 32] ) )が挿入され、 2番目の最内ループの直前には、 1ライン分の配列 Bの要素をプリフェッチするためのプリフェッチ命令（dpref (&B[i+ 32]) )が揷入される。なお、ピーリング処理された最終ループの直前にはプリフェッチ命令は挿入されない。これは、その前の二重ループ処理におけるプリフェッチ命令実行により所望のデータがキャッシュにプリフエツチされている力である。

[0093] 条件型の最適化を行う際には、プログラム 312に対してピーリング畳み込み処理を行い、図 18 (e)に示されるようなプログラム 315を得る。ピーリング畳み込み処理は、図 16を参照して説明したものと同様である。次に、最内ループのループ回数を配列 Aと配列 Bとの要素の大きさの比で分割し、当該ループ回数を条件分岐させるように図 18 (f)に示すプログラム 316を作成する。プログラム 316においては、変数 Kの値を交互に変更させ、変数 Kの値に対応するようにループカウンタ Nの値を変化させる。次に、図 18 (g)のプログラム 317に示すように、 Kの値の変化に伴い、配列 Aおよび配列 Bの要素を 1ライン分ずつ交互にプリフツチするように、条件分岐式中にプリフヱツチ命令を挿入する。

[0094] このように、ピーリングが必要な場合であっても、コピー型の場合にはピーリングの部分を二重ループとは別のループにし、条件型の場合には、条件分岐式によりピーリングの場合のループカウンタの回数を変えるようにすることにより、ループ内に複数の配列アクセスがあり、かつピーリングが必要な場合であっても、プリフェッチによるレィテンシを考慮した最適化を行うことができる。

[0095] [サイズが異なる複数配列アクセスが存在する場合 (ピーリング必要なし) ]

図 19は、ループ内に複数の配列アクセスが存在し、かつ配列の要素のサイズがすベて同じではない場合のループ分割処理について説明するための図である。

[0096] 図 19 (a)に示すようなソースプログラム 321が入力された場合を考える。ここで、配列 Aの要素は 4バイト、配列 Bの要素は 2バイトとする。すなわち、キャッシュの 1ラインには配列 Aの要素が 32個、配列 Bの要素が 64個記憶される。

[0097] この場合、要素サイズの小さ!/、配列 Bに着目し、配列 Bの要素に応じたループの構造変換を行う。すなわち、図 19 (b)のプログラム 322のように、最内ループのループ回数を 1ラインに収まるキャッシュ Bの要素数 64にし、二重ループに構造変換する。最内ループでは、配列 Bに関しては 1ライン分の要素が消費される力配列 Aに関しては 2ライン分の要素が消費されることになる。このため、最内ループ処理を実行するためには合計 3ライン分のデータが必要になる。

[0098] このため、コピー型の最適化を行う際には、図 19 (c)のプログラム 323に示すように、最内ループを 3つに分割し、図 19 (d)のプログラム 324に示すように、各最内ループの直前にプリフェッチ命令を挿入する。ここでは、 1番目の最内ループの直前には、 2ライン先の配列 Aの要素をプリフェッチするプリフェッチ命令（dpref (&A[i+64] ) )を挿入し、 2番目の最内ループの直前には 3ライン先の配列 Aの要素をプリフェツチするプリフェッチ命令（1 ;[(&八 + 96]) )を揷入し、 3番目の最内ループの直前には 1ライン先の配列 Bの要素をプリフェッチするプリフェッチ命令（dpref (&B[i + 64]) )を挿入している。また、 3つの最内ループのループ回数を処理順に 22、 21 および 21としている。これは、最外ループの条件分岐判断が 3番目の最内ループ実行後に行われるため、 3番目の最内ループのループ回数を少なくすることにより、全体としての処理速度を向上させるためである。

[0099] また、条件型の最適化を行う際には、図 19 (e)のプログラム 325に示すように、 1回の最内ループ処理につき、変数 Kの値を 0から 2までの範囲内で更新させ、変数 Kの値による条件分岐処理により最内ループのループ回数 Nを 22、 21および 21のうちのいずれかに設定する。その後、ループ回数 Nの最内ループを実行させる。次に、図 19 (f)のプログラム 326に示すように、変数 Kの値が 0の場合にはプリフェッチ命令 (dpref ( & A [i + 64] ) )を実行させ、変数 Kの値が 1の場合にはプリフツチ命令（dp ref (&A[i+ 96] ) )を実行させ、変数 Kの値が 2の場合にはプリフツチ命令（dpref ( &B [i+ 64] ) )を実行させるように最適化を行う。

[0100] [サイズが異なる複数配列アクセスが存在する場合 (ピーリング必要） ]

図 20は、ループ内に複数の配列アクセスが存在し、かつ配列の要素のサイズがすベて同じではない場合のループ分割処理について説明するための図である。

[0101] 図 20 (a)に示すソースプログラム 331は、図 19 (a)に示したソースプログラム 321とループ回数が異なるのみである。したがって、ソースプログラム 321と同様、配列 Aの要素は 4バイト、配列 Bの要素は 2バイトである。図 20 (b)に示すように、ソースプログラム 321のループを二重ループに構造変換し、ループ回数 140を配列 Bの 1ライン分の要素数 64で割った余りをピーリング処理すると、プログラム 322が得られる。コピー型の最適化処理を行う場合には、図 19 (c)および図 19 (d)を参照して説明したように、二重ループの最内ループを 3分割し、プリフェッチ命令を挿入することにより、図 20 (c)に示すプログラム 333が得られる。条件型の最適化処理を行う場合には、図 19 ( e)および図 19 (f)を参照して説明したように、条件分岐式によりループ回数およびプリフエツチ命令を制御し、最終的に図 20 (e)に示すプログラム 335が得られる。

[0102] [ストライドが異なる複数配列アクセスが存在する場合]

図 21は、ループ内にストライドが異なる複数の配列アクセスが存在する場合のループ分割処理について説明するための図である。

[0103] ストライドとは、ループ処理における配列要素の増分値 (アクセス幅）のことを示す。

図 21 (a)に示すようなソースプログラム 341が入力された場合を考える。ここで、配列 Aの要素および配列 Bの要素はともに 4バイトであるものとする。ソースプログラム 341 では、ループのイタレーシヨンごとに、配列 Aの要素は 1ずつ増加するのに対し、配列 Bの要素は 2ずつ増加する。すなわち、配列 Bのアクセス幅は配列 Aのアクセス幅の 2 倍である。最小アクセス幅の配列 Aに着目すると、 1ラインには配列 Aの要素が 32個収まる。このため、最内ループのループ回数を 32回とした二重ループへの構造変換を行うと、図 21 (b)に示すプログラム 342が得られる。最内ループでは、配列 Aに関しては 1ライン分の要素が消費されるが、配列 Bに関しては 2ライン分の要素が消費されることになる。このため、最内ループ処理を実行するためには合計 3ライン分のデータが必要になる。

[0104] よって、コピー型の最適化を行う際には、図 21 (c)のプログラム 343に示すように、最内ループを 3つに分割し、図 21 (d)のプログラム 344に示すように、各最内ループの直前にプリフェッチ命令を挿入する。ここでは、 1番目の最内ループの直前には、 1 ライン先の配列 Aの要素をプリフェッチするプリフェッチ命令（dpref (&A[i+ 32]) ) を挿入し、 2番目の最内ループの直前には 2ライン先の配列 Bの要素をプリフェッチするプリフェッチ命令（dpref ( &B [i * 2 + 64] ) )を挿入し、 3番目の最内ループの直前には 3ライン先の配列 Bの要素をプリフェッチするプリフェッチ命令（dpref (&B[i * 2 + 96]) )を挿入している。

[0105] また、条件型の最適化を行う際には、図 21 (e)のプログラム 345に示すように、 1回の最内ループ処理につき、変数 Kの値を 0から 2までの範囲内で更新させ、変数 Kの値による条件分岐処理により最内ループのループ回数 Nを 11、 11および 10のうちのいずれかに設定する。その後、ループ回数 Nの最内ループを実行させる。次に、図 21 (f)のプログラム 346に示すように、変数 Kの値が 0の場合にはプリフェッチ命令 (dpref ( & A [i + 32] ) )を実行させ、変数 Kの値が 1の場合にはプリフツチ命令 (dp ref (&B[i * 2 + 64]) )を実行させ、変数 Kの値が 2の場合にはプリフツチ命令（dp ref ( &B [i * 2 + 96] ) )を実行させるように最適化を行う。

[0106] [ループ回数が不定な場合]

図 22は、ループ回数が不定なループ処理のループ分割処理を説明するための図である。

[0107] 図 22 (a)に示すソースプログラム 351が入力された場合を考える。ソースプログラム 351に含まれるループ回数は変数 Valにより特定され、コンパイル時には不定である。しかし、最低 128回は繰り返し処理が行われることがプラグマ指定「# pragma _ min— iteration = 128」により、保証されている。ここで、配列 Aは 4バイトであるものとする。すなわち、キャッシュの 1ラインには配列 Aの要素が 32個記憶される。

[0108] プラグマ指定に従い、ループ処理を最初の 128回のループ処理と、それ以降の変数 Valで特定されるループ回数のループ処理とに分割し、それぞれをシンプルループの場合と同様に二重ループィ匕すると図 22 (b)に示すプログラム 352が得られる。

[0109] コピー型の最適化処理を行う場合には、プログラム 352の最内ループの直前に 1ライン先の配列 Aの要素をプリフェッチするためのプリフェッチ命令（dpref (&A[i+ 32 ]) )を挿入することにより、図 22 (c)に示すプログラム 353が得られる。

[0110] 条件型の最適化処理を行う場合には、後半のループ処理をピーリング畳み込みし、最外ループ回数が 128回になるまでは、最内ループの回数を 32回にし、それ以降は最内ループの回数を (Val— 128)回に設定する分岐命令を挿入する。すると、図 2 2 (d)に示すようなプログラム 354が得られる。

[0111] 最後に、最内ループの実行前にプリフェッチ命令 (dpref (&A[i+ 32]) )を挿入することにより図 22 (e)に示すようなプログラム 355が得られる。

[0112] 図 23は、ループ回数が不定なループ処理のループ分割処理を説明するための他の図である。

[0113] 図 23 (a)に示すソースプログラム 361が入力された場合を考える。ソースプログラム 361に含まれるループ回数は変数 Nにより特定され、コンパイル時には不定である。また、ソースプログラム 361は、ソースプログラム 351と異なり、最低のループ回数を示すプラグマ指定がない。

[0114] ループ回数が小さなループ処理に対してループの構造変換を行い、最適化を行つたとしても、最適化の効果が表れにくい。このため、このような場合には、最適化の効果を高めるために、ループ回数があるしきい値よりも大きければ最適化されたループ処理を実行し、それ以外の場合には通常のループ処理を実行するようにする。例えば、あるしきい値を 1024とした場合には、図 23 (b)のプログラム 362に示されるように、ループ回数 Nが 1024を超える場合には、最初の 1024回のループ処理については二重ループを実行し、残りの回数のループ処理については、ピーリングされたループ処理を行うようにする。また、ループ回数 Nが 1024以下の場合には、二重ループは実行せずに、ピーリングされたループ処理を実行するようにする。その後、二重ル一プの最内ループの直前にプリフツチ命令（dpref ( & A [i + 32] ) )を挿入することにより図 23 (c)に示すような最適化されたプログラム 363が生成される。

[0115] [ループ分割が不要な場合]

図 24は、ループ分割が不要な場合の最適化処理を説明するための図である。図 2 4 (a)に示すソースプログラム 371が入力された場合には、ループ中で 1ライン分のデータ (A[i]— A[i+ 31])を完全に使い切ってしまう。このような場合には、二重ループ化する必要はない。このため、図 24 (b)に示すプログラム 372ようにループの先頭にループ内で使用されるデータの 1ライン先のデータをプリフェッチするプリフェッチ命令 (dpref (&A[i+ 32]) )を挿入することにより最適化が行われる。

[0116] また、ループ内の処理サイクル数がプリフェッチ命令で必要とされる処理サイクル数よりも大きいような場合にも、ループを二重化する必要はなぐループの先頭にプリフエッチ命令を挿入してもプリフェッチ命令のレイテンシは隠蔽することができる。

[0117] [ループ内でアクセスされる要素がァラインされてヽな、場合]

図 25および図 26は、ループ内でアクセスされる要素が主記憶上で適切にァラインされて、な、場合のループ分割処理を説明するための図である。これまでの説明では、ループ内でアクセスされる要素が主記憶上で適切にァラインされている場合を想定して話を進めてきた。ァラインされていることが予めプラグマや、コンパイルォプションの指定によりわかっている場合には、上述の例で説明したような最適化が行われる

[0118] しかし、一般的にはコンノイラは、それらの要素がァラインされている力否かは実行時まではわ力もない。このため、コンパイラは、ループ内アクセス要素が主記憶上で適切にァラインされていないことを前提として最適化を行う必要がある。

[0119] すなわち、図 25 (a)に示すようなソースプログラム 381が与えられた場合に、配列 A の要素サイズを 4バイトとすると、図 11を参照して説明したシンプルループ分割と同様にして、最適化が行われる。ただし、要素がァラインされていないことを前提として V、るため、最内ループの前に挿入されるプリフェッチ命令（dpref ( & A [i+64] ) )は 2 ライン先の配列 Aの要素をプリフェッチ指定している。また、ループ処理に先立って、ループ内でアクセスされる配列の要素 A[0]— A[63]を確保するために、プリフェツチ命令（dpref ( & A [0] )および dpref ( & A [32] ) )がプリフツチのレイテンシを十分隠蔽できる位置に挿入され、図 25 (b)に示すようなプログラム 382が生成される。

[0120] また、図 26 (a)に示されるようなソースプログラム 391が与えられた場合には、図 16 と同様にして、ピーリング処理された部分のループを畳み込んだ後に、 2ライン先の配列 Aの要素をプリフェッチする命令（dpref (&A[i+ 64]) )が挿入される。また、プログラム 382と同様にプリフツチ命令（dpref (&A[0])および dpref (&A[32]) )が挿入され、図 26 (b)に示すような最適化されたプログラム 392が生成される。

[0121] [動的ァライン解析コードの挿入による構造変換分割]

図 27は、ァラインされていない配列要素を動的に特定して、ループ処理の最適化を行う処理について説明するための図である。図 27 (a)に示すソースプログラム 401 が入力された場合を考える。ここで、配列 Aの要素は 4バイトであるものとする。

[0122] 配列 Aの先頭アドレス（要素 A[0]のアドレス）の所定のビットがキャッシュのラインを示しており、そのビット内のさらにあるビットは、ラインの先頭からのオフセットを示している。したがって、「A&Mask」というビット同士の論理演算を行うことにより、ラインの先頭からのオフセットを取り出すことができる。ここで、マスク値 Maskはあらかじめ定められた値である。配列 Aの先頭アドレスから取り出されたオフセット値を予め定められた補正値 Corだけ右シフトすることにより、配列 Aの先頭要素 A[0]が 1ライン内で先頭力も何番目に位置しているかがわかる。よって、次式（3)にしたがって、ライン上でァラインされて、な、要素の数 nを求めることができる。

[0123] n= 32—(A&Mask) > >Cor · '· (3)

すなわち、図 28に示すように、キャッシュ 431にフェッチした場合に、ァラインされない配列 Αの要素 (Α[0]— Α[η-1])とァラインされる配列 Αの要素とが区別されることになる。

[0124] したがって、図 27 (b)のプログラム 402に示すように、式（3)に従ヽァラインされて!/ヽない配列 Aの要素数 nを求める。次に、要素数 nに従って、ァラインされていない配列 Aの要素（A[0]— A[n— 1])についてのループ処理を行う。その後、ァラインされている配列 Aの要素（A[n]以降の要素）については、図 11に示したシンプルループ分割の場合と同様に二重ループィ匕を行う。

[0125] その後、ピーリングされているループ 405について、畳み込み処理を行うと、図 27 ( c)に示すようなプログラム 403が生成される。また、図 27 (d)に示すように、プリフェツチ命令 (dpref ( & A [i+ 32] ) )を挿入することにより、最適化されたプログラム 404が得られる。

[0126] [プロファイル情報を用いた構造変換分割]

図 29は、ァラインされていない配列要素をプロファイル情報を用いて特定し、ループ処理の最適化を行う処理にっ、て説明するための図である。ァラインされて!/、な!ヽ配列の要素数を図 27のように計算力求めるのではなぐプロファイル情報から取得する。取得したァラインされていない配列の要素数 Nに基づいて、図 27に示したのと同様の処理を行い、図 29 (a)に示すソースプログラム 411を図 29 (b)に示すプログラム 412のように変換する。その後、ピーリングされたループ部分を畳み込み、図 29 (c )に示すプログラム 413を得る。最後に、図 29 (d)に示すプリフェッチ命令を挿入することにより最適化されたプログラム 414を得る。

[0127] [最内ループ以外のループに対する構造変換]

図 30は、最内ループ以外のループに対する構造変換について説明するための図である。 [0128] 図 30 (a)に示すソースプログラム 421が与えられた場合を考える。ソースプログラム 421では、二重ループ処理が行われており、最内ループ処理 424で参照される配列 Aの要素は 1バイトであるものとする。最内ループ処理 424のループ回数は 4回であるため、最内ループ処理 424では配列 Aの要素が 4バイト分参照される。したがって、最内ループ処理 424で参照される要素のバイト数が小さいため、このような場合には、最内ループ処理 424を 1つの固まりとして考え、最外ループを、図 30 (b)に示すプログラム 422のように、二重ループに構造変換する。その後、 2番目のループ処理の実行前にキャッシュの 1ライン分の配列 Aの要素をプリフェッチする命令（dpref (& A [j + 128]) )が挿入され、図 30 (c)に示すような最適化されたプログラム 423が得られる。

[0129] [プラグマ「 # pragma —loop— tiling— dpref 変数名 [,変数名 ]」による変数指定]

図 31は、プラグマ「# pragma —loop— tiling— dpref 変数名 [,変数名]」により変数が指定された場合の最適化処理について説明するための図である。図 31 (a)に示すように、プラグマ「 # pragma —loop— tiling— dpref bjとの指定がソースプログラム中に含まれる場合には、ループ内の配列 bのみに着目して構造変換が行われ、配列 aは無視される。従って、図 31 (b)に示すような二重ループィ匕が実行され、配列 bをプリフェッチする命令のみが挿入される。

[0130] 以上説明したように、本実施の形態に係るコンパイラシステムによると、ループ処理を二重化し、最内ループの外側でプリフェッチ命令を実行するようにしている。このため、無駄なプリフェッチ命令の発行を防ぐことができ、プログラム実行時の処理速度を向上させることができる。また、ループ処理を二重化することにより、プリフェッチ命令を実行してカゝら次のプリフェッチ命令を実行するまでのサイクル数を確保することができる。このため、レイテンシを隠蔽し、インターロックを防ぐことができる。

[0131] 以上、本発明の実施の形態に係るコンパイルシステムについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。

[0132] 例えば、命令最適配置部 187で配置される命令は、プリフツチ命令に限られず、通常のメモリアクセス命令や外部処理を起動してその処理結果を待つ命令などのような応答待ち命令、実行した結果、結果的にインターロックを起こす可能性のある命令、実行後に所定の資源が参照可能になるまでに複数サイクルを要する命令などであつてもよい。応答待ち命令には、常に応答を待つ命令の他に、応答を待つ場合と待たな、場合とがある命令も含む。

[0133] また、キャッシュを備えないコンピュータの CPUをターゲットプロセッサとして、各種処理のレイテンシを隠蔽し、インターロックを防ぐようなコードを出力するコンノィルシステムであってもよい。

[0134] さらに、 CPUで実行させる機械令列を逐次解釈しながら、本実施の形態で説明したループ構造変換等の処理を実行する OS (Operating System)として実現してもよい。

[0135] また、以下に示すような PreTouch命令のように、インターロックを起こす可能性のない命令に対しても本発明は適用可能である。 PreTouch命令とは、引数で指定される変数を記憶するための領域をキャッシュ上に事前に確保するのみの処理を行う命令である。以下に、ループの構造変換を行い、 PreTouch命令を挿入する処理について説明する。

[0136] [シンプルループ分割]

図 32は、 PreTouch命令挿入時において、対象領域がキャッシュサイズでァラインされており、ピーリングが必要な、場合のシンプルループ分割処理にっ、て説明するための図である。

[0137] 図 32 (a)に示すようなソースプログラム 502が入力された場合につ!、て考える。このソースプログラム 502では、ループ回数 iと変数 valとの演算結果 (乗算結果)を配列 A の要素に順次代入する処理を定義している。ここで、配列 Aの各要素のサイズは 4バイトであるものとし、キャッシュの 1ラインサイズは 128バイト（以降の説明でも、キヤッシュのラインサイズは 128バイトであるものとする。）であるものとする。すなわち、キヤッシュの 1ラインには配列 Aの要素が 32個記憶される。また、ソースプログラム 502に含まれるループのィテレーシヨンの回数 128回は、 32の整数倍である。

[0138] このため、ソースプログラム 502は、図 32 (b)のプログラム 504に示すように、二重ループに構造変換することができる。すなわち、最内ループでは 32回の繰り返し処理を行い、その外のループでは、最内ループを 4回繰返すループ処理を行う。最内ループ処理ではキャッシュの 1ライン分のデータが配列 Aに代入される。その後、図 3 2 (c)のプログラム 506に示されるように、最内ループの実行前に、キャッシュ領域確保命令（PreTouch (&A[i] ) )が挿入される。 PreTouch命令を挿入することにより、最内ループ実行時には、当該ループで定義される配列 Aの要素がキャッシュ領域に確保されていることになる。これにより、不要なメインメモリからのデータ転送を引き起こすことがなくなり、バス占有率を軽減することができるようになる。

[0139] 図 33は、 PreTouch命令挿入時におけるピーリングが必要な場合のシンプルループ分割処理について説明するための図である。

[0140] 図 33 (a)に示すようなソースプログラム 512が入力された場合について考える。このソースプログラム 512では、ループ回数 iと変数 valとの演算結果 (乗算結果）が配列 A の要素に順次代入する処理を定義している。ここで、配列 Aの各要素のサイズは 4バイトでキャッシュサイズにァラインされているものとする。すなわち、キャッシュの 1ラインには配列 Aの要素が 32個記憶される。また、ソースプログラム 512に含まれるループのィテレーシヨンの回数は 140回であるものとする。すなわち、 1ラインに記憶される配列 Aの要素数 32で割った場合に余りが出る数である。

[0141] このような場合には、図 33 (b)に示すプログラム 514のように、 140を 32で割った余りのループ回数をピーリングし、それ以外の部分を図 32 (b)と同様に二重ループ構造に構造変換する。その後、ピーリングされた部分を二重ループ構造に含ませるためのピーリング畳み込み処理を行い、図 33 (c)に示すようなプログラム 516が得られる。すなわち、通常状態では最内ループで 32回の繰り返し処理が行われ、最後に最内ループが実行される場合には、残りの 12 ( = 140— 128)回の繰り返し処理が行われる。その後、図 33 (d)のプログラム 518に示されるように、最内ループの実行前に、キャッシュ領域確保命令 (PreTouch (&A[i] ) )が挿入される。ただし、領域確保処理は、 1ライン単位で行なわれる。このため、オブジェクト A以外の領域を確保する可能性がある最後の最内ループ実行時には、 PreTouch命令を発行しないようにし、オブジェクト A以外の領域を確保しな、ようにする。

[0142] [動的ァライン解析コードの挿入による構造変換分割] 図 34は、ァラインされていない配列要素を動的に特定して、ループ処理の最適化を行う処理について説明するための図である。図 34 (a)に示すソースプログラム 522 が入力された場合を考える。ここで、配列 Aの要素は 4バイトであるものとする。

[0143] 配列 Aの先頭アドレス（要素 A[0]のアドレス）の所定のビットがキャッシュのラインを示しており、そのビット内のさらにあるビットは、ラインの先頭からのオフセットを示している。したがって、「A&Mask」というビット同士の論理演算を行うことにより、ラインの先頭からのオフセットを取り出すことができる。ここで、マスク値 Maskはあらかじめ定められた値である。ここでは、 [Mask = 0x7F]としている。ループ初回にアクセスされる配列 Aの要素のアドレスから取り出されたオフセット値を、マスク値 Maskから減算を行い、予め定められた補正値 Corだけ右シフトすることにより、配列 Aの要素 A[X]が 1ライン内で先頭力何番目に位置しているかがわかる。よって、次式 (4)にしたがつて、ライン上でァラインされてヽな、要素の数 PRLGを求めることができる。

[0144] PRLG = (Mask — （&A[X]) & Mask) > >Cor · '· (4)

さらに、ループの最後に参照される配列 Αの要素 (Α[Υ— 1])の次の要素 (Α[Υ]) 力 S iライン内で先頭力も何番目に位置しているかを、次式（5)に従って求めることにより、 1ラインを満たしきれていない要素の数 EPLGで求めることができる。

[0145] EPLG = (&A[Y]) & Mask) > >Cor · '· (5)

さらに、 1ライン分の処理を余ることなく行うループ回数 KRNLを次式（6)に従って求めることができる。

[0146] KNRL = ( Y-X) - (PRLG + EPLG) · '· (6)

すなわち、図 34 (b)のプログラム 524に示すように、キャッシュの領域に配列 Αが割当てられる場合に、ァラインされない配列 Aの要素 (A[X]— A[X+PRLG-1])と、ァラインされかつ 1ラインの倍数のサイズとなる配列 Aの要素（A[X+PRLG]— A[X + PRLG+KRNL— 1])と、ァラインされているが 1ラインのサイズを満たさない配列 Aの要素（ A [X + PRLG + KRNL]一 A [X + PRLG + KRNL + ERLG— 1 ] )とが区另 IJされること〖こなる。

[0147] したがって、図 34 (b)のプログラム 524に示すように、式 (4)に従ったァラインされていない配列 Aの要素数 PRLGを求める処理等が行なわれる。次に、要素数 PRLGに従って、ァラインされていない配列 Aの要素（A[X]— A[X+PRLG—1])についてのループ処理を行う。その後、ァラインされている配列 Aの要素（A[X+PRLG]— A[ X+PRLG+KRNL— 1]の要素）については、図 32 (b)に示したシンプルループ分割の場合と同様に二重ループィ匕を行う。さらに、 EPLG>0であるならば、ピーリング処理が必要となる為、図 33 (b)に示したピーリング必要時の場合と同様にピーリング処理を行う。

[0148] その後、ピーリングされているループについて、畳み込み処理を行うと、図 34 (c)に示すようなプログラム 526が生成される。また、図 34 (d)に示すように、キャッシュ領域確保命令（PreTouch (&A[i]) )が揷入することにより、最適化されたプログラム 528 が得られる。

[0149] ただし、領域確保命令を挿入するのは、ァラインされて!/ヽる領域でかつキャッシュの 1ライン全てを使用する最内ループに対してのみである。

産業上の利用可能性

[0150] 本発明はインターロックを起こす可能性のある命令の発行を制御するコンパイラ、 O S、プロセッサで実行されるプロセス等に適用できる。

Claims

請求の範囲

[1] 実行時に外部からの所定の応答を待つ命令を含む命令セットを備えたプロセッサ向けのプログラム変換装置であって、

入力プログラムに含まれる繰返し回数力 S_x回のループを、繰返し回数力 Sy回のループを内側ループとし、繰返し回数力 Zy回のループを外側ループとするネスト構造への変換である二重ループ変換を行うループ構造変換手段と、

前記内側ループの外部の位置に、前記命令を配置することにより、当該命令を含む出力プログラムに変換する命令配置手段と

を備えることを特徴とするプログラム変換装置。

[2] 前記ループ構造変換手段は、

前記入力プログラムに含まれるループを検出するループ検出部と、

前記ループの繰返し回数を検出する繰返し回数検出部と、

前記命令実行時の前記所定の応答を待つサイクル数である応答待ちサイクル数を検出する応答待ちサイクル数検出部と、

前記ループの 1回の繰り返し処理に要する 1シーケンスサイクル数を検出する 1シ一ケンスサイクル数検出部と、

前記ループを、繰返し回数が（前記応答待ちサイクル数 Z前記 1シーケンスサイクル数）回であるループに分割するループ分割部と、

繰返し回数が（前記応答待ちサイクル数 Z前記 1シーケンスサイクル数）回のループを内側ループとし、繰返し回数が（前記ループの繰返し回数 Z前記内側ループの繰返し回数）回をループの外側ループとするネスト構造への変換である二重ループ変換を行う二重ループ変換部と

を有することを特徴とする請求項 1に記載のプログラム変換装置。

[3] さらに、最適化に関する最適化指示情報を受け取る最適化指定情報受け取り手段を備える

ことを特徴とする請求項 1に記載のプログラム変換装置。

[4] 前記最適化指定情報受け取り手段は、前記入力プログラムに含まれるループの最低繰り返し回数を受け取り、前記ループ構造変換手段は、ループの実行回数が不定な場合は、前記最低繰り返し回数に基づ、て、前記最低繰り返し回数の繰り返し処理を前記ループより取り出し、取り出したループの繰り返し処理に対して二重ループ変換を行う

ことを特徴とする請求項 3に記載のプログラム変換装置。

[5] 前記命令は、インターロックを発生させる可能性のある命令である

ことを特徴とする請求項 1に記載のプログラム変換装置。

[6] 前記インターロックを発生させる可能性のある命令は、主記憶装置からキャッシュへのデータのプリフェッチ命令である

ことを特徴とする請求項 5に記載のプログラム変換装置。

[7] さらに、命令のスケジューリングを行うスケジューリング手段を備え、

前記ループ構造変換手段は、

前記繰り返し回数力回のループを、前記スケジューリング手段により得られた結果から、前記プリフェッチを実行するのに必要なサイクル数分だけ実行されるような繰り返し回数力回のループに分割し、繰り返し回数力回のループを内側ループ、繰り返し回数力 SxZy回のループを外側ループとするネスト構造への変換である二重ループ変換を行う

ことを特徴とする請求項 6に記載のプログラム変換装置。

[8] 前記命令は、実行後に、所定の資源が参照可能状態になるまでに複数サイクルを要する命令である

ことを特徴とする請求項 1に記載のプログラム変換装置。

[9] 前記複数を要する命令は、主記憶装置またはキャッシュをアクセスする命令であることを特徴とする請求項 8に記載のプログラム変換装置。

[10] 前記ループ構造変換手段は、

前記繰り返し回数力回のループを、当該ループ内で参照される配列のアドレスがキャッシュのラインサイズ進む分だけ実行されるような繰り返し回数力 S_y回のループに分割し、繰り返し回数力回のループを内側ループ、繰り返し回数力 Zy回のループを外側ループとする二重ループ変換を行う

ことを特徴とする請求項 1に記載のプログラム変換装置。

[11] 前記ループ構造変換手段は、前記配列が複数存在する場合に、二重ループ変換を行った前記繰り返し回数力回のループを、さらに、前記配列の数に基づいて案分する案分変換を行う

ことを特徴とする請求項 10に記載のプログラム変換装置。

[12] 前記案分変換は、複数の前記配列について、その配列要素のサイズが異なるときには、前記サイズ比に応じて前記繰り返し回数力回のループを案分することを特徴とする請求項 11に記載のプログラム変換装置。

[13] 前記案分変換は、複数の前記配列について、ループの繰り返し処理を 1回を行うのに進むアドレスであるストライドが異なるときに、前記ストライド比に応じて前記繰り返し回数力回のループを案分する

ことを特徴とする請求項 11記載のプログラム変換装置。

[14] 前記案分変換は、内側ループを変換する際に、配分された各ループに対応する条件文を生成して、配分された各ループを同一の内側ループで実行されるように案分変換を行う

ことを特徴とする請求項 11に記載のプログラム変換装置。

[15] 前記ループ構造変換手段は、

前記繰り返し回数力回のループを、前記繰り返し回数力回のループに分割する際に、 xZyを演算した際の余り zが 0でなければ、 z回の繰り返し処理に対してピーリング処理を行ない、二重ループ変換を行う

ことを特徴とする請求項 10に記載のプログラム変換装置。

[16] 前記ループ構造変換手段は、

前記余り zが 0でなければ、内側ループのループ回数力回である力 z回であるかを判定する判定する条件文を生成し、二重ループ変換を行う

ことを特徴とする請求項 15記載のプログラム変換装置。

[17] 前記ループ構造変換手段は、ループの実行回数が不定な場合は、前記ループの実行回数を実行時に判定し、判定結果に基づいて繰り返し回数を動的に変化させるような二重ループ変換を行う

ことを特徴とする請求項 10に記載のプログラム変換装置

[18] さらに、配列がキャッシュのラインサイズにァラインされているという情報を受け取る受け取り手段を備え、

前記命令配置手段は、前記繰り返し回数が X回のループに対して、当該ループにおける X回の繰り返し処理で参照されるデータよりも一つ先のキャッシュのラインに記憶されるデータをプリフェッチするプリフェッチ命令を配置する

ことを特徴とする請求項 10に記載のプログラム変換装置

[19] 前記最適化指定情報受け取り手段は、配列がキャッシュのラインのどの相対位置からアクセスを開始するかと!/、う情報を受け、

前記ループ構造変換手段は、当該情報に基づ、て前記に二重ループ変換を行うことを特徴とする請求項 10に記載のプログラム変換装置。

[20] 前記命令配置手段は、前記配列がキャッシュのラインサイズにァラインされていない場合には、前記繰り返し回数力回のループに対して、当該ループにおける X回の繰り返し処理で参照されるデータよりも二つ先のキャッシュのラインに記憶されるデータをプリフェッチするプリフェッチ命令を配置する

ことを特徴とする請求項 10に記載のプログラム変換装置。

[21] 前記ループ構造変換手段は、前記配列がキャッシュのラインサイズにァラインされてヽな、場合には、前記配列がキャッシュのラインのどの相対位置力アクセスを開始するかを判定し、判定結果に応じて二重ループ構造変換を行う

ことを特徴とする請求項 10に記載のプログラム変換装置。

[22] さらに、着目する配列に関する情報を受け取る受け取り手段を備え、

前記ループ構造変換手段は、当該配列に対してのみ着目し、二重ループ変換を行う

ことを特徴とする請求項 10に記載のプログラム変換装置。

[23] 前記ループ構造変換手段は、最内ループを 1つのかたまりとみなして、外側のループに対してさらに二重ループ変換を行う

ことを特徴とする請求項 1に記載のプログラム変換装置。

[24] 実行時に外部からの所定の応答を待つ命令を含む命令セットを備えたプロセッサ向けのプログラム変換方法であって、入力プログラムに含まれる繰返し回数力 S_x回のループを、繰返し回数力 Sy回であるループを内側ループとし、繰返し回数力 Zy回のループを外側ループとするネスト構造への変換である二重ループ変換を行うステップと、

前記内側ループの外部の位置に、前記命令を配置し、当該命令を含む出力プログラムに変換するステップと

を含むことを特徴とするプログラム変換方法。

実行時に外部からの所定の応答を待つ命令を含む命令セットを備えたプロセッサ向けのプログラム変換方法のプログラムであって、

入力プログラムに含まれる繰返し回数力 S_x回のループを、繰返し回数力 Sy回であるループを内側ループとし、繰返し回数力 Zy回のループを外側ループとするネスト構造への変換である二重ループ変換を行うステップと、

をコンピュータに実行させることを特徴とするプログラム。