WO2014119003A1

WO2014119003A1 - コンパイラ、オブジェクトコード生成方法、情報処理装置及び情報処理方法

Info

Publication number: WO2014119003A1
Application number: PCT/JP2013/058157
Authority: WO
Inventors: 隆二境
Original assignee: 株式会社東芝
Priority date: 2013-02-04
Filing date: 2013-03-21
Publication date: 2014-08-07
Also published as: JP2014149765A

Abstract

　複数のプロセッサからなる並列計算機に適用されるコンパイラであって、ソースプログラムを入力して前記プロセッサそれぞれのローカルコードを生成するコンパイラにおいて、入力した前記ソースプログラムを解析して、このソースプログラムに記述された手続きの中から前記プロセッサ間のデータ転送ポイントを抽出し、データコピーの呼び出し処理を生成する生成手段と、前記呼び出し処理を含むオブジェクトコードを生成する生成手段とを具備してなるコンパイラ。

Description

コンパイラ、オブジェクトコード生成方法、情報処理装置及び情報処理方法

　本発明の実施形態は、コンパイラ、オブジェクトコード生成方法、情報処理装置及び情報処理方法に関する。

　従来、マルチコア向けのプログラム実行モデルとしてマルチスレッド処理が存在している。かかるマルチスレッド処理では、実行単位となる複数のスレッドが並列に動作し、メインメモリ上のデータを遣り取りすることによって並列処理を遂行している。

　上記並列処理の実行形態の一例は、複数の実行単位を各実行ユニット（ＣＰＵコア）に割り当てるスケジューラを含むランタイム処理と、各実行ユニット上で動作するスレッドとの２つの要素で構成される。また、並列処理ではスレッド間の同期が重要であり、同期処理が適切でないとデッドロックやデータの整合性が崩れる等の問題が発生する。そこで、従来、スレッドの実行順序をスケジューリングし、このスケジュールに基づいて並列処理を行うことでスレッド間の同期を保持することが行われている。

　更にヘテロジニアスマルチコアの枠組みで、ＧＰＧＰＵ（General-purpose computing on graphics processing units; ＧＰＵによる汎目的計算、ＧＰＵの演算資源を画像処理以外の目的に応用する技術）をはじめとするアクセラレータなどの各デバイスのメモリ間やホストＣＰＵのメインメモリ間のデータコピーを暗黙的に行うランタイム環境が求められている。

　例えば、アクセラレーション計算環境におけるバッファ同期と並列ランタイムを重視し、ＣＰＵとＧＰＵカードなどのアクセラレータとで協調して大規模計算を実行する場合、ＣＰＵとＧＰＵの間でデータをやりとりするためにバッファを定義し、計算する側のメモリへデータを転送して並列計算を実行する。

　このとき、どういうタイミングでどちらの向きにデータを転送するのかを、プログラムコード上で表現するのは、煩雑でありコーディングでバグを混入する原因となる。とくに計算をＣＰＵ，ＧＰＵ１，ＧＰＵ２，…等のどこで実行するかを、プログラムチューニング過程で変更する場合はデータ転送のタイミングや向きに注意が必要となる。

　そこで、バッファを抽象化したバッファビューを定義し、バッファビューのデータ構造内にどこのメモリに最新データが存在するかという状態を保持することで、オンデマンドで必要に応じてデータのコピーを行う方法が提案されている。この方法を使うと、プログラムコード上でデータ転送を明示的に記述する必要がなく、必要に応じて正しくデータが転送されるため、簡潔なコードで信頼性の高いプログラムを書くことが可能である。

　しかし、オンデマンドでデータをコピーする方法では、並列計算処理（以降カーネルと呼ぶ）を呼び出すタイミングまで、データコピーの必要性が判明しないため、データコピーの遅延を甘受しなければならなかった。

　より効率のよいアクセラレーション計算プログラムを簡潔に実装することができる技術が、求められている。

特開平１０－２４０７０３号公報特開２００８－１２３３１５号公報

　本発明の実施の形態は、より効率のよいアクセラレーション計算プログラムを簡潔に実装することができる技術を提供することを目的とする。

　実施形態によればコンパイラは、複数のプロセッサからなる並列計算機に適用されるコンパイラであって、ソースプログラムを入力して前記プロセッサそれぞれのローカルコードを生成するコンパイラにおいて、入力した前記ソースプログラムを解析して、このソースプログラムに記述された手続きの中から前記プロセッサ間のデータ転送ポイントを抽出し、データコピーの呼び出し処理を生成する生成手段と、前記呼び出し処理を含むオブジェクトコードを生成する生成手段とを具備する。

図１は実施形態のシステム全体の構成の一例を示す図である。図２は同実施形態のシステム構成の一例を示す機能ブロック構成図である。図３Ａは同実施形態でＣＰＵがカーネルを呼び出す順番の一例を示すための図である。図３Ｂは同実施形態のデータフローの一例を説明するための図である。図３Ｃは同実施形態のデータ処理シーケンスの一例を説明するための図である。図３Ｄは同実施形態のデータとカーネルの種類の一例を示すための図である。図４は一般的なコンパイラの動作原理の一例を説明する図である。図５は実施形態のデータコピーポイントの計算とコピーコードの挿入の一例を示すフロー図である。図６Ａは同実施形態でＣＰＵがカーネルを呼び出す順番の一例を示すための図である。図６Ｂは同実施形態のデータフローの一例を説明するための図である。図６Ｃは同実施形態のデータ処理シーケンスの一例を説明するための図である。図６Ｄは同実施形態のバッファビューのデータ構造の一例を示すための図である。図７は実施形態のシステム全体の構成の他の例を示す図である。図８は同実施形態に用いられるシステム構成の一例を示す機能ブロック構成図である。

実施形態

　以下、一実施形態を説明する。

（第１の実施形態）
　本実施形態は情報処理装置として或いは情報処理方法として用いることができ、ソースプログラムを入力して並列計算機を構成するプロセッサそれぞれのローカルコードを生成するコンパイラに適用できるオブジェクトコード生成方法に係わり、このオブジェクトコード生成方法はプロセッサ構造に依存しないローカルコードを生成することを可能とする。

　第１の実施形態を図１乃至図８を参照して説明する。

　図１に実施形態のシステム全体の構成の一例を示す。例えば、ＧＰＵ等である計算デバイス１０（以下、ＧＰＵとも称する）はホストＣＰＵ１２により制御される。計算デバイス１０はマルチコアプロセッサからなり、多数のコアブロックに分割されている。図１の例では、計算デバイス１０は８つのコアブロック３４に分割される。計算デバイス１０はコアブロック３４毎に別のコンテキストを管理できる。コアブロックは１６個のコアからなる。コアブロックあるいはコアを並列に動作させることにより、高速なタスク並列処理が可能となる。

　コアブロック３４はブロックＩＤにより識別され、図１の例では、ブロックＩＤは０～７である。ブロック内の１６個のコアはローカルＩＤにより識別され、ローカルＩＤは０～１５である。ローカルＩＤが０のコアはブロックの代表コア３２と称される。

　ホストＣＰＵ１２もマルチコアプロセッサであってもよい。図１の例では、デュアルコアプロセッサとする。ホストＣＰＵ１２は３段階のキャッシュメモリ階層を持つ。メインメモリ１６と接続されるＬ１キャッシュ２２はホストＣＰＵ１２内に設けられ、Ｌ２キャッシュ２６ａ、２６ｂと接続される。Ｌ２キャッシュ２６ａ、２６ｂはそれぞれＣＰＵコア２４ａ、２４ｂに接続される。Ｌ１キャッシュ２２とＬ２キャッシュ２６ａ、２６ｂはハードウェアによる同期機構を持ち、同一アドレスへのアクセスの際に必要な同期処理が行われる。Ｌ２キャッシュ２６ａ、２６ｂはＬ１キャッシュ２２で参照されるアドレスのデータを保持し、キャッシュミスが生じた場合などにはハードウェアによる同期機構により、メインメモリ１６との間で必要な同期処理が行われる。

　計算デバイス１０によりアクセスできるデバイスメモリ１４が計算デバイス１０に接続され、ホストＣＰＵ１２にメインメモリ１６が接続される。メインメモリ１６とデバイスメモリ１４の２つのメモリが接続されているので、計算デバイス１０で処理を実行する前後で、デバイスメモリ１４とメインメモリ１６とでデータのコピー（同期化）を行う。このため、メインメモリ１６とデバイスメモリ１４とが互いに接続されている。なお、複数の処理を連続して実行する場合、１つの処理毎にコピーを実行する必要はない。

　図２にシステム機能構成例を示す。計算デバイス１０はＰＣＩｅ（ＰＣＩ　Ｅｘｐｒｅｓｓ）を経由してホストＣＰＵ１２と接続され、計算デバイス１０は専用のデバイスメモリ（ＤＲＡＭからなる）１４を持つ。計算に利用するデータを格納するバッファの実体はホストＣＰＵ１２のメインメモリ１６と、計算デバイス１０のデバイスメモリ１４にそれぞれ割り当てられ、ＢｕｆｆｅｒＶｉｅｗというデータ構造によって状態を管理される。

　このデータ構造は、図２に示すように４つの要素を含んでいる。ホストＣＰＵ１２とＧＰＵ１０で共有となる対象データをデータＡとすると、まずＳｉｚｅはこのデータＡのサイズ（バイト数）である。次に述べるＳｔａｔｅ（状態）の他にはＣｐｕ＿ｍｅｍとＧｐｕ＿ｍｅｍとがある。

　Ｃｐｕ＿ｍｅｍはメインメモリ１６内のデータＡの位置を表すポインタであり、Ｇｐｕ＿ｍｅｍはデバイスメモリ１４内のデータＡの位置を表すポインタである。

　さてＢｕｆｆｅｒＶｉｅｗの状態は、ＣＰＵのみ、ＧＰＵのみ、共有、未定義の４つの状態（計算デバイスが増えると状態は増える）で管理される。図３Ａは「ホストＣＰＵ１２でカーネル関数を呼び出す順序」を示す。図３Ａはプログラムコードに記載されたカーネル呼び出しであり、図の例ではカーネル関数Ｋ_Ｅ，Ｋ_Ｆ，Ｋ_Ｉ，Ｋ_ＪがホストＣＰＵ１２で実行され、カーネル関数Ｋ_Ｇ，Ｋ_ＨがＧＰＵ２０で実行される。図３Ｂは処理全体のデータフローの一例を示す。図３Ｃはデータ処理シーケンスの一例を示す。図３Ｄはデータとカーネルの種類の一例を示す。

　従来の技術では、オンデマンドでデータコピーを行う仕組みになっており、図３Ａから図３Ｄに示すようにホストＣＰＵ１２上でカーネルＫ_Ｅを実行するとＢｕｆｆｅｒＶｉｅｗ　Ｅの状態は「ＣＰＵのみ」となりカーネルＫ_Ｆについても同様である。ここで、ＧＰＵで実行するカーネルＫ_Ｈが呼び出されると、ＢｕｆｆｅｒＶｉｅｗ　Ｅ，Ｆの状態をチェックし、状態が「ＣＰＵのみ」であるために、データコピーを起動する。コピーが完了すると状態を「共有」に変更する。同様にＢｕｆｆｅｒＶｉｅｗ　Ｇ，Ｈは、カーネルＫ_Ｇ，Ｋ_Ｈ終了時は、「ＧＰＵのみ」の状態であり、カーネルＫ_Ｉを呼び出したときに初めてＢｕｆｆｅｒＶｉｅｗ　Ｇのコピーが開始されるため、カーネルＫ_Ｉの実行開始が遅れてしまう。

　これを解決するためにＢｕｆｆｅｒＶｉｅｗ　Ｇのコピー開始をカーネルＫ_Ｇの終了直後に開始すればよいが、これではプログラミングが煩雑となり、ＢｕｆｆｅｒＶｉｅｗによる抽象化の利便性を損なってしまう。

　本実施形態に係わるオブジェクトコード生成方式を適用してなる一般的なコンパイラの概略構成は、コンパイラ、最適化変換部及びコード生成部を有してなる。コンパイラは、ソースプログラムを読み込み、構文解析して中間コードに変換してメモリの中に格納する。具体的には、ソースプログラムを構文解析し中間コードを生成し、その後最適化、コード生成、オブジェクトコードの出力となる。この最適化の中では、制御フロー解析、データ依存解析、様々な最適化（中間コード変換）という流れである。後述のＤｅｆ－Ｕｓｅチェインの解析はデータ依存解析であり、データ転送コードの挿入はさまざまな最適化とコード生成部で実現される機能である。

　ここで、図４を参照して一般的な並列コンパイラの動作手順の概略を示す。

　まず、コンパイルの最初にターゲットプロセッサの構成Ｂ２１を指定する。なお、コンパイラ指示子等と呼ばれるものを援用することにより指定してもよい。そして、コンパイラは、ステップＳ２２においてソースプログラムＢ２５を読み込み、構文解析してソースプログラムＢ２５を内部表現である中間形式Ｂ２６に変換する。

　次に、コンパイラは、ステップＳ２３において中間形式（内部表現）Ｂ２６に対して様々な最適化変換を行い、変換された中間形式Ｂ２７を生成する。

　次に、コンパイラは、ステップＳ２４にて変換された中間形式Ｂ２７をスキャンして、ＰＥそれぞれのオブジェクトコードＢ２８を生成する。コンパイラの動作例としてはＣ言語系列のプログラムから、機械語コードを生成することがある。

　本実施形態では、図５に示すように、プログラムコンパイル時にデータフローを解析し、必要な場合のみデータコピー開始のためのコードを挿入する。具体的には、ＢｕｆｆｅｒＶｉｅｗのＤｅｆ－Ｕｓｅチェインを解析し、ＤｅｆするカーネルとＵｓｅするカーネルの実行デバイスが異なる場合のみ、Ｄｅｆするカーネルの直後でデータコピーをキックするコードを挿入する。これにより、プログラムを簡潔に保ったままデータの先読みが可能となり、図３Ｃに示すタイムチャートの通り、カーネルＫＩの実行を早期に開始することが可能となり（図３ＣのＫ_ＧからＫ_Ｉ，Ｋ_ＨからＫ_Ｊへの破線を参照。従来ではＫ_Ｈが終了してからＫ_Ｉへ移行する）、全体の実行時間を短縮できる。なお、図３Ｄは、図３Ｂのデータフローに関するデータとカーネルの属性を列挙したものである。

　Ｄｅｆ－Ｕｓｅチェインは、ｄｕ－連鎖（ｄｅｆｉｎｉｔｉｏｎ　－　ｕｓｅ　ｃｈａｉｎ）と呼ばれてきたものである。定義－使用連鎖（ｄｕ－連鎖）の作成は、生きている変数の解析と本質的に同じ計算になる。例えば文ｓにおいて、変数が右辺値を要求することがあれば、その変数はｓで使用される。たとえば、文ａ　：　＝　ｂ　＋　ｃ　と文ａ　［　ｂ　］：＝　ｃ　があれば、ｂとｃはそれぞれの文で使用される（ａは使用されない）。ｄｕ－連鎖の問題は、ある点ｐについて、変数ｘを使用する文ｓの集合を求めることである。具体的なステップは次のようになる。

ステップＳ７１：　プログラムを基本ブロックに分割する。

ステップＳ７２：　制御フローのグラフを作成する。

ステップＳ７３：　ＢｕｆｆｅｒＶｉｅｗに対してデータフローを解析しＤｅｆ－Ｕｓｅチェインを作成する。

　すべてのＢｕｆｆｅｒＶｉｅｗのＤｅｆ－Ｕｓｅチェインに対して以下の処理を実行する。

ステップＳ７４Ａ：　すべてのＢｕｆｆｅｒＶｉｅｗのＤｅｆ－Ｕｓｅチェインの処理が実行されたか判定し、実行されたと判定されればステップＳ７４Ｃまでの処理ループから抜け全体の処理を終了する。

ステップＳ７４Ｂ：　ＢｕｆｆｅｒＶｉｅｗをＤｅｆするカーネルの実行デバイスとＢｕｆｆｅｒＶｉｅｗをＵｓｅするカーネルの実行デバイスとが異なるか判定し、この判定がＹｅｓならば次のステップＳ７４Ｃに進み、ＮｏならばステップＳ７４Ａに戻る。

ステップＳ７４Ｃ：　Ｄｅｆするカーネルの実行直後にデータコピーを起動するコードを挿入する。このデータコピーの呼び出し処理を生成するためのコードは、例えば関数により実現される。

　ここで基本ブロックとは連続した文の列からなり、制御は先頭の文に与えられ、そのあと、途中で停止したり、途中から分岐したりしないで、最後の文から制御が離れるものをいう。例えば所謂三番地文の列は基本ブロックを形成する。

　尚さらに、図６Ｄに示すようにＢｕｆｆｅｒＶｉｅｗにデータの分割方法（ＢｌｏｃｋＳｉｚｅ）をあらかじめ定義しておくことをバッファＧとＩに適用し、カーネルＫ_Ｉが並列度の低いＣＰＵで実行されるということを考慮してカーネルＫ_Ｇ，Ｋ_Ｉを分割実行することによって（図６Ａ、図６ＢのカーネルＫ_ＧとＫ_Ｉを参照）全体の実行時間を短くすることが可能である（図６ＣのカーネルＫ_ＧからＫ_Ｉへの３本の破線を参照）。ＢｌｏｃｋＳｉｚｅ（３０００バイト）はＳｉｚｅ（９０００バイト）を３分割した値となっている。図６ＡはＣＰＵがカーネルを呼び出す順番の一例を示す。図６Ｂはデータフローの一例を示す。図６Ｃはバッファビューのデータ構造の一例を示す。図６Ｄはデータ処理シーケンスの一例を示す。

（第２の実施形態）
　本発明による第２の実施形態を図７乃至図８を参照して説明する。実施形態１と共通する部分は説明を省略する。

　図７はシステム構成の他の例を示す図である。ここでは、デバイスメモリ１４を単独で設けずに、計算デバイス１０とホストＣＰＵ１２がメインメモリ１６を共有し、メインメモリ１６内に図１のデバイスメモリ１４と等価なデバイスメモリ領域１４Ｂが設けられる。この場合は、デバイスメモリとメインメモリとでデータのコピーを行う必要がない。

　図８の機能ブロックに示すように本実施形態は、共有キャッシュ１６Ｂを介在として、メモリ領域１４Ｂが設けられている。

　結果としてＣＰＵ，ＧＰＵを統合し共有メモリをもつＳｏＣ（Ｓｙｓｔｅｍ　ｏｎ　Ｃｈｉｐ）に対しては、実施形態１におけるデータのコピーは、キャッシュへのプリフェッチへと置き換えることで、ＣＰＵ／ＧＰＵ／その他アクセラレータがメモリを共有する場合においても、簡潔なプログラム記述における性能向上のための有効な手段となる。なおｍｅｍは、共有キャッシュ１６Ｂ内のデータＡの位置を表すポインタである。

　以上に説明したように複雑で手間のかかるＧＰＵプログラミングを簡潔にした環境においても、データ転送の遅延を自動的に隠ぺいすることにより高効率なプログラムを作成することが可能である。

（実施形態のまとめ）
　計算対象のデータバッファを抽象化することにより、ＧＰＧＰＵをはじめとするアクセラレータなどの各デバイスのメモリ間やホストＣＰＵのメインメモリ間のデータコピーを暗黙的に行うランタイム環境において、以下のことを実施する。

（１）オンデマンドでデータコピーを発行するのではなく、できるだけ早い時点でデータコピーを発行することにより、データ移動の遅延を少なくし性能を向上させる。

（２）早い時点でデータをコピーするために、プログラムコンパイル時にデータ転送ポイントを求めてデータコピーの呼び出し処理を生成する。

（３）また、マルチコアＣＰＵなどの比較的並列度が低いデバイスで計算する場合は、入力データバッファを細分化してストリーム的にデータを流してマルチコアＣＰＵでの計算開始タイミングを早くすることにより、システム性能を向上させる。

　本実施形態によれば、プログラマはデータの転送処理を記述することなく、適切なタイミングでデータのコピーを起動するプログラムを作成できるため、効率のよいアクセラレーション計算プログラムを簡潔に実装することが可能となる。

　なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。

　また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係わる構成要素を適宜組み合わせても良いものである。

Claims

　複数のプロセッサからなる並列計算機に適用されるコンパイラであって、ソースプログラムを入力して前記プロセッサそれぞれのローカルコードを生成するコンパイラにおいて、
　入力した前記ソースプログラムを解析して、このソースプログラムに記述された手続きの中から前記プロセッサ間のデータ転送ポイントを抽出し、データコピーの呼び出し処理を生成する生成手段と、
　前記呼び出し処理を含むオブジェクトコードを生成する生成手段と、
　を具備するコンパイラ。
　前記データ転送ポイントを前記プロセッサ単位で細分化する請求項１に記載のコンパイラ。
　前記データコピーの呼び出し処理は前記プロセッサ間の共有キャッシュへのプリフェッチに置き換えて生成される請求項１に記載のコンパイラ。
　前記プロセッサとして、請求項１に記載のコンパイラにより生成されたオブジェクトコードを実行するＣＰＵ及びアクセラレータを具備する情報処理装置。
　複数のプロセッサからなる並列計算機に適用されるコンパイラであり、ソースプログラムを入力して前記プロセッサそれぞれのローカルコードを生成するコンパイラにおけるオブジェクトコード生成方法であって、
　入力した前記ソースプログラムを解析して、このソースプログラムに記述された手続きの中から前記プロセッサ間のデータ転送ポイントを抽出し、データコピーの呼び出し処理を生成する生成工程と、
　前記呼び出し処理を含むオブジェクトコードを生成する生成工程と、
　を具備するオブジェクトコード生成方法。
　請求項５に記載のオブジェクトコード生成方法により生成されたオブジェクトコードを実行する情報処理方法。