WO2018179873A1

WO2018179873A1 - アクセラレータを有する計算機のためのライブラリ、およびアクセラレータ

Info

Publication number: WO2018179873A1
Application number: PCT/JP2018/004146
Authority: WO
Inventors: 悠記小林
Original assignee: 日本電気株式会社
Priority date: 2017-03-28
Filing date: 2018-02-07
Publication date: 2018-10-04

Abstract

プロセッサとアクセラレータとを有する計算機において、プログラムの実行効率を低下させないようにするために、ライブラリ１００は、処理対象のデータの属性情報を取得する属性取得手段１１０と、取得された属性情報にもとづいて、データ処理を実行する演算装置を選択する演算装置選択手段１２０と、演算装置選択手段１２０が演算装置としてプロセッサを選択した場合に、プロセッサを用いたデータ処理を開始する処理開始手段１３０と、演算装置選択手段１２０が演算装置としてアクセラレータを選択した場合に、アクセラレータに対してデータ処理の実行を指示する処理指示手段１４０とを備えている。

Description

アクセラレータを有する計算機のためのライブラリ、およびアクセラレータ

　本発明は、演算装置としてプロセッサの他にアクセラレータを有する計算機のためのライブラリであって計算機の性能低下を防止するライブラリ、および計算機の性能低下を防止しうるアクセラレータに関する。

　計算機の高性能化と低消費電力を実現するために、プロセッサ（以下、ＣＰＵ：Central Processing Unit という。）とハードウェアアクセラレータ（以下、アクセラレータという。）とを組み合わせる技術が採用されている（例えば、特許文献１－４参照）。アクセラレータは、例えばＧＰＵ（Graphics Processing Unit）やＦＰＧＡ（Field Programmable Gate Array ）である。なお、ＧＰＵの概念には、ＧＰＧＰＵ（General Purpose computing on Graphics Processing Unit ）として使用されるということも含まれる。

　以下、ＣＰＵとアクセラレータとの各々を、演算装置ということがある。

　また、特許文献５には、ソフトウェアの一部の処理をハードウェア化する方法が記載されている。さらに、ハードウェア化されたソフトウェア部分を、ハードウェア化した回路を制御するソフトウェアで置き換える方法が記載されている。

　また、特許文献６には、ソフトウェアの実行トレースを取り、最も実行時間が長い処理をハードウェアで実行する方法が記載されている。特許文献６に記載されているハードウェアは、ＦＰＧＡである。

特開平４－３１４１３３号公報特表２０１６－５３１３６６号公報特表２０１５－５２４５９７号公報特開２００６－２４４３８２号公報特開２００３－１１４９１４号公報特開２００６－１１８４０号公報

　複数の演算装置が存在する計算機が使用される場合に、一般に、プログラムにおいて、一律にいずれかの演算装置を使うようにしか記述できない。その結果、演算過程で行列サイズが変化するプログラムなどが実行される場合には、演算の実行効率が低下するおそれがある。

　例えば、小さい行列に関する演算がＦＰＧＡで実行される場合、ＣＰＵとＦＰＧＡの間で行列の入出力データを転送するオーバヘッドが相対的に大きくなる。よって、ＦＰＧＡにオフロードする効果が低減する。大きい行列に関する演算がＣＰＵで実行されると、ＦＰＧＡによる高速化の恩恵を受けられない。よって、やはり、ＦＰＧＡにオフロードする効果が低減する。

　すなわち、演算過程で行列サイズが大きくなったり小さくなったりするプログラムが実行される場合、演算装置としてＣＰＵを使うようにプログラムを記載すると、行列サイズが大きくなった場合に、演算の実行効率が低下する。また、演算装置としてＦＰＧＡを使うようにプログラムが記述されると、行列サイズが小さくなった場合に、演算の実行効率が低下する。

　本発明は、プロセッサとアクセラレータとを有する計算機において、プログラムの実行効率を低下させないようにすることを目的とする。

　本発明によるライブラリは、アクセラレータを有する計算機のためのライブラリであって、処理対象のデータの属性情報を取得する属性取得手段と、取得された属性情報にもとづいて、データ処理を実行する演算装置を選択する演算装置選択手段と、演算装置選択手段が演算装置としてプロセッサを選択した場合に、プロセッサを用いたデータ処理を開始する処理開始手段と、演算装置選択手段が演算装置としてアクセラレータを選択した場合に、アクセラレータに対してデータ処理の実行を指示する処理指示手段とを備える。

　本発明によるアクセラレータは、ローカルキャッシュメモリを有し、最新データがローカルキャッシュメモリに保持されているか否かを示す第１状態情報とローカルキャッシュメモリから主メモリへのデータの書き戻しを要求するための第２状態情報とを属性情報として含む処理対象のデータに対してデータ処理を行うデータ処理手段と、第２状態情報を監視する監視手段と、第２状態情報でローカルキャッシュメモリから主メモリへのデータの書き戻しが要求された場合に、ローカルキャッシュメモリに格納されている処理対象のデータを主メモリに書き戻す書戻手段と、処理対象のデータをローカルキャッシュメモリに格納したときに、第１状態情報を最新データがローカルキャッシュメモリに保持されていることを示す第１状態にし、ローカルキャッシュメモリに格納されている処理対象のデータを主メモリに書き戻したときに、第１状態情報を第１状態とは異なる第２状態にする状態変更手段とを備える。

　本発明によるライブラリプログラムは、コンピュータに、処理対象のデータの属性情報を取得する処理と、取得された属性情報にもとづいて、データ処理を実行する演算装置を選択する処理と、演算装置としてプロセッサが選択された場合に、プロセッサを用いたデータ処理を開始する処理と、演算装置としてアクセラレータが選択された場合に、アクセラレータに対してデータ処理の実行を指示する処理とを実行させる。

　本発明によるコンピュータ読み取り可能な記録媒体は、アクセラレータを有する計算機のためのライブラリプログラムを格納し、ライブラリプログラムは、プロセッサによって実行されるときに、処理対象のデータの属性情報を取得し、取得された属性情報にもとづいて、データ処理を実行する演算装置を選択し、演算装置としてプロセッサが選択された場合に、プロセッサを用いたデータ処理を開始し、演算装置としてアクセラレータが選択された場合に、アクセラレータに対してデータ処理の実行を指示する。

　本発明は、プログラマが意識しなくても動的に適切な演算装置が選択されてデータ処理が実行されるので、アプリケーションプログラムの実行性能が向上する。

ライブラリが適用された計算機の第１の実施形態を示すブロック図である。ライブラリ・ソフトウェアによる処理手順を示すフローチャートである。プログラムの一例を示す説明図である。プログラムの一例を示す説明図である。ライブラリが適用された計算機の第２の実施形態を示すブロック図である。第２の実施形態におけるライブラリ・ソフトウェアによる処理手順を示すフローチャートである。第２の実施形態の計算機の動作を説明するためのブロック図である。ライブラリの主要部を示すブロック図である。他の態様のライブラリの主要部を示すブロック図である。アクセラレータの主要部を示すブロック図である。

実施形態１．
　以下、本発明の実施形態を図面を参照して説明する。

　図１は、ライブラリが適用された計算機の第１の実施形態を示すブロック図である。図１に示す計算機１０は、ＣＰＵ２０と、アクセラレータ３０と、プログラムメモリ４０と、データメモリ５０とを含む。

　なお、本実施形態では、アクセラレータ３０としてＦＰＧＡが使用される。しかし、アクセラレータ３０として、ＧＰＵなどの他の演算機能を有する素子が使用されてもよい。以下、アクセラレータ３０をＦＰＧＡ３０と表現することがある。

　プログラムメモリ４０には、アプリケーションプログラム４１と、ライブラリ・ソフトウェア４２とが記憶される。プログラムメモリ４０は、例えば、ＲＯＭ（Read Only Memory）やフラッシュメモリなどの非一時的な不揮発性メモリである。

　ライブラリ・ソフトウェア４２は、例えば、行列積など行列演算関数（ＧＥＭＭ：General Matrix Multiply など）を含む。アプリケーションプログラム４１は、例えば、行列積を繰り返す解析プログラムを含む。データメモリ５０には、処理対象のデータ（演算対象のデータ）が格納される。ここでは、処理対象のデータとして行列を例にする。

　図２は、ライブラリ・ソフトウェア４２による処理手順を示すフローチャートである。図２を参照して、ライブラリ・ソフトウェア４２にもとづく処理を説明する。以下、ライブラリ・ソフトウェア４２によって処理が実行されるように表現するが、実際の処理の主体は、ＣＰＵ２０である。

　まず、ライブラリ・ソフトウェア４２は、ステップＳ１１で、処理対象のデータの属性情報を取得する。ここでは、属性として行列のサイズが用いられる。すなわち、行列の行サイズをＭとし、列のサイズをＮとした場合、ライブラリ・ソフトウェア４２は、属性情報としてＭとＮとを取得する。

　次に、ライブラリ・ソフトウェア４２は、ステップＳ１２で、取得された属性情報を基に、処理を実行する演算装置を決定する。例えば、決定関数が、Ｔ＞ＦＵＮＣ（Ｍ，Ｎ）の場合、演算装置としてＣＰＵ２０を選択する。そうでない場合には、ＦＰＧＡ３０を選択することにする。Ｔはしきい値である定数、ＦＵＮＣはＭとＮとを引数とする判定関数である。判定関数として、ＭとＮとのうちの最大値を返すｍａｘ関数や、ＭとＮとの和を返すａｄｄ関数や、ＭとＮとの積を返すｍｕｌ関数が考えられる。しかし、それらに限られず、他の関数を用いてもよい。

　例えば、Ｔ＝１００、ＦＵＮＣ＝ｍｕｌとした場合、ライブラリ・ソフトウェア４２は、行列の行と列とのサイズの積すなわち行列の要素数が１００未満の場合にはＣＰＵ２０を選択し、１００以上の場合にはＦＰＧＡを選択する。

　そして、演算装置としてＣＰＵ２０が選択された場合、ライブラリ・ソフトウェア４２は、データ処理の開始をＣＰＵ２０に指示する。その結果、ＣＰＵ２０を用いてデータが処理される。すなわち、ＣＰＵ２０で動作する行列積プログラムを用いて行列データが処理される（ステップＳ１３，Ｓ１４）。

　演算装置としてＦＰＧＡ３０が選択された場合、処理はＦＰＧＡ３０にオフロードされる。すなわち、ライブラリ・ソフトウェア４２は、ＦＰＧＡ３０にデータ処理の実行を指示する（ステップＳ１３，Ｓ１５）。例えば、ライブラリ・ソフトウェア４２は、ＦＰＧＡ３０において構成されている行列積演算回路に対して、行列データのアドレスおよび行列積の演算開始を指示するフラグを設定することによって、ＦＰＧＡ３０に演算を開始させる。

　そして、ライブラリ・ソフトウェア４２は、ＦＰＧＡ３０のデータ処理の完了を待つ（ステップＳ１６）。データ処理の完了を知るために、例えば、行列演算回路中に演算完了フラグが設けられ、ライブラリ・ソフトウェア４２は、ＣＰＵ２０が演算完了フラグを確認（ポーリング）するようにしてもよい。また、行列演算回路からＣＰＵ２０に、割り込みなどの手段でデータ処理の完了を通知するようにしてもよい。

　本実施形態では、属性情報、演算装置の決定関数およびしきい値を適切に設定することによって、処理対象のデータに応じて動的に適切な演算装置が選択され、選択された演算装置でデータ処理が実行される。よって、本実施形態のように構成しない場合と比較して、処理の実行性能が向上する。しきい値は、例えば、オフロードのオーバヘッドとＦＰＧＡの処理能力等にもとづいて設定される。例えば、オフロードのオーバヘッドが相対的に大きい場合には、しきい値は、大きな値に設定される。ＦＰＧＡの処理能力が相対的に高い場合には、しきい値は、小さい値に設定される。

　なお、図１には、1つのアクセラレータ３０が例示されているが、計算機１０は、複数のアクセラレータを含んでいてもよい。さらに、種類が異なる複数のアクセラレータ（例えば、ＦＰＧＡとＧＰＧＰＵ）を含んでいてもよい。その場合には、演算装置の決定関数を、いずれかの演算装置が選択されるように設定すればよい。

　また、本実施形態では、行列のサイズがデータの属性（属性情報）として利用されたが、属性情報は、行列のサイズに限られない。一例として、直近に利用された演算装置の情報を属性情報として、そのような属性情報を勘案して演算装置の決定関数を設定してもよい。例えば、ＣＰＵ２０だけでなく、ＦＰＧＡなどのアクセラレータ３０もキャッシュ機構を有している場合、処理対象のデータは直近に利用した演算装置内に格納されている可能性が高い。その場合、多少小さいデータであってもアクセラレータ３０で実行した方がメモリアクセスのオーバヘッドが低減されるので、実行性能の向上が期待できる。

　また、本実施形態では、処理対象のデータとして行列を例にしたが、処理対象のデータは行列に限られない。処理対象のデータは、ベクトルデータなどの他の形態のデータでもよい。

　また、本実施形態では、あらかじめ設定された決定関数によって、処理の実行時に、自動的に演算装置が決定される。しかし、プログラマが、決定関数の判定によらず適切な演算装置を事前に判断できる場合には、プログラムによって演算装置が指定されるようにしてもよい。

　プログラマがどうしてもアクセラレータ３０またはＣＰＵ２０に処理を実行させたい場合には、一例として、プログラム中に「ヒント」が記述されるようにしてもよい。図３に示す例は、プログラム中にコメントとして記載される「プラグマ」によって、コンパイラまたはプリプロセッサに、処理を実行する演算装置が通知される例である。通知がなされた場合には、コンパイラまたはプリプロセッサは、決定関数の実行をスキップするようコードを生成する。図３に示す例では、"// pragma: use_FPGA" および"// pragma: use_CPU"が「プラグマ」に相当する。

　また、プラグマではなく、図４に示すように、関数の引数として「ヒント」が与えられるようにしてもよい。図４に示す例では、"USE_FPGA"および"USE_CPU"が「ヒント」に相当する。なお、"USE_AUTO"は、決定関数によって演算装置が決定されることが希望されることを意味する。

実施形態２．
　図５は、ライブラリが適用された計算機の第２の実施形態を示すブロック図である。

　第２の実施形態では、計算機１１において、メモリアクセスのオーバヘッドの低減のためにＦＰＧＡ等のアクセラレータ３１に、ローカルキャッシュ（ローカルキャッシュメモリ）３２が実装されている。なお、ローカルキャッシュ３２は、データメモリ５０と整合性（キャッシュコヒーレンシ）がないとする。

　アクセラレータ３１での処理結果がローカルキャッシュ３２に格納されているとする。その場合、処理結果を用いるデータ処理が、アクセラレータ３１で実行されるときには、アクセラレータ３１は、データメモリ５０へのアクセスなしに処理を実行できる。よって、性能の向上が期待できる。

　しかし、処理結果を用いるデータ処理が、ＣＰＵ２０で実行される場合には、データの不整合が発生する。ＣＰＵ２０はデータメモリ５０に保存されているデータを入力として処理を実行しようとするが、最新のデータはローカルキャッシュ３２に含まれているからである。

　第２の実施形態では、そのような問題を解決するために、データの属性としてフラグＡとフラグＢとの２種類のフラグが追加される。フラグＡは、アクセラレータ３１によって更新されるフラグであり、最新のデータがアクセラレータ３１のローカルキャッシュ３２にあることを示す。フラグＢは、ＣＰＵ２０が、アクセラレータ３１に対して、ローカルキャッシュ３２からデータメモリ５０への書き戻しを要求するためのフラグである。

　第２の実施形態では、演算装置としてＣＰＵ２０が選択された場合に、ＣＰＵ２０がデータ処理を開始する前に、フラグＡが真であればフラグＢを真に変更し、フラグＡが偽になるまで待つ処理がライブラリ・ソフトウェア４２に追加される。

　アクセラレータ３１は、少なくともフラグＡが真の場合、フラグＢを一定間隔で監視する。そして、アクセラレータ３１は、フラグＢが真になると、ローカルキャッシュ３２中のデータをデータメモリ５０に書き戻し、フラグＡを偽にする。また、データメモリ５０中のデータをローカルキャッシュ３２にコピーした後に内容を変更した場合には、フラグＡを真にする。

　なお、アクセラレータ３１が、フラグＢを一定間隔で監視（ポーリング）する代わりに、ＣＰＵ２０によりフラグＢの内容が変更されたときに、ＣＰＵ２０からアクセラレータ３１に直接通知を行う機構を組み込むようにしてもよい。例えば、ＣＰＵ２０からアクセラレータ３１に割り込みなどの手段で通知を行う機構が考えられる。

　また、本実施形態でも、アクセラレータ３１としてＦＰＧＡが使用される。しかし、アクセラレータ３１として、ＧＰＵなどの他の演算機能を有する素子が使用されてもよい。以下、アクセラレータ３１をＦＰＧＡ３１と表現することがある。

　図６は、第２の実施形態におけるライブラリ・ソフトウェアによる処理手順を示すフローチャートである。図７は、第２の実施形態の計算機１１の動作を説明するためのブロック図である。

　図７に示すように、ＣＰＵ２０は、関数２１として、確認・待合せ処理２２と演算処理２３とを含む。確認・待合せ処理２２と演算処理２３とは、ＣＰＵ２０がライブラリ・ソフトウェア４２に従って処理を実行することによって実現される。

　データメモリ５０には、データ５１が格納されるが、データ５１は、演算対象になるデータ本体５２と属性５３とを含む。属性５３には、フラグＡとフラグＢとが含まれている。

　ＦＰＧＡ３１は、ローカルキャッシュメモリ（ローカルキャッシュ）３２を有するが、さらに、フラグ変更回路３５、監視回路３６および書戻回路３７を含む。フラグ変更回路３５は、フラグＡの値（「真」または「偽」）を変更する。監視回路３６は、フラグＢの値（「真」または「偽」）を監視する。書戻回路３７は、所定の条件が成立すると、ローカルキャッシュ３２に保持されているデータを、データメモリ５０に書き戻す。

　図６および図７を参照して、第２の実施形態におけるライブラリ・ソフトウェア４２にもとづく処理を説明する。

　ステップＳ１１～Ｓ１６の処理は、第１の実施形態における処理と同様である。以下、ライブラリ・ソフトウェア４２によって処理が実行されるように表現するが、実際の処理の主体は、ＣＰＵ２０である。

　ステップＳ１３の処理で演算装置としてＣＰＵ２０が選択された場合、ライブラリ・ソフトウェア４２は、確認・待合せ処理２２によって、処理対象のデータに対する演算処理が実行される前にフラグＡを確認する（ステップＳ２１）。フラグＡの値が偽の場合、ＣＰＵ２０による演算処理が開始される（ステップＳ１４）。フラグＡの値が真の場合には、ライブラリ・ソフトウェア４２は、確認・待合せ処理２２によって、フラグＢを真に変更した上で（ステップＳ２２）、フラグＡの値が偽になるまで待つ（ステップＳ２３）。

　ＦＰＧＡ３１は、ローカルキャッシュ３２にデータを格納した後にデータを変更したときに、フラグＡの値を真にする。そして、ＦＰＧＡ３１において、監視回路３６は、フラグＢを一定間隔で監視する。フラグＢが真になった場合、すなわち、ＣＰＵ２０が処理を行う場合、ＦＰＧＡ３１において、書戻回路３７は、ローカルキャッシュ３２中のデータをデータ本体５２としてデータメモリ５０に書き戻す。また、フラグ変更回路３５は、フラグＡの値を偽にする。

　ライブラリ・ソフトウェア４２は、フラグＡの値が偽となったことを確認したときに（ステップＳ２３）、フラグＢの値を偽に変更する（ステップＳ２４）。そして、ＣＰＵ２０は、データメモリ５０に格納されているデータに対して演算処理を行う（ステップＳ１４）。

　以上に説明したように、上記の各実施形態では、処理対象（演算対象）の属性情報（例えば、データのサイズ）に応じて、ＣＰＵが処理を実行するのかＦＰＧＡ等のアクセラレータが処理を実行するのかが判断され、判断結果に応じて処理を実行する演算装置が決定される。よって、処理対象のデータに対して適切な演算装置で処理が実行される。

　なお、適切な演算装置は、オフロードのオーバヘッドと演算速度（または、演算時間）とを考慮して、総合的に演算時間を短くすることができる演算装置を意味する。

　また、上記の各実施形態におけるライブラリ・ソフトウェアは、ＣＰＵ等のプロセッサとＦＰＧＡ等のアクセラレータを含む密結合プロセッサ上で動作するライブラリ・ソフトウェアとして好適に適用可能である。すなわち、密結合プロセッサにおいて、ライブラリ・ソフトウェアを実行する演算装置が、データサイズ等に応じて動的に切り替えられる用途に適用できる。

　図８は、ライブラリの主要部を示すブロック図である。図８に示すライブラリ１００は、処理対象のデータの属性情報（一例として、行列のサイズを示す情報）を取得する属性取得手段（属性取得部）１１０と、取得された属性情報にもとづいて、データ処理を実行する演算装置を選択する演算装置選択手段（演算装置選択部）１２０と、演算装置選択手段１２０が演算装置としてプロセッサ（例えば、ＣＰＵ）を選択した場合に、プロセッサを用いたデータ処理を開始する処理開始手段（処理開始部）１３０と、演算装置選択手段１２０が演算装置としてアクセラレータ（例えば、ＦＰＧＡ）を選択した場合に、アクセラレータに対してデータ処理の実行を指示する処理指示手段（処理指示部）１４０とを備えている。

　図９は、他の態様のライブラリの主要部を示すブロック図である。図９に示すライブラリ１００は、さらに、アクセラレータのデータ処理の完了を待つ処理完了検知手段（処理完了検知部）１５０を備えている。

　図１０は、アクセラレータの主要部を示すブロック図である。図１０に示すアクセラレータ２００は、最新データがローカルキャッシュメモリ２２０（実施形態では、ローカルキャッシュ３２）に保持されているか否かを示す第１状態情報（実施形態では、フラグＡ）とローカルキャッシュメモリ２２０から主メモリ（実施形態では、データメモリ５０）へのデータの書き戻しを要求するための第２状態情報（実施形態では、フラグＢ）とを属性情報として含む処理対象のデータに対してデータ処理を行うデータ処理手段（データ処理部）２１０と、第２状態情報でローカルキャッシュメモリ２２０から主メモリへのデータの書き戻しが要求された場合に、ローカルキャッシュメモリ２２０に格納されている処理対象のデータを主メモリに書き戻す書戻手段（書戻部）２３０（実施形態では、書戻回路３７で実現される。）と、処理対象のデータをローカルキャッシュメモリ２２０に格納したときに、第１状態情報を最新データがローカルキャッシュメモリに保持されていることを示す第１状態（例えば、「真」）にし、ローカルキャッシュメモリ２２０に格納されている処理対象のデータを主メモリに書き戻したときに、第１状態情報を第１状態とは異なる第２状態（例えば、「偽」）にする状態変更手段（状態変更部）２４０（実施形態では、フラグ変更回路３５で実現される。）とを備えている。

　アクセラレータ２００は、第２状態情報を監視する状態監視手段（状態監視部：実施形態では、監視回路３６で実現される。）を備えていてもよい

　上記の実施形態の一部又は全部は以下の付記のようにも記載されうるが、本発明の構成は以下の構成に限定されない。

（付記１）アクセラレータを有する計算機のためのライブラリであって、
　処理対象のデータの属性情報を取得する属性取得手段と、
　取得された前記属性情報にもとづいて、データ処理を実行する演算装置を選択する演算装置選択手段と、
　前記演算装置選択手段が演算装置としてプロセッサを選択した場合に、プロセッサを用いたデータ処理を開始する処理開始手段と、
　前記演算装置選択手段が演算装置としてアクセラレータを選択した場合に、アクセラレータに対してデータ処理の実行を指示する処理指示手段と
　を備えたことを特徴とするライブラリ。

（付記２）アクセラレータのデータ処理の完了を待つ処理完了検知手段をさらに備えた
　付記１記載のライブラリ。

（付記３）前記処理開始手段は、最新データがアクセラレータに保持されている場合には、アクセラレータから主メモリへのデータの書き戻しが完了してからデータ処理を開始する機構を含む
　付記１または付記２記載のライブラリ。

（付記４）前記属性情報は、最新データがアクセラレータに保持されているか否かを示す第１状態情報と、アクセラレータから主メモリへのデータの書き戻しを要求するための第２状態情報とを含み、
　前記データ処理を開始する機構は、最新データがアクセラレータに保持されていることを第１状態情報が示しているときに、前記第２状態情報でアクセラレータから主メモリへのデータの書き戻しを要求し、アクセラレータから主メモリへのデータの書き戻しの完了を検知したらデータ処理を開始する
　付記３記載のライブラリ。

（付記５）ローカルキャッシュメモリを有するアクセラレータであって、
　最新データが前記ローカルキャッシュメモリに保持されているか否かを示す第１状態情報と前記ローカルキャッシュメモリから主メモリへのデータの書き戻しを要求するための第２状態情報とを属性情報として含む処理対象のデータに対してデータ処理を行うデータ処理手段と、
　前記第２状態情報で前記ローカルキャッシュメモリから主メモリへのデータの書き戻しが要求された場合に、前記ローカルキャッシュメモリに格納されている処理対象のデータを主メモリに書き戻す書戻手段と、
　処理対象のデータを前記ローカルキャッシュメモリに格納したときに、前記第１状態情報を最新データが前記ローカルキャッシュメモリに保持されていることを示す第１状態にし、前記ローカルキャッシュメモリに格納されている処理対象のデータを主メモリに書き戻したときに、前記第１状態情報を前記第１状態とは異なる第２状態にする状態変更手段と
　を備えたことを特徴とするアクセラレータ。

（付記６）処理対象のデータの属性情報を取得する属性取得手段と、取得された前記属性情報にもとづいて、データ処理を実行する演算装置を選択する演算装置選択手段と、前記演算装置選択手段が演算装置としてプロセッサを選択した場合に、プロセッサを用いたデータ処理を開始する処理開始手段と、前記演算装置選択手段が演算装置としてアクセラレータを選択した場合に、アクセラレータに対してデータ処理の実行を指示する処理指示手段とを含むライブラリと、プロセッサとを備えた計算機に実装される
　付記５記載のアクセラレータ。

（付記７）アクセラレータを有する計算機のためのライブラリプログラムであって、
　コンピュータに、
　処理対象のデータの属性情報を取得する処理と、
　取得された前記属性情報にもとづいて、データ処理を実行する演算装置を選択する処理と、
　演算装置としてプロセッサが選択された場合に、プロセッサを用いたデータ処理を開始する処理と、
　演算装置としてアクセラレータが選択された場合に、アクセラレータに対してデータ処理の実行を指示する処理と
　を実行させるためのライブラリプログラム。

（付記８）コンピュータに、
　アクセラレータのデータ処理の完了を待つ処理をさらに実行させるための
　付記７記載のライブラリプログラム。

（付記９）コンピュータに、
　最新データがアクセラレータに保持されている場合には、アクセラレータから主メモリへのデータの書き戻しが完了してからデータ処理を開始させる
　付記７または付記８記載のライブラリプログラム。

（付記１０）前記属性情報は、最新データがアクセラレータに保持されているか否かを示す第１状態情報と、アクセラレータから主メモリへのデータの書き戻しを要求するための第２状態情報とを含み、
　コンピュータに、
　最新データがアクセラレータに保持されていることを第１状態情報が示しているときに、前記第２状態情報でアクセラレータから主メモリへのデータの書き戻しを要求し、アクセラレータから主メモリへのデータの書き戻しの完了を検知したらデータ処理を開始させる
　付記９記載のライブラリプログラム。

（付記１１）アクセラレータを有する計算機のためのライブラリプログラムが格納された記憶媒体であって、プロセッサによって実行されるときに、前記ライブラリプログラムは、
　処理対象のデータの属性情報を取得し、
　取得された前記属性情報にもとづいて、データ処理を実行する演算装置を選択し、
　前記演算装置選択手段が演算装置としてプロセッサを選択した場合に、プロセッサを用いたデータ処理を開始し、
　前記演算装置選択手段が演算装置としてアクセラレータを選択した場合に、アクセラレータに対してデータ処理の実行を指示する。

（付記１２）付記１１記載の記憶媒体に格納されたライブラリプログラムは、プロセッサによって実行されるときに、アクセラレータのデータ処理の完了を待つ。

（付記１３）付記１１または付記１２記載の記憶媒体に格納されたライブラリプログラムは、プロセッサによって実行されるときに、最新データがアクセラレータに保持されている場合には、アクセラレータから主メモリへのデータの書き戻しが完了してからデータ処理を開始する。

（付記１４）前記属性情報は、最新データがアクセラレータに保持されているか否かを示す第１状態情報と、アクセラレータから主メモリへのデータの書き戻しを要求するための第２状態情報とを含み、
　付記１３記載の記憶媒体に格納されたライブラリプログラムは、プロセッサによって実行されるときに、最新データがアクセラレータに保持されていることを第１状態情報が示しているときに、前記第２状態情報でアクセラレータから主メモリへのデータの書き戻しを要求し、アクセラレータから主メモリへのデータの書き戻しの完了を検知したらデータ処理を開始する。

　以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１７年３月２８日に出願された日本特許出願２０１７－０６２１１４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１０，１１　計算機
　２０　　ＣＰＵ
　２１　　関数
　２２　　確認・待合せ処理
　２３　　演算処理
　３０，３１　アクセラレータ（ＦＰＧＡ）
　３２　　ローカルキャッシュ（ローカルキャッシュメモリ）
　３５　　フラグ変更回路
　３６　　監視回路
　３７　　書戻回路
　４０　　プログラムメモリ
　４１　　アプリケーションプログラム
　４２　　ライブラリ・ソフトウェア
　５０　　データメモリ
　５１　　データ
　５２　　データ本体
　５３　　属性
　１００　ライブラリ
　１１０　属性取得手段
　１２０　演算装置選択手段
　１３０　処理開始手段
　１４０　処理指示手段
　１５０　処理完了検知手段
　２００　アクセラレータ
　２１０　データ処理手段
　２２０　ローカルキャッシュメモリ
　２３０　書戻手段
　２４０　状態変更手段

Claims

　アクセラレータを有する計算機のためのライブラリであって、
　処理対象のデータの属性情報を取得する属性取得手段と、
　取得された前記属性情報にもとづいて、データ処理を実行する演算装置を選択する演算装置選択手段と、
　前記演算装置選択手段が演算装置としてプロセッサを選択した場合に、プロセッサを用いたデータ処理を開始する処理開始手段と、
　前記演算装置選択手段が演算装置としてアクセラレータを選択した場合に、アクセラレータに対してデータ処理の実行を指示する処理指示手段と
　を備えたことを特徴とするライブラリ。
　アクセラレータのデータ処理の完了を待つ処理完了検知手段をさらに備えた
　請求項１記載のライブラリ。
　前記処理開始手段は、最新データがアクセラレータに保持されている場合には、アクセラレータから主メモリへのデータの書き戻しが完了してからデータ処理を開始する機構を含む
　請求項１または請求項２記載のライブラリ。
　前記属性情報は、最新データがアクセラレータに保持されているか否かを示す第１状態情報と、アクセラレータから主メモリへのデータの書き戻しを要求するための第２状態情報とを含み、
　前記データ処理を開始する機構は、最新データがアクセラレータに保持されていることを第１状態情報が示しているときに、前記第２状態情報でアクセラレータから主メモリへのデータの書き戻しを要求し、アクセラレータから主メモリへのデータの書き戻しの完了を検知したらデータ処理を開始する
　請求項３記載のライブラリ。
　ローカルキャッシュメモリを有するアクセラレータであって、
　最新データが前記ローカルキャッシュメモリに保持されているか否かを示す第１状態情報と前記ローカルキャッシュメモリから主メモリへのデータの書き戻しを要求するための第２状態情報とを属性情報として含む処理対象のデータに対してデータ処理を行うデータ処理手段と、
　前記第２状態情報で前記ローカルキャッシュメモリから主メモリへのデータの書き戻しが要求された場合に、前記ローカルキャッシュメモリに格納されている処理対象のデータを主メモリに書き戻す書戻手段と、
　処理対象のデータを前記ローカルキャッシュメモリに格納したときに、前記第１状態情報を最新データが前記ローカルキャッシュメモリに保持されていることを示す第１状態にし、前記ローカルキャッシュメモリに格納されている処理対象のデータを主メモリに書き戻したときに、前記第１状態情報を前記第１状態とは異なる第２状態にする状態変更手段と
　を備えたことを特徴とするアクセラレータ。
　処理対象のデータの属性情報を取得する属性取得手段と、取得された前記属性情報にもとづいて、データ処理を実行する演算装置を選択する演算装置選択手段と、前記演算装置選択手段が演算装置としてプロセッサを選択した場合に、プロセッサを用いたデータ処理を開始する処理開始手段と、前記演算装置選択手段が演算装置としてアクセラレータを選択した場合に、アクセラレータに対してデータ処理の実行を指示する処理指示手段とを含むライブラリと、プロセッサとを備えた計算機に実装される
　請求項５記載のアクセラレータ。
　アクセラレータを有する計算機のためのライブラリプログラムであって、
　コンピュータに、
　処理対象のデータの属性情報を取得する処理と、
　取得された前記属性情報にもとづいて、データ処理を実行する演算装置を選択する処理と、
　演算装置としてプロセッサが選択された場合に、プロセッサを用いたデータ処理を開始する処理と、
　演算装置としてアクセラレータが選択された場合に、アクセラレータに対してデータ処理の実行を指示する処理と
　を実行させるためのライブラリプログラム。
　コンピュータに、
　アクセラレータのデータ処理の完了を待つ処理をさらに実行させるための
　請求項７記載のライブラリプログラム。
　コンピュータに、
　最新データがアクセラレータに保持されている場合には、アクセラレータから主メモリへのデータの書き戻しが完了してからデータ処理を開始させる
　請求項７または請求項８記載のライブラリプログラム。
　前記属性情報は、最新データがアクセラレータに保持されているか否かを示す第１状態情報と、アクセラレータから主メモリへのデータの書き戻しを要求するための第２状態情報とを含み、
　コンピュータに、
　最新データがアクセラレータに保持されていることを第１状態情報が示しているときに、前記第２状態情報でアクセラレータから主メモリへのデータの書き戻しを要求し、アクセラレータから主メモリへのデータの書き戻しの完了を検知したらデータ処理を開始させる
　請求項９記載のライブラリプログラム。
　アクセラレータを有する計算機のためのライブラリプログラムを格納するコンピュータ読み取り可能な記録媒体であって、
　前記ライブラリプログラムは、プロセッサによって実行されるときに、
　処理対象のデータの属性情報を取得し、
　取得された前記属性情報にもとづいて、データ処理を実行する演算装置を選択し、
　演算装置としてプロセッサが選択された場合に、プロセッサを用いたデータ処理を開始し、
　演算装置としてアクセラレータが選択された場合に、アクセラレータに対してデータ処理の実行を指示する
　記録媒体。
　前記ライブラリプログラムは、プロセッサによって実行されるときに、
　アクセラレータのデータ処理の完了を待つ
　請求項１１記載の記録媒体。
　前記ライブラリプログラムは、プロセッサによって実行されるときに、
　最新データがアクセラレータに保持されている場合には、アクセラレータから主メモリへのデータの書き戻しが完了してからデータ処理を開始する
　請求項１１または請求項１２記載の記録媒体。
　前記属性情報は、最新データがアクセラレータに保持されているか否かを示す第１状態情報と、アクセラレータから主メモリへのデータの書き戻しを要求するための第２状態情報とを含み、
　前記ライブラリプログラムは、プロセッサによって実行されるときに、
　最新データがアクセラレータに保持されていることを第１状態情報が示しているときに、前記第２状態情報でアクセラレータから主メモリへのデータの書き戻しを要求し、アクセラレータから主メモリへのデータの書き戻しの完了を検知したらデータ処理を開始する
　請求項１３記載の記録媒体。