WO2024079886A1

WO2024079886A1 - オフロードサーバ、オフロード制御方法およびオフロードプログラム

Info

Publication number: WO2024079886A1
Application number: PCT/JP2022/038384
Authority: WO
Inventors: 庸次山登
Original assignee: 日本電信電話株式会社
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2024-04-18

Abstract

オフロードサーバ（１）は、実際にユーザが利用しているデータのリクエスト処理負荷を分析するリクエスト処理負荷分析部（１２０）と、分析した処理負荷が上位のアプリケーションを特定し、当該アプリケーション利用時のリクエストデータの中から代表データを選定する代表データ選定部（１２１）と、選定した代表データをもとに、新たなオフロードパターンをアプリケーションコード分析部（１１２）とＰＬＤ処理指定部（１１３）と算術強度算出部（１１４）とＰＬＤ処理パターン作成部（１１５）と性能測定部（１１６）と実行ファイル作成部（１１７）とを実行することにより定め、定めた新たなオフロードパターンの処理時間および利用頻度と、現在のオフロードパターンの処理時間および利用頻度とを比較して性能改善効果を計算する改善度計算部（１２２）と、性能改善効果が所定閾値以上の場合、ＰＬＤ再構成を提案する再構成提案部（１２３）と、を備える。

Description

オフロードサーバ、オフロード制御方法およびオフロードプログラム

　本発明は、機能処理をＦＰＧＡ（Field Programmable Gate Array）等のアクセラレータに自動オフロードするオフロードサーバ、オフロード制御方法およびオフロードプログラムに関する。

　クラウドレイヤでは、ＧＰＵ（Central Processing Unit）やＦＰＧＡ（Field Programmable Gate Array）等のヘテロジニアスなＨＷ（ハードウェア）（以下、「ヘテロデバイス」と称する。）を備えたサーバが増えてきている。例えば、Microsoft（登録商標）社のBing検索においても、ＦＰＧＡが利用されている。このように、ヘテロデバイスを活用し、例えば、行列計算等をＧＰＵにオフロードしたり、ＦＦＴ（Fast Fourier Transform）計算等の特定処理をＦＰＧＡにオフロードしたりすることで、高性能化を実現している。

　ムーアの法則の減速予測から、ＣＰＵ１コアの半導体集積度やクロック数を上げるだけでなく、コア数を増やすマルチコアＣＰＵ、ＧＰＵ（Graphics Processing Unit）やＦＰＧＡ等のヘテロジニアスなハードウェアが、通常のアプリケーション運用に用いられるようになっている。Microsoft（登録商標）社は、ＦＰＧＡの検索利用等の取り組みをしている。また、Amazon（登録商標）社のクラウドでは、ＦＰＧＡやＧＰＵインスタンスを提供している。さらに、ヘテロジニアスなハードウェアとして、ＩｏＴ（Internet of Things）機器等の小型デバイスの利用も増えている。

　しかし、１コアのＣＰＵでないヘテロジニアスなハードウェアを効率よく利用するためには、ハードウェアに応じたプログラム作成や設定が必要となり、大半の技術者にとっては、壁が高い。マルチコアＣＰＵでは、OpenMP（Open Multi-Processing）、ＧＰＵではＣＵＤＡ（Compute Unified Device Architecture）、ＦＰＧＡではOpenCL（Open Computing Language）、ＩｏＴ機器ではアセンブリ等の高度な知識が必要となってくることが多い。

　ヘテロジニアスなハードウェアをより活用していくためには、高度な知識を持たない通常の技術者でも、それらを最大限活用できるようにするプラットフォームが必要である。技術者が通常のＣＰＵと同様のロジックで処理を記述したソフトウェアを、分析して、配置先の環境（マルチコアＣＰＵ、ＧＰＵ、ＦＰＧＡ等）にあわせて、適切に変換、設定を行い、環境に適応した動作をさせることを、プラットフォームが行うことが求められる。

　ＧＰＵの単純な計算力を一般的計算にも用いるＧＰＧＰＵ（General Purpose ＧＰＵ）が近年盛んになってきている。そのための環境としてＮＶＩＤＩＡ（登録商標）は、ＣＵＤＡを提供している。また、ＧＰＵだけに限定せずに、ＦＰＧＡ、ＧＰＵ等のヘテロジニアスなハードウェアを共通的に扱う仕様としてはOpenCLがあり、多くのベンダがOpenCLに対応してきている。OpenCLやＣＵＤＡは、Ｃ言語の拡張を用いてプログラムを記述する。拡張記述として、カーネルと呼ばれるＦＰＧＡ等とホストと呼ばれるＣＰＵの間のメモリ情報の移行などを記述するが、オリジナルのＣ言語に比べてハードウェアの知識が必要と言われる。

　OpenCLやＣＵＤＡの文法を理解していなくても、容易にＧＰＵ等のヘテロジニアスなハードウェアを用いることができるようにするため、下記取り組みがある。すなわち、ディレクティブでＧＰＵ処理等を行う行を指定して、ディレクティブに基づいてコンパイラが、ＧＰＵやマルチコアＣＰＵのバイナリファイルを作成する。また、OpenMPやOpenACC等の仕様が、それを解釈実行するgccやＰＧＩ等のコンパイラを用いる。

　OpenMPやOpenACC等を用いることで容易に、また、OpenCLやＣＵＤＡ等を用いることでより細かく、ＦＰＧＡやＧＰＵ、マルチコアＣＰＵを利用できるようになっている。しかし、それらのハードウェアを利用することはできても、性能改善は容易ではないのが現状である。例えば、Intel（登録商標）コンパイラという、自動でＣＰＵの複数のコアに処理を分配するコンパイラがある。Intelコンパイラ等は、自動化時は、プログラムのループの中で、並列処理可能なループを見つけ、複数のコアに処理を行わせている。しかし、データコピー等により、単に複数のコアでループを処理しても性能が改善しないことも多い。マルチコアＣＰＵでなく、ＧＰＵやＦＰＧＡの際はメモリも異なるためより複雑である。性能改善には、OpenCLやＣＵＤＡを駆使してチューニングが必要である。また、gcc等を用いて適切なＧＰＵ処理箇所を試行錯誤で探索することが必要である。このように、ヘテロジニアスなハードウェアを用いた性能改善には、技術スキルや、試行錯誤の稼働が必要である。

　ループ文のＧＰＵオフロードとして、ループ文のＧＰＵ処理箇所探索を自動化する取り組みとして、進化計算手法であるＧＡ（Genetic Algorithm：遺伝的アルゴリズム）を用いたオフロードが提案されている（非特許文献１）。

　また、ＦＰＧＡでは、コンパイルに長時間かかり、何度も測定することができないため、ループ文算術強度やオフロード時のＦＰＧＡリソース使用率をもとに、候補とするループ文を絞った後にOpenCL化して測定し適切なパターンを探索する手法が提案されている（非特許文献２）。

Y. Yamato, "Study and Evaluation of Improved Automatic GPU Offloading Method," International Journal of Parallel, Emergent and Distributed Systems, Taylor and Francis, DOI: 10.1080/17445760.2021.1941010, June 2021. Y. Yamato, "Automatic Offloading Method of Loop Statements of Software to FPGA," International Journal of Parallel, Emergent and Distributed Systems, Taylor and Francis, DOI: 10.1080/17445760.2021.1916020, Apr. 2021.

　従来技術において、ヘテロジニアスなハードウェアに対するオフロードは、手動での取組みが主流であり、自動オフロード方式は、非特許文献１，２に記載の技術にとどまる。
　非特許文献１，２では、環境適応ソフトウェアのコンセプトについて、ループ文等のＧＰＵやＦＰＧＡ自動オフロード方式を検証している。
　しかし、非特許文献１，２に記載の自動オフロード方式は、アプリケーションの運用開始前に変換や配置等の適応処理を行うことが前提となっており、運用開始後に利用特性変化等に応じて再構成することは想定されていない。すなわち、非特許文献１，２は、全てアプリケーションの運用開始前の技術であり、運用開始後の再構成については検討がされていない。

　例えば、アプリケーションの運用開始前はＳＱＬクエリが多い前提でＳＱＬ処理をアクセラレートするロジックをＦＰＧＡで構成していたとする。ところが、運用開始後（例えば、半年後）には、ＮｏＳＱＬクエリが多くなっていたため、ＮｏＳＱＬ処理をアクセラレートするロジックのＦＰＧＡを再構成した方がよい場合等である。

　このように、運用開始後に利用特性変化等に応じて再構成することは想定されていないという課題があった。

　このような点に鑑みて本発明がなされたのであり、運用開始前だけでなく、運用開始後の利用特性に応じて、より適切なロジックに再構成することで、リソース量が限定されるＰＬＤ（例えば、ＦＰＧＡ）においてリソース利用の効率化を図ることを課題とする。

　前記した課題を解決するため、アプリケーションの特定処理をＰＬＤ（Programmable Logic Device）にオフロードするオフロードサーバであって、アプリケーションのソースコードを分析するアプリケーションコード分析部と、前記アプリケーションのループ文を特定し、特定した各前記ループ文に対して、前記ＰＬＤにおけるパイプライン処理、並列処理をOpenCLで指定した複数のオフロード処理パターンにより作成してコンパイルするＰＬＤ処理指定部と、前記アプリケーションのループ文の算術強度を算出する算術強度算出部と、前記算術強度算出部が算出した算術強度をもとに、前記算術強度が所定の閾値より高いループ文をオフロード候補として絞り込み、ＰＬＤ処理パターンを作成するＰＬＤ処理パターン作成部と、作成された前記ＰＬＤ処理パターンの前記アプリケーションをコンパイルして、アクセラレータ検証用装置に配置し、前記ＰＬＤにオフロードした際の性能測定用処理を実行する性能測定部と、前記性能測定用処理による性能測定結果をもとに、複数の前記ＰＬＤ処理パターンから最高処理性能のＰＬＤ処理パターンを選択し、最高処理性能の前記ＰＬＤ処理パターンをコンパイルして実行ファイルを作成する実行ファイル作成部と、実際にユーザが利用しているデータのリクエスト処理負荷を分析する処理負荷分析部と、前記処理負荷分析部が分析したリクエスト処理負荷が上位のアプリケーションを特定し、当該アプリケーション利用時のリクエストデータの中から代表データを選定する代表データ選定部と、前記代表データ選定部が選定した代表データをもとに、新たなオフロードパターンを前記アプリケーションコード分析部と前記ＰＬＤ処理指定部と前記算術強度算出部と前記ＰＬＤ処理パターン作成部と前記性能測定部と前記実行ファイル作成部とを実行することにより定め、定めた新たなオフロードパターンの処理時間および利用頻度と、現在のオフロードパターンの処理時間および利用頻度とを比較して性能改善効果を計算する改善度計算部と、前記性能改善効果が所定閾値以上の場合、ＰＬＤ再構成を提案する再構成提案部と、を備えることを特徴とするオフロードサーバとした。

　本発明によれば、運用開始後の利用特性に応じて、より適切なロジックに再構成することができ、リソース量が限定されるＰＬＤ（例えば、ＦＰＧＡ）においてリソース利用の効率化を図ることができる。

本発明の実施形態に係るオフロードサーバを含む環境適応ソフトウェアシステムを示す図である。上記実施形態に係るオフロードサーバの構成例を示す機能ブロック図である。上記実施形態に係るオフロードサーバの自動オフロード処理を示す図である。上記実施形態に係るオフロードサーバの運用開始後の再構成を示すフローチャートである。上記実施形態に係るオフロードサーバの商用リクエストデータ履歴分析処理の詳細フローチャートである。上記実施形態に係るオフロードサーバの商用代表データの抽出処理の詳細フローチャートである。上記実施形態に係るオフロードサーバの実装の動作概要を説明するフローチャートである。上記実施形態に係るオフロードサーバの実装の動作概要を説明する図である。上記実施形態に係るオフロードサーバのＣコードからOpenCL最終解の探索までの流れを説明する図である。本発明の実施形態に係るオフロードサーバの機能を実現するコンピュータの一例を示すハードウェア構成図である。

　次に、本発明を実施するための形態（以下、「本実施形態」と称する。）における、オフロードサーバ１等について説明する。
　以下、明細書の説明において、ＰＬＤ（Programmable Logic Device）として、ＦＰＧＡ（Field Programmable Gate Array）に適用した例について説明する。本発明は、プログラマブルロジックデバイス全般に適用可能である。

（背景説明）
［環境適応ソフトウェア］
　本発明のオフロードサーバが実行する環境適応ソフトウェアは、下記の特徴を有する。すなわち、オフロードサーバは、環境適応ソフトウェアの実行により、一度記述したプログラムコードを、配置先の環境に存在するＧＰＵやＦＰＧＡ、マルチコアＣＰＵ等を利用できるように、変換、リソース設定、配置決定等を自動で行い、アプリケーションを高性能に動作させる。環境適応ソフトウェアの要素として、コードのループ文および機能ブロックを、ＧＰＵ、ＦＰＧＡに自動オフロードする方式、ＧＰＵ等の処理リソース量を適切にアサインする方式がある。

<自動オフロード方式>
　オフロードしたいアプリケーションは、多様である。また、映像処理のための画像分析、センサデータを分析するための機械学習処理等、計算量が多く、時間がかかるアプリケーションでは、ループ文による繰り返し処理が長時間を占めている。そこで、ループ文をＦＰＧＡに自動でオフロードすることで、高速化することがターゲットとして考えられる。

　まず、ループ文をＦＰＧＡ等の別ハードウェアに自動でオフロードする場合の基本的な課題として、下記がある。すなわち、コンパイラが「このループ文はＦＰＧＡ等の別ハードウェアで処理できない」という制限を見つけることは可能であっても、「このループ文はＦＰＧＡ等の別ハードウェアの処理に適している」という適合性を見つけることは難しいのが現状である。また、ループ文をＦＰＧＡに自動でオフロードする場合、一般的にループ回数が多いことや計算処理数等の算術強度が高いループの方が適しているとされている。しかし、実際にどの程度の性能改善になるかは、実測してみないと予測は困難である。そのため、ループ文をＦＰＧＡ等の別ハードウェアにオフロードするという指示を手動で行い、性能測定を試行錯誤することが行われている。
　そこで、実際に性能測定するパターンを絞ってからアクセラレータ検証環境に配置し、コンパイルしてＦＰＧＡ実機で性能測定する回数を減らすことを想定する。

［アプリケーションの運用開始後の再構成］
　アプリケーションの運用開始後の再構成について説明する。
　非特許文献１，２に記載の自動オフロード方式は、アプリケーションの運用開始前に変換や配置等の適応処理を行うことが前提となっていた。
　ちなみに、人工衛星の回路再構成等の特殊用途を除いて、ＦＰＧＡをアプリケーションサーバのアクセラレートに利用する運用において、アプリケーションの運用中（「運用中」は、「運用開始後」の一形態である）に、利用特性に応じてＦＰＧＡロジックを再構成している例は、商用クラウド（Amazon Web Services (AWS)（登録商標）のＦＰＧＡインスタンス等）を見渡してもない。運用中にＦＰＧＡロジックを再構成することは、難度が高いためである。

　本発明は、アプリケーションの運用開始後に利用特性変化等に応じてＦＰＧＡオフロードロジック（以下、ＦＰＧＡロジック）を再構成する。例えば、運用中に利用特性に応じてＦＰＧＡロジックを再構成する。

　本発明は、まず、通常のＣＰＵ向けプログラムをＦＰＧＡにオフロードして運用開始する（<運用開始前の変換や配置等の適応処理>）。
　次に、リクエスト特性を分析し、別プログラムにＦＰＧＡロジックを変更する（<運用開始後の再構成>）。

（実施形態）
　図１は、本実施形態に係るオフロードサーバ１を含む環境適応ソフトウェアシステムを示す図である。
　本実施形態に係る環境適応ソフトウェアシステムは、従来の環境適応ソフトウェアの構成に加え、オフロードサーバ１を含むことを特徴とする。オフロードサーバ１は、アプリケーションの特定処理をアクセラレータにオフロードするオフロードサーバである。また、オフロードサーバ１は、クラウドレイヤ２、ネットワークレイヤ３、デバイスレイヤ４の３層に位置する各装置と通信可能に接続される。クラウドレイヤ２にはデータセンタ３０が、ネットワークレイヤ３にはネットワークエッジ２０が、デバイスレイヤ４にはゲートウェイ１０が、それぞれ配設される。

　そこで、本実施形態に係るオフロードサーバ１を含む環境適応ソフトウェアシステムでは、デバイスレイヤ、ネットワークレイヤ、クラウドレイヤのそれぞれのレイヤにおいて、機能配置や処理オフロードを適切に行うことによる効率化を実現する。主に、機能を３レイヤの適切な場所に配置し処理させる機能配置効率化と、画像分析等の機能処理をＧＰＵやＦＰＧＡ等のヘテロハードウェアにオフロードすることでの効率化を図る。

　以下、本実施形態に係るオフロードサーバ１が、環境適応ソフトウェアシステムにおけるユーザ向けサービス利用のバックグラウンドで実行するオフロード処理を行う際の構成例について説明する。
　サービスを提供する際は、初日は試し利用等の形でユーザにサービス提供し、そのバックグラウンドで画像分析等のオフロード処理を行い、翌日以降は画像分析をＦＰＧＡにオフロードしてリーズナブルな価格で見守りサービスを提供できるようにすることを想定する。

　図２は、本発明の実施形態に係るオフロードサーバ１の構成例を示す機能ブロック図である。
　オフロードサーバ１は、環境適応ソフトウェア処理を実行する装置である。オフロードサーバ１は、この環境適応ソフトウェアの一形態として、アプリケーションの特定処理をアクセラレータに自動的にオフロードする（<自動オフロード>）。
　また、オフロードサーバ１は、エミュレータに接続可能である。

　図２に示すように、オフロードサーバ１は、制御部１１と、入出力部１２と、記憶部１３と、検証用マシン１４（Verification machine）(アクセラレータ検証用装置)と、を含んで構成される。

　入出力部１２は、各機器等との間で情報の送受信を行うための通信インタフェースと、タッチパネルやキーボード等の入力装置や、モニタ等の出力装置との間で情報の送受信を行うための入出力インタフェースとから構成される。

　記憶部１３は、ハードディスクやフラッシュメモリ、ＲＡＭ（Random Access Memory）等により構成される。
　この記憶部１３には、コードパターンＤＢ１３１、設備リソースＤＢ１３２、テストケースＤＢ（Test case database）１３３が記憶されるとともに、制御部１１の各機能を実行させるためのプログラム（オフロードプログラム）や、制御部１１の処理に必要な情報（例えば、中間言語ファイル(Intermediate file)１３４）が一時的に記憶される。

　テストケースＤＢ１３３には、性能試験項目が格納される。テストケースＤＢ１３３は、高速化するアプリケーションの性能を測定するような試験を行うための情報が格納される。例えば、画像分析処理の深層学習アプリケーションであれば、サンプルの画像とそれを実行する試験項目である。
　検証用マシン１４は、環境適応ソフトウェアの検証用環境として、ＣＰＵ（Central Processing Unit）、ＧＰＵ、ＦＰＧＡ（アクセラレータ）を備える。
　なお、図２では、オフロードサーバ１が検証用マシン１４を備える構成としたが、検証用マシン１４は、オフロードサーバ１の外にあってもよい。

　制御部１１は、オフロードサーバ１全体の制御を司る自動オフロード機能部（Automatic Offloading function）である。制御部１１は、例えば、記憶部１３に格納されたプログラム（オフロードプログラム）を不図示のＣＰＵが、ＲＡＭに展開し実行することにより実現される。

　制御部１１は、アプリケーションコード指定部（Specify application code）１１１と、アプリケーションコード分析部（Analyze application code）１１２と、ＰＬＤ処理指定部１１３と、算術強度算出部１１４と、ＰＬＤ処理パターン作成部１１５と、性能測定部１１６と、実行ファイル作成部１１７と、本番環境配置部（Deploy final binary files to production environment）１１８と、性能測定テスト抽出実行部（Extract performance test cases and run automatically）１１９と、リクエスト処理負荷分析部１２０（処理負荷分析部）と、代表データ選定部１２１と、改善度計算部１２２と、再構成提案部１２３と、ユーザ提供部（Provide price and performance to a user to judge）１２４と、を備える。

<アプリケーションコード指定部１１１>
　アプリケーションコード指定部１１１は、入力されたアプリケーションコードの指定を行う。具体的には、アプリケーションコード指定部１１１は、ユーザに提供しているサービスの処理機能（画像分析等）を特定する。

<アプリケーションコード分析部１１２>
　アプリケーションコード分析部１１２は、処理機能のソースコードを分析し、ループ文やＦＦＴライブラリ呼び出し等の構造を把握する。

<ＰＬＤ処理指定部１１３>
　ＰＬＤ処理指定部１１３は、アプリケーションのループ文（繰り返し文）を特定し、特定した各ループ文に対して、ＰＬＤにおけるパイプライン処理、並列処理について、OpenＣＬで指定した複数のオフロード処理パターンを作成してコンパイルする。
　ＰＬＤ処理指定部１１３は、オフロード範囲抽出部（Extract offloadable area）１１３ａと、中間言語ファイル出力部（Output intermediate file）１１３ｂと、を備える。

　オフロード範囲抽出部１１３ａは、ループ文やＦＦＴ等、ＦＰＧＡにオフロード可能な処理を特定し、オフロード処理に応じた中間言語を抽出する。

　中間言語ファイル出力部１１３ｂは、抽出した中間言語ファイル１３４を出力する。中間言語抽出は、一度で終わりでなく、適切なオフロード領域探索のため、実行を試行して最適化するため反復される。

<算術強度算出部１１４>
　算術強度算出部１１４は、例えばROSEフレームワーク（登録商標）等の算術強度（Arithmetic Intensity）分析ツールを用いて、アプリケーションのループ文の算術強度を算出する。算術強度は、プログラムの稼働中に実行した浮動小数点演算（floating point number，ＦＮ）の数を、主メモリへのアクセスしたbyte数で割った値（ＦＮ演算／メモリアクセス）である。
　算術強度は、計算回数が多いと増加し、アクセス数が多いと減少する指標であり、算術強度が高い処理はプロセッサにとって重い処理となる。そこで、算術強度分析ツールで、ループ文の算術強度を分析する。ＰＬＤ処理パターン作成部１１５は、算術強度が高いループ文をオフロード候補に絞る。

　算術強度の計算例について述べる。
　１回のループの中での浮動小数点計算処理が１秒に１０回（１０FLOPS）行われ、ループの中で使われるデータが２byteであるとする。ループ毎に同じサイズのデータが使われる際は、１０／２＝５ [FLOPS/byte]が算術強度となる。
　なお、算術強度では、ループ回数が考慮されないため、本実施形態では、算術強度に加えて、ループ回数も考慮して絞り込む。

<ＰＬＤ処理パターン作成部１１５>
　ＰＬＤ処理パターン作成部１１５は、算術強度算出部１１４が算出した算術強度をもとに、算術強度が所定の閾値より高い（以下、適宜、高算術強度という）ループ文をオフロード候補として絞り込み、ＰＬＤ処理パターンを作成する。
　また、ＰＬＤ処理パターン作成部１１５は、基本動作として、コンパイルエラーが出るループ文（繰り返し文）に対して、オフロード対象外とするとともに、コンパイルエラーが出ない繰り返し文に対して、ＰＬＤ処理するかしないかの指定を行うＰＬＤ処理パターンを作成する。

・ループ回数測定機能
　ＰＬＤ処理パターン作成部１１５は、ループ回数測定機能として、プロファイリングツールを用いてアプリケーションのループ文のループ回数を測定し、ループ文のうち、高算術強度で、ループ回数が所定の回数より多い（以下、適宜、高ループ回数という）ループ文を絞り込む。ループ回数把握には、GNUカバレッジのgcov等を用いる。プロファイリングツールとしては、「GNUプロファイラ(gprof)」、「GNUカバレッジ(gcov)」が知られている。双方とも各ループの実行回数を調査できるため、どちらを用いてもよい。

　また、算術強度分析では、ループ回数は特に見えないため、ループ回数が多く負荷が高いループを検出するため、プロファイリングツールを用いて、ループ回数を測定する。ここで、算術強度の高さは、ＦＰＧＡへのオフロードに向いた処理かどうかを表わし、ループ回数×算術強度は、ＦＰＧＡへのオフロードに関連する負荷が高いかどうかを表わす。

・OpenＣＬ作成機能
　ＰＬＤ処理パターン作成部１１５は、OpenＣＬ作成機能として、絞り込まれた各ループ文をＦＰＧＡにオフロードするためのOpenCLを作成（OpenCL化）する。すなわち、ＰＬＤ処理パターン作成部１１５は、絞り込んだループ文をオフロードするOpenCLをコンパイルする。また、ＰＬＤ処理パターン作成部１１５は、性能測定された中でＣＰＵに比べ高性能化されたループ文をリスト化し、リストのループ文を組み合わせてオフロードするOpenCLを作成する。

　OpenCL化について述べる。
　ＰＬＤ処理パターン作成部１１５は、ループ文をOpenCL等の高位言語化する。まず、ＣＰＵ処理のプログラムを、カーネル（ＦＰＧＡ）とホスト（ＣＰＵ）に、OpenCL等の高位言語の文法に従って分割する。例えば、１０個のfor文の内一つのfor文をＦＰＧＡで処理する場合は、その一つをカーネルプログラムとして切り出し、OpenCLの文法に従って記述する。OpenCLの文法例については、後記する。

　さらに、分割する際、より高速化するための技法を盛り込むこともできる。一般に、ＦＰＧＡを用いて高速化するためには、ローカルメモリキャッシュ、ストリーム処理、複数インスタンス化、ループ文の展開処理、ネストループ文の統合、メモリインターリーブ等がある。これらは、ループ文によっては、絶対効果があるわけではないが、高速化するための手法として、よく利用されている。

　OpenCLのＣ言語の文法に沿って作成したカーネルは、OpenCLのＣ言語のランタイムＡＰＩを利用して、作成するホスト（例えば、ＣＰＵ）側のプログラムによりデバイス（例えば、ＦＰＧＡ）で実行される。カーネル関数hello()をホスト側から呼び出す部分は、OpenCLランタイムＡＰＩの一つであるclEnqueueTask()を呼び出すことである。
　ホストコードで記述するOpenCLの初期化、実行、終了の基本フローは、下記ステップ１～１３である。このステップ１～１３のうち、ステップ１～１０がカーネル関数hello()をホスト側から呼び出すまでの手続（準備）であり、ステップ１１でカーネルの実行となる。

１．プラットフォーム特定
　OpenCLランタイムＡＰＩで定義されているプラットフォーム特定機能を提供する関数clGetPlatformIDs()を用いて、OpenCLが動作するプラットフォームを特定する。

２．デバイス特定
　OpenCLランタイムＡＰＩで定義されているデバイス特定機能を提供する関数clGetDeviceIDs()を用いて、プラットフォームで使用するＧＰＵ等のデバイスを特定する。

３．コンテキスト作成
　OpenCLランタイムＡＰＩで定義されているコンテキスト作成機能を提供する関数clCreateContext()を用いて、OpenCLを動作させる実行環境となるOpenCLコンテキストを作成する。

４．コマンドキュー作成
　OpenCLランタイムＡＰＩで定義されているコマンドキュー作成機能を提供する関数clCreateCommandQueue()を用いて、デバイスを制御する準備であるコマンドキューを作成する。OpenCLでは、コマンドキューを通して、ホストからデバイスに対する働きかけ（カーネル実行コマンドやホスト－デバイス間のメモリコピーコマンドの発行）を実行する。

５．メモリオブジェクト作成
　OpenCLランタイムＡＰＩで定義されているデバイス上にメモリを確保する機能を提供する関数clCreateBuffer()を用いて、ホスト側からメモリオブジェクトを参照できるようにするメモリオブジェクトを作成する。

６．カーネルファイル読み込み
　デバイスで実行するカーネルは、その実行自体をホスト側のプログラムで制御する。このため、ホストプログラムは、まずカーネルプログラムを読み込む必要がある。カーネルプログラムには、OpenCLコンパイラで作成したバイナリデータや、OpenCL　Ｃ言語で記述されたソースコードがある。このカーネルファイルを読み込む（記述省略）。なお、カーネルファイル読み込みでは、OpenCLランタイムＡＰＩは使用しない。

７．プログラムオブジェクト作成
　OpenCLでは、カーネルプログラムをプログラムプロジェクトとして認識する。この手続きがプログラムオブジェクト作成である。
　OpenCLランタイムＡＰＩで定義されているプログラムオブジェクト作成機能を提供する関数clCreateProgramWithSource()を用いて、ホスト側からメモリオブジェクトを参照できるようにするプログラムオブジェクトを作成する。カーネルプログラムのコンパイル済みバイナリ列から作成する場合は、clCreateProgramWithBinary()を使用する。

８．ビルド
　ソースコードとして登録したプログラムオブジェクトをOpenCL　Ｃコンパイラ・リンカを使いビルドする。
　OpenCLランタイムＡＰＩで定義されているOpenCL　Ｃコンパイラ・リンカによるビルドを実行する関数clBuildProgram()を用いて、プログラムオブジェクトをビルドする。なお、clCreateProgramWithBinary()でコンパイル済みのバイナリ列からプログラムオブジェクトを生成した場合、このコンパイル手続は不要である。

９．カーネルオブジェクト作成
　OpenCLランタイムＡＰＩで定義されているカーネルオブジェクト作成機能を提供する関数clCreateKernel()を用いて、カーネルオブジェクトを作成する。１つのカーネルオブジェクトは、１つのカーネル関数に対応するので、カーネルオブジェクト作成時には、カーネル関数の名前(hello)を指定する。また、複数のカーネル関数を１つのプログラムオブジェクトとして記述した場合、１つのカーネルオブジェクトは、１つのカーネル関数に１対１で対応するので、clCreateKernel()を複数回呼び出す。

１０．カーネル引数設定
　OpenCLランタイムＡＰＩで定義されているカーネルへ引数を与える（カーネル関数が持つ引数へ値を渡す）機能を提供する関数clSetKernel()を用いて、カーネル引数を設定する。
　以上、上記ステップ１～１０で準備が整い、ホスト側からデバイスでカーネルを実行するステップ１１に入る。

１１．カーネル実行
　カーネル実行（コマンドキューへ投入）は、デバイスに対する働きかけとなるので、コマンドキューへのキューイング関数となる。
　OpenCLランタイムＡＰＩで定義されているカーネル実行機能を提供する関数clEnqueueTask()を用いて、カーネルhelloをデバイスで実行するコマンドをキューイングする。カーネルhelloを実行するコマンドがキューイングされた後、デバイス上の実行可能な演算ユニットで実行されることになる。

１２．メモリオブジェクトからの読み込み
　OpenCLランタイムＡＰＩで定義されているデバイス側のメモリからホスト側のメモリへデータをコピーする機能を提供する関数clEnqueueReadBuffer()を用いて、デバイス側のメモリ領域からホスト側のメモリ領域にデータをコピーする。また、ホスト側からホスト側のメモリへデータをコピーする機能を提供する関数clEnqueueWrightBuffer()を用いて、ホスト側のメモリ領域からデバイス側のメモリ領域にデータをコピーする。なお、これらの関数は、デバイスに対する働きかけとなるので、一度コマンドキューへコピーコマンドがキューイングされてからデータコピーが始まることになる。

１３．オブジェクト解放
　最後に、ここまでに作成してきた各種オブジェクトを解放する。
　以上、OpenCL　Ｃ言語に沿って作成されたカーネルの、デバイス実行について説明した。

・リソース量算出機能
　ＰＬＤ処理パターン作成部１１５は、リソース量算出機能として、作成したOpenCLをプレコンパイルして利用するリソース量を算出する（「１回目のリソース量算出」）。ＰＬＤ処理パターン作成部１１５は、算出した算術強度およびリソース量に基づいてリソース効率を算出し、算出したリソース効率をもとに、各ループ文で、リソース効率が所定の値より高いｃ個のループ文を選ぶ。
　ＰＬＤ処理パターン作成部１１５は、組み合わせたオフロードOpenCLでプレコンパイルして利用するリソース量を算出する（「２回目のリソース量算出」）。ここで、プレコンパイルせず、１回目測定前のプレコンパイルでのリソース量の和でもよい。

<性能測定部１１６>
　性能測定部１１６は、作成されたＰＬＤ処理パターンのアプリケーションをコンパイルして、検証用マシン１４に配置し、ＰＬＤにオフロードした際の性能測定用処理を実行する。
　性能測定部１１６は、バイナリファイル配置部（Deploy binary files）１１６ａを備える。バイナリファイル配置部１１６ａは、ＦＰＧＡを備えた検証用マシン１４に、中間言語から導かれる実行ファイルをデプロイ(配置)する。

　性能測定部１１６は、配置したバイナリファイルを実行し、オフロードした際の性能を測定するとともに、性能測定結果を、オフロード範囲抽出部１１３ａに戻す。この場合、オフロード範囲抽出部１１３ａは、別のＰＬＤ処理パターン抽出を行い、中間言語ファイル出力部１１３ｂは、抽出された中間言語をもとに、性能測定を試行する（後記図３の符号ａａ参照）。

　性能測定の具体例について述べる。
　ＰＬＤ処理パターン作成部１１５は、高リソース効率のループ文を絞り込み、実行ファイル作成部１１７が絞り込んだループ文をオフロードするOpenCLをコンパイルする。性能測定部１１６は、コンパイルされたプログラムの性能を測定する（「１回目の性能測定」）。

　そして、ＰＬＤ処理パターン作成部１１５は、性能測定された中でＣＰＵに比べ高性能化されたループ文をリスト化する。ＰＬＤ処理パターン作成部１１５は、リストのループ文を組み合わせてオフロードするOpenCLを作成する。ＰＬＤ処理パターン作成部１１５は、組み合わせたオフロードOpenCLでプレコンパイルして利用するリソース量を算出する。
　なお、プレコンパイルせず、１回目測定前のプレコンパイルでのリソース量の和でもよい。実行ファイル作成部１１７は、組み合わせたオフロードOpenCLをコンパイルし、性能測定部１１６は、コンパイルされたプログラムの性能を測定する（「２回目の性能測定」）。

<実行ファイル作成部１１７>
　実行ファイル作成部１１７は、所定回数繰り返された、性能測定結果をもとに、複数のＰＬＤ処理パターンから最高処理性能のＰＬＤ処理パターンを選択し、最高処理性能のＰＬＤ処理パターンをコンパイルして実行ファイルを作成する。

<本番環境配置部１１８>
　本番環境配置部１１８は、作成した実行ファイルを、ユーザ向けの本番環境に配置する（「最終バイナリファイルの本番環境への配置」）。本番環境配置部１１８は、最終的なオフロード領域を指定したパターンを決定し、ユーザ向けの本番環境にデプロイする。

<性能測定テスト抽出実行部１１９>
　性能測定テスト抽出実行部１１９は、実行ファイル配置後、テストケースＤＢ１３３から性能試験項目を抽出し、性能試験を実行する。
　性能測定テスト抽出実行部１１９は、実行ファイル配置後、ユーザに性能を示すため、性能試験項目をテストケースＤＢ１３３から抽出し、抽出した性能試験を自動実行する。

<リクエスト処理負荷分析部１２０>
　リクエスト処理負荷分析部１２０は、商用代表データ（実際にユーザが利用しているデータ）のリクエスト処理負荷を分析する。

　リクエスト処理負荷分析部１２０は、所定期間の各アプリケーション利用履歴から、実処理時間と利用回数合計を計算する。

　リクエスト処理負荷分析部１２０は、負荷上位アプリケーションの一定期間のリクエストデータを取得し、データサイズを一定サイズごとに整列させ度数分布を作成する。

<代表データ選定部１２１>
　代表データ選定部１２１は、リクエスト処理負荷分析部１２０が分析した処理負荷が上位のアプリケーションを特定し、当該アプリケーション利用時のリクエストデータの中から代表データを選定する。具体的には、代表データ選定部１２１は、リクエスト処理負荷分析部１２０が分析した、データサイズ度数分布の最頻値Modeに該当する実リクエストデータから、どれか一つデータを選び、代表データに選定する。

<改善度計算部１２２>
　改善度計算部１２２は、代表データ選定部１２１が選定した代表データをもとに、新たなオフロードパターン（検証環境で見つかった新たなオフロードパターン）をアプリケーションコード分析部１１２とＰＬＤ処理指定部１１３と算術強度算出部１１４とＰＬＤ処理パターン作成部１１５と性能測定部１１６と実行ファイル作成部１１７とを実行することにより定め、定めた新たなオフロードパターンの処理時間および利用頻度と、現在のオフロードパターンの処理時間および利用頻度とを比較して性能改善効果を計算する。

　改善度計算部１２２は、現在のオフロードパターンと複数の新たなオフロードパターンの処理時間を測定し、商用利用頻度に基づく性能改善効果を、(検証環境実処理削減時間)×(商用環境利用頻度)に従って計算する。

<再構成提案部１２３>
　再構成提案部１２３は、性能改善効果が所定閾値以上の場合、ＰＬＤ再構成を提案する。

<ユーザ提供部１２４>
　ユーザ提供部１２４は、性能試験結果を踏まえた、価格・性能等の情報をユーザに提示する（「価格・性能等の情報のユーザへの提供」）。テストケースＤＢ１３３には、アプリケーションの性能を測定する試験を自動で行うためのデータが格納されている。ユーザ提供部１２４は、テストケースＤＢ１３３の試験データを実行した結果と、システムに用いられるリソース（仮想マシンや、ＦＰＧＡインスタンス、ＧＰＵインスタンス等）の各単価から決まるシステム全体の価格をユーザに提示する。ユーザは、提示された価格・性能等の情報をもとに、サービスの課金利用開始を判断する。

　以下、上述のように構成されたオフロードサーバ１の自動オフロード動作について説明する。
　本実施形態に係るオフロードサーバ１は、ＦＰＧＡロジックの運用開始後の再構成を実行することに特徴がある。オフロードサーバ１が、環境適応ソフトウェアの一形態として実行する<自動オフロード処理>は、運用開始前と、運用開始後の再構成とで同じである。すなわち、図３に示すオフロードサーバ１の自動オフロード処理は、運用開始前と、運用開始後の再構成とで同じであるが、運用開始前では扱うデータが想定利用データであるのに対し、運用開始後の再構成では、扱うデータが実際に商用で利用されているデータ（商用代表データ）である点が異なる。

［自動オフロード動作］
　本実施形態のオフロードサーバ１は、環境適応ソフトウェアの要素技術としてユーザアプリケーションロジックのＦＰＧＡ自動オフロードに適用した例である。
　図３は、オフロードサーバ１の自動オフロード処理を示す図である。図３の<自動オフロード処理>は、運用開始前と、運用開始後の再構成とで同じである。

　図３に示すように、オフロードサーバ１は、環境適応ソフトウェアの要素技術に適用される。オフロードサーバ１は、環境適応ソフトウェア処理を実行する制御部（自動オフロード機能部）１１と、コードパターンＤＢ１３１と、設備リソースＤＢ１３２と、テストケースＤＢ１３３と、中間言語ファイル１３４と、検証用マシン１４と、を有している。

　オフロードサーバ１は、ユーザが利用するアプリケーションコード（Application code）１３０を取得する。

　ユーザは、商用環境であるOpenIoTリソース１５、例えば、各種デバイス（Device）１５１、ＣＰＵ-ＧＰＵを有する装置１５２、ＣＰＵ-ＦＰＧＡを有する装置１５３、ＣＰＵを有する装置１５４を利用する。オフロードサーバ１は、機能処理をＣＰＵ-ＧＰＵを有する装置１５２、ＣＰＵ-ＦＰＧＡを有する装置１５３のアクセラレータに自動オフロードする。

　オフロードサーバ１は、事業者が提供する商用環境および検証環境の環境適応機能をもとに、さらにコードパターンＤＢ１３１、設備リソースＤＢ１３２およびテストケースＤＢ１３３からなるプラットフォーム機能を連携させて、環境適応ソフトウェア処理を実行する。

　以下、図３のステップ番号を参照して、自動オフロード動作（運用開始前）の各部の動作を説明する。
［自動オフロード動作（運用開始前）］
　まず、アプリケーションの運用開始前に必要となる、コードの変換、リソース量の調整、配置場所の調整、検証を行う。

<ステップＳ１１：Specify application code：アプリケーションコード指定>
　ステップＳ１１において、アプリケーションコード指定部１１１（図２参照）は、ユーザに提供しているサービスの処理機能（画像分析等）を特定する。具体的には、アプリケーションコード指定部１１１は、入力されたアプリケーションコードの指定を行う。

<ステップＳ１２：Analyze application code：アプリケーションコードの分析>
　ステップＳ１２において、アプリケーションコード分析部１１２（図２参照）は、処理機能のソースコードを分析し、ループ文やＦＦＴライブラリ呼び出し等の構造を把握する。

<ステップＳ２１：Extract offloadable area：オフロード可能領域の抽出>
　ステップＳ２１において、ＰＬＤ処理指定部１１３（図２参照）は、アプリケーションのループ文（繰り返し文）を特定し、各繰り返し文に対して、ＦＰＧＡにおける並列処理またはパイプライン処理を指定して、高位合成ツールでコンパイルする。具体的には、オフロード範囲抽出部１１３ａ（図２参照）は、ループ文等、ＦＰＧＡにオフロード可能な処理を特定し、オフロード処理に応じた中間言語としてOpenCLを抽出する。

<ステップＳ２２：Output intermediate file：中間言語ファイルの出力>
　ステップＳ２２において、中間言語ファイル出力部１１３ｂ（図２参照）は、中間言語ファイル１３４を出力する。中間言語抽出は、一度で終わりでなく、適切なオフロード領域探索のため、実行を試行して最適化するため反復される。

<ステップＳ２３：Compile error：ＰＬＤ処理パターン作成>
　ステップＳ２３において、ＰＬＤ処理パターン作成部１１５（図２参照）は、コンパイルエラーが出るループ文に対して、オフロード対象外とするとともに、コンパイルエラーが出ない繰り返し文に対して、ＦＰＧＡ処理するかしないかの指定を行うＰＬＤ処理パターンを作成する。

<ステップＳ３１：Deploy binary files：実行ファイルの配置>
　ステップＳ３１において、バイナリファイル配置部１１６ａ（図２参照）は、ＦＰＧＡを備えた検証用マシン１４に、中間言語から導かれる実行ファイルをデプロイする。バイナリファイル配置部１１６ａは、配置したファイルを起動し、想定するテストケースを実行して、オフロードした際の性能を測定する。

<ステップＳ３２：Measure performances：適切なパターン検索のための性能測定>
　ステップＳ３２において、性能測定部１１６（図２参照）は、配置したファイルを実行し、オフロードした際の性能を測定する。
　オフロードする領域をより適切にするため、この性能測定結果は、オフロード範囲抽出部１１３ａに戻され、オフロード範囲抽出部１１３ａが、別パターンの抽出を行う。そして、中間言語ファイル出力部１１３ｂは、抽出された中間言語をもとに、性能測定を試行する（図３の符号ａａ参照）。性能測定部１１６は、検証環境での性能測定を繰り返し、最終的にデプロイするコードパターンを決定する。

　図３の符号ａａに示すように、制御部１１は、上記ステップＳ１２乃至ステップＳ２３を繰り返し実行する。制御部１１の自動オフロード機能をまとめると、下記である。すなわち、ＰＬＤ処理指定部１１３は、アプリケーションのループ文（繰り返し文）を特定し、各繰返し文に対して、ＦＰＧＡにおける並列処理またはパイプライン処理をOpenCLで指定して、高位合成ツールでコンパイルする。そして、ＰＬＤ処理パターン作成部１１５は、コンパイルエラーが出るループ文を、オフロード対象外とし、コンパイルエラーが出ないループ文に対して、ＰＬＤ処理するかしないかの指定を行うＰＬＤ処理パターンを作成する。そして、バイナリファイル配置部１１６ａは、該当ＰＬＤ処理パターンのアプリケーションをコンパイルして、検証用マシン１４に配置し、性能測定部１１６が、検証用マシン１４で性能測定用処理を実行する。実行ファイル作成部１１７は、所定回数繰り返された、性能測定結果をもとに、複数のＰＬＤ処理パターンから最高処理性能のパターンを選択し、選択パターンをコンパイルして実行ファイルを作成する。

<ステップＳ４１：リソースサイズの決定>
　制御部１１は、リソースサイズを決定する（図３の符号ｂｂ参照）。

<ステップＳ５１：適切な配置場所の選択>
　制御部１１は、設備リソースＤＢ１３２を参照して適切な配置場所を選択する。

<ステップＳ６１：Deploy final binary files to production environment：最終ファイルの商用環境配置>
　ステップＳ６１において、本番環境配置部１１８は、最終的なオフロード領域を指定したパターンを決定し、ユーザ向けの本番環境にデプロイする。

<ステップＳ６２：Extract performance test cases and run automatically：テストケース抽出と正常性確認>
　ステップＳ６２において、性能測定テスト抽出実行部１１９は、実行ファイル配置後、ユーザに性能を示すため、性能試験項目をテストケースＤＢ１３３から抽出し、抽出した性能試験を自動実行する。

<ステップＳ６３：Provide price and performance to a user to judge：利用開始判断のための価格と性能のユーザ提示>
　ステップＳ６３において、ユーザ提供部１２４は、性能試験結果を踏まえた、価格・性能等の情報をユーザに提示する。ユーザは、提示された価格・性能等の情報をもとに、サービスの課金利用開始を判断する。

　上記ステップＳ１１～ステップＳ６３は、ユーザのサービス利用のバックグラウンドで行われ、例えば、仮利用の初日の間に行う等を想定している。また、コスト低減のためにバックグラウンドで行う処理は、ＧＰＵ・ＦＰＧＡオフロードのみを対象としてもよい。

　上記したように、オフロードサーバ１の制御部（自動オフロード機能部）１１は、環境適応ソフトウェアの要素技術に適用した場合、機能処理のオフロードのため、ユーザが利用するアプリケーションのソースコードから、オフロードする領域を抽出して中間言語を出力する（ステップＳ１１～ステップＳ２３）。制御部１１は、中間言語から導かれる実行ファイルを、検証用マシン１４に配置実行し、オフロード効果を検証する（ステップＳ３１～ステップＳ３２）。検証を繰り返し、適切なオフロード領域を定めたのち、制御部１１は、実際にユーザに提供する本番環境に、実行ファイルをデプロイし、サービスとして提供する（ステップＳ４１～ステップＳ６３）。

　なお、上記では、環境適応に必要な、コード変換、リソース量調整、配置場所調整を一括して行う処理フローを説明したが、これに限らず、行いたい処理だけ切出すことも可能である。例えば、ＦＰＧＡ向けにコード変換だけ行いたい場合は、上記ステップＳ１１～ステップＳ３１の、環境適応機能や検証環境等必要な部分だけ利用すればよい。

<ＦＰＧＡ自動オフロード>
　上述したコード分析は、Clang等の構文解析ツールを用いて、アプリケーションコードの分析を行う。コード分析は、オフロードするデバイスを想定した分析が必要になるため、一般化は難しい。ただし、ループ文や変数の参照関係等のコードの構造を把握したり、機能ブロックとしてＦＦＴ処理を行う機能ブロックであることや、ＦＦＴ処理を行うライブラリを呼び出している等を把握することは可能である。機能ブロックの判断は、オフロードサーバが自動判断することは難しい。これもDeckard等の類似コード検出ツールを用いて類似度判定等で把握することは可能である。ここで、Clangは、C/C++向けツールであるが、解析する言語に合わせたツールを選ぶ必要がある。

　また、アプリケーションの処理をオフロードする場合には、ＧＰＵ、ＦＰＧＡ、ＩｏＴＧＷ等それぞれにおいて、オフロード先に合わせた検討が必要となる。一般に、性能に関しては、最大性能になる設定を一回で自動発見するのは難しい。このため、オフロードパターンを、性能測定を検証環境で何度か繰り返すことにより試行し、高速化できるパターンを見つけることを行う。

　以上、［自動オフロード動作（運用開始前）］について説明した。自動オフロード動作（運用開始前）をまとめると下記である。
　図３のステップＳ１１，Ｓ１２：コード分析
　図３のステップＳ２１～ステップＳ２３：オフロード可能部抽出
　図３のステップＳ３１～ステップＳ３２：適切なオフロード部探索
　図３のステップＳ４１：リソース量調整
　図３のステップＳ５１：配置場所調整
　図３のステップＳ６１～ステップＳ６３：実行ファイル配置と動作検証

　上記ステップＳ１１～ステップＳ６３は、アプリケーションの運用開始前に必要となる、コードの変換、リソース量の調整、配置場所の調整、検証である。

［自動オフロード動作（運用開始後）］
　次に、図３のステップ番号を参照して、自動オフロード動作（運用開始後）の各部の動作を説明する。
　上述したように、オフロードサーバ１は、ＦＰＧＡロジックの運用開始後の再構成を実行する。
　運用開始後の再構成では、アプリケーションの運用開始後に、利用特性等を分析して、必要な再構成を行う。再構成の対象は、運用開始前と同様に、コード変換、リソース量の調整、配置場所の調整である。

<運用中ＦＰＧＡ再構成に向けた基本方針>
　まず、運用中ＦＰＧＡ再構成に向けた基本方針について述べる。
　図３の手法（詳細には、後記図４のフローチャート参照）で、ユーザが指定したアプリケーションで、ＦＰＧＡに適したループ文部分をＦＰＧＡに自動オフロードすることができる。ユーザが使う商用環境にオフロード後、商用環境での実際の性能と価格を確認し、ユーザはアプリケーションを利用開始する。ただし、性能最適化用テストケース（複数のオフロードパターンで性能比較する際に性能測定する項目）は、ユーザが指定した、運用開始前の想定利用データを利用しており、運用開始後に実利用されるデータから大きく離れる可能性がある。

　そのため、以下では、運用開始後の利用形態が、最初の想定と異なり、ＦＰＧＡには別ロジックをオフロードした方が、性能が向上する等の場合に、ＦＰＧＡロジックをユーザ影響を抑えつつ再構成することを検討する。再構成は、同じアプリケーションでも異なるループ文オフロードに変える場合もあれば、異なるアプリケーションのオフロードに変える場合もある。

　ＦＰＧＡの再構成は、動的再構成、静的再構成の２つがある。動的再構成は、ＦＰＧＡを動かしながら回路構成を変更する技術であり、書換のための断時間はmsのオーダーである。一方、静的再構成は、ＦＰＧＡを停止してから回路構成を変更する技術であり、断時間は１秒程度である。動的再構成または静的再構成のいずれの手法を採るかは、断時間のユーザ影響度によって、ＦＰＧＡを製造するベンダの提供する再構成手法を選択すればよい。しかし、どちらの手法でも断時間は発生することや、別ロジックへの書換は動作確認の試験が必要なことから、頻繁に再構成するべきではなく、効果が閾値以上の場合だけ提案する等制限を設ける。

　検討する再構成は、一定期間（例えば、１か月等）のリクエスト傾向の分析から始まる。リクエスト傾向を分析し、現在オフロードしているアプリケーションより処理負荷が高いか同等のものがあるかを把握する。次に、処理負荷が高いリクエストを、想定利用データでなく実際に商用で利用されているデータ（実際にユーザが利用しているデータ）を使って、ＦＰＧＡオフロードの最適化試行を検証環境（図３）で行う。

　検証により見つかった新しいオフロードパターンが、現在のオフロードパターンより十分改善効果が高いかを、処理時間および利用頻度の計算結果が閾値を上回るかそれ以下かで判定する。処理時間および利用頻度の計算結果が閾値を上回る場合は、ユーザに再構成を提案する。ユーザ了承後、商用環境を再構成するが、できるだけユーザ影響を抑えて再構成する。また、処理時間および利用頻度の計算結果が閾値以下の場合、ユーザに再構成の提案を行わない。

<運用開始後の再構成を示すフローチャート>
　図４は、オフロードサーバ１の運用開始後の再構成を示すフローチャートである。ＦＰＧＡ再構成に適用した例である。
　ステップＳ７１で、リクエスト処理負荷分析部１２０は、実際にユーザが利用しているデータのリクエスト処理負荷を分析する。なお、商用リクエストデータ履歴分析処理の詳細フローは、図５で後記する。

　ステップＳ７２で、代表データ選定部１２１は、複数の負荷上位アプリケーションについて、商用代表データのテストケースを高速化するオフロードパターンを、検証環境測定を通じて抽出する。具体的には、代表データ選定部１２１は、リクエスト処理負荷分析部１２０が分析した、データサイズ度数分布の最頻値Modeに該当する実リクエストデータから、どれか一つデータを選び、代表データに選定する。
　上記ステップＳ７１～Ｓ７２では、負荷上位アプリケーションを選定する。

　ステップＳ７３で、改善度計算部１２２は、代表データ選定部１２１が選定した代表データをもとに、新たなオフロードパターン（検証環境で見つかった新たなオフロードパターン）をアプリケーションコード分析部１１２とＰＬＤ処理指定部１１３と算術強度算出部１１４とＰＬＤ処理パターン作成部１１５と性能測定部１１６と実行ファイル作成部１１７とを実行することにより定め、定めた新たなオフロードパターンの処理時間および利用頻度と、現在のオフロードパターンの処理時間および利用頻度とを比較して性能改善効果を計算する。

　すなわち、改善度計算部１２２は、現オフロードパターンと抽出した複数の新オフロードパターンの処理時間を測定し、商用利用頻度に基づく性能改善効果を求める。具体的には、改善度計算部１２２は、商用代表データでのテストケースで、現オフロードパターンにおける（検証環境実処理削減時間)×（商用環境利用頻度）…式(1)を計算する。そして、改善度計算部１２２は、複数の新オフロードパターンにおける(検証環境実処理削減時間)×（商用環境利用頻度）…式(2)を計算する。なお、商用代表データの抽出処理の詳細フローは、図６で後記する。

　このように、ステップＳ７３では、ＦＰＧＡオフロードされているアプリケーションについては、改善度係数をかけることで、オフロードされなかった場合を計算し、ＣＰＵ処理のみに補正して比較する。また、代表データを選ぶ際は、データサイズの平均では実利用データと大きく異なる場合もあるので、データサイズの最頻値Modeを使う。

　ステップＳ７４で再構成提案部１２３は、新オフロードパターンの性能改善度効果が現オフロードパターンの所定閾値以上であるかで、再構成提案を判断する。具体的には、再構成提案部１２３は、複数のオフロードパターンにおいて、式(2)の計算結果／式(1)の計算結果を求める。そして、再構成提案部１２３は、式(2)の計算結果／式(1)の計算結果が所定閾値以上かを確認し、式(2)の計算結果／式(1)の計算結果が所定閾値以上の場合は、再構成を提案し、所定閾値未満であれば何もしない（再構成提案を行わない）。

　ステップＳ７５で再構成提案部１２３は、契約ユーザに、ＦＰＧＡ再構成実行を促す旨を提案し、契約ユーザからＦＰＧＡ再構成実行のＯＫ／ＮＧの返答を得る。

　ステップＳ７６で制御部１１は、商用環境で別OpenCLを起動することで上記静的再構成を行って本フローの処理を終了する。具体的には、制御部１１は、まず、新オフロードパターンのコンパイルを行う。次いで、制御部１１は、現オフロードパターンの動作を停止し、新オフロードパターンの動作を起動する。

　図５は、商用リクエストデータ履歴分析処理の詳細フローチャートであり、図４のステップＳ７１のサブルーチンである。
　図４のステップＳ７１のサブルーチンコールにより呼び出されると、ステップＳ８１でリクエスト処理負荷分析部１２０は、一定期間（長時間；例えば１か月等）の各アプリケーション利用履歴から、実処理時間と利用回数合計を計算する。ただし、ＦＰＧＡオフロードされているアプリケーションでは、オフロードされなかった場合の処理時間を仮に計算する。運用開始前の想定利用データでの試験履歴から、(ＣＰＵ処理のみの際の実処理時間)／（ＦＰＧＡオフロードされた際の実処理時間）で改善度係数を求めておく。リクエスト処理負荷分析部１２０は、実処理時間に改善度係数をかけた値の合計を比較に用いる処理時間合計とする。

　ステップＳ８２でリクエスト処理負荷分析部１２０は、実処理時間合計を全アプリケーションで比較する。

　ステップＳ８３でリクエスト処理負荷分析部１２０は、実処理時間合計順に並べ替え、処理時間負荷上位の複数アプリケーションを特定する。

　ステップＳ８４でリクエスト処理負荷分析部１２０は、負荷上位アプリケーションの一定期間（短期間：１２時間等）のリクエストデータを取得し、データサイズを一定サイズごとに整列させ度数分布を作成して図４のステップＳ７１に戻る。

　図６は、商用代表データの抽出処理の詳細フローチャートであり、図４のステップＳ７３のサブルーチンである。
　図４のステップＳ７３のサブルーチンコールにより呼び出されると、ステップＳ９１で改善度計算部１２２は、負荷上位アプリケーションで、算術強度が高い所定個数(ここでは４つ)のfor文を選択する。

　ステップＳ９２で改善度計算部１２２は、４つのfor文をオフロードする４OpenCLを作成し、プレコンパイルして、リソース使用率を求め、算術強度／リソース使用率が高い３つのfor文を選択する。これにより、３つのfor文をオフロードする３OpenCLが選択される。

　ステップＳ９３で改善度計算部１２２は、３OpenCLを代表データで性能測定する。例えば、改善度計算部１２２は、性能上位２つのfor文を組合せたOpenCLを作成し同様に性能測定する。

　ステップＳ９４で改善度計算部１２２は、４測定で最高速のオフロードパターンを解として図４のステップＳ７２に戻る。

［実装利用ツール］
　本実施形態の有効性を確認するための実装について説明する。
　ＦＰＧＡ再構成の有効性確認のため、対象アプリケーションはC/C++言語のアプリケーションとし、ＦＰＧＡはIntel PAC D5005（「Intel」は登録商標）（Intel Stratix 10 GX ＦＰＧＡ）を用いる。なお、コンパイルするマシンは、DELL EMC PowerEdge R740（「DELL」は登録商標）（ＣＰＵ：Intel Xeon Bronze 3206R×2、RAM：32GB RDIMM×4）である。

　ＦＰＧＡ処理は、Intel Acceleration Stack Version 2.0（「Intel」は登録商標）（Intel ＦＰＧＡ SDK for OpenCL, Intel Quartus Prime）を用いる。Intel Acceleration Stackは、2つのソフトウェアが連携することで、標準OpenCLに加えIntel向けの\#pragma等も解釈する高位合成が可能（HLS:High Level Syntesis）である。また、Intel Acceleration Stackは、ＦＰＧＡで処理するカーネルプログラムとＣＰＵで処理するホストプログラムを記述したOpenCLコードを解釈する。さらに、Intel Acceleration Stackは、リソース量等の情報を出力し、ＦＰＧＡの配線作業等を行い、ＦＰＧＡで動作できるようにする。

　C/C++言語の構文解析には、LLVM/Clang 6.0の構文解析ライブラリ(libClang（登録商標）のpython binding)を用いる。

　ＦＰＧＡオフロードでは、for文の絞り込みに、算術強度やループ回数を用いる。例えば、算術強度の分析にはROSE compiler framework 0.9を用い、また、ループ回数の分析にはプロファイラーのgcovを用いる。

［実装補足］
　実装について補足して説明する。
　実装は、運用開始前は、ＦＰＧＡのオフロードを運用開始前の実装ツールと同じ動作で行う。
　運用中（「運用中」は、「運用開始後」の一形態である）の再構成については、図４乃至図６の運用開始後の再構成を示すフローチャートの処理ステップを順に動作させるよう実装している。

　以下、実装する際に決定した内容等について、図４乃至図６のフローを補足しながら説明する。
　まず、図４のステップＳ７１の負荷分析では、一定期間（長期間）のリクエストデータを分析して負荷上位のアプリケーションを定め、そのアプリケーションの一定期間（短期間）の実リクエストデータを取得する。

　ここで、負荷上位アプリケーションの数、一定期間については、オペレータが任意に設定できるようにしたため、自由度がある。ただし、上記長期間は、１か月以上の長いスパンを想定している。また、上記短期間は、１２時間等の短いスパンを想定している。リクエストデータ分析にて、アプリケーションの実処理時間と利用回数を合計するが、Linux（登録商標）のtimeコマンドで取得する。timeコマンドは、アプリケーションの実経過時間がログに出るため、ログ回数と時間合計により求める値が計算できる。

　図４のステップＳ７２の代表データ選定（運用開始前）では、負荷上位アプリケーションの一定期間（短期間）の実リクエストデータを一定サイズごとに整列させ度数分布を作成する。このとき、度数分布の階級数は、スタージェスの公式（Sturges'rule）により定める。スタージェスの公式は、アプリケーションの利用回数がｎ（ｎは任意の自然数）の際に、階級数を１＋log_２ｎに定めるのが適切という公式である。スタージェスの公式を用いるには、階級数を定め、最頻階級を選択した後、最頻階級から代表データを一つ選ぶ必要がある。また、代表データを選ぶ際は、階級の中央の値に最もデータサイズが近いデータを、代表データとして選定する。

　図４のステップＳ７２の代表データ選定（運用開始後）では、選ばれた代表データを用いて、運用開始前と同様処理でＦＰＧＡオフロードが負荷上位のアプリケーションに対して実行される。性能測定に利用するテストケースが、想定利用データでなく、商用代表データを用いることが運用開始前とは異なる。

　図４のステップＳ７３の改善度計算では、新オフロードパターンに商用環境を再構成した際の改善効果を見る必要がある。再構成のユーザ提案前であるため、検証環境サーバで検証せざるを得ないが、改善度計算部１２２は、商用の代表データを用いて処理一回の改善を測定し、商用の利用頻度を用いて全体の改善度を計算する。そして、改善度計算部１２２は、商用環境を再構成した場合に効果がどの程度になるかを比較する。

　図４のステップＳ７４の再構成提案では、再構成提案部１２３は、式(2)の計算結果／式(1)の計算結果が所定閾値未満の場合は、ユーザに再構成の提案は行わない。再構成の提案が頻発してはユーザに不便となるため、効果改善の閾値は１倍より十分大きな値とすることで、再構成の提案の多発を抑え、真に効果ある再構成の場合を残すことができる。再構成の閾値は、可変に設定できる実装であり、例えば１．５を設定する。

　図４のステップＳ７５の再構成提案では、再構成提案部１２３は、価格変化または改善効果の情報を付与して、再構成をユーザに提案する。価格変化または改善効果の情報は、再構成することで変化する価格や、価格変化がなくても検証環境での改善効果が何倍だったかの情報である。これにより、契約ユーザは再構成した方がよいか判断できる。

　図４のステップＳ７６の再構成実行では、制御部１１は、OpenCLの静的再構成機能を用いて再構成を行う。静的再構成機能は、１秒程度断時間が発生する実装である。もし断時間をｍｓのオーダーまで下げたい場合は、Intel FPGA（登録商標）のdynamic partial reconfiguration機能等の、動的再構成機能を用いて再構成してもよい。
　以上、自動オフロード動作（運用開始後）について説明した。

　次に、アプリケーションソフトウェアのループ文のＦＰＧＡ向けオフロード手法について説明する。
　図７は、オフロードサーバ１の動作概要を説明するフローチャートである。
　ステップＳ１０１でアプリケーションコード分析部１１２は、アプリケーションのオフロードしたいソースコードの分析を行う。アプリケーションコード分析部１１２は、ソースコードの言語に合わせて、ループ文や変数の情報を分析する。

　ステップＳ１０２でＰＬＤ処理指定部１１３は、アプリケーションのループ文および参照関係を特定する。

　次に、ＰＬＤ処理パターン作成部１１５は、把握したループ文に対して、ＦＰＧＡオフロードを試行するかどうか候補を絞っていく処理を行う。ループ文に対してオフロード効果があるかどうかは、算術強度が一つの指標となる。
　ステップＳ１０３で算術強度算出部１１４は、算術強度分析ツールを用いてアプリケーションのループ文の算術強度を算出する。算術強度は、計算数が多いと増加し、アクセス数が多いと減少する指標であり、算術強度が高い処理はプロセッサにとって重い処理となる。

　そこで、算術強度分析ツールで、ループ文の算術強度を分析し、密度が高いループ文をオフロード候補に絞る。算術強度分析には、ROSE frameworkを用いる。また、ループ回数が多いループも重い処理となる。ループ回数はプロファイラーで分析し、ループ回数が多いループ文もオフロード候補に絞る。ループ回数分析にはgcovを用いる。

　高算術強度のループ文であっても、それをＦＰＧＡで処理する際に、ＦＰＧＡリソースを過度に消費してしまうのは問題である。そこで、高算術強度ループ文をＦＰＧＡ処理する際のリソース量の算出について述べる。
　ＦＰＧＡにコンパイルする際の処理としては、OpenCL等の高位言語からハードウェア記述のＨＤＬ（Hardware description Language）等のレベルに変換され、それに基づき実際の配線処理等がされる。この時、配線処理等は多大な時間がかかるが、ＨＤＬ等の途中状態の段階までは時間は分単位でしかかからない。ＨＤＬ等の途中状態の段階であっても、ＦＰＧＡで利用するFlip FlopやLook Up Table等のリソースは分かる。このため、ＨＤＬ等の途中状態の段階をみれば、ＨＤＬレベルで、ＦＰＧＡ利用リソースは分かるため、利用リソース量は短時間で分かる（利用するリソース量はコンパイルが終わらずとも短時間で分かる）。

　そこで、本実施形態では、ＰＬＤ処理パターン作成部１１５は、対象のループ文をOpenCL等の高位言語化し、まずリソース量を算出する。また、ループ文をオフロードした際の算術強度とリソース量が決まるため、算術強度／リソース量または算術強度×ループ回数／リソース量をリソース効率とする。そして、高リソース効率のループ文をオフロード候補として更に絞り込む。
　ここで、ループ文をOpenCL言語化する際には、ＣＰＵ処理のプログラムを、カーネル（ＦＰＧＡ）とホスト（ＣＰＵ）に、OpenCLの文法に従って分割する。

　次に、高リソース効率のループ文が幾つか絞られるため、それらを用いて性能測定するパターンを作成する（後述）。絞り込まれた単ループ文とその組み合わせのパターンを一定数作り、ＦＰＧＡで動作するようコンパイルする。最後に検証環境で、コンパイルされた複数パターンの性能測定を行い、高速のパターンを解として選択する。

　図４のフローに戻って、ステップＳ１０４でＰＬＤ処理パターン作成部１１５は、gcov、gprof等のプロファイリングツールを用いてアプリケーションのループ文のループ回数を測定する。

　ステップＳ１０５でＰＬＤ処理パターン作成部１１５は、ループ文のうち、高算術強度で高ループ回数のループ文を絞り込む。

　ステップＳ１０６でＰＬＤ処理パターン作成部１１５は、絞り込まれた各ループ文をＦＰＧＡにオフロードするためのOpenCLを作成する。

　ここで、ループ文のOpenCL化（OpenCLの作成）について、補足して説明する。すなわち、ループ文をOpenCL等によって、高位言語化する際には、２つの処理が必要である。一つは、ＣＰＵ処理のプログラムを、カーネル（ＦＰＧＡ）とホスト（ＣＰＵ）に、OpenCL等の高位言語の文法に従って分割することである。もう一つは、分割する際に、高速化するための技法を盛り込むことである。一般に、ＦＰＧＡを用いて高速化するためには、ローカルメモリキャッシュ、ストリーム処理、複数インスタンス化、ループ文の展開処理、ネストループ文の統合、メモリインターリーブ等がある。これらは、ループ文によっては、絶対効果があるわけではないが、高速化するための手法として、よく利用されている。

　次に、高リソース効率のループ文が幾つか選択されたので、それらを用いて性能を実測するオフロードパターンを実測する数だけ作成する。ＦＰＧＡでの高速化は、１個の処理だけＦＰＧＡリソース量を集中的にかけて高速化する形もあれば、複数の処理にＦＰＧＡリソースを分散して高速化する形もある。選択された単ループ文のパターンを一定数作り、ＦＰＧＡ実機で動作する前段階としてプレコンパイルする。

　ステップＳ１０７でＰＬＤ処理パターン作成部１１５は、作成したOpenCLをプレコンパイルして利用するリソース量を算出する（「１回目のリソース量算出」）。

　ステップＳ１０８でＰＬＤ処理パターン作成部１１５は、高リソース効率のループ文を絞り込む。

　ステップＳ１０９で実行ファイル作成部１１７は、絞り込んだループ文をオフロードするOpenCLをコンパイルする。

　ステップＳ１１０で性能測定部１１６は、ユーザの利用データ（実際にユーザが利用しているデータ；商用代表データ）を使って、コンパイルされたプログラムの性能を測定する（「１回目の性能測定」）。

　ステップＳ１１１でＰＬＤ処理パターン作成部１１５は、性能測定された中でＣＰＵに比べ高性能化されたループ文をリスト化する。

　ステップＳ１１２でＰＬＤ処理パターン作成部１１５は、リストのループ文を組み合わせてオフロードするOpenCLを作成する。
　ステップＳ１１３でＰＬＤ処理パターン作成部１１５は、組み合わせたオフロードのためのOpenCLでプレコンパイルして利用するリソース量を算出する（「２回目のリソース量算出」）。なお、プレコンパイルせず、１回目測定前のプレコンパイルでのリソース量の和でもよい。このようにすれば、プレコンパイル回数を削減することができる。

　ステップＳ１１４で実行ファイル作成部１１７は、組み合わせたオフロードのためのOpenCLをコンパイルする。

　ステップＳ１１５で性能測定部１１６は、ユーザの利用データ（実際にユーザが利用しているデータ；商用代表データ）を使って、コンパイルされたプログラムの性能を測定する（「２回目の性能測定」）。

　ステップＳ１１６で本番環境配置部１１８は、１回目と２回目の測定の中で最高性能のパターンを選択して本フローの処理を終了する。

　このように、ループ文のＦＰＧＡ自動オフロードは、算術強度とループ回数が高くリソース効率が高いループ文に絞って、オフロードパターンを作り（図８参照）、検証環境で実測を通じて高速なパターンの探索を行う。ＧＰＵの際は、ＧＡにより、殆どのループ文を対象に組み合わせを施行し、1000回規模の測定を行って最適パターンを探索していた。ＦＰＧＡではコンパイルに６時間以上かかるため、性能測定回数を絞って探索している。

［オフロードパターンの作成例］
　図８は、ＰＬＤ処理パターン作成部１１５の探索イメージを示す図である。
　制御部（自動オフロード機能部）１１（図２参照）は、ユーザが利用するアプリケーションコード（Application code）１３０（図３参照）を分析し、図８に示すように、アプリケーションコード１３０のコードパターン（Code patterns）１４１からfor文の並列可否をチェックする。図８の符号ａに示すように、コードパターン１４１から４つのfor文が見つかった場合、各for文に対してそれぞれ１桁、ここでは４つのfor文に対し４桁の１または０を割り当てる。ここでは、ＦＰＧＡ処理する場合は１、ＦＰＧＡ処理しない場合（すなわちＣＰＵで処理する場合）は０とする。

［ＣコードからOpenCL最終解の探索までの流れ］
　図９の手順Ａ－Ｆは、ＣコードからOpenCL最終解の探索までの流れを説明する図である。
　アプリケーションコード分析部１１２（図２参照）は、図９の手順Ａに示す「Ｃコード」を構文解析し（図９の符号ｂ参照）、ＰＬＤ処理指定部１１３（図２参照）は、図９の手順Ｂに示す「ループ文、変数情報」を特定する（図８参照）。

　算術強度算出部１１４（図２参照）は、特定した「ループ文、変数情報」に対して、算術強度分析ツールを用いて算術強度分析（Arithmetic Intensity analysis）する。ＰＬＤ処理パターン作成部１１５は、算術強度が高いループ文をオフロード候補に絞る。さらに、ＰＬＤ処理パターン作成部１１５は、プロファイリングツールを用いてプロファイリング分析（Profiling analysis）を行って（図９の符号ｃ参照）、高算術強度で高ループ回数のループ文をさらに絞り込む。
　そして、ＰＬＤ処理パターン作成部１１５は、絞り込まれた各ループ文をＦＰＧＡにオフロードするためのOpenCLを作成（OpenCL化）する。
　さらに、OpenCL化時にコード分割と共に展開等の高速化手法を導入する（後記）。

<「高算術強度，OpenCL化」具体例（その１）：手順Ｃ>
　例えば、アプリケーションコード１３０のコードパターン１４１（図５参照）から５つのfor文（４桁の１または０の割り当て）が見つかった場合、算術強度分析で４つが絞り込まれる（選ばれる）。すなわち、図９の符号ｄに示すように、５つのfor文から、４つのfor文のオフロードパターン「10000」「01000」「00010」「00001」が絞り込まれる。

<OpenCL化時にコード分割と共に実行する「展開」例>
　ＦＰＧＡからＣＰＵへのデータ転送する場合の、ＣＰＵプログラム側で記述されるループ文〔k=０; k<１０; k++〕 {
}
において、このループ文の上部に、\pragma unrollを指示する。すなわち、
\pragma unroll
for(k=０; k<１０; k++){
}
と記述する。

　\pragma unroll等のIntelやXilinx（登録商標）のツールに合った文法でunrollを指示すると、上記展開例であれば、ｉ＝０，ｉ＝１，ｉ＝２と展開してパイプライン実行することができる。このため、リソース量は１０倍使うことになるが、高速になる場合がある。
　また、unrollで展開する数は全ループ回数個でなく５個に展開等の指定もでき、その場合は、ループ２回ずつが、５つに展開される。
　以上で、「展開」例についての説明を終える。

　次に、ＰＬＤ処理パターン作成部１１５は、オフロード候補として絞り込まれた高算術強度のループ文を、リソース量を用いてさらに絞り込む。すなわち、ＰＬＤ処理パターン作成部１１５は、リソース量を算出し、ＰＬＤ処理パターン作成部１１５は、高算術強度のループ文のオフロード候補の中から、リソース効率（＝算術強度／ＦＰＧＡ処理時のリソース量、または、算術強度×ループ回数／ＦＰＧＡ処理時のリソース量）分析して、リソース効率の高いループ文を抽出する。

　図９の符号ｅでは、ＰＬＤ処理パターン作成部１１５は、絞り込んだループ文をオフロードするためのOpenCLをコンパイルする。

<「高算術強度，OpenCL化」具体例（その２）>
　図９の符号ｅに示すように、算術強度分析で絞り込まれた４つのオフロードパターン「10000」「01000」「00010」「00001」の中から、上記リソース効率分析により３つのオフロードパターン「10000」「00010」「00001」に絞り込む。
　以上、図６の手順Ｃに示す「高算術強度，OpenCL化」について説明した。

　図９の手順Ｄに示す「リソース効率の高いループ文」に対して、性能測定部１１６は、コンパイルされたプログラムの性能を測定する（「１回目の性能測定」）。
　そして、ＰＬＤ処理パターン作成部１１５は、性能測定された中でＣＰＵに比べ高性能化されたループ文をリスト化する。以下、同様に、リソース量を算出、オフロードOpenCLコンパイル、コンパイルされたプログラムの性能を測定する。

<「高算術強度，OpenCL化」具体例（その３）>
　図９の符号ｆに示すように、３つのオフロードパターン「10000」「00010」「00001」について１回目測定を行う。その３つの測定の中で、「10000」「00010」の２つの性能が高くなったとすると、「10000」と「00010」の組合せについて２回目測定を行う。

　図９の符号ｇでは、実行ファイル作成部１１７は、絞り込んだループ文をオフロードするためのOpenCLをコンパイル（本コンパイル）する。

　図９の手順Ｅに示す「組合せパターン実測」は、候補ループ文単体、その後、その組合せで検証パターン測定することをいう。

<「高算術強度，OpenCL化」具体例（その４）>
　図９の符号ｈに示すように、「10000」と「00010」の組合せである「10010」について２回目測定する。２回測定し、その結果、１回目測定と２回目測定の中で最高速度の「00010」が選択された（図９の符号ｉ参照）。このような場合、「00010」が最終の解となる。ここで、組合せパターンがリソース量制限のため測定できない場合がある。この場合、組合せについてはスキップして、単体の結果から最高速度のものを選ぶだけでもよい。

　以上により、図９の手順Ｆに示す「OpenCL最終解」の「00010」（図９の符号ｊ参照）が選択される。

<デプロイ（配置）>
　OpenCL最終解の、最高処理性能のＰＬＤ処理パターンで、本番環境に改めてデプロイして、ユーザに提供する。

［実装例］
　実装例を説明する。
　ＦＰＧＡはIntel PAC with Intel Arria10 GX ＦＰＧＡ等が利用できる。
　ＦＰＧＡ処理は、Intel Acceleration Stack（Intel FPGA SDK for OpenCL、Quartus Prime Version）等が利用できる。
　Intel FPGA SDK for OpenCLは、標準OpenCLに加え、Intel向けの#pragma等を解釈する高位合成ツール（HLS）である。
　実装例では、ＦＰＧＡで処理するカーネルとＣＰＵで処理するホストプログラムを記述したOpenCLコードを解釈し、リソース量等の情報を出力し、ＦＰＧＡの配線作業等を行い、ＦＰＧＡで動作できるようにする。ＦＰＧＡ実機で動作できるようにするには、１００行程度の小プログラムでも３時間程の長時間がかかる。ただし、リソース量オーバーの際は、早めにエラーとなる。また、ＦＰＧＡで処理できないOpenCLコードの際は、数時間後にエラーを出力する。

　実装例では、C/C++アプリケーションの利用依頼があると、まず、C/C++アプリケーションのコードを解析して、for文を発見するとともに、for文内で使われる変数データ等のプログラム構造を把握する。構文解析には、LLVM/Clangの構文解析ライブラリ等が利用できる。

　実装例では、次に、各ループ文のＦＰＧＡオフロード効果があるかの見込みを得るため、算術強度分析ツールを実行し、計算数、アクセス数等で定まる算術強度の指標を取得する。算術強度分析には、ROSEフレームワーク等が利用できる。算術強度上位個のループ文のみ対象とするようにする。
　次に、gcov等のプロファイリングツールを用いて、各ループのループ回数を取得する。算術強度×ループ回数が上位ａ個のループ文を候補に絞る。

　実装例では、次に、高算術強度の個々のループ文に対して、ＦＰＧＡオフロードするOpenCLコードを生成する。OpenCLコードは、該当ループ文をＦＰＧＡカーネルとして、残りをＣＰＵホストプログラムとして分割したものである。ＦＰＧＡカーネルコードとする際に、高速化の技法としてループ文の展開処理を一定数ｂだけ行ってもよい。ループ文展開処理は、リソース量は増えるが、高速化に効果がある。そこで、展開する数は、一定数ｂに制限してリソース量が膨大にならない範囲で行う。

　実装例では、次に、ａ個のOpenCLコードに対して、Intel ＦＰＧＡ SDK for OpenCLを用いて、プレコンパイルをして、利用するFlip Flop、Look Up Table等のリソース量を算出する。使用リソース量は、全体リソース量の割合で表示される。ここで、算術強度とリソース量または算術強度とループ回数とリソース量から、各ループ文のリソース効率を計算する。例えば、算術強度が１０、リソース量が０.５のループ文は、１０／０.５＝２０、算術強度が３、リソース量が０.３のループ文は３／０.３＝１０がリソース効率となり、前者が高い。また、ループ回数をかけた値をリソース効率としてもよい。各ループ文で、リソース効率が高いｃ個を選定する。

　実装例では、次に、ｃ個のループ文を候補に、実測するパターンを作る。例えば、１番目と３番目のループが高リソース効率であった場合、１番をオフロード、３番をオフロードする各OpenCLパターンを作成して、コンパイルして性能測定する。複数の単ループ文のオフロードパターンで高速化できている場合（例えば、１番と３番両方が高速化できている場合）は、その組合せでのOpenCLパターンを作成して、コンパイルして性能測定する（例えば１番と３番両方をオフロードするパターン）。

　なお、単ループの組み合わせを作る際は、利用リソース量も組み合わせになる。このため、上限値に納まらない場合は、その組合せパターンは作らない。組合せも含めてｄ個のパターンを作成した場合、検証環境のＦＰＧＡを備えたサーバで性能測定を行う。性能測定には、高速化したいアプリケーションで指定されたサンプル処理を行う。例えば、フーリエ変換のアプリケーションであれば、サンプルデータでの変換処理をベンチマークに性能測定をする。
　実装例では、最後に、複数の測定パターンの高速なパターンを解として選択する。

［ハードウェア構成］
　本実施形態に係るオフロードサーバ１は、例えば図１０に示すような構成のコンピュータ９００によって実現される。なお、図２に示す検証用マシン１４は、オフロードサーバ１の外にある。
　図１０は、オフロードサーバ１の機能を実現するコンピュータ９００の一例を示すハードウェア構成図である。
　コンピュータ９００は、ＣＰＵ９１０、ＲＡＭ９２０、ＲＯＭ９３０、ＨＤＤ９４０、通信インタフェース（Ｉ／Ｆ：Interface）９５０、入出力インタフェース（Ｉ／Ｆ）９６０、およびメディアインタフェース（Ｉ／Ｆ）９７０を有する。

　ＣＰＵ９１０は、ＲＯＭ９３０またはＨＤＤ９４０に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ９３０は、コンピュータ９００の起動時にＣＰＵ９１０によって実行されるブートプログラムや、コンピュータ９００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ９４０は、ＣＰＵ９１０によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インタフェース９５０は、通信網８０を介して他の機器からデータを受信してＣＰＵ９１０へ送り、ＣＰＵ９１０が生成したデータを通信網８０を介して他の機器へ送信する。

　ＣＰＵ９１０は、入出力インタフェース９６０を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。ＣＰＵ９１０は、入出力インタフェース９６０を介して、入力装置からデータを取得する。また、ＣＰＵ９１０は、生成したデータを入出力インタフェース９６０を介して出力装置へ出力する。

　メディアインタフェース９７０は、記録媒体９８０に格納されたプログラムまたはデータを読み取り、ＲＡＭ９２０を介してＣＰＵ９１０に提供する。ＣＰＵ９１０は、かかるプログラムを、メディアインタフェース９７０を介して記録媒体９８０からＲＡＭ９２０上にロードし、ロードしたプログラムを実行する。記録媒体９８０は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phasechangerewritable Disk）等の光学記録媒体、ＭＯ（Magneto Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ９００が本実施形態に係るオフロードサーバ１として機能する場合、コンピュータ９００のＣＰＵ９１０は、ＲＡＭ９２０上にロードされたプログラムを実行することにより、オフロードサーバ１の各部の機能を実現する。また、ＨＤＤ９４０には、オフロードサーバ１の各部内のデータが格納される。コンピュータ９００のＣＰＵ９１０は、これらのプログラムを記録媒体９８０から読み取って実行するが、他の例として、他の装置から通信網８０を介してこれらのプログラムを取得してもよい。

［効果］
　以上説明したように、本実施形態に係るオフロードサーバ１は、アプリケーションのソースコードを分析するアプリケーションコード分析部１１２と、アプリケーションのループ文を特定し、特定した各ループ文に対して、ＰＬＤにおけるパイプライン処理、並列処理をOpenCLで指定した複数のオフロード処理パターンを作成してコンパイルするＰＬＤ処理指定部１１３と、アプリケーションのループ文の算術強度を算出する算術強度算出部１１４と、算術強度算出部１１４が算出した算術強度をもとに、算術強度が所定の閾値より高いループ文をオフロード候補として絞り込み、ＰＬＤ処理パターンを作成するＰＬＤ処理パターン作成部１１５と、作成されたＰＬＤ処理パターンのアプリケーションをコンパイルして、アクセラレータ検証用装置１４に配置し、ＰＬＤにオフロードした際の性能測定用処理を実行する性能測定部１１６と、性能測定用処理による性能測定結果をもとに、複数のＰＬＤ処理パターンから最高処理性能のＰＬＤ処理パターンを選択し、最高処理性能のＰＬＤ処理パターンをコンパイルして実行ファイルを作成する実行ファイル作成部１１７と、実際にユーザが利用しているデータのリクエスト処理負荷を分析するリクエスト処理負荷分析部１２０と、リクエスト処理負荷分析部１２０が分析した処理負荷が上位のアプリケーションを特定し、当該アプリケーション利用時のリクエストデータの中から代表データを選定する代表データ選定部１２１と、代表データ選定部１２１が選定した代表データをもとに、新たなオフロードパターン（検証環境で見つかった新たなオフロードパターン）をアプリケーションコード分析部１１２とＰＬＤ処理指定部１１３と算術強度算出部１１４とＰＬＤ処理パターン作成部１１５と性能測定部１１６と実行ファイル作成部１１７とを実行することにより定め、定めた新たなオフロードパターンの処理時間および利用頻度と、現在のオフロードパターンの処理時間および利用頻度とを比較して性能改善効果を計算する改善度計算部１２２と、代表データ選定部１２１が選定した代表データをもとに、新たなオフロードパターン（検証環境で見つかった新たなオフロードパターン）の処理時間および利用頻度と、現在のオフロードパターンの処理時間および利用頻度とを比較して性能改善効果を計算する改善度計算部１２２と、性能改善効果が所定閾値以上の場合、ＰＬＤ再構成を提案する再構成提案部１２３と、を備える。

　このようにすることにより、オフロードサーバ１は、運用開始前だけでなく、運用開始後の利用特性に応じて、より適切なロジックに再構成することで、リソース量が限定されるＰＬＤ（例えば、ＦＰＧＡ）においてリソース利用の効率化を図ることができる。
　詳細には、オフロードサーバ１は、アプリケーションの運用開始後に利用特性変化等に応じてＦＰＧＡロジックを再構成することができるので、運用開始後に実利用されるデータから大きく離れる可能性がある場合、例えば、運用開始後の利用形態が、最初の想定と異なり、ＦＰＧＡには別ロジックをオフロードした方が性能が向上する等の場合に、ＦＰＧＡロジックをユーザ影響低く再構成することができる。
　なお、再構成は、同じアプリケーションでも異なるループ文オフロードに変える場合もあれば、異なるアプリケーションのオフロードに変える場合もある。再構成の対象は、ＧＰＵ、ＦＰＧＡオフロードロジック、リソース量、配置場所等、多々ある。

　本実施形態に係るオフロードサーバ１において、リクエスト処理負荷分析部１２０は、所定期間の各アプリケーション利用履歴から、実処理時間と利用回数合計を計算することを特徴とする。

　このようにすることにより、オフロードサーバ１は、一定期間の各アプリケーション利用履歴から、実際にユーザが利用しているデータのリクエスト処理負荷を分析することができる。

　本実施形態に係るオフロードサーバ１において、リクエスト処理負荷分析部１２０は、運用開始前の想定利用データでの試験履歴から、(ＣＰＵ処理のみの場合の実処理時間)／（ＰＬＤオフロードされた場合の実処理時間）で改善度係数を求め、実処理時間に改善度係数をかけた値の合計を比較に用いる処理時間合計とすることを特徴とする。

　このようにすることにより、オフロードサーバ１は、負荷上位アプリケーションを選定する場合、ＦＰＧＡオフロードされているアプリケーションについては、改善度係数をかけることで、オフロードされなかった場合を計算して、ＣＰＵ処理のみに補正して比較することができる。オフロードされなかった場合が、改善度係数をかけることで補正されるので、より精確な実処理時間を算出することができる。

　本実施形態に係るオフロードサーバ１において、リクエスト処理負荷分析部１２０は、負荷上位アプリケーションの所定期間のリクエストデータを取得し、データサイズを一定サイズごとに整列させ度数分布を作成し、代表データ選定部１３０は、度数分布の最頻値Modeに該当する実リクエストデータから、いずれか一つデータを選び、代表データに選定することを特徴とする。

　このようにすることにより、オフロードサーバ１は、代表データを選ぶ際、データサイズの平均では実利用データと大きく異なる場合もあるが、データサイズの最頻値Modeを使うことで、より適切な代表データを選定することができる。

　本実施形態に係るオフロードサーバ１において、改善度計算部１２２は、現在のオフロードパターンと複数の新たなオフロードパターンの処理時間を測定し、商用利用頻度に基づく性能改善効果を、(検証環境実処理削減時間)×(商用環境利用頻度)に従って計算することを特徴とする。

　このようにすることにより、オフロードサーバ１は、複数の新たなオフロードパターンで(検証環境実処理削減時間)・(商用環境利用頻度)を計算し、現在のオフロードパターンで(検証環境実処理削減時間)・(商用環境利用頻度)を計算し、前者を後者で除すことにより、処理時間と利用頻度の２つのパラメータを用いて、より精確な性能改善度効果を求めることができる。

　本発明は、コンピュータを、上記オフロードサーバとして機能させるためのオフロードプログラムとした。

　このようにすることにより、一般的なコンピュータを用いて、上記オフロードサーバ１の各機能を実現させることができる。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手作業で行うこともでき、あるいは、手作業で行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述文書中や図面中に示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行するためのソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、又は、ＩＣ（Integrated Circuit）カード、ＳＤ（Secure Digital）カード、光ディスク等の記録媒体に保持することができる。

　また、本実施形態では、ＦＰＧＡ処理をオフロードできるものであればどのようなものでもよい。

　また、本実施形態では、繰り返し文（ループ文）として、for文を例示したが、for文以外のwhile文やdo-while文も含まれる。ただし、ループの継続条件等を指定するfor文がより適している。

　１　オフロードサーバ
　１１　制御部
　１２　入出力部
　１３　記憶部
　１４　検証用マシン (アクセラレータ検証用装置)
　１５　OpenIoTリソース
　１１１　アプリケーションコード指定部
　１１２　アプリケーションコード分析部
　１１３　ＰＬＤ処理指定部
　１１３ａ　オフロード範囲抽出部
　１１３ｂ　中間言語ファイル出力部
　１１４　算術強度算出部
　１１５　ＰＬＤ処理パターン作成部
　１１６　性能測定部
　１１６ａ　バイナリファイル配置部
　１１７　実行ファイル作成部
　１１８　本番環境配置部
　１１９　性能測定テスト抽出実行部
　１２０　リクエスト処理負荷分析部（処理負荷分析部）
　１２１　代表データ選定部
　１２２　改善度計算部
　１２３　再構成提案部
　１２４　ユーザ提供部
　１３０　アプリケーションコード
　１３１　コードパターンＤＢ
　１３２　設備リソースＤＢ
　１３３　テストケースＤＢ
　１３４　中間言語ファイル
　１５１　各種デバイス
　１５２　ＣＰＵ-ＧＰＵを有する装置
　１５３　ＣＰＵ-ＦＰＧＡを有する装置
　１５４　ＣＰＵを有する装置

Claims

　アプリケーションの特定処理をＰＬＤ（Programmable Logic Device）にオフロードするオフロードサーバであって、
　アプリケーションのソースコードを分析するアプリケーションコード分析部と、
　前記アプリケーションのループ文を特定し、特定した各前記ループ文に対して、前記ＰＬＤにおけるパイプライン処理、並列処理をOpenCLで指定した複数のオフロード処理パターンにより作成してコンパイルするＰＬＤ処理指定部と、
　前記アプリケーションのループ文の算術強度を算出する算術強度算出部と、
　前記算術強度算出部が算出した算術強度をもとに、前記算術強度が所定の閾値より高いループ文をオフロード候補として絞り込み、ＰＬＤ処理パターンを作成するＰＬＤ処理パターン作成部と、
　作成された前記ＰＬＤ処理パターンの前記アプリケーションをコンパイルして、アクセラレータ検証用装置に配置し、前記ＰＬＤにオフロードした際の性能測定用処理を実行する性能測定部と、
　前記性能測定用処理による性能測定結果をもとに、複数の前記ＰＬＤ処理パターンから最高処理性能のＰＬＤ処理パターンを選択し、最高処理性能の前記ＰＬＤ処理パターンをコンパイルして実行ファイルを作成する実行ファイル作成部と、
　実際にユーザが利用しているデータのリクエスト処理負荷を分析する処理負荷分析部と、
　前記処理負荷分析部が分析したリクエスト処理負荷が上位のアプリケーションを特定し、当該アプリケーション利用時のリクエストデータの中から代表データを選定する代表データ選定部と、
　前記代表データ選定部が選定した代表データをもとに、新たなオフロードパターンを前記アプリケーションコード分析部と前記ＰＬＤ処理指定部と前記算術強度算出部と前記ＰＬＤ処理パターン作成部と前記性能測定部と前記実行ファイル作成部とを実行することにより定め、定めた新たなオフロードパターンの処理時間および利用頻度と、現在のオフロードパターンの処理時間および利用頻度とを比較して性能改善効果を計算する改善度計算部と、
　前記性能改善効果が所定閾値以上の場合、ＰＬＤ再構成を提案する再構成提案部と、を備える
　ことを特徴とするオフロードサーバ。
　前記処理負荷分析部は、
　所定期間の各アプリケーション利用履歴から、実処理時間と利用回数合計を計算する
　ことを特徴とする請求項１に記載のオフロードサーバ。
　前記処理負荷分析部は、
　運用開始前の想定利用データでの試験履歴から、(ＣＰＵ処理のみの場合の実処理時間)／（ＰＬＤオフロードされた場合の実処理時間）で改善度係数を求め、実処理時間に改善度係数をかけた値の合計を比較に用いる
　ことを特徴とする請求項１に記載のオフロードサーバ。
　前記処理負荷分析部は、
　負荷上位アプリケーションの所定期間のリクエストデータを取得し、データサイズを一定サイズごとに整列させて度数分布を作成し、
　前記代表データ選定部は、
　前記度数分布の最頻値Modeに該当する実リクエストデータから、いずれか一つデータを選び、前記代表データに選定する
　ことを特徴とする請求項１に記載のオフロードサーバ。
　前記改善度計算部は、
　前記現在のオフロードパターンと複数の前記新たなオフロードパターンの処理時間を測定し、商用利用頻度に基づく性能改善効果を、(検証環境実処理削減時間)×(商用環境利用頻度)に従って計算する
　ことを特徴とする請求項１に記載のオフロードサーバ。
　アプリケーションの特定処理をＰＬＤ（Programmable Logic Device）にオフロードするオフロードサーバのオフロード制御方法であって、
　前記オフロードサーバは、
　アプリケーションのソースコードを分析するアプリケーションコード分析ステップと、
　前記アプリケーションのループ文を特定し、特定した各前記ループ文に対して、前記ＰＬＤにおけるパイプライン処理、並列処理、展開処理をOpenＣＬで指定した複数のオフロード処理パターンにより作成してコンパイルするＰＬＤ処理指定ステップと、
　前記アプリケーションのループ文の算術強度を算出する算術強度算出ステップと、
　算出した前記算術強度をもとに、前記算術強度が所定の閾値より高いループ文をオフロード候補として絞り込み、ＰＬＤ処理パターンを作成するＰＬＤ処理パターン作成ステップと、
　作成された前記ＰＬＤ処理パターンの前記アプリケーションをコンパイルして、アクセラレータ検証用装置に配置し、前記ＰＬＤにオフロードした際の性能測定用処理を実行する性能測定ステップと、
　前記性能測定用処理による性能測定結果をもとに、複数の前記ＰＬＤ処理パターンから最高処理性能のＰＬＤ処理パターンを選択し、最高処理性能の前記ＰＬＤ処理パターンをコンパイルして実行ファイルを作成する実行ファイル作成ステップと、
　実際にユーザが利用しているデータのリクエスト処理負荷を分析するステップと、
　分析した前記リクエスト処理負荷が上位のアプリケーションを特定し、当該アプリケーション利用時のリクエストデータの中から代表データを選定するステップと、
　選定した前記代表データをもとに、新たなオフロードパターンを前記アプリケーションコード分析ステップと前記ＰＬＤ処理指定ステップと前記算術強度算出ステップと前記ＰＬＤ処理パターン作成ステップと前記性能測定ステップと前記実行ファイル作成ステップとを実行することにより定め、定めた新たなオフロードパターンの処理時間および利用頻度と、現在のオフロードパターンの処理時間および利用頻度とを比較して性能改善効果を計算するステップと、
　前記性能改善効果が所定閾値以上の場合、ＰＬＤ再構成を提案するステップと、を実行する
　ことを特徴とするオフロード制御方法。
　コンピュータを、請求項１乃至５のいずれか１項に記載のオフロードサーバとして機能させるためのオフロードプログラム。