WO2023073824A1

WO2023073824A1 - 深層学習推論システムおよび推論サービング方法

Info

Publication number: WO2023073824A1
Application number: PCT/JP2021/039619
Authority: WO
Inventors: 顕至田仲; 勇輝有川; 猛伊藤; 直樹三浦; 健坂本
Original assignee: 日本電信電話株式会社
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-05-04
Also published as: JPWO2023073824A1

Abstract

ＦＰＧＡアクセラレータ（１０３）は、ニューラルネットワークの少なくとも一部の演算をＡＬＵとＧＥＭＭ回路で行う。アプリケーション機能部（１０００ａ）は、ローダ（１００１）がＦＰＧＡアクセラレータ（１０３）に転送するオペレーションコードに基づいて、クライアントからのリクエストが要求する推論に対応するＡＬＵの並列度とＧＥＭＭ回路のサイズとを決定し、決定した並列度のＡＬＵと決定したサイズのＧＥＭＭ回路とが配置されるようにＦＰＧＡアクセラレータ（１０３）の構成を変更する。

Description

深層学習推論システムおよび推論サービング方法

　本発明は、多層ニューラルネットワークを用いて推論サービングを行う深層学習推論システムおよび推論サービング方法に関するものである。

　近年では、多層ニューラルネットワークを用いて情報処理を行い、その結果を活用するサービスが数多く存在する。演算器に、ニューラルネットワーク演算のオペレーションと、ニューラルネットワークのパラメータと、処理対象データとを与えて処理済みデータを得ることを、推論と呼ぶ。推論には、多数の演算とメモリとが必要になる。このため、サーバで推論が行われることがある。

　クライアントは、サーバに対してリクエストと処理対象データを送信し、処理の結果をレスポンスとして受け取る。このようなサービスの提供が推論サービングである。推論サービングには、さまざまな方法が提案されている（非特許文献１参照）。

　ここでは、演算器としてＦＰＧＡ（field-programmable gate array）アクセラレータを用いた場合を記す。図４はサーバの構成を示すブロック図である。ＣＰＵ（Central Processing Unit）１００は、サービングの制御を行う。ＮＩＣ（Network Interface Card）１０１は、クライアントからのリクエストをネットワークを介して受信し、ニューラルネットワークによる推論結果をネットワークを介してクライアントに返信する。

　メモリ１０２には、全てのニューラルネットワーク演算のオペレーションコード（機械語命令）と、ニューラルネットワークのパラメータと、処理対象のデータとが格納されている。ＦＰＧＡアクセラレータ１０３は、ＰＣＩｅ（PCI Express）回路と、ＤＲＡＭ（Dynamic Random Access Memory）と、ＦＰＧＡ回路領域とからなる。ＣＰＵ１００とＮＩＣ１０１とメモリ１０２とＦＰＧＡアクセラレータ１０３とは、ＰＣＩｅバス１０４によって接続されている。

　推論サービングの演算器としてＦＰＧＡアクセラレータ１０３を用いる場合、ＦＰＧＡアクセラレータ１０３上にノイマン型計算機を構築する方法が一般的である（非特許文献２参照）。ＦＰＧＡアクセラレータ１０３上に構築されたノイマン型計算機の構成を一般化して図５に示す。

　ニューラルネットワークの演算のオペレーションコード２００と、ニューラルネットワークのパラメータ２０１と、処理対象のデータとは、ＰＣＩｅバス経由でＦＰＧＡアクセラレータ１０３に入力され、ＤＲＡＭ１０５に格納される。図５の例では、処理対象のデータと演算途中のデータとを入力データ２０２としている。

　インストラクションフェッチモジュール（Instruction Fetch Module）１０６は、ＤＲＡＭ１０５からオペレーションコード２００を読み出して、ロードモジュール（Load Module）１０７とコンピュートモジュール（Compute Module）１０８とストアモジュール（Store Module）１０９とに転送する。

　ロードモジュール１０７は、ＤＲＡＭ１０５から入力データ２０２を読み出し、複数の入力データ２０２をバッチ化して、コンピュートモジュール１０８に転送する。
　コンピュートモジュール１０８は、インストラクションフェッチモジュール１０６から転送されたオペレーションコード２００に従って、入力データ２０２とパラメータ２０１とを用いてニューラルネットワークの演算を行う。コンピュートモジュール１０８には、ＡＬＵ（Arithmetic Logic Unit）１０８０と、ＧＥＭＭ（General matrix multiply）回路１０８１とが搭載されている。コンピュートモジュール１０８は、オペレーションコード２００に従って演算を行った後に、演算結果をストアモジュール１０９に転送する。

　ストアモジュール１０９は、コンピュートモジュール１０８による演算結果をＤＲＡＭ１０５に格納する。このとき、処理済みのデータだけが出力データ２０３としてＤＲＡＭ１０５に格納されるだけでなく、演算途中のデータが出力データ２０３として一時的に格納されることもある。演算途中のデータは、ロードモジュール１０７への入力データ２０２となる。

　サーバによる推論サービングの動作を図６に示す。サーバのＣＰＵ１００は、推論サービングのプログラムに従って、アプリケーション機能部１０００とローダ１００１として動作する。

　アプリケーション機能部１０００は、起動時に、ＦＰＧＡアクセラレータ１０３に前述のノイマン型計算機を構築する（図６ステップＳ１００）。
　ＮＩＣ１０１は、ネットワークを介してクライアントから受信した推論リクエストと処理対象のデータとをアプリケーション機能部１０００に転送する（図６ステップＳ１０１）。推論リクエストは、どのモデルで推論するかを指定する。

　アプリケーション機能部１０００は、処理対象のデータをローダ１００１に渡し、推論リクエストに従って実行すべきオペレーションコードを指定する（図６ステップＳ１０２）。
　ローダ１００１は、指定されたオペレーションコードとニューラルネットワークのパラメータとをメモリ１０２から読み出す（図６ステップＳ１０３，Ｓ１０４）。

　ローダ１００１は、オペレーションコードとパラメータと処理対象のデータとをＦＰＧＡアクセラレータ１０３に渡す（図６ステップＳ１０５）。
　ＦＰＧＡアクセラレータ１０３は、ローダ１００１から転送されたオペレーションコードに従って、処理対象のデータに対してニューラルネットワークの演算を行い、演算の結果得られた処理済みのデータをＦＰＧＡアクセラレータ１０３内部のＤＲＡＭ１０５に格納する（図６ステップＳ１０６）。

　ローダ１００１は、ＦＰＧＡアクセラレータ１０３内部のＤＲＡＭ１０５から処理済みのデータを読み出す（図６ステップＳ１０７）。
　アプリケーション機能部１０００は、ローダ１００１から処理済みのデータを受け取り、このデータを推論リクエストに対するレスポンスとしてクライアントに返信する（図６ステップＳ１０８）。

　ニューラルネットワークのオペレーションコードは、並列実行が可能であり、ＡＬＵ１０８０とＧＥＭＭ回路１０８１によって実行される。
　オペレーションコードに適した並列度のＡＬＵ１０８０とオペレーションコードに適したサイズのＧＥＭＭ回路１０８１を用いると最も電力効率が向上する。

　しかしながら、従来のシステムでは、ニューラルネットワークに対して大き過ぎる演算器を用いたり、小さ過ぎる演算器を用いたりすることがある。ニューラルネットワークに対して大き過ぎる演算器を用いた場合には、使用されない演算器が存在するため、電力効率が落ちるという課題があった。また、ニューラルネットワークに対して小さ過ぎる演算器を用いた場合には、処理時間が延びるため、トータルの使用電力量が増大して電力効率が落ちるという課題があった。

Christopher Olston，et al.，"Tensorflow-serving:Flexible，high-performance ml serving"，米国コーネル大学ライブラリー，arXiv preprint arXiv:1712.06139，2017 Thierry Moreau，Tianqi Chen，Luis Ceze，"Leveraging the vta-tvm hardware-software stack for fpga acceleration of 8-bit resnet-18 inference"，Proceedings of the 1st on Reproducible Quality-Efficient Systems Tournament on Co-designing Pareto-efficient Deep Learning，2018

　本発明は、上記課題を解決するためになされたもので、最適な電力効率で推論サービングを実行することができる深層学習推論システムおよび推論サービング方法を提供することを目的とする。

　本発明の深層学習推論システムは、クライアントからのリクエストに応じてニューラルネットワークの少なくとも一部の演算をＡＬＵとＧＥＭＭ回路で行うように構成されたＦＰＧＡアクセラレータと、前記ニューラルネットワークの演算のオペレーションコードと処理対象のデータとを前記ＦＰＧＡアクセラレータに転送するように構成されたローダと、前記クライアントから受信した前記処理対象のデータを前記ローダに渡し、前記リクエストに従って実行すべき前記オペレーションコードを前記ローダに対して指定し、前記ニューラルネットワークの演算の結果得られた処理済みのデータを前記クライアントに返信するように構成されたアプリケーション機能部とを備え、前記アプリケーション機能部は、前記ローダが前記ＦＰＧＡアクセラレータに転送するオペレーションコードに基づいて、前記クライアントからのリクエストが要求する推論に対応する前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを決定し、前記決定した並列度のＡＬＵと前記決定したサイズのＧＥＭＭ回路とが配置されるように前記ＦＰＧＡアクセラレータの構成を変更することを特徴とするものである。

　また、本発明の深層学習推論システムの１構成例において、前記アプリケーション機能部は、前記ローダが前記ＦＰＧＡアクセラレータに転送するオペレーションコードに基づいて、前記クライアントからのリクエストが要求する推論に対応する前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを推定した結果と、前記ＦＰＧＡアクセラレータで実装可能な計算素子数とに基づいて、前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを決定することを特徴とするものである。
　また、本発明の深層学習推論システムの１構成例において、前記アプリケーション機能部は、パーシャルリコンフィギュレーション機能により前記ＦＰＧＡアクセラレータの構成を変更することを特徴とするものである。

　また、本発明の推論サービング方法は、クライアントから推論のリクエストと処理対象のデータとを受信する第１のステップと、前記クライアントから受信した前記処理対象のデータをローダに渡し、前記リクエストに従って実行すべきニューラルネットワークの演算のオペレーションコードを前記ローダに対して指定する第２のステップと、前記ニューラルネットワークの少なくとも一部の演算をＡＬＵとＧＥＭＭ回路で行うＦＰＧＡアクセラレータに転送される前記オペレーションコードに基づいて、前記クライアントからのリクエストが要求する推論に対応する前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを決定する第３のステップと、前記決定した並列度のＡＬＵと前記決定したサイズのＧＥＭＭ回路とが配置されるように前記ＦＰＧＡアクセラレータの構成を変更する第４のステップと、前記オペレーションコードと前記処理対象のデータとを前記ローダから前記ＦＰＧＡアクセラレータに転送する第５のステップと、前記ニューラルネットワークの演算の結果得られた処理済みのデータを前記クライアントに返信する第６のステップとを含むことを特徴とするものである。

　また、本発明の推論サービング方法の１構成例において、前記第３のステップは、前記ＦＰＧＡアクセラレータに転送されるオペレーションコードに基づいて、前記クライアントからのリクエストが要求する推論に対応する前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを推定した結果と、前記ＦＰＧＡアクセラレータで実装可能な計算素子数とに基づいて、前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを決定するステップを含むことを特徴とするものである。
　また、本発明の推論サービング方法の１構成例において、前記第４のステップは、パーシャルリコンフィギュレーション機能により前記ＦＰＧＡアクセラレータの構成を変更するステップを含むことを特徴とするものである。

　本発明によれば、クライアントからのリクエストに対して最適なＡＬＵとＧＥＭＭ回路をＦＰＧＡアクセラレータに割り当てることができ、最適な電力効率で推論サービングを実行することができる。

図１は、本発明の実施例に係る深層学習推論システムのサーバの構成を示すブロック図である。図２は、本発明の実施例に係るＦＰＧＡアクセラレータ上に構築されたノイマン型計算機の構成を示すブロック図である。図３は、本発明の実施例に係るサーバによる推論サービングの動作を説明するシーケンス図である。図４は、サーバの構成を示すブロック図である。図５は、ＦＰＧＡアクセラレータ上に構築されたノイマン型計算機の構成を示すブロック図である。図６は、サーバによる推論サービングの動作を説明するシーケンス図である。

［発明の原理］
　本発明は、クライアントからのリクエストを受信した後に、ノイマン型計算機を調整することで、リクエストに最適なＡＬＵとＧＥＭＭ回路によって推論サービングを実行する。

［実施例］
　以下、本発明の実施例について図面を参照して説明する。図１は、本発明の実施例に係る深層学習推論システムのサーバの構成を示すブロック図である。サーバは、ＣＰＵ１００ａと、ＮＩＣ１０１と、メモリ１０２と、ＦＰＧＡアクセラレータ１０３とを備えている。ＦＰＧＡアクセラレータ１０３は、多層ニューラルネットワークの少なくとも一部の演算をＡＬＵとＧＥＭＭ回路で行う。

　メモリ１０２には、本実施例の推論サービング方法を実現するためのプログラムが格納されている。ＣＰＵ１００ａは、メモリ１０２に格納されたプログラムに従って処理を実行し、アプリケーション機能部１０００ａとローダ１００１として機能する。

　図２は、本実施例のＦＰＧＡアクセラレータ１０３上に構築されたノイマン型計算機の構成を示すブロック図である。本実施例では、ＡＬＵ１０８０とＧＥＭＭ回路１０８１とをＦＰＧＡアクセラレータ１０３の部分再構成可能領域（Partial Reconfiguration Region）１０８２に配置する。

　本実施例のサーバによる推論サービングの動作を図３に示す。アプリケーション機能部１０００ａは、起動時に、ＦＰＧＡアクセラレータ１０３にノイマン型計算機を構築する（図３ステップＳ２００）。

　ＮＩＣ１０１は、ネットワークを介してクライアントから受信した推論リクエストと処理対象のデータとをアプリケーション機能部１０００ａに転送する（図３ステップＳ２０１）。推論リクエストは、どのモデルで推論するかを指定する。

　アプリケーション機能部１０００ａは、処理対象のデータをローダ１００１に渡し、推論リクエストに従って実行すべきオペレーションコードと推論に必要なニューラルネットワークのパラメータとを、ローダ１００１に対して指定する（図３ステップＳ２０２）。
　ローダ１００１は、指定されたオペレーションコードとニューラルネットワークのパラメータとをメモリ１０２から読み出す（図３ステップＳ２０３，Ｓ２０４）。

　次に、アプリケーション機能部１０００ａは、ローダ１００１が読み出したオペレーションコードに基づいて、クライアントからの推論リクエストが要求する推論に対応するＡＬＵ１０８０の並列度（ＡＬＵ１０８０の数）とＧＥＭＭ回路１０８１のサイズとを決定する（図３ステップＳ２０５）。

　ニューラルネットワークでは、例えば画像などの処理対象のデータとニューラルネットワークの重みなどのパラメータは、文献「Thierry Moreau1，et al.，“A Hardware-Software Blueprint for Flexible Deep Learning Specialization”，米国コーネル大学ライブラリー，arXiv:1807.04188v3，2019」に開示されているようにテンソルで表現される。
　ＡＬＵ１０８０は、加算などの要素ごとのテンソル演算を実行する。ＧＥＭＭ回路１０８１は、例えば入力とパラメータの行列積の演算を実行する。

　ＧＥＭＭ回路１０８１用のオペレーションコードによってＧＥＭＭ回路１０８１に入力するテンソルが指示される。テンソルのサイズは、ＧＥＭＭ回路１０８１の前段に設けられるバッファ（不図示）にテンソルが格納されている段階で既知である。したがって、アプリケーション機能部１０００ａは、ＧＥＭＭ回路１０８１用の複数のオペレーションコードから、どのようなサイズのテンソル同士の行列積演算が実行されるかという情報を読み取ることができ、この情報に基づいて推論に最適なＧＥＭＭ回路１０８１のサイズを推定することが可能である。

　ここで、最適なＧＥＭＭ回路１０８１のサイズについて説明する。行列積演算は、並列演算することが可能である。本発明で言うＧＥＭＭ回路１０８１のサイズとは、並列演算数のことである。２×２行列の行列積の例を考えると、この例では８回の積が実行されるが、それぞれの積を並列に演算することができる。すなわち、最適な並列演算数は８である。

　ただし、ＦＰＧＡアクセラレータ１０３内の計算素子数が限られているため、常に並列演算数８のＧＥＭＭ回路１０８１を用意できるとは限らない。最適な並列演算数のＧＥＭＭ回路１０８１を用意できない場合、最適な並列演算数の約数の並列演算を実行できるＧＥＭＭ回路１０８１を実装するのが効率が良い。

　最適な並列演算数８に対して、例えば４並列演算が実行可能なＧＥＭＭ回路１０８１を実装した場合、２×２の行列積演算は２サイクルで実行できる。一方、６並列演算が実行可能なＧＥＭＭ回路１０８１を実装した場合、２×２の行列積演算は２サイクルで実行されるが、４並列演算が実行可能なＧＥＭＭ回路１０８１に比べて多くの計算素子が動作するため、最適ではないと言える。つまり、アプリケーション機能部１０００ａは、ＧＥＭＭ回路１０８１に入力されるテンソルから、実行される行列積演算の最適な並列演算数を推定し、最適な並列演算数とＦＰＧＡアクセラレータ１０３で実装可能な計算素子数とに基づいて、ＧＥＭＭ回路１０８１のサイズを決定すればよい。

　同様に、アプリケーション機能部１０００ａは、最適なＡＬＵ１０８０の並列度（ＡＬＵ１０８０の数）を推定すればよい。具体的には、アプリケーション機能部１０００ａは、ＡＬＵ１０８０用の複数のオペレーションコードから、どのような並列度のテンソル演算が実行されるかという情報を読み取り、この情報に基づいて推論に最適なＡＬＵ１０８０の並列度を推定し、最適な並列度とＦＰＧＡアクセラレータ１０３で実装可能な計算素子数とに基づいて、ＡＬＵ１０８０の数を決定すればよい。

　アプリケーション機能部１０００ａは、ステップＳ２０５で決定した並列度のＡＬＵ１０８０とステップＳ２０５で決定したサイズのＧＥＭＭ回路１０８１とがＦＰＧＡアクセラレータ１０３内に配置されるように、パーシャルリコンフィギュレーション機能によりＦＰＧＡアクセラレータ１０３の構成を変更する（図３ステップＳ２０６）。アプリケーション機能部１０００ａは、パーシャルリコンフィギュレーションのためのビットストリームデータをＦＰＧＡアクセラレータ１０３に送ることにより、ＦＰＧＡアクセラレータ１０３の部分再構成可能領域１０８２を書き換えることができる。周知のとおり、パーシャルリコンフィギュレーション機能により、ＦＰＧＡアクセラレータ１０３を動作させつつ書き換えることが可能である。

　ローダ１００１は、メモリ１０２から読み出したオペレーションコードとパラメータと、アプリケーション機能部１０００ａから受け取った処理対象のデータとをＦＰＧＡアクセラレータ１０３に渡す（図３ステップＳ２０７）。なお、このステップＳ２０７の処理は、ステップＳ２０６のパーシャルリコンフィギュレーションと並行して実行される。

　ＦＰＧＡアクセラレータ１０３は、ローダ１００１から転送されたオペレーションコードに従って、処理対象のデータに対してニューラルネットワークの演算を行い、演算の結果得られた処理済みのデータをＦＰＧＡアクセラレータ１０３内部のＤＲＡＭ１０５に格納する（図３ステップＳ２０８）。

　ローダ１００１は、ＦＰＧＡアクセラレータ１０３内部のＤＲＡＭ１０５から処理済みのデータを読み出す（図３ステップＳ２０９）。
　アプリケーション機能部１０００ａは、ローダ１００１から処理済みのデータを受け取り、このデータを推論リクエストに対するレスポンスとしてクライアントに返信する（図３ステップＳ２１０）。

　以上のように、本実施例では、クライアントからの推論リクエストに対して最適なＡＬＵとＧＥＭＭ回路を割り当てることができ、最適な電力効率で推論サービングを実行することができる。本実施例では、ＡＬＵとＧＥＭＭ回路のみをパーシャルリコンフィギュレーションすることで、オーバヘッドはほぼ発生しない。

　本発明は、ニューラルネットワークを利用したサービスを提供する技術に適用することができる。

　１００ａ…ＣＰＵ、１０１…ＮＩＣ、１０２…メモリ、１０３…ＦＰＧＡアクセラレータ、１０４…ＰＣＩｅバス、１０５…ＤＲＡＭ、１０６…インストラクションフェッチモジュール、１０７…ロードモジュール、１０８…コンピュートモジュール、１０９…ストアモジュール、１０００ａ…アプリケーション機能部、１００１…ローダ、１０８０…ＡＬＵ、１０８１…ＧＥＭＭ回路、１０８２…部分再構成可能領域。

Claims

　クライアントからのリクエストに応じてニューラルネットワークの少なくとも一部の演算をＡＬＵとＧＥＭＭ回路で行うように構成されたＦＰＧＡアクセラレータと、
　前記ニューラルネットワークの演算のオペレーションコードと処理対象のデータとを前記ＦＰＧＡアクセラレータに転送するように構成されたローダと、
　前記クライアントから受信した前記処理対象のデータを前記ローダに渡し、前記リクエストに従って実行すべき前記オペレーションコードを前記ローダに対して指定し、前記ニューラルネットワークの演算の結果得られた処理済みのデータを前記クライアントに返信するように構成されたアプリケーション機能部とを備え、
　前記アプリケーション機能部は、前記ローダが前記ＦＰＧＡアクセラレータに転送するオペレーションコードに基づいて、前記クライアントからのリクエストが要求する推論に対応する前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを決定し、前記決定した並列度のＡＬＵと前記決定したサイズのＧＥＭＭ回路とが配置されるように前記ＦＰＧＡアクセラレータの構成を変更することを特徴とする深層学習推論システム。
　請求項１記載の深層学習推論システムにおいて、
　前記アプリケーション機能部は、前記ローダが前記ＦＰＧＡアクセラレータに転送するオペレーションコードに基づいて、前記クライアントからのリクエストが要求する推論に対応する前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを推定した結果と、前記ＦＰＧＡアクセラレータで実装可能な計算素子数とに基づいて、前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを決定することを特徴とする深層学習推論システム。
　請求項１または２記載の深層学習推論システムにおいて、
　前記アプリケーション機能部は、パーシャルリコンフィギュレーション機能により前記ＦＰＧＡアクセラレータの構成を変更することを特徴とする深層学習推論システム。
　クライアントから推論のリクエストと処理対象のデータとを受信する第１のステップと、
　前記クライアントから受信した前記処理対象のデータをローダに渡し、前記リクエストに従って実行すべきニューラルネットワークの演算のオペレーションコードを前記ローダに対して指定する第２のステップと、
　前記ニューラルネットワークの少なくとも一部の演算をＡＬＵとＧＥＭＭ回路で行うＦＰＧＡアクセラレータに転送される前記オペレーションコードに基づいて、前記クライアントからのリクエストが要求する推論に対応する前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを決定する第３のステップと、
　前記決定した並列度のＡＬＵと前記決定したサイズのＧＥＭＭ回路とが配置されるように前記ＦＰＧＡアクセラレータの構成を変更する第４のステップと、
　前記オペレーションコードと前記処理対象のデータとを前記ローダから前記ＦＰＧＡアクセラレータに転送する第５のステップと、
　前記ニューラルネットワークの演算の結果得られた処理済みのデータを前記クライアントに返信する第６のステップとを含むことを特徴とする推論サービング方法。
　請求項４記載の推論サービング方法において、
　前記第３のステップは、前記ＦＰＧＡアクセラレータに転送されるオペレーションコードに基づいて、前記クライアントからのリクエストが要求する推論に対応する前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを推定した結果と、前記ＦＰＧＡアクセラレータで実装可能な計算素子数とに基づいて、前記ＡＬＵの並列度と前記ＧＥＭＭ回路のサイズとを決定するステップを含むことを特徴とする推論サービング方法。
　請求項４または５記載の推論サービング方法において、
　前記第４のステップは、パーシャルリコンフィギュレーション機能により前記ＦＰＧＡアクセラレータの構成を変更するステップを含むことを特徴とする推論サービング方法。