WO2023105616A1

WO2023105616A1 - 深層学習推論システム

Info

Publication number: WO2023105616A1
Application number: PCT/JP2021/044891
Authority: WO
Inventors: 顕至田仲; 勇輝有川; 猛伊藤; 直樹三浦; 健坂本
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2023-06-15

Abstract

深層学習推論システムは、ＤＲＡＭ（１００ａ）と、ＤＲＡＭ（１００ａ）のグローバルメモリ空間（１００７）からオペレーションコード（２００）とパラメータ（２０１）とを読み出してニューラルネットワークの演算を行うプロセッサ（１０１ａ－１，１０１ａ－２）を備える。プロセッサ（１０１ａ－１，１０１ａ－２）は、対象のクライアントに対応するローカルメモリ空間（１０００，１００１）から処理対象のデータ（２０２－１，２０２－２）を読み出して演算を行い、演算結果を対象のクライアントに対応するローカルメモリ空間（１０００，１００１）に格納する。

Description

深層学習推論システム

　本発明は、多層ニューラルネットワークを用いて推論サービングを行う深層学習推論システムに関するものである。

　近年では、多層ニューラルネットワークを用いて情報処理を行い、その結果を活用するサービスが数多く存在する。演算器に、ニューラルネットワーク演算のオペレーションと、ニューラルネットワークのパラメータと、処理対象データとを与えて処理済みデータを得ることを、推論と呼ぶ。推論には、多数の演算とメモリとが必要になる。このため、サーバで推論が行われることがある。

　クライアントは、サーバに対してリクエストと処理対象データを送信し、処理の結果をレスポンスとして受け取る。このようなサービスの提供が推論サービングである。推論サービングには、さまざまな方法が提案されている（非特許文献１参照）。

　推論サービングの演算器としてＦＰＧＡ（field-programmable gate array）アクセラレータを用いる場合、ＦＰＧＡアクセラレータ上にノイマン型プロセッサを構築する方法が一般的である（非特許文献２参照）。ノイマン型プロセッサの内部構造を一般化して図５に示す。

　ニューラルネットワークの演算のオペレーションコード２００と、ニューラルネットワークのパラメータ２０１と、処理対象のデータとは、ＤＲＡＭ（Dynamic Random Access Memory）１００に格納される。図５の例では、処理対象のデータと演算途中のデータとを入力データ２０２としている。

　インストラクションフェッチモジュール（Instruction Fetch Module）１０２は、ＤＲＡＭ１００からオペレーションコード２００を読み出して、ロードモジュール（Load Module）１０３とコンピュートモジュール（Compute Module）１０４とストアモジュール（Store Module）１０５とに転送する。

　ロードモジュール１０３は、ＤＲＡＭ１００から入力データ２０２を読み出し、複数の入力データ２０２をバッチ化して、コンピュートモジュール１０４に転送する。
　コンピュートモジュール１０４は、インストラクションフェッチモジュール１０２から転送されたオペレーションコード２００に従って、入力データ２０２とパラメータ２０１とを用いてニューラルネットワークの演算を行う。コンピュートモジュール１０４には、ＡＬＵ（Arithmetic Logic Unit）１０４０と、ＧＥＭＭ（General matrix multiply）回路１０４１とが搭載されている。コンピュートモジュール１０４は、オペレーションコード２００に従って演算を行った後に、演算結果をストアモジュール１０５に転送する。

　ストアモジュール１０５は、コンピュートモジュール１０４による演算結果をＤＲＡＭ１００に格納する。このとき、処理済みのデータだけが出力データ２０３としてＤＲＡＭ１００に格納されるだけでなく、演算途中のデータが出力データ２０３として一時的に格納されることもある。演算途中のデータは、ロードモジュール１０３への入力データ２０２となる。

　ＤＲＡＭ１００は、プロセッサ外部のメモリである。ＤＲＡＭ１００には、上記のようにニューラルネットワークの演算のオペレーションコード２００と、ニューラルネットワークのパラメータ２０１と、入力データ２０２と、出力データ２０３とが格納される。これらのデータは、リクエストクライアント毎に存在する。リクエストクライアント毎にメモリ領域を割り当てた場合のＤＲＡＭ１００のメモリ空間は図６のようになる。図６の例では、メモリ空間の各行１０００～１００６がクライアント毎のメモリ空間を模式的に表している。

　ノイマン型プロセッサが複数ある場合、従来のＤＲＡＭ１００のメモリ空間にはそれぞれのプロセッサが共有するメモリ空間がないため、以下のような課題があった。
（I）プロセッサは、クライアントからのリクエストをマルチコア処理することができない。
（II）プロセッサは、クライアントからのリクエストをパイプライン処理することができない。
（III）プロセッサは、クライアントからのリクエストが同じリクエストの場合（例えばパラメータが同じ場合）でも、クライアント毎にメモリからの読み出しを行う必要があり、メモリ空間が無駄になる。

Christopher Olston，et al.，"Tensorflow-serving:Flexible，high-performance ml serving"，米国コーネル大学ライブラリー，arXiv preprint arXiv:1712.06139，2017 Thierry Moreau，Tianqi Chen，Luis Ceze，"Leveraging the vta-tvm hardware-software stack for fpga acceleration of 8-bit resnet-18 inference"，Proceedings of the 1st on Reproducible Quality-Efficient Systems Tournament on Co-designing Pareto-efficient Deep Learning，2018

　本発明は、上記課題を解決するためになされたもので、計算機効率を向上させることができ、高いエネルギー効率で推論サービングを実行することができる深層学習推論システムを提供することを目的とする。

　本発明の深層学習推論システムは、ニューラルネットワークの演算のオペレーションコードと前記ニューラルネットワークのパラメータとが格納されたグローバルメモリ空間と、リクエストを送信するクライアント毎に確保されるローカルメモリ空間とを有するメモリと、クライアントからのリクエストに応じて、前記グローバルメモリ空間から前記オペレーションコードと前記パラメータとを読み出して前記ニューラルネットワークの演算を行う処理を、複数のクライアントのそれぞれについて行うように構成された複数のプロセッサとを備え、各プロセッサは、対象のクライアントに対応する前記ローカルメモリ空間から処理対象のデータを読み出して前記ニューラルネットワークの演算を行い、演算結果を対象のクライアントに対応する前記ローカルメモリ空間に格納することを特徴とするものである。

　また、本発明の深層学習推論システムは、畳み込みニューラルネットワークの処理対象のデータが格納されたグローバルメモリ空間と、前記畳み込みニューラルネットワークの複数のカーネル毎に確保されるローカルメモリ空間とを有するメモリと、前記グローバルメモリ空間から前記処理対象のデータを読み出して畳み込み演算を行う処理を、前記複数のカーネルのそれぞれについて行うように構成された複数のプロセッサとを備え、各プロセッサは、対象のカーネルの畳み込み演算命令コードとカーネルパラメータとを対象のカーネルに対応する前記ローカルメモリ空間から読み出して畳み込み演算を行い、演算結果を対象のカーネルに対応する前記ローカルメモリ空間に格納することを特徴とするものである。

　また、本発明の深層学習推論システムは、多層ニューラルネットワークの中間データが格納されるグローバルメモリ空間と、前記多層ニューラルネットワークの層毎に確保されるローカルメモリ空間とを有するメモリと、前記多層ニューラルネットワークの対象の層に対応する前記ローカルメモリ空間から対象の層の演算のオペレーションコードとパラメータとを読み出して対象の層の演算を行う処理を、前記多層ニューラルネットワークの層のそれぞれについて行うように構成された複数のプロセッサとを備え、各プロセッサのうち上位層を対象とするプロセッサは、対象の層に対応する前記ローカルメモリ空間から処理対象のデータを読み出して対象の層の演算を行い、演算結果を中間データとして前記グローバルメモリ空間に格納し、各プロセッサのうち下位層を対象とするプロセッサは、前記グローバルメモリ空間から処理対象の前記中間データを読み出して対象の層の演算を行い、演算結果を対象の層に対応する前記ローカルメモリ空間に格納することを特徴とするものである。
　また、本発明の深層学習推論システムの１構成例は、前記メモリと前記複数のプロセッサとの間にそれぞれ設けられ、前記メモリと前記複数のプロセッサとの間で読み書きされるデータとコードとパラメータとを格納するように構成された複数のキャッシュメモリをさらに備えることを特徴とするものである。

　本発明によれば、複数のプロセッサが共有するグローバルメモリ空間にオペレーションコードとパラメータとを格納する。本発明では、処理対象のデータが異なるが、使用するモデルが同じ推論について、複数の推論を異なるプロセッサで並列に実行することができる。その結果、本発明では、メモリ空間を節約することができると共に、リクエストスループットを向上させることができる。

図１は、本発明の第１の実施例に係る深層学習推論システムのサーバに設けられる演算器の構成を示すブロック図である。図２は、本発明の第２の実施例に係る深層学習推論システムのサーバに設けられる演算器の構成を示すブロック図である。図３は、本発明の第３の実施例に係る深層学習推論システムのサーバに設けられる演算器の構成を示すブロック図である。図４は、本発明の第４の実施例に係る深層学習推論システムのサーバに設けられる演算器の構成を示すブロック図である。図５は、ＦＰＧＡアクセラレータ上に構築されたノイマン型プロセッサの構成を示すブロック図である。図６は、ノイマン型プロセッサがアクセスするＤＲＡＭのメモリ空間を示す図である。

［発明の原理］
　本発明は、深層学習推論システムのメモリ空間上に共有メモリ空間を設け、各ノイマン型プロセッサでデータを共有することを許容する。

［第１の実施例］
　以下、本発明の実施例について図面を参照して説明する。図１は本発明の第１の実施例に係る深層学習推論システムのサーバに設けられる演算器の構成を示すブロック図である。演算器は、ＤＲＡＭ１００ａと、複数のノイマン型プロセッサ１０１ａ－１，１０１ａ－２とから構成される。各プロセッサ１０１ａ－１，１０１ａ－２は、それぞれインストラクションフェッチモジュール１０２ａと、ロードモジュール１０３ａと、コンピュートモジュール１０４と、ストアモジュール１０５ａとから構成される。

　本実施例のＤＲＡＭ１００ａのメモリ空間には、クライアント毎に確保されるローカルメモリ空間１０００～１００６と、複数のプロセッサ１０１ａ－１，１０１ａ－２が共有するために確保されるグローバルメモリ空間１００７とがある。

　サーバのＣＰＵ（Central Processing Unit）１１０は、ネットワークを介してクライアントＡから推論リクエストを受信すると、推論リクエストに対応するニューラルネットワークの演算のオペレーションコード２００とニューラルネットワークのパラメータ２０１とをＤＲＡＭ１００ａのグローバルメモリ空間１００７に格納する。また、ＣＰＵ１１０は、クライアントＡから受信した処理対象のデータを入力データ２０２－１として、クライアントＡに対応するＤＲＡＭ１００ａのローカルメモリ空間１０００に格納する。

　また、ＣＰＵ１１０は、ネットワークを介してクライアントＢから推論リクエストと処理対象のデータとを受信したときに、処理対象のデータを入力データ２０２－２として、クライアントＢに対応するＤＲＡＭ１００ａのローカルメモリ空間１００１に格納する。推論リクエストは、どのモデルで推論するかを指定する。本実施例では、クライアントＡ，Ｂのそれぞれから受信した推論リクエストが同じモデルを指定するものとする。

　プロセッサ１０１ａ－１のインストラクションフェッチモジュール１０２ａは、ＤＲＡＭ１００ａのグローバルメモリ空間１００７からオペレーションコード２００とパラメータ２０１とを読み出して、プロセッサ１０１ａ－１のロードモジュール１０３ａとコンピュートモジュール１０４とストアモジュール１０５ａとに転送する。

　プロセッサ１０１ａ－１のロードモジュール１０３ａは、推論リクエストを送信したクライアントＡに対応するＤＲＡＭ１００ａのローカルメモリ空間１０００から入力データ２０２－１を読み出し、複数の入力データ２０２－１をバッチ化して、コンピュートモジュール１０４に転送する。

　プロセッサ１０１ａ－１のコンピュートモジュール１０４は、インストラクションフェッチモジュール１０２ａから転送されたオペレーションコード２００に従って、入力データ２０２－１とパラメータ２０１とを用いてニューラルネットワークの演算を行う。コンピュートモジュール１０４は、演算結果をストアモジュール１０５ａに転送する。

　プロセッサ１０１ａ－１のストアモジュール１０５ａは、コンピュートモジュール１０４による演算結果を出力データ２０３－１として、クライアントＡに対応するＤＲＡＭ１００ａのローカルメモリ空間１０００に格納する。

　サーバのＣＰＵ１１０は、ＤＲＡＭ１００ａのローカルメモリ空間１０００から処理済みのデータを読み出し、このデータを推論リクエストに対するレスポンスとしてクライアントＡに返信する。

　一方、プロセッサ１０１ａ－２のインストラクションフェッチモジュール１０２ａは、ＤＲＡＭ１００ａのグローバルメモリ空間１００７からオペレーションコード２００とパラメータ２０１とを読み出して、プロセッサ１０１ａ－２のロードモジュール１０３ａとコンピュートモジュール１０４とストアモジュール１０５ａとに転送する。

　プロセッサ１０１ａ－２のロードモジュール１０３ａは、推論リクエストを送信したクライアントＢに対応するＤＲＡＭ１００ａのローカルメモリ空間１００１から入力データ２０２－２を読み出し、複数の入力データ２０２－２をバッチ化して、コンピュートモジュール１０４に転送する。

　プロセッサ１０１ａ－２のコンピュートモジュール１０４は、インストラクションフェッチモジュール１０２ａから転送されたオペレーションコード２００に従って、入力データ２０２－２とパラメータ２０１とを用いてニューラルネットワークの演算を行う。コンピュートモジュール１０４は、演算結果をストアモジュール１０５ａに転送する。

　プロセッサ１０１ａ－２のストアモジュール１０５ａは、コンピュートモジュール１０４による演算結果を出力データ２０３－２として、クライアントＢに対応するＤＲＡＭ１００ａのローカルメモリ空間１００１に格納する。

　サーバのＣＰＵ１１０は、ＤＲＡＭ１００ａのローカルメモリ空間１００１から処理済みのデータを読み出し、このデータを推論リクエストに対するレスポンスとしてクライアントＢに返信する。

　以上のように、本実施例では、複数のプロセッサ１０１ａ－１，１０１ａ－２が共有するグローバルメモリ空間１００７にオペレーションコード２００とパラメータ２０１とを格納する。本実施例では、処理対象データが異なるが、使用するモデルが同じ推論（オペレーションコード２００が同じ推論）について、複数の推論を異なるプロセッサ１０１ａ－１，１０１ａ－２で並列に実行することができる。その結果、本実施例では、メモリ空間を節約することができると共に、リクエストスループットを向上させることができる。

［第２の実施例］
　次に、本発明の第２の実施例について説明する。図２は本発明の第２の実施例に係る深層学習推論システムのサーバに設けられる演算器の構成を示すブロック図である。演算器は、ＤＲＡＭ１００ｂと、複数のノイマン型プロセッサ１０１ｂ－１，１０１ｂ－２とから構成される。各プロセッサ１０１ｂ－１，１０１ｂ－２は、それぞれインストラクションフェッチモジュール１０２ｂと、ロードモジュール１０３ｂと、コンピュートモジュール１０４ｂと、ストアモジュール１０５ｂとから構成される。

　畳み込みニューラルネットワークの場合、複数種類のフィルタ（カーネル）で畳み込み演算を行い、複数の畳み込み演算結果の重み付け和を演算する。
　本実施例のＤＲＡＭ１００ｂのメモリ空間には、畳み込みニューラルネットワークの複数種類のカーネル毎に確保されるローカルメモリ空間１０００～１００６と、複数のプロセッサ１０１ｂ－１，１０１ｂ－２が共有するために確保されるグローバルメモリ空間１００７とがある。グローバルメモリ空間１００７には、サーバのＣＰＵ１１０によって畳み込み演算の入力データ２０２が格納される。

　プロセッサ１０１ｂ－１のインストラクションフェッチモジュール１０２ｂは、ＤＲＡＭ１００ｂのローカルメモリ空間１０００からカーネルパラメータ２０４－１とカーネルの畳み込み演算命令コード２０５－１とを読み出して、プロセッサ１０１ｂ－１のロードモジュール１０３ｂとコンピュートモジュール１０４ｂとストアモジュール１０５ｂとに転送する。

　プロセッサ１０１ｂ－１のロードモジュール１０３ｂは、ＤＲＡＭ１００ｂのグローバルメモリ空間１００７から入力データ２０２を読み出してコンピュートモジュール１０４ｂに転送する。

　プロセッサ１０１ｂ－１のコンピュートモジュール１０４ｂは、インストラクションフェッチモジュール１０２ｂから転送された畳み込み演算命令コード２０５－１に従って、入力データ２０２とカーネルパラメータ２０４－１とを用いて畳み込み演算を行う。コンピュートモジュール１０４ｂは、演算結果をストアモジュール１０５ｂに転送する。

　プロセッサ１０１ｂ－１のストアモジュール１０５ｂは、コンピュートモジュール１０４ｂによる演算結果を出力データ２０３－１として、ＤＲＡＭ１００ｂのローカルメモリ空間１０００に格納する。

　一方、プロセッサ１０１ｂ－２のインストラクションフェッチモジュール１０２ｂは、ＤＲＡＭ１００ｂのローカルメモリ空間１００１からカーネルパラメータ２０４－２とカーネルの畳み込み演算命令コード２０５－２とを読み出して、プロセッサ１０１ｂ－２のロードモジュール１０３ｂとコンピュートモジュール１０４ｂとストアモジュール１０５ｂとに転送する。

　プロセッサ１０１ｂ－２のロードモジュール１０３ｂは、ＤＲＡＭ１００ｂのグローバルメモリ空間１００７から入力データ２０２を読み出してコンピュートモジュール１０４ｂに転送する。

　プロセッサ１０１ｂ－２のコンピュートモジュール１０４ｂは、インストラクションフェッチモジュール１０２ｂから転送された畳み込み演算命令コード２０５－２に従って、入力データ２０２とカーネルパラメータ２０４－２とを用いて畳み込み演算を行う。コンピュートモジュール１０４ｂは、演算結果をストアモジュール１０５ｂに転送する。

　プロセッサ１０１ｂ－２のストアモジュール１０５ｂは、コンピュートモジュール１０４ｂによる演算結果を出力データ２０３－２として、ＤＲＡＭ１００ｂのローカルメモリ空間１００１に格納する。

　以上のように、本実施例では、複数のプロセッサ１０１ｂ－１，１０１ｂ－２が共有するグローバルメモリ空間１００７に入力データ２０２を格納し、カーネルパラメータ２０４－１，２０４－２と畳み込み演算命令コード２０５－１，２０５－２とを畳み込み演算毎に異なるローカルメモリ空間１０００～１００６に格納する。その結果、本実施例では、複数の畳み込み演算を異なるプロセッサ１０１ｂ－１，１０１ｂ－２で並列に実行することができ、推論スループットを向上させることができる。

［第３の実施例］
　次に、本発明の第３の実施例について説明する。図３は本発明の第３の実施例に係る深層学習推論システムのサーバに設けられる演算器の構成を示すブロック図である。演算器は、ＤＲＡＭ１００ｃと、複数のノイマン型プロセッサ１０１ｃ－１，１０１ｃ－２とから構成される。各プロセッサ１０１ｃ－１，１０１ｃ－２は、それぞれインストラクションフェッチモジュール１０２ｃと、ロードモジュール１０３ｃと、コンピュートモジュール１０４ｃｃと、ストアモジュール１０５ｃとから構成される。

　多層ニューラルネットワークの場合、上位層の演算をプロセッサ１０１ｃ－１で行い、下位層の演算をプロセッサ１０１ｃ－２で行うことで、パイプライン処理することできる。本実施例のＤＲＡＭ１００ｃのメモリ空間には、多層ニューラルネットワークの層毎に確保されるローカルメモリ空間１０００～１００６と、複数のプロセッサ１０１ｃ－１，１０１ｃ－２が共有するために確保されるグローバルメモリ空間１００７とがある。

　サーバのＣＰＵ１１０は、多層ニューラルネットワークの上位層の演算のオペレーションコード２００－１とパラメータ２０１－１とをＤＲＡＭ１００ｃのローカルメモリ空間１０００に格納し、下位層の演算のオペレーションコード２００－２とパラメータ２０１－２とをＤＲＡＭ１００ｃのローカルメモリ空間１００１に格納する。また、ＣＰＵ１１０は、クライアントから受信した処理対象のデータを入力データ２０２としてローカルメモリ空間１０００に格納する。

　プロセッサ１０１ｃ－１のインストラクションフェッチモジュール１０２ｃは、ＤＲＡＭ１００ｃのローカルメモリ空間１０００からオペレーションコード２００－１とパラメータ２０１－１とを読み出して、プロセッサ１０１ｃ－１のロードモジュール１０３ｃとコンピュートモジュール１０４ｃとストアモジュール１０５ｃとに転送する。

　プロセッサ１０１ｃ－１のロードモジュール１０３ｃは、ＤＲＡＭ１００ｃのローカルメモリ空間１０００から入力データ２０２を読み出してコンピュートモジュール１０４ｃに転送する。

　プロセッサ１０１ｃ－１のコンピュートモジュール１０４ｃは、インストラクションフェッチモジュール１０２ｃから転送されたオペレーションコード２００－１に従って、入力データ２０２とパラメータ２０１－１とを用いて多層ニューラルネットワークの上位層の演算を行う。コンピュートモジュール１０４ｃは、演算結果をストアモジュール１０５ｃに転送する。

　プロセッサ１０１ｃ－１のストアモジュール１０５ｃは、コンピュートモジュール１０４ｃによる演算結果を中間データ２０６として、ＤＲＡＭ１００ｃのグローバルメモリ空間１００７に格納する。

　次に、プロセッサ１０１ｃ－２のインストラクションフェッチモジュール１０２ｃは、ＤＲＡＭ１００ｃのローカルメモリ空間１００１からオペレーションコード２００－２とパラメータ２０１－２とを読み出して、プロセッサ１０１ｃ－２のロードモジュール１０３ｃとコンピュートモジュール１０４ｃとストアモジュール１０５ｃとに転送する。

　プロセッサ１０１ｃ－２のロードモジュール１０３ｃは、ＤＲＡＭ１００ｃのグローバルメモリ空間１００７から中間データ２０６を読み出してコンピュートモジュール１０４ｃに転送する。

　プロセッサ１０１ｃ－２のコンピュートモジュール１０４ｃは、インストラクションフェッチモジュール１０２ｃから転送されたオペレーションコード２００－２に従って、中間データ２０６とパラメータ２０１－２とを用いて多層ニューラルネットワークの下位層の演算を行う。コンピュートモジュール１０４ｃは、演算結果をストアモジュール１０５ｃに転送する。

　プロセッサ１０１ｃ－２のストアモジュール１０５ｃは、コンピュートモジュール１０４ｃによる演算結果を出力データ２０３として、ＤＲＡＭ１００ｃのローカルメモリ空間１００１に格納する。

　以上のように、本実施例では、複数のプロセッサ１０１ｃ－１，１０１ｃ－２が共有するグローバルメモリ空間１００７に多層ニューラルネットワークの演算の中間データ２０６を格納する。その結果、本実施例では、多層ニューラルネットワークの演算のパイプライン処理が可能になり、推論スループットを向上させることができる。

［第４の実施例］
　次に、本発明の第４の実施例について説明する。図４は本発明の第４の実施例に係る深層学習推論システムのサーバに設けられる演算器の構成を示すブロック図である。演算器は、ＤＲＡＭ１００ａと、複数のノイマン型プロセッサ１０１ａ－１，１０１ａ－２と、ＤＲＡＭ１００ａとそれぞれのプロセッサ１０１ａ－１，１０１ａ－２との間に設けられるキャッシュメモリ１０６－１，１０６－２とから構成される。

　ＤＲＡＭ１００ａについては第１の実施例で説明したとおりである。サーバのＣＰＵ１１０は、ＤＲＡＭ１００ａのグローバルメモリ空間１００７に格納したオペレーションコード２００とパラメータ２０１とをキャッシュメモリ１０６－１，１０６－２に保存する。さらに、ＣＰＵ１１０は、ＤＲＡＭ１００ａのローカルメモリ空間１０００に格納した入力データ２０２－１をキャッシュメモリ１０６－１に保存し、ＤＲＡＭ１００ａのローカルメモリ空間１００１に格納した入力データ２０２－２をキャッシュメモリ１０６－２に保存する。

　プロセッサ１０１ａ－１のインストラクションフェッチモジュール１０２ａは、キャッシュメモリ１０６－１からオペレーションコード２００とパラメータ２０１とを読み出して、プロセッサ１０１ａ－１のロードモジュール１０３ａとコンピュートモジュール１０４とストアモジュール１０５ａとに転送する。

　プロセッサ１０１ａ－１のロードモジュール１０３ａは、キャッシュメモリ１０６－１から入力データ２０２－１を読み出し、複数の入力データ２０２－１をバッチ化して、コンピュートモジュール１０４に転送する。

　プロセッサ１０１ａ－１のコンピュートモジュール１０４は、インストラクションフェッチモジュール１０２ａから転送されたオペレーションコード２００に従って、入力データ２０２－１とパラメータ２０１とを用いてニューラルネットワークの演算を行う。
　プロセッサ１０１ａ－１のストアモジュール１０５ａは、コンピュートモジュール１０４による演算結果をキャッシュメモリ１０６－１に格納する。

　サーバのＣＰＵ１１０は、キャッシュメモリ１０６－１に格納された処理済みのデータをクライアントＡに対応するＤＲＡＭ１００ａのローカルメモリ空間１０００に書き込み、続いて処理済みのデータをローカルメモリ空間１０００から読み出してクライアントＡに返信する。

　一方、プロセッサ１０１ａ－２のインストラクションフェッチモジュール１０２ａは、キャッシュメモリ１０６－２からオペレーションコード２００とパラメータ２０１とを読み出して、プロセッサ１０１ａ－２のロードモジュール１０３ａとコンピュートモジュール１０４とストアモジュール１０５ａとに転送する。

　プロセッサ１０１ａ－２のロードモジュール１０３ａは、キャッシュメモリ１０６－２から入力データ２０２－２を読み出し、複数の入力データ２０２－２をバッチ化して、コンピュートモジュール１０４に転送する。

　プロセッサ１０１ａ－２のコンピュートモジュール１０４は、インストラクションフェッチモジュール１０２ａから転送されたオペレーションコード２００に従って、入力データ２０２－２とパラメータ２０１とを用いてニューラルネットワークの演算を行う。
　プロセッサ１０１ａ－２のストアモジュール１０５ａは、コンピュートモジュール１０４による演算結果をキャッシュメモリ１０６－２に格納する。

　サーバのＣＰＵ１１０は、キャッシュメモリ１０６－２に格納された処理済みのデータをクライアントＢに対応するＤＲＡＭ１００ａのローカルメモリ空間１００１に書き込み、続いて処理済みのデータをローカルメモリ空間１００１から読み出してクライアントＢに返信する。

　以上のように、本実施例では、ＤＲＡＭ１００ａとそれぞれのプロセッサ１０１ａ－１，１０１ａ－２との間にキャッシュメモリ１０６－１，１０６－２を設けることにより、ＤＲＡＭ１００ａのメモリレイテンシを隠蔽し、推論レイテンシを短縮することができる。

　本実施例では、キャッシュメモリ１０６－１，１０６－２を第１の実施例に適用した例で説明したが、第２、第３の実施例に適用してもよいことは言うまでもない。
　キャッシュメモリ１０６－１，１０６－２を第２の実施例に適用する場合には、入力データ２０２とカーネルパラメータ２０４－１と畳み込み演算命令コード２０５－１と出力データ２０３－１とをキャッシュメモリ１０６－１に格納し、入力データ２０２とカーネルパラメータ２０４－２と畳み込み演算命令コード２０５－２と出力データ２０３－２とをキャッシュメモリ１０６－１に格納すればよい。

　キャッシュメモリ１０６－１，１０６－２を第３の実施例に適用する場合には、入力データ２０２とオペレーションコード２００－１とパラメータ２０１－１とをキャッシュメモリ１０６－１に格納し、オペレーションコード２００－２とパラメータ２０１－２と中間データ２０６と出力データ２０３とをキャッシュメモリ１０６－２に格納すればよい。

　また、第１～第４の実施例では、ノイマン型プロセッサとキャッシュメモリの数を２つとしているが、３つ以上としてもよいことは言うまでもない。

　本発明は、ニューラルネットワークを利用したサービスを提供する技術に適用することができる。

　１００ａ，１００ｂ，１００ｃ…ＤＲＡＭ，１０１ａ－１，１０１ａ－２，１０１ｂ－１，１０１ｂ－２，１０１ｃ－１，１０１ｃ－２…ノイマン型プロセッサ、１０２ａ，１０２ｂ，１０２ｃ…インストラクションフェッチモジュール、１０３ａ，１０３ｂ，１０３ｃ…ロードモジュール、１０４，１０４ｂ，１０４ｃ…コンピュートモジュール、１０５ａ，１０５ｂ，１０５ｃ…ストアモジュール、１０６－１，１０６－２…キャッシュメモリ、１０００～１００６…ローカルメモリ空間、１００７…グローバルメモリ空間。

Claims

　ニューラルネットワークの演算のオペレーションコードと前記ニューラルネットワークのパラメータとが格納されたグローバルメモリ空間と、リクエストを送信するクライアント毎に確保されるローカルメモリ空間とを有するメモリと、
　クライアントからのリクエストに応じて、前記グローバルメモリ空間から前記オペレーションコードと前記パラメータとを読み出して前記ニューラルネットワークの演算を行う処理を、複数のクライアントのそれぞれについて行うように構成された複数のプロセッサとを備え、
　各プロセッサは、対象のクライアントに対応する前記ローカルメモリ空間から処理対象のデータを読み出して前記ニューラルネットワークの演算を行い、演算結果を対象のクライアントに対応する前記ローカルメモリ空間に格納することを特徴とする深層学習推論システム。
　畳み込みニューラルネットワークの処理対象のデータが格納されたグローバルメモリ空間と、前記畳み込みニューラルネットワークの複数のカーネル毎に確保されるローカルメモリ空間とを有するメモリと、
　前記グローバルメモリ空間から前記処理対象のデータを読み出して畳み込み演算を行う処理を、前記複数のカーネルのそれぞれについて行うように構成された複数のプロセッサとを備え、
　各プロセッサは、対象のカーネルの畳み込み演算命令コードとカーネルパラメータとを対象のカーネルに対応する前記ローカルメモリ空間から読み出して畳み込み演算を行い、演算結果を対象のカーネルに対応する前記ローカルメモリ空間に格納することを特徴とする深層学習推論システム。
　多層ニューラルネットワークの中間データが格納されるグローバルメモリ空間と、前記多層ニューラルネットワークの層毎に確保されるローカルメモリ空間とを有するメモリと、
　前記多層ニューラルネットワークの対象の層に対応する前記ローカルメモリ空間から対象の層の演算のオペレーションコードとパラメータとを読み出して対象の層の演算を行う処理を、前記多層ニューラルネットワークの層のそれぞれについて行うように構成された複数のプロセッサとを備え、
　各プロセッサのうち上位層を対象とするプロセッサは、対象の層に対応する前記ローカルメモリ空間から処理対象のデータを読み出して対象の層の演算を行い、演算結果を中間データとして前記グローバルメモリ空間に格納し、
　各プロセッサのうち下位層を対象とするプロセッサは、前記グローバルメモリ空間から処理対象の前記中間データを読み出して対象の層の演算を行い、演算結果を対象の層に対応する前記ローカルメモリ空間に格納することを特徴とする深層学習推論システム。
　請求項１乃至３のいずれか１項に記載の深層学習推論システムにおいて、
　前記メモリと前記複数のプロセッサとの間にそれぞれ設けられ、前記メモリと前記複数のプロセッサとの間で読み書きされるデータとコードとパラメータとを格納するように構成された複数のキャッシュメモリをさらに備えることを特徴とする深層学習推論システム。