WO2021106105A1

WO2021106105A1 - 分散深層学習システム

Info

Publication number: WO2021106105A1
Application number: PCT/JP2019/046373
Authority: WO
Inventors: 顕至田仲; 勇輝有川; 伊藤　猛; 和彦寺田; 坂本　健
Original assignee: 日本電信電話株式会社
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2021-06-03
Also published as: JPWO2021106105A1; JP7272460B2; US20230004787A1

Abstract

分散深層学習システムは、ノード（１－ｎ，ｎ＝１，・・・，４）と、ネットワーク（２）を備える。ノード（１－ｎ）は、ＧＰＵ（１１－ｎ－１，１１－ｎ－２）と、ＦＰＧＡ（１２－ｎ）を備える。ＦＰＧＡ（１２－ｎ）は、複数のＧＰＵ受信バッファと、ＧＰＵ受信バッファから転送されたデータを格納する複数のネットワーク送信バッファと、他のノードから受信した集計データを格納する複数のネットワーク受信バッファと、ネットワーク受信バッファから転送されたデータを格納する複数のＧＰＵ送信バッファを備える。ＧＰＵ（１１－ｎ－１，１１－ｎ－２）は、ＦＰＧＡ（１２－ｎ）にデータをＤＭＡ転送する。ＧＰＵ送信バッファに格納されたデータは、ＧＰＵ（１１－ｎ－１，１１－ｎ－２）にＤＭＡ転送される。

Description

分散深層学習システム

　本発明は、ニューラルネットワークを用いた機械学習である深層学習を複数のノードで分散協調して実行する分散深層学習システムに関するものである。

　深層学習では、順伝搬、逆伝搬を交互に行うことで入力データに適合したモデルを学習する。この順伝搬、逆伝搬を効率的に行うために、近年ではＧＰＵ（Graphics Processing Unit）などのアクセラレータを用いる。近年では、入力データが膨大に存在し、１台の計算機で処理した場合にストレージ、Ｉ／Ｏ（Input/Output）のボトルネックが発生するため、複数台の計算機にデータを分散させて処理を行うデータ並列分散深層学習が提案されている（非特許文献１参照）。

　データ並列分散深層学習では、計算機毎に異なる順伝搬、逆伝搬を行い、その結果得られた逆伝搬後の重みデータを通信を用いて共有する。この共有は、Ａｌｌｒｅｄｕｃｅと呼ばれる集団通信処理である。Ａｌｌｒｅｄｕｃｅでは、計算機毎に計算した重みデータを合計（Reduce）し、分配（Broadcast）を行う。Ａｌｌｒｅｄｕｃｅは、データ並列分散深層学習において重要な役割を持つ反面、ボトルネックになることが知られている。

　図２８は従来の分散深層学習システムの構成を示すブロック図である。分散深層学習システムは、Ｎ個（Ｎは２以上の整数で、ここではＮ＝４）のノード１００－ｎ（ｎ＝１，・・・，Ｎ）と、Ｎ個のノード１００－ｎを互いに接続するネットワーク２００とを備えている。

　親ノード１００－１は、ＣＰＵ（Central Processing Unit）１０１－１と、ＧＰＵ１０２－１と、ＦＰＧＡ１０３－１とを備えている。
　子ノード１００－ｋ（ｋ＝２，・・・，Ｎ）は、ＣＰＵ１０１－ｋと、ＧＰＵ１０２－ｋ－１と、ＦＰＧＡ１０３－ｋとを備えている。

　図２９は親ノード１００－１のＦＰＧＡ１０３－１の機能ブロック図である。ＦＰＧＡ１０３－１は、ＧＰＵ受信バッファ１２０と、ＧＰＵ送信バッファ１２１と、ネットワーク送信バッファ１２２，１２３と、ネットワーク受信バッファ１２４，１２５と、送信部１２６と、送信部１２８と、受信部１２９として機能する。

　図３０は子ノード１００－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１０３－ｋの機能ブロック図である。ＦＰＧＡ１０３－ｋは、ＧＰＵ受信バッファ１２０と、ＧＰＵ送信バッファ１２１と、ネットワーク送信バッファ１２２，１２３と、ネットワーク受信バッファ１２４，１２５と、送信部１２６と、受信部１２７と、送信部１２８と、受信部１２９として機能する。

　以下、Ａｌｌｒｅｄｕｃｅ処理について説明する。各ノード１００－ｎのＧＰＵ１０２－ｎは、学習対象のモデルの重みに対する勾配を計算して、勾配を重み別に合算して分散データＤを計算する。各ノード１００－ｎのＧＰＵ１０２－ｎは、分散データＤを、ノード１００－ｎのＦＰＧＡ１０３－ｎのＧＰＵ受信バッファ１２０にＤＭＡ（Direct Memory Access）転送する。ＧＰＵ受信バッファ１２０に格納されているデータはネットワーク送信バッファ１２２，１２３のうち空いている方に転送される。
　各ノード１００－ｎのＦＰＧＡ１０３－ｎでは、ネットワーク送信バッファ１２２または１２３にデータが格納され、かつＦＰＧＡ１０３－ｎのネットワーク受信バッファ１２４，１２５のうちどちらかが空であれば、チェックフラグがセットされる。

　親ノード１００－１のＦＰＧＡ１０３－１の送信部１２６は、自ノードを含む全てのノード１００－ｎでチェックフラグがセットされている場合、ＦＰＧＡ１０３－１のネットワーク送信バッファ１２２または１２３に格納されている分散データＤを取り出し、取り出したデータを中間集計データＲｔ［１］として、通信路２０１を介して次の番号のノード１００－２に送信する。

　子ノード１００－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１０３－ｋの受信部１２７は、ノード１００－（ｋ－１）から通信路２０１を介して中間集計データＲｔ［ｋ－１］を受信する。
　子ノード１００－ｋのＦＰＧＡ１０３－ｋの加算部１３１は、ＦＰＧＡ１０３－ｋのネットワーク送信バッファ１２２または１２３に格納されている分散データＤを取り出す。そして、加算部１３１は、取り出した分散データＤと通信路２０１から受信した中間集計データＲｔ［ｋ－１］との和を求めることにより、中間集計データＲｔ［ｋ］を生成する。

　子ノード１００－ｋのＦＰＧＡ１０３－ｋの送信部１２６は、ＦＰＧＡ１０３－ｋの加算部１３１によって生成された中間集計データＲｔ［ｋ］を、通信路２０１を介して次の番号のノード１００－ｋ⁺（ｋ⁺＝ｋ＋１、ただしｋ＝Ｎの場合はｋ⁺＝１）に送信する。

　親ノード１００－１のＦＰＧＡ１０３－１の受信部１２９は、ノード１００－Ｎから通信路２０１を介して中間集計データＲｔ［Ｎ］を受信する。
　親ノード１００－１のＦＰＧＡ１０３－１の送信部１２８は、受信した中間集計データＲｔ［Ｎ］を、集計データＲとして、通信路２０１を介して次の番号のノード１００－２に送信する。

　また、親ノード１００－１のＦＰＧＡ１０３－１の受信部１２９は、ノード１００－Ｎから通信路２０１を介して受信した集計データＲを、ＦＰＧＡ１０３－１のネットワーク受信バッファ１２４，１２５のうち空いている方に転送する。ネットワーク受信バッファ１２４または１２５に格納されたデータは、ＦＰＧＡ１０３－１のＧＰＵ送信バッファ１２１に転送される。ＧＰＵ送信バッファ１２１に格納されたデータは、ＧＰＵ１０２－１にＤＭＡ転送される。

　子ノード１００－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１０３－ｋの受信部１２９は、ノード１００－（ｋ－１）から通信路２０１を介して集計データＲを受信する。
　子ノード１００－ｋのＦＰＧＡ１０３－ｋの送信部１２８は、受信した集計データＲを、通信路２０１を介して次の番号のノード１００－ｋ⁺（ｋ⁺＝ｎ＋１、ただしｋ＝Ｎの場合はｎ⁺＝１）に送信する。

　また、子ノード１００－ｋのＦＰＧＡ１０３－ｋの受信部１２９は、ノード１００－（ｋ－１）から通信路２０１を介して受信した集計データＲを、ＦＰＧＡ１０３－ｋのネットワーク受信バッファ１２４，１２５のうち空いている方に転送する。ネットワーク受信バッファ１２４または１２５に格納されたデータは、ＦＰＧＡ１０３－ｋのＧＰＵ送信バッファ１２１に転送される。ＧＰＵ送信バッファ１２１に格納されたデータは、ＧＰＵ１０２－ｋにＤＭＡ転送される。

　以上のＡｌｌｒｅｄｕｃｅ処理において、ＤＭＡ転送におけるファイルディスクリプタは１対１で指定する必要がある。このため、図２８に示した従来の分散深層学習システムでは、複数のＧＰＵでＦＰＧＡを用いたＡｌｌｒｅｄｕｃｅ処理を行うには時間をずらしてファイルディスクリプタを指定してＤＭＡ転送を実行する必要があり、通信のオーバヘッドが大きいという課題があった。

Kenji Tanaka，et al.，"Research Poster:(RP04) Distributed Deep Learning with FPGA Ring Allreduce"，ISC 2019，2019，＜https://2019.isc-program.com/presentation/?id=post120&sess=sess182＞

　本発明は、上記課題を解決するためになされたもので、Ａｌｌｒｅｄｕｃｅ処理のオーバヘッドを削減することができる分散深層学習システムを提供することを目的とする。

　本発明の分散深層学習システム（第１の実施例～第５の実施例）は、ネットワークを介して互いに接続された複数のノードを備え、各ノードは、学習対象のモデルの重み毎の分散データを生成するように構成された複数のＧＰＵと、前記ＧＰＵからの前記分散データを格納するように構成された複数の第１の受信バッファと、前記第１の受信バッファから転送された前記分散データを格納するように構成された複数の第１の送信バッファと、他のノードから受信した集計データを格納するように構成された複数の第２の受信バッファと、前記第２の受信バッファから転送された前記集計データを格納するように構成された第２の送信バッファと、前記第１の送信バッファにデータが格納され、前記第２の受信バッファに空きがあるときに、チェックフラグをセットするように構成された監視部と、前記複数のノードのうち１番目のノードとして機能する場合に自ノードを含む全てのノードで前記チェックフラグがセットされたときに、前記第１の送信バッファに格納された前記分散データを第１の集計データとして次の番号のノードに送信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、更新後の第１の集計データを次の番号のノードに送信するように構成された第１の送信部と、前記複数のノードのうち１番目を除くノードとして機能する場合に、他のノードから第１の集計データを受信するように構成された第１の受信部と、前記複数のノードのうち１番目を除くノードとして機能する場合に、前記第１の送信バッファに格納された分散データと前記第１の受信部が受信した第１の集計データとの和を重み毎に求めて前記更新後の第１の集計データを生成するように構成された加算部と、前記複数のノードのうち１番目のノードとして機能する場合に、前記更新後の第１の集計データを受信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、第２の集計データを受信するように構成された第２の受信部と、前記複数のノードのうち１番目のノードとして機能する場合に、前記第２の受信部が受信した第１の集計データを第２の集計データとして次の番号のノードに送信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、前記第２の受信部が受信した第２の集計データを次の番号のノードに送信するように構成された第２の送信部と、前記第１の受信バッファに格納された分散データを前記第１の送信バッファに転送し、前記第２の送信バッファに格納された集計データを前記複数のＧＰＵにＤＭＡ転送するように構成された第１の転送部と、前記第２の受信バッファに格納された集計データを前記第２の送信バッファに転送するように構成された第２の転送部とを備え、前記複数のＧＰＵは、前記分散データを前記複数の第１の受信バッファにＤＭＡ転送することを特徴とするものである。

　また、本発明の分散深層学習システムの１構成例（第２の実施例）は、前記ネットワークに複数の通信路が設定され、各ノードは、前記複数のＧＰＵと、前記通信路と同数の前記第１の受信バッファと、１つの前記通信路あたり複数設けられた前記第１の送信バッファと、１つの前記通信路あたり複数設けられた前記第２の受信バッファと、前記通信路と同数の前記第２の送信バッファと、前記監視部と、前記第１、第２の送信部と、前記第１、第２の受信部と、前記加算部と、前記第１の転送部と、前記第２の転送部とを備え、各ＧＰＵは、それぞれ対応する前記第１の受信バッファに前記分散データをＤＭＡ転送するように構成された第３の送信部と、前記第１の転送部によってＤＭＡ転送された第２の集計データを受信するように構成された第３の受信部と、前記第３の受信部が受信した第２の集計データを他のＧＰＵに送信するように構成された第４の送信部と、他のＧＰＵから送信された第２の集計データを受信するように構成された第４の受信部と、前記第３の受信部が受信した第２の集計データと前記第４の受信部が受信した第２の集計データとの和を重み毎に求めることにより、第３の集計データを生成するように構成された集計処理部と、前記第３の集計データに基づいて前記モデルを更新するように構成された更新部とを備え、前記第１の転送部は、１つの通信路に対応する前記第１の受信バッファに格納された分散データをこの通信路に対応する前記第１の送信バッファに転送し、１つの通信路に対応する前記第２の送信バッファに格納された第２の集計データをこの通信路に対応するＧＰＵにＤＭＡ転送し、前記第２の転送部は、１つの通信路に対応する第２の受信バッファに格納された第２の集計データをこの通信路に対応する前記第２の送信バッファに転送し、前記監視部は、前記第１の送信バッファへのデータの格納と前記第２の受信バッファの空きとが、同一の通信路に対応する第１の送信バッファと第２の受信バッファとで起きたときに、この通信路に対応するチェックフラグをセットし、前記第１の送信部は、前記複数のノードのうち１番目のノードとして機能する場合に、自ノードを含む全てのノードで同一の通信路に対応する前記チェックフラグがセットされ、少なくとも１つのノードで別の通信路に対応するチェックフラグがセットされていないときに、前記同一の通信路に対応する前記第１の送信バッファに格納された分散データを第１の集計データとして、前記同一の通信路を介して次の番号のノードに送信し、前記加算部は、１つの通信路に対応する前記第１の送信バッファに格納された分散データとこの通信路から前記第１の受信部が受信した第１の集計データとの和を重み毎に求めて前記更新後の第１の集計データを生成することを特徴とするものである。

　また、本発明の分散深層学習システムの１構成例（第３の実施例）において、前記ネットワークに複数の通信路が設定され、各ノードは、前記複数のＧＰＵと、前記通信路と同数の前記第１の受信バッファと、１つの前記通信路あたり複数設けられた前記第１の送信バッファと、１つの前記通信路あたり複数設けられた前記第２の受信バッファと、前記通信路と同数の前記第２の送信バッファと、前記監視部と、前記第１、第２の送信部と、前記第１、第２の受信部と、前記加算部と、前記第１の転送部と、前記第２の転送部とを備え、各ＧＰＵは、前記複数の第１の受信バッファのいずれかに前記分散データをＤＭＡ転送するように構成された第３の送信部と、前記第１の転送部によってＤＭＡ転送された第２の集計データを受信するように構成された第３の受信部と、前記第３の受信部が受信した第２の集計データを他のＧＰＵに送信するように構成された第４の送信部と、他のＧＰＵから送信された第２の集計データを受信するように構成された第４の受信部と、前記第３の受信部が受信した第２の集計データと前記第４の受信部が受信した第２の集計データとの和を重み毎に求めることにより、第３の集計データを生成するように構成された集計処理部と、前記第３の集計データに基づいて前記モデルを更新するように構成された更新部とを備え、前記第１の転送部は、１つの通信路に対応する前記第１の受信バッファに格納された分散データをこの通信路に対応する前記第１の送信バッファに転送し、１つの通信路に対応する前記第２の送信バッファに格納された第２の集計データをこの第２の集計データに対応するＧＰＵにＤＭＡ転送し、前記第２の転送部は、１つの通信路に対応する第２の受信バッファに格納された第２の集計データをこの通信路に対応する前記第２の送信バッファに転送し、前記監視部は、前記第１の送信バッファへのデータの格納と前記第２の受信バッファの空きとが、同一の通信路に対応する第１の送信バッファと第２の受信バッファとで起きたときに、この通信路に対応するチェックフラグをセットし、前記第１の送信部は、前記複数のノードのうち１番目のノードとして機能する場合に、自ノードを含む全てのノードで同一の通信路に対応する前記チェックフラグがセットされ、少なくとも１つのノードで別の通信路に対応するチェックフラグがセットされていないときに、前記同一の通信路に対応する前記第１の送信バッファに格納された前記分散データを第１の集計データとして、前記同一の通信路を介して次の番号のノードに送信し、前記加算部は、前記第１の受信部が他のノードから受信した第１の集計データの生成元のＧＰＵと同じ組のＧＰＵによって生成された分散データが前記第１の送信バッファに格納されている場合に、この分散データと前記第１の受信部が受信した第１の集計データとの和を重み毎に求めて前記更新後の第１の集計データを生成することを特徴とするものである。

　また、本発明の分散深層学習システムの１構成例（第４の実施例）において、前記ネットワークに複数の通信路が設定され、各ノードは、前記複数のＧＰＵと、前記通信路と同数の前記第１の受信バッファと、１つの前記通信路あたり複数設けられた前記第１の送信バッファと、１つの前記通信路あたり複数設けられた前記第２の受信バッファと、前記通信路と同数の前記第２の送信バッファと、前記監視部と、前記第１、第２の送信部と、前記第１、第２の受信部と、前記加算部と、前記第１の転送部と、前記第２の転送部とを備え、各ＧＰＵは、前記複数の第１の受信バッファのうちビジーでない第１の受信バッファに前記分散データをＤＭＡ転送するように構成された第３の送信部と、前記第１の転送部によってＤＭＡ転送された第２の集計データを受信するように構成された第３の受信部と、前記第３の受信部が受信した第２の集計データに基づいて前記モデルを更新するように構成された更新部とを備え、前記第１の転送部は、１つの通信路に対応する前記第１の受信バッファに格納された分散データをこの通信路に対応する前記第１の送信バッファに転送し、１つの通信路に対応する前記第２の送信バッファに格納された第２の集計データをこの通信路に対応するＧＰＵにＤＭＡ転送し、前記第２の転送部は、１つの通信路に対応する第２の受信バッファに格納された第２の集計データをこの通信路に対応する前記第２の送信バッファに転送し、前記監視部は、前記第１の送信バッファへのデータの格納と前記第２の受信バッファの空きとが、同一の通信路に対応する第１の送信バッファと第２の受信バッファとで起きたときに、この通信路に対応するチェックフラグをセットし、前記第１の送信部は、前記複数のノードのうち１番目のノードとして機能する場合に、自ノードを含む全てのノードで全てのチェックフラグがセットされているときに、前記複数の第１の送信バッファに格納された分散データをそれぞれ第１の集計データとして、格納元の第１の送信バッファに対応する通信路を介して次の番号のノードに送信し、前記加算部は、前記複数の通信路に対応する前記複数の第１の送信バッファに格納された分散データと前記複数の通信路から前記第１の受信部が受信した第１の集計データとの和を重み毎に求めて前記更新後の第１の集計データを生成することを特徴とするものである。

　また、本発明の分散深層学習システムの１構成例（第５の実施例）において、前記ネットワークに複数の通信路が設定され、各ノードは、前記複数のＧＰＵと、前記通信路と同数の前記第１の受信バッファと、１つの前記通信路あたり複数設けられた前記第１の送信バッファと、前記複数の通信路に共通に設けられた前記複数の第２の受信バッファと、前記複数の通信路に共通に設けられた前記第２の送信バッファと、前記監視部と、前記第１、第２の送信部と、前記第１、第２の受信部と、前記加算部と、前記第１の転送部と、前記第２の転送部とを備え、各ＧＰＵは、前記複数の第１の受信バッファのうちビジーでない第１の受信バッファに前記分散データをＤＭＡ転送するように構成された第３の送信部と、前記第１の転送部によってＤＭＡ転送された第２の集計データを受信するように構成された第３の受信部と、前記第３の受信部が受信した第２の集計データに基づいて前記モデルを更新するように構成された更新部とを備え、前記第１の転送部は、１つの通信路に対応する前記第１の受信バッファに格納された分散データをこの通信路に対応する前記第１の送信バッファに転送し、前記第２の送信バッファに格納された第２の集計データを前記複数のＧＰＵにＤＭＡ転送し、前記第２の転送部は、前記複数の第２の受信バッファのいずれかに格納された第２の集計データを前記第２の送信バッファに転送し、前記監視部は、前記第１の送信バッファへのデータの格納と前記第２の受信バッファの空きとが、同一の通信路に対応する第１の送信バッファと第２の受信バッファとで起きたときに、この通信路に対応するチェックフラグをセットし、前記第１の送信部は、前記複数のノードのうち１番目のノードとして機能する場合に、自ノードを含む全てのノードで全てのチェックフラグがセットされているときに、前記複数の第１の送信バッファに格納された分散データをそれぞれ第１の集計データとして、格納元の第１の送信バッファに対応する通信路を介して次の番号のノードに送信し、前記加算部は、前記複数の通信路に対応する前記複数の第１の送信バッファに格納された分散データと前記複数の通信路から前記第１の受信部が受信した第１の集計データとの和を重み毎に求めて前記更新後の第１の集計データを生成することを特徴とするものである。

　また、本発明の分散深層学習システム（第６の実施例）は、ネットワークを介して互いに接続された複数のノードを備え、各ノードは、学習対象のモデルの重み毎の分散データを生成するように構成された複数のＧＰＵと、前記ＧＰＵからの前記分散データを格納するように構成された複数の第１の受信バッファと、前記複数の第１の受信バッファから転送された複数の前記分散データの和を重み毎に求めて第１の集計データを生成するように構成された第１の加算部と、前記第１の集計データを格納するように構成された複数の第１の送信バッファと、他のノードから受信した集計データを格納するように構成された複数の第２の受信バッファと、前記第２の受信バッファから転送された前記集計データを格納するように構成された第２の送信バッファと、前記第１の送信バッファにデータが格納され、前記第２の受信バッファに空きがあるときに、チェックフラグをセットするように構成された監視部と、前記複数のノードのうち１番目のノードとして機能する場合に自ノードを含む全てのノードで前記チェックフラグがセットされたときに、前記第１の送信バッファに格納された第１の集計データを第２の集計データとして次の番号のノードに送信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、更新後の第２の集計データを次の番号のノードに送信するように構成された第１の送信部と、前記複数のノードのうち１番目を除くノードとして機能する場合に、他のノードから第２の集計データを受信するように構成された第１の受信部と、前記複数のノードのうち１番目を除くノードとして機能する場合に、前記第１の送信バッファに格納された第１の集計データと前記第１の受信部が受信した第２の集計データとの和を重み毎に求めて前記更新後の第２の集計データを生成するように構成された第２の加算部と、前記複数のノードのうち１番目のノードとして機能する場合に、前記更新後の第２の集計データを受信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、第３の集計データを受信するように構成された第２の受信部と、前記複数のノードのうち１番目のノードとして機能する場合に、前記第２の受信部が受信した第２の集計データを第３の集計データとして次の番号のノードに送信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、前記第２の受信部が受信した第３の集計データを次の番号のノードに送信するように構成された第２の送信部と、前記第１の受信バッファに格納された分散データを前記第１の加算部に転送し、前記第２の送信バッファに格納された第３の集計データを前記複数のＧＰＵにＤＭＡ転送するように構成された第１の転送部と、前記第２の受信バッファに格納された第３の集計データを前記第２の送信バッファに転送するように構成された第２の転送部とを備え、前記複数のＧＰＵは、前記分散データを前記複数の第１の受信バッファにＤＭＡ転送し、前記第３の集計データに基づいて前記モデルを更新することを特徴とすることを特徴とするものである。

　また、本発明の分散深層学習システムの１構成例（第６の実施例）において、前記ネットワークに１つの通信路が設定され、各ノードは、前記複数のＧＰＵと、前記ＧＰＵと同数の前記第１の受信バッファと、前記複数の第１の受信バッファと、前記複数の第２の受信バッファと、前記通信路と同数の前記第２の送信バッファと、前記監視部と、前記第１、第２の送信部と、前記第１、第２の受信部と、前記加算部と、前記第１の転送部と、前記第２の転送部とを備え、各ＧＰＵは、前記複数の第１の受信バッファのうちビジーでない第１の受信バッファに前記分散データをＤＭＡ転送するように構成された第３の送信部と、前記第１の転送部によってＤＭＡ転送された第３の集計データを受信するように構成された第３の受信部と、前記第３の受信部が受信した第３の集計データに基づいて前記モデルを更新するように構成された更新部とを備え、前記第２の転送部は、前記複数の第２の受信バッファのいずれかに格納された第３の集計データを前記第２の送信バッファに転送し、前記監視部は、前記第１の送信バッファへのデータの格納と前記第２の受信バッファの空きとが、同一の通信路に対応する第１の送信バッファと第２の受信バッファとで起きたときに、この通信路に対応するチェックフラグをセットし、前記第２の加算部は、前記複数の第１の送信バッファのいずれかに格納された第１の集計データと前記通信路から前記第１の受信部が受信した第２の集計データとの和を重み毎に求めて前記更新後の第２の集計データを生成することを特徴とするものである。

　本発明によれば、各ノードの各ＧＰＵのＤＭＡ待ち時間が減少するため、各ＧＰＵは、ＤＭＡ待ち時間が減少した分だけ他の処理を実行することができる。また、本発明では、従来技術よりも第１の送信バッファを増やすことで、ネットワークの帯域を有効活用することができる。その結果、本発明では、Ａｌｌｒｅｄｕｃｅ処理のオーバヘッドを削減することができる。

図１は、本発明の第１の実施例に係る分散深層学習システムの構成を示すブロック図である。図２は、本発明の第１の実施例に係るＧＰＵの機能ブロック図である。図３は、本発明の第１の実施例に係る親ノードのＦＰＧＡの機能ブロック図である。図４は、本発明の第１の実施例に係る子ノードのＦＰＧＡの機能ブロック図である。図５は、本発明の第１の実施例に係るノードの各ＧＰＵのサンプルデータ入力処理と勾配計算処理とＧＰＵ内集計処理とを説明するフローチャートである。図６は、本発明の第１の実施例に係る親ノードのノード間Ａｌｌｒｅｄｕｃｅ処理を説明するフローチャートである。図７は、本発明の第１の実施例に係る子ノードのノード間Ａｌｌｒｅｄｕｃｅ処理を説明するフローチャートである。図８は、本発明の第１の実施例に係る各ノードのＧＰＵ間Ａｌｌｒｅｄｕｃｅ処理と重み更新処理とを説明するフローチャートである。図９は、本発明の第１の実施例に係る各ノードのＧＰＵ間Ａｌｌｒｅｄｕｃｅ処理を説明するフローチャートである。図１０は、本発明の第３の実施例に係る分散深層学習システムの構成を示すブロック図である。図１１は、本発明の第３の実施例に係るＧＰＵの機能ブロック図である。図１２は、本発明の第３の実施例に係る親ノードのＦＰＧＡの機能ブロック図である。図１３は、本発明の第３の実施例に係る子ノードのＦＰＧＡの機能ブロック図である。図１４は、本発明の第４の実施例に係る分散深層学習システムの構成を示すブロック図である。図１５は、本発明の第４の実施例に係るＧＰＵの機能ブロック図である。図１６は、本発明の第４の実施例に係る親ノードのＦＰＧＡの機能ブロック図である。図１７は、本発明の第４の実施例に係る子ノードのＦＰＧＡの機能ブロック図である。図１８は、本発明の第４の実施例に係るノードの重み更新処理を説明するフローチャートである。図１９は、本発明の第５の実施例に係る分散深層学習システムの構成を示すブロック図である。図２０は、本発明の第５の実施例に係る親ノードのＦＰＧＡの機能ブロック図である。図２１は、本発明の第５の実施例に係る子ノードのＦＰＧＡの機能ブロック図である。図２２は、本発明の第６の実施例に係る分散深層学習システムの構成を示すブロック図である。図２３は、本発明の第６の実施例に係る親ノードのＦＰＧＡの機能ブロック図である。図２４は、本発明の第６の実施例に係る子ノードのＦＰＧＡの機能ブロック図である。図２５は、本発明の第６の実施例に係る親ノードのノード間Ａｌｌｒｅｄｕｃｅ処理を説明するフローチャートである。図２６は、本発明の第６の実施例に係る子ノードのノード間Ａｌｌｒｅｄｕｃｅ処理を説明するフローチャートである。図２７は、本発明の第１～第６の実施例に係るノードを実現するコンピュータの構成例を示すブロック図である。図２８は、従来の分散深層学習システムの構成を示すブロック図である。図２９は、従来の分散深層学習システムの親ノードのＦＰＧＡの機能ブロック図である。図３０は、従来の分散深層学習システムの子ノードのＦＰＧＡの機能ブロック図である。

［第１の実施例］
　以下、本発明の実施例について図面を参照して説明する。図１は本発明の第１の実施例に係る分散深層学習システムの構成を示すブロック図である。分散深層学習システムは、Ｎ個（Ｎは２以上の整数で、本実施例ではＮ＝４）のノード１－ｎ（ｎ＝１，・・・，Ｎ）と、Ｎ個のノード１－ｎを互いに接続するネットワーク２とを備えている。

　本実施例では、ノード１－１を親ノード、ノード１－２～１－４を子ノードとする。また、ネットワーク２には、２系統の通信路２０－１，２０－２が設定されているものとする。なお、本発明において、「ノード」とは、ネットワーク上に分散配置されているサーバ等の機器を意味する。

　親ノード１－１は、ＣＰＵ１０－１と、ＧＰＵ１１－１－１，１１－１－２と、ＦＰＧＡ１２－１とを備えている。
　子ノード１－ｋ（ｋ＝２，・・・，Ｎ）は、ＣＰＵ１０－ｋと、ＧＰＵ１１－ｋ－１，１１－ｋ－２と、ＦＰＧＡ１２－ｋとを備えている。

　本実施例では、各ノードにＧＰＵがＪ個（Ｊは２以上の整数で、本実施例ではＪ＝２）ずつ設けられている。図２はＧＰＵ１１－ｎ－ｊ（ｎ＝１，・・・，Ｎ，ｊ＝１，・・・，Ｊ）の機能ブロック図である。ＧＰＵ１１－ｎ－ｊは、図示しないデータ収集ノードから学習用のサンプルデータを受け取るサンプル入力部１１０と、サンプルデータが入力されたときに、学習対象のモデル１３－ｎ（ニューラルネットワーク）の重みの各々について、モデル１３－ｎの損失関数の勾配をサンプルデータ毎に計算する勾配計算処理部１１１と、サンプルデータ毎の勾配を集計した数値である分散データを重み毎に生成して保持する集計処理部１１２と、モデル１３－ｎの重みを更新する重み更新処理部１１３と、送信部１１４（第３の送信部）と、受信部１１５（第３の受信部）と、送信部１１６（第４の送信部）と、受信部１１７（第４の受信部）と、集計処理部１１８として機能する。
　モデル１３－ｎ（ニューラルネットワーク）は、ＣＰＵ１０－ｎによってソフトウェア的に構築された数学モデルである。

　図３は親ノード１－１のＦＰＧＡ１２－１の機能ブロック図である。ＦＰＧＡ１２－１は、ＧＰＵ受信バッファ１２０－１，１２０－２（第１の受信バッファ）と、ＧＰＵ送信バッファ１２１－１，１２１－２（第２の送信バッファ）と、ネットワーク送信バッファ１２２－１，１２２－２，１２３－１，１２３－２（第１の送信バッファ）と、ネットワーク受信バッファ１２４－１，１２４－２，１２５－１，１２５－２（第２の受信バッファ）と、送信部１２６（第１の送信部）と、送信部１２８（第２の送信部）と、受信部１２９（第２の受信部）と、監視部１３０と、転送部１３２（第１の転送部）と、転送部１３３（第２の転送部）として機能する。

　図４は子ノード１－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１２－ｋの機能ブロック図である。ＦＰＧＡ１２－ｋは、ＧＰＵ受信バッファ１２０－１，１２０－２と、ＧＰＵ送信バッファ１２１－１，１２１－２と、ネットワーク送信バッファ１２２－１，１２２－２，１２３－１，１２３－２と、ネットワーク受信バッファ１２４－１，１２４－２，１２５－１，１２５－２と、送信部１２６と、受信部１２７（第１の受信部）と、送信部１２８と、受信部１２９と、監視部１３０と、加算部１３１と、転送部１３２と、転送部１３３として機能する。

　本実施例では、ネットワーク２に設定された通信路２０－１，２０－２の数だけ各ノード１－ｎのＦＰＧＡ１２－ｎにＧＰＵ受信バッファ１２０－１，１２０－２が設けられている。また、通信路２０－１，２０－２の数だけ各ノード１－ｎのＦＰＧＡ１２－ｎにＧＰＵ送信バッファ１２１－１，１２１－２とが設けられている。

　また、各ノード１－ｎのＦＰＧＡ１２－ｎに、通信路２０－１に対応する２つのネットワーク送信バッファ１２２－１，１２３－１と、通信路２０－１に対応する２つのネットワーク受信バッファ１２４－１，１２５－１とが設けられている。さらに、各ノード１－ｎのＦＰＧＡ１２－ｎに、通信路２０－２に対応する２つのネットワーク送信バッファ１２２－２，１２３－２と、通信路２０－２に対応する２つのネットワーク受信バッファ１２４－２，１２５－２とが設けられている。

　図５はノード１－ｎの各ＧＰＵ１１－ｎ－ｊ（ｎ＝１，・・・，Ｎ，ｊ＝１，・・・，Ｊ）のサンプルデータ入力処理と勾配計算処理とＧＰＵ内集計処理とを説明するフローチャートである。
　ノード１－ｎの各ＧＰＵ１１－ｎ－ｊのサンプル入力部１１０は、図示しないデータ収集ノードから異なるＳ個（Ｓは２以上の整数）のサンプルデータｘ［ｎ，ｓ］（ｓ＝１，・・・，Ｓ）をミニバッチ毎に入力する（図５ステップＳ１００）。

　なお、本発明は、データ収集ノードによるサンプルデータの収集方法、および収集したサンプルデータをＮ×Ｊ個の集合に振り分けて各ノード１－ｎの各ＧＰＵ１１－ｎ－ｊへ分配する方法に限定されるものではなく、これらの方法の如何を問わず適用が可能である。

　ノード１－ｎの各ＧＰＵ１１－ｎ－ｊの勾配計算処理部１１１は、サンプルデータｘ［ｎ，ｓ］が入力されたとき、学習対象のモデル１３－ｎのＭ個（Ｍは２以上の整数）の重みｗ［ｍ］（ｍ＝１，・・・，Ｍ）の各々について、モデル１３－ｎの損失関数の勾配Ｇｊ［ｍ，ｎ，ｓ］をサンプルデータｘ［ｎ，ｓ］毎に計算する（図５ステップＳ１０１）。

　モデル１３－ｎの重みｗ［ｍ］、モデル１３－ｎの性能の悪さを示す指標である損失関数、および損失関数の勾配Ｇｊ［ｍ，ｎ，ｓ］については周知の技術であるので、詳細な説明は省略する。

　続いて、ノード１－ｎの各ＧＰＵ１１－ｎ－ｊの集計処理部１１２は、サンプルデータ毎の勾配Ｇ［ｍ，ｎ，ｓ］を集計した数値である分散データＤｊ［ｍ，ｎ］を、重みｗ［ｍ］毎に生成して保持する（図５ステップＳ１０２）。分散データＤｊ［ｍ，ｎ］の計算式は以下のとおりである。

　なお、勾配計算処理部１１１による勾配計算処理と集計処理部１１２によるＧＰＵ内集計処理とは、サンプルデータ単位でパイプライン化する（あるサンプルデータに対して勾配計算処理を行うと同時にその一つ前のサンプルデータから得た勾配を集計するＧＰＵ内集計処理とを同時に実行する）ことができる。

　さらに、各ノード１－ｎは、分散データＤｊ［ｍ，ｎ］を生成した後に、ノード間Ａｌｌｒｅｄｕｃｅ処理を行う。
　図６は親ノード１－１のノード間Ａｌｌｒｅｄｕｃｅ処理を説明するフローチャート、図７は子ノード１－ｋ（ｋ＝２，・・・，Ｎ）のノード間Ａｌｌｒｅｄｕｃｅ処理を説明するフローチャートである。

　親ノード１－１の各ＧＰＵ１１－１－ｊの送信部１１４は、ＧＰＵ１１－１－ｊの集計処理部１１２によって生成されたＭ個の分散データＤｊ［ｍ，１］（ｍ＝１，・・・，Ｍ，ｊ＝１，・・・，Ｊ）を、親ノード１－１のＦＰＧＡ１２－１のＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうちどちらか一方にＤＭＡ（Direct Memory Access）転送する（図６ステップＳ２００）。各ＧＰＵ１１－１－ｊは、それぞれ異なるＧＰＵ受信バッファ１２０－１，１２０－２にデータを非同期でＤＭＡ転送する。ＤＭＡ転送が輻輳した場合には、後からのＤＭＡ転送をキューイングし、先のＤＭＡ転送が終了次第、ＤＭＡ転送を開始する。

　親ノード１－１のＦＰＧＡ１２－１の転送部１３２は、ＦＰＧＡ１２－１のネットワーク送信バッファ１２２－１，１２２－２，１２３－１，１２３－２を監視している。転送部１３２は、ＦＰＧＡ１２－１のＧＰＵ受信バッファ１２０－１にデータが格納され、ネットワーク送信バッファ１２２－１，１２３－１のうちどちらかが空であれば、ＧＰＵ受信バッファ１２０－１に格納されているデータをネットワーク送信バッファ１２２－１，１２３－１のうち空いている方に転送する（図６ステップＳ２０１）。また、ＦＰＧＡ１２－１の転送部１３２は、ＦＰＧＡ１２－１のＧＰＵ受信バッファ１２０－２にデータが格納され、ネットワーク送信バッファ１２２－２，１２３－２のうちどちらかが空であれば、ＧＰＵ受信バッファ１２０－２に格納されているデータをネットワーク送信バッファ１２２－２，１２３－２のうち空いている方に転送する（ステップＳ２０１）。

　同様に、子ノード１－ｋの各ＧＰＵ１１－ｋ－ｊの送信部１１４は、ＧＰＵ１１－ｋ－ｊの集計処理部１１２によって生成されたＭ個の分散データＤｊ［ｍ，ｋ］（ｍ＝１，・・・，Ｍ，ｊ＝１，・・・，Ｊ）を、子ノード１－ｋのＦＰＧＡ１２－ｋのＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のどちらか一方にＤＭＡ転送する（図７ステップＳ３００）。

　本実施例では、ノード１－ｎの各ＧＰＵ１１－ｎ－１の送信部１１４が分散データＤ１［ｍ，ｎ］をＦＰＧＡ１２－ｎのＧＰＵ受信バッファ１２０－１に転送し、ノード１－ｎの各ＧＰＵ１１－ｎ－２の送信部１１４が分散データＤ２［ｍ，ｎ］をＦＰＧＡ１２－ｎのＧＰＵ受信バッファ１２０－２に転送するものとして説明する。

　子ノード１－ｋのＦＰＧＡ１２－ｋの転送部１３２は、ＦＰＧＡ１２－ｋのＧＰＵ受信バッファ１２０－１にデータが格納され、ネットワーク送信バッファ１２２－１，１２３－１のうちどちらかが空であれば、ＧＰＵ受信バッファ１２０－１に格納されているデータをネットワーク送信バッファ１２２－１，１２３－１のうち空いている方に転送する（図７ステップＳ３０１）。また、ＦＰＧＡ１２－ｋの転送部１３２は、ＦＰＧＡ１２－ｋのＧＰＵ受信バッファ１２０－２にデータが格納され、ネットワーク送信バッファ１２２－２，１２３－２のうちどちらかが空であれば、ＧＰＵ受信バッファ１２０－２に格納されているデータをネットワーク送信バッファ１２２－２，１２３－２のうち空いている方に転送する（ステップＳ３０１）。

　親ノード１－１のＦＰＧＡ１２－１の監視部１３０は、ＦＰＧＡ１２－１のネットワーク送信バッファ１２２－１または１２３－１にデータが格納され、かつＦＰＧＡ１２－１のネットワーク受信バッファ１２４－１，１２５－１のうちどちらかが空であれば（図６ステップＳ２０２においてＹＥＳ）、通信路２０－１に対応するチェックフラグＦ１をセットする（図６ステップＳ２０３）。また、ＦＰＧＡ１２－１の監視部１３０は、ＦＰＧＡ１２－１のネットワーク送信バッファ１２２－２または１２３－２にデータが格納され、かつＦＰＧＡ１２－１のネットワーク受信バッファ１２４－２，１２５－２のうちどちらかが空であれば（ステップＳ２０２においてＹＥＳ）、通信路２０－２に対応するチェックフラグＦ２をセットする（ステップＳ２０３）。

　同様に、子ノード１－ｋのＦＰＧＡ１２－ｋの監視部１３０は、ＦＰＧＡ１２－ｋのネットワーク送信バッファ１２２－１または１２３－１にデータが格納され、かつＦＰＧＡ１２－ｋのネットワーク受信バッファ１２４－１，１２５－１のうちどちらかが空であれば（図７ステップＳ３０２においてＹＥＳ）、通信路２０－１に対応するチェックフラグＦ１をセットする（図７ステップＳ３０３）。また、ＦＰＧＡ１２－ｋの監視部１３０は、ＦＰＧＡ１２－ｋのネットワーク送信バッファ１２２－２または１２３－２にデータが格納され、かつＦＰＧＡ１２－ｋのネットワーク受信バッファ１２４－２，１２５－２のうちどちらかが空であれば（ステップＳ３０２においてＹＥＳ）、通信路２０－２に対応するチェックフラグＦ２をセットする（ステップＳ３０３）。

　親ノード１－１のＦＰＧＡ１２－１の監視部１３０は、各子ノード１－ｋのＦＰＧＡ１２－ｋの監視部１３０で管理されているチェックフラグを監視しており、自ノードを含む全てのノード１－ｎでチェックフラグＦ１がセットされている場合（図６ステップＳ２０４においてＹＥＳ）、ＦＰＧＡ１２－１の送信部１２６に対してデータ送信を指示する。ＦＰＧＡ１２－１の送信部１２６は、ＦＰＧＡ１２－１のネットワーク送信バッファ１２２－１または１２３－１に格納されている分散データＤ１［ｍ，１］を取り出し、取り出したデータを中間集計データＲｔ１［ｍ，１］として、通信路２０－１を介して次の番号のノード１－２に送信する（図６ステップＳ２０５）。このときの中間集計データＲｔ１［ｍ，１］は、分散データＤ１［ｍ，１］と同じである。
　Ｒｔ１［ｍ，１］＝Ｄ１［ｍ，１］　　　　　　　　　　・・・（２）

　また、親ノード１－１のＦＰＧＡ１２－１の監視部１３０は、自ノードを含む全てのノード１－ｎでチェックフラグＦ２がセットされている場合（ステップＳ２０４においてＹＥＳ）、ＦＰＧＡ１２－１の送信部１２６に対してデータ送信を指示する。ＦＰＧＡ１２－１の送信部１２６は、ＦＰＧＡ１２－１のネットワーク送信バッファ１２２－２または１２３－２に格納されている分散データＤ２［ｍ，１］を取り出し、取り出したデータを中間集計データＲｔ２［ｍ，１］として、通信路２０－２を介して次の番号のノード１－２に送信する（ステップＳ２０５）。

　次に、複数の子ノード１－ｋ（ｋ＝２，・・・，Ｎ）のうち、Ｎ番目を除く中間のノード１－ｉ（ｉ＝２，・・・，Ｎ－１）のＦＰＧＡ１２－ｉの受信部１２７は、ノード１－（ｉ－１）から通信路２０－１を介して中間集計データＲｔ１［ｍ，ｉ－１］（ｍ＝１，・・・，Ｍ）を受信する（図７ステップＳ３０４）。

　子ノード１－ｉ（ｉ＝２，・・・，Ｎ－１）のＦＰＧＡ１２－ｉの加算部１３１は、ＦＰＧＡ１２－ｉのネットワーク送信バッファ１２２－１または１２３－１に格納されている分散データＤ１［ｍ，ｉ］を取り出す。そして、加算部１３１は、取り出した分散データＤ１［ｍ，ｉ］と通信路２０－１から受信した中間集計データＲｔ１［ｍ，ｉ－１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｔ１［ｍ，ｉ］を生成する（図７ステップＳ３０５）。すなわち、中間集計データＲｔ１［ｍ，ｉ］は、Ｍ個の数値から構成される。中間集計データＲｔ１［ｍ，ｉ］の計算式は以下のとおりである。
　Ｒｔ１［ｍ，ｉ］＝Ｒｔ１［ｍ，ｉ－１］＋Ｄ１［ｍ，ｉ］・・・（３）

　そして、子ノード１－ｉのＦＰＧＡ１２－ｉの送信部１２６は、通信路２０－１からのデータ受信に応じてＦＰＧＡ１２－ｉの加算部１３１によって生成された中間集計データＲｔ１［ｍ，ｉ］を、通信路２０－１を介して次の番号のノード１－（ｉ＋１）に送信する（図７ステップＳ３０６）。

　同様に、子ノード１－ｉのＦＰＧＡ１２－ｉの受信部１２７は、ノード１－（ｉ－１）から通信路２０－２を介して中間集計データＲｔ２［ｍ，ｉ－１］を受信する（ステップＳ３０４）。子ノード１－ｉのＦＰＧＡ１２－ｉの加算部１３１は、ＦＰＧＡ１２－ｉのネットワーク送信バッファ１２２－２または１２３－２に格納されている分散データＤ２［ｍ，ｉ］を取り出す。そして、加算部１３１は、取り出した分散データＤ２［ｍ，ｉ］と通信路２０－２から受信した中間集計データＲｔ２［ｍ，ｉ－１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｔ２［ｍ，ｉ］を生成する（ステップＳ３０５）。

　そして、子ノード１－ｉのＦＰＧＡ１２－ｉの送信部１２６は、通信路２０－２からのデータ受信に応じてＦＰＧＡ１２－ｉの加算部１３１によって生成された中間集計データＲｔ２［ｍ，ｉ］を、通信路２０－２を介して次の番号のノード１－（ｉ＋１）に送信する（ステップＳ３０６）。

　一方、子ノード１－ＮのＦＰＧＡ１２－Ｎの受信部１２７は、ノード１－（Ｎ－１）から通信路２０－１を介して中間集計データＲｔ１［ｍ，Ｎ－１］を受信する（ステップＳ３０４）。

　子ノード１－ＮのＦＰＧＡ１２－Ｎの加算部１３１は、ＦＰＧＡ１２－Ｎのネットワーク送信バッファ１２２－１または１２３－１に格納されている分散データＤ１［ｍ，Ｎ］を取り出す。そして、加算部１３１は、取り出した分散データＤ１［ｍ，Ｎ］と通信路２０－１から受信した中間集計データＲｔ１［ｍ，Ｎ－１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｔ１［ｍ，Ｎ］を生成する（ステップＳ３０５）。すなわち、中間集計データＲｔ１［ｍ，Ｎ］は、Ｍ個の数値から構成される。中間集計データＲｔ１［ｍ，Ｎ］の計算式は以下のとおりである。
　Ｒｔ１［ｍ，Ｎ］＝Ｒｔ１［ｍ，Ｎ－１］＋Ｄ１［ｍ，Ｎ］・・・（４）

　そして、子ノード１－ＮのＦＰＧＡ１２－Ｎの送信部１２６は、通信路２０－１からのデータ受信に応じてＦＰＧＡ１２－Ｎの加算部１３１によって生成された中間集計データＲｔ１［ｍ，Ｎ］を、通信路２０－１を介して親ノード１－１に送信する（ステップＳ３０６）。

　このように、式（２）、式（３）、式（４）により計算された、Ｍ個の数値から構成される中間集計データＲｔ１［ｍ，Ｎ］は、各ノード１－ｎで生成されたＭ個の数値から構成される分散データＤ１［ｍ，ｎ］に基づいて計算される。中間集計データＲｔ１［ｍ，Ｎ］の値は以下の式により表すことができる。

　同様に、子ノード１－ＮのＦＰＧＡ１２－Ｎの受信部１２７は、ノード１－（Ｎ－１）から通信路２０－２を介して中間集計データＲｔ２［ｍ，Ｎ－１］を受信する（ステップＳ３０４）。子ノード１－ＮのＦＰＧＡ１２－Ｎの加算部１３１は、ＦＰＧＡ１２－Ｎのネットワーク送信バッファ１２２－２または１２３－２に格納されている分散データＤ２［ｍ，Ｎ］を取り出す。そして、加算部１３１は、取り出した分散データＤ２［ｍ，Ｎ］と通信路２０－２から受信した中間集計データＲｔ２［ｍ，Ｎ－１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｔ２［ｍ，Ｎ］を生成する（ステップＳ３０５）。

　そして、子ノード１－ＮのＦＰＧＡ１２－Ｎの送信部１２６は、通信路２０－２からのデータ受信に応じてＦＰＧＡ１２－Ｎの加算部１３１によって生成された中間集計データＲｔ２［ｍ，Ｎ］を、通信路２０－２を介して親ノード１－１に送信する（ステップＳ３０６）。

　次に、親ノード１－１のＦＰＧＡ１２－１の受信部１２９は、ノード１－Ｎから通信路２０－１を介して中間集計データＲｔ１［ｍ，Ｎ］を受信する（図６ステップＳ２０６）。
　親ノード１－１のＦＰＧＡ１２－１の送信部１２８は、受信した中間集計データＲｔ１［ｍ，Ｎ］を、集計データＲ１［ｍ］として、通信路２０－１を介して次の番号のノード１－２に送信する（図６ステップＳ２０７）。集計データＲ１［ｍ］は、中間集計データＲｔ１［ｍ，Ｎ］と同じである。

　同様に、親ノード１－１のＦＰＧＡ１２－１の送信部１２８は、受信部１２９がノード１－Ｎから通信路２０－２を介して中間集計データＲｔ２［ｍ，Ｎ］を受信した場合、受信した中間集計データＲｔ２［ｍ，Ｎ］を、集計データＲ２［ｍ］として、通信路２０－２を介して次の番号のノード１－２に送信する（ステップＳ２０７）。

　また、親ノード１－１のＦＰＧＡ１２－１の受信部１２９は、ノード１－Ｎから通信路２０－１を介して受信した集計データＲ１［ｍ］（中間集計データＲｔ１［ｍ，Ｎ］）を、ＦＰＧＡ１２－１のネットワーク受信バッファ１２４－１，１２５－１のうち空いている方に転送する（図６ステップＳ２０８）。同様に、親ノード１－１のＦＰＧＡ１２－１の受信部１２９は、ノード１－Ｎから通信路２０－２を介して受信した集計データＲ２［ｍ］を、ＦＰＧＡ１２－１のネットワーク受信バッファ１２４－２，１２５－２のうち空いている方に転送する（ステップＳ２０８）。

　親ノード１－１のＦＰＧＡ１２－１の転送部１３３は、ＦＰＧＡ１２－１のネットワーク受信バッファ１２４－１，１２５－１のうちどちらかが満杯になると、満杯になったネットワーク受信バッファからデータを取り出し、取り出したデータをＦＰＧＡ１２－１のＧＰＵ送信バッファ１２１－１に転送する（図６ステップＳ２０９）。同様に、親ノード１－１のＦＰＧＡ１２－１の転送部１３３は、ＦＰＧＡ１２－１のネットワーク受信バッファ１２４－２，１２５－２のうちどちらかが満杯になると、満杯になったネットワーク受信バッファからデータを取り出し、取り出したデータをＦＰＧＡ１２－１のＧＰＵ送信バッファ１２１－２に転送する（ステップＳ２０９）。

　親ノード１－１のＦＰＧＡ１２－１の転送部１３２は、ＦＰＧＡ１２－１のＧＰＵ送信バッファ１２１－１に格納されたデータをＧＰＵ１１－１－１にＤＭＡ転送する（図６ステップＳ２１０）。同様に、親ノード１－１のＦＰＧＡ１２－１の転送部１３２は、ＦＰＧＡ１２－１のＧＰＵ送信バッファ１２１－２に格納されたデータをＧＰＵ１１－１－２にＤＭＡ転送する（ステップＳ２１０）。
　以上で、ノード１－Ｎから通信路２０－１，２０－２を介して受信した集計データＲｊ［ｍ］がＧＰＵ１１－１－１，１１－１－２に転送される。

　一方、子ノード１－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１２－ｋの受信部１２９は、ノード１－（ｋ－１）から通信路２０－１を介して集計データＲ１［ｍ］を受信する（図７ステップＳ３０７）。
　子ノード１－ｋのＦＰＧＡ１２－ｋの送信部１２８は、受信した集計データＲ１［ｍ］を、通信路２０－１を介して次の番号のノード１－ｋ⁺（ｋ⁺＝ｋ＋１、ただしｋ＝Ｎの場合はｋ⁺＝１）に送信する（図７ステップＳ３０８）。

　同様に、子ノード１－ｋのＦＰＧＡ１２－ｋの送信部１２８は、受信部１２９がノード１－（ｋ－１）から通信路２０－２を介して集計データＲ２［ｍ］を受信した場合、受信した集計データＲ２［ｍ］を、通信路２０－２を介して次の番号のノード１－ｋ⁺に送信する（ステップＳ３０８）。

　また、子ノード１－ｋのＦＰＧＡ１２－ｋの受信部１２９は、ノード１－（ｋ－１）から通信路２０－１を介して受信した集計データＲ１［ｍ］を、ＦＰＧＡ１２－ｋのネットワーク受信バッファ１２４－１，１２５－１のうち空いている方に転送する（図７ステップＳ３０９）。同様に、子ノード１－ｋのＦＰＧＡ１２－ｋの受信部１２９は、ノード１－（ｋ－１）から通信路２０－２を介して受信した集計データＲ２［ｍ］を、ＦＰＧＡ１２－ｋのネットワーク受信バッファ１２４－２，１２５－２のうち空いている方に転送する（ステップＳ３０９）。

　子ノード１－ｋのＦＰＧＡ１２－ｋの転送部１３３は、ＦＰＧＡ１２－ｋのネットワーク受信バッファ１２４－１，１２５－１のうちどちらかが満杯になると、満杯になったネットワーク受信バッファからデータを取り出し、取り出したデータをＦＰＧＡ１２－ｋのＧＰＵ送信バッファ１２１－１に転送する（図７ステップＳ３１０）。同様に、子ノード１－ｋのＦＰＧＡ１２－ｋの転送部１３３は、ＦＰＧＡ１２－ｋのネットワーク受信バッファ１２４－２，１２５－２のうちどちらかが満杯になると、満杯になったネットワーク受信バッファからデータを取り出し、取り出したデータをＦＰＧＡ１２－ｋのＧＰＵ送信バッファ１２１－２に転送する（ステップＳ３１０）。

　子ノード１－ｋのＦＰＧＡ１２－ｋの転送部１３２は、ＦＰＧＡ１２－ｋのＧＰＵ送信バッファ１２１－１に格納されたデータをＧＰＵ１１－ｋ－１にＤＭＡ転送する（図７ステップＳ３１１）。同様に、子ノード１－ｋのＦＰＧＡ１２－ｋの転送部１３２は、ＦＰＧＡ１２－ｋのＧＰＵ送信バッファ１２１－２に格納されたデータをＧＰＵ１１－ｋ－２にＤＭＡ転送する（ステップＳ３１１）。
　以上で、ノード１－（ｋ－１）から通信路２０－１，２０－２を介して受信した集計データＲｊ［ｍ］がＧＰＵ１１－ｋ－１，１１－ｋ－２に転送される。

　次に、各ノード１－ｎのＧＰＵ１１－ｎ－ｊは、ノード内のＧＰＵ間Ａｌｌｒｅｄｕｃｅ処理と重み更新処理とを行う。図８は各ノード１－ｎのＧＰＵ１１－ｎ－１のＧＰＵ間Ａｌｌｒｅｄｕｃｅ処理と重み更新処理とを説明するフローチャート、図９は各ノード１－ｎのＧＰＵ１１－ｎ－ｐ（ｐ＝２，・・・，Ｊ）のＧＰＵ間Ａｌｌｒｅｄｕｃｅ処理を説明するフローチャートである。なお、ここでは各ノード１－ｎのＧＰＵ１１－ｎ－１が、そのノードの代表ＧＰＵとして重み更新処理を行うものとする。

　各ノード１－ｎのＧＰＵ１１－ｎ－１の受信部１１５は、ＦＰＧＡ１２－ｎのＧＰＵ送信バッファ１２１－１に格納されていた集計データＲ１［ｍ］を受信する（図８ステップＳ４００）。

　各ノード１－ｎのＧＰＵ１１－ｎ－１の送信部１１６は、ＧＰＵ１１－ｎ－１の受信部１１５が受信した集計データＲ１［ｍ］を他のＧＰＵ１１－ｎ－２に送信する（図８ステップＳ４０１）。

　一方、各ノード１－ｎのＧＰＵ１１－ｎ－２の受信部１１５は、ＦＰＧＡ１２－ｎのＧＰＵ送信バッファ１２１－２に格納されていた集計データＲ２［ｍ］を受信する（図９ステップＳ５００）。

　各ノード１－ｎのＧＰＵ１１－ｎ－２の送信部１１６は、ＧＰＵ１１－ｎ－２の受信部１１５が受信した集計データＲ２［ｍ］を他のＧＰＵ１１－ｎ－１に送信する（図９ステップＳ５０１）。

　各ノード１－ｎのＧＰＵ１１－ｎ－１の受信部１１７は、ＧＰＵ１１－ｎ－２から送信された集計データＲ２［ｍ］を受信する（図８ステップＳ４０２）。
　各ノード１－ｎのＧＰＵ１１－ｎ－２の受信部１１７は、ＧＰＵ１１－ｎ－１から送信された集計データＲ１［ｍ］を受信する（図９ステップＳ５０２）。

　次に、各ノード１－ｎのＧＰＵ１１－ｎ－１の集計処理部１１８は、ＧＰＵ１１－ｎ－１の受信部１１５が受信した集計データＲ１［ｍ］と受信部１１７が受信した集計データＲ２［ｍ］との和を、対応する重みｗ［ｍ］毎に求めることにより、集計データＵ［ｍ］を生成する（図８ステップＳ４０３）。

　こうして、各ノード１－ｎのＧＰＵ１１－ｎ－１によって計算された分散データＤ１［ｍ，ｎ］を集計したデータＲ１［ｍ］と、各ノード１－ｎのＧＰＵ１１－ｎ－２によって計算された分散データＤ２［ｍ，ｎ］を集計したデータＲ２［ｍ］との和を、集計データＵ［ｍ］として求めることができる。

　各ノード１－ｎのＧＰＵ１１－ｎ－１の重み更新処理部１１３は、集計データＵ［ｍ］に基づいて、自ノード内のモデル１３－ｎの重みｗ［ｍ］を更新する重み更新処理を行う（図８ステップＳ４０４）。重み更新処理においては、集計データＵ［ｍ］が示す、損失関数の勾配に基づいて損失関数が最小になるように重みｗ［ｍ］を番号ｍ毎に更新すればよい。重みｗ［ｍ］の更新は周知の技術であるので、詳細な説明は省略する。

　重み更新処理の終了により、１回のミニバッチ学習が終了し、各ノード１－ｎは、更新された重みｗ［ｍ］に基づき、次のミニバッチ学習の処理を継続して行う。すなわち、各ノード１－ｎは、次のミニバッチ学習用のサンプルデータを図示しないデータ収集ノードから受け取り、上記で説明したミニバッチ学習の処理を繰り返すことにより、自ノードのモデルの推論精度を向上させる。

　本実施例では、各ノード１－ｎの各ＧＰＵ１１－ｎ－ｊのＤＭＡ待ち時間が減少するため、各ＧＰＵ１１－ｎ－ｊは、ＤＭＡ待ち時間が減少した分だけ他の処理を実行することができる。また、本実施例では、ＤＭＡ転送キューを用いることで、ＧＰＵ－ＦＰＧＡバスの帯域を有効活用できる。また、本実施例では、ネットワーク送信バッファが増えることで、ネットワークの帯域を有効活用できる。

［第２の実施例］
　次に、本発明の第２の実施例について説明する。本実施例においても、分散深層学習システムの構成および処理の流れは第１の実施例と同様であるので、図１～図９の符号を用いて説明する。
　第１の実施例では、ノード１－ｎ（ｎ＝１，・・・，Ｎ）の各ＧＰＵ１１－ｎ－ｊ（ｊ＝１，・・・，Ｊ）は、生成した分散データＤｊ［ｍ，ｎ］を、ノード１－ｎのＦＰＧＡ１２－ｎのＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうちどちらか一方にＤＭＡ転送するとしていた。

　これに対して、本実施例では、ノード１－ｎの各ＧＰＵ１１－１－１は、ノード１－ｎのＦＰＧＡ１２－ｎのＧＰＵ受信バッファ１２０－１とＧＰＵ送信バッファ１２１－１とを専有する。また、ノード１－ｎの各ＧＰＵ１１－１－２は、ノード１－ｎのＦＰＧＡ１２－ｎのＧＰＵ受信バッファ１２０－２とＧＰＵ送信バッファ１２１－２とを専有する。

　したがって、ノード１－ｎの各ＧＰＵ１１－ｎ－１の送信部１１４は、ＧＰＵ１１－ｎ－１の集計処理部１１２によって生成された分散データＤ１［ｍ，ｎ］を、ノード１－ｎのＦＰＧＡ１２－ｎのＧＰＵ受信バッファ１２０－１にＤＭＡ転送する（図６ステップＳ２００）。同様に、ノード１－ｎの各ＧＰＵ１１－ｎ－２の送信部１１４は、ＧＰＵ１１－ｎ－２の集計処理部１１２によって生成された分散データＤ２［ｍ，ｎ］を、ノード１－ｎのＦＰＧＡ１２－ｎのＧＰＵ受信バッファ１２０－２にＤＭＡ転送する（ステップＳ２００）。

　また、親ノード１－１のＦＰＧＡ１２－１の監視部１３０は、自ノードを含む全てのノード１－ｎでチェックフラグＦ１がセットされ、少なくとも１つのノードでチェックフラグＦ２がセットされていない場合（図６ステップＳ２０４においてＹＥＳ）、ＦＰＧＡ１２－１の送信部１２６に対してデータ送信を指示する。ＦＰＧＡ１２－１の送信部１２６は、ＦＰＧＡ１２－１のネットワーク送信バッファ１２２－１または１２３－１に格納されている分散データＤ１［ｍ，１］を取り出し、取り出したデータを中間集計データＲｔ１［ｍ，１］として、通信路２０－１を介して次の番号のノード１－２に送信する（図６ステップＳ２０５）。

　同様に、親ノード１－１のＦＰＧＡ１２－１の監視部１３０は、自ノードを含む全てのノード１－ｎでチェックフラグＦ２がセットされ、少なくとも１つのノードでチェックフラグＦ１がセットされていない場合（ステップＳ２０４においてＹＥＳ）、ＦＰＧＡ１２－１の送信部１２６に対してデータ送信を指示する。ＦＰＧＡ１２－１の送信部１２６は、ＦＰＧＡ１２－１のネットワーク送信バッファ１２２－２または１２３－２に格納されている分散データＤ２［ｍ，１］を取り出し、取り出したデータを中間集計データＲｔ２［ｍ，１］として、通信路２０－２を介して次の番号のノード１－２に送信する（ステップＳ２０５）。

　その他の処理は第１の実施例で説明したとおりである。こうして、本実施例では、各ノード１－ｎのＧＰＵ１１－ｎ－１によって計算された分散データＤ１［ｍ，ｎ］を集計して各ノード１－ｎのＧＰＵ１１－ｎ－１に配るノード間Ａｌｌｒｅｄｕｃｅ処理と、各ノード１－ｎのＧＰＵ１１－ｎ－２によって計算された分散データＤ２［ｍ，ｎ］を集計して各ノード１－ｎのＧＰＵ１１－ｎ－２に配るノード間Ａｌｌｒｅｄｕｃｅ処理とを実現することができる。

　本実施例では、各ノード１－ｎの各ＧＰＵ１１－ｎ－ｊのＤＭＡ待ち時間が減少するため、各ＧＰＵ１１－ｎ－ｊは、ＤＭＡ待ち時間が減少した分だけ他の処理を実行することができる。また、本実施例では、ＤＭＡ転送キューを用いることで、ＧＰＵ－ＦＰＧＡバスの帯域を有効活用できる。また、本実施例では、ネットワーク送信バッファが増えることで、ネットワークの帯域を有効活用できる。また、本実施例では、ノード間Ａｌｌｒｅｄｕｃｅ処理を各ノード１－ｎの１つのＦＰＧＡによって実行できるので、省電力化、省スペース化を実現することができる。

［第３の実施例］
　次に、本発明の第３の実施例について説明する。図１０は本発明の第３の実施例に係る分散深層学習システムの構成を示すブロック図である。本実施例の分散深層学習システムは、Ｎ個のノード１ａ－ｎ（ｎ＝１，・・・，Ｎ）と、Ｎ個のノード１ａ－ｎを互いに接続するネットワーク２とを備えている。

　親ノード１ａ－１は、ＣＰＵ１０－１と、ＧＰＵ１１ａ－１－１～１１ａ－１－４と、ＦＰＧＡ１２ａ－１とを備えている。
　子ノード１ａ－ｋ（ｋ＝２，・・・，Ｎ）は、ＣＰＵ１０－ｋと、ＧＰＵ１１ａ－ｋ－１～１１ａ－ｋ－４と、ＦＰＧＡ１２ａ－ｋとを備えている。

　本実施例では、各ノード１ａ－ｎにＧＰＵが４個（Ｊ＝４）ずつ設けられている。図１１はＧＰＵ１１ａ－ｎ－ｊ（ｎ＝１，・・・，Ｎｊ＝１，・・・，Ｊ）の機能ブロック図である。ＧＰＵ１１ａ－ｎ－ｊは、サンプル入力部１１０と、勾配計算処理部１１１と、集計処理部１１２と、重み更新処理部１１３と、送信部１１４ａと、受信部１１５と、送信部１１６と、受信部１１７と、集計処理部１１８として機能する。

　図１２は親ノード１ａ－１のＦＰＧＡ１２ａ－１の機能ブロック図である。ＦＰＧＡ１２ａ－１は、ＧＰＵ受信バッファ１２０－１，１２０－２と、ＧＰＵ送信バッファ１２１－１，１２１－２と、ネットワーク送信バッファ１２２－１，１２２－２，１２３－１，１２３－２と、ネットワーク受信バッファ１２４－１，１２４－２，１２５－１，１２５－２と、送信部１２６と、送信部１２８と、受信部１２９と、監視部１３０と、転送部１３２ａと、転送部１３３として機能する。

　図１３は子ノード１ａ－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１２ａ－ｋの機能ブロック図である。ＦＰＧＡ１２ａ－ｋは、ＧＰＵ受信バッファ１２０－１，１２０－２と、ＧＰＵ送信バッファ１２１－１，１２１－２と、ネットワーク送信バッファ１２２－１，１２２－２，１２３－１，１２３－２と、ネットワーク受信バッファ１２４－１，１２４－２，１２５－１，１２５－２と、送信部１２６と、受信部１２７と、送信部１２８と、受信部１２９と、監視部１３０と、加算部１３１ａと、転送部１３２ａと、転送部１３３として機能する。

　ノード１ａ－ｎの各ＧＰＵ１１ａ－ｎ－ｊ（ｎ＝１，・・・，Ｎ，ｊ＝１，・・・，Ｊ）のサンプルデータ入力処理と勾配計算処理とＧＰＵ内集計処理とは、第１の実施例で説明したとおりである。

　ノード１ａ－ｎのノード間Ａｌｌｒｅｄｕｃｅ処理の流れは第１の実施例と同様であるので、図６、図７の符号を用いて説明する。
　第１の実施例と同様に、親ノード１ａ－１の各ＧＰＵ１１ａ－１－ｊの送信部１１４ａは、ＧＰＵ１１ａ－１－ｊの集計処理部１１２によって生成された分散データＤｊ［ｍ，１］を、親ノード１ａ－１のＦＰＧＡ１２ａ－１のＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうちどちらか一方にＤＭＡ転送する（図６ステップＳ２００）。ＤＭＡ転送が輻輳した場合には、後からのＤＭＡ転送をキューイングし、先のＤＭＡ転送が終了次第、ＤＭＡ転送を開始する。このとき、送信部１１４ａは、分散データＤｊ［ｍ，１］を生成したＧＰＵ１１ａ－１－ｊの識別子を、分散データＤｊ［ｍ，１］に付加する。図６のステップＳ２０１～Ｓ２０３の処理は第１の実施例で説明したとおりである。

　同様に、子ノード１ａ－ｋの各ＧＰＵ１１ａ－ｋ－ｊの送信部１１４ａは、ＧＰＵ１１ａ－ｋ－ｊの集計処理部１１２によって生成された分散データＤｊ［ｍ，ｋ］を、子ノード１ａ－ｋのＦＰＧＡ１２ａ－ｋのＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のどちらか一方にＤＭＡ転送する（図７ステップＳ３００）。このとき、送信部１１４ａは、分散データＤｊ［ｍ，ｋ］を生成したＧＰＵ１１ａ－ｋ－ｊの識別子を、分散データＤｊ［ｍ，ｋ］に付加する。図７のステップＳ３０１～Ｓ３０３の処理は第１の実施例で説明したとおりである。

　本実施例では、ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－１，ＧＰＵ１１ａ－ｎ－３の送信部１１４ａが分散データＤ１［ｍ，ｎ］，Ｄ３［ｍ，ｎ］をＦＰＧＡ１２ａ－ｎのＧＰＵ受信バッファ１２０－１に転送し、ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－２，ＧＰＵ１１ａ－ｎ－４の送信部１１４ａが分散データＤ２［ｍ，ｎ］，Ｄ４［ｍ，ｎ］をＦＰＧＡ１２ａ－ｎのＧＰＵ受信バッファ１２０－２に転送するものとして説明する。

　親ノード１ａ－１のＦＰＧＡ１２ａ－１の監視部１３０は、自ノードを含む全てのノード１ａ－ｎでチェックフラグＦ１がセットされ、少なくとも１つのノードでチェックフラグＦ２がセットされていない場合（図６ステップＳ２０４においてＹＥＳ）、ＦＰＧＡ１２ａ－１の送信部１２６に対してデータ送信を指示する。ＦＰＧＡ１２ａ－１の送信部１２６は、ＦＰＧＡ１２ａ－１のネットワーク送信バッファ１２２－１または１２３－１に格納されている分散データＤ１［ｍ，１］またはＤ３［ｍ，１］を取り出し、取り出したデータを中間集計データＲｔ１［ｍ，１］またはＲｔ３［ｍ，１］として、通信路２０－１を介して次の番号のノード１ａ－２に送信する（図６ステップＳ２０５）。

　また、親ノード１ａ－１のＦＰＧＡ１２ａ－１の監視部１３０は、自ノードを含む全てのノード１ａ－ｎでチェックフラグＦ２がセットされ、少なくとも１つのノードでチェックフラグＦ１がセットされていない場合（ステップＳ２０４においてＹＥＳ）、ＦＰＧＡ１２ａ－１の送信部１２６に対してデータ送信を指示する。ＦＰＧＡ１２ａ－１の送信部１２６は、ＦＰＧＡ１２ａ－１のネットワーク送信バッファ１２２－２または１２３－２に格納されている分散データＤ２［ｍ，１］またはＤ４［ｍ，１］を取り出し、取り出したデータを中間集計データＲｔ２［ｍ，１］またはＲｔ４［ｍ，１］として、通信路２０－２を介して次の番号のノード１ａ－２に送信する（ステップＳ２０５）。

　次に、複数の子ノード１ａ－ｋ（ｋ＝２，・・・，Ｎ）のうち、Ｎ番目を除く中間のノード１ａ－ｉ（ｉ＝２，・・・，Ｎ－１）のＦＰＧＡ１２ａ－ｉの受信部１２７は、ノード１ａ－（ｉ－１）から通信路２０－１を介して中間集計データＲｔ１［ｍ，ｉ－１］またはＲｔ３［ｍ，ｉ－１］を受信する（図７ステップＳ３０４）。また、ノード１ａ－ｉのＦＰＧＡ１２ａ－ｉの受信部１２７は、ノード１ａ－（ｉ－１）から通信路２０－２を介して中間集計データＲｔ２［ｍ，ｉ－１］またはＲｔ４［ｍ，ｉ－１］を受信する（ステップＳ３０４）。

　子ノード１ａ－ｉのＦＰＧＡ１２ａ－ｉの加算部１３１ａは、通信路２０－１，２０－２から受信した中間集計データＲｔ１［ｍ，ｉ－１］，Ｒｔ２［ｍ，ｉ－１］，Ｒｔ３［ｍ，ｉ－１］，Ｒｔ４［ｍ，ｉ－１］を一旦記憶する。そして、子ノード１ａ－ｉのＦＰＧＡ１２ａ－ｉの加算部１３１ａは、受信した中間集計データＲｔｊ［ｍ，ｉ－１］の生成元のＧＰＵ１１ａ－（ｉ－１）－ｊと同じ組のＧＰＵ１１ａ－ｉ－ｊによって生成された分散データＤｊ［ｍ，ｉ］がＦＰＧＡ１２－ｉのネットワーク送信バッファ１２２－１，１２３－１，１２２－２，１２３－２のいずれかに格納されている場合に、分散データＤｊ［ｍ，ｉ］を取り出す。そして、加算部１３１ａは、取り出した分散データＤｊ［ｍ，ｉ］と通信路２０－１または２０－２から受信した中間集計データＲｔｊ［ｍ，ｉ－１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｔｊ［ｍ，ｉ］を生成する（図７ステップＳ３０５）。

　なお、中間集計データＲｔｊ［ｍ，ｉ－１］の生成元のＧＰＵ１１ａ－（ｉ－１）－ｊは、中間集計データＲｔｊ［ｍ，ｉ－１］に付加されている識別子によって識別できる。同様に、分散データＤｊ［ｍ，ｉ］の生成元のＧＰＵ１１ａ－ｉ－ｊは、分散データＤｊ［ｍ，ｉ］に付加されている識別子によって識別できる。

　子ノード１ａ－ｉのＦＰＧＡ１２－ｉの送信部１２６は、ＦＰＧＡ１２－ｉの加算部１３１ａによって生成された中間集計データＲｔ１［ｍ，ｉ］またはＲｔ３［ｍ，ｉ］を、通信路２０－１を介して次の番号のノード１ａ－（ｉ＋１）に送信する（図７ステップＳ３０６）。また、子ノード１ａ－ｉのＦＰＧＡ１２－ｉの送信部１２６は、ＦＰＧＡ１２－ｉの加算部１３１ａによって生成された中間集計データＲｔ２［ｍ，ｉ］またはＲｔ４［ｍ，ｉ］を、通信路２０－２を介して次の番号のノード１ａ－（ｉ＋１）に送信する（ステップＳ３０６）。

　一方、子ノード１ａ－ＮのＦＰＧＡ１２ａ－Ｎの受信部１２７は、ノード１ａ－（Ｎ－１）から通信路２０－１を介して中間集計データＲｔ１［ｍ，Ｎ－１］またはＲｔ３［ｍ，Ｎ－１］を受信する（図７ステップＳ３０４）。また、ノード１ａ－ＮのＦＰＧＡ１２ａ－Ｎの受信部１２７は、ノード１ａ－（Ｎ－１）から通信路２０－２を介して中間集計データＲｔ２［ｍ，Ｎ－１］またはＲｔ４［ｍ，Ｎ－１］を受信する（ステップＳ３０４）。

　子ノード１ａ－ＮのＦＰＧＡ１２ａ－Ｎの加算部１３１ａは、通信路２０－１，２０－２から受信した中間集計データＲｔ１［ｍ，Ｎ－１］，Ｒｔ２［ｍ，Ｎ－１］，Ｒｔ３［ｍ，Ｎ－１］，Ｒｔ４［ｍ，Ｎ－１］を一旦記憶する。そして、子ノード１ａ－ＮのＦＰＧＡ１２ａ－Ｎの加算部１３１ａは、受信した中間集計データＲｔｊ［ｍ，Ｎ－１］の生成元のＧＰＵ１１ａ－（Ｎ－１）－ｊと同じ組のＧＰＵ１１ａ－Ｎ－ｊによって生成された分散データＤｊ［ｍ，Ｎ］がＦＰＧＡ１２－Ｎのネットワーク送信バッファ１２２－１，１２３－１，１２２－２，１２３－２のいずれかに格納されている場合に、分散データＤｊ［ｍ，Ｎ］を取り出す。そして、加算部１３１ａは、取り出した分散データＤｊ［ｍ，Ｎ］と通信路２０－１または２０－２から受信した中間集計データＲｔｊ［ｍ，Ｎ－１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｔｊ［ｍ，Ｎ］を生成する（図７ステップＳ３０５）。

　子ノード１ａ－ＮのＦＰＧＡ１２－Ｎの送信部１２６は、ＦＰＧＡ１２－Ｎの加算部１３１ａによって生成された中間集計データＲｔ１［ｍ，Ｎ］またはＲｔ３［ｍ，Ｎ］を、通信路２０－１を介して親ノード１ａ－１に送信する（図７ステップＳ３０６）。また、子ノード１ａ－ＮのＦＰＧＡ１２－Ｎの送信部１２６は、ＦＰＧＡ１２－Ｎの加算部１３１ａによって生成された中間集計データＲｔ２［ｍ，Ｎ］またはＲｔ４［ｍ，Ｎ］を、通信路２０－２を介して親ノード１ａ－１に送信する（ステップＳ３０６）。

　次に、親ノード１ａ－１のＦＰＧＡ１２ａ－１の受信部１２９は、ノード１ａ－Ｎから通信路２０－１または２０－２を介して中間集計データＲｔ１［ｍ，Ｎ］，Ｒｔ２［ｍ，Ｎ］，Ｒｔ３［ｍ，Ｎ］，Ｒｔ４［ｍ，Ｎ］を受信する（図６ステップＳ２０６）。

　親ノード１ａ－１のＦＰＧＡ１２ａ－１の送信部１２８は、受信した中間集計データＲｔ１［ｍ，Ｎ］またはＲｔ３［ｍ，Ｎ］を、集計データＲ１［ｍ］またはＲ３［ｍ］として、通信路２０－１を介して次の番号のノード１ａ－２に送信する（図６ステップＳ２０７）。また、親ノード１ａ－１のＦＰＧＡ１２ａ－１の送信部１２８は、受信した中間集計データＲｔ２［ｍ，Ｎ］またはＲｔ４［ｍ，Ｎ］を、集計データＲ２［ｍ］またはＲ４［ｍ］として、通信路２０－２を介して次の番号のノード１ａ－２に送信する（ステップＳ２０７）。

　また、親ノード１ａ－１のＦＰＧＡ１２ａ－１の受信部１２９は、ノード１ａ－Ｎから通信路２０－１または２０－２を介して受信した集計データＲ１［ｍ］，Ｒ２［ｍ］，Ｒ３［ｍ］，Ｒ４［ｍ］を、ＦＰＧＡ１２ａ－１のネットワーク受信バッファ１２４－１，１２５－１，１２４－２，１２５－２のうち空いているバッファに転送する（図６ステップＳ２０８）。

　図６ステップＳ２０９の処理は第１の実施例で説明したとおりである。親ノード１ａ－１のＦＰＧＡ１２ａ－１の転送部１３２ａは、ＦＰＧＡ１２ａ－１のＧＰＵ送信バッファ１２１－１または１２－２に集計データＲｊ［ｍ］が格納されている場合、この集計データＲｊ［ｍ］を対応するＧＰＵ１１ａ－１－ｊにＤＭＡ転送する（図６ステップＳ２１０）。

　上記の説明から明らかなように、集計データＲｊ［ｍ］とＧＰＵ１１ａ－１－ｊとの対応は、集計データＲｊ［ｍ］に付加されている識別子によって判定できる。
　以上で、ノード１ａ－Ｎから通信路２０－１，２０－２を介して受信した集計データＲｊ［ｍ］がＧＰＵ１１ａ－１－ｊに転送される。

　一方、子ノード１ａ－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１２ａ－ｋの受信部１２９は、ノード１ａ－（ｋ－１）から通信路２０－１または２０－２を介して集計データＲ１［ｍ］，Ｒ２［ｍ］，Ｒ３［ｍ］，Ｒ４［ｍ］を受信する（図７ステップＳ３０７）。

　子ノード１ａ－ｋのＦＰＧＡ１２ａ－ｋの送信部１２８は、受信した集計データＲ１［ｍ］またはＲ３［ｍ］を、通信路２０－１を介して次の番号のノード１ａ－ｋ⁺（ｋ⁺＝ｋ＋１、ただしｋ＝Ｎの場合はｋ⁺＝１）に送信する（図７ステップＳ３０８）。また、子ノード１ａ－ｋのＦＰＧＡ１２ａ－ｋの送信部１２８は、受信した集計データＲ２［ｍ］またはＲ４［ｍ］を、通信路２０－２を介して次の番号のノード１ａ－ｋ⁺に送信する（ステップＳ３０８）。

　また、子ノード１ａ－ｋのＦＰＧＡ１２ａ－ｋの受信部１２９は、ノード１ａ－（ｋ－１）から通信路２０－１または２０－２を介して受信した集計データＲ１［ｍ］，Ｒ２［ｍ］，Ｒ３［ｍ］，Ｒ４［ｍ］を、ＦＰＧＡ１２ａ－ｋのネットワーク受信バッファ１２４－１，１２５－１，１２４－２，１２５－２のうち空いているバッファに転送する（図７ステップＳ３０９）。

　図７のステップＳ３１０の処理は第１の実施例で説明したとおりである。子ノード１ａ－ｋのＦＰＧＡ１２ａ－ｋの転送部１３２ａは、ＦＰＧＡ１２ａ－ｋのＧＰＵ送信バッファ１２１－１または１２－２に集計データＲｊ［ｍ］が格納されている場合、この集計データＲｊ［ｍ］を対応するＧＰＵ１１ａ－ｋ－ｊにＤＭＡ転送する（図７ステップＳ３１１）。
　以上で、ノード１ａ－（ｋ－１）から通信路２０－１，２０－２を介して受信した集計データＲｊ［ｍ］がＧＰＵ１１ａ－ｋ－ｊに転送される。

　次に、各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－ｊは、ノード内のＧＰＵ間Ａｌｌｒｅｄｕｃｅ処理と重み更新処理とを行う。ＧＰＵ間Ａｌｌｒｅｄｕｃｅ処理と重み更新処理の流れは第１の実施例と同様であるので、図８、図９の符号を用いて説明する。

　各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－１の受信部１１５は、ＦＰＧＡ１２ａ－ｎから集計データＲ１［ｍ］を受信する（図８ステップＳ４００）。
　各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－１の送信部１１６は、ＧＰＵ１１ａ－ｎ－１の受信部１１５が受信した集計データＲ１［ｍ］を他のＧＰＵ１１ａ－ｎ－ｐ（ｐ＝２，・・・，Ｊ）に送信する（図８ステップＳ４０１）。

　一方、各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－ｐ（ｐ＝２，・・・，Ｊ）の受信部１１５は、それぞれＦＰＧＡ１２ａ－ｎから集計データＲｐ［ｍ］を受信する（図９ステップＳ５００）。
　各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－ｐの送信部１１６は、ＧＰＵ１１ａ－ｎ－ｐの受信部１１５が受信した集計データＲｐ［ｍ］を他のＧＰＵ１１ａ－ｎ－ｑ（ｑはＪ以下の自然数で、ｐ≠ｑ）に送信する（図９ステップＳ５０１）。

　各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－１の受信部１１７は、ＧＰＵ１１ａ－ｎ－ｐから送信された集計データＲｐ［ｍ］を受信する（図８ステップＳ４０２）。
　各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－ｐの受信部１１７は、ＧＰＵ１１ａ－ｎ－ｑから送信された集計データＲｑ［ｍ］を受信する（図９ステップＳ５０２）。

　次に、各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－１の集計処理部１１８は、ＧＰＵ１１ａ－ｎ－１の受信部１１５が受信した集計データＲ１［ｍ］と受信部１１７が受信した集計データＲｐ［ｍ］との和を、対応する重みｗ［ｍ］毎に求めることにより、集計データＵ［ｍ］を生成する（図８ステップＳ４０３）。

　こうして、各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－１によって計算された分散データＤ１［ｍ，ｎ］を集計したデータＲ１［ｍ］と、各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－２によって計算された分散データＤ２［ｍ，ｎ］を集計したデータＲ２［ｍ］と、各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－３によって計算された分散データＤ３［ｍ，ｎ］を集計したデータＲ３［ｍ］と、各ノード１ａ－ｎのＧＰＵ１１ａ－ｎ－４によって計算された分散データＤ４［ｍ，ｎ］を集計したデータＲ４［ｍ］との和を、集計データＵ［ｍ］として求めることができる。
　図８のステップＳ４０４の処理は第１の実施例で説明したとおりである。

　本実施例では、各ノード１ａ－ｎの各ＧＰＵ１１ａ－ｎ－ｊのＤＭＡ待ち時間が減少するため、各ＧＰＵ１１ａ－ｎ－ｊは、ＤＭＡ待ち時間が減少した分だけ他の処理を実行することができる。また、本実施例では、ＤＭＡ転送キューを用いることで、ＧＰＵ－ＦＰＧＡバスの帯域を有効活用できる。また、本実施例では、ネットワーク送信バッファが増えることで、ネットワークの帯域を有効活用できる。また、本実施例では、各ＧＰＵ１１ａ－ｎ－ｊを並列に動作させることで、ノード内の集約スループットを向上させることができる。本実施例では、各ＧＰＵ１１ａ－ｎ－ｊが並列にＡｌｌｒｅｄｕｃｅキューを作成するので、よりバス帯域、ネットワーク帯域を有効活用できる。また、本実施例では、ノード間Ａｌｌｒｅｄｕｃｅ処理を各ノード１ａ－ｎの１つのＦＰＧＡによって実行できるので、省電力化、省スペース化を実現することができる。

　従来は集団通信において最も遅い処理であるＡｌｌｒｅｄｕｃｅ処理がノード内およびノード間で発生していた。これに対して、本実施例では、ノード内のＡｌｌｒｅｄｕｃｅ処理がＧＰＵの並列数分だけ高速になり、ノード間のＡｌｌｒｅｄｕｃｅ処理についてもＧＰＵの並列数分だけ高速になる。

［第４の実施例］
　次に、本発明の第４の実施例について説明する。図１４は本発明の第４の実施例に係る分散深層学習システムの構成を示すブロック図である。本実施例の分散深層学習システムは、Ｎ個のノード１ｂ－ｎ（ｎ＝１，・・・，Ｎ）と、Ｎ個のノード１ｂ－ｎを互いに接続するネットワーク２とを備えている。

　親ノード１ｂ－１は、ＣＰＵ１０－１と、ＧＰＵ１１ｂ－１－１，１１ｂ－１－２と、ＦＰＧＡ１２ｂ－１とを備えている。
　子ノード１ｂ－ｋ（ｋ＝２，・・・，Ｎ）は、ＣＰＵ１０－ｋと、ＧＰＵ１１ｂ－ｋ－１，１１ａ－ｋ－２と、ＦＰＧＡ１２ｂ－ｋとを備えている。

　本実施例では、各ノード１ｂ－ｎにＧＰＵが２個（Ｊ＝２）ずつ設けられている。図１５はＧＰＵ１１ｂ－ｎ－ｊ（ｎ＝１，・・・，Ｎｊ＝１，・・・，Ｊ）の機能ブロック図である。ＧＰＵ１１ｂ－ｎ－ｊは、サンプル入力部１１０と、勾配計算処理部１１１と、集計処理部１１２と、重み更新処理部１１３と、送信部１１４ｂと、受信部１１５として機能する。

　図１６は親ノード１ｂ－１のＦＰＧＡ１２ｂ－１の機能ブロック図である。ＦＰＧＡ１２ｂ－１は、ＧＰＵ受信バッファ１２０－１，１２０－２と、ＧＰＵ送信バッファ１２１－１，１２１－２と、ネットワーク送信バッファ１２２－１，１２２－２，１２３－１，１２３－２と、ネットワーク受信バッファ１２４－１，１２４－２，１２５－１，１２５－２と、送信部１２６と、送信部１２８と、受信部１２９と、監視部１３０ｂと、転送部１３２ｂと、転送部１３３として機能する。

　図１７は子ノード１ｂ－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１２ｂ－ｋの機能ブロック図である。ＦＰＧＡ１２ｂ－ｋは、ＧＰＵ受信バッファ１２０－１，１２０－２と、ＧＰＵ送信バッファ１２１－１，１２１－２と、ネットワーク送信バッファ１２２－１，１２２－２，１２３－１，１２３－２と、ネットワーク受信バッファ１２４－１，１２４－２，１２５－１，１２５－２と、送信部１２６と、受信部１２７と、送信部１２８と、受信部１２９と、監視部１３０ｂと、加算部１３１ｂと、転送部１３２ｂと、転送部１３３として機能する。

　ノード１ｂ－ｎの各ＧＰＵ１１ｂ－ｎ－ｊ（ｎ＝１，・・・，Ｎ，ｊ＝１，・・・，Ｊ）のサンプルデータ入力処理と勾配計算処理とＧＰＵ内集計処理とは、第１の実施例で説明したとおりである。

　ノード１ｂ－ｎのノード間Ａｌｌｒｅｄｕｃｅ処理の流れは第１の実施例と同様であるので、図６、図７の符号を用いて説明する。
　第１の実施例と同様に、親ノード１ｂ－１の各ＧＰＵ１１ｂ－１－ｊの送信部１１４ｂは、ＧＰＵ１１ｂ－１－ｊの集計処理部１１２によって生成された分散データＤｊ［ｍ，１］を、親ノード１ｂ－１のＦＰＧＡ１２ｂ－１のＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうちどちらか一方にＤＭＡ転送する（図６ステップＳ２００）。

　各ＧＰＵ１１ｂ－１－ｊの送信部１１４ｂは、ＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうち、現在ビジーではない方（別のＧＰＵが使用していない方）を選択して分散データＤｊ［ｍ，１］をＤＭＡ転送する。
　図６のステップＳ２０１～Ｓ２０３の処理は第１の実施例で説明したとおりである。

　同様に、子ノード１ｂ－ｋの各ＧＰＵ１１ｂ－ｋ－ｊの送信部１１４ｂは、ＧＰＵ１１ｂ－ｋ－ｊの集計処理部１１２によって生成された分散データＤｊ［ｍ，ｋ］を、子ノード１ｂ－ｋのＦＰＧＡ１２ｂ－ｋのＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうち、現在ビジーではない方にＤＭＡ転送する（図７ステップＳ３００）。

　本実施例では、ノード１ｂ－ｎのＧＰＵ１１ｂ－ｎ－１の送信部１１４ｂが分散データＤ１［ｍ，ｎ］をＦＰＧＡ１２ｂ－ｎのＧＰＵ受信バッファ１２０－１に転送し、ノード１ｂ－ｎのＧＰＵ１１ｂ－ｎ－２の送信部１１４ｂが分散データＤ２［ｍ，ｎ］をＦＰＧＡ１２ｂ－ｎのＧＰＵ受信バッファ１２０－２に転送するものとして説明する。
　図７のステップＳ３０１～Ｓ３０３の処理は第１の実施例で説明したとおりである。

　親ノード１ｂ－１のＦＰＧＡ１２ｂ－１の監視部１３０ｂは、自ノードを含む全てのノード１ｂ－ｎでチェックフラグＦ１とチェックフラグＦ２とがセットされている場合（図６ステップＳ２０４においてＹＥＳ）、ＦＰＧＡ１２ｂ－１の送信部１２６に対してデータ送信を指示する。ＦＰＧＡ１２ｂ－１の送信部１２６は、ＦＰＧＡ１２ｂ－１のネットワーク送信バッファ１２２－１または１２３－１に格納されている分散データＤ１［ｍ，１］を取り出し、取り出したデータを中間集計データＲｔ１［ｍ，１］として、通信路２０－１を介して次の番号のノード１ｂ－２に送信する（図６ステップＳ２０５）。また、ＦＰＧＡ１２ｂ－１の送信部１２６は、ＦＰＧＡ１２ｂ－１のネットワーク送信バッファ１２２－２または１２３－２に格納されている分散データＤ２［ｍ，１］を取り出し、取り出したデータを中間集計データＲｔ２［ｍ，１］として、通信路２０－２を介して次の番号のノード１ｂ－２に送信する（ステップＳ２０５）。

　次に、子ノード１ｂ－２のＦＰＧＡ１２ｂ－２の受信部１２７は、親ノード１ｂ－１から通信路２０－１を介して中間集計データＲｔ１［ｍ，１］を受信する（図７ステップＳ３０４）。また、子ノード１ｂ－２のＦＰＧＡ１２ｂ－２の受信部１２７は、親ノード１ｂ－１から通信路２０－２を介して中間集計データＲｔ２［ｍ，１］を受信する（ステップＳ３０４）。

　子ノード１ｂ－２のＦＰＧＡ１２ｂ－２の加算部１３１ｂは、通信路２０－１，２０－２から受信した中間集計データＲｔ１［ｍ，１］，Ｒｔ２［ｍ，１］を一旦記憶する。加算部１３１ｂは、ＧＰＵ１１ｂ－２－１，１１ｂ－２－２によって生成された分散データＤ１［ｍ，２］，Ｄ２［ｍ，２］をＦＰＧＡ１２ｂ－２のネットワーク送信バッファ１２２－１，１２３－１，１２２－２，１２３－２のいずれかから取り出す。そして、加算部１３１ｂは、取り出した分散データＤ１［ｍ，２］，Ｄ２［ｍ，２］と通信路２０－１，２０－２から受信した中間集計データＲｔ１［ｍ，１］，Ｒｔ２［ｍ，１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｔ［ｍ，２］を生成する（図７ステップＳ３０５）。

　子ノード１ｂ－２のＦＰＧＡ１２ｂ－２の送信部１２６は、ＦＰＧＡ１２ｂ－２の加算部１３１ｂによって生成された中間集計データＲｔ［ｍ，２］を、通信路２０－１，２０－２を介して次の番号のノード１ｂ－３に送信する（図７ステップＳ３０６）。

　子ノード１ｂ－ｒ（ｒ＝３，・・・，Ｎ）のＦＰＧＡ１２ｂ－ｒの受信部１２７は、ノード１ｂ－（ｒ－１）から通信路２０－１，２０－２を介して中間集計データＲｔ［ｍ，ｒ－１］を受信する（図７ステップＳ３０４）。

　子ノード１ｂ－ｒのＦＰＧＡ１２ｂ－ｒの加算部１３１ｂは、通信路２０－１，２０－２から受信した中間集計データＲｔ［ｍ，ｒ－１］を一旦記憶する。加算部１３１ｂは、ＧＰＵ１１ｂ－ｒ－１，１１ｂ－ｒ－２によって生成された分散データＤ１［ｍ，２］，Ｄ２［ｍ，２］をＦＰＧＡ１２ｂ－ｒのネットワーク送信バッファ１２２－１，１２３－１，１２２－２，１２３－２のいずれかから取り出す。そして、加算部１３１ｂは、取り出した分散データＤ１［ｍ，２］，Ｄ２［ｍ，２］と通信路２０－１，２０－２から受信した中間集計データＲｔ［ｍ，ｒ－１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｔ［ｍ，ｒ］を生成する（図７ステップＳ３０５）。このとき、加算に用いる中間集計データＲｔ［ｍ，ｒ－１］は、通信路２０－１，２０－２のうちどちらか一方のみからのデータを使用すればよい。

　子ノード１ｂ－ｒのＦＰＧＡ１２ｂ－ｒの送信部１２６は、ＦＰＧＡ１２ｂ－ｒの加算部１３１ｂによって生成された中間集計データＲｔ［ｍ，ｒ］を、通信路２０－１，２０－２を介して次の番号のノード１ｂ－ｒ⁺（ｒ⁺＝ｒ＋１、ただしｒ＝Ｎの場合はｒ⁺＝１）に送信する（図７ステップＳ３０６）。

　次に、親ノード１ｂ－１のＦＰＧＡ１２ｂ－１の受信部１２９は、ノード１ｂ－Ｎから通信路２０－１，２０－２を介して中間集計データＲｔ［ｍ，Ｎ］を受信する（図６ステップＳ２０６）。

　親ノード１ｂ－１のＦＰＧＡ１２ｂ－１の送信部１２８は、受信した中間集計データＲｔ［ｍ，Ｎ］を、集計データＵ［ｍ］として、通信路２０－１，２０－２を介して次の番号のノード１ｂ－２に送信する（図６ステップＳ２０７）。

　また、親ノード１ｂ－１のＦＰＧＡ１２ｂ－１の受信部１２９は、ノード１ｂ－Ｎから通信路２０－１，２０－２を介して受信した集計データＵ［ｍ］を、ＦＰＧＡ１２ｂ－１のネットワーク受信バッファ１２４－１，１２５－１のうち空いているバッファとネットワーク受信バッファ１２４－２，１２５－２のうち空いているバッファとに転送する（図６ステップＳ２０８）。このとき、受信部１２９は、通信路２０－１，２０－２のうちどちらか一方のみからの集計データＵ［ｍ］を転送すればよい。

　図６ステップＳ２０９の処理は第１の実施例で説明したとおりである。親ノード１ｂ－１のＦＰＧＡ１２ｂ－１の転送部１３２ｂは、ＦＰＧＡ１２ｂ－１のＧＰＵ送信バッファ１２１－１に集計データＵ［ｍ］が格納されている場合、この集計データＵ［ｍ］をＧＰＵ１１ｂ－１－１にＤＭＡ転送する（図６ステップＳ２１０）。また、親ノード１ｂ－１のＦＰＧＡ１２ｂ－１の転送部１３２ｂは、ＦＰＧＡ１２ｂ－１のＧＰＵ送信バッファ１２１－２に集計データＵ［ｍ］が格納されている場合、この集計データＵ［ｍ］をＧＰＵ１１ｂ－１－２にＤＭＡ転送する（ステップＳ２１０）。
　以上で、ノード１ｂ－Ｎから通信路２０－１，２０－２を介して受信した集計データＵ［ｍ］がＧＰＵ１１ｂ－１－ｊに転送される。

　一方、子ノード１ｂ－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１２ｂ－ｋの受信部１２９は、ノード１ｂ－（ｋ－１）から通信路２０－１，２０－２を介して集計データＵ［ｍ］を受信する（図７ステップＳ３０７）。

　子ノード１ｂ－ｋのＦＰＧＡ１２ｂ－ｋの送信部１２８は、受信した集計データＵ［ｍ］を、通信路２０－１，２０－２を介して次の番号のノード１ｂ－ｋ⁺（ｋ⁺＝ｋ＋１、ただしｋ＝Ｎの場合はｋ⁺＝１）に送信する（図７ステップＳ３０８）。

　また、子ノード１ｂ－ｋのＦＰＧＡ１２ｂ－ｋの受信部１２９は、ノード１ｂ－（ｋ－１）から通信路２０－１，２０－２を介して受信した集計データＵ［ｍ］を、ＦＰＧＡ１２ｂ－ｋのネットワーク受信バッファ１２４－１，１２５－１のうち空いているバッファとネットワーク受信バッファ１２４－２，１２５－２のうち空いているバッファとに転送する（図７ステップＳ３０９）。

　図７のステップＳ３１０の処理は第１の実施例で説明したとおりである。子ノード１ｂ－ｋのＦＰＧＡ１２ｂ－ｋの転送部１３２ｂは、ＦＰＧＡ１２ｂ－ｋのＧＰＵ送信バッファ１２１－１に集計データＵ［ｍ］が格納されている場合、この集計データＵ［ｍ］をＧＰＵ１１ｂ－ｋ－１にＤＭＡ転送する（図７ステップＳ３１１）。また、親ノード１ｂ－ｋのＦＰＧＡ１２ｂ－ｋの転送部１３２ｂは、ＦＰＧＡ１２ｂ－ｋのＧＰＵ送信バッファ１２１－２に集計データＵ［ｍ］が格納されている場合、この集計データＵ［ｍ］をＧＰＵ１１ｂ－ｋ－２にＤＭＡ転送する（ステップＳ３１１）。
　以上で、ノード１ｂ－（ｋ－１）から通信路２０－１，２０－２を介して受信した集計データＵ［ｍ］がＧＰＵ１１ｂ－ｋ－ｊに転送される。

　次に、各ノード１ｂ－ｎのＧＰＵ１１ｂ－ｎ－ｊは、重み更新処理を行う。図１８はノード１ｂ－ｎのＧＰＵ１１ｂ－ｎ－１の重み更新処理を説明するフローチャートである。なお、ここでは各ノード１ｂ－ｎのＧＰＵ１１ｂ－ｎ－１が、そのノードの代表ＧＰＵとして重み更新処理を行うものとする。

　各ノード１ｂ－ｎのＧＰＵ１１ｂ－ｎ－１の受信部１１５は、ＦＰＧＡ１２ｂ－ｎから集計データＵ［ｍ］を受信する（図１８ステップＳ６００）。
　各ノード１ｂ－ｎのＧＰＵ１１ｂ－ｎ－１の重み更新処理部１１３は、集計データＵ［ｍ］に基づいて、自ノード内のモデル１３－ｎの重みｗ［ｍ］を更新する重み更新処理を行う（図１８ステップＳ６０１）。

　本実施例では、各ノード１ｂ－ｎの各ＧＰＵ１１ｂ－ｎ－ｊのＤＭＡ待ち時間が減少するため、各ＧＰＵ１１ｂ－ｎ－ｊは、ＤＭＡ待ち時間が減少した分だけ他の処理を実行することができる。また、本実施例では、ＤＭＡ転送キューを用いることで、ＧＰＵ－ＦＰＧＡバスの帯域を有効活用できる。また、本実施例では、ネットワーク送信バッファが増えることで、ネットワークの帯域を有効活用できる。また、本実施例では、ノード間Ａｌｌｒｅｄｕｃｅ処理を各ノード１ｂ－ｎの１つのＦＰＧＡによって実行できるので、省電力化、省スペース化を実現することができる。

　本実施例では、集団通信において最も遅い処理であるＡｌｌｒｅｄｕｃｅ処理における全ての集計処理を、ＦＰＧＡ１２ｂ－ｎのハードウェアで実行するため、ＧＰＵ側の処理が軽くなり、かつ処理レイテンシも高速になる。各ＧＰＵ１１ｂ－ｎ－ｊは、ビジーではないＧＰＵ受信バッファを選択できるので、ＧＰＵ受信バッファの開放待ちを時間を低減することができ、全体の処理時間を短くすることができる。

［第５の実施例］
　次に、本発明の第５の実施例について説明する。図１９は本発明の第５の実施例に係る分散深層学習システムの構成を示すブロック図である。本実施例の分散深層学習システムは、Ｎ個のノード１ｃ－ｎ（ｎ＝１，・・・，Ｎ）と、Ｎ個のノード１ｃ－ｎを互いに接続するネットワーク２とを備えている。

　親ノード１ｃ－１は、ＣＰＵ１０－１と、ＧＰＵ１１ｃ－１－１，１１ｃ－１－２と、ＦＰＧＡ１２ｃ－１とを備えている。
　子ノード１ｃ－ｋ（ｋ＝２，・・・，Ｎ）は、ＣＰＵ１０－ｋと、ＧＰＵ１１ｃ－ｋ－１，１１ａ－ｋ－２と、ＦＰＧＡ１２ｃ－ｋとを備えている。

　本実施例では、各ノード１ｃ－ｎにＧＰＵが２個（Ｊ＝２）ずつ設けられている。ＧＰＵ１１ｃ－ｎ－ｊの構成は、第４の実施例のＧＰＵ１１ｂ－ｎ－ｊと同様であるので、図１５の符号を用いて説明する。

　図２０は親ノード１ｃ－１のＦＰＧＡ１２ｃ－１の機能ブロック図である。ＦＰＧＡ１２ｃ－１は、ＧＰＵ受信バッファ１２０－１，１２０－２と、ＧＰＵ送信バッファ１２１と、ネットワーク送信バッファ１２２－１，１２２－２，１２３－１，１２３－２と、ネットワーク受信バッファ１２４，１２５と、送信部１２６と、送信部１２８と、受信部１２９と、監視部１３０ｂと、転送部１３２ｃと、転送部１３３ｃとして機能する。

　図２１は子ノード１ｃ－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１２ｃ－ｋの機能ブロック図である。ＦＰＧＡ１２ｃ－ｋは、ＧＰＵ受信バッファ１２０－１，１２０－２と、ＧＰＵ送信バッファ１２１と、ネットワーク送信バッファ１２２－１，１２２－２，１２３－１，１２３－２と、ネットワーク受信バッファ１２４，１２５と、送信部１２６と、受信部１２７と、送信部１２８と、受信部１２９と、監視部１３０ｂと、加算部１３１ｂと、転送部１３２ｃと、転送部１３３ｃとして機能する。

　本実施例では、各ノード１ｃ－ｎのＦＰＧＡ１２ｃ－ｎに、通信路２０－１，２０－２と同数のＧＰＵ受信バッファ１２０－１，１２０－２と、通信路２０－１，２０－２に共通のＧＰＵ送信バッファ１２１とが設けられている。また、各ノード１ｃ－ｎのＦＰＧＡ１２ｃ－ｎに、通信路２０－１に対応する２つのネットワーク送信バッファ１２２－１，１２３－１が設けられている。また、各ノード１ｃ－ｎのＦＰＧＡ１２ｃ－ｎに、通信路２０－２に対応する２つのネットワーク送信バッファ１２２－２，１２３－２が設けられている。さらに、各ノード１ｃ－ｎのＦＰＧＡ１２ｃ－ｎに、通信路２０－１，２０－２に共通の２つのネットワーク受信バッファ１２４，１２５が設けられている。

　ノード１ｃ－ｎの各ＧＰＵ１１ｃ－ｎ－ｊ（ｎ＝１，・・・，Ｎ，ｊ＝１，・・・，Ｊ）のサンプルデータ入力処理と勾配計算処理とＧＰＵ内集計処理とは、第１の実施例で説明したとおりである。

　ノード１ｃ－ｎのノード間Ａｌｌｒｅｄｕｃｅ処理の流れは第１の実施例と同様であるので、図６、図７の符号を用いて説明する。
　親ノード１ｃ－１の各ＧＰＵ１１ｃ－１－ｊの送信部１１４ｂは、ＧＰＵ１１ｃ－１－ｊの集計処理部１１２によって生成された分散データＤｊ［ｍ，１］を、親ノード１ｃ－１のＦＰＧＡ１２ｃ－１のＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうちどちらか一方にＤＭＡ転送する（図６ステップＳ２００）。

　第４の実施例と同様に、各ＧＰＵ１１ｃ－１－ｊの送信部１１４ｂは、ＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうち、現在ビジーではない方（別のＧＰＵが使用していない方）を選択して分散データＤｊ［ｍ，１］をＤＭＡ転送する。
　図６のステップＳ２０１～Ｓ２０７の処理は第４の実施例で説明したとおりである。

　子ノード１ｃ－ｋの各ＧＰＵ１１ｃ－ｋ－ｊの送信部１１４ｂは、ＧＰＵ１１ｃ－ｋ－ｊの集計処理部１１２によって生成された分散データＤｊ［ｍ，ｋ］を、子ノード１ｃ－ｋのＦＰＧＡ１２ｃ－ｋのＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうち、現在ビジーではない方にＤＭＡ転送する（図７ステップＳ３００）。
　図７のステップＳ３０１～Ｓ３０８の処理は第４の実施例で説明したとおりである。

　親ノード１ｃ－１のＦＰＧＡ１２ｃ－１の受信部１２９は、ノード１ｃ－Ｎから通信路２０－１，２０－２を介して受信した集計データＵ［ｍ］を、ＦＰＧＡ１２ｃ－１のネットワーク受信バッファ１２４，１２５のうち空いている方に転送する（図６ステップＳ２０８）。このとき、受信部１２９は、通信路２０－１，２０－２のうちどちらか一方のみからの集計データＵ［ｍ］を転送すればよい。

　親ノード１ｃ－１のＦＰＧＡ１２ｃ－１の転送部１３３ｃは、ＦＰＧＡ１２ｃ－１のネットワーク受信バッファ１２４，１２５のうちどちらかが満杯になると、満杯になったネットワーク受信バッファからデータを取り出し、取り出したデータをＦＰＧＡ１２ｃ－１のＧＰＵ送信バッファ１２１に転送する（図６ステップＳ２０９）。

　親ノード１ｃ－１のＦＰＧＡ１２ｃ－１の転送部１３２ｃは、ＦＰＧＡ１２ｃ－１のＧＰＵ送信バッファ１２１に格納されたデータをＧＰＵ１１ｃ－１－１，ＧＰＵ１１ｃ－１－２にＤＭＡ転送する（図６ステップＳ２１０）。
　以上で、ノード１ｃ－Ｎから通信路２０－１，２０－２を介して受信した集計データＵ［ｍ］がＧＰＵ１１ｃ－１－１，１１ｃ－１－２にブロードキャスト転送される。

　子ノード１ｃ－ｋのＦＰＧＡ１２ｃ－ｋの受信部１２９は、ノード１ｃ－（ｋ－１）から通信路２０－１，２０－２を介して受信した集計データＵ［ｍ］を、ＦＰＧＡ１２ｃ－ｋのネットワーク受信バッファ１２４，１２５のうち空いている方に転送する（図７ステップＳ３０９）。このとき、受信部１２９は、通信路２０－１，２０－２のうちどちらか一方のみからの集計データＵ［ｍ］を転送すればよい。

　子ノード１ｃ－ｋのＦＰＧＡ１２ｃ－ｋの転送部１３３ｃは、ＦＰＧＡ１２ｃ－ｋのネットワーク受信バッファ１２４，１２５のうちどちらかが満杯になると、満杯になったネットワーク受信バッファからデータを取り出し、取り出したデータをＦＰＧＡ１２ｃ－ｋのＧＰＵ送信バッファ１２１に転送する（図７ステップＳ３１０）。

　子ノード１ｃ－ｋのＦＰＧＡ１２ｃ－ｋの転送部１３２ｃは、ＦＰＧＡ１２ｃ－ｋのＧＰＵ送信バッファ１２１に格納されたデータをＧＰＵ１１ｃ－ｋ－１，ＧＰＵ１１ｃ－ｋ－２にＤＭＡ転送する（図７ステップＳ３１１）。
　以上で、ノード１ｃ－（ｋ－１）から通信路２０－１，２０－２を介して受信した集計データＵ［ｍ］がＧＰＵ１１ｃ－ｋ－１，１１ｃ－ｋ－２にブロードキャスト転送される。

　各ノード１ｃ－ｎのＧＰＵ１１ｃ－ｎ－ｊの重み更新処理は、第４の実施例と同様である。

　本実施例では、各ノード１ｃ－ｎの各ＧＰＵ１１ｃ－ｎ－ｊのＤＭＡ待ち時間が減少するため、各ＧＰＵ１１ｃ－ｎ－ｊは、ＤＭＡ待ち時間が減少した分だけ他の処理を実行することができる。また、本実施例では、ＤＭＡ転送キューを用いることで、ＧＰＵ－ＦＰＧＡバスの帯域を有効活用できる。また、本実施例では、ネットワーク送信バッファが増えることで、ネットワークの帯域を有効活用できる。また、本実施例では、ノード間Ａｌｌｒｅｄｕｃｅ処理を各ノード１ｃ－ｎの１つのＦＰＧＡによって実行できるので、省電力化、省スペース化を実現することができる。また、本実施例では、第１～第４の実施例と比較してＦＰＧＡ内のネットワーク受信バッファとＧＰＵ送信バッファの数を削減することができるので、回路面積を削減することができ、コストを削減することができる。

　本実施例では、集団通信において最も遅い処理であるＡｌｌｒｅｄｕｃｅ処理における全ての集計処理を、ＦＰＧＡ１２ｃ－ｎのハードウェアで実行するため、ＧＰＵ側の処理が軽くなり、かつ処理レイテンシも高速になる。各ＧＰＵ１１ｃ－ｎ－ｊは、ビジーではないＧＰＵ受信バッファを選択できるので、ＧＰＵ受信バッファの開放待ちを時間を低減することができ、全体の処理時間を短くすることができる。

［第６の実施例］
　次に、本発明の第６の実施例について説明する。図２２は本発明の第６の実施例に係る分散深層学習システムの構成を示すブロック図である。本実施例の分散深層学習システムは、Ｎ個のノード１ｄ－ｎ（ｎ＝１，・・・，Ｎ）と、Ｎ個のノード１ｄ－ｎを互いに接続するネットワーク２ｄとを備えている。ネットワーク２ｄには、１系統の通信路２０が設定されている。

　親ノード１ｄ－１は、ＣＰＵ１０－１と、ＧＰＵ１１ｄ－１－１，１１ｄ－１－２と、ＦＰＧＡ１２ｄ－１とを備えている。
　子ノード１ｄ－ｋ（ｋ＝２，・・・，Ｎ）は、ＣＰＵ１０－ｋと、ＧＰＵ１１ｄ－ｋ－１，１１ａ－ｋ－２と、ＦＰＧＡ１２ｄ－ｋとを備えている。

　本実施例では、各ノード１ｄ－ｎにＧＰＵが２個（Ｊ＝２）ずつ設けられている。ＧＰＵ１１ｄ－ｎ－ｊの構成は、第４の実施例のＧＰＵ１１ｂ－ｎ－ｊと同様であるので、図１５の符号を用いて説明する。

　図２３は親ノード１ｄ－１のＦＰＧＡ１２ｄ－１の機能ブロック図である。ＦＰＧＡ１２ｄ－１は、ＧＰＵ受信バッファ１２０－１，１２０－２と、ＧＰＵ送信バッファ１２１と、ネットワーク送信バッファ１２２，１２３と、ネットワーク受信バッファ１２４，１２５と、送信部１２６と、送信部１２８と、受信部１２９と、監視部１３０ｄと、転送部１３２ｄと、転送部１３３ｄと、加算部１３４（第１の加算部）として機能する。

　図２４は子ノード１ｄ－ｋ（ｋ＝２，・・・，Ｎ）のＦＰＧＡ１２ｄ－ｋの機能ブロック図である。ＦＰＧＡ１２ｄ－ｋは、ＧＰＵ受信バッファ１２０－１，１２０－２と、ＧＰＵ送信バッファ１２１と、ネットワーク送信バッファ１２２，１２３と、ネットワーク受信バッファ１２４，１２５と、送信部１２６と、受信部１２７と、送信部１２８と、受信部１２９と、監視部１３０ｄと、加算部１３１ｄ（第２の加算部）と、転送部１３２ｄと、転送部１３３ｄと、加算部１３４（第１の加算部）として機能する。

　本実施例では、各ノード１ｄ－ｎのＦＰＧＡ１２ｄ－ｎに、ＧＰＵ１１ｄ－ｎ－ｊと同数のＧＰＵ受信バッファ１２０－１，１２０－２と、通信路２０と同数のＧＰＵ送信バッファ１２１とが設けられている。また、各ノード１ｄ－ｎのＦＰＧＡ１２ｄ－ｎに、２つのネットワーク送信バッファ１２２，１２３と２つのネットワーク受信バッファ１２４，１２５とが設けられている。

　ノード１ｄ－ｎの各ＧＰＵ１１ｄ－ｎ－ｊ（ｎ＝１，・・・，Ｎ，ｊ＝１，・・・，Ｊ）のサンプルデータ入力処理と勾配計算処理とＧＰＵ内集計処理とは、第１の実施例で説明したとおりである。

　図２５は親ノード１ｄ－１のノード間Ａｌｌｒｅｄｕｃｅ処理を説明するフローチャート、図２６は子ノード１ｄ－ｋ（ｋ＝２，・・・，Ｎ）のノード間Ａｌｌｒｅｄｕｃｅ処理を説明するフローチャートである。
　親ノード１ｄ－１の各ＧＰＵ１１ｄ－１－ｊの送信部１１４ｂは、ＧＰＵ１１ｄ－１－ｊの集計処理部１１２によって生成された分散データＤｊ［ｍ，１］を、親ノード１ｄ－１のＦＰＧＡ１２ｄ－１のＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうちどちらか一方にＤＭＡ転送する（図２５ステップＳ７００）。

　第４の実施例と同様に、各ＧＰＵ１１ｄ－１－ｊの送信部１１４ｂは、ＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうち、現在ビジーではない方（別のＧＰＵが使用していない方）を選択して分散データＤｊ［ｍ，１］をＤＭＡ転送する。

　親ノード１ｄ－１のＦＰＧＡ１２ｄ－１の転送部１３２ｄは、ＦＰＧＡ１２ｄ－１のＧＰＵ受信バッファ１２０－１，１２０－２の両方にデータが格納され、ネットワーク送信バッファ１２２，１２３のうちどちらかが空であれば、ＧＰＵ受信バッファ１２０－１，１２０－２に格納されているデータを加算部１３４に転送する（図２５ステップＳ７０１）。

　親ノード１ｄ－１のＦＰＧＡ１２ｄ－１の加算部１３４は、ＧＰＵ受信バッファ１２０－１，１２０－２から受信した分散データＤ１［ｍ，１］とＤ２［ｍ，１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｔ［ｍ，１］を生成する（図２５ステップＳ７０２）。加算部１３４は、中間集計データＲｔ［ｍ，１］をＦＰＧＡ１２ｄ－１のネットワーク送信バッファ１２２，１２３のうち空いている方に転送する（図２５ステップＳ７０３）。

　子ノード１ｄ－ｋの各ＧＰＵ１１ｄ－ｋ－ｊの送信部１１４ｂは、ＧＰＵ１１ｄ－ｋ－ｊの集計処理部１１２によって生成された分散データＤｊ［ｍ，ｋ］を、子ノード１ｄ－ｋのＦＰＧＡ１２ｄ－ｋのＧＰＵ受信バッファ１２０－１とＧＰＵ受信バッファ１２０－２のうち、現在ビジーではない方にＤＭＡ転送する（図２６ステップＳ８００）。

　子ノード１ｄ－ｋのＦＰＧＡ１２ｄ－ｋの転送部１３２ｄは、ＦＰＧＡ１２ｄ－ｋのＧＰＵ受信バッファ１２０－１，１２０－２の両方にデータが格納され、ネットワーク送信バッファ１２２，１２３のうちどちらかが空であれば、ＧＰＵ受信バッファ１２０－１，１２０－２に格納されているデータを加算部１３４に転送する（図２６ステップＳ８０１）。

　子ノード１ｄ－ｋのＦＰＧＡ１２ｄ－ｋの加算部１３４は、ＧＰＵ受信バッファ１２０－１，１２０－２から受信した分散データＤ１［ｍ，ｋ］とＤ２［ｍ，ｋ］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｔ［ｍ，ｋ］を生成する（図２６ステップＳ８０２）。加算部１３４は、中間集計データＲｔ［ｍ，ｋ］をＦＰＧＡ１２ｄ－ｋのネットワーク送信バッファ１２２，１２３のうち空いている方に転送する（図２６ステップＳ８０３）。

　親ノード１ｄ－１のＦＰＧＡ１２ｄ－１の監視部１３０ｄは、ＦＰＧＡ１２ｄ－１のネットワーク送信バッファ１２２または１２３にデータが格納され、かつＦＰＧＡ１２ｄ－１のネットワーク受信バッファ１２４，１２５のうちどちらかが空であれば（図２５ステップＳ７０４においてＹＥＳ）、チェックフラグＦをセットする（図２５ステップＳ７０５）。

　同様に、子ノード１ｄ－ｋのＦＰＧＡ１２ｄ－ｋの監視部１３０ｄは、ＦＰＧＡ１２ｄ－ｋのネットワーク送信バッファ１２２または１２３にデータが格納され、かつＦＰＧＡ１２ｄ－ｋのネットワーク受信バッファ１２４，１２５のうちどちらかが空であれば（図２６ステップＳ８０４においてＹＥＳ）、チェックフラグＦをセットする（図２６ステップＳ８０５）。

　親ノード１ｄ－１のＦＰＧＡ１２ｄ－１の監視部１３０ｄは、自ノードを含む全てのノード１ｄ－ｎでチェックフラグＦがセットされている場合（図２５ステップＳ７０６においてＹＥＳ）、ＦＰＧＡ１２ｄ－１の送信部１２６に対してデータ送信を指示する。ＦＰＧＡ１２ｄ－１の送信部１２６は、ＦＰＧＡ１２ｄ－１のネットワーク送信バッファ１２２または１２３に格納されている中間集計データＲｔ［ｍ，１］を取り出し、取り出したデータを中間集計データＲｚ［ｍ，１］として、通信路２０を介して次の番号のノード１ｄ－２に送信する（図２５ステップＳ７０７）。

　次に、複数の子ノード１ｄ－ｋのうち、Ｎ番目を除く中間のノード１ｄ－ｉ（ｉ＝２，・・・，Ｎ－１）のＦＰＧＡ１２ｄ－ｉの受信部１２７は、ノード１ｄ－（ｉ－１）から通信路２０を介して中間集計データＲｚ［ｍ，ｉ－１］を受信する（図２６ステップＳ８０６）。

　子ノード１ｄ－ｉのＦＰＧＡ１２ｄ－ｉの加算部１３１ｄは、ＦＰＧＡ１２ｄ－ｉのネットワーク送信バッファ１２２または１２３に格納されている中間集計データＲｔ［ｍ，ｉ］を取り出す。そして、加算部１３１ｄは、取り出した中間集計データＲｔ［ｍ，ｉ］と通信路２０から受信した中間集計データＲｚ［ｍ，ｉ－１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｚ［ｍ，ｉ］を生成する（図２６ステップＳ８０７）。

　そして、子ノード１ｄ－ｉのＦＰＧＡ１２ｄ－ｉの送信部１２６は、ＦＰＧＡ１２ｄ－ｉの加算部１３１ｄによって生成された中間集計データＲｚ［ｍ，ｉ］を、通信路２０を介して次の番号のノード１ｄ－（ｉ＋１）に送信する（図２６ステップＳ８０８）。

　一方、子ノード１ｄ－ＮのＦＰＧＡ１２ｄ－Ｎの受信部１２７は、ノード１ｄ－（Ｎ－１）から通信路２０を介して中間集計データＲｚ［ｍ，Ｎ－１］を受信する（ステップＳ８０６）。

　子ノード１ｄ－ＮのＦＰＧＡ１２ｄ－Ｎの加算部１３１ｄは、ＦＰＧＡ１２ｄ－Ｎのネットワーク送信バッファ１２２または１２３に格納されている中間集計データＲｔ［ｍ，Ｎ］を取り出す。そして、加算部１３１ｄは、取り出した中間集計データＲｔ［ｍ，Ｎ］と通信路２０から受信した中間集計データＲｚ［ｍ，Ｎ－１］との和を、対応する重みｗ［ｍ］毎に求めることにより、中間集計データＲｚ［ｍ，Ｎ］を生成する（ステップＳ８０７）。

　そして、子ノード１ｄ－ＮのＦＰＧＡ１２ｄ－Ｎの送信部１２６は、ＦＰＧＡ１２ｄ－Ｎの加算部１３１ｄによって生成された中間集計データＲｚ［ｍ，Ｎ］を、通信路２０を介して親ノード１ｄ－１に送信する（ステップＳ８０８）。

　次に、親ノード１ｄ－１のＦＰＧＡ１２ｄ－１の受信部１２９は、ノード１ｄ－Ｎから通信路２０を介して中間集計データＲｚ［ｍ，Ｎ］を受信する（図２５ステップＳ７０８）。
　親ノード１ｄ－１のＦＰＧＡ１２ｄ－１の送信部１２８は、受信した中間集計データＲｚ［ｍ，Ｎ］を、集計データＵ［ｍ］として、通信路２０を介して次の番号のノード１ｄ－２に送信する（図２５ステップＳ７０９）。

　また、親ノード１ｄ－１のＦＰＧＡ１２ｄ－１の受信部１２９は、ノード１ｄ－Ｎから通信路２０を介して受信した集計データＵ［ｍ］（中間集計データＲｚ［ｍ，Ｎ］）を、ＦＰＧＡ１２ｄ－１のネットワーク受信バッファ１２４，１２５のうち空いている方に転送する（図２５ステップＳ７１０）。

　親ノード１ｄ－１のＦＰＧＡ１２ｄ－１の転送部１３３ｄは、ＦＰＧＡ１２ｄ－１のネットワーク受信バッファ１２４，１２５のうちどちらかが満杯になると、満杯になったネットワーク受信バッファからデータを取り出し、取り出したデータをＦＰＧＡ１２ｄ－１のＧＰＵ送信バッファ１２１に転送する（図２５ステップＳ７１１）。

　親ノード１ｄ－１のＦＰＧＡ１２ｄ－１の転送部１３２ｄは、ＦＰＧＡ１２ｄ－１のＧＰＵ送信バッファ１２１に格納されたデータをＧＰＵ１１ｄ－１－１，ＧＰＵ１１ｄ－１－２にＤＭＡ転送する（図２５ステップＳ７１２）。
　以上で、ノード１ｄ－Ｎから通信路２０を介して受信した集計データＵ［ｍ］がＧＰＵ１１ｄ－１－１，１１ｄ－１－２にブロードキャスト転送される。

　一方、子ノード１ｄ－ｋのＦＰＧＡ１２ｄ－ｋの受信部１２９は、ノード１ｄ－（ｋ－１）から通信路２０を介して集計データＵ［ｍ］を受信する（図２６ステップＳ８０９）。子ノード１ｄ－ｋのＦＰＧＡ１２ｄ－ｋの送信部１２８は、受信した集計データＵ［ｍ］を、通信路２０を介して次の番号のノード１ｄ－ｋ⁺（ｋ⁺＝ｋ＋１、ただしｋ＝Ｎの場合はｋ⁺＝１）に送信する（図２６ステップＳ８１０）。

　また、子ノード１ｄ－ｋのＦＰＧＡ１２ｄ－ｋの受信部１２９は、ノード１ｄ－（ｋ－１）から通信路２０を介して受信した集計データＵ［ｍ］を、ＦＰＧＡ１２ｄ－ｋのネットワーク受信バッファ１２４，１２５のうち空いている方に転送する（図２６ステップＳ８１１）。

　子ノード１ｄ－ｋのＦＰＧＡ１２ｄ－ｋの転送部１３３ｄは、ＦＰＧＡ１２ｄ－ｋのネットワーク受信バッファ１２４，１２５のうちどちらかが満杯になると、満杯になったネットワーク受信バッファからデータを取り出し、取り出したデータをＦＰＧＡ１２ｄ－ｋのＧＰＵ送信バッファ１２１に転送する（図２６ステップＳ８１２）。

　子ノード１ｄ－ｋのＦＰＧＡ１２ｄ－ｋの転送部１３２ｄは、ＦＰＧＡ１２ｄ－ｋのＧＰＵ送信バッファ１２１に格納されたデータをＧＰＵ１１ｄ－ｋ－１，ＧＰＵ１１ｄ－ｋ－２にＤＭＡ転送する（図２６ステップＳ８１３）。
　以上で、ノード１ｄ－（ｋ－１）から通信路２０を介して受信した集計データＵ［ｍ］がＧＰＵ１１ｄ－ｋ－１，１１ｄ－ｋ－２にブロードキャスト転送される。

　各ノード１ｄ－ｎのＧＰＵ１１ｄ－ｎ－ｊの重み更新処理は、第４の実施例と同様である。

　本実施例では、各ノード１ｄ－ｎの各ＧＰＵ１１ｄ－ｎ－ｊのＤＭＡ待ち時間が減少するため、各ＧＰＵ１１ｄ－ｎ－ｊは、ＤＭＡ待ち時間が減少した分だけ他の処理を実行することができる。また、本実施例では、ＤＭＡ転送キューを用いることで、ＧＰＵ－ＦＰＧＡバスの帯域を有効活用できる。また、本実施例では、ネットワーク送信バッファが増えることで、ネットワークの帯域を有効活用できる。また、本実施例では、ノード間Ａｌｌｒｅｄｕｄｅ処理を各ノード１ｄ－ｎの１つのＦＰＧＡによって実行できるので、省電力化、省スペース化を実現することができる。また、本実施例では、第１～第４の実施例と比較してＦＰＧＡ内のネットワーク受信バッファとＧＰＵ送信バッファの数を削減することができるので、回路面積を削減することができ、コストを削減することができる。

　本実施例では、集団通信において最も遅い処理であるＡｌｌｒｅｄｕｄｅ処理における全ての集計処理を、ＦＰＧＡ１２ｄ－ｎのハードウェアで実行するため、ＧＰＵ側の処理が軽くなり、かつ処理レイテンシも高速になる。各ＧＰＵ１１ｄ－ｎ－ｊは、ビジーではないＧＰＵ受信バッファを選択できるので、ＧＰＵ受信バッファの開放待ちを時間を低減することができ、全体の処理時間を短くすることができる。また、本実施例では、従来技術と同様に１つの通信路２０で複数のノード１ｄ－ｎを接続するので、各ノード１ｄ－ｎに設けるネットワークポートの数を従来技術と同数にすることができる。また、本実施例では、第１～第５の実施例と比較してチェックフラッグの数が少ないので、全てのチェックフラッグがセットされるまでの待ち時間を短縮することができ、処理時間を短縮することができる。

　第１～第６の実施例で説明したノードの各々は、ＣＰＵ、ＧＰＵ等の演算部と記憶装置とインタフェースとを備えたコンピュータと、これらのハードウェア資源を制御するプログラムと、ＦＰＧＡとによって実現することができる。このコンピュータの構成例を図２７に示す。コンピュータは、演算部３００と、記憶装置３０１と、インタフェース装置（Ｉ／Ｆ）３０２とを備えている。Ｉ／Ｆ３０２には、例えば通信回路が接続される。ノードの各々のＣＰＵ、ＧＰＵ等の演算部３００は、各々の記憶装置３０１に格納されたプログラムに従って第１～第６の実施例で説明した処理を実行する。

　本発明は、ニューラルネットワークの機械学習を行う技術に適用することができる。

　１，１ａ～１ｄ…ノード、２，２ｄ…ネットワーク、１０…ＣＰＵ、１１，１１ａ～１１ｄ…ＧＰＵ、１２，１２ａ～１２ｄ…ＦＰＧＡ、１３…モデル、１１０…サンプル入力部、１１１…勾配計算処理部、１１２，１１８…集計処理部、１１３…重み更新処理部、１１４，１１４ａ，１１４ｂ，１１６，１２６，１２８…送信部、１１５，１１７，１２７，１２９…受信部、１２０…ＧＰＵ受信バッファ、１２１…ＧＰＵ送信バッファ、１２２，１２３…ネットワーク送信バッファ、１２４，１２５…ネットワーク受信バッファ、１３０，１３０ｂ，１３０ｄ…監視部、１３１，１３１ａ，１３１ｂ，１３１ｄ，１３４…加算部、１３２，１３２ａ～１３２ｄ，１３３，１３３ｃ，１３３ｄ…転送部。

Claims

　ネットワークを介して互いに接続された複数のノードを備え、
　各ノードは、
　学習対象のモデルの重み毎の分散データを生成するように構成された複数のＧＰＵと、
　前記ＧＰＵからの前記分散データを格納するように構成された複数の第１の受信バッファと、
　前記第１の受信バッファから転送された前記分散データを格納するように構成された複数の第１の送信バッファと、
　他のノードから受信した集計データを格納するように構成された複数の第２の受信バッファと、
　前記第２の受信バッファから転送された前記集計データを格納するように構成された第２の送信バッファと、
　前記第１の送信バッファにデータが格納され、前記第２の受信バッファに空きがあるときに、チェックフラグをセットするように構成された監視部と、
　前記複数のノードのうち１番目のノードとして機能する場合に自ノードを含む全てのノードで前記チェックフラグがセットされたときに、前記第１の送信バッファに格納された前記分散データを第１の集計データとして次の番号のノードに送信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、更新後の第１の集計データを次の番号のノードに送信するように構成された第１の送信部と、
　前記複数のノードのうち１番目を除くノードとして機能する場合に、他のノードから第１の集計データを受信するように構成された第１の受信部と、
　前記複数のノードのうち１番目を除くノードとして機能する場合に、前記第１の送信バッファに格納された分散データと前記第１の受信部が受信した第１の集計データとの和を重み毎に求めて前記更新後の第１の集計データを生成するように構成された加算部と、
　前記複数のノードのうち１番目のノードとして機能する場合に、前記更新後の第１の集計データを受信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、第２の集計データを受信するように構成された第２の受信部と、
　前記複数のノードのうち１番目のノードとして機能する場合に、前記第２の受信部が受信した第１の集計データを第２の集計データとして次の番号のノードに送信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、前記第２の受信部が受信した第２の集計データを次の番号のノードに送信するように構成された第２の送信部と、
　前記第１の受信バッファに格納された分散データを前記第１の送信バッファに転送し、前記第２の送信バッファに格納された集計データを前記複数のＧＰＵにＤＭＡ転送するように構成された第１の転送部と、
　前記第２の受信バッファに格納された集計データを前記第２の送信バッファに転送するように構成された第２の転送部とを備え、
　前記複数のＧＰＵは、前記分散データを前記複数の第１の受信バッファにＤＭＡ転送することを特徴とする分散深層学習システム。
　請求項１記載の分散深層学習システムにおいて、
　前記ネットワークに複数の通信路が設定され、
　各ノードは、
　前記複数のＧＰＵと、
　前記通信路と同数の前記第１の受信バッファと、
　１つの前記通信路あたり複数設けられた前記第１の送信バッファと、
　１つの前記通信路あたり複数設けられた前記第２の受信バッファと、
　前記通信路と同数の前記第２の送信バッファと、
　前記監視部と、
　前記第１、第２の送信部と、
　前記第１、第２の受信部と、
　前記加算部と、
　前記第１の転送部と、
　前記第２の転送部とを備え、
　各ＧＰＵは、
　それぞれ対応する前記第１の受信バッファに前記分散データをＤＭＡ転送するように構成された第３の送信部と、
　前記第１の転送部によってＤＭＡ転送された第２の集計データを受信するように構成された第３の受信部と、
　前記第３の受信部が受信した第２の集計データを他のＧＰＵに送信するように構成された第４の送信部と、
　他のＧＰＵから送信された第２の集計データを受信するように構成された第４の受信部と、
　前記第３の受信部が受信した第２の集計データと前記第４の受信部が受信した第２の集計データとの和を重み毎に求めることにより、第３の集計データを生成するように構成された集計処理部と、
　前記第３の集計データに基づいて前記モデルを更新するように構成された更新部とを備え、
　前記第１の転送部は、１つの通信路に対応する前記第１の受信バッファに格納された分散データをこの通信路に対応する前記第１の送信バッファに転送し、１つの通信路に対応する前記第２の送信バッファに格納された第２の集計データをこの通信路に対応するＧＰＵにＤＭＡ転送し、
　前記第２の転送部は、１つの通信路に対応する第２の受信バッファに格納された第２の集計データをこの通信路に対応する前記第２の送信バッファに転送し、
　前記監視部は、前記第１の送信バッファへのデータの格納と前記第２の受信バッファの空きとが、同一の通信路に対応する第１の送信バッファと第２の受信バッファとで起きたときに、この通信路に対応するチェックフラグをセットし、
　前記第１の送信部は、前記複数のノードのうち１番目のノードとして機能する場合に、自ノードを含む全てのノードで同一の通信路に対応する前記チェックフラグがセットされ、少なくとも１つのノードで別の通信路に対応するチェックフラグがセットされていないときに、前記同一の通信路に対応する前記第１の送信バッファに格納された分散データを第１の集計データとして、前記同一の通信路を介して次の番号のノードに送信し、
　前記加算部は、１つの通信路に対応する前記第１の送信バッファに格納された分散データとこの通信路から前記第１の受信部が受信した第１の集計データとの和を重み毎に求めて前記更新後の第１の集計データを生成することを特徴とする分散深層学習システム。
　請求項１記載の分散深層学習システムにおいて、
　前記ネットワークに複数の通信路が設定され、
　各ノードは、
　前記複数のＧＰＵと、
　前記通信路と同数の前記第１の受信バッファと、
　１つの前記通信路あたり複数設けられた前記第１の送信バッファと、
　１つの前記通信路あたり複数設けられた前記第２の受信バッファと、
　前記通信路と同数の前記第２の送信バッファと、
　前記監視部と、
　前記第１、第２の送信部と、
　前記第１、第２の受信部と、
　前記加算部と、
　前記第１の転送部と、
　前記第２の転送部とを備え、
　各ＧＰＵは、
　前記複数の第１の受信バッファのいずれかに前記分散データをＤＭＡ転送するように構成された第３の送信部と、
　前記第１の転送部によってＤＭＡ転送された第２の集計データを受信するように構成された第３の受信部と、
　前記第３の受信部が受信した第２の集計データを他のＧＰＵに送信するように構成された第４の送信部と、
　他のＧＰＵから送信された第２の集計データを受信するように構成された第４の受信部と、
　前記第３の受信部が受信した第２の集計データと前記第４の受信部が受信した第２の集計データとの和を重み毎に求めることにより、第３の集計データを生成するように構成された集計処理部と、
　前記第３の集計データに基づいて前記モデルを更新するように構成された更新部とを備え、
　前記第１の転送部は、１つの通信路に対応する前記第１の受信バッファに格納された分散データをこの通信路に対応する前記第１の送信バッファに転送し、１つの通信路に対応する前記第２の送信バッファに格納された第２の集計データをこの第２の集計データに対応するＧＰＵにＤＭＡ転送し、
　前記第２の転送部は、１つの通信路に対応する第２の受信バッファに格納された第２の集計データをこの通信路に対応する前記第２の送信バッファに転送し、
　前記監視部は、前記第１の送信バッファへのデータの格納と前記第２の受信バッファの空きとが、同一の通信路に対応する第１の送信バッファと第２の受信バッファとで起きたときに、この通信路に対応するチェックフラグをセットし、
　前記第１の送信部は、前記複数のノードのうち１番目のノードとして機能する場合に、自ノードを含む全てのノードで同一の通信路に対応する前記チェックフラグがセットされ、少なくとも１つのノードで別の通信路に対応するチェックフラグがセットされていないときに、前記同一の通信路に対応する前記第１の送信バッファに格納された前記分散データを第１の集計データとして、前記同一の通信路を介して次の番号のノードに送信し、
　前記加算部は、前記第１の受信部が他のノードから受信した第１の集計データの生成元のＧＰＵと同じ組のＧＰＵによって生成された分散データが前記第１の送信バッファに格納されている場合に、この分散データと前記第１の受信部が受信した第１の集計データとの和を重み毎に求めて前記更新後の第１の集計データを生成することを特徴とする分散深層学習システム。
　請求項１記載の分散深層学習システムにおいて、
　前記ネットワークに複数の通信路が設定され、
　各ノードは、
　前記複数のＧＰＵと、
　前記通信路と同数の前記第１の受信バッファと、
　１つの前記通信路あたり複数設けられた前記第１の送信バッファと、
　１つの前記通信路あたり複数設けられた前記第２の受信バッファと、
　前記通信路と同数の前記第２の送信バッファと、
　前記監視部と、
　前記第１、第２の送信部と、
　前記第１、第２の受信部と、
　前記加算部と、
　前記第１の転送部と、
　前記第２の転送部とを備え、
　各ＧＰＵは、
　前記複数の第１の受信バッファのうちビジーでない第１の受信バッファに前記分散データをＤＭＡ転送するように構成された第３の送信部と、
　前記第１の転送部によってＤＭＡ転送された第２の集計データを受信するように構成された第３の受信部と、
　前記第３の受信部が受信した第２の集計データに基づいて前記モデルを更新するように構成された更新部とを備え、
　前記第１の転送部は、１つの通信路に対応する前記第１の受信バッファに格納された分散データをこの通信路に対応する前記第１の送信バッファに転送し、１つの通信路に対応する前記第２の送信バッファに格納された第２の集計データをこの通信路に対応するＧＰＵにＤＭＡ転送し、
　前記第２の転送部は、１つの通信路に対応する第２の受信バッファに格納された第２の集計データをこの通信路に対応する前記第２の送信バッファに転送し、
　前記監視部は、前記第１の送信バッファへのデータの格納と前記第２の受信バッファの空きとが、同一の通信路に対応する第１の送信バッファと第２の受信バッファとで起きたときに、この通信路に対応するチェックフラグをセットし、
　前記第１の送信部は、前記複数のノードのうち１番目のノードとして機能する場合に、自ノードを含む全てのノードで全てのチェックフラグがセットされているときに、前記複数の第１の送信バッファに格納された分散データをそれぞれ第１の集計データとして、格納元の第１の送信バッファに対応する通信路を介して次の番号のノードに送信し、
　前記加算部は、前記複数の通信路に対応する前記複数の第１の送信バッファに格納された分散データと前記複数の通信路から前記第１の受信部が受信した第１の集計データとの和を重み毎に求めて前記更新後の第１の集計データを生成することを特徴とする分散深層学習システム。
　請求項１記載の分散深層学習システムにおいて、
　前記ネットワークに複数の通信路が設定され、
　各ノードは、
　前記複数のＧＰＵと、
　前記通信路と同数の前記第１の受信バッファと、
　１つの前記通信路あたり複数設けられた前記第１の送信バッファと、
　前記複数の通信路に共通に設けられた前記複数の第２の受信バッファと、
　前記複数の通信路に共通に設けられた前記第２の送信バッファと、
　前記監視部と、
　前記第１、第２の送信部と、
　前記第１、第２の受信部と、
　前記加算部と、
　前記第１の転送部と、
　前記第２の転送部とを備え、
　各ＧＰＵは、
　前記複数の第１の受信バッファのうちビジーでない第１の受信バッファに前記分散データをＤＭＡ転送するように構成された第３の送信部と、
　前記第１の転送部によってＤＭＡ転送された第２の集計データを受信するように構成された第３の受信部と、
　前記第３の受信部が受信した第２の集計データに基づいて前記モデルを更新するように構成された更新部とを備え、
　前記第１の転送部は、１つの通信路に対応する前記第１の受信バッファに格納された分散データをこの通信路に対応する前記第１の送信バッファに転送し、前記第２の送信バッファに格納された第２の集計データを前記複数のＧＰＵにＤＭＡ転送し、
　前記第２の転送部は、前記複数の第２の受信バッファのいずれかに格納された第２の集計データを前記第２の送信バッファに転送し、
　前記監視部は、前記第１の送信バッファへのデータの格納と前記第２の受信バッファの空きとが、同一の通信路に対応する第１の送信バッファと第２の受信バッファとで起きたときに、この通信路に対応するチェックフラグをセットし、
　前記第１の送信部は、前記複数のノードのうち１番目のノードとして機能する場合に、自ノードを含む全てのノードで全てのチェックフラグがセットされているときに、前記複数の第１の送信バッファに格納された分散データをそれぞれ第１の集計データとして、格納元の第１の送信バッファに対応する通信路を介して次の番号のノードに送信し、
　前記加算部は、前記複数の通信路に対応する前記複数の第１の送信バッファに格納された分散データと前記複数の通信路から前記第１の受信部が受信した第１の集計データとの和を重み毎に求めて前記更新後の第１の集計データを生成することを特徴とする分散深層学習システム。
　ネットワークを介して互いに接続された複数のノードを備え、
　各ノードは、
　学習対象のモデルの重み毎の分散データを生成するように構成された複数のＧＰＵと、
　前記ＧＰＵからの前記分散データを格納するように構成された複数の第１の受信バッファと、
　前記複数の第１の受信バッファから転送された複数の前記分散データの和を重み毎に求めて第１の集計データを生成するように構成された第１の加算部と、
　前記第１の集計データを格納するように構成された複数の第１の送信バッファと、
　他のノードから受信した集計データを格納するように構成された複数の第２の受信バッファと、
　前記第２の受信バッファから転送された前記集計データを格納するように構成された第２の送信バッファと、
　前記第１の送信バッファにデータが格納され、前記第２の受信バッファに空きがあるときに、チェックフラグをセットするように構成された監視部と、
　前記複数のノードのうち１番目のノードとして機能する場合に自ノードを含む全てのノードで前記チェックフラグがセットされたときに、前記第１の送信バッファに格納された第１の集計データを第２の集計データとして次の番号のノードに送信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、更新後の第２の集計データを次の番号のノードに送信するように構成された第１の送信部と、
　前記複数のノードのうち１番目を除くノードとして機能する場合に、他のノードから第２の集計データを受信するように構成された第１の受信部と、
　前記複数のノードのうち１番目を除くノードとして機能する場合に、前記第１の送信バッファに格納された第１の集計データと前記第１の受信部が受信した第２の集計データとの和を重み毎に求めて前記更新後の第２の集計データを生成するように構成された第２の加算部と、
　前記複数のノードのうち１番目のノードとして機能する場合に、前記更新後の第２の集計データを受信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、第３の集計データを受信するように構成された第２の受信部と、
　前記複数のノードのうち１番目のノードとして機能する場合に、前記第２の受信部が受信した第２の集計データを第３の集計データとして次の番号のノードに送信し、前記複数のノードのうち１番目を除くノードとして機能する場合に、前記第２の受信部が受信した第３の集計データを次の番号のノードに送信するように構成された第２の送信部と、
　前記第１の受信バッファに格納された分散データを前記第１の加算部に転送し、前記第２の送信バッファに格納された第３の集計データを前記複数のＧＰＵにＤＭＡ転送するように構成された第１の転送部と、
　前記第２の受信バッファに格納された第３の集計データを前記第２の送信バッファに転送するように構成された第２の転送部とを備え、
　前記複数のＧＰＵは、前記分散データを前記複数の第１の受信バッファにＤＭＡ転送し、前記第３の集計データに基づいて前記モデルを更新することを特徴とする分散深層学習システム。
　請求項６記載の分散深層学習システムにおいて、
　前記ネットワークに１つの通信路が設定され、
　各ノードは、
　前記複数のＧＰＵと、
　前記ＧＰＵと同数の前記第１の受信バッファと、
　前記複数の第１の受信バッファと、
　前記複数の第２の受信バッファと、
　前記通信路と同数の前記第２の送信バッファと、
　前記監視部と、
　前記第１、第２の送信部と、
　前記第１、第２の受信部と、
　前記加算部と、
　前記第１の転送部と、
　前記第２の転送部とを備え、
　各ＧＰＵは、
　前記複数の第１の受信バッファのうちビジーでない第１の受信バッファに前記分散データをＤＭＡ転送するように構成された第３の送信部と、
　前記第１の転送部によってＤＭＡ転送された第３の集計データを受信するように構成された第３の受信部と、
　前記第３の受信部が受信した第３の集計データに基づいて前記モデルを更新するように構成された更新部とを備え、
　前記第２の転送部は、前記複数の第２の受信バッファのいずれかに格納された第３の集計データを前記第２の送信バッファに転送し、
　前記監視部は、前記第１の送信バッファへのデータの格納と前記第２の受信バッファの空きとが、同一の通信路に対応する第１の送信バッファと第２の受信バッファとで起きたときに、この通信路に対応するチェックフラグをセットし、
　前記第２の加算部は、前記複数の第１の送信バッファのいずれかに格納された第１の集計データと前記通信路から前記第１の受信部が受信した第２の集計データとの和を重み毎に求めて前記更新後の第２の集計データを生成することを特徴とする分散深層学習システム。