WO2021111491A1

WO2021111491A1 - 分散深層学習システムおよび分散深層学習方法

Info

Publication number: WO2021111491A1
Application number: PCT/JP2019/046967
Authority: WO
Inventors: 勇輝有川; 顕至田仲; 伊藤　猛; 和彦寺田; 坂本　健
Original assignee: 日本電信電話株式会社
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2021-06-10
Also published as: JP7283577B2; JPWO2021111491A1; US20220398457A1

Abstract

分散深層学習システムは、通信ネットワークを介して互いに接続された複数の計算ノード（１）を備え、複数の計算ノード（１）の各々は、複数の計算ノード（１）の状態を示すＯＡＭパケットを受信する受信部（１２０）と、受信部（１２０）で受信されたＯＡＭパケットに、自ノードの演算部（１０）から部分演算結果が出力されたか否かを記録するＯＡＭ処理部（１２２）と、ＯＡＭ処理部（１２２）で記録されたＯＡＭパケットを他の計算ノード（１）へ送信する送信部（１２３）とを有するネットワーク処理部（１２）とを有し、ＯＡＭ処理部（１２２）は、ＯＡＭパケットに示される他の計算ノードの状態を契機として、送信部（１２３）に、記憶部（１１）に記憶された部分演算結果を他の計算ノード（１）へ送信させる。

Description

分散深層学習システムおよび分散深層学習方法

　本発明は、分散深層学習システムおよび分散深層学習方法に関し、特に、ネットワークで連携する複数の計算ノードで分散協調して実行する分散深層学習技術に関する。

　近年、様々な情報やデータに対する機械学習の活用により、サービスの高度化および付加価値の提供が盛んに行われている。その際の機械学習には大きな計算リソースが必要な場合が多い。特に、深層学習と呼ばれるニューラルネットワークを用いた機械学習においては、ニューラルネットワークの構成パラメータを最適化する工程である学習において、大量の学習データを処理する必要がある。この学習処理を高速化するために、複数の演算装置で並列処理することが１つの解決法である。

　例えば、非特許文献１には、４台の計算ノードと、インフィニバンドスイッチとがインフィニバンドネットワーク（InfiniBand network）を介して接続された分散深層学習システムが開示されている。各計算ノードには、それぞれ４台のＧＰＵ（Graphics Processing Unit）が搭載されている。非特許文献１に開示された分散深層学習システムでは、４台の計算ノードによって、学習演算を並列処理することによって高速化を図っている。

　また、非特許文献２には、８台のＧＰＵを搭載した計算ノード（ＧＰＵサーバ）とイーサネット（登録商標）スイッチとがイーサネットネットワークを介して接続された構成が開示されている。この非特許文献２には、計算ノードの数として、１台、２台、４台、８台、１６台、３２台、４４台用いた場合の例がそれぞれ開示されている。

　非特許文献２に開示されたシステム上では、分散同期確率的勾配降下法（Distributed synchronous SGD（Stochastic Gradient Descent））を用いて機械学習を行う。具体的には、以下の手順で機械学習が行われる。

　（１）学習データの一部を抜き出す。抜き出した学習データの集合をミニバッチと呼ぶ。
　（２）ミニバッチをＧＰＵの台数分に分けて、各ＧＰＵに割り当てる。
　（３）各ＧＰＵにおいて、（２）で割り当てられた学習データを入力した場合のニューラルネットワークからの出力値が、正解（「教師データ」と呼ぶ。）からどれだけ乖離しているかの指標となる損失関数Ｌ（ｗ）を求める。この損失関数を求める工程では、ニューラルネットワークの入力側の層から出力側の層に向かって順番に出力値を計算していくことから、この工程を順伝搬（forward propagation）と呼ぶ。

　（４）各ＧＰＵにおいて、（３）で求めた損失関数値に対するニューラルネットワークの各構成パラメータ（ニューラルネットワークの重み等）による偏微分値（勾配）を求める。この工程では、ニューラルネットワークの出力側の層から入力側の層に向かって順番に各層の構成パラメータに対する勾配を計算していくことから、この工程を逆伝搬（backpropagation）と呼ぶ。

　（５）ＧＰＵ毎に計算した勾配の平均を計算する。
　（６）各ＧＰＵにおいて、（５）で計算した勾配の平均値を用いて、確率的勾配降下法（SGD:Stochastic Gradient Descent）を用いて、損失関数Ｌ（ｗ）がより小さくなるように、ニューラルネットワークの各構成パラメータを更新する。確率的勾配降下法は、各構成パラメータの値を勾配の方向に微少量変更することにより、損失関数Ｌ（ｗ）を小さくするという計算処理である。この処理を繰り返すことによって、ニューラルネットワークは、損失関数Ｌ（ｗ）が小さい、すなわち、正解に近い出力をする精度の高いものに更新されていく。

　また、非特許文献３には、８台のＧＰＵを搭載した計算ノード１２８台がインフィニバンドネットワーク（InfiniBand network）を介して接続された構成を有する分散深層学習システムが開示されている。

　非特許文献１～３に開示されているいずれの従来の分散深層学習システムにおいても、計算ノード数が増えるにしたがい、学習速度が上がり、学習時間を短縮できることが示されている。この場合、各計算ノードで算出した勾配等のニューラルネットワーク構成パラメータの平均値を計算するため、これらの構成パラメータを計算ノード間で送受信することにより、平均値算出等の計算を行う必要がある。

　一方において、並列処理数を増やすために、ノード数を増やすと、必要な通信処理は急速に増大する。従来技術のように、計算ノード上で平均値算出等の演算処理やデータの送受信処理をソフトウェアで行う場合、通信処理に伴うオーバヘッドが大きくなり、学習効率を十分に上げることが難しくなるという課題があった。

　例えば、非特許文献３には、学習処理を１００サイクル行うのにかかる所要時間と、このうちの通信にかかる時間と、ＧＰＵ数との関係が開示されている。この関係によると、ＧＰＵ数が増えるにしたがい通信にかかる時間が増加しており、特にＧＰＵ数が５１２以上のところで急激に増加している。

Rengan Xu and Nishanth Dandapanthu.，"Deep Learning Performance with P100 GPUs"，Dell EMC HPC Innovation Lab. October 2016，インターネット＜http://ja.community.dell.com/techcenter/m/mediagallery/3765/download＞ Priya Goyal，Piotr Dollar，Ross Girshick，Pieter Noordhuis，Lukasz Wesolowski，Aapo Kyrola，Andrew Tulloch，Yangqing Jia，Kaiming He，"Accurate，Large Minibatch SGD:Training ImageNet in 1 Hour"，米国コーネル大学ライブラリー，arXiv:1706.02677，2017，インターネット＜https://arxiv.org/abs/1706.02677＞ Takuya Akiba，Shuji Suzuki，Keisuke Fukuda，"Extremely Large Minibatch SGD:Training ResNet-50 on ImageNet in 15 Minutes"，米国コーネル大学ライブラリー，arXiv:1711.04325，2017，インターネット＜https://arxiv.org/abs/1711.04325＞

　しかし、従来の分散深層学習システムでは、通信ネットワークに接続される計算ノードの数が増加すると、計算ノード間での協調処理の高速化が抑制される問題があった。

　本発明は、上述した課題を解決するためになされたものであり、通信ネットワークに接続される計算ノードの数が増加しても、計算ノード間での協調処理を高速に行うことを目的とする。

　上述した課題を解決するために、本発明に係る分散深層学習システムは、通信ネットワークを介して互いに接続された複数の計算ノードを備え、前記複数の計算ノードの各々は、ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算装置と、前記演算装置から出力された前記第１演算結果を記憶する第１記憶装置と、前記第１記憶装置に記憶された前記第１演算結果を、他の計算ノードに送信する第１送信回路と、他の計算ノードからの第１演算結果を受信する第１受信回路と、前記第１記憶装置に記憶されている前記第１演算結果と、前記第１受信回路で受信された前記他の計算ノードからの第１演算結果との和である第２演算結果を求める加算回路と、前記第２演算結果を、他の計算ノードへ送信する第２送信回路と、他の計算ノードからの第２演算結果を受信する第２受信回路と、前記複数の計算ノードの状態を示す通知パケットを受信する第３受信回路と、前記第３受信回路で受信された前記通知パケットに、自ノードの前記演算装置から前記第１演算結果が出力されたか否かを記録するＯＡＭ処理回路と、前記ＯＡＭ処理回路で記録された前記通知パケットを他の計算ノードへ送信する第３送信回路と、を有するネットワーク処理装置とを備え、前記ＯＡＭ処理回路は、前記通知パケットに示される他の計算ノードの前記状態を契機として、前記第１送信回路に、前記第１記憶装置に記憶された前記第１演算結果を他の計算ノードへ送信させることを特徴とする。

　上述した課題を解決するために、本発明に係る分散深層学習システムは、通信ネットワークを介して互いに接続された複数の計算ノードと、集約ノードと、を備え、前記複数の計算ノードの各々は、ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算装置と、前記演算装置から出力された前記第１演算結果を、前記集約ノードに送信する第１送信回路と、前記集約ノードから、前記複数の計算ノードで計算された第１演算結果の和である第２演算結果を受信する第１受信回路と、前記複数の計算ノードの状態を示す通知パケットを受信する第２受信回路と、前記第２受信回路で受信された前記通知パケットに、自ノードの前記演算装置から前記第１演算結果が出力されたか否かを記録する第１のＯＡＭ処理回路と、前記第１のＯＡＭ処理回路で記録された前記通知パケットを前記集約ノードへ送信する第２送信回路とを有する第１ネットワーク処理装置と、前記第１受信回路で受信された前記第２演算結果を記憶する第１記憶装置とを有し、前記第１のＯＡＭ処理回路は、前記集約ノードからの指示に基づいて、前記第１送信回路に、前記第１記憶装置に記憶された前記第１演算結果を前記集約ノードへ送信させ、前記集約ノードは、前記通知パケットを生成する第２のＯＡＭ処理回路と、生成された前記通知パケットを前記複数の計算ノードへ送信する第３送信回路と、前記複数の計算ノードの各々の前記第１のＯＡＭ処理回路で記録された前記通知パケットを、前記複数の計算ノードから受信する第３受信回路と、前記複数の計算ノードからの第１演算結果を受信する第４受信回路と、前記第４受信回路で受信された第１演算結果の和である前記第２演算結果を求める加算回路と、前記加算回路で求められた前記第２演算結果を、前記複数の計算ノードへ送信する第４送信回路とを有する第２ネットワーク処理装置とを有し、前記第２のＯＡＭ処理回路は、前記通知パケットが示す前記複数の計算ノードの前記状態を契機として、前記複数の計算ノードの前記第１演算結果を集約するために、前記複数の計算ノードに対して前記第１演算結果を自ノードへ送信することを指示することを特徴とする。

　上述した課題を解決するために、本発明に係る分散深層学習方法は、通信ネットワークを介して互いに接続された複数の計算ノードを備える分散深層学習システムによって実行される分散深層学習方法であって、前記複数の計算ノードの各々は、ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算ステップと、前記演算ステップで出力された前記第１演算結果を第１記憶装置に記憶する第１記憶ステップと、前記第１記憶装置に記憶された前記第１演算結果を、他の計算ノードに送信する第１送信ステップと、他の計算ノードからの第１演算結果を受信する第１受信ステップと、前記第１記憶装置に記憶されている前記第１演算結果と、前記第１受信ステップで受信された前記他の計算ノードからの第１演算結果との和である第２演算結果を求める加算ステップと、前記第２演算結果を、他の計算ノードへ送信する第２送信ステップと、他の計算ノードからの第２演算結果を受信する第２受信ステップと、前記複数の計算ノードの状態を示す通知パケットを受信する第３受信ステップと、前記第３受信ステップで受信された前記通知パケットに、自ノードが前記演算ステップで前記第１演算結果を出力したか否かを記録するＯＡＭ処理ステップと、前記ＯＡＭ処理ステップで記録された前記通知パケットを他の計算ノードへ送信する第３送信ステップとを有するネットワーク処理ステップとを備え、前記ＯＡＭ処理ステップは、前記通知パケットに示される他の計算ノードの前記状態を契機として、前記第１送信ステップで、前記第１記憶装置に記憶された前記第１演算結果を他の計算ノードへ送信させることを特徴とする。

　上述した課題を解決するために、本発明に係る分散深層学習方法は、通信ネットワークを介して互いに接続された複数の計算ノードと、集約ノードと、を備える分散深層学習システムによって実行される分散深層学習方法であって、前記複数の計算ノードの各々は、ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算ステップと、前記演算ステップで出力された前記第１演算結果を、前記集約ノードに送信する第１送信ステップと、前記集約ノードから、前記複数の計算ノードで計算された第１演算結果の和である第２演算結果を受信する第１受信ステップと、前記複数の計算ノードの状態を示す通知パケットを受信する第２受信ステップと、前記第２受信ステップで受信された前記通知パケットに、自ノードが前記演算ステップで前記第１演算結果を出力したか否かを記録する第１のＯＡＭ処理ステップと、前記第１のＯＡＭ処理ステップで記録された前記通知パケットを前記集約ノードへ送信する第２送信ステップとを有する第１ネットワーク処理ステップと、前記第１受信ステップで受信された前記第２演算結果を第１記憶装置に記憶する第１記憶ステップとを有し、前記第１のＯＡＭ処理ステップは、前記集約ノードからの指示に基づいて、前記第１送信ステップで、前記第１記憶装置に記憶された前記第１演算結果を前記集約ノードへ送信させ、前記集約ノードは、前記通知パケットを生成する第２のＯＡＭ処理ステップと、生成された前記通知パケットを前記複数の計算ノードへ送信する第３送信ステップと、前記複数の計算ノードの各々の前記第１のＯＡＭ処理ステップで記録された前記通知パケットを、前記複数の計算ノードから受信する第３受信ステップと、前記複数の計算ノードからの第１演算結果を受信する第４受信ステップと、前記第４受信ステップで受信された第１演算結果の和である前記第２演算結果を求める加算ステップと、前記加算ステップで求められた前記第２演算結果を、前記複数の計算ノードへ送信する第４送信ステップとを有する第２ネットワーク処理ステップとを有し、前記第２のＯＡＭ処理ステップは、前記通知パケットが示す前記複数の計算ノードの前記状態を契機として、前記複数の計算ノードの前記第１演算結果を集約するために、前記複数の計算ノードに対して前記第１演算結果を自ノードへ送信することを指示することを特徴とする。

　本発明によれば、通信ネットワークを介して互いに接続された複数の計算ノードの各々は、複数の計算ノードの状態を通知する通知パケットを受信し、受信した通知パケットに自ノードの演算装置から第１演算結果が出力されたか否かを記録して、記録した通知パケットを他の計算ノードへ送信する。そのため、通信ネットワークに接続される計算ノードの数が増加しても、計算ノード間での協調処理をより高速に行うことができる。

図１は、本発明の第１の実施の形態に係る分散深層学習システムの構成を示すブロック図である。図２は、ニューラルネットワークの学習処理を説明するための図である。図３は、隠れ層の計算例を説明するための図である。図４は、隠れ層の計算例を説明するための図である。図５は、複数の計算ノードの記憶部に分割して記憶される重みパラメータを説明するための図である。図６は、第１の実施の形態に係る計算ノードの構成を示すブロック図である。図７は、第１の実施の形態に係るＯＡＭパケットの構成の一例を示す模式図である。図８は、従来例に係る計算ノードの構成例を示すブロック図である。図９は、第１の実施の形態に係る計算ノードのハードウェア構成の一例を示すブロック図である。図１０は、第１の実施の形態に係る計算ノードの動作を説明するためのフローチャートである。図１１は、第１の実施の形態に係る分散深層学習システムの動作を説明するためのシーケンス図である。図１２は、第１の実施の形態に係る分散深層学習システムの動作を説明するためのシーケンス図である。図１３は、第２の実施の形態に係る分散深層学習システムの動作を説明するためのシーケンス図である。図１４は、第３の実施の形態に係る分散深層学習システムの構成を示すブロック図である。図１５は、第３の実施の形態に係る集約ノードの構成を示すブロック図である。図１６は、第３の実施の形態に係る集約ノードのハードウェア構成の一例を示すブロック図である。図１７は、第３の実施の形態に係る分散深層学習システムの動作を説明するためのシーケンス図である。図１８は、第３の実施の形態に係る分散深層学習システムの動作を説明するためのシーケンス図である。

　以下、本発明の好適な実施の形態について、図１から図１８を参照して詳細に説明する。

　［発明の概要］
　はじめに、本発明の実施の形態に係る分散深層学習システムの概要について図１から図５を参照して説明する。図１に示すように、本発明の実施の形態に係る分散深層学習システムは、通信ネットワークを介して接続された、複数の計算ノード１－１～１－３を備える。複数の計算ノード１－１～１－３の各々は、ニューラルネットワークの演算処理に含まれる行列積の一部を計算し、自ノードで計算した行列積の計算結果と、他の計算ノード１から受信した行列積の計算結果との和を求める。さらに、複数の計算ノード１－１～１－３の各々は、求めた行列積の計算結果の和を他の計算ノード１へ分配する。

　本実施の形態に係る分散深層学習システムでは、複数の計算ノード１－１～１－３の各々で行列積の一部が計算されたか否かの情報を含む複数の計算ノード１－１～１－３の状態を示す通知パケットを計算ノード１－１～１－３で共有する。複数の計算ノード１－１～１－３の各々は、通知パケットに示される計算ノード１－１～１－３の状態を契機として、自ノードで計算した行列積の計算結果と、他の計算ノード１から受信した行列積の計算結果との和を求める。本実施の形態では、通知パケットとして通信ネットワークの運用、管理、および保守に用いられるＯｐｅｒａｔｉｏｎ　Ａｄｍｉｎｉｓｔｒａｔｉｏｎ　Ｍａｉｎｔｅｎａｎｃｅ（ＯＡＭ）パケットを利用する。

　このように、本実施の形態に係る分散深層学習システムは、ＯＡＭパケットを用いた同期方法により計算ノード１－１～１－３の各々で分散して計算した行列積の一部の加算処理を実行し、加算結果を複数の計算ノード１－１～１－３に分配する。また、本実施の形態に係る分散深層学習システムは、複数の計算ノード１－１～１－３の各々が、ＯＡＭパケットを処理するＯＡＭ処理回路を、データの送受信および通信を制御するネットワーク処理装置に備えることもその特徴の一つである。

　なお、以下の説明において、計算ノード１－１～１－３を総称して計算ノード１ということがある。また、図１を含む各図では、説明の簡単のため、分散深層学習システムが３台の計算ノード１－１～１－３を備える場合について説明しているが、計算ノード１は、Ｎ（Ｎ≧２）個の任意の台数を用いることができる。

　図２は、本発明に係る分散深層学習システムを用いて行うニューラルネットワークの学習処理の一例を示している。図３は、本発明に係る分散深層学習システムを用いて行うニューラルネットワークの学習処理での隠れ層の計算例を示している。図４は、本発明に係る分散深層学習システムを用いて行うニューラルネットワークの学習処理での隠れ層の計算を複数の計算ノードに分割して実施する例を示している。図５は、本発明の分散深層学習システムを用いてニューラルネットワークの学習処理を行う際の重みパラメータを複数の計算ノード１に分割して記憶している例を示している。

　本発明の分散深層学習システムは、深層学習における学習データを用いてニューラルネットワークの重みの値を学習するトレーニングを、分散深層学習システム全体で行う。具体的には、学習ノードである各計算ノード１は、学習データとニューラルネットワークとを用いて、ニューラルネットワークの所定の演算処理を行い、重みデータの勾配を計算する。この所定の演算が完了した時点では、複数の計算ノード１の各々は互いに異なる重みデータの勾配を有している。

　例えば、通信ネットワークに接続されたコンピューティングインタコネクト装置などでも実現されるネットワーク処理装置は、重みデータの勾配を集約し、集約したデータの平均化処理を行い、再度各計算ノード１に分配する。各計算ノード１は、平均化された重みデータの勾配を用いて、再度学習データと、ニューラルネットワークとを用いて、ニューラルネットワークの所定の演算処理を行う。この処理を繰り返すことで、分散深層学習システムは学習済みのニューラルネットワークモデルを取得する。

　計算ノード１は、ソフトウェア的に構築された数学モデルであるニューラルネットワークの出力値を計算し、さらに、学習データに応じてニューラルネットワークの構成パラメータを更新して出力値の精度を向上させていく学習機能をもつ。

　ニューラルネットワークは、各計算ノード１内に構築される。計算ノード１の実現方法としては、ＣＰＵやＧＰＵ上のソフトウェアで実現してもよいし、ＦＰＧＡ（Field Programmable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit）に形成したＬＳＩ（Large Scale Integration）回路で実現してもよい。なお、計算ノード１のハードウェア構成の具体的な例については後述する。

　図２では、分散深層学習システムが備える３台の計算ノード１－１～１－３を用いて、入力ｘ_１～ｘ_６に対して、隠れ層（ｈ_１～ｈ_５）を計算することにより、出力ｙ_１～ｙ_６を求める場合を例示している。図２の例では、ニューラルネットワークのモデルを複数の計算ノード１に分割するモデル並列法を示している。一般に、本手法は、１台の計算ノード１に重みパラメータが収まらないような大規模なニューラルネットワークを学習する際に採用される。

　図３に示すように、隠れ層の出力を求める場合、入力ｘと隠れ層ｈとの関係の強弱を表現するパラメータとして重み（ｗ）があり、入力ｘと重みｗとの積和演算を行うことで、隠れ層ｈの出力を求める。例えば、隠れ層ｈ_２の出力を求める場合、入力ｘ_１～ｘ_６と重みｗ_１２～ｗ_６２との積和演算を行うことで、隠れ層ｈ_２の出力を得る。

　先に述べたように、ニューラルネットワークのモデルを複数の計算ノード１に分割するモデル並列法を用いた場合、具体的には、図４に示すように、計算ノード１－１と計算ノード１－２に跨って隠れ層ｈ_２の出力が計算される。各々の計算ノード１－１、１－２で計算された結果を加算することで、隠れ層ｈ_２の出力が計算される。このとき、各々の計算ノード１にて計算した結果を加算するために、集団通信が実施される。本発明では、この集団通信を高速化することを目的としている。

　本明細書では、各計算ノード１で計算されたニューラルネットワークの演算処理に含まれる行列積の一部の計算結果を「部分演算結果」（第１演算結果）と呼び、部分演算結果の和を「全体演算結果」（第２演算結果）と呼ぶ。

　同様に、計算ノード１－２と計算ノード１－３に跨って隠れ層ｈ_４の出力が計算される。また、隠れ層ｈ_１、ｈ_３、ｈ_５の出力については、複数の計算ノード１を跨ぐことなく計算が完了される。

　図５は、複数の計算ノード１－１～１－３にて保持される重みパラメータｗを示している。各計算ノード１－１～１－３で保持することができる重みパラメータｗの数は、各計算ノード１－１～１－３が具備する使用可能なメモリ容量によって決まる。そのため、ニューラルネットワークのモデルサイズが大きくなると、重みパラメータｗの数も多くなり、各計算ノード１－１～１－３にてニューラルネットワーク全体の重みパラメータｗを保持できなくなる場合がある。この場合、図５に示すように、学習対象のニューラルネットワークの重みパラメータｗ_１１～ｗ_６５が各計算ノード１－１～１－３に分割して保持される。

　［第１の実施の形態］
　次に、本発明の第１の実施の形態に係る分散深層学習システムについて説明する。
　図１に示すように、分散深層学習システムは、複数の計算ノード１－１～１－３を備える。複数の計算ノード１－１～１－３は、リング状の通信ネットワークで接続されている。また、本実施の形態に係る複数の計算ノード１－１～１－３は、双方向に通信可能な通信ネットワークで接続することができる。

　［計算ノードの機能ブロック］
　各計算ノード１－１～１－３は、図１および図６に示すように、演算部（演算装置）１０、記憶部（第１記憶装置、第２記憶装置）１１、およびネットワーク処理部（ネットワーク処理装置）１２を備える。

　演算部１０は、ニューラルネットワークの行列積の一部分を計算して部分演算結果を出力する。演算部１０は、図４および図５で説明したように、自ノードが保持するニューラルネットワークの重みパラメータｗと、入力ｘまたは隠れ層ｈの出力との行列積を計算する。隠れ層ｈの出力は、記憶部１１に保持されている全体演算結果１１１であり、他の計算ノード１から共有される。

　記憶部１１は、部分演算結果（第１記憶装置）１１０、および全体演算結果（第２記憶装置）１１１を保持する領域を有する。また、記憶部１１は、ニューラルネットワークの重みパラメータｗのうち一部の重みパラメータｗを保持している。

　部分演算結果１１０には、演算部１０から出力された部分演算結果が記憶されている。

　全体演算結果１１１には、自ノードで求められた全体演算結果、および他の計算ノード１から受信された全体演算結果が記憶される。

　ネットワーク処理部１２は、受信部（第１受信回路、第２受信回路、第３受信回路）１２０、加算部（加算回路）１２１、ＯＡＭ処理部（ＯＡＭ処理回路）１２２、および送信部（第１送信回路、第２送信回路、第３送信回路）１２３を備える。

　受信部１２０は、他の計算ノード１からの部分演算結果を、通信ネットワークを介して受信する。また、受信部１２０は、他の計算ノード１からの全体演算結果を受信する。また、受信部１２０は、複数の計算ノード１－１～１－３で共有される計算ノード１－１～１－３の状態を示すＯＡＭパケットを受信する。例えば、受信部１２０は、任意に設定された他の計算ノード１が起点となって発行したＯＡＭパケットを受信することができる。

　加算部１２１は、受信部１２０で受信された他の計算ノード１からの部分演算結果と、自ノードで計算した部分演算結果とを加算して全体演算結果を求める。加算部１２１は、例えば、論理回路を用いた加算回路で構成することができる。加算部１２１で求められた全体演算結果は、記憶部１１に記憶される。

　ＯＡＭ処理部１２２は、受信部１２０で受信されたＯＡＭパケットに、自ノードの演算部１０で部分演算結果が出力されているか否かを記録する。また、ＯＡＭ処理部１２２は、自ノードが他の計算ノード１を制御するマスターノードとして設定された場合に、ＯＡＭパケットを一定周期で生成し、他の計算ノード１へ送信する。

　ＯＡＭとは、一般に、Ｅｔｈｅｒｎｅｔの運用、管理、および保守を支援する機能を含み、ネットワークの設置、監視などを行うプロトコルとして用いられる。例えば、ＩＥＥＥ、ＩＴＵ－Ｔ、やＭＥＦによって標準化されたプロトコル、あるいはベンダー独自のプロトコルなどが含まれる。

　例えば、ＯＡＭ処理部１２２は、自ノードの演算部１０で部分演算の結果が算出されている場合に、ＯＡＭパケットの所定のビットの値を「１」と設定し、フラグを付与する。

　また、ＯＡＭ処理部１２２は、受信部１２０で受信された他の計算ノード１からのＯＡＭパケットに示される他の計算ノード１の状態を契機に、送信部１２３に対して、自ノードで計算された部分演算結果を他の計算ノード１へ送信させる。例えば、ＯＡＭ処理部１２２は、ＯＡＭパケットのフラグの値から、他の計算ノード１の全てにおいて部分演算結果が出力されていることを検知しときに、同期が完了したと判断することができる。

　図７は、本実施の形態に係るＯＡＭパケットの構造の一例を示す模式図である。図７の（ａ）および図７の（ｂ）に示すように、ＯＡＭパケットは、各ビットが各計算ノード１の部分演算の完了または未完了の状態を示すフラグＦ（Ｆ１，Ｆ２，・・・，ＦＮ（Ｎ≧２））から構成される。図７の（ａ）に示すＯＡＭパケットは、例えば、複数の計算ノード１のうちの任意の計算ノード１がマスターノードとなって生成される。

　この場合、スレーブノードとなった計算ノード１は、自ノードでの部分演算が完了している場合には、受信したＯＡＭパケットの自ノードのビット位置に「完了」を示す値「１」を設定する。図７の（ｂ）に示すＯＡＭパケットは、フラグＦ２の値が「１」であり、計算ノード１－１，・・・，１－Ｎのうち、スレーブノードである２番目の計算ノード１－２での部分演算が完了したことが示されている。

　送信部１２３は、記憶部１１に記憶されている自ノードの演算部１０で計算された部分演算結果を、通信ネットワークを介して他の計算ノード１に送信する。また、送信部１２３は、加算部１２１で求められた全体演算結果を、通信ネットワークを介して他の計算ノード１に分配する。さらに、送信部１２３は、ＯＡＭ処理部１２２で処理されたＯＡＭパケットを他の計算ノード１に送信する。

　なお、複数の計算ノード１－１～１－３の各々は、同様の機能構成を有する。

　ここで、本実施の形態に係る分散深層学習システムが備える計算ノード１の構成と、図８に示す、一般的な分散深層学習システムが備える計算ノード１００の構成例とを比較して説明する。

　図８に示す計算ノード１００は、演算部１０００、記憶部１１００、およびネットワーク処理部１２００を備える。図１および図６で説明したように、本実施の形態の計算ノード１は、ＯＡＭパケットの処理を行うＯＡＭ処理部１２２と、ネットワーク処理部１２が他の計算ノード１から受信した部分演算結果と自ノードで計算した部分演算結果との和を求める加算部１２１とを備える。しかし、図８に示す一般的な計算ノード１００は、演算部１０００が加算部１２２１を備え、また、ＯＡＭ処理部１２２に対応する構成を有していない。

　また、図８に示す計算ノード１００では、演算部１０００に設けられた加算部１２２１は、全体演算結果を求めるために記憶部１１００を構成するメモリに対してメモリアクセスを行う時間が加算される。このように、複数の計算ノード１００を有する分散深層学習システムでは、各計算ノード１００の演算部１０００で全体演算の結果を求める必要がある。そのため、全体の処理時間も本実施の形態の構成と比較して長くなる。

　このように、本実施の形態に係る計算ノード１－１～１－３の各々が備えるネットワーク処理部１２はＯＡＭ処理部１２２を有し、全ての計算ノード１－１～１－３で共有する計算ノード１の状態を通知するＯＡＭパケットを処理する。各計算ノード１は、ＯＡＭパケットのフラグの値から、全体演算に必要となる他の計算ノード１での部分演算が完了していること、すなわち同期が完了したことを検知する。

　計算ノード１は、全体演算の実行および全体演算結果の分配を含む集団通信を行う特定の計算ノード１のみが部分演算を完了していれば、集団通信を開始するので、各計算ノード１の演算部１０で全体演算を行う必要がなくなり、それに付随するメモリのリードライトを削減できる。さらに、他の計算ノード１から受信した部分演算結果と自ノードで計算した部分演算結果との和をネットワーク処理部１２に設けられた加算部１２１で計算するため、図８の計算ノード１００で生ずる追加のメモリアクセス時間が生じない。

　［計算ノードのハードウェア構成］
　次に、上述した機能を有する計算ノード１を実現するハードウェア構成の一例を、図９のブロック図を参照して説明する。

　図９に示すように、計算ノード１は、例えば、ＣＰＵ１０１、メインメモリ１０２、ＧＰＵ１０３、ＮＩＣ１０４、ストレージ１０５、およびＩ／Ｏ１０６を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。

　メインメモリ１０２には、ＣＰＵ１０１およびＧＰＵ１０３が各種制御や演算を行うためのプログラムが予め格納されている。ＣＰＵ１０１、ＧＰＵ１０３、およびメインメモリ１０２によって、図１および図６に示した演算部１０、加算部１２１、ＯＡＭ処理部１２２など、計算ノード１の各機能が実現される。

　ＮＩＣ１０４は、計算ノード１間や各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。ＮＩＣ１０４は図６の受信部１２０および送信部１２３を実現する。ＮＩＣ１０４は、例えば、１００　Ｇｂｉｔ　Ｅｔｈｅｒｎｅｔ（登録商標）での通信に対応したデバイス間のインターフェースを用いることができる。

　ストレージ１０５は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。ストレージ１０５には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。ストレージ１０５は、図１および図６で説明した記憶部１１を実現する。

　ストレージ１０５は、計算ノード１が行列積を含むニューラルネットワークの演算、ＯＡＭパケットの処理などの分散深層学習処理を実行するためのプログラムを格納するプログラム格納領域を有する。ストレージ１０５は、例えば、上述したデータやプログラムやなどをバックアップするためのバックアップ領域などを有していてもよい。

　Ｉ／Ｏ１０６は、外部機器からの信号を入力したり、外部機器へ信号を出力したりする
ネットワークポートにより構成される。ネットワークポートは、例えば、２つ以上のネットワークポートを用いることができる。

　加算回路１０７は、例えば、基本論理ゲートによって構成される加算回路などを用いることができる。加算回路１０７は、図６で説明した加算部１２１を実現する。なお、本実施の形態では、加算回路１０７は、ＮＩＣ１０４およびＩ／Ｏ１０６を含むネットワーク処理装置に設けられる。また、ＣＰＵ１０１、メインメモリ１０２、ＧＰＵ１０３、ストレージ１０５によって演算装置が構成される。

　ＯＡＭ処理回路１０８は、例えば、基本論理ゲートを組み合わせた複合論理ゲート等で実現される。あるいは、ＯＡＭ処理回路１０８は、ＡＳＩＣなどの専用の回路や、電気回路とプログラムの組み合わせとして実現することができる。本実施の形態では、ＯＡＭ処理回路１０８は、加算回路１０７と同様に、ＮＩＣ１０４およびＩ／Ｏ１０６を含む伝送路側のネットワーク処理装置に設けられる。

　本実施の形態に係る通信ネットワークＮＷは、例えば、１００Ｇｂｉｔ　Ｅｔｈｅｒｎｅｔなど広帯域のネットワークが用いられる。

　［計算ノードの動作］
　まず、上述した構成を有する各計算ノード１の動作について、図１０のフローチャートを用いて説明する。以下において、記憶部１１には、予めニューラルネットワークモデル、入力ｘ、重みパラメータｗの一部分がロードされている。

　まず、演算部１０は、ニューラルネットワークの学習における行列積の一部を計算する（ステップＳ１）。

　次に、演算部１０によって求められた部分演算結果が記憶部１１に記憶されると（ステップＳ２：ＹＥＳ）、ＯＡＭ処理部１２２は、受信部１２０で他の計算ノード１から受信されたＯＡＭパケットのフラグを立てる（ステップＳ３）。一方、自ノードで計算した部分演算結果が得られていない場合には（ステップＳ２：ＮＯ）、ステップＳ１での演算が実行される（ステップＳ１）。この場合、ＯＡＭ処理部１２２は、受信部１２０で他の計算ノード１からＯＡＭパケットが受信されてもフラグを立てずに、他の計算ノード１へ転送する。

　次に、ＯＡＭ処理部１２２は、受信部１２０で受信されたＯＡＭパケットに示されるそれぞれの計算ノード１のフラグの値から、自ノードの集団通信に関わる他の計算ノード１の部分演算が完了したこと検知し、同期が完了したことを契機として（ステップＳ４：ＹＥＳ）、ネットワーク処理部１２は、集団通信を開始する（ステップＳ５）。

　例えば、ＯＡＭ処理部１２２は、マスターノードとして設定されている計算ノード１がからの集団通信の開始指示に基づいて、集団通信を開始することができる。

　上述したように、分散深層学習システムは、ＯＡＭパケットを用いた同期システムであり、例えば、全ての計算ノード１－１～１－３での部分演算が完了したことを示すＯＡＭパケットのフラグの状態を契機に、自ノードで求めた部分演算結果を集団通信して他の計算ノード１に共有することができる。この場合、計算ノード１－１～１－３は、一定周期で受信されるＯＡＭパケットのフラグの値が、全ての計算ノード１－１～１－３で部分演算が完了したことを示すまで、自ノードで計算された部分演算結果を記憶部１１において保持する。

　なお、同期システムの場合であっても、必ずしも全ての計算ノード１－１～１－３での演算部１０による計算の完了を待つ必要はなく、例えば、ＯＡＭパケットの状態より、分散深層学習システムを構成する一部の計算ノード１における部分演算が完了したことを契機とすることもある。

　例えば、図２から図５の例では、計算ノード１－１および計算ノード１－２の計算が完了した時点でｈ_２を求めることができるため、計算ノード１－３の計算完了を待たずとも集団通信を開始することもある。

　ステップＳ５で、ネットワーク処理部１２が集団通信を開始すると、送信部１２３は、自ノードで計算した部分演算結果を、通信ネットワークを介して他の計算ノード１へ送信する。また、受信部１２０は、他の計算ノード１において計算された部分演算結果を受信する。このとき、図１に示すように、送信部１２３は、予め決められた他の計算ノード１を送信先として部分演算結果を送信する。また、受信部１２０は、ネットワーク接続されている予め決められている他の計算ノード１から部分演算結果を受信する。

　次に、加算部１２１は、自ノードで求めた部分演算結果と、他の計算ノード１から受信した部分演算結果との和である全体演算結果を求める（ステップＳ６）。

　次に、ネットワーク処理部１２は、ステップＳ６で求められた全体演算結果を、他の計算ノード１に分配する（ステップＳ７）。具体的には、送信部１２３が、加算部１２１によって求められた全体演算結果を、通信ネットワークを介して他の計算ノード１へ送信する。その後、複数の計算ノード１－１～１－３により計算された部分演算結果の和である全体演算結果は記憶部１１に記憶される。

　［分散深層学習システムの動作］
　次に、分散深層学習システムの動作について、図１１のシーケンス図を参照して説明する。以下において、計算ノード１－１がＯＡＭパケットの一定周期での発行、および集団通信の開始を指示するマスターノードであり、計算ノード１－２、１－３がスレーブノードである場合を例に挙げて説明する。

　図５で説明したように、計算ノード１－１は、入力ｘ_１～ｘ_４と隠れ層ｈ_２との結合を示す重みパラメータｗ_１２～ｗ_４２を保持している。一方、計算ノード１－２は、その他の入力ｘ_５、ｘ_６と隠れ層ｈ_２との重みパラメータｗ_５２、ｗ_６２を保持している。そのため、計算ノード１－１、１－２の部分演算が完了することで、隠れ層ｈ_２の出力を求める全体演算を実行することができる。

　同様に、図５で説明したように、計算ノード１－２は、入力ｘ_１～ｘ_２と隠れ層ｈ_４との結合を示す重みパラメータｗ_１４～ｗ_２４を保持している。一方、計算ノード１－３は、その他の入力ｘ_３～ｘ_６と隠れ層ｈ_４との重みパラメータｗ_３４～ｗ_６４を保持している。このことから、計算ノード１－２、１－３の部分演算が完了することで、隠れ層ｈ_４の出力を求める全体演算を実行することができる。

　図１１に示すように、計算ノード１－１は、ＯＡＭ処理部１２２でＯＡＭパケットを生成し、生成したＯＡＭパケットを送信部１２３から他の計算ノード１－２、１－３に送信する（ステップＳ１００）。計算ノード１－１が生成し発行したＯＡＭパケットは、例えば、計算ノード１－２、１－３の順に転送される。次に、計算ノード１－１は自ノードの演算部１０での部分演算が完了すると（ステップＳ１０１）、ＯＡＭ処理部１２２は、ＯＡＭパケットの所定ビットのフラグを立てる（ステップＳ１０２）。計算ノード１－１の送信部１２３は、フラグを立てたＯＡＭパケットを、隣接する計算ノード１－２へ送信する。

　その後、計算ノード１－２は自ノードでの部分演算を完了する（ステップＳ１０３）。計算ノード１－２において、部分演算結果が記憶部１１で保持される。次に、計算ノード１－２のＯＡＭ処理部１２２は、計算ノード１－１より送られてきたＯＡＭパケットの所定のビットに、自ノードでの部分演算が完了していることを示すフラグを立てる（ステップＳ１０４）。計算ノード１－２は、送信部１２３から、フラグを立てたＯＡＭパケットを計算ノード１－３へ送る。このときのＯＡＭパケットは、計算ノード１－１および計算ノード１－２での部分演算が完了していることを示すフラグが立っている。

　その後、マスターノードである計算ノード１－１のＯＡＭ処理部１２２は、戻ってきたＯＡＭパケットのフラグの状態から、計算ノード１－１、１－２間の集団通信の開始を指示する（ステップＳ１０５）。計算ノード１－２が指示を受信すると、例えば、計算ノード１－２は自ノードで求めた部分演算結果を送信部１２３から計算ノード１－１へ送信し、計算ノード１－１は加算部１２１において自ノードおよび計算ノード１－２での部分演算結果を足し合わせて全体演算を行う。計算ノード１－１は、全体演算の結果を他の計算ノード１－２、１－３へ分配する。

　その後、マスターノードである計算ノード１－１のＯＡＭ処理部１２２は、さらにＯＡＭパケットを他の計算ノード１－２、１－３に送信する。次に、計算ノード１－３の演算部１０は、自ノードでの部分演算を完了する（ステップＳ１０６）。計算ノード１－３は、記憶部１１に部分演算結果を保持する。その後、計算ノード１－３は、ＯＡＭパケットを受信すると、ＯＡＭ処理部１２２において、自ノードでの部分演算が完了していることを示すフラグを立てる（ステップＳ１０７）。その後、計算ノード１－３の送信部１２３は、フラグを立てたＯＡＭパケットを計算ノード１－１および計算ノード１－２へ送信する。

　マスターノードである計算ノード１－１は、ＯＡＭパケットを受信し、ＯＡＭ処理部１２２はＯＡＭパケットのフラグの状態から、計算ノード１－２、１－３に対して集団通信の開始を指示する（ステップＳ１０８）。その後、指示を受信した計算ノード１－２、１－３は、全体演算を行い、求められた全体演算結果を計算ノード１－１～１－３に分配する。

　次に、本実施の形態に係る分散深層学習システムが、全ての計算ノード１－１～１－３での部分演算が完了してから集団通信を開始する場合の動作について図１２のシーケンス図を参照して説明する。

　図１２に示すように、計算ノード１－１は、ＯＡＭ処理部１２２でＯＡＭパケットを生成し、生成したＯＡＭパケットを送信部１２３から他の計算ノード１－２、１－３に送信する（ステップＳ１００）。その後、計算ノード１－１は自ノードの演算部１０での部分演算が完了すると（ステップＳ１０１）、計算ノード１－１のＯＡＭ処理部１２２は、ＯＡＭパケットの所定のビットのフラグを立てる（ステップＳ１０２）。計算ノード１－１は、フラグを立てたＯＡＭパケットを、送信部１２３から他の計算ノード１－２、１－３へ送信する。

　その後、計算ノード１－２は自ノードでの部分演算を完了する（ステップＳ１０３）。計算ノード１－２では、記憶部１１で部分演算結果が保持される。次に、計算ノード１－２のＯＡＭ処理部１２２は、計算ノード１－１より送られてきたＯＡＭパケットの所定のビットに、自ノードでの部分演算が完了していることを示すフラグを立てる（ステップＳ１０４）。計算ノード１－２は、送信部１２３から、フラグを立てたＯＡＭパケットを計算ノード１－３へ送る。このときのＯＡＭパケットは、計算ノード１－１および計算ノード１－２での部分演算が完了していることを示すフラグが立っている。

　その後、マスターノードである計算ノード１－１は、フラグの値が設定され、状態が記録されたＯＡＭパケットを受信し、さらに他の計算ノード１－２、１－３へ転送する。

　その後、計算ノード１－３の演算部１０は、自ノードでの部分演算を完了する（ステップＳ１０６）。計算ノード１－３は、記憶部１１に部分演算結果を保持する。その後、計算ノード１－３は、ＯＡＭパケットを受信すると、ＯＡＭ処理部１２２において、自ノードでの部分演算が完了していることを示すフラグを立てる（ステップＳ１０７）。その後、計算ノード１－３の送信部１２３は、フラグを立てたＯＡＭパケットを計算ノード１－１および計算ノード１－２へ送信する。

　マスターノードである計算ノード１－１は、ＯＡＭパケットを受信し、ＯＡＭ処理部１２２はＯＡＭパケットのフラグの状態から、計算ノード１－１～１－３での部分演算が完了していることを検知する。計算ノード１－１は、全ての計算ノード１－１～１－３での部分演算が完了していることを契機として、計算ノード１－１～１－３間での集団通信の開始を指示する（ステップＳ１０９）。その後、計算ノード１－１～１－３は、全体演算を行い、求められた全体演算結果を計算ノード１－１～１－３に分配する。

　なお、本実施の形態では、通信パケットを用いて、部分演算結果を共有するために送信部１２３が自ノードで計算した部分演算結果を他の計算ノード１へ送信し、受信部１２０が、他の計算ノード１からの部分演算結果を受信することができる。この場合、通信パケットには、自ノード宛の部分演算結果であるか否かを判定するための識別子が含まれる。

　例えば、部分演算結果を含む通信パケットのヘッダにおいて、計算ノード１－１～１－３ごとに異なるビット位置にフラグを立てるか立てないかで自ノード宛てのデータであるかを判別することができる。受信部１２０で受信した通信パケットのヘッダの自ノードのビット位置にフラグが立っている場合、受信した通信パケットに含まれる部分演算結果は、自ノード宛のデータであると判定する。そして、自ノードで計算した部分演算結果と受信した他の計算ノード１からの部分演算結果との和である全体演算結果を求める。

　なお、本実施の形態は、計算ノード１－１～１－３の各々が、自ノードで受信したＯＡＭパケットの示すフラグの値に基づいて、自ノードの演算部１０から出力された部分演算結果を、他の計算ノード１へ送信する場合に限らない。例えば、計算ノード１は、受信されたＯＡＭパケットが示すフラグの値に基づいて、自ノードの演算部１０で部分演算を開始する構成とすることもできる。

　以上説明したように、第１の実施の形態によれば、各計算ノード１は、全ての計算ノード１で共有するＯＡＭパケットを用いた同期処理により、部分演算が完了したことを契機として、ニューラルネットワークの計算における行列積の一部分を計算して部分演算結果を他の計算ノード１へ送信する。また、計算ノード１は、他の計算ノード１から受信した部分演算の結果と自ノードで計算した部分演算の結果との和である全体演算結果を求め、さらにその全体演算結果を他の計算ノード１へ分配する。

　第１の実施の形態によれば、この一連の処理における全体演算結果の計算機能をネットワーク処理部１２に具備するようにすることで、各計算ノード１の演算部１０で全体演算を行う必要がなくなり、それに付随するメモリのリードライトを削減できる。そのため、学習処理の高速化を図ることができ、通信ネットワークに接続される計算ノードの数が増加しても、計算ノード間での協調処理をより高速に行うことができる。

　また、第１の実施の形態によれば、集団通信を行う計算ノード１だけが部分演算を完了していれば、それらの計算ノード１で集団通信を開始することができるので、分散深層学習処理をより高速化できる。

　また、第１の実施の形態によれば、各計算ノード１のネットワーク処理部１２がＯＡＭ処理部１２２を備え、ＯＡＭパケットに対してフラグの付与やＯＡＭパケットの読み取りを含むＯＡＭパケットの処理を行う。そのため、ＯＡＭパケットを記憶部１１にコピーすることなく処理を行えるので、処理の遅延を削減できる。

　また、第１の実施の形態によれば、演算部１０において加算演算を行う必要がなくなり、それに付随するメモリのリードライトを削減できるため、通信ネットワークに接続される計算ノード１の数が増加しても、計算ノード１間での協調処理をより高速に行うことができる。

　［第２の実施の形態］
　次に、本発明の第２の実施の形態について説明する。なお、以下の説明では、上述した第１の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。本実施の形態に係る分散深層学習システムの構成および計算ノード１の構成は、図１および図６で説明した第１の実施の形態と同様である。

　第１の実施の形態では、任意の計算ノード１－１が起点となり、ＯＡＭパケットを発行し、他の計算ノード１－２、１－３で状態が記録されフラグが付与されたＯＡＭパケットを読み取った。また、第１の実施の形態では、計算ノード１－１がそのＯＡＭパケットの状態を契機として、計算ノード１－２、１－３に対して集団通信を開始する指示を行う場合について説明した。これに対し、第２の実施の形態では、マスターノードとして設定された計算ノード１－１が、複数の計算ノード１－１～１－３のうち、集団通信が発生する特定の計算ノード１を特定する特定情報（以下、モデルの「分割情報」という。）を各計算ノード１へ通知する。

　例えば、図４に示すように、全体演算結果として隠れ層ｈ_２の出力を求める場合に、計算ノード１－１の部分演算結果および計算ノード１－２の部分演算結果が得られていれば計算できる。分割情報（特定情報）は、このようにどの計算ノード１の部分演算が完了していれば集団通信を開始できるのかを示す情報である。例えば、分割情報として、計算ノード１に固有のＩＤを用いることができる。

　マスターノードとして設定されている計算ノード１－１のＯＡＭ処理部１２２には、分割情報が保持されている。また、マスターノードから分割情報を受信する計算ノード１－２、１－３は、分割情報に基づいて、ＯＡＭパケットの発行および部分演算結果の完了に応じたフラグの付与を計算ノード１－２、１－３間で行う。

　より詳細には、マスターノードからの分割情報を送信部１２３（第４送信回路）から他の計算ノード１へ送信する。分割情報を受信部１２０（第５受信回路）で受信したスレーブノードとして設定された計算ノード１のうちのいずれか１のノードは、ＯＡＭ処理部１２２において、受信された分割情報に自ノードが含まれる場合に、ＯＡＭパケットを生成する。さらに、ＯＡＭパケットを生成した計算ノード１では、ＯＡＭ処理部１２２が、送信部１２３に対して、分割情報で特定される集団通信に関与する他の計算ノード１へＯＡＭパケットを送信させる。

　なお、ＯＡＭパケットの生成および発行を行う計算ノード１は、分割情報に示されるＩＤの値が最も小さい若しくは最も大きい計算ノード１、または、部分演算を最も先に完了した計算ノード１がＯＡＭパケットを発行する構成としてもよい。

　また、ＯＡＭ処理部１２２は、自ノードの演算部１０において、部分演算が完了した場合には、ＯＡＭパケットのフラグを立てる。

　［分散深層学習システムの動作シーケンス］
　図１３は、本実施の形態に係る分散深層学習システムの動作シーケンス図である。以下においては、計算ノード１－１がマスターノードとして設定され、計算ノード１－２、１－３がスレーブノードである場合について説明する。また、マスターノードのネットワーク処理部１２には、どの計算ノード１が集団通信を行うのかを示す分割情報を保持しているものとする。また、以下においては、分割情報により最も小さいＩＤの値が付与された計算ノード１がＯＡＭパケットを発行する場合について説明し、計算ノード１－２に付与されたＩＤの値は計算ノード１－３に付与されたＩＤの値よりも小さいものとする。

　まず、マスターノードとして設定された計算ノード１－１の送信部１２３は、ＯＡＭ処理部１２２で生成された分割情報を他の計算ノード１－２、１－３へ送信する（ステップＳ２００）。分割情報は、加算部１２１が特定の全体演算を実行するために必要とされる複数の部分演算結果を出力する特定の計算ノード１を、複数の計算ノード１－１～１－３のうちから特定する情報である。

　次に、分割情報に含まれるＩＤの値が最も小さい計算ノード１－２は、自ノードのＯＡＭ処理部１２２においてＯＡＭパケットを生成し、集団通信の相手である他の計算ノード１－３にＯＡＭパケットを送信する（ステップＳ２０１）。

　その後、計算ノード１－３は、自ノードの演算部１０での部分演算を完了する（ステップＳ２０２）。計算ノード１－３は、ＯＡＭパケットを受信すると、ＯＡＭ処理部１２２において、ＯＡＭパケットの所定のビットの値を「１」に設定し、フラグを付与する（ステップＳ２０３）。

　次に、計算ノード１－３の送信部１２３は、フラグを立てたＯＡＭパケットを分割情報に基づいて、集団通信の相手である計算ノード１－２に送信する。その後、計算ノード１－２の演算部１０は部分演算を完了する（ステップＳ２０４）。なお、計算ノード１－２のＯＡＭ処理部１２２は、受信されたＯＡＭパケットのフラグを立てて自ノードでの部分演算が完了したことを記録してもよい。計算ノード１－２のＯＡＭ処理部１２２は、ＯＡＭパケットの状態から、集団通信に関わる部分演算が全て完了していること、すなわち、同期が完了したことを検知する。その後、計算ノード１－２のネットワーク処理部１２は、集団通信を開始する指示を計算ノード１－３に送信する（ステップＳ２０５）。

　例えば、計算ノード１－２は自ノードでの部分演算結果を計算ノード１－３に送信し、計算ノード１－３のネットワーク処理部１２に設けられている加算部１２１が、計算ノード１－２、１－３での部分演算結果の和である全体演算を行う。その後、全体演算結果は、計算ノード１－１～１－３において分配される。

　以上説明したように、第２の実施の形態によれば、複数の計算ノード１－１～１－３のうち、集団通信に関わる部分演算を求める計算ノード１を特定する分割情報（特定情報）が、マスターノードの計算ノード１から他の計算ノード１へ通知される。分割情報を受信した計算ノード１は、分割情報で示される計算ノード１間でＯＡＭパケットの発行およびフラグの付与を含むＯＡＭパケットの処理を行う。

　そのため、計算ノード１は、自ノードの集団通信に関わる部分演算が完了したことを示すＯＡＭパケットを受信して、同期が完了したことを契機として、集団通信を開始して、集団通信を完了したら処理を終了する。そのため、集団通信をより効率的に開始することができ、通信ネットワークに接続される計算ノードの数が増加しても、計算ノード間での協調処理をより高速に行うことができる。

　［第３の実施の形態］
　次に、本発明の第３の実施の形態について説明する。なお、以下の説明では、上述した第１および第２の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。

　第３の実施の形態では、複数の計算ノード１－１～１－３がツリー状のネットワークを構成する点で、第１および第２の実施の形態と異なる。また、第３の実施の形態に係る分散深層学習システムでは、全体演算を実行する集約ノード２を備える点で、第１および第２の実施の形態と異なる。

　［分散深層学習システムの構成］
　図１４は、本実施の形態に係る分散深層学習システムの構成例を示すブロック図である。分散深層学習システムは、例えば、３台の計算ノード１－１～１－３が、１台の集約ノード２を介してツリー状のネットワークトポロジーで接続されている。本実施の形態では、複数の計算ノード１－１～１－３と集約ノード２とによってニューラルネットワークの行列積を計算する。

　また、本実施の形態に係る計算ノード１－１～１－３の構成は、ネットワーク処理部（第１ネットワーク処理装置）１２Ａが全体演算を行う加算部１２１を備えない点において、図６で説明した第１および第２の実施の形態の構成と異なる。したがって、本実施の形態に係る計算ノード１－１～１－３の各々は、行列積の一部分である部分演算のみを行い、部分演算結果を集約ノード２へ送信する。部分演算結果の和である全体演算については、集約ノード２が行う。

　［集約ノードの機能ブロック］
　集約ノード２は、図１４および図１５に示すように、記憶部（第２記憶装置）２１とネットワーク処理部（第２ネットワーク処理装置）２２とを備える。集約ノード２は、ＯＡＭパケットを生成し、集団通信に関与する計算ノード１に対して送信する。また、集約ノード２は、集団通信に関与する計算ノード１の全てにおいて部分演算が完了したことを契機として、計算ノード１に対して集約開始を指示し、部分演算結果を集約ノード２に集約する。

　集約ノード２は、複数の計算ノード１－１～１－３で計算された部分演算結果を集約し、加算処理を含む全体演算を行い、求めた全体演算結果を複数の計算ノード１－１～１－３に分配する。

　図１５に示すように、記憶部２１は、計算ノード１－１～１－３の各々で求められた部分演算結果２１０を記憶する。

　ネットワーク処理部２２は、受信部（第３受信回路、第４受信回路）２２０、加算部（加算回路）２２１、ＯＡＭ処理部（第２のＯＡＭ処理回路）２２２、および送信部（第３送信回路、第４送信回路）２２３を備える。

　受信部２２０は、複数の計算ノード１－１～１－３の各々のＯＡＭ処理部１２２で記録されたＯＡＭパケットを、複数の計算ノード１－１～１－３から受信する。また、受信部２２０は、複数の計算ノード１－１～１－３のそれぞれから、部分演算結果を受信する。受信された部分演算結果は、記憶部２１に記憶される。

　加算部２２１は、受信部２２０で受信された複数の計算ノード１－１～１－３からの部分演算結果の和である全体演算結果を求める。加算部２２１は、例えば、論理回路を用いた加算回路で構成することができる。

　例えば、図２から図５で説明した具体例を用いると、隠れ層ｈ_２の出力は、計算ノード１－１、１－２で求められた部分演算結果を加算することで求められる。加算部２２１は、計算ノード１－１および１－２のそれぞれで求められた部分演算結果を加算して、隠れ層ｈ_２の出力である全体演算結果を求める。

　ＯＡＭ処理部２２２は、複数の計算ノード１－１～１－３に対して、各計算ノード１の部分演算が完了したか否かを記録させる、ＯＡＭパケットを生成する。また、ＯＡＭ処理部２２２は、受信部２２０で受信されたＯＡＭパケットの状態から、集団通信に係る複数の計算ノード１に対して送信する集約開始指示を生成する。ＯＡＭ処理部２２２は、集団通信に関与する計算ノード１の全てで部分演算が完了したこと、つまり、同期が完了したことを契機として、集約開始指示を行う。

　例えば、図２から図５の例を用いると、ＯＡＭ処理部２２２は、計算ノード１－１、１－２に送信するＯＡＭパケットを生成する。また、ＯＡＭ処理部２２２は、ＯＡＭパケットのフラグの値から、計算ノード１－１、１－２で部分演算が完了していること把握し、集約開始指示を生成する。

　送信部２２３は、ＯＡＭ処理部２２２で生成されたＯＡＭパケットを計算ノード１－１～１－３に送信する。また、送信部２２３は、ＯＡＭ処理部２２２で生成された集約開始指示を対象となる計算ノード１へ送信する。また、送信部２２３は、加算部２２１によって求められた全体演算結果を、複数の計算ノード１－１～１－３に分配する。

　［集約ノードのハードウェア構成］
　次に、上述した機能を有する集約ノード２を実現するハードウェア構成の一例について図１６のブロック図を参照して説明する。

　図１３に示すように、集約ノード２は、例えば、ＣＰＵ２０１、メインメモリ２０２、ＧＰＵ２０３、ＮＩＣ２０４、ストレージ２０５、およびＩ／Ｏ２０６を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。

　メインメモリ２０２には、ＣＰＵ２０１およびＧＰＵ２０３が各種制御や演算を行うためのプログラムが予め格納されている。ＣＰＵ２０１、ＧＰＵ２０３、およびメインメモリ２０２によって、図１５に示した加算部２２１、ＯＡＭ処理部２２２など、集約ノード２の各機能が実現される。

　ＮＩＣ２０４は、計算ノード１－１～１－３や各種外部電子機器との間をネットワーク接続するためのインターフェース回路である。ＮＩＣ２０４は図１５の受信部２２０および送信部２２３を実現する

　ストレージ２０５は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。ストレージ２０５には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。ストレージ２０５は、図１５で説明した記憶部２１を実現する。

　ストレージ２０５は、集約ノード２がＯＡＭパケットの処理、部分演算結果の集約処理、全体演算処理、および分配処理を実行するためのプログラムを格納するプログラム格納領域を有する。ストレージ２０５は、例えば、上述したデータやプログラムやなどをバックアップするためのバックアップ領域などを有していてもよい。

　Ｉ／Ｏ２０６は、外部機器からの信号を入力したり、外部機器へ信号を出力したりするネットワークポートにより構成される。ネットワークポートは、例えば、計算ノード１－１～１－３の数と同数設けることができる。あるいは、ネットワークスイッチを介して集約ノード２と計算ノード１－１～１－３とを接続することで、１つのネットワークポートを備えることもできる。

　加算回路２０７は、例えば、基本論理ゲートによって構成される加算回路などを用いることができる。加算回路２０７は、図１５で説明した加算部２２１を実現する。なお、本実施の形態では、加算回路２０７は、ＮＩＣ２０４およびＩ／Ｏ２０６を含むネットワーク処理装置に設けられる。また、ＣＰＵ２０１、メインメモリ２０２、ＧＰＵ２０３、ストレージ２０５によって演算装置が構成される。

　ＯＡＭ処理回路２０８は、例えば、基本論理ゲートを組み合わせた複合論理ゲート等で実現される。あるいは、ＯＡＭ処理回路２０８は、ＡＳＩＣなどの専用の回路や、電気回路とプログラムの組み合わせとして実現することができる。本実施の形態では、ＯＡＭ処理回路２０８は、加算回路２０７と同様に、ＮＩＣ２０４およびＩ／Ｏ２０６を含む伝送路側のネットワーク処理装置に設けられる。

　［分散深層学習システムの動作シーケンス］
　次に、上述した構成を有する集約ノード２および計算ノード１－１～１－３を備える分散深層学習システムの動作について図１７および図１８のシーケンス図を参照して説明する。なお、以下においては、分散深層学習システムは、図２から図５で説明した隠れ層ｈ_２、ｈ_４の出力を求める場合について説明する。

　図１７に示すように、集約ノード２のＯＡＭ処理部２２２は、ＯＡＭパケットを生成し、集団通信に関与する計算ノード１に対して送信部２２３から送信する（ステップＳ３００）。例えば、集約ノード２は、予めＯＡＭ処理部２２２において設定されている隠れ層ｈ_２の出力に係る集団通信に関与する計算ノード１－１、１－２に対して、ＯＡＭパケットを送信する。

　その後、計算ノード１－１、１－２の各々で、部分演算が完了する（ステップＳ３０１）。計算ノード１－１、１－２の各々で得られた部分演算結果は、それぞれの記憶部１１で保持される。次に、計算ノード１－１、１－２の各々は、集約ノード２からＯＡＭパケットを受信すると、ＯＡＭ処理部（第１のＯＡＭ処理回路）１２２が自ノードでの部分演算が完了していることを示すフラグ値「１」を設定する（ステップＳ３０２）。計算ノード１－１、１－２の各々は、フラグを立てたＯＡＭパケットを集約ノード２へ送信する。

　次に、集約ノード２は計算ノード１－１、１－２からのＯＡＭパケットを受信する。集約ノード２のＯＡＭ処理部２２２は、計算ノード１－１、１－２から受信したＯＡＭパケットのフラグの値から、全体演算を行うための部分演算が完了していることを検知する。ＯＡＭ処理部２２２は、計算ノード１－１、１－２の各々から部分演算結果を集約するための集約開始指示を生成する（ステップＳ３０３）。生成された集約開始指示は、計算ノード１－１、１－２に送信される。

　次に、計算ノード１－１、１－２は、集約ノード２からの集約開始指示を受信すると、自ノードでの部分演算結果を集約ノード２へ送信する（ステップＳ３０４）。その後、集約ノード２の加算部２２１は、計算ノード１－１、１－２から集約した部分演算結果の和である全体演算を行う（ステップＳ３０５）。その後、集約ノード２は、得られた全体演算結果を送信部２２３から、計算ノード１－１～１－３へ分配する。

　なお、図１７では、集約ノード２は、隠れ層ｈ_２の出力に係る全体演算を開始するために必要な部分演算を計算する計算ノード１－１、１－２のみにＯＡＭパケットを送信する場合について説明した。しかし、集約ノード２は、図１８に示すように、ステップＳ３００において、全ての計算ノード１－１～１－３にＯＡＭパケットを送信し、かつ、全ての計算ノード１－１～１－３で複数の隠れ層、例えば、隠れ層ｈ_２、ｈ_４の出力に係る全体演算を開始するために必要な部分演算が完了した（ステップＳ３０１、３０２）ことを契機として、計算ノード１－１～１－３に対して集約開始指示を送信することもできる（ステップＳ３０３）。

　以上説明したように、第３の実施の形態によれば、集約ノード２が集団通信に関与する複数の計算ノード１に対して、ＯＡＭパケットを送信する。集約ノード２は、各計算ノード１で記録され返送されてきたＯＡＭパケットの状態から、全体演算を行うための部分演算が各計算ノード１で完了していることを検知すると、同期が完了したとして、部分演算結果を集約するために集約開始指示を計算ノード１に送信する。

　このように、複数の計算ノード１－１～１－３で部分演算が完了したことを契機として、計算ノード１－１～１－３に対して集約指示を行うので、集約ノード２は、より効率的に部分演算結果を計算ノード１－１～１－３から集約し、全体演算結果を求めることができる。

　また、本実施の形態に係る集約ノード２は、全体演算を行う加算部２２１およびＯＡＭパケットの発行および処理を行うＯＡＭ処理部２２２を、ネットワーク処理部２２に具備するので、集約ノード２は、演算部１０が不要となる。そのため、加算処理やＯＡＭ処理を演算部１０でソフトウェア的に処理した従来例と比較して、通信ネットワークに接続される計算ノードの数が増加しても、計算ノード間での協調処理をより高速に行うことができる。

　また、第３の実施の形態によれば、ＯＡＭパケットを特定の計算ノード１に対して送信することができ、ＯＡＭフレーム数を削減することができ、より高速な分散深層学習処理が実現できる。

　なお、説明した実施の形態では、複数の計算ノード１－１～１－３がニューラルネットワークモデルを分割して分散学習を行うことにより、ニューラルネットワークの全体の学習を行い、集団通信の高速化を行う場合を例示した。しかし、本実施の形態に係る分散深層学習システムは、学習処理に適用する他にも、推論処理など、行列の積和演算を含む大規模行列計算にも適用することで、処理を高速化することができる。

　以上、本発明の分散深層学習システムおよび分散深層学習方法における実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。

　１，１－１，１－２，１－３…計算ノード、１０…演算部、１１…記憶部、１２…ネットワーク処理部、１１０…部分演算結果、１１１…全体演算結果、１２０…受信部、１２１…加算部、１２２…ＯＡＭ処理部、１２３…送信部、１０１…ＣＰＵ、１０２…メインメモリ、１０３…ＧＰＵ、１０４…ＮＩＣ、１０５…ストレージ、１０６…Ｉ／Ｏ、１０７…加算回路、１０８…ＯＡＭ処理回路。

Claims

　通信ネットワークを介して互いに接続された複数の計算ノードを備え、
　前記複数の計算ノードの各々は、
　ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算装置と、
　前記演算装置から出力された前記第１演算結果を記憶する第１記憶装置と、
　前記第１記憶装置に記憶された前記第１演算結果を、他の計算ノードに送信する第１送信回路と、
　他の計算ノードからの第１演算結果を受信する第１受信回路と、
　前記第１記憶装置に記憶されている前記第１演算結果と、前記第１受信回路で受信された前記他の計算ノードからの第１演算結果との和である第２演算結果を求める加算回路と、
　前記第２演算結果を、他の計算ノードへ送信する第２送信回路と、
　他の計算ノードからの第２演算結果を受信する第２受信回路と、
　前記複数の計算ノードの状態を示す通知パケットを受信する第３受信回路と、
　前記第３受信回路で受信された前記通知パケットに、自ノードの前記演算装置から前記第１演算結果が出力されたか否かを記録するＯＡＭ処理回路と、
　前記ＯＡＭ処理回路で記録された前記通知パケットを他の計算ノードへ送信する第３送信回路と、
　を有するネットワーク処理装置と
　を備え、
　前記ＯＡＭ処理回路は、前記通知パケットに示される他の計算ノードの前記状態を契機として、前記第１送信回路に、前記第１記憶装置に記憶された前記第１演算結果を他の計算ノードへ送信させる
　ことを特徴とする分散深層学習システム。
　請求項１に記載の分散深層学習システムにおいて、
　前記複数の計算ノードの各々は、
　前記第２演算結果を記憶する第２記憶装置をさらに備え、
　前記第２記憶装置は、前記加算回路で求められた前記第２演算結果、および前記第２受信回路で受信された前記他の計算ノードからの第２演算結果を記憶する
　ことを特徴とする分散深層学習システム。
　請求項１または請求項２に記載の分散深層学習システムにおいて、
　前記複数の計算ノードのうちのいずれか１の計算ノードはマスターノードとして設定され、他の複数の計算ノードは前記マスターノードによって制御されるスレーブノードとして設定され、
　前記１の計算ノードが備える前記ネットワーク処理装置は、
　前記ＯＡＭ処理回路が、前記通知パケットを生成し、
　前記第３送信回路は、生成された前記通知パケットを、前記他の複数の計算ノードへ送信し、
　前記ＯＡＭ処理回路は、前記他の複数の計算ノードで記録された前記通知パケットが、前記他の複数の計算ノードの各々で既に前記第１演算結果が出力されていることを示す場合に、前記他の複数の計算ノードの各々が備える前記演算装置から出力された前記第１演算結果の和である前記第２演算結果の計算を前記加算回路に実行させる
　ことを特徴とする分散深層学習システム。
　請求項１または請求項２に記載の分散深層学習システムにおいて、
　前記複数の計算ノードのうちのいずれか１の計算ノードがマスターノードとして設定され、他の複数の計算ノードは前記マスターノードによって制御されるスレーブノードとして設定され、
　前記１の計算ノードが備える前記ネットワーク処理装置は、
　前記ＯＡＭ処理回路において、前記加算回路が前記第２演算結果を求めるために必要とされる複数の前記第１演算結果を出力する特定の複数の計算ノードを前記他の複数の計算ノードのうちから特定する特定情報を生成し、
　前記特定情報を前記他の複数の計算ノードに送信する第４送信回路をさらに備え、
　前記他の複数の計算ノードの各々が備える前記ネットワーク処理装置は、
　前記特定情報を受信する第５受信回路をさらに備え、
　前記ＯＡＭ処理回路は、前記特定情報で特定される前記特定の複数の計算ノードに自ノードが含まれる場合に、前記通知パケットが示す前記特定の複数の計算ノードの前記状態を契機として、前記第１送信回路に、前記第１記憶装置に記憶された前記第１演算結果を前記特定情報で特定される他の計算ノードへ送信させる
　ことを特徴とする分散深層学習システム。
　通信ネットワークを介して互いに接続された複数の計算ノードと、集約ノードと、を備え、
　前記複数の計算ノードの各々は、
　ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算装置と、
　前記演算装置から出力された前記第１演算結果を、前記集約ノードに送信する第１送信回路と、
　前記集約ノードから、前記複数の計算ノードで計算された第１演算結果の和である第２演算結果を受信する第１受信回路と、
　前記複数の計算ノードの状態を示す通知パケットを受信する第２受信回路と、
　前記第２受信回路で受信された前記通知パケットに、自ノードの前記演算装置から前記第１演算結果が出力されたか否かを記録する第１のＯＡＭ処理回路と、
　前記第１のＯＡＭ処理回路で記録された前記通知パケットを前記集約ノードへ送信する第２送信回路と
　を有する第１ネットワーク処理装置と、
　前記第１受信回路で受信された前記第２演算結果を記憶する第１記憶装置と
　を有し、
　前記第１のＯＡＭ処理回路は、前記集約ノードからの指示に基づいて、前記第１送信回路に、前記第１記憶装置に記憶された前記第１演算結果を前記集約ノードへ送信させ、
　前記集約ノードは、
　前記通知パケットを生成する第２のＯＡＭ処理回路と、
　生成された前記通知パケットを前記複数の計算ノードへ送信する第３送信回路と、
　前記複数の計算ノードの各々の前記第１のＯＡＭ処理回路で記録された前記通知パケットを、前記複数の計算ノードから受信する第３受信回路と、
　前記複数の計算ノードからの第１演算結果を受信する第４受信回路と、
　前記第４受信回路で受信された第１演算結果の和である前記第２演算結果を求める加算回路と、
　前記加算回路で求められた前記第２演算結果を、前記複数の計算ノードへ送信する第４送信回路と
　を有する第２ネットワーク処理装置と
　を有し、
　前記第２のＯＡＭ処理回路は、前記通知パケットが示す前記複数の計算ノードの前記状態を契機として、前記複数の計算ノードの前記第１演算結果を集約するために、前記複数の計算ノードに対して前記第１演算結果を自ノードへ送信することを指示する
　ことを特徴とする分散深層学習システム。
　請求項５に記載の分散深層学習システムにおいて、
　前記複数の計算ノードと、前記集約ノードとは、前記複数の計算ノードの各々と前記集約ノードとが互いに接続されたスター型の通信ネットワークを構成することを特徴とする分散深層学習システム。
　通信ネットワークを介して互いに接続された複数の計算ノードを備える分散深層学習システムによって実行される分散深層学習方法であって、
　前記複数の計算ノードの各々は、
　ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算ステップと、
　前記演算ステップで出力された前記第１演算結果を第１記憶装置に記憶する第１記憶ステップと、
　前記第１記憶装置に記憶された前記第１演算結果を、他の計算ノードに送信する第１送信ステップと、
　他の計算ノードからの第１演算結果を受信する第１受信ステップと、
　前記第１記憶装置に記憶されている前記第１演算結果と、前記第１受信ステップで受信された前記他の計算ノードからの第１演算結果との和である第２演算結果を求める加算ステップと、
　前記第２演算結果を、他の計算ノードへ送信する第２送信ステップと、
　他の計算ノードからの第２演算結果を受信する第２受信ステップと、
　前記複数の計算ノードの状態を示す通知パケットを受信する第３受信ステップと、
　前記第３受信ステップで受信された前記通知パケットに、自ノードが前記演算ステップで前記第１演算結果を出力したか否かを記録するＯＡＭ処理ステップと、
　前記ＯＡＭ処理ステップで記録された前記通知パケットを他の計算ノードへ送信する第３送信ステップと
　を有するネットワーク処理ステップと
　を備え、
　前記ＯＡＭ処理ステップは、前記通知パケットに示される他の計算ノードの前記状態を契機として、前記第１送信ステップで、前記第１記憶装置に記憶された前記第１演算結果を他の計算ノードへ送信させる
　ことを特徴とする分散深層学習方法。
　通信ネットワークを介して互いに接続された複数の計算ノードと、集約ノードと、を備える分散深層学習システムによって実行される分散深層学習方法であって、
　前記複数の計算ノードの各々は、
　ニューラルネットワークの演算処理に含まれる行列積を計算し、第１演算結果を出力する演算ステップと、
　前記演算ステップで出力された前記第１演算結果を、前記集約ノードに送信する第１送信ステップと、
　前記集約ノードから、前記複数の計算ノードで計算された第１演算結果の和である第２演算結果を受信する第１受信ステップと、
　前記複数の計算ノードの状態を示す通知パケットを受信する第２受信ステップと、
　前記第２受信ステップで受信された前記通知パケットに、自ノードが前記演算ステップで前記第１演算結果を出力したか否かを記録する第１のＯＡＭ処理ステップと、
　前記第１のＯＡＭ処理ステップで記録された前記通知パケットを前記集約ノードへ送信する第２送信ステップと
　を有する第１ネットワーク処理ステップと、
　前記第１受信ステップで受信された前記第２演算結果を第１記憶装置に記憶する第１記憶ステップと
　を有し、
　前記第１のＯＡＭ処理ステップは、前記集約ノードからの指示に基づいて、前記第１送信ステップで、前記第１記憶装置に記憶された前記第１演算結果を前記集約ノードへ送信させ、
　前記集約ノードは、
　前記通知パケットを生成する第２のＯＡＭ処理ステップと、
　生成された前記通知パケットを前記複数の計算ノードへ送信する第３送信ステップと、
　前記複数の計算ノードの各々の前記第１のＯＡＭ処理ステップで記録された前記通知パケットを、前記複数の計算ノードから受信する第３受信ステップと、
　前記複数の計算ノードからの第１演算結果を受信する第４受信ステップと、
　前記第４受信ステップで受信された第１演算結果の和である前記第２演算結果を求める加算ステップと、
　前記加算ステップで求められた前記第２演算結果を、前記複数の計算ノードへ送信する第４送信ステップと
　を有する第２ネットワーク処理ステップと
　を有し、
　前記第２のＯＡＭ処理ステップは、前記通知パケットが示す前記複数の計算ノードの前記状態を契機として、前記複数の計算ノードの前記第１演算結果を集約するために、前記複数の計算ノードに対して前記第１演算結果を自ノードへ送信することを指示する
　ことを特徴とする分散深層学習方法。