WO2021111586A1

WO2021111586A1 - 分散処理システム

Info

Publication number: WO2021111586A1
Application number: PCT/JP2019/047633
Authority: WO
Inventors: 伊藤　猛; 健治川合; 顕至田仲; 勇輝有川; 和彦寺田; 坂本　健
Original assignee: 日本電信電話株式会社
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2021-06-10
Also published as: US20230004425A1; JPWO2021111586A1; JP7347537B2

Abstract

複数の演算デバイス（１０３）とインタコネクトデバイス（１０４）とを備えた複数の分散ノード（１０２）が接続されている分散処理システム（１０１）において、１つの前記分散ノード（１０２）におけるインタコネクトデバイス（１０４）及び／または演算デバイス（１０３）において、分散処理システム（１０１）が処理するジョブ毎にメモリ領域（１０６、１０７）が割当てられ、インタコネクトデバイス（１０４）の間、演算デバイス（１０３）の間、インタコネクトデバイス（１０４）と演算デバイス（１０３）の間の少なくとも何れかにおいて、ジョブを処理するためのメモリ領域の間のダイレクトメモリアクセスが実行される。これにより、ノードの分割損による演算効率低下を抑制し、処理負荷の異なる複数の学習ジョブを効率的に処理することができる。

Description

分散処理システム

　本発明は、複数のユーザからのジョブにより発生するタスクを高速、高効率に処理する分散処理システムに関するものである。

　近年、シリコンプロセスの微細化の限界によりムーアの法則が適用できない、いわゆるポストムーア時代の到来が言われてきている。このポストムーア時代に向けて、ＣＰＵなどのプロセッサのシリコンプロセス微細化による演算性能限界を打破して、演算性能を飛躍的に向上しようとする取り組みが行われている。

　このような取り組みとして、一つのプロセッサ内に演算コアを複数持たせるマルチコア化のアプローチがあるが、一つのシリコンチップの大きさの限界もあり、単体のプロセッサの飛躍的な向上には限界がある。このような単体のプロセッサの限界を超えるため、これらの演算デバイスを搭載したサーバを複数、大容量のインタコネクトで接続した分散処理システムを用いて、単一のデバイスや単一のサーバでは難しかった高負荷のタスクを高速で処理する分散処理システム技術が注目されつつある。

　例えば、高負荷のジョブの一例である深層学習（以下、深層学習で実行されるジョブを学習ジョブと称する。）では、多層のニューロンモデルからなる学習対象について、各ニューロンモデルの重み（前段のニューロンモデルが出力した値に乗じる係数）を、入力した大量のサンプルデータを用いて、更新することにより、推論精度を改善する。

　通常、推論精度を改善する手法には、ミニバッチ法が用いられている。ミニバッチ法では、サンプルデータ毎に前記重みに対する勾配を計算する勾配計算処理と、複数の異なるサンプルデータについて前記勾配を集計する（サンプルデータ毎に得られた勾配を重み別に合算する）集計処理と、各重みを前記集計された勾配に基づいて更新する重み更新処理と、を繰り返す。

　また、分散処理システム技術を適応した分散深層学習において、集計処理を行うためには、分散処理ノード毎に得られたデータ（分散データ）を集計処理ノードに集約するための、各分散処理ノードから集計処理ノードへの通信（集約通信）と、集計処理ノードでの全ノード集計処理と、集計処理ノードが集計したデータ（集計データ）を各分散処理ノードに転送するための、集計処理ノードから分散処理ノードへの通信（分配通信）とが必要となる。

　これらの処理、特に深層学習における勾配計算処理は、多数回の演算を必要とするので、推論精度を向上させるために、重みの個数や入力するサンプルデータの個数が増加すると、深層学習に要する時間が増大する。このため、推論精度を向上させ、なおかつ、深層学習に要する時間を増加さないために、分散ノードを増加させ、分散処理システムの規模を大きく設計する必要があった。

　実際の学習ジョブは、常に最大の処理負荷を要求するものばかりではなく、処理負荷がユーザ毎に異なり、処理負荷の極めて大きいものから、処理負荷の極めて小さいものまで様々である。しかし、従来の技術では、プロセッサを複数のユーザで共有する処理が難しく、負荷の大きい学習ジョブに対応させた規模の大きな分散処理システムでは、異なるユーザから処理負荷の異なる学習ジョブが同時に発生した場合の処理が難しいという課題があった（例えば、非特許文献１参照。）。

　図６は、従来の分散処理システムを複数ユーザで分割して利用する分散処理システムを示したものである。複数ユーザで分散処理システムを利用する場合、図６のように分散処理システム１０１を構成する複数の分散ノード１０２を分割して構成された各分散システムにそれぞれユーザを割り当てて学習ジョブを実行することができる。しかし、１つの分散ノードの演算デバイスに対して一つのユーザあるいはジョブに対するメモリ領域の割り当てが行われるため、処理負荷の小さなジョブに対しても１つの分散ノードを割り当てることによる分割損が発生し、処理負荷の小さなジョブと処理負荷の大きな処理を同時に行う場合に、処理負荷の異なる複数のジョブに対する分散ノードの割り当てが非効率になってしまうという問題があった。

ＮＶＩＤＩＡ社著，"ＮＶＩＤＩＡＴＥＳＬＡＶ１００ＧＰＵＡＲＣＨＩＴＥＣＴＵＲＥ"，３０頁, ２０１７年８月刊行，インターネット＜https://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf＞

　本発明は、上記のような事情を考慮してなされたものであり、ノードの分割損による演算効率低下を抑制し、処理負荷の異なる複数の学習ジョブを効率的に処理することのできる高効率な分散処理システムを提供することにある。

　上記のような課題を解決するために、本発明の分散処理システムは、複数の演算デバイスとインタコネクトデバイスとを備えた複数の分散ノードが接続されている分散処理システムにおいて、１つの前記分散ノードにおける前記インタコネクトデバイス及び／または前記演算デバイスにおいて、前記分散処理システムが処理するジョブ毎にメモリ領域が割当てられ、前記インタコネクトデバイスの間、前記演算デバイスの間、前記インタコネクトデバイスと前記演算デバイスの間の少なくとも何れかにおいて、前記ジョブを処理するための前記メモリ領域間のダイレクトメモリアクセスが実行される。

　本発明によれば、複数ユーザが同時に異なる処理負荷の学習ジョブを同時に実行する場合において、ノードの分割損による演算効率低下を抑制し、処理負荷の異なる複数の学習ジョブを効率的に処理することのできる高効率な分散処理システムを提供することが可能となる。

図１は、本発明の第１の実施の形態に係る分散処理システムの構成例を示す図である。図２は、本発明の第２の実施の形態に係る分散処理システムの構成例を示す図である。図３Ａは、本発明の第３の実施の形態に係る分散処理システムの構成例を示す図である。図３Ｂは、本発明の第３の実施の形態に係る分散処理システムの動作例を示す図である。図４Ａは、本発明の第４の実施の形態に係る分散ノードの構成例を示す図である。図４Ｂは、本発明の第４の実施の形態に係る分散ノードの動作のタイムチャートである。図５Ａは、本発明の第５の実施の形態に係る分散ノードの構成例を示す図である。図５Ｂは、本発明の第５の実施の形態に係る分散ノードの動作のタイムチャートである。図６は、従来の分散処理システムを示す図である。

　以下、本発明の第１の実施の形態について図面を参照して説明する。尚、本実施の形態における「固定」とは、ダイレクトメモリアクセスを行うメモリに関し、設定によりメモリのスワップアウトが防止されることを意味するものである。このため、「固定メモリ」は、ユーザあるいはジョブがメモリの特定領域を独占してメモリを利用できることであり、設定により、他のユーザやジョブと共有する場合や、他のユーザやジョブのダイレクトメモリアクセス用のメモリ領域と使用するように、変更することも可能である。予め特定領域が固定されていて、変更できないという意味ではない。他の実施の形態においても同様である。

　また、「ジョブ」とは、ユーザが実行したプログラムで行われる処理を意味しており、ユーザが同じでもジョブが異なる場合がある。また、「タスク」とは、ユーザが実行したジョブにおいて、演算デバイスなどが行う一つ一つの演算の単位を意味する。他の実施の形態においても同様である。

［第１の実施の形態］
＜分散処理システムの構成＞
　図１は、本発明の実施の形態を示す図である。分散処理システム１０１は、分散処理システム１０１を構成する複数の分散ノード１０２から構成されている。各分散ノード１０２は、複数の演算デバイス１０３、インタコネクトデバイス１０４を備えている。演算デバイス１０３、インタコネクトデバイス１０４は、それぞれ一つまたは複数のメモリ領域を備えている。

　図１の構成例では、ジョブＡ、ジョブＢに、分散処理システム１０１内の計算リソースを割り当てる場合を想定している。演算デバイス１０３－１は、ジョブＡを処理するために割り当てた演算デバイス、演算デバイス１０３－２～１０３－４は、ジョブＢを処理するために割り当てた演算デバイスである。

　メモリ領域１０６－１は、ジョブＡを処理するために割り当てた演算デバイス１０３－１内のメモリ領域、メモリ領域１０７－１は、ジョブＡに割り当てたインタコネクトデバイス１０４内のメモリ領域、メモリ領域１０６－２～１０６－４は、ユーザＢに割り当てた演算デバイス１０３内のメモリ領域、メモリ領域１０７-２は、ユーザＢに割り当てたインタコネクトデバイス１０４内のメモリ領域である。また、点線の囲み３００は、ジョブＡが利用する計算リソースを示し、実線の囲み４００は、ジョブＢが利用する計算資源を示している。

＜分散ノードの装置構成＞
　次に、分散ノードの具体的な装置構成例を説明する。本実施の形態では、各分散ノード１０３としては、例えば、Ｓｕｐｅｒｍｉｃｒｏ社製ＳＹＳ－４０２８ＧＲ－ＴＲ２サーバ（以下、「サーバ」と称する。）を用いる。このサーバのＣＰＵマザーボードには、ＣＰＵとしてＩｎｔｅｌＸｅｏｎＣＰＵプロセッサＥ５－２６００Ｖ４を２台搭載し、メインメモリとして、ＤＤＲ４－２４００ＤＩＭＭ３２ＧＢのメモリカードを８枚搭載している。

　また、ＣＰＵマザーボードには、ＰＣＩＥｘｐｒｅｓｓ３．０（Ｇｅｎ３）の１６レーンスロットのドータボードが実装され、このスロットに、演算デバイス１０３として、ＮＶＩＤＩＡのＶ１００を４台、インタコネクトデバイス１０４として、Ｘｉｌｌｉｎｘ社製のＶＣＵ１１８Ｅｖａｌｕａｔｉｏｎボード１台が搭載され、このＥｖａｌｕａｔｉｏｎボードには、ＱＳＦＰ２８の光トランシーバ２台をインタコネクトとして実装する。分散ノード間は、ＱＳＦＰ２８の光トランシーバに接続した光ファイバで、リング状に接続することで、分散処理システムを構成する。

　なお、演算デバイスとしては、具体的には、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ)や、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ)やＦＰＧＡ、量子演算デバイス、人工知能（ニューロン）チップなどを用いることができる。

　なお、分散ノード間をリング構成以外の構成を用いて柔軟に接続する場合には、図１の集約スイッチを用いる必要がある。例えば、集約スイッチとしては、Ｍｅｌｌａｎｏｘ社製のＳＢ７８００インフィニバンドスイッチを用いることができる。

＜分散のノードの動作＞
　図１を用いて本実施の形態における分散ノードの動作について説明する。図１では、分散処理システムにおいてユーザＡとユーザＢが分散深層学習を実行している場合を想定する。

　具体的には、学習ジョブのタスクの一つである勾配計算処理が終了した後、演算デバイスで得られた各ジョブの勾配データについて、Ａｌｌ－Ｒｅｄｕｃｅといった集団通信プロトコルによって、例えば、同一の分散ノード内の演算デバイスどうしで、勾配データの加算が行われ、加算された勾配データが、さらに集約通信によって、インタコネクトを介して隣接する分散ノードの演算デバイスへ集約、加算処理される。

　同様にして、学習ジョブを実行している分散ノードからの勾配データを集約ノードで集約すると、そこで平均化処理された勾配データは、集約に関わる演算デバイスに分配通信されて、共有化される。共有化された勾配データを基に、学習を繰り返して、各演算デバイスにて学習パラメータを更新する。

　これらの集約通信や分配通信では、高速に勾配データを移動させるために、分散ノード内での演算デバイスとインタコネクトデバイス間、異なる分散ノード間のインタコネクトデバイス間では、各デバイスに内蔵されるメモリ領域を固定的に割り当てて、それぞれの固定的に割り当てたメモリアドレス同士でデータ転送を行う。前者の分散ノード内のデータ転送はダイレクトメモリアクセスと呼ばれ、後者の分散ノード間のデータ転送はリモートダイレクトメモリアクセスと呼ばれている。従来は、図１の左上の分散ノード１０２内にある４つの演算デバイスでは、単一のジョブに分散ノードのメモリが割り当てられ、一つの分散ノード１０２内のメモリを、一つのユーザが占有していた。

　しかし、本実施の形態では、図１左上の分散ノードの４つの演算デバイスの内、一番左側の演算デバイス１０３－１には、ジョブＡの固定メモリ領域１０６－１、その他の３台の演算デバイス１０３－２～１０３－４には、ジョブＢの固定メモリ領域１０６－２～１０６－４を割り当てる。また、この分散ノード１０２内のインタコネクトデバイス１０４では、ジョブＡとジョブＢのそれぞれに対して、個別の固定メモリ領域１０７－１及び１０７－２を割り当てている。

　このように、複数のジョブのそれぞれに対して１つの分散ノード内の演算デバイスおよびインタコネクトデバイスのメモリを割り当てることによって、ジョブＡに伴うダイレクトメモリアクセスは、図１左上の分散ノードの一番左側の演算デバイス１０３－１に設けた固定メモリ領域１０６－１とインタコネクトデバイス１０４内のユーザＡの固定メモリ領域１０７－１との間で実行される。また、異なる分散ノード間においては、インタコネクトデバイス１０４内のユーザＡの固定メモリ領域１０７－１と、図１左下の分散ノード１０２のインタコネクトデバイス１０４に割り当てた固定メモリ領域１０７との間でリモートダイレクトアクセスメモリが行われる。

　同様に、ジョブＢに対しても、ジョブＢに伴うダイレクトメモリアクセスは、図１左上の分散ノードの右側３台の演算デバイス１０３－２～１０３－４に割り当てた固定メモリ領域１０６－２～１０６－４とインタコネクトデバイス１０４内のユーザＢの固定メモリ領域１０７－２との間で実行される。また、異なる分散ノード間では、インタコネクトデバイス１０４内のユーザＢの固定メモリ領域１０７－２と、図１右上の分散ノード１０２のインタコネクトデバイスに割り当てた固定メモリ領域との間でリモートダイレクトアクセスメモリが行われる。

　このように、複数のジョブのそれぞれに対して、ジョブ毎の固定メモリ領域を各分散ノードのデバイス内に設けることによって、分散ノード単位ではなく演算デバイス単位で、分散処理システムを利用するユーザあるいはジョブ数に応じた分散処理を実現でき、ユーザ数、学習ジョブの処理負荷の大きさに応じて高効率な分散処理が可能な分散処理システムを実現することができる。

［第２の実施の形態］
＜分散処理システムの構成＞
　図２は、本発明の第２の実施の形態を示す図である。第２の実施の形態は、第１の実施の形態のジョブＡ、ジョブＢに加え、更にジョブＣ、ジョブＤが加わり、各追加ユーザの学習ジョブの負荷が小さい場合のメモリ割り当て処理の様子を示したものである。図２では、点線５００は、ジョブＣに対する演算デバイスおよびインタコネクトデバイス内の固定メモリ領域を示し、ジョブＣの固定メモリ領域１０６－２は、同一の演算デバイス１０３－１内において、ジョブＡの固定メモリ領域１０６－１と併存している。メモリ領域１０７－２は、ジョブＣに割り当てられたインタコネクトデバイス１０４内の固定メモリ領域である。メモリ領域１０６－３、１０６－４は、ユーザＤに割り当てられた演算デバイス１０３－２、１０３－３内の固定メモリ領域である。メモリ領域１０７－３は、ユーザＤに割り当てられたインタコネクトデバイス１０４内の固定メモリ領域である。

＜分散ノードの動作＞
　第２の実施の形態では、ジョブＡ、Ｂの学習ジョブの要求に加え、新たにユーザからジョブＡ、Ｂの処理負荷よりも処理負荷の軽い学習ジョブＣ、Ｄの要求があった場合を想定している。ジョブＣは一番処理負荷が軽いので、ユーザＡが利用していた左上の一番左側の演算デバイス１０３－１において、ジョブＡに割り当てられたメモリ領域１０６－１とは別に、ユーザＣに小さなメモリ領域１０６－２が割り当てられる。また、ジョブＤの処理負荷は、ジョブＣの処理負荷よりも重いので、ジョブＢが使用していた演算デバイスのうち２台の演算デバイス１０３－２、１０３－３をジョブＤに割り当てる。この際、ジョブＢに対して割り当てていた固定メモリ領域をジョブＤに対して割り当てるように割当ての変更を行う。

　次に、インタコネクトデバイス１０４内に、ジョブＡとジョブＢに割り当てた固定メモリ領域に加え、ジョブＣとジョブＤに対する固定メモリ領域を確保する。このように、各デバイス内において、各ジョブの固定メモリ領域の割り当てが行われ、各演算デバイスで各ユーザの学習ジョブが実行されることとなる。

　以上説明したように、第２の実施の形態では、各ジョブに対して、デバイス内の固定メモリ領域を個別に割り当て、さらに１つの演算デバイス内に、複数のジョブに対する固定デバイス領域を併存させるように構成したので、分散処理システムを、分散ノード単位での分割ではなく、分散ノードを構成する演算デバイス単位で、更には、演算デバイス内の固定メモリ領域単位で、分散処理システムを柔軟に分割することが可能となり、処理負荷の大きさの異なる複数のジョブを効率的に、かつ高速に処理することが可能な分散処理システムを提供することができる。

　［第３の実施の形態］
＜分散処理システムの構成＞
　図３Ａ、図３Ｂは、本発明の第３の実施の形態に係る分散処理システムの構成例と動作例を示す図である。第２の実施の形態では、インタコネクトデバイスに、複数のジョブの各ジョブの固定メモリ領域を設けていたが、第３の実施の形態では、インタコネクトデバイスに、複数のジョブで共有するメモリ領域を設けている。

＜分散ノードの動作＞
　本実施の形態では、ジョブ数が増加して各ジョブに対して割り当てる固定メモリ領域が不足する場合に、一つの固定メモリ領域を複数のジョブで共有する。固定メモリ領域として割り当てることが可能なインタコネクトデバイスのメモリ領域が、ジョブＢに対する固定メモリ領域ですべて消費される場合、他のジョブＡ、Ｃ、Ｄに対しては割り当てる固定メモリ領域がなくなってしまう。このため、図３Ａの右図に記載のように、インタコネクトデバイス１０４のメモリ領域を、ジョブＡ、Ｂ、Ｃ、Ｄで共有する固定共有メモリ領域１０７とする。

　図３Ｂは、共有の態様の具体例を示したものである。図３の例では、時間ｔ１で、ジョブＢが、固定メモリ領域１０７の全てを利用してダイレクトメモリアクセスを行い、時間ｔ２では、大きな固定メモリ領域を必要としないユーザＡ、Ｃ、Ｄが固定メモリ領域を同時にシェアしている。

　このように、複数のジョブ毎に固定メモリ領域を個別に割り当てるのではなく、複数のジョブがシェアする共有メモリにすることによって、インタコネクトデバイスのように、固定メモリ領域として割り当てるリソースが小さい場合にも、複数のジョブが利用可能な分散処理システムを提供することができる。本実施の形態によれば、複数のジョブを効率的に、かつ高速に処理することが可能な分散処理システムを提供することができる。

　また、時分割で固定メモリ領域を共有する場合、ダイレクトメモリアクセスで確保できる帯域を一つのユーザで占有できるので、高速なデータ転送が要求されるユーザを優先的に割り当てることができ、ジョブ毎のＱｏＳを提供できるというメリットを有する。

　［第４の実施の形態］
＜分散処理システムの構成＞
　図４Ａ、図４Ｂは、本発明の第４の実施の形態に係る分散ノードの構成例と動作タイムチャートを示す図である。

　図４Ａの演算デバイス１０３では、ジョブＡのために演算部Ａ１０５－１と固定メモリ領域Ａ１０６－１が割り当てられ、ジョブＢのために演算部Ｂ１０５－２と固定メモリ領域Ｂ１０６－２が割り当てられている。インタコネクトデバイス１０４では、ジョブＡのために固定メモリ領域Ａ１０７－１が割り当てられ、ジョブＢのために固定メモリ領域Ｂ１０７－２が割り当てられている。

　図４Ｂは、演算デバイス１０３内の演算のタイムチャート及び、演算デバイス－インタコネクトデバイス間の通信タイムチャートを図示したものである。演算デバイス１０３内の演算のタイムチャートにおいて、タスクＡ１、タスクＡ２は、演算デバイス１０３でのジョブＡの演算時間、タスクＢの演算時間は、ジョブＢの演算時間である。演算デバイス－インタコネクトデバイス間の通信タイムチャートは、ジョブＡの計算データの演算デバイス－インタコネクト間の通信時間を示したものである。

＜分散ノードの動作＞
　図４Ｂの演算タイムチャートにおいて、ジョブＡは開始時刻にて開始され、タスクＡが終了すると、演算デバイス－インタコネクトデバイス間でメモリ間ダイレクトメモリアクセスが行われる。深層学習の例では、各分散ノード間の計算結果の集約、共有がＡｌｌ－Ｒｅｄｕｃｅなどの集団通信と呼ばれるプロトコルによる通信を介して行われる。この際、ユーザＢがジョブ（この場合、タスクＢ後に演算デバイスーインタコネクト間で通信が発生しないものとする）を開始した場合、ジョブＡが実行されている間は、ジョブＢ開始に伴うタスクＢの演算を開始することができない。

　しかし、ジョブＡのＡｌｌＲｅｄｕｃｅ通信が実行されると、ジョブＡに対する演算デバイスの演算は行われないので、この時間、ジョブＢの一部のタスクを実行することができる。例えば、ダイレクトメモリアクセスで、ジョブＡでは１ＧＢの勾配データが送られる場合を想定する。ジョブＡの１ＧＢのデータがインタコネクトデバイス１０４に転送された場合、インタコネクトデバイス１０４では、隣接する分散ノード内のキャッシュメモリやグローバルメモリからインタコネクトデバイスのメモリに対して、ダイレクトメモリアクセスを開始する。インタコネクトの帯域が１００Ｇｂｉｔ／ｓの場合、１ＧＢのデータを転送する時間は８０ミリ秒である。この８０ミリ秒の間に、ジョブＢのタスクを実行することができる。

　ジョブＡのタスクＡの実行時間が８００ミリ秒で、次に、ジョブＡのタスクＡが実行されるというようにジョブＡのタスクＡ１、Ａ２が繰り返して実行されるとすると、ジョブＡのみの処理だと、全演算デバイスの可稼働時間に対して、ジョブＡの実行時間の割合は９０％になる。ここで、ジョブＢの負荷の割合が、ジョブＡの負荷の１０％とすると、ジョブＡが使いきれなかった演算デバイスの残り１０％の稼働時間をすべて利用することができ、演算デバイスの効率が１００％になる。

　このように、演算デバイス内に、所定のジョブの処理データをインタコネクトデバイスへ転送するための専用の固定メモリ領域を設け、複数のジョブのダイレクトメモリアクセスの処理を演算デバイス内でスケジューリング制御することにより、演算デバイスの稼働時間を増やし、演算効率の向上を図ることができる。本実施の形態によれば、複数のジョブを効率的に、かつ高速に処理することが可能な分散処理システムを提供することができる。

　［第５の実施の形態］
　（分散ノードの動作）
　図５Ａ、図５Ｂは、本発明の第５の実施の形態に係る分散ノードの構成例と動作タイムチャートを示す図である。第５の実施の形態では、ダイレクトメモリアクセスを行うメモリの間に、ハードウェア回路で生成した通信制御機能を有する通信コントローラが設置されている。

　本実施の形態では、処理負荷の大きいジョブＡと小さいジョブＢがあり、ジョブＡとジョブＢのダイレクトメモリアクセスが同時に行われる場合を想定している。図５Ａに示すように、一つの演算デバイスに複数のジョブ毎に固定メモリ領域が割り当てられていて、同時にダイレクトメモリアクセスが行われる場合は、ダイレクトメモリアクセスの帯域が競合してしまう。また、複数のジョブの中に優先度の高いジョブがある場合には、優先度の高いジョブを先に処理する必要がある。

　図５Ｂにおいて、時間ｔ１で、ユーザＢのジョブが開始され、タスクが演算デバイスで処理され、その後、ユーザＡのジョブが時間ｔ２で開始されたとする。ユーザＡの優先度が高いので、時間ｔ２でユーザＢのダイレクトメモリアクセスが開始された際に、通信コントローラ１０９が、ユーザＢのダイレクトアクセスを中止し、その情報を演算デバイス１０３のスケジューラ１０８へ即時にフィードバックする。

　演算デバイス１０３のスケジューラ１０８は、ジョブＡの演算の完了後、時間ｔ３でジョブＡのダイレクトメモリアクセスを開始させる。通信コントローラ１０９は、ジョブＡのデータ転送の終了を検知したら、スケジューラ１０８にフィードバックし、時間ｔ４でジョブＢのダイレクトメモリアクセスを再開する。

　このように、演算デバイスとインタコネクトデバイス間でのダイレクトメモリアクセスを行う固定メモリ領域の間に、優先度の高いメモリアクセスを優先的にダイレクトメモリアクセスさせる通信コントローラをハードウェア回路で実現することで、レイテンシや帯域特性を劣化させることなく、優先度の高いジョブが発生した場合は、優先度の低いジョブのデータ転送を待機させ、優先度の高いジョブのデータ転送が完了してから、優先度の低いジョブのデータ転送を処理するといった処理が可能となり、優先度の異なる複数のジョブがある場合においても優先度の高いジョブの処理効率を向上させることができる。

　なお、通信コントローラを実現するハードウェア回路としては、ジョブと送信するデータを紐づける識別子の付与機能をダイレクトメモリアクセスの送信側の通信コントローラ１０９に設けて、どのジョブのダイレクトメモリアクセスかを識別する識別機能を受信側の通信コントローラ１１１に設けることで、送信側で優先処理などの複雑な制御が行われた場合でも、受信側でジョブ毎の識別を高速に行えるので、ユーザを紐づける識別子付与機能や識別機能をダイレクトメモリアクセスのメモリ間に設けることも、効率的で、高信頼な制御に好適である。

　尚、インタコネクトデバイス１０４から演算デバイス１０３にデータが送信される場合においても、インタコネクトデバイス１０４のスケジューラ１１０、通信コントローラ１１１、１０９により同様の処理が行われる。

　本発明は、多量の情報処理を行う大規模な分散処理システムや、負荷の異なる複数のジョブを同時に処理する分散処理システムに利用することができる。特に、ニューラルネットワークの機械学習や大規模な演算（大規模行列演算など）、あるいは大量なデータ情報処理を行うシステムに適用することができる。

１０１…分散処理システム、１０２…分散ノード、１０３－１～１０３－４…演算デバイス、１０４…インタコネクトデバイス、１０５、１０５－１～１０５－４…演算部、１０６、１０６－１～１０６－４…メモリ領域（演算デバイス）、１０７、１０７－１～１０７－２…メモリ領域（インタコネクトデバイス）、

Claims

　複数の演算デバイスとインタコネクトデバイスとを備えた複数の分散ノードが接続されている分散処理システムにおいて、
　１つの前記分散ノードにおける前記インタコネクトデバイス及び／または前記演算デバイスにおいて、前記分散処理システムが処理するジョブ毎にメモリ領域が割当てられ、前記インタコネクトデバイスの間、前記演算デバイスの間、前記インタコネクトデバイスと前記演算デバイスの間の少なくとも何れかにおいて、前記ジョブを処理するための前記メモリ領域の間のダイレクトメモリアクセスが実行される
　分散処理システム。
　請求項１記載の分散処理システムにおいて、
　１つの前記演算デバイスに、複数のジョブのそれぞれを処理するための前記メモリ領域が割当てられる
　分散処理システム。
　請求項２に記載の分散処理システムにおいて、
　前記演算デバイスは、特定のジョブのための処理が実行されていない時間に、前記特定のジョブと異なる他のジョブのための処理を実行する
　分散処理システム。
　請求項１に記載の分散処理システムにおいて、
　１つの前記インタコネクトデバイスに、複数のジョブのそれぞれを処理するための前記メモリ領域が割当てられる
　分散処理システム。
　請求項４に記載の分散処理システムにおいて、
　１つの前記インタコネクトデバイスに、複数のジョブのそれぞれを処理するための前記メモリ領域が時間分割に割当てられる
　分散処理システム。
　請求項１～５のいずれか１項に記載の分散処理システムにおいて、
　前記分散ノードは、複数のジョブにおける前記ダイレクトメモリアクセスの中から、前記ジョブの優先度に応じて実行する前記ダイレクトメモリアクセスを選択する
　分散処理システム。
　請求項６に記載の分散処理システムにおいて
　前記ダイレクトメモリアクセスにより転送されるデータは、前記ジョブ毎に異なる識別子を備え、
　前記インタコネクトデバイスは、前記識別子に基づいて、前記ダイレクトメモリアクセスにより転送されるデータを選択する
　分散処理システム。