WO2024147258A1

WO2024147258A1 - 並列処理プログラム，並列処理装置，並列処理方法及び並列処理システム

Info

Publication number: WO2024147258A1
Application number: PCT/JP2023/043950
Authority: WO
Inventors: 雅文山崎
Original assignee: 富士通株式会社
Priority date: 2023-01-06
Filing date: 2023-12-08
Publication date: 2024-07-11

Abstract

【課題】複数のノードによる複数のタスクの並列実行処理の効率を向上させる。【解決手段】各々がタスクを実行することで複数の前記タスクを並列実行する、複数のノード２のうちの第１ノード２ａは、前記複数のタスクのリスト２０を取得し、自ノード２と、前記第１ノード２ａから前記複数のノード２の各々を経由し前記第１ノード２ａに戻る通信経路１ａの第１方向において前記自ノード２に隣接する１つのノード２と、を含む２つのノード２における未実行のタスクの数に基づき前記２つのノード２間で前記未実行のタスクを分配させる分配処理の実行を指示するコマンドを、前記通信経路１ａに沿って前記第１方向に伝送させるように、前記通信経路１ａの前記第１方向において前記第１ノード２ａに隣接する第２ノード２ｂに送信する。

Description

並列処理プログラム，並列処理装置，並列処理方法及び並列処理システム

　本発明は、並列処理プログラム，並列処理装置，並列処理方法及び並列処理システムに関する。

　複数のタスクを並列実行する並列処理システムでは、クラスタを形成する複数のノードの各々がタスクを実行する。並列処理システムは、例えば、小さい粒度の大量のタスクを大規模なクラスタで並列実行することで、大量のタスクの実行を高速化できる。

　ノードは、コンピュータ，情報処理装置又は並列処理装置の一例である。タスクは、「ジョブ」と称されてもよい。

　並列処理システムにおける並列実行処理を実現するための手法の一例として、マスタ（Master）ノードが複数のワーカ（Worker）ノードにタスクを分配し、各ワーカノードからタスクの実行結果を収集するマスタワーカ方式が知られている。

　また、並列実行処理を実現するため手法の他の例として、固定量（固定数）のタスクを複数のノードに実行させる手法（以下、「固定量分配方式」と表記する場合がある）も知られている。

特開２０２０－０３８５３２号公報特開２００５－３４６５６３号公報米国特許出願公開第２００７／００９４１７４号明細書米国特許出願公開第２０１３／０２７５４８０号明細書

　マスタワーカ方式では、マスタノードが実行する処理の負荷が大きいため、マスタノードとして、ワーカノードとは別のノードが用いられることが多い。このため、複数のタスクを並列実行する場合のノード１台あたりの処理効率が、全てのノードが並列実行処理を行なう場合と比較して低下することがある。また、マスタノードに通信が集中するため、並列処理システムの性能がマスタノードの処理性能，帯域により律速されることがある。

　また、固定量分配方式では、各ノードの処理性能（演算能力，演算量）にノード間で差がある場合、早期にタスクの実行を終了したノードは、他のノードのタスクの実行の終了を待つことになるため、当該ノードの処理資源（計算資源）が無駄になることがある。例えば、処理性能が最も低いノードのタスク終了まで、他の全ノードが待たされ得る。

　このように、並列処理システムにおいて、複数のタスクの並列実行処理が非効率になる場合がある。

　１つの側面では、本発明は、複数のノードによる複数のタスクの並列実行処理の効率を向上させることを目的の１つとする。

　１つの側面では、並列処理プログラムは、各々がタスクを実行することで複数の前記タスクを並列実行する、複数のコンピュータのうちの、第１コンピュータとしてのコンピュータに、前記複数のタスクのリストを取得し、自コンピュータと、前記第１コンピュータから前記複数のコンピュータの各々を経由し前記第１コンピュータに戻る通信経路の第１方向において前記自コンピュータに隣接する１つのコンピュータと、を含む２つのコンピュータにおける未実行のタスクの数に基づき前記２つのコンピュータ間で前記未実行のタスクを分配させる分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記通信経路の前記第１方向において前記第１コンピュータに隣接する第２コンピュータに送信する、処理を実行させてよい。

　１つの側面では、本発明は、複数のノードによる複数のタスクの並列実行処理の効率を向上させることができる。

比較例に係るシステムの一例を示すブロック図である。一実施形態に係るシステムの構成例を示すブロック図である。一実施形態に係る分配処理の実行回数に応じた各ノードの分配数の変化の一例を示す図である。一実施形態に係るノードの機能を実現するコンピュータのハードウェア（ＨＷ）構成例を示すブロック図である。ノード間を接続するネットワーク構成の一例を示す図である。ノード間を接続するネットワーク構成の一例を示す図である。一実施形態に係るノードのソフトウェア構成例を示すブロック図である。一実施形態に係るノードの分配処理の動作例を説明するフローチャートである。一実施形態に係るノードのタスク量平均化処理の動作例を説明するフローチャートである。

　以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形又は技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

　〔Ａ〕並列実行処理の説明
　図１は、比較例に係るシステム１００の一例を示すブロック図である。システム１００は、図１に例示するように、１つのマスタノード１１０と、複数（図１では６つ）のワーカノード１２１～１２６とを備える。また、システム１００は、管理端末２００を備えてもよい。以下、ワーカノード１２１～１２６を区別しない場合には、ワーカノード１２０と表記する。

　システム１００は、マスタワーカ方式を採用するマルチノード構成のシステムであり、マスタノード１１０が複数のタスクをワーカノード１２１～１２６に分配することで、複数のタスクの並列実行を行なう。

　ここで、複数の（例えば大量の）タスクの一例として、ハイパーパラメタ探索処理が挙げられる。ハイパーパラメタ探索処理は、ディープラーニング（Deep Learning）の機械学習に用いるハイパーパラメタの最適化や、テンソルネットワーク型の量子シミュレータにおける縮約順序の計算等に利用される、パスファインド処理である。

　ハイパーパラメタや縮約順序の最適解を理論的に求めることが困難であることから、ハイパーパラメタ探索処理は、多数のパラメタを調整し（値を変化させ）、目的変数の最大化又は最小化を行なうために、多数のトライアルを行なうヒューリスティックな手法である。ハイパーパラメタ探索処理としては、例えば、optuna，nevergrad等のツールを使用した、グリッドサーチや、ランダムサーチ、ベイズ最適化、遺伝的アルゴリズム等の手法を用いることができる。

　以下、システム１００による並列実行対象の処理が、ハイパーパラメタ探索処理である場合を例に挙げて説明する。

　例えば、システム１００において、１つのタスクは、或るパラメタの組み合わせとなるパラメタベクトルをシミュレーションモデルに入力し、シミュレーションモデルから結果ベクトルを出力する処理であってよい。シミュレーションモデルは、複数のタスク間で同一、すなわち固定のシミュレーションモデルであってよく、各ワーカノード１２０に記憶されてよい。

　マスタノード１１０は、初期ハイパーパラメタの各候補ごとに、「未処理」ステータスとしたタスク（処理）をジョブキューに格納する。初期ハイパーパラメタの複数の候補は、例えば、パラメタの値が互いに異なる複数のパラメタベクトルであってよい。タスクは、例えば、タスクの識別情報（ＩＤ：Identifier）と、パラメタベクトルとを含んでよい。

　マスタノード１１０は、一定時間ごとに、ステータスが「処理済み」となったタスクを収集して、当該タスクに含まれる結果ベクトルに基づき、ハイパーパラメタの候補を生成し、生成した候補のタスク（「未処理」ステータス）をタスクキューに格納する。このような処理を繰り返し、最適化が完了した時点で、マスタノード１１０は処理を終了する。

　なお、例えば、管理端末２００は、マスタノード１１０に代わり、ハイパーパラメタの候補の生成，マスタノード１１０のタスクキューへのタスクの登録等の処理を行なってもよい。

　ワーカノード１２０は、マスタノード１１０が有するタスクキューの情報を参照し、タスクキューに「未処理」ステータスのタスクが存在すれば、当該タスクのステータスを「処理中」に変更し、タスクを実行する。例えば、ワーカノード１２０は、当該タスクのパラメタベクトルをシミュレーションモデルに入力し、シミュレーションモデルから結果ベクトルを取得する。そして、ワーカノード１２０は、結果ベクトルをタスクに格納し、タスクのステータスを「処理済み」に変更する。

　このように、システム１００は、シミュレーションモデルに対して、パラメタベクトルを入力し、出力される結果ベクトルを取得する、というタスクをワーカノード１２０間で独立して複数（多数）回実行しながら、入力パラメタの最適解を求める。

　しかし、マスタワーカ方式を採用するシステム１００では、マスタノード１１０が実行する処理の負荷が大きいため、マスタノード１１０として、ワーカノード１２０とは別のノードが用いられることが多い。このため、複数のタスクを並列実行する場合のノード１台あたりの処理効率が、全てのノードが並列実行処理を行なう場合と比較して低下することがある。

　また、マスタワーカ方式では、ワーカノード１２１～１２６からの通信がマスタノード１１０に集中するため、システム１００の性能がマスタノード１１０の処理性能及び通信性能（例えば通信可能な待機等）により律速されることがある。

　一方、複数のノードの各々に固定量（固定数）のタスクを分配する固定量分配方式では、各ノードの処理性能（演算能力，演算量）にノード間で差がある場合、早期にタスクの実行を終了したノードは、他のノードのタスクの実行の終了を待つことになる。すなわち、早期にタスクの実行を終了したノードの処理資源（計算資源）が無駄になることがある。例えば、処理性能が最も低いノードがタスクの実行を終了するまで、他の全てのノードが待たされることになる。

　そこで、一実施形態では、複数のノードによる複数のタスクの並列実行処理の効率を向上させる手法を説明する。

　〔Ｂ〕一実施形態に係るシステムの説明
　図２は、一実施形態に係るシステム１の構成例を示すブロック図である。システム１は、並列処理システムの一例であり、図２に例示するように、１つ以上（図２では１つ）の代表ワーカノード２ａと、複数（図２では５つ）のワーカノード２ｂ～２ｆとを備えてよい。また、システム１は、管理端末３を備えてもよい。

　以下、代表ワーカノード２ａ及びワーカノード２ｂ～２ｆを区別しない場合には、ワーカノード２又はノード２と表記する。また、代表ワーカノード２ａを単に代表ノード２ａと表記し、ワーカノード２ｂ～２ｆを単にノード２ｂ～２ｆと表記する場合がある。さらに、図２以降及びそれらの説明において、代表ワーカノード２ａ及びワーカノード２ｂ～２ｆを、それぞれ、ワーカノード＃１～＃６と表記する場合がある。

　代表ワーカノード２ａを含む複数のワーカノード２は、各々がタスクを実行することで複数のタスクを並列実行する、複数のノードの一例である。各ノード２は、コンピュータ，情報処理装置又は並列処理装置の一例である。

　図２に例示するように、システム１では、複数のノード２が、トーラス状、例えばリング状のネットワークを形成してよい。複数のノード２は、当該ネットワークによって、代表ノード２ａから複数のノード２ｂ～２ｆの各々を経由して代表ノード２ａに戻る通信経路１ａを確立してよい。以下、通信経路１ａにおいて、代表ノード２ａから複数のノード２ｂ～２ｆを経由する方向を第１方向，逆の方向を第２方向と表記する。

　以下、システム１による並列実行対象の処理が、ハイパーパラメタ探索処理である場合を例に挙げて説明する。

　代表ノード２ａは、複数のノード２のうちの、タスクリスト２０を取得した第１ノードの一例である。例えば、代表ノード２ａは、タスクリスト２０を生成してよい。

　タスクリスト２０は、複数のタスクのリストの一例であり、図２に例示するように、入力パラメタセットの識別情報（ＩＤ）と、入力パラメタセットとの組み合わせを未完了タスクとしてセットされたリストであってよい。入力パラメタセットの識別情報は、タスクの識別情報（ＩＤ）を意味してよく、例えば、“task#1”～“task#100”である。入力パラメタセットは、例えば、値が互いに異なる複数のパラメタ（“p0”，“p1”，・・・）の組み合わせであってよい。入力パラメタセットは、パラメタベクトルであってもよい。

　代表ノード２ａは、タスクリスト２０を生成すると、タスクの分配処理の実行を指示するコマンド（第１コマンド）を、通信経路１ａに沿って第１方向に伝送させるように、通信経路１ａの第１方向において代表ノード２ａに隣接するノード２ｂに送信する。ノード２ｂは、第２ノードの一例である。

　タスクの分配処理は、自身のノード２（自ノード２）と、通信経路１ａの第１方向において自ノード２に隣接する１つのノード２と、を含む２つのノード２における未実行のタスクの数に基づき、２つのノード２間で未実行のタスクを分配させる処理である。

　コマンドは、例えば、当該分配処理の実行を開始するためのトリガであってよく、種々の信号又は制御情報であってよい。また、コマンドは、自ノード２の未実行のタスクの情報と、実行済みのタスクの情報とを含んでよい。実行済みのタスクの情報には、タスクの実行結果、例えば結果ベクトルが含まれてよい。

　ノード２は、例えば、分配処理において、２つのノード２における未実行のタスク数の合計を平均化（２等分）した数（以下、「分配数」と表記する）の未実行のタスクを、２つのノード２の各々に分配してもよい。この場合、２つのノード２のうちの、自ノード２で未実行のタスク数が分配数よりも多いノード２が、当該タスク数から分配数を減じた数（差分）の未実行のタスクを、他方のノード２（隣接ノード２）に分配、例えば送信してよい。

　例えば、一方のノード２（自ノード２）から他方のノード２（隣接ノード２）にタスクを送信する条件は、下記式（１）が満たされる場合であってもよい。
　　　平均値－［自ノード２における未実行のタスク数］＜－１　　（１）

　一方、自ノード２が隣接ノード２からタスクを受信する条件は、下記式（２）が満たされる場合であってもよい。
　　　平均値－［自ノード２における未実行のタスク数］＞１　　　（２）

　なお、下記式（３）が満たされる場合は、タスクの分配を行なっても、タスク数の平準化の効果が小さいため、タスクの分配は抑制されてよい。
　　　｜平均値－［自ノード２における未実行のタスク数］｜≦１　（３）

　以下、図２を参照して、タスクの分配処理の一例を説明する。分配処理では、代表ノード２ａ及びノード２ｂは、代表ノード２ａの未実行のタスク数（例えば100）とノード２ｂの未実行のタスク数（例えば40）との合計の平均値である70を分配数に決定する。例えば、代表ノード２ａは、（100-70=）30の未実行のタスクをノード２ｂに送信する。

　ノード２ｂは、代表ノード２ａとの分配処理の完了後、通信経路における第１方向にコマンドを送信し、ノード２ｃとの間で分配処理を実行する。例えば、ノード２ｂ及び２ｃは、ノード２ｂの未実行のタスク数（例えば70）とノード２ｃの未実行のタスク数（例えば20）との合計の平均値である45を分配数に決定する。例えば、ノード２ｂは、（70-45=）25の未実行のタスクをノード２ｂに分配する。

　このように、分配処理は、通信経路１ａ上で第１方向に沿って、コマンドの伝播に伴い順次進行する。図１の例では、ノード２ｃ及び２ｄ間の分配数は25，ノード２ｄ及び２ｅ間の分配数は11となる。

　ノード２ｆは、通信経路１ａの第２方向において代表ノード２ａに隣接する第３ノードの一例である。ノード２ｅは、通信経路１ａの第２方向においてノード２ｆに隣接する第４ノードの一例である。

　ノード２ｆは、ノード２ｅからコマンドを受信すると、ノード２ｅとの間で分配処理を実行し、分配数：7で未実行のタスクの分配を行なう。

　そして、ノード２ｆは、代表ノード２ａにコマンドを送信することで、代表ノード２ａとの間で分配処理を行なう。例えば、ノード２ｆ及び代表ノード２ａは、ノード２ｆの未実行のタスク数（例えば7）と代表ノード２ａの未実行のタスク数（例えば70）との合計の平均である38（38.5の小数点以下切り捨ての場合）を分配数に決定する。例えば、代表ノード２ａは、（70-38=）32の未実行のタスクをノード２ｆに分配する。

　複数のノード２は、例えば、複数のタスクの並列実行処理を、上述した分配処理と並行して実行してよい。例えば、代表ノード２ａは、並列実行処理において、所定時間ごとにコマンドをノード２ｂに送信することで、所定時間間隔で分配処理を開始させてよい。

　なお、図２を参照した説明では、簡単のために、各ノード２において、第１方向に隣接するノード２との間の分配処理で参照されるタスク数が、第２方向に隣接するノード２との間の分配処理で分配された複数のタスクの数であるものとしている。

　しかし、実際には、上述したように、並列実行処理と分配処理とが並行して実行される。このため、分配処理で参照されるタスク数は、第２方向に隣接するノード２との間の分配処理で分配された複数のタスクのうちの、第１方向に隣接するノード２との間の分配処理の実行時点で未実行であるタスクの数であってよい。

　また、通信経路１ａの第１方向における、ノード２ｂからノード２ｆまでの複数のノード２の各々は、自ノード２で実行したタスクの実行結果と、第２方向に隣接するノード２から受信したタスクの実行結果とを、第１方向に隣接するノード２に送信してよい。例えば、各ノード２は、分配処理の過程で、これらの実行結果を第１方向に隣接するノード２に送信してよい。一例として、各ノード２は、分配処理においてノード２間で通信する情報（例えば、コマンド）に、これらの実行結果を含めてもよい。

　これにより、代表ノード２ａは、ノード２ｂ～２ｆの各々によるタスクの実行結果を収集することができる。

　例えば、代表ノード２ａは、収集した実行結果に基づき、ハイパーパラメタ探索処理の終了判定を行なってよい。終了判定が満たされていない場合、代表ノード２ａは、さらにハイパーパラメタ候補を作成し、作成した候補のタスクをタスクリスト２０に登録（追加）することで、タスクリスト２０を更新してよい。そして、代表ノード２ａは、取得（生成）した更新済みタスクリスト２０に基づき分配処理の実行を指示するコマンドを、ノード２ｂに送信してよい。

　管理端末３は、システム１の管理者が利用する端末であり、コンピュータ又は情報処理装置の一例である。管理端末３は、例えば、代表ノード２ａに対して、データの配置，タスク（ジョブ）の起動，処理状態の確認等を行なう。

　なお、管理端末３は、代表ノード２ａに代わり、ハイパーパラメタの候補の生成，タスクリスト２０の生成等の処理を行ない、タスクリスト２０を代表ノード２ａに送信してもよい。

　以上のように、一実施形態に係るシステム１によれば、各々がタスクを実行するノード２のうちの代表ノード２ａが、分配処理の実行を指示するコマンドを、通信経路１ａに沿って第１方向に伝送させるように、ノード２ｂに送信する。

　これにより、未実行のタスクの分配処理を、互いに隣り合うノード２どうしに実行させることができ、分配処理及び並列実行処理の実行による処理負荷及び通信負荷を、複数のノード２間で分散させることができる。

　従って、一実施形態に係るシステム１によれば、図１に例示するシステム１００と比較して、マスタノード１１０の実装を省略できるため、ノード１台あたりの処理効率を向上させることができる。また、特定のノード２（例えば代表ノード２ａ）がシステム１の性能のボトルネックとなる可能性を軽減できる。

　また、一実施形態に係るシステム１によれば、互いに隣り合うノード２における未実行のタスクの数に基づき、当該ノード２間で未実行のタスクが分配される。これにより、互いに隣り合うノード２間の処理性能の差異により生じる未実行のタスクの数を、当該ノード２間での分配処理の実行の都度、調整することができる。従って、ノード２の処理性能が比較的高いノード２において処理待ちが発生することを抑制できる。

　以上のことから、一実施形態に係るシステム１によれば、複数のノード２による複数のタスクの並列実行処理の効率を向上させることができる。

　図３は、一実施形態に係る分配処理の実行回数に応じた各ノード２の分配数の変化の一例を示す図である。図３には、分配処理の実行回数（分配回数）が0の場合において、代表ノード＃１の未実行のタスク数が100の場合を例示する。

　図３に例示するように、分配処理の実行が通信経路１ａを１周（１巡）した場合（分配回数6参照）、隣接するノード２間の分配数の差の最大値は、ノード＃５及び＃６の間の24である。分配処理の実行が通信経路１ａを２周した場合（分配回数12参照）には、隣接するノード２間の分配数の差の最大値は、ノード＃４及び＃５の間の10にまで減少する。分配処理がさらに繰り返されることにより、隣接するノード２間の分配数の差の最大値は、より減少する。

　このように、システム１にタスクが割り当てられていないノード２が存在する場合であっても、分配処理を繰り返し実行する（例えば通信経路１ａを２周以上する）ことで、各ノード２の未実行のタスク数を平準化することができる。

　なお、図３の分配回数0の状態は、複数のノード２がいずれも未実行のタスクを有しておらず、且つ、代表ノード２ａが新たにタスクリスト２０を取得（例えば生成）した状態である。以下、このような状態となるタイミングを、「初回実行タイミング」と表記する。

　代表ノード２ａは、初回実行タイミングにおいては、上述したコマンド（第１コマンド）とは異なる、初回分配処理の実行を指示するコマンド（第２コマンド）を、通信経路１ａに沿って第１方向に伝送させるように、ノード２ｂに送信してもよい。

　初回分配処理は、固定の分配数、例えば、タスクリスト２０の未実行のタスク数を全てのノード２の数で除算して得た分配数を、複数のノード２の各々に分配する処理である。これにより、未実行のタスクを、複数のノード２に均等に分配することができる。

　例えば、代表ノード２ａは、初回実行タイミングとなった場合に、初回分配処理の実行を指示するコマンドを送信してよい。代表ノード２ａは、初回分配処理の実行が通信経路１ａを１周した場合（代表ノード２ａがノード２ｆとの間で初回分配処理を行なった場合）に、初回分配処理を終了してよい。

　このように、初回実行タイミングとなった場合に初回分配処理を実行することで、図３に示す例と比較して短時間で各ノード２の未実行のタスク数を平準化することができる。

　〔Ｃ〕ハードウェア構成例
　図４は、一実施形態に係るノード２の機能を実現するコンピュータ１０のハードウェア（ＨＷ）構成例を示すブロック図である。

　図４に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ，グラフィック処理装置１０ｂ，メモリ１０ｃ，記憶部１０ｄ，ＩＦ（Interface）部１０ｅ，ＩＯ（Input / Output）部１０ｆ，読取部１０ｇを備えてよい。

　プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｊで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

　プロセッサ１０ａとしては、例えば、ＣＰＵ，ＭＰＵ，ＡＰＵ，ＤＳＰ，ＡＳＩＣ，ＦＰＧＡ等の集積回路（ＩＣ）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

　グラフィック処理装置１０ｂは、ＩＯ部１０ｆのうちのモニタ等の出力装置に対する画面表示制御を行なう。また、グラフィック処理装置１０ｂは、機械学習モデルを利用した機械学習処理及び推論処理を実行するアクセラレータとしての構成を有してもよい。グラフィック処理装置１０ｂとしては、種々の演算処理装置、例えば、ＧＰＵ（Graphics Processing Unit），ＡＰＵ，ＤＳＰ，ＡＳＩＣ又はＦＰＧＡ等の集積回路（ＩＣ）が挙げられる。

　メモリ１０ｃは、種々のデータやプログラム等の情報を格納するハードウェアの一例である。メモリ１０ｃとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ，ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

　記憶部１０ｄは、種々のデータやプログラム等の情報を格納するハードウェアの一例である。記憶部１０ｄとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置，ＳＳＤ等の半導体ドライブ装置，不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ，ＳＣＭ（Storage Class Memory），ＲＯＭ（Read Only Memory）等が挙げられる。

　記憶部１０ｄは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｈ（並列処理プログラム）を格納してよい。

　例えば、ノード２のプロセッサ１０ａは、記憶部１０ｄに格納されたプログラム１０ｈをメモリ１０ｃに展開して実行することにより、後述するノード２（例えば、図７に示す制御部２６）としての機能を実現できる。

　ＩＦ部１０ｅは、ノード２間、又は、ノード２（代表ノード２ａ）と管理端末３との間、の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｅは、イーサネット（登録商標），インフィニバンド（InfiniBand），ミリネット（Myrinet），ＰＣＩｅ（Peripheral Component Interconnect express）等の種々の通信規格に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。また、当該アダプタは、例えば、ＦＣ（Fibre Channel）等の光通信に準拠してもよい。

　例えば、ノード２は、ＩＦ部１０ｅ及びネットワークを介して、他のノード２又は管理端末３のそれぞれと相互に通信可能に接続されてよい。なお、プログラム１０ｈは、当該通信ＩＦを介して、図示しないネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｄに格納されてもよい。

　ＩＯ部１０ｆは、入力装置及び出力装置の一方又は双方を含んでよい。入力装置としては、例えば、キーボード，マウス，タッチパネル等が挙げられる。出力装置としては、例えば、モニタ，プロジェクタ，プリンタ等の表示装置が挙げられる。また、ＩＯ部１０ｆは、入力装置及び出力装置が一体となったタッチパネル等を含んでもよい。出力装置は、グラフィック処理装置１０ｂに接続されてもよい。

　読取部１０ｇは、記録媒体１０ｉに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｇは、記録媒体１０ｉを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｇとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ，記録ディスクへのアクセスを行なうドライブ装置，ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｉにはプログラム１０ｈが格納されてもよく、読取部１０ｇが記録媒体１０ｉからプログラム１０ｈを読み出して記憶部１０ｄに格納してもよい。

　記録媒体１０ｉとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク，ＣＤ（Compact Disc），ＤＶＤ（Digital Versatile Disc），ブルーレイディスク，ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

　上述したコンピュータ１０のハードウェア構成は例示である。従って、コンピュータ１０内でのハードウェアの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、コンピュータ１０は、ＩＯ部１０ｆ及び読取部１０ｇ等を省略してもよい。

　図５及び図６は、それぞれ、ノード２間を接続するネットワーク構成の一例を示す図である。

　図５は、システム１における第１のネットワーク構成例を示す。図５に示す第１のネットワーク構成例では、システム１は、ノード２間をトーラス状（リング状）に接続（結合）するネットワーク１１を備えてよい。ネットワーク１１としては、例えば、イーサネット（登録商標），インフィニバンド，ミリネット，ＰＣＩｅ，ＦＣ，Ｔｏｆｕ（Torus fusion）インターコネクト等の高速ネットワークが挙げられる。

　各ノード２は、ＩＦ部１０ｅとして少なくとも２つのアダプタを備えてよく、複数のノード２がリング状に接続されるように、アダプタを介して他のノード２と結線されることで、ネットワーク１１を形成してよい。

　管理端末３は、例えば、少なくとも代表ノード２ａのＩＦ部１０ｅと、ネットワーク１１を介して接続されてよい。

　第１のネットワーク構成例において、図２に示す通信経路１ａは、例えば、物理的に結線されているリング状のネットワーク１１によって実現されてよい。例えば、各ノード２は、第１方向に対応するＩＦ部１０ｅのアダプタと、第２方向に対応するＩＦ部１０ｅのアダプタとを識別することで、第１方向の通信と第２方向の通信とを区別してよい。

　図６は、システム１における第２のネットワーク構成例を示す。図６に示す第２のネットワーク構成例では、システム１は、ノード２間をツリー状（或いはスター状）に接続（結合）するネットワーク１２を備えてよい。ネットワーク１２としては、例えば、イーサネット（登録商標），インフィニバンド，ミリネット，ＰＣＩｅ，ＦＣ等の高速ネットワークが挙げられる。

　各ノード２は、ＩＦ部１０ｅとして少なくとも１つのアダプタを備えてよく、複数のノード２がツリー状に接続されるように、アダプタを介して他のノード２と結線されることで、ネットワーク１２を形成してよい。管理端末３は、例えば、少なくとも代表ノード２ａのＩＦ部１０ｅと、ネットワーク１２を介して接続されてよい。

　第２のネットワーク構成例において、図２に示す通信経路１ａは、例えば、物理的に結線されているツリー状のネットワーク１２を、仮想的にリング状のネットワークとして利用することで実現されてよい。例えば、各ノード２は、仮想的なリング状のネットワークにおいて自ノード２が通信（アクセス）可能なノード２を、通信経路１ａにおいて第１方向及び第２方向にそれぞれ隣接するノード２に制限してもよい。

　なお、システム１のネットワーク構成例は、図５及び図６に示す構成に限られるものではなく、メッシュ状のネットワーク等の既知の種々の構成であってもよい。

　〔Ｄ〕ソフトウェア構成例
　図７は、一実施形態に係るノード２のソフトウェア構成例を示すブロック図である。図７に示すように、ノード２は、例示的に、メモリ部２１，通信部２２，タスク実行部２３及びタスク量平均化処理部２４を備えてよい。また、代表ノード２ａとして動作するノード２は、タスク更新部２５を備えてよい。通信部２２，タスク実行部２３，タスク量平均化処理部２４及びタスク更新部２５は、制御部２６の一例である。

　なお、代表ノード２ａの故障等に備えて各ノード２が代表ノード２ａとして動作可能である場合は、各ノード２がタスク更新部２５を備えてもよい。また、管理端末３がタスク更新部２５として動作する場合は、ノード２はタスク更新部２５を省略してもよい。

　メモリ部２１は、記憶領域の一例であり、ノード２が利用する種々のデータを記憶する。メモリ部２１は、例えば、図４に示すメモリ１０ｃ及び記憶部１０ｄのうちの一方又は双方が有する記憶領域により実現されてもよい。

　図７に示すように、メモリ部２１は、例示的に、タスク情報２１ａ，未完了タスクリスト２１ｂ及び完了タスクリスト２１ｃを記憶可能であってよい。

　タスク情報２１ａは、タスクの実行に用いられる種々の情報、例えば、シミュレーションモデル及びシミュレーションプログラム等を含んでよい。

　未完了タスクリスト２１ｂは、自ノード２において未実行のタスクのリストである。未完了タスクリスト２１ｂには、タスクリスト２０と同様の情報、例えば、入力パラメタセット（タスク）の識別情報（ＩＤ）と、入力パラメタセットとの組み合わせであるタスクが含まれてよい。

　完了タスクリスト２１ｃは、自ノード２において実行済みの（完了した）タスクのリストである。完了タスクリスト２１ｃには、例えば、入力パラメタセット（タスク）の識別情報（ＩＤ）と、タスクの実行結果とが含まれてよい。実行結果には、結果ベクトルが含まれてよい。

　なお、「未完了」又は「未実行」とは、ノード２が当該タスクの実行を開始していない状態であることを示す。「完了」又は「実行済み」とは、ノード２が当該タスクを実行し、結果ベクトルを取得済みであることを示す。

　通信部２２は、ＩＦ部１０ｅ（図４参照）を介して、通信経路１ａにおいて隣接する他のノード２、又は、管理端末３との間で種々の通信を行なう。

　タスク実行部２３は、タスク情報２１ａに含まれるシミュレーションプログラムの実行により、未完了タスクリスト２１ｂに格納されたタスクを順次実行する。例えば、タスク実行部２３は、未完了タスクリスト２１ｂに格納されたタスクの入力パラメタセットをタスク情報２１ａに含まれるシミュレーションモデルに入力し、シミュレーションモデルから出力される結果ベクトルを取得する。

　タスク実行部２３は、例えば、タスクの実行状態の変化に応じて、当該タスクの情報を、未完了タスクリスト２１ｂから完了タスクリスト２１ｃに移動してよい。一例として、タスク実行部２３は、未完了タスクリスト２１ｂ内のタスクの実行を開始すると、当該タスクを未完了タスクリスト２１ｂから削除するとともに、当該タスクの入力パラメタセットの識別情報を完了タスクリスト２１ｃに登録してもよい。そして、タスク実行部２３は、当該タスクの実行により結果ベクトルを取得すると、取得した結果ベクトルを、先に登録した識別情報と対応付けて完了タスクリスト２１ｃに登録してもよい。

　タスク量平均化処理部２４は、タスク実行部２３の動作と並行して、分配処理を実行する。例えば、タスク量平均化処理部２４は、以下の（１）～（６）の処理を繰り返し実行する。

　なお、代表ノード２ａのタスク量平均化処理部２４は、初回実行タイミングとなった場合に限り、分配処理における（１）～（３）の処理の実行を省略し、（４）～（６）の処理を実行してよい。

　（１）タスク量平均化処理部２４は、第２方向に隣接するノード２（第２方向の隣接ノード２）からコマンドを受信すると、第２方向の隣接ノード２との間で、自ノード２の未完了タスクリスト２１ｂに含まれるタスクの数、すなわち、自ノード２で未実行のタスク数を交換する。

　（２）タスク量平均化処理部２４は、自ノード２及び第２方向の隣接ノード２における未実行のタスク数の平均を算出し、自ノード２で未実行のタスク数と平均との差分の数の未実行のタスクを、自ノード２及び第２方向の隣接ノード２間で調整する。

　例えば、自ノード２で未実行のタスク数が平均よりも多い場合、タスク量平均化処理部２４は、差分の数の未実行のタスクを、未完了タスクリスト２１ｂから削除するとともに、第２方向の隣接ノード２に送信する。一方、自ノード２で未実行のタスク数が平均よりも少ない場合、タスク量平均化処理部２４は、第２方向の隣接ノード２で未実行のタスク数と平均との差分の数の未実行のタスクを、第２方向の隣接ノード２から受信し、未完了タスクリスト２１ｂに登録する。

　（３）タスク量平均化処理部２４は、ノード２ｂから第２方向の隣接ノード２までの各ノード２で実行されたタスクの結果情報、例えば、入力パラメタセットの識別情報と結果ベクトルとの組み合わせを、第２方向の隣接ノード２から受信する。結果情報は、完了タスクリスト２１ｃの形式であってもよい。なお、タスク量平均化処理部２４は、受信した結果情報を、自ノード２の完了タスクリスト２１ｃとは区別可能な態様でメモリ部２１に格納してもよいし、自ノード２の完了タスクリスト２１ｃに追加的に登録してもよい。

　（４）タスク量平均化処理部２４は、第１方向に隣接するノード２（第１方向の隣接ノード２）にコマンドを送信し、第１方向の隣接ノード２との間で、自ノード２の未完了タスクリスト２１ｂに含まれるタスクの数、すなわち、自ノード２で未実行のタスク数を交換する。

　なお、初回実行タイミングにおいて、代表ノード２ａの未完了タスクリスト２１ｂは、上述したタスクリスト２０となる。すなわち、代表ノード２ａは、取得（例えば生成）したタスクリスト２０を未完了タスクリスト２１ｂとしてメモリ部２１に格納し、当該未完了タスクリスト２１ｂに含まれるタスクの数を、第１方向の隣接ノード２に送信する。

　（５）タスク量平均化処理部２４は、自ノード２及び第１方向の隣接ノード２における未実行のタスク数の平均を算出し、自ノード２で未実行のタスク数と平均との差分の数の未実行のタスクを、自ノード２及び第１方向の隣接ノード２間で調整する。なお、自ノード２における処理（５）は、第１方向の隣接ノード２の視点では、当該隣接ノード２における処理（２）に相当する。

　例えば、自ノード２で未実行のタスク数が平均よりも多い場合、タスク量平均化処理部２４は、差分の数の未実行のタスクを、未完了タスクリスト２１ｂから削除するとともに、第１方向の隣接ノード２に送信する。一方、自ノード２で未実行のタスク数が平均よりも少ない場合、タスク量平均化処理部２４は、第１方向の隣接ノード２で未実行のタスク数と平均との差分の数の未実行のタスクを、第１方向の隣接ノード２から受信し、未完了タスクリスト２１ｂに登録する。

　（６）タスク量平均化処理部２４は、処理（３）において第２方向の隣接ノード２から受信したタスクの結果情報と、自ノード２の完了タスクリスト２１ｃ内の結果情報とを、第１方向の隣接ノード２に送信する。代表ノード２ａのタスク量平均化処理部２４は、第１方向の隣接ノード２に、結果情報としてダミーデータ（例えば空の情報）を送信してよい。なお、結果情報の送信後、タスク量平均化処理部２４は、送信した結果情報に対応するエントリを完了タスクリスト２１ｃから削除してもよい。

　タスク更新部２５は、代表ノード２ａにおいて、タスク更新処理を行なう。例えば、タスク更新部２５は、ハイパーパラメタ候補ごとに、入力パラメタセットとその識別情報とを含むタスクを作成し、タスクリスト２０（未完了タスクリスト２１ｂ）に登録する。

　また、タスク更新部２５は、第２方向の隣接ノード２（図２の例ではノード２ｆ）から、自ノード２の処理（３）（隣接ノード２の処理（６））において結果情報を受信すると、当該結果情報に基づき、タスクの並列実行処理の終了判定を行なう。

　なお、タスク更新部２５は、結果情報の受信回数、換言すれば、分配処理が通信経路１ａを周回した回数が所定回数Ｎ（Ｎは１以上の整数）に達した場合に、終了判定を行なってもよい。

　受信した結果情報が終了条件を満たしている場合、タスク更新部２５は、並列実行処理を終了する。例えば、タスク更新部２５は、タスクの実行の終了を指示する終了コマンドを、通信経路１ａの第１方向又は第２方向に沿って伝送するように、第１方向又は第２方向に隣接するノード２に送信してよい。第１方向又は第２方向の隣接ノード２から終了コマンドを受信したノード２は、メモリ部２１からタスク情報２１ａ，未完了タスクリスト２１ｂ及び完了タスクリスト２１ｃを削除し、第２方向又は第１方向の隣接ノード２に終了コマンドを送信してよい。

　受信した結果情報が終了条件を満たしていない場合、タスク更新部２５は、ハイパーパラメタ候補を作成する。そして、タスク更新部２５は、ハイパーパラメタ候補ごとに、入力パラメタセットとその識別情報とを含むタスクを作成し、タスクリスト２０（未完了タスクリスト２１ｂ）に登録（追加）する。この場合、代表ノード２ａのタスク量平均化処理部２４は、処理（４）から分配処理を再開する。

　〔Ｅ〕動作例
　次に、一実施形態に係るシステム１（ノード２）の動作例を説明する。図８は、一実施形態に係るノード２の分配処理の動作例を説明するフローチャートである。

　なお、各ノード２のタスク実行部２３は、図８の処理と並行して、未完了タスクリスト２１ｂ内のタスクを実行してよい。また、図８の処理は、代表ノード２ａのタスク更新部２５が終了コマンドを送信した場合に終了してよい。

　以下の説明では、図８の処理を実行するノード２を自ノード２又は単にノード２と表記し、自ノード２に対して第２方向に隣接するノード２を前ノード２と表記し、自ノード２に対して第１方向に隣接するノード２を次ノード２と表記する。

　図８に例示するように、代表ノード２ａ以外の各ノード２（ノード２ｂ～２ｆ）のタスク量平均化処理部２４は、前ノード２からコマンド（第１コマンド）を受信する（ステップＳ１）。当該コマンドは、例えば、前ノード２が自ノード２との間で分配処理を実行可能であること（ＯＫ）を示すコマンドであってよい。

　タスク量平均化処理部２４は、前ノード２を相手ノード２として、図９を参照して後述するタスク量平均化処理を実行する（ステップＳ２）。

　タスク量平均化処理部２４は、前ノード２から結果情報を受信し（ステップＳ３）、結果情報をメモリ部２１に格納する。

　タスク量平均化処理部２４は、次ノード２にコマンド（第１コマンド）を送信する（ステップＳ４）。当該コマンドは、例えば、自ノード２が次ノード２との間で分配処理を実行可能であること（ＯＫ）を示すコマンドであってよい。なお、代表ノード２ａのタスク量平均化処理部２４は、ステップＳ４から処理を開始する。

　タスク量平均化処理部２４は、次ノード２を相手ノード２として、図９を参照して後述するタスク量平均化処理を実行する（ステップＳ５）。

　タスク量平均化処理部２４は、ステップＳ３において受信した結果情報と、自ノード２の結果情報とを次ノード２に送信し（ステップＳ６）、処理がステップＳ１に移行する。例えば、ノード２は、前ノード２から次のコマンドを受信するまで待ち合わせを行なうとともに、タスク実行部２３によりタスクを実行する。

　なお、代表ノード２ａのタスク量平均化処理部２４は、ステップＳ６において、空の情報を送信してもよいし、結果情報の送信自体を抑制してもよい。

　次に、ステップＳ２及びＳ５におけるタスク量平均化処理の動作例を説明する。図９は、一実施形態に係るノード２のタスク量平均化処理の動作例を説明するフローチャートである。

　タスク量平均化処理部２４は、相手ノード２のタスク数、すなわち未実行のタスク数を取得し、自ノード２の未実行のタスク数との平均値を算出する（ステップＳ１１）。

　タスク量平均化処理部２４は、平均値と、自ノード２の未実行のタスク数とが、上記式（１）、すなわち、平均値－［自ノード２における未実行のタスク数］＜－１を満たすか否かを判定する（ステップＳ１２）。

　上記式（１）が満たされる場合（ステップＳ１２でＹＥＳ）、タスク量平均化処理部２４は、自ノード２の未実行のタスク数と平均値との差分のタスクを相手ノード２に送信する（ステップＳ１３）。なお、タスク量平均化処理部２４は、送信したタスクを未完了タスクリスト２１ｂから削除し、タスク量平均化処理が終了する。

　上記式（１）が満たされない場合（ステップＳ１２でＮＯ）、タスク量平均化処理部２４は、平均値と、自ノード２の未実行のタスク数とが、上記式（２）、すなわち、平均値－［自ノード２における未実行のタスク数］＞１を満たすか否かを判定する（ステップＳ１４）。

　上記式（２）が満たされる場合（ステップＳ１４でＹＥＳ）、タスク量平均化処理部２４は、相手ノード２の未実行のタスク数と平均値との差分のタスクを相手ノード２から受信する（ステップＳ１５）。なお、タスク量平均化処理部２４は、受信したタスクを未完了タスクリスト２１ｂに追加し、タスク量平均化処理が終了する。

　上記式（２）が満たされない場合（ステップＳ１４でＮＯ）、すなわち、上記式（３）が満たされる場合、タスク量平均化処理部２４は、タスクの分配を抑制し、タスク量平均化処理が終了する。

　〔Ｆ〕その他
　上述した実施形態に係る技術は、以下のように変形、変更して実施することができる。

　例えば、図７に示すノード２が備える機能ブロック２２～２５は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。

　また、一実施形態では、分配数の決定手法が、互いに隣り合うノード２における未実行のタスク数の平均化であるものとして説明したが、これに限定されるものではない。分配数の決定手法としては、例えば、重み付き平均化，所定数の分配と平均化又は重み付き平均化との組み合わせ，未実行のタスク数と所定の関数とに基づく算出、等の種々の手法が用いられてよい。重み付き平均化では、例えばノード２の処理性能に基づく重みが用いられてもよい。

　〔Ｇ〕付記
　以上の実施形態に関し、さらに以下の付記を開示する。

　（付記１）
　各々がタスクを実行することで複数の前記タスクを並列実行する、複数のコンピュータのうちの、第１コンピュータとしてのコンピュータに、
　前記複数のタスクのリストを取得し、
　自コンピュータと、前記第１コンピュータから前記複数のコンピュータの各々を経由し前記第１コンピュータに戻る通信経路の第１方向において前記自コンピュータに隣接する１つのコンピュータと、を含む２つのコンピュータにおける未実行のタスクの数に基づき前記２つのコンピュータ間で前記未実行のタスクを分配させる分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記通信経路の前記第１方向において前記第１コンピュータに隣接する第２コンピュータに送信する、
処理を実行させる、並列処理プログラム。

　（付記２）
　前記コンピュータに、
　　前記通信経路の前記第１方向とは異なる第２方向において前記第１コンピュータに隣接する第３コンピュータから、前記通信経路の前記第１方向における、前記第２コンピュータから前記第３コンピュータまでの各々において実行されたタスクの実行結果を受信し、
　　受信した前記実行結果に基づき更新された前記リストを取得し、
　　前記更新されたリストに基づき前記分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記第２コンピュータに送信する、
処理を実行させる、付記１に記載の並列処理プログラム。

　（付記３）
　前記コンピュータに、
　　前記第３コンピュータから前記コマンドを受信し、
　　前記第３コンピュータが前記通信経路の前記第２方向において前記第３コンピュータに隣接する第４コンピュータとの間で実行した前記分配処理により前記第３コンピュータに分配された複数のタスクのうちの未実行のタスクと、前記第１コンピュータが前記第２コンピュータとの間で実行した前記分配処理により前記第１コンピュータに分配された複数のタスクのうちの未実行のタスクとの数に基づき、前記第１コンピュータの未実行のタスクと前記第３コンピュータの未実行のタスクとを前記第１コンピュータ及び前記第３コンピュータ間で分配する、
処理を実行させる、付記２に記載の並列処理プログラム。

　（付記４）
　前記分配処理は、前記２つのコンピュータにおける未実行のタスクの数を前記２つのコンピュータ間で平均化するように、前記２つのコンピュータ間で前記未実行のタスクを分配させる処理である、
付記１～付記３のいずれか１項に記載の並列処理プログラム。

　（付記５）
　各々がタスクを実行することで複数の前記タスクを並列実行する、複数の並列処理装置のうちの、第１並列処理装置としての並列処理装置であって、
　前記複数のタスクのリストを取得し、
　自並列処理装置と、前記第１並列処理装置から前記複数の並列処理装置の各々を経由し前記第１並列処理装置に戻る通信経路の第１方向において前記自並列処理装置に隣接する１つの並列処理装置と、を含む２つの並列処理装置における未実行のタスクの数に基づき前記２つの並列処理装置間で前記未実行のタスクを分配させる分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記通信経路の前記第１方向において前記第１並列処理装置に隣接する第２並列処理装置に送信する、
制御部を備える、並列処理装置。

　（付記６）
　前記制御部は、
　　前記通信経路の前記第１方向とは異なる第２方向において前記第１並列処理装置に隣接する第３並列処理装置から、前記通信経路の前記第１方向における、前記第２並列処理装置から前記第３並列処理装置までの各々において実行されたタスクの実行結果を受信し、
　　受信した前記実行結果に基づき更新された前記リストを取得し、
　　前記更新されたリストに基づき前記分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記第２並列処理装置に送信する、
付記５に記載の並列処理装置。

　（付記７）
　前記制御部は、
　　前記第３並列処理装置から前記コマンドを受信し、
　　前記第３並列処理装置が前記通信経路の前記第２方向において前記第３並列処理装置に隣接する第４並列処理装置との間で実行した前記分配処理により前記第３並列処理装置に分配された複数のタスクのうちの未実行のタスクと、前記第１並列処理装置が前記第２並列処理装置との間で実行した前記分配処理により前記第１並列処理装置に分配された複数のタスクのうちの未実行のタスクとの数に基づき、前記第１並列処理装置の未実行のタスクと前記第３並列処理装置の未実行のタスクとを前記第１並列処理装置及び前記第３並列処理装置間で分配する、
付記６に記載の並列処理装置。

　（付記８）
　前記分配処理は、前記２つの並列処理装置における未実行のタスクの数を前記２つの並列処理装置間で平均化するように、前記２つの並列処理装置間で前記未実行のタスクを分配させる処理である、
付記５～付記７のいずれか１項に記載の並列処理装置。

　（付記９）
　各々がタスクを実行することで複数の前記タスクを並列実行する、複数のノードのうちの、前記複数のタスクのリストを取得した第１ノードが、
　　自ノードと、前記第１ノードから前記複数のノードの各々を経由し前記第１ノードに戻る通信経路の第１方向において前記自ノードに隣接する１つのノードと、を含む２つのノードにおける未実行のタスクの数に基づき前記２つのノード間で前記未実行のタスクを分配させる分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記通信経路の前記第１方向において前記第１ノードに隣接する第２ノードに送信する、
並列処理方法。

　（付記１０）
　前記通信経路の前記第１方向における、前記第２ノードから、前記通信経路の前記第１方向とは異なる第２方向において前記第１ノードに隣接する第３ノードまでの複数のノードの各々が、
　　前記分配処理において、前記自ノードにおいて実行したタスクの実行結果と、前記通信経路の前記第２方向において前記自ノードに隣接するノードから受信する実行結果とを、前記通信経路の前記第１方向において前記自ノードに隣接するノードに送信する、
付記９に記載の並列処理方法。

　（付記１１）
　前記第１ノードが、
　　前記第３ノードから受信した実行結果に基づき更新された前記リストを取得し、
　　前記更新されたリストに基づき前記分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記第２ノードに送信する、
付記１０に記載の並列処理方法。

　（付記１２）
　前記第３ノードが、
　　前記通信経路の前記第２方向において前記第３ノードに隣接する第４ノードから前記コマンドを受信すると、前記第４ノードとの間で前記分配処理を実行し、
　　前記第１ノードに前記コマンドを送信することで、前記第４ノードとの間で実行した前記分配処理により前記第３ノードに分配された複数のタスクのうちの未実行のタスクと、前記第１ノードが前記第２ノードとの間で実行した前記分配処理により前記第１ノードに分配された複数のタスクのうちの未実行のタスクとの数に基づき、前記第１ノードの未実行のタスクと前記第３ノードの未実行のタスクとを前記第１ノード及び前記第３ノード間で分配する、
付記１０又は付記１１に記載の並列処理方法。

　（付記１３）
　前記分配処理は、前記２つのノードにおける未実行のタスクの数を前記２つのノード間で平均化するように、前記２つのノード間で前記未実行のタスクを分配させる処理である、
付記９～付記１２のいずれか１項に記載の並列処理方法。

　（付記１４）
　各々がタスクを実行することで複数の前記タスクを並列実行する、複数のノードを備え、
　前記複数のノードのうちの、前記複数のタスクのリストを取得した第１ノードは、
　　自ノードと、前記第１ノードから前記複数のノードの各々を経由し前記第１ノードに戻る通信経路の第１方向において前記自ノードに隣接する１つのノードと、を含む２つのノードにおける未実行のタスクの数に基づき前記２つのノード間で前記未実行のタスクを分配させる分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記通信経路の前記第１方向において前記第１ノードに隣接する第２ノードに送信する、
並列処理システム。

　（付記１５）
　前記通信経路の前記第１方向における、前記第２ノードから、前記通信経路の前記第１方向とは異なる第２方向において前記第１ノードに隣接する第３ノードまでの複数のノードの各々は、
　　前記分配処理において、前記自ノードにおいて実行したタスクの実行結果と、前記通信経路の前記第２方向において前記自ノードに隣接するノードから受信する実行結果とを、前記通信経路の前記第１方向において前記自ノードに隣接するノードに送信する、
付記１４に記載の並列処理システム。

　（付記１６）
　前記第１ノードは、
　　前記第３ノードから受信した実行結果に基づき更新された前記リストを取得し、
　　前記更新されたリストに基づき前記分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記第２ノードに送信する、
付記１５に記載の並列処理システム。

　（付記１７）
　前記第３ノードは、
　　前記通信経路の前記第２方向において前記第３ノードに隣接する第４ノードから前記コマンドを受信すると、前記第４ノードとの間で前記分配処理を実行し、
　　前記第１ノードに前記コマンドを送信することで、前記第４ノードとの間で実行した前記分配処理により前記第３ノードに分配された複数のタスクのうちの未実行のタスクと、前記第１ノードが前記第２ノードとの間で実行した前記分配処理により前記第１ノードに分配された複数のタスクのうちの未実行のタスクとの数に基づき、前記第１ノードの未実行のタスクと前記第３ノードの未実行のタスクとを前記第１ノード及び前記第３ノード間で分配する、
付記１５又は付記１６に記載の並列処理システム。

　（付記１８）
　前記分配処理は、前記２つのノードにおける未実行のタスクの数を前記２つのノード間で平均化するように、前記２つのノード間で前記未実行のタスクを分配させる処理である、
付記１４～付記１７のいずれか１項に記載の並列処理システム。

　１　　システム
　１ａ　　通信経路
　１０　　コンピュータ
　１１，１２　　ネットワーク
　２，２ｂ～２ｆ　　ワーカノード，ノード
　２ａ　　代表ワーカノード，ワーカノード，ノード
　２０　　タスクリスト
　２１　　メモリ部
　２１ａ　　タスク情報
　２１ｂ　　未完了タスクリスト
　２１ｃ　　完了タスクリスト
　２２　　通信部
　２３　　タスク実行部
　２４　　タスク量平均化処理部
　２５　　タスク更新部
　２６　　制御部
　３　　管理端末

Claims

　各々がタスクを実行することで複数の前記タスクを並列実行する、複数のコンピュータのうちの、第１コンピュータとしてのコンピュータに、
　前記複数のタスクのリストを取得し、
　自コンピュータと、前記第１コンピュータから前記複数のコンピュータの各々を経由し前記第１コンピュータに戻る通信経路の第１方向において前記自コンピュータに隣接する１つのコンピュータと、を含む２つのコンピュータにおける未実行のタスクの数に基づき前記２つのコンピュータ間で前記未実行のタスクを分配させる分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記通信経路の前記第１方向において前記第１コンピュータに隣接する第２コンピュータに送信する、
処理を実行させる、並列処理プログラム。
　前記コンピュータに、
　　前記通信経路の前記第１方向とは異なる第２方向において前記第１コンピュータに隣接する第３コンピュータから、前記通信経路の前記第１方向における、前記第２コンピュータから前記第３コンピュータまでの各々において実行されたタスクの実行結果を受信し、
　　受信した前記実行結果に基づき更新された前記リストを取得し、
　　前記更新されたリストに基づき前記分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記第２コンピュータに送信する、
処理を実行させる、請求項１に記載の並列処理プログラム。
　前記コンピュータに、
　　前記第３コンピュータから前記コマンドを受信し、
　　前記第３コンピュータが前記通信経路の前記第２方向において前記第３コンピュータに隣接する第４コンピュータとの間で実行した前記分配処理により前記第３コンピュータに分配された複数のタスクのうちの未実行のタスクと、前記第１コンピュータが前記第２コンピュータとの間で実行した前記分配処理により前記第１コンピュータに分配された複数のタスクのうちの未実行のタスクとの数に基づき、前記第１コンピュータの未実行のタスクと前記第３コンピュータの未実行のタスクとを前記第１コンピュータ及び前記第３コンピュータ間で分配する、
処理を実行させる、請求項２に記載の並列処理プログラム。
　前記分配処理は、前記２つのコンピュータにおける未実行のタスクの数を前記２つのコンピュータ間で平均化するように、前記２つのコンピュータ間で前記未実行のタスクを分配させる処理である、
請求項１～請求項３のいずれか１項に記載の並列処理プログラム。
　各々がタスクを実行することで複数の前記タスクを並列実行する、複数の並列処理装置のうちの、第１並列処理装置としての並列処理装置であって、
　前記複数のタスクのリストを取得し、
　自並列処理装置と、前記第１並列処理装置から前記複数の並列処理装置の各々を経由し前記第１並列処理装置に戻る通信経路の第１方向において前記自並列処理装置に隣接する１つの並列処理装置と、を含む２つの並列処理装置における未実行のタスクの数に基づき前記２つの並列処理装置間で前記未実行のタスクを分配させる分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記通信経路の前記第１方向において前記第１並列処理装置に隣接する第２並列処理装置に送信する、
制御部を備える、並列処理装置。
　前記制御部は、
　　前記通信経路の前記第１方向とは異なる第２方向において前記第１並列処理装置に隣接する第３並列処理装置から、前記通信経路の前記第１方向における、前記第２並列処理装置から前記第３並列処理装置までの各々において実行されたタスクの実行結果を受信し、
　　受信した前記実行結果に基づき更新された前記リストを取得し、
　　前記更新されたリストに基づき前記分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記第２並列処理装置に送信する、
請求項５に記載の並列処理装置。
　前記制御部は、
　　前記第３並列処理装置から前記コマンドを受信し、
　　前記第３並列処理装置が前記通信経路の前記第２方向において前記第３並列処理装置に隣接する第４並列処理装置との間で実行した前記分配処理により前記第３並列処理装置に分配された複数のタスクのうちの未実行のタスクと、前記第１並列処理装置が前記第２並列処理装置との間で実行した前記分配処理により前記第１並列処理装置に分配された複数のタスクのうちの未実行のタスクとの数に基づき、前記第１並列処理装置の未実行のタスクと前記第３並列処理装置の未実行のタスクとを前記第１並列処理装置及び前記第３並列処理装置間で分配する、
請求項６に記載の並列処理装置。
　前記分配処理は、前記２つの並列処理装置における未実行のタスクの数を前記２つの並列処理装置間で平均化するように、前記２つの並列処理装置間で前記未実行のタスクを分配させる処理である、
請求項５～請求項７のいずれか１項に記載の並列処理装置。
　各々がタスクを実行することで複数の前記タスクを並列実行する、複数のノードのうちの、前記複数のタスクのリストを取得した第１ノードが、
　　自ノードと、前記第１ノードから前記複数のノードの各々を経由し前記第１ノードに戻る通信経路の第１方向において前記自ノードに隣接する１つのノードと、を含む２つのノードにおける未実行のタスクの数に基づき前記２つのノード間で前記未実行のタスクを分配させる分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記通信経路の前記第１方向において前記第１ノードに隣接する第２ノードに送信する、
並列処理方法。
　前記通信経路の前記第１方向における、前記第２ノードから、前記通信経路の前記第１方向とは異なる第２方向において前記第１ノードに隣接する第３ノードまでの複数のノードの各々が、
　　前記分配処理において、前記自ノードにおいて実行したタスクの実行結果と、前記通信経路の前記第２方向において前記自ノードに隣接するノードから受信する実行結果とを、前記通信経路の前記第１方向において前記自ノードに隣接するノードに送信する、
請求項９に記載の並列処理方法。
　前記第１ノードが、
　　前記第３ノードから受信した実行結果に基づき更新された前記リストを取得し、
　　前記更新されたリストに基づき前記分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記第２ノードに送信する、
請求項１０に記載の並列処理方法。
　前記第３ノードが、
　　前記通信経路の前記第２方向において前記第３ノードに隣接する第４ノードから前記コマンドを受信すると、前記第４ノードとの間で前記分配処理を実行し、
　　前記第１ノードに前記コマンドを送信することで、前記第４ノードとの間で実行した前記分配処理により前記第３ノードに分配された複数のタスクのうちの未実行のタスクと、前記第１ノードが前記第２ノードとの間で実行した前記分配処理により前記第１ノードに分配された複数のタスクのうちの未実行のタスクとの数に基づき、前記第１ノードの未実行のタスクと前記第３ノードの未実行のタスクとを前記第１ノード及び前記第３ノード間で分配する、
請求項１０又は請求項１１に記載の並列処理方法。
　前記分配処理は、前記２つのノードにおける未実行のタスクの数を前記２つのノード間で平均化するように、前記２つのノード間で前記未実行のタスクを分配させる処理である、
請求項９～請求項１２のいずれか１項に記載の並列処理方法。
　各々がタスクを実行することで複数の前記タスクを並列実行する、複数のノードを備え、
　前記複数のノードのうちの、前記複数のタスクのリストを取得した第１ノードは、
　　自ノードと、前記第１ノードから前記複数のノードの各々を経由し前記第１ノードに戻る通信経路の第１方向において前記自ノードに隣接する１つのノードと、を含む２つのノードにおける未実行のタスクの数に基づき前記２つのノード間で前記未実行のタスクを分配させる分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記通信経路の前記第１方向において前記第１ノードに隣接する第２ノードに送信する、
並列処理システム。
　前記通信経路の前記第１方向における、前記第２ノードから、前記通信経路の前記第１方向とは異なる第２方向において前記第１ノードに隣接する第３ノードまでの複数のノードの各々は、
　　前記分配処理において、前記自ノードにおいて実行したタスクの実行結果と、前記通信経路の前記第２方向において前記自ノードに隣接するノードから受信する実行結果とを、前記通信経路の前記第１方向において前記自ノードに隣接するノードに送信する、
請求項１４に記載の並列処理システム。
　前記第１ノードは、
　　前記第３ノードから受信した実行結果に基づき更新された前記リストを取得し、
　　前記更新されたリストに基づき前記分配処理の実行を指示するコマンドを、前記通信経路に沿って前記第１方向に伝送させるように、前記第２ノードに送信する、
請求項１５に記載の並列処理システム。
　前記第３ノードは、
　　前記通信経路の前記第２方向において前記第３ノードに隣接する第４ノードから前記コマンドを受信すると、前記第４ノードとの間で前記分配処理を実行し、
　　前記第１ノードに前記コマンドを送信することで、前記第４ノードとの間で実行した前記分配処理により前記第３ノードに分配された複数のタスクのうちの未実行のタスクと、前記第１ノードが前記第２ノードとの間で実行した前記分配処理により前記第１ノードに分配された複数のタスクのうちの未実行のタスクとの数に基づき、前記第１ノードの未実行のタスクと前記第３ノードの未実行のタスクとを前記第１ノード及び前記第３ノード間で分配する、
請求項１５又は請求項１６に記載の並列処理システム。
　前記分配処理は、前記２つのノードにおける未実行のタスクの数を前記２つのノード間で平均化するように、前記２つのノード間で前記未実行のタスクを分配させる処理である、
請求項１４～請求項１７のいずれか１項に記載の並列処理システム。