WO2021210123A1

WO2021210123A1 - スケジューリング方法、スケジューラ、ｇｐｕクラスタシステムおよびプログラム

Info

Publication number: WO2021210123A1
Application number: PCT/JP2020/016697
Authority: WO
Inventors: 兼三奥田; 益谷　仁士; 武志弘田; 健桑原
Original assignee: 日本電信電話株式会社
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2021-10-21
Also published as: JP7385156B2; JPWO2021210123A1

Abstract

スケジューリング方法であって、スケジューラ１は、投入されたジョブをフェッチ開始待ちのジョブを格納する第１ステージキュー１３-１５に格納するステップと、第１ステージキュー１０のジョブを取り出してフェッチングジョブリスト３０に登録し、前記ジョブのデータのフェッチをキャッシュクラスタ７に開始させるステップと、フェッチしたデータ量が所定の閾値を超えたジョブをフェッチングジョブリスト３０から取り出しデプロイ待ちのジョブを格納する第２ステージキュー１２－２５に格納するステップと、第２ステージキュー２０からジョブを取り出し、当該ジョブのデプロイを指示するステップと、を行う。

Description

スケジューリング方法、スケジューラ、ＧＰＵクラスタシステムおよびプログラム

　本発明は、スケジューリング方法、スケジューラ、GPUクラスタシステムおよびプログラムに関する。

　GPU（Graphics Processing Unit）は、高精細な画像や動画のレンダリングなどに必要な計算処理を行うハードウェアである。近年、GPUは、機械学習（Machine Learning)などの演算器として用いられている。また、複数のGPUをクラスタ化したGPUクラスタの開発も行われている。コンテナ型のGPUクラスタを管理するオープンソース・ソフトウェアとしてKubernetesが存在する（非特許文献１）。

Kubernetes、［online］、インターネット＜URL: https://github.com/kubernetes/kubernetes＞ Kubernetes、［online］、インターネット＜URL: https://kubernetes.io/docs/concepts/overview/what-is-kubernetes/＞

　従来のGPUクラスタでは、ストレージにアップロードされた学習対象などのデータを読み出しながら機械学習処理などが行われる。GPUの処理速度は高速であるが、これに比べてストレージの処理速度は遅い。このため、ジョブが確保したGPUに、データの読み出し待ちによる遊休時間が発生してしまう。

　本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、GPUの遊休時間を低減し、GPUの稼働率を向上させるスケジューリング方法、スケジューラ、GPUクラスタシステムおよびプログラムを提供することにある。

　上記目的を達成するため、本発明の一態様は、GPUクラスタシステムが行うスケジューリング方法であって、スケジューラは、投入されたジョブを、フェッチ開始待ちのジョブを格納する第１ステージキューに格納するステップと、第１ステージキューのジョブを取り出してフェッチングジョブリストに登録し、前記ジョブのデータのフェッチをキャッシュクラスタに開始させるステップと、フェッチしたデータ量が所定の閾値を超えたジョブを、フェッチングジョブリストから取り出し、デプロイ待ちのジョブを格納する第２ステージキューに格納するステップと、第２ステージキューからジョブを取り出し、当該ジョブのデプロイを指示するステップと、を行い、前記キャッシュクラスタは、フェッチングジョブリストに登録されたジョブのデータを、当該データが格納されたストレージからフェッチして、当該キャッシュクラスタに格納するステップを行い、GPUクラスタは、前記キャッシュクラスタのデータにアクセスして、ジョブを実行するステップを行う。

　本発明の一態様は、GPUクラスタシステムにおけるスケジューラであって、投入されたジョブを、フェッチ開始待ちのジョブを格納する第１ステージキューに格納する第１キューセレクタと、第１ステージキューのジョブを取り出してフェッチングジョブリストに登録し、ストレージに格納された、前記ジョブのデータのフェッチをキャッシュクラスタに開始させる第１ジョブセレクタと、フェッチしたデータ量が所定の閾値を超えたジョブを、フェッチングジョブリストから取り出し、デプロイ待ちのジョブを格納する第２ステージキューに格納する第２キューセレクタと、第２ステージキューからジョブを取り出し、当該ジョブのデプロイを指示する第２ジョブセレクタと、を有し、前記ジョブのデプロイ指示には、前記ジョブのデータの格納場所として前記キャッシュクラスタが指定され、GPUクラスタは前記キャッシュクラスタにアクセスして前記ジョブを実行する。

　本発明の一態様は、スケジューラと、キャッシュクラスタと、GPUクラスタとを備えるGPUクラスタシステムであって、前記キャッシュクラスタは、フェッチングジョブリストに登録されたジョブのデータを、当該データが格納されたストレージからフェッチして、当該キャッシュクラスタに格納し、前記GPUクラスタは、前記キャッシュクラスタのデータにアクセスして、ジョブを実行する。

　本発明の一態様は、上記スケジューラとして、コンピュータを機能させるプログラムである。

　本発明によれば、GPUの遊休時間を低減し、GPUの稼働率を向上させるスケジューリング方法、スケジューラ、GPUクラスタシステムおよびプログラムを提供することができる。

基本的なGPUクラスタシステムの構成図である。ユーザストレージにアクセスする図１のGPUクラスタシステムの構成図である。本実施形態のGPUクラスタシステムの構成図である。キャッシュクラスタの構成図である。スケジューラの構成図である。第１キューセレクタの処理を示すフローチャートである。第１ジョブセレクタの処理を示すフローチャートである。第２キューセレクタの処理を示すフローチャートである。第２ジョブセレクタの処理を示すフローチャートである。実施例１のGPUクラスタの構成図である。実施例２のGPUクラスタの構成図である。実施例３のGPUクラスタの構成図である。方式１の閉域接続を示す模式図である。方式２の閉域接続を示す模式図である。方式３の閉域接続を示す模式図である。方式４の閉域接続を示す模式図である。方式５の閉域接続を示す模式図である。方式６の閉域接続を示す模式図である。方式７の閉域接続を示す模式図である。基本的なGPUクラスタシステムの動作を示すシーケンス図である。本実施形態のGPUクラスタの動作を示すシーケンス図である。本実施形態のGPUクラスタの動作を示すシーケンス図である。本実施形態のGPUクラスタの動作を示すシーケンス図である。本実施形態のGPUクラスタの動作を示すシーケンス図である。本実施形態のGPUクラスタの動作を示すシーケンス図である。本実施形態のGPUクラスタの動作を示すシーケンス図である。方式２の「閉域接続の確立処理」を示すシーケンス図である。方式２の「閉域接続の解除処理」を示すシーケンス図である。方式７の「閉域接続の確立処理」を示すシーケンス図である。方式７の「閉域接続の解除処理」を示すシーケンス図である。「学習対象データのクラスタ格納処理」を示すシーケンス図である。「学習対象データのクラスタ格納処理」を示すシーケンス図である。「学習処理におけるキャッシュクラスタへのデータアクセス処理」を示すシーケンス図である。「ジョブのチェックポイント処理」を示すシーケンス図である。「ジョブのチェックポイント処理」を示すシーケンス図である。「ジョブのチェックポイント処理」を示すシーケンス図である。「ジョブのリストア処理」を示すシーケンス図である。「ジョブのリストア処理」を示すシーケンス図である。「ジョブのリストア処理」を示すシーケンス図である。ハードウェア構成図である。

　以下、本発明の実施の形態について、図面を参照して説明する。

　（GPUクラスタシステムの基本構成）
　図１は、基本的なGPUクラスタシステムの概略構成を示す構成図である。図示するGPUクラスタシステムは、GPUを用いた学習処理を実行するためのGPU学習クラスタシステムである。

　クラスタ提供事業者（以下、「事業者」という）は、GPUクラスタを用いて学習処理を代行する設備をユーザ（利用者）に提供する。ユーザは、高価なGPUを保有せずに、GPUクラスタの利用時間等に応じて従量課金された金額を事業者に支払う。機械学習等の学習処理は一度実行すれば良いため、ユーザは、高価なGPUを購入するよりも、従量課金された金額を支払う方が低コストとなる。

　一方、GPUの稼働率を高めることが、事業者の利益最大化のポイントとなる。そのため、GPUクラスタシステムでは、多様なジョブ（Job）を実行できること（すなわちジョブの仮想化）、ジョブのデプロイが高速であることなどが求められる。

　図１を参照して基本的なGPUクラスタの動作概要を説明する。ここでは、GPUリソースをジョブの実行毎に割り当てるコンテナ型のクラスタを用いる。ユーザ端末５は、ユーザの指示により、GPUクラスタを提供する事業者から指示されたクラスタ共有ストレージ４Ａに学習対象となるデータ等を格納する（Ｓ１Ａ）。ユーザ端末５は、ユーザの指示により、実施したい学習処理のジョブをスケジューラ１Ａに登録する（Ｓ２Ａ）。スケジューラ１Ａは、複数のユーザ端末５から受け取ったジョブを優先順位、想定処理時間などを踏まえてスケジューリングし、 GPUリソースが確保でき次第マスタ２Ａにジョブの実行を指示する（Ｓ３Ａ）。

　マスタ２Ａは、ジョブをノードにデプロイし、GPUをアタッチし、GPUに学習処理を実行させる（Ｓ４Ａ）。すなわち、マスタ２Ａは、ジョブ毎に学習・推論のプログラムを実行するための仮想環境を生成し、GPUをアタッチする。マスタ２Ａは、ジョブが完了したらGPUを開放する。GPUは、予めクラスタ共有ストレージ４Ａにアップロードされた学習対象データを読み出しながら学習処理を行い、学習処理の結果をクラスタ共有ストレージ４Ａに格納する（Ｓ５Ａ）。ユーザは、自身のジョブの実行が終了すると、クラスタ共有ストレージ４Ａにアクセスすることで、学習処理の実行結果を取得することができる。

　図１に示す基本的なGPUクラスタシステムの場合、下記のような想定状況および制約条件に対応することが難しい。

　(1)学習プログラムの処理速度よりもストレージの速度（データ転送速度）が遅い場合、Ｓ５Ａの処理において、ストレージの速度不足によりジョブが確保したGPUに遊休時間が発生する。ビッグデータは、Cephなどを用いた大容量分散ストレージであるクラスタ共有ストレージ４に、無加工またはほぼ無加工で格納される。分散ストレージは、分散並列化の効果で大容量化しても低速化しないことが特徴であるが、劇的に高速化するわけではなく、高々数百MB/s の性能である。

　GPUの処理速度に匹敵する高速なストレージは極めて高価であるため、ビッグデータすべてを格納できる容量の高価なストレージは用意できない。一方、ビッグデータ全体が同時に必要になることはない。

　(2)学習対象データを纏まった状態でクラスタ共有ストレージ４にアップロードできない、または、学習対象データが巨大過ぎて、全ての学習対象データをアップロードするのが現実的ではない場合がある。

　このような場合、図２に示すように、ユーザ端末５は、ユーザ拠点のユーザストレージ６Ａに学習対象データを格納し（Ｓ１Ａ’）、ノード３Ａのジョブは、ユーザストレージ６Ａに閉域接続し、ユーザストレージ６Ａに直接アクセスする（Ｓ５Ａ’）。しかしながら、ユーザストレージ６Ａからノード３Ａまでの通信区間があり、また、ユーザストレージ６Ａの速度が遅いことにより、学習プログラムの処理速度よりもデータ転送速度が遅くなり、GPUの遊休時間が発生する。

　(3) GPUを効率的に稼働させるために、データの蓄積と学習処理とを並行して実行させたい場合がある。

　このような状況に対応可能な本実施形態のGPUクラスタシステムについて、以下に説明する。

　（本実施形態のGPUクラスタシステム）
　図３は、本実施形態のGPUクラスタシステムの概略構成を示す構成図である。本実施形態のGPUクラスタシステムは、GPUを用いて学習処理を実行するためのGPU学習クラスタシステムである。学習処理は、学習対象データを読み込んで、機械学習等の処理を行うことである。この際、学習対象データの全てを一括で読み込むのではなく、ブロック単位やファイル単位などに分けて順々に読み込みながら学習処理を行う。

　図示するGPUクラスタシステムは、スケジューラ１と、マスタ２と、ノード３と、クラスタ共有ストレージ４と、キャッシュクラスタ７とを備える。ここでは、GPUリソースをジョブの実行毎に割り当てるコンテナ型のGPUクラスタを用いる。ユーザ拠点では、ユーザが学習対象データを格納するユーザストレージ６を備えていてもよい。

　本実施形態のGPUクラスタシステムは、高コストで高速なキャッシュクラスタ７（キャッシュ）を備え、スケジューラ１は、キャッシュクラスタ７とGPUとを同時にスケジュールする。大容量データは、通常時には低コストで低速なストレージ（クラスタ共有ストレージ４、ユーザストレージ６）に格納しておき、ジョブの実行の際にデータをキャッシュクラスタ７に格納する。これにより、本実施形態では、GPUは、高速なキャッシュクラスタ７からデータを読み出すため、GPUがデータ読み出し待ちで遊休してしまう事態を回避することができる。

　スケジューラ１（Scheduler）は、ユーザ端末５から投入されるジョブ（Job）を受け付ける。スケジューラ１は、GPUクラスタ内のGPUリソースの空き状況を監視し、空きがあれば、ジョブのデプロイ（実行環境に展開すること）をマスタ２に指示する。すなわち、スケジューラ１は、ジョブの実行をマスタ２に指示する。

　マスタ２（Master）は、ノード３（Node）の管理と、ジョブのデプロイを行う。マスタ２は、スケジューラ１からジョブのデプロイが指示されると、ノード３上にジョブに定義されたコンテナ等の仮想環境を構築し、仮想環境でジョブに定義されているプログラムを実行させる。マスタ２は、ジョブに定義されたプログラムが完了すると、仮想環境を削除する。

　ノード３（Node）には、複数のGPUがプールされている。GPUは、マスタ２にアタッチされるとジョブを実行する。ジョブは、ユーザが実行したいプログラム（例えば、学習、推論のプログラム）と、プログラムの実行環境とを定義したものである。具体的には、ジョブには、実行すべき１以上のプログラムと、その順序とが含まれる。また、ジョブには、プログラムを実行するための環境（仮想環境、ランタイム、OS、ディストリビューション、ライブラリ等）が含まれる。例えば、ジョブには、環境として、コンテナのイメージファイル名、VM（Virtual Machine）のイメージファイル名などが含まれる。また、必要があれば、ジョブは、上記環境を自動的に構築するための手順を含み、ジョブが自動で実行環境のイメージを生成してもよい。本実施形態のジョブはメインコンテナ（Main Container）を含み、メインコンテナ以外のコンテナを含んでもよい。メインコンテナは、本実施形態の学習プログラムを実行する仮想環境のコンテナである。なお、本実施形態では、仮想環境の実現形態としてコンテナを用いるが、VMでもよい。

　クラスタ共有ストレージ４（Cluster Shared Storage）は、データを格納するストレージシステムである。例えば、クラスタ共有ストレージ４には、学習対象データと、実行結果とが格納される。ジョブの仮想環境からクラスタ共有ストレージ４にアクセスできる。ユーザは、直接的または間接的に何らかの手段でクラスタ共有ストレージ４に、ジョブが読み込む学習対象データを格納できる。クラスタ共有ストレージ４では、大量の学習対象データを格納するため、例えばCeph、GlusterFS、Swift、RAID等のストレージ技術の利用が想定される。Ceph(https://ceph.io/)およびGlusterFS(https://www.gluster.org/)は、オープンソースの分散ストレージソフトウェアである。

　キャッシュクラスタ７（Cluster Shared Storage）については、後述する。

　次に、図３を参照して、本実施形態のGPUクラスタシステムの動作概要を説明する。ここでは、GPUリソースをジョブの実行毎に割り当てるコンテナ型のクラスタを用いる。

　本実施形態では、キャッシュクラスタ７がクラスタ共有ストレージ４またはユーザストレージ６からデータをフェッチする。なお、データを読み出す「フェッチ」は、以降において「キャッシュ」ともいう。

　ユーザ端末５は、ユーザの指示により、GPUクラスタシステムを提供する事業者から指示されたクラスタ共有ストレージ４またはユーザストレージ６に学習対象データ等を格納する（Ｓ１）。ユーザ端末５は、ユーザの指示により、実施したい学習処理のジョブをスケジューラ１に登録する（Ｓ２）。スケジューラ１は、キャッシュクラスタ７にデータをキャッシュするように指示する（Ｓ３）。キャッシュクラスタ７は、クラスタ共有ストレージ４またはユーザストレージ６から学習対象データのフェッチを開始する（Ｓ４）。スケジューラ１は、複数のユーザ端末５（ユーザ）から受け取ったジョブを登録順序、優先順位、必要リソース量(GPU数、CPU数など)、想定処理時間などを踏まえてスケジューリングし、 GPUリソースが確保でき次第、マスタ２にジョブの実行を指示する（Ｓ５）。必要リソース量は、ユーザが事前にジョブのメタデータに含めてスケジューラ１に通知してもよく、または、スケジューラ１がジョブの内容から推定してもよい。

　マスタ２は、ジョブをノードにデプロイし、GPUをアタッチし、キャッシュクラスタ７のキャッシュ領域をマウントして、GPUにジョブの学習処理を実行させる（Ｓ６）。すなわち、マスタ２は、ジョブ毎に学習・推論のプログラムを実行するための仮想環境を生成し、GPUをアタッチする。マスタ２は、ジョブが完了したらGPUを開放する。GPUは、キャッシュ領域にキャッシュされた学習対象のデータを読み出しながら学習処理を行い、学習処理の結果をキャッシュクラスタ７またはクラスタ共有ストレージ４に格納する（Ｓ７）。ユーザは、自身のジョブの実行が終了すると、キャッシュクラスタ７またはクラスタ共有ストレージ４にアクセスすることで、学習処理の実行結果を取得することができる。スケジューラ１は、ジョブの終了後にキャッシュ領域のデータを削除する（Ｓ８）。

　図４は、キャッシュクラスタ７の構成図である。図示するキャッシュクラスタ７は、VPN接続部７１（VPN Function）と、キャッシュ管理部７２（Cache Manager）と、１以上のストレージ７３（Storage）とを備える。

　VPN接続部７１は、閉域接続を開始または待受し、閉域接続を確立する。

　キャッシュ管理部７２は、１以上のストレージ７３をまとめてクラスタを構成する。キャッシュ管理部７２は、オリジン（原本）となるストレージ（クラスタ共有ストレージ４、ユーザストレージ６）に対してファイル共有プロトコル等を用いてアクセスし、オリジンが持つデータをキャッシュしつつ要求元にデータを共有する透過的なキャッシュ機能を有する。要求元が、キャッシュクラスタ７にデータを要求すると、キャッシュ管理部７２が要求されたデータがキャッシュ済みか否かを判断する。キャッシュ済みであれば当該データを要求元に返す。キャッシュ済みでなければ、オリジンとなるストレージにデータを要求し、オリジンとなるストレージから渡されたデータを要求元に返す。キャッシュ管理部７２は、クラスタ共有ストレージ４およびユーザストレージ６を操作する機能を有する。

　ストレージ７３は、オリジンとなるストレージからキャッシュしたデータを格納する。ストレージ７３には、NVMe、NVDIMMなどの高速なストレージを使用する。なお、VPN接続部７１は、キャッシュクラスタ７に内包されず、キャッシュクラスタ７から独立してGPUクラスタシステムに存在してもよい。また、キャッシュクラスタ７は、クラスタ共有ストレージ４を内包してもよい。

　図５は、スケジューラ１の構成図である。スケジューラ１は、第１ステージキュー１０と、第２ステージキュー２０と、フェッチングジョブリスト３０（Fetching Job List (以下、「FJL」)）と、アカウントDB３１（Accounting DB）と、GPU使用量監視部３２（GPU Utilization Monitor）と、を備える。アカウントDB３１は、各ユーザのGPU使用量を管理する。アカウントDB３１は、スケジューラ１内ではなく、スケジューラ１の外部に設置してもよい。また、アカウントDB３１には、事業者の既存のユーザデータベースなどを転用してもよい。GPU使用量監視部３２は、マスタ２またはノード３からGPU使用量を取得し、GPU使用量を監視する。

　第１ステージキュー１０には、フェッチ開始待ちのジョブが格納される。第１ステージキュー１０は、第１キューセレクタ１１(Queue Selector 1)と、複数のジョブキュー１３－１５と、第１ジョブセレクタ１２(Job Selector 1)とを備える。第１キューセレクタ１１は、ユーザ端末５から投入されたジョブを、フェッチ開始待ちのジョブを格納する第１ステージキュー１０のいずれかのジョブキュー１３－１５に格納する。第１キューセレクタ１１の処理は後述する。

　第１ジョブセレクタ１２は、第１ステージキューのジョブを取り出してフェッチングジョブリストに登録し、ストレージに格納された、前記ジョブのデータのフェッチをキャッシュクラスタに開始させる。本実施形態では、第１ジョブセレクタ１２は、ジョブキュー１３－１５に格納されたジョブを優先度等に従って取り出し、フェッチングジョブリスト３０に登録する。また、第１ジョブセレクタ１２は、アカウントDB３１にユーザの現時点のGPUの使用量を問い合わせ、ユーザの現時点の使用量に応じて、公平性割当量またはユーザ割当量を超過したジョブを対応するジョブキューに再配置する。第１ジョブセレクタ１２の処理は後述する。

　第１ステージのジョブキューには、ジョブキュー１３（Job Queue (以下、「JQ」)）と、公平性超過ジョブキュー１４（Over Fairness-quota Job Queue （以下「OFJQ」））と、ユーザ超過ジョブキュー１５（Over User-quota Job Queue (以下、「OUJQ」)）とが含まれる。

　JQ１３には、公平性割当量およびユーザ割当量を超えていないジョブが格納される。JQ１３は、ジョブのクラス（優先度）k毎に設けられる。ここでは、クラスkは1≦k≦nとし、最も高い優先度のクラスはk＝1とし、最も低い優先度のクラスはk＝nとする。クラスkのJQ１３は、「JQ k」と記載する場合もある。

　OFJQ１４には、公平性の観点から各ユーザに割り当てられたGPUの公平性割当量（quota）を超えたジョブが格納される。この公平性の割当量は、１人のユーザがGPUを独占し、他のユーザがGPUを使用できない状態を防止し、各ユーザにGPUを公平に割り当てるために、事業者が各ユーザのGPU使用量の上限を定めたものである。割当量は、例えば１か月などの所定期間の割当量である。OFJQ１４は、JQ１３と同様にジョブのクラスk 毎に設けられ、kは1≦k≦nとする。クラスkのジョブキュー１４は、「OFJQ k」と記載する場合もある。

　OUJQ１５には、ユーザが設定したGPUのユーザ割当量を超えたジョブが格納される。このユーザ割当量は、GPUの使用料金を予算内に抑えるために、ユーザが自身のGPU使用量の上限を定めたものである。割当量は、例えば１か月などの所定期間の割当量である。OUJQ１５に格納されたジョブは、デプロイおよびフェッチされない。ユーザ割当量が変更されるか、あるいは、現在の使用量が更新された場合、第１ジョブセレクタ１２は、OUJQ１５の先頭からジョブを取り出し、第１キューセレクタ１１は当該ジョブを対応するクラスのジョブキュー１３に振り分ける。現在の使用量が更新される場合は、例えば、月毎の使用量の上限を定めている場合、翌月となって使用量が0に更新される場合などである。

　第１ジョブセレクタ１２は、JQ１３のジョブをOFJQ１４のジョブより優先的にFJL３０に登録する。

　FJL３０は、データのフェッチを開始するジョブが登録されるリストである。キャッシュクラスタ７は、FJL３０に登録されたジョブをフェッチ（プリフェッチ）する。第１ジョブセレクタ１２は、ジョブをFJL３０に登録した後に、FJL３０に追加されたジョブのフェッチの開始をキャッシュクラスタ７に指示してもよい。キャッシュクラスタ７は、定期的にFJL３０をチェックし、新たなジョブが登録されると当該ジョブのフェッチを開始してもよい。フェッチされたデータ量が所定の閾値を超えたジョブは、第２ステージキュー２０に移される。閾値については、後述する。FJL３０には、サスペンド状態のジョブが登録されてもよい。

　第２ステージキュー２０には、デプロイ待ち状態のジョブが格納される。第２ステージキュー２０は、第２キューセレクタ２１(Queue Selector 2)と、複数のジョブキュー２３－２５と、第２ジョブセレクタ２２(Job Selector 2)とを備える。

　第２キューセレクタ２１は、フェッチしたデータ量が所定の閾値を超えたジョブをFJL３０から取り出し、第２ステージキュー２０のいずれかのキュー２３－２５に格納する。第２キューセレクタ２１の処理は後述する。第２ジョブセレクタ２２は、第２ステージキュー２０のいずれかのキュー２３－２５からジョブを取り出し、当該ジョブのデプロイを指示する。

　第２ステージのジョブキューには、リストアキュー２３（Restore Queue（以下、「RQ」））と、デプロイキュー２４（Deploy Queue（以下「DQ」））と、公平性超過キュー２５（Over Fairness-quota Deploy Queue（以下 (OFDQ)）とが含まれる。

　RQ２３には、フェッチしたデータ量が閾値を超えたリストア待ちのジョブが格納される。DQ２４には、フェッチしたデータ量が閾値を超えたデプロイ待ちのジョブが格納される。OFDQ２５には、フェッチしたデータ量が閾値を超えたジョブのうち、当該ジョブのユーザ（ジョブ所有者）の現在のGPU使用量が公平性割当量を超えているジョブが格納される。公平性割当量を超えたジョブは、GPUに空きがあり、他のジョブ（RQ２３およびDQ２４のジョブ）がない場合にデプロイ対象となる。他のジョブがある場合は、他のジョブが優先される。翌月となりユーザの使用量が0にリセットされるなどして、超過状態が解消された場合、OFDQ２５の先頭のジョブから取り出してRQ２３またはDQ２４に格納される。

　第２ジョブセレクタ２２は、RQ２３のジョブをDQ２４のジョブより優先的にデプロイ指示し、DQ２４のジョブをOFDQ２５のジョブより優先的にデプロイ指示する。また、第２ジョブセレクタ２２は、RQ２３、DQ２４の全てが空の場合、第２キューセレクタ２１を起動し、第２キューセレクタ２１にFJL３０の先頭のジョブ、またはFJL３０の中でフェッチしたデータ量が最も多いジョブを、RQ２３、DQ２４およびOFDQ２５のいずれかに格納させてもよい。また、RQ２３からジョブを取り出す際は、短期間でリストアとサスペンドを繰り返してしまわないように、サスペンド直後のジョブは一定時間または一定量フェッチが行われるまでデプロイ指示の対象外としてもよい。

　FJL３０からジョブを取り出す際のフェッチ済みデータ量の閾値は、例えば以下の方法で算出してもよい。

　第１の方法は、事業者またはユーザが定義した値を閾値とする。例えば、データ量の10%などとする。

　第２の方法は、ジョブ定義から閾値を算出する。具体的には、ジョブ定義に含まれるプログラムのループ処理の深さと、命令数とから計算量オーダを算出し、計算量オーダの大きさにより段階に分け、段階毎に閾値を決定する。また、計算量オーダが大きいほど時間あたりのデータ処理量(データ処理速度)が低下するため、計算量オーダが大きいほど閾値は小さくする。

　第３の方法は、後述するチェックポイントされるまでのジョブの実行状況から閾値を算出する。具体的には、これまでの実行状況からデータ処理速度Ｖｐとフェッチ速度Ｖｆを算出する。

　Ｖｆ≧Ｖｐの場合は、閾値＝Ｖｆ×Ｍとする。Ｍは任意の値である。

　Ｖｆ＜Ｖｐの場合は、閾値＝（１－Ｖｆ／Ｖｐ）×Ｓ＋Ｖｐ×Ｍとする。Ｓは処理されていない残りのデータ量、Ｍは任意の値である。

　図６は、第１キューセレクタ１１の処理を示すフローチャートである。第１キューセレクタ１１は、ジョブを受け付けると（Ｓ１１）、ジョブの所有者であるユーザの優先クラスをアカウントDB３１取得する（Ｓ１２）。ここでは、優先クラスはkとする（Ｓ１３）。第１キューセレクタ１１は、GPUの公平性割当量と、ユーザの現在使用量とを比較し（Ｓ１４）、現在使用量が公平性割当量を超えていない場合（Ｓ１５：true）、GPUのユーザ割当量とユーザの現在使用量とを比較する（Ｓ１６）。

　現在使用量がユーザ割当量を超えていない場合（Ｓ１７：true）、第１キューセレクタ１１は、Ｓ１１で受信したジョブを優先クラスkのJQ k１３の末尾に格納する（Ｓ１８）。現在使用量がユーザ割当量を超えている場合（Ｓ１７：false）、第１キューセレクタ１１は、Ｓ１１で受信したジョブをOUJQ１５の末尾に格納する（Ｓ１９）。現在使用量が公平性割当量を超えている場合（Ｓ１５：false）、第１キューセレクタ１１は、Ｓ１１で受信したジョブを優先クラスkのOFJQ k１４の末尾に格納する（Ｓ２０）。

　図７は、第１ジョブセレクタ１２の処理を示すフローチャートである。図７の処理は、第１キューセレクタ１１にジョブが投入されることをトリガとして開始される。また、図７の処理は、第２キューセレクタ２１がFJL３０に空きができたことを検知することをトリガとして開始される。

　第１ジョブセレクタ１２は、FJL３０に空きがある場合（Ｓ３１：true）、k（優先クラス）に1を設定する（Ｓ３２）。k＝1のJQ k１３にジョブがある場合（Ｓ３３：true）、第１ジョブセレクタ１２は、JQ k１３からジョブを取り出し（Ｓ３４）、ジョブ所有者の公平性割当量と、現在使用量とを比較する（Ｓ３５）。現在使用量が公平性割当量を超えていない場合（Ｓ３６：true）、第１ジョブセレクタ１２は、ジョブ所有者のユーザ割当量と現在使用量とを比較する（Ｓ３７）。

　現在使用量がユーザ割当量を超えていない場合（Ｓ３８：true）、第１ジョブセレクタ１２は、Ｓ３４で取り出したジョブをFJL３０の末尾に格納する（Ｓ３９）。現在使用量がユーザ割当量を超えている場合（Ｓ３８：false）、第１ジョブセレクタ１２は、第１キューセレクタ１１を介して、Ｓ３４で取り出したジョブをOUJQ１５の末尾に格納する（Ｓ４０）。現在使用量が公平性割当量を超えている場合（Ｓ３６：false）、第１ジョブセレクタ１２は、第１キューセレクタ１１を介してＳ３４で取り出したジョブを優先クラスkのOFJQ k１４の末尾に格納する（Ｓ４１）。

　k＝1のJQ k１３にジョブがない場合（Ｓ３３：false）、第１ジョブセレクタ１２は、k に1を加算し（Ｓ４２）、k≦nの場合（Ｓ４３：：true）、Ｓ３３に戻り以降の処理を行う。k＞nの場合（Ｓ４３：false）、第１ジョブセレクタ１２は、kに1を設定する（Ｓ４４）。k＝1のOFJQ k１４にジョブがある場合（Ｓ４５：true）、第１ジョブセレクタ１２は、OFJQ k１４からジョブを取り出し（Ｓ４８）、取り出したジョブのジョブ所有者のユーザ割当量と現在使用量とを比較し（Ｓ３７）、Ｓ３８に進む。Ｓ３８以降の処理は、前述したとおりであるため説明を省略する。

　k＝1のOFJQ k１４にジョブがない場合（Ｓ４５：false）、第１ジョブセレクタ１２は、k に1を加算し（Ｓ４６）、k≦nの場合（Ｓ４７：true）、Ｓ４５に戻り以降の処理を行う。k＞nの場合（Ｓ４７：false）、第１ジョブセレクタ１２は、処理を終了する。

　図８は、第２キューセレクタ２１の処理を示すフローチャートである。図８の処理は、定期的に実行される。第２キューセレクタ２１は、変数iに1を設定し（Ｓ５１）、FJL３０のi番目のジョブが存在する場合（Ｓ５２：true）、i番目のジョブのフェッチ済みの学習対象データのデータ量が閾値を超過しているか否かを判定する（Ｓ５３）。第２キューセレクタ２１は、キャッシュクラスタ７（キャッシュ管理部７２）にフェッチ済みのデータ量を問い合わせる。フェッチ済みのデータ量が閾値を超過していない場合（Ｓ５３：false）、第２キューセレクタ２１は、i に1を加算し（Ｓ５４）、Ｓ５２に戻り以降の処理を行う。

　フェッチ済みデータ量が閾値を超過している場合（Ｓ５３：true）、第２キューセレクタ２１は、FJL３０のi番目のジョブを取り出し、デキューする（Ｓ５５）。第２キューセレクタ２１は、取り出したジョブのメタデータを確認して（Ｓ５６）、当該ジョブがサスペンド状態（一時停止状態）の場合（Ｓ５７：true）、RQ２３に当該ジョブを格納する（Ｓ６３）。第２キューセレクタ２１は、FJL３０に空きができたため、第１ジョブセレクタ１２を起動する（Ｓ６１）。

　取り出したジョブがサスペンド状態でない場合（Ｓ５７：false）、第２キューセレクタ２１は、ジョブ制御を進めるか否かを判定するために、ジョブ所有者の公平性割当量と減現在使用量とを確認する（Ｓ５８）。現在使用量が公平性割当量を超えていない場合（Ｓ５９：true）、第２キューセレクタ２１は、DQ２４に当該ジョブを格納し（Ｓ６３）、第１ジョブセレクタ１２を起動する（Ｓ６１）。現在使用量が公平性割当量を超えている場合（Ｓ５９：false）、第２キューセレクタ２１は、OFDQ２５に当該ジョブを格納し（Ｓ６２）、第１ジョブセレクタ１２を起動する（Ｓ６１）。

　また、第２キューセレクタ２１は、GPU使用量監視部３２にGPUの使用量を問い合わせる。GPU使用量監視部３２は、マスタ２またはノード３からGPUの使用量を取得し、第２キューセレクタ２１に回答する。GPUに空きがあり（Ｓ６４：true）、RQ２３が空で（Ｓ６５：true）、DQ２４が空で（Ｓ６６：true）、FJL３０に1番目のジョブが存在する場合（Ｓ６７：true）、第２キューセレクタ２１は、FJL３０の1番目のジョブを取り出し（Ｓ６８）、Ｓ５６に進む。GPUの使用率を最大に高めるために、本実施形態では、実行すべきRQ２３およびDQ２４のジョブがなくなった場合、フェッチが不十分なFJL３０のジョブであってもデプロイさせる。すなわち、第２キューセレクタ２１は、RQ２３およびDQ２４が共に空の場合、FJL３０の1番目のジョブをフェッチが不十分であっても取り出していずれかのキュー２３－２５にエンキューする。Ｓ６４からＳ６７の少なくとも１つがfalseの場合、第２キューセレクタ２１は、第１ジョブセレクタ１２を起動する（Ｓ６１）。

　なお、学習対象データが格納されたストレージのI/O速度、通信速度などにより、FJL３０に格納されたジョブのうち、１番目（先頭）のジョブのフェッチ済みデータ量が、最も多いとは限らない。このような場合を考慮して、Ｓ６８で第２キューセレクタ２１は、FJL３０の中でフェッチしたデータ量が最も多いジョブを取り出し、Ｓ５６に進み、当該ジョブをRQ２３、DQ２４およびOFDQ２５のいずれかに格納させてもよい。すなわち、第２キューセレクタ２１は、FJL３０内のジョブのうち最もフェッチが進んだジョブを取り出してもよい。

　図９は、第２ジョブセレクタ２２の処理を示すフローチャートである。GPU使用量監視部３２は、GPUに空きがあると第２ジョブセレクタ２２を起動し、図９の処理が行われる。第２ジョブセレクタ２２は、RQ２３が空でない場合（Ｓ７１：false）、RQ２３から１つのジョブを取り出しJに格納する（Ｓ７２）。RQ２３が空の場合（Ｓ７１：true）で、DQ２４が空でない場合（Ｓ７５：false）、第２ジョブセレクタ２２は、DQ２４から１つのジョブを取り出しJに格納する（Ｓ７６）。DQ２４が空の場合（Ｓ７５：true）で、FJL３０が空で（Ｓ７７：true）、OFDQ２５が空でない場合（Ｓ７８：false）、第２ジョブセレクタ２２は、OFDQ２５から１つのジョブを取り出しJに格納する（Ｓ７９）。

　Ｓ７２、Ｓ７６およびＳ７９の後、第２ジョブセレクタ２２は、マスタ２にＪのデプロイを指示し（Ｓ７３）、第２キューセレクタ２１を起動する（Ｓ７４）。OFDQ２５が空の場合（Ｓ７８：true）、第２ジョブセレクタ２２は、第２キューセレクタ２１を起動する（Ｓ７４）。FJL３０が空でない場合（Ｓ７７：false）、第２ジョブセレクタ２２は、第２キューセレクタ２１を起動し、第２キューセレクタ２１の動作完了を待機して（Ｓ８０）、Ｓ７１へ進む。このように、第２ジョブセレクタ２２は、RQ２３、DQ２４およびOFDQ２５の全てが空の場合、第２キューセレクタ２１を起動し、FJL３０の先頭のジョブを、RQ２３、DQ２４およびOFDQ２５のいずれかに格納させる。

　（実施例１）
　図１０は、実施例１のGPUクラスタの構成図である。本実施例は、学習対象データを低速なクラスタ共有ストレージ４（分散ストレージ）に事前に格納している。ジョブの実行が近くなると、キャッシュクラスタ７（キャッシュ管理部７２）は、学習対象データをクラスタ共有ストレージ４からキャッシュクラスタ７にプリフェッチする。GPUに空きができると、マスタ２は、キャッシュクラスタ７の領域をノード３にマウントする。キャッシュ領域のマウントは、RDMA-fs （RDMAデバイス上のデータをファイルシステム化する仕組み）、NFS over RDMA、GlusterFSなどを用いて実装する。RDMA用の転送パスは、TSN(Time Sensitive Networking)等で帯域保証する。本実施例では、Lossless DC fabricなどの高速・帯域確保型ネットワークを構築し、スパインスイッチ（Spine SW）などの各種スイッチ（SW）を用いてデータを転送する。

　本実施例では、(1)スケジューラ１は、ジョブ待機中に当該ジョブのデータのプリフェッチを、キャッシュクラスタ７に指示する。これにより、キャッシュクラスタ７は、前記指示によりクラスタ共有ストレージ４からデータをプリフェッチする。(2)スケジューラ１は、ジョブのデプロイをマスタ２に指示し、マスタ２はジョブをGPUにアサインする。(3)マスタ２は、キャッシュクラスタ７のキャッシュ領域を、RDMA-fs等を用いてマウントする。(4)GPUは、ジョブを実行する。(5)スケジューラ１は、ジョブの実行後に、キャッシュクラスタ７のキャッシュデータを削除する。

　（実施例２）
　図１１は、実施例２のGPUクラスタの構成図である。本実施例は、ユーザ拠点のユーザストレージ６にオンライン接続する。すなわち、本実施例では、低速なユーザストレージ６に格納された学習対象データにオンラインで接続する。

　本実施例では、GPUクラスタシステム内では、実施例１と同様にLossless DC fabricなどの高速・帯域確保型ネットワークを構築し、スパインスイッチ（Spine SW）などの各種スイッチ（SW）を用いてデータを転送する。GPUクラスタシステムとユーザ拠点との間は、Access/MetroネットワークをBorder Leafなどスイッチで接続してデータ転送パス（VPN、専用線等)を構築する。本実施例の動作は、以下のとおりである。

　(1)キャッシュクラスタ７（キャッシュ管理部７２）は、ユーザ拠点のユーザストレージ６のデータを転送し、キャッシュクラスタ７のメモリ（NV-DIMM）にプリフェッチする。なお、キャッシュメモリにデータの一部を置くだけなのでダウンロードに相当しない。

　(2)キャッシュクラスタ７のメモリに一定量のキャッシュデータが溜まったら、GPUはジョブを実行する。

　(3)GPUがキャッシュデータを使い切ると、GPUは、ジョブを一時中断し、リソースを開放する。リソースの開放にはCRIU (Checkpoint/Restore In Userspace)のような技術を用いることで，ジョブのプログラムに一時中断のための機能を実装する必要がなくなる。CRIUは、プロセスを終了せずに、一時停止、保存、再開する技術である。

　(4)キャッシュクラスタ７は、処理中のプロセスデータをキャッシュクラスタ７に書き込む。

　(5)キャッシュクラスタ７のメモリに一定量のキャッシュデータが溜まったら、GPUを確保する。

　(6)プロセスデータを書き戻し、ジョブの処理を再開（リストア）する。

　(7)ジョブの処理が完了したら終了する。完了していない場合は、(3)に戻り以降の処理を繰り返す。

　（実施例３）
　図１２は、実施例３のGPUクラスタの構成図である。本実施例では、複数のデータセンタ４０が分散して存在する。データセンタ４０には、複数のマスタ２およびノード３を含むGPUクラスタと、キャッシュクラスタ７と、クラスタ共有ストレージ４とを備える。データセンタ４０は、クラスタ共有ストレージ４を備えなくてもよい。

　スケジューラ１は、ジョブの配置先をユーザ拠点から近いGPUクラスタに配置する。ユーザ自らデータをクラスタ共有ストレージ４にアップロードする場合は、スケジューラ１は、ユーザがデータをアップロードしたクラスタ共有ストレージ４になるべく近いGPUクラスタを選択する。

　（閉域接続方式）
　以下に、実施例２のユーザ拠点のユーザストレージ６に格納された学習対象データをキャッシュクラスタ７がフェッチする場合に、ユーザ拠点とキャッシュクラスタ７との閉域接続方式について説明する。

　図１３は、方式１の閉域接続を示す模式図である。本方式では、ユーザストレージ６が閉域接続の機能の有し、キャッシュクラスタ７からの閉域接続を待ち受けている。学習対象データのプリフェッチの際に、キャッシュクラスタ７がユーザストレージ６に対し閉域接続を開始する。学習対象データの取得が完了すると、キャッシュクラスタ７は、閉域接続を解除する。これにより、ユーザストレージ６は、閉域接続の待受状態に戻る。ユーザストレージ６は、常時、閉域接続の待ち受ける状態である。ユーザ拠点には加入者側回線終端装置（以下「CPE」)が配置される。ユーザは、閉域接続のための設定をGPUクラスタシステムの事業者と事前に折衝し、決めておく必要がある。ユーザは、自身のユーザストレージ６にキャッシュクラスタ７との閉域接続のための設定をする必要がある。

　図１４は、方式２の閉域接続を示す模式図である。本方式では、ユーザ拠点のCPE８は、VPN接続部と、スケジューラ１からの制御に対応するためのAPI（制御部）とを備える。本方式は、オンデマンドで閉域接続を構成する。ユーザは、スケジューラ１にジョブを登録する際に、当該ジョブにCPE８のAPIへの接続情報を含める。スケジューラ１は、キャッシュクラスタ７にCPE８からの閉域接続を待ち受けるよう指示する。CPE８は、スケジューラ１からの指示を受けて、指示された接続先(キャッシュクラスタ７)に対し閉域接続を要求する。閉域接続が確立すると、キャッシュクラスタ７は、ユーザストレージ６上の学習対象データをGPUクラスタシステムに複製する。複製先は、キャッシュクラスタ７またはクラスタ共有ストレージ４のいずれかである。ジョブが完了すると、スケジューラ１は、CPE８に閉域接続の設定削除を指示する。

　図１５は、方式３の閉域接続を示す模式図である。本方式では、方式２と同様に、CPE８は、VPN接続部と、API（制御部）とを備える。本方式では、スケジューラ１は、CPE８には閉域接続を待受させ、キャッシュクラスタ７に閉域接続開始を指示する。本方式は、オンデマンドで閉域接続を構成する。ユーザは、スケジューラ１にジョブを登録する際に、当該ジョブにCPE８のAPIへの接続情報を含める。スケジューラ１は、CPE８にキャッシュクラスタ７からの閉域接続を待ち受けるよう指示する。キャッシュクラスタ７は、スケジューラ１からの指示を受けて、指示された接続先(CPE８)に対し閉域接続を要求する。閉域接続が確立すると、キャッシュクラスタ７は、ユーザストレージ６上の学習対象データをGPUクラスタシステムに複製する。複製先は、キャッシュクラスタ７またはクラスタ共有ストレージ４のいずれかである。ジョブが完了すると、スケジューラ１は、CPEに閉域接続の設定削除を指示する。

　図１６は、方式４の閉域接続を示す模式図である。本方式では、キャリア網内に、仮想化された加入者側回線終端装置（以下、「vCPE」)９２を設置する。vCPE９２は、VPN接続部と、スケジューラ１から制御に対応するAPI（制御部）とを有する。

　本方式は、オンデマンドで閉域接続を構成する。ユーザは、スケジューラ１にジョブを登録する際に、当該ジョブにユーザストレージ６が接続されている回線を識別するための回線識別情報を含める。スケジューラ１は、キャッシュクラスタ７にvCPE９２からの閉域接続を待ち受けるよう指示する。vCPE９２は、スケジューラ１からの指示を受けて、指示された接続先(キャッシュクラスタ７)に対し閉域接続を要求する。閉域接続が確立すると、キャッシュクラスタ７は、ユーザストレージ６上の学習対象データをGPUクラスタシステムに複製する。複製先は、キャッシュクラスタ７またはクラスタ共有ストレージ４のいずれかである。ジョブが完了すると、スケジューラ１は、vCPE９２に閉域接続の解除を指示する。ユーザ拠点には、光回線終端装置(以下、「ONU」)９１またはモデムなどが設置され、vCPE９２と接続される。ONU９１等は、vCPE９２とのレイヤ2接続(Ethernet等)を提供する。

　図１７は、方式５の閉域接続を示す模式図である。本方式では、キャリア網内に方式４と同様にvCPE９２を備える。ユーザ拠点には、ONU９１等が設置される。ONU９１等は、vCPE９２と接続され、vCPE９２とのレイヤ2接続を提供する。本方式では、スケジューラ１は、vCPE９２には閉域接続を待受させ、キャッシュクラスタ７に閉域接続開始を指示する。

　本方式は、オンデマンドで閉域接続を構成する。ユーザは、スケジューラ１にジョブを登録する際に、当該ジョブにユーザストレージ６が接続されている回線を識別するための回線識別情報を含める。スケジューラ１は、vCPE９２にキャッシュクラスタ７からの閉域接続を待ち受けるよう指示する。キャッシュクラスタ７は、スケジューラ１からの指示を受けて、指示された接続先(vCPE９２)に対し閉域接続を要求する。閉域接続が確立すると、キャッシュクラスタ７は、ユーザストレージ６上の学習対象データをGPUクラスタシステムに複製する。複製先は、キャッシュクラスタ７またはクラスタ共有ストレージ４のいずれかである。ジョブが完了すると、スケジューラ１は、vCPE９２に閉域接続の解除を指示する。

　図１８は、方式６の閉域接続を示す模式図である。本方式では、キャリア網内に方式４と同様にvCPE９２を備える。ユーザ拠点には、方式１と同様のCPE８が設置され、vCPE９２と接続される。

　本方式は、オンデマンドで閉域接続を構成する。スケジューラ１は、vCPE９２にキャッシュクラスタ７とCPE８からの閉域接続要求に対する待受開始を指示する。スケジューラ１は、キャッシュクラスタ７に対し、vCPE９２への閉域接続を指示する。スケジューラ１は、CPE８にvCPE９２への閉域接続を指示する。閉域接続が確立すると、キャッシュクラスタ７は、ユーザストレージ６上の学習対象データをGPUクラスタシステムに複製する。複製先は、キャッシュクラスタ７またはクラスタ共有ストレージ４のいずれかである。ジョブが完了すると、スケジューラ１は、vCPE９２およびCPE８に閉域接続の解除を指示する。

　vCPE９２のインスタンスのパターンとしては、事前にデプロイしたものをプールしておき、ジョブの学習対象データのプリフェッチ開始時にユーザ拠点の最寄りのvCPE９２をアサインしてもよい。また、ジョブの学習対象データのプリフェッチ開始時に、vCPEのインスタンスをデプロイしてもよい。

　図１９は、方式７の閉域接続を示す模式図である。本方式では、キャリア網内にあるPPPoE等をISPに中継するゲートウェイ装置（以下「GW」）９３を用いて、閉域接続を行う。本方式のGW９３には、キャッシュクラスタ７との閉域接続を行う接続部と、スケジューラ１から制御に対応するAPI（制御部）とが追加される。通常、インターネットアクセスでは，PPPoEやDS-lite等のトンネリングプロトコルを使用してキャリア網内の中継装置を介してISPに接続される。ユーザ拠点に設置されるCPE８は、加入者側でこれらのプロトコルを終端する装置であり、殆どの場合は常時GW９３に対して閉域接続を行っている。スケジューラ１は、GW９３とキャッシュクラスタ７の間に閉域接続を確立し、GW９３にユーザストレージ６とキャッシュクラスタ７との通信を中継させる。キャッシュクラスタ７以外の装置とCPE８との通信は、通常通りISPへのトンネルに転送し、インターネットアクセス９４とする。

　本方式は、オンデマンドで閉域接続を構成する。スケジューラ１は、閉域接続の設定時に、GW９３に対し、キャッシュクラスタ７からの閉域接続要求に対する待受開始を指示する。指示対象のGW９３は，回線識別情報等から特定する。スケジューラ１は、キャッシュクラスタ７に対しGW９３への閉域接続を要求する。閉域接続が確立すると、ユーザストレージ６とキャッシュクラスタ７の通信をGW９３が中継し通信経路が確立する。

　（GPUクラスタシステムの動作）
　以下にGPUクラスタシステムの動作について説明する。

　図２０は、図１に示す基本的なGPUクラスタシステムの動作を示すシーケンス図である。ユーザは、学習対象データをクラスタ共有ストレージ４にアップロードし（Ｓ１０１）、ジョブをスケジューラ１に登録する（Ｓ１０２）。ジョブの登録データには、ジョブの定義、学習対象データの格納場所、ユーザＩＤなどの認証情報などが含まれる。スケジューラ１は、認証情報を用いてユーザを認証するが、ここでは認証処理については省略する。

　スケジューラ１は、ジョブが登録されると、GPUの空き状況など（GPUの稼働状況）をマスタ２に確認し（Ｓ１０３）、マスタ２からGPUの空き状況などを取得する（Ｓ１０４）。スケジューラ１は、GPUの空き情報等を用いて、ジョブをスケジューリングし（Ｓ１０５）、マスタ２にジョブのデプロイを指示する（Ｓ１０６）。このデプロイ指示には、ジョブの定義、学習対象データの格納場所、認証情報などが含まれる。マスタ２は、ノード３にジョブのデプロイを指示する（Ｓ１０７）。このデプロイ指示には、ジョブの定義、学習対象データの格納場所などが含まれる。

　ノード３は、ジョブの実行を開始し、ジョブの仮想環境を作成する（Ｓ１０８）。具体的には、ノード３は、Network namespace等の名前空間やコンテナなどの仮想環境を生成する。また、ノード３は、学習対象データにジョブがアクセスできるように設定する。これにより、学習対象データの格納先（クラスタ共有ストレージ４）がジョブからアクセス可能になる。

　ジョブは、学習処理を開始し（Ｓ１０９）、学習対象データにアクセスしながら学習処理を実行する。ジョブは、学習結果をクラスタ共有ストレージ４に書き出す（Ｓ１１０）。学習結果は、逐次書き出す場合と、最後にまとめて書き出す場合とがある。ジョブは、学習処理が終了すると（Ｓ１１１）、実行完了をノード３に報告する（Ｓ１１２）。ノード３は、ジョブの仮想環境等を削除する（Ｓ１１３）。また、ノード３は、ジョブのための仮想ネットワークなども併せて削除する。ジョブの実行が完了するとノード３は、ジョブの実行完了をマスタ２に報告する（Ｓ１１４）。マスタ２は、必要に応じてユーザにジョブ完了を報告する。あるいは、ユーザがスケジューラ１またはマスタ２にジョブの完了を問い合わせてもよい。

　図２１Ａ、図２１Ｂおよび図２１Ｃは、本実施形態のGPUクラスタの動作を示すシーケンス図である。これらは、クラスタ共有ストレージ４にアップロードされた学習対象データを、キャッシュクラスタ７がフェッチして利用する場合のシーケンス図である。

　ジョブ登録前に学習対象データをアップロードする場合、ユーザは、ユーザストレージ６に格納している学習対象データをクラスタ共有ストレージ４にアップロードし（Ｓ１３１）、ジョブをスケジューラ１に登録する（Ｓ１３２）。ジョブの登録データには、ジョブの定義、学習対象データの格納場所、ユーザＩＤなどの認証情報などが含まれる。学習対象データの格納場所は、事前アップロードの場合はクラスタ共有ストレージ４であり、事前アップロードしない場合はユーザストレージ６である。また、事前アップロードしない場合は、ジョブの登録データには、ユーザストレージ６への閉域接続情報などが含まれる。スケジューラ１におけるユーザの認証処理については、省略する。

　学習対象データを事前にアップロードしない場合は、Ｓ１３１を行うことなく、後述する「閉域接続の確立処理」Ａと、「学習対象データのクラスタ格納処理」Ｂと、「閉域接続の解除処理」Ｃとが行われる。「閉域接続の確立処理」Ａは、スケジューラ１の制御によりユーザ拠点とキャッシュクラスタ７との間に閉域接続または閉域経路を接続する。「学習対象データのクラスタ格納処理」Ｂは、ユーザ拠点とキャッシュクラスタ７との間に確立された閉域接続または閉域経路を介して、ユーザストレージ６上の学習対象データをキャッシュクラスタ７上に格納する。「閉域接続の解除処理」Ｃは、スケジューラ１の制御により、ユーザ拠点とキャッシュクラスタ７との間に確立された閉域接続または閉域経路を解除する。

　スケジューラ１は、キャッシュクラスタ７に学習対象データのプリフェッチを指示する（Ｓ１３３）。すなわち、スケジューラ１は、キャッシュクラスタ７上の所定の格納場所に、学習対象データを格納することを指示する。キャッシュクラスタ７は、クラスタ共有ストレージ４上の学習対象データのフェッチを開始する（Ｓ１３４）。

　全ての学習対象データをフェッチする場合、キャッシュクラスタ７は、学習対象データのプリフェッチの完了をスケジューラ１に報告する（Ｓ１３５）。スケジューラ１はGPUの空き状況などをマスタ２に確認し（Ｓ１３６）マスタ２からGPUの空き状況などを取得する（Ｓ１３７）。

　全ての学習対象データをフェッチしない場合、すなわち、全ての学習対象データのキャッシュデータを待たずに、投機的にジョブの実行を開始する場合、スケジューラ１は、プリフェッチの完了を待たずに続く処理を実行する。スケジューラ１はGPUの空き状況などをマスタ２に確認し（Ｓ１３８）、マスタ２からGPUの空き状況などを取得する（Ｓ１３９）。また、スケジューラ１はフェッチ済のデータ量をキャッシュクラスタ７に確認し（Ｓ１４０）、キャッシュクラスタ７からフェッチ済みのデータ量を取得する（Ｓ１４１）。スケジューラ１は、Ｓ１３８およびＳ１３９のGPUの空き状態の確認処理と、Ｓ１４０およびＳ１４１の学習対象データのフェッチ進捗確認処理とを並行して行ってもよい。

　スケジューラ１は、GPUの空き情報等を用いて、ジョブをスケジューリングし（Ｓ１４２）、マスタ２にジョブのデプロイを指示する（Ｓ１４３）。このデプロイ指示には、ジョブの定義、学習対象データの格納場所、ユーザＩＤ等の認証情報などが含まれる。マスタ２は、ノード３にジョブのデプロイを指示する（Ｓ１４４）。このデプロイ指示には、ジョブの定義、学習対象データの格納場所などが含まれる。

　ノード３は、ジョブの実行を開始し、ジョブの仮想環境を作成する（Ｓ１４５）。具体的には、ノード３は、Network namespace等の名前空間やコンテナなどの仮想環境を生成する。また、ノード３は、学習対象データにジョブがアクセスできるように設定する。これにより、学習対象データの格納先（キャッシュクラスタ７）がジョブからアクセス可能になる。

　ジョブは、学習処理を開始し（Ｓ１４６）、後述する「学習処理におけるキャッシュクラスタへのデータアクセス」Ｄを行い、学習対象データにアクセスしながら学習処理を実行する。ジョブは、学習結果をキャッシュクラスタ７に書き出す（Ｓ１４７）。学習結果をキャッシュクラスタ７に書き出すことで、キャッシュ管理部７２は、透過的にクラスタ共有ストレージ４に学習結果を書き出す。また、ジョブは、学習結果を直接クラスタ共有ストレージ４に書き出してもよい。その場合、Ｓ１４５でジョブの仮想環境を作成する際に。ジョブがクラスタ共有ストレージ４にアクセスできるように設定する。

　ジョブは、学習処理が終了すると（Ｓ１４８）、実行完了をノード３に報告する（Ｓ１４９）。ノード３は、ジョブの仮想環境等を削除する（Ｓ１５０）。また、ノード３は、ジョブのための仮想ネットワークなども併せて削除する。ジョブの実行が完了すると、ノード３は、ジョブの実行完了をマスタ２に報告する（Ｓ１５１）。マスタ２は、必要に応じてユーザにジョブ完了を報告する。あるいは、ユーザがスケジューラ１またはマスタ２にジョブの完了を問い合わせてもよい。

　スケジューラ１は、GPUの空き状況およびジョブの完了状況をマスタ２に確認し（Ｓ１５２）、マスタ２からこれらの情報を取得する（Ｓ１５３）。スケジューラ１は、学習対象データのキャッシュデータ等の削除をキャッシュクラスタ７に指示する（Ｓ１５４）。キャッシュクラスタ７は、キャッシュデータ等を削除する（Ｓ１５５）。キャッシュクラスタ７は、学習結果が一時的に格納された場合、学習結果も削除する。キャッシュクラスタ７は、削除処理に合わせて、ジョブからの書き出しデータのクラスタ共有ストレージ４への書き戻しを実行する。キャッシュクラスタ７は、削除完了をスケジューラ１に報告する（Ｓ１５６）。

　図２２Ａ、図２２Ｂおよび図２２Ｃは、本実施形態のGPUクラスタの動作を示すシーケンス図である。ここでは、ユーザストレージ６上の学習対象データを、キャッシュクラスタ７が直接フェッチして利用する場合のシーケンスを説明する。

　ユーザは、ジョブをスケジューラ１に登録する（Ｓ１６１）。ジョブの登録データには、ジョブの定義、学習対象データの格納場所（ユーザストレージ６）、ユーザＩＤなどの認証情報などが含まれる。ジョブの登録データには、ユーザストレージ６への閉域接続情報などが含まれる。閉域接続情報については後述する。スケジューラ１の認証処理については省略する。次に、後述する「閉域接続の確立処理」Ａが行われる。「閉域接続の確立処理」Ａは、スケジューラ１の制御によりユーザ拠点とキャッシュクラスタ７との間に閉域接続または閉域経路を接続する。確立した閉域接続または閉域経路を介して、キャッシュクラスタ７からユーザ拠点のユーザストレージ６上の学習データにアクセス可能となる。

　スケジューラ１は、キャッシュクラスタ７に学習対象データのプリフェッチを指示する（Ｓ１６２）。すなわち、スケジューラ１は、キャッシュクラスタ７上の所定の格納場所に、学習対象データを格納することを指示する。キャッシュクラスタ７は、閉域接続または閉域経路を介して、ユーザストレージ６上の学習対象データのフェッチを開始する（Ｓ１６３）。Ｓ１６４からＳ１７１の処理は、図２１ＢのＳ１３５からＳ１４１の処理と同じであるため、ここでは説明を省略する。

　そして、図２２ＢのＳ１７２からＳ１８１の処理が行われるが、この処理は、図２１ＣのＳ１４２からＳ１５１の処理と同じであるため、ここでは説明を省略する。そして、図２２Ｂで、スケジューラ１は、GPUの空き状況およびジョブの完了状況をマスタ２に確認し（Ｓ１８２）、マスタ２からこれらの情報を取得する（Ｓ１８３）。そして、後述する「閉域接続の解除処理」Ｃが行われる。「閉域接続の解除処理」は、スケジューラ１の制御により、ユーザ拠点とキャッシュクラスタ７との間に確立された閉域接続または閉域経路を解除する。スケジューラ１は、学習対象データのキャッシュデータ等の削除をキャッシュクラスタ７に指示する（Ｓ１８４）。キャッシュクラスタ７は、キャッシュデータ等を削除する（Ｓ１８５）。キャッシュクラスタ７は、学習結果が一時的に格納された場合、学習結果も削除する。キャッシュクラスタ７は、削除処理に合わせて、ジョブからの書き出しデータのクラスタ共有ストレージ４への書き戻しを実行する。キャッシュクラスタ７は、削除完了をスケジューラ１に報告する（Ｓ１８６）。

　図２３は、「閉域接続の確立処理」Ａの動作を示すシーケンス図である。ここでは、図１４に示す方式２の閉域接続の確立処理を説明する。ユーザ拠点には、CPE８が配置されており、CPE８とキャッシュクラスタ７との間で閉域接続を確立する。そのため、CPE８がAPIを公開していない場合は、スケジューラ１がAPIでCPE８を制御している部分については、ユーザが当該部分を設定する。CPE８は、キャリア網内にデプロイされているvCPEに置き換わる場合もある。

　本処理の前提として、スケジューラ１にジョブが登録されている。ジョブの登録データに含まれる、ユーザストレージ６への閉域接続情報には、「CPEとの閉域接続の情報」と、「CPEのAPIへの接続情報」とが含まれる。ただし、CPE８がAPIを公開していなく、ユーザがCPE８の設定を行う場合は、閉域接続情報には「CPEのAPIへの接続情報」は含まれない。以下に、本処理を説明する。

　スケジューラ１は、キャッシュクラスタ７に閉域接続の待ち受けを指示する（Ｓ１９１）。この指示には、CPE８との閉域接続の情報が含まれる。閉域接続確立後、キャッシュクラスタ７が自律的に学習対象データの取得制御を行う場合は、「学習対象データの格納場所」についても閉域接続の待ち受け指示で渡される。キャッシュクラスタ７は、閉域接続を待ち受ける設定を行う（Ｓ１９２）。これにより、閉域接続待ち受け状態が確立する。キャッシュクラスタ７は、閉域接続待ち受け処理の完了をスケジューラ１に報告する（Ｓ１９３）。キャッシュクラスタ７への閉域接続の情報は、Ｓ１９１で生成される。キャッシュクラスタ７への閉域接続の情報は、CPE８がAPIを公開していなく、ユーザがCPE８の設定を行う場合は、ジョブの登録より前段階でのユーザと事業者間での契約手続き等の事前折衝で決定され、ユーザに通知される。

　スケジューラ１は、閉域接続の確立をCPE８に指示する（Ｓ１９４）。CPE８は、閉域接続を設定し（Ｓ１９５）、キャッシュクラスタ７との閉域接続を開始する（Ｓ１９６）。CPE８がAPIを公開していない場合においては、ユーザからのジョブ登録と、ユーザによるCPE８への閉域接続確立のための設定が非同期で実施される。そのため、閉域接続の開始処理は閉域接続が確立するまでCPE８により繰り返し施行される。キャッシュクラスタ７は、CPE８に閉域接続を受諾する（Ｓ１９７）。これにより、閉域接続が確立される。CPE８は閉域接続の完了をスケジューラ１に報告する（Ｓ１９８）。以降、確立された閉域接続を介することで、キャッシュクラスタ７もしくはクラスタ共有ストレージ４からユーザ拠点のユーザストレージ６上の学習対象データにアクセス可能となる。

　図２４は、「閉域接続の解除処理」Ｂの動作を示すシーケンス図である。ここでは、図１４に示す方式２の閉域接続の解除処理を説明する。ユーザ拠点のCPE８とキャッシュクラスタ７との間で閉域接続が確立されておりこれを解除する。そのため、CPE８は、閉域接続制御のためのAPIを公開していることする。APIを公開していない場合は、スケジューラ１がAPIでCPE８を制御している部分については、ユーザが当該部分を設定する。CPE８は、キャリア網内にデプロイされているvCPEに置き換わる場合もある。

　本処理の前提として、スケジューラ１にジョブが登録されている。ジョブの登録データに含まれる、ユーザストレージ６への閉域接続情報には、「CPEとの閉域接続の情報」と、「CPEのAPIへの接続情報」とが含まれる。ただし、CPE８がAPIを公開していなく、ユーザがCPE８の設定を行う場合は、閉域接続情報には「CPEのAPIへの接続情報」は含まれない。スケジューラ１の制御によりCPE８とキャッシュクラスタ７の間で閉域接続が確立される。スケジューラ１の制御により、キャッシュクラスタ７が学習対象データのフェッチを開始する。スケジューラ１の制御によりジョブがデプロイされ、学習を開始する。デプロイされるタイミングとしては、キャッシュクラスタ７で学習対象データを全てフェッチしてからの場合と、フェッチを継続している場合とが存在する。ジョブが完了し、ジョブの実行完了をスケジューラ１が検知する。以下に、本処理を説明する。

　キャッシュクラスタ７への閉域接続の情報は、図２３の「閉域接続の接続処理」のＳ１９３で前述したとおりである。スケジューラ１は、CPE８に閉域接続の解除を指示する（Ｓ２０１）。CPE８は、キャッシュクラスタ７に対して閉域接続の解除を開始する（Ｓ２０２）。キャッシュクラスタ７は、CPE８に閉域接続の解除を受諾する（Ｓ２０３）。これにより、CPE８と７との間の閉域接続が解除される。CPE８は、閉域接続を削除し（Ｓ２０４）、閉域接続の解除完了をスケジューラ１に報告する（Ｓ２０５）。

　スケジューラ１は、キャッシュクラスタ７に閉域接続の待ち受け解除を指示する（Ｓ２０６）。この指示には、CPE８との閉域接続の情報が含まれる。キャッシュクラスタ７は、閉域接続の待ち受ける設定を削除し（Ｓ２０７）、閉域接続の待ち受け解除をスケジューラ１に報告する（Ｓ２０８）。

　CPE８がAPIを公開していなく、ユーザがCPE８の設定を行う場合は、Ｓ２０６－Ｓ２０８（キャッシュクラスタの閉域接続の待ち受け解除処理）が、Ｓ２０１－Ｓ２０５（CPEの閉域接続の解除処理）より前に実行される可能性がある。その場合、「CPEの閉域接続の解除処理」では、閉域接続は既に解除されているため、Ｓ２０２（閉域接続の解除を開始）を実行せず、Ｓ２０４（閉域接続を削除）を実行する。一方、「キャッシュクラスタの閉域接続の待ち受け解除処理」では、Ｓ２０７に伴い、閉域接続の解除を開始し、CPE８から閉域接続の解除を受諾する。

　図２５は、「閉域接続の確立処理」Ａの動作を示すシーケンス図である。ここでは、図１９に示す方式７の閉域接続の確立処理を説明する。ユーザ拠点には、CPE８が配置されており、キャリア網のGW９３がCPE８への接続インタフェースを保持している。CPE８とGW９３との間は、事前にPPPoE等により閉域接続が確立済みであり、さらにGW９３とキャッシュクラスタ７との間で閉域接続を確立することで、GW９３は、２つの閉域接続を中継する閉域経路を生成する。この閉域経路を介することで、キャッシュクラスタ７およびクラスタ共有ストレージ４からCPE８配下のユーザストレージ６にアクセス可能な状態になる。この制御のためにGW９３は閉域接続制御のためのAPIを保持している。

　本処理の前提として、CPE８とGW９３との間で、PPPoE等により閉域接続が確立済みで、この閉域接続を介してCPE８はインターネットに接続可能である。スケジューラ１にジョブが登録される。ジョブの登録データに含まれる、ユーザストレージ６への閉域接続情報には、「回線識別情報」（CPE８が接続すると、GW９３の識別等に用いられる）が含まれる。以下に、本処理を説明する。

　スケジューラ１は、CPE８が接続するGW９３を特定する（Ｓ２１１）。スケジューラ１は、GW９３に閉域接続の待ち受け設定と、閉域接続の中継設定とを指示する（Ｓ２１２）。この中継設定は、キャッシュクラスタ７との閉域接続確立後、CPE８とGW９３間の閉域接続と、GW９３とキャッシュクラスタ７間の閉域接続をルーティング、スイッチ等により中継して論理的なCPE８とキャッシュクラスタ７間の閉域経路を生成するための設定である。この閉域経路を利用することで、キャッシュクラスタ７およびクラスタ共有ストレージ４とCPE８配下のユーザストレージ６とは互いに接続可能となる。GW９３では、CPE８配下からのトラフィックについて、キャッシュクラスタ７もしくはクラスタ共有ストレージ４宛てのみのデータを閉域経路へ転送する。CPE８配下からインターネット接続と共用可能である。

　GW９３は、閉域接続の待ち受け設定と、閉域接続の中継設定とを実施する（Ｓ２１３）。これにより、閉域接続の待ち受けと、閉域接続中継の待機状態が確立する。GW９３は、閉域接続の待ち受け設定と、閉域接続の中継設定の完了をスケジューラ１に報告する（Ｓ２１４）。この報告には、「GWへの閉域接続の情報」が含まれる。スケジューラ１は、閉域接続の確立をキャッシュクラスタ７に指示する（Ｓ２１５）。この指示には、「GWへの閉域接続の情報」が含まれる。閉域接続確立後、キャッシュクラスタ７が自律的に学習対象データの取得制御を行う場合は、「学習対象データの格納場所」についても閉域接続の待ち受け指示で渡される。キャッシュクラスタ７は、閉域接続を設定し（Ｓ２１６）、閉域接続の開始をGW９３に通知する（Ｓ２１７）。GW９３は、キャッシュクラスタ７に閉域接続を受諾する（Ｓ２１８）。これにより、閉域接続待ち受け状態が確立される。GW９３による閉域接続の中継により、CPE８とキャッシュクラスタ７間の閉域経路が確立される。キャッシュクラスタ７は、閉域接続の確立完了をスケジューラ１に報告する（Ｓ２１９）。以降、確立された閉域経路を介することで。キャッシュクラスタ７もしくはクラスタ共有ストレージ４からユーザ拠点のユーザストレージ６上の学習対象データにアクセス可能となる。

　図２６は、「閉域接続の解除処理」Ｃの動作を示すシーケンス図である。ここでは、図１９に示す方式７の閉域接続の解除処理を説明する。GW９３とキャッシュクラスタ７間で、閉域接続が確立されており、さらにGW９３により、CPE８とキャッシュクラスタ７間に閉域経路が確立されている。ここで、GW９３とキャッシュクラスタ７間の閉域接続を解除することで、CPE８とキャッシュクラスタ７間の閉域経路も併せて解除する。この制御のためにGW９３は閉域接続制御のためのAPIを保持している。

　本処理の前提として、CPE８とGW９３との間で、PPPoE等により閉域接続が確立済みで、この閉域接続を介してCPE８はインターネットに接続可能である。スケジューラ１にジョブが登録される。ジョブの登録データに含まれる、ユーザストレージ６への閉域接続情報には「回線識別情報」が含まれる。スケジューラ１の制御により、GW９３とクラスタ共有ストレージ４間に閉域接続が確立される。合わせて、GW９３により、CPE８とキャッシュクラスタ７間に閉域経路が確立される。スケジューラ１の制御により、キャッシュクラスタ７が学習対象データのフェッチを開始する。スケジューラ１の制御により、ジョブがデプロイされ学習を開始する。デプロイされるタイミングとしては、キャッシュクラスタ７で学習対象データを全てフェッチしてからの場合と、フェッチを継続している場合とが存在する。以下に、本処理を説明する。

　スケジューラ１は、CPE８に閉域接続の解除を指示する（Ｓ２３１）。この指示には、「GW９３への閉域接続の情報」が含まれる。キャッシュクラスタ７は、GW９３との閉域接続の解除を開始する（Ｓ２３２）。GW９３は、閉域接続の解除をキャッシュクラスタ７に受諾する（Ｓ２３３）。これにより、閉域接続が解除され、CPE８とキャッシュクラスタ７間の閉域経路が解除される。キャッシュクラスタ７は、閉域接続を削除し（Ｓ２３４）、閉域接続の解除完了をスケジューラ１に報告する（Ｓ２３５）。スケジューラ１は、閉域接続待ち受け設定の削除と、閉域接続の中継設定の削除をGW９３に指示する（Ｓ２３６）。GW９３は、閉域接続待ち受け設定を削除し、閉域接続の中継設定を削除する（Ｓ２３７）。GW９３は、Ｓ２３７の削除完了をスケジューラ１に報告する（Ｓ２３８）。

　図２７および図２８は、「学習対象データのクラスタ格納処理」Ｂを示すシーケンス図である。本処理では、ユーザストレージ６上の学習対象データをクラスタ共有ストレージ４上に格納する。

　図２７では、キャッシュクラスタ７がユーザストレージ６の学習対象データのブロックを読み出し、当該ブロックをクラスタ共有ストレージ４上に書き込む（複製する）ことを繰り返す。ブロックは、学習対象データの一部であって、例えば１以上のファイルの集合、または、１ファイルのうちの一定サイズの１部分などを示す。キャッシュクラスタ７とCPE８との間には、閉域接続または閉域経路が確立されており、いずれかを介することでキャッシュクラスタ７はユーザストレージ６の学習対象データにアクセスする。また、キャッシュクラスタ７は、閉域接続または閉域経路の確立を検知すると、自律的に格納処理を開始する。CPE８は、キャリア網内に配置されているvCPEに置き換わる場合もある。

　本処理の前提として、スケジューラ１にジョブが登録される。スケジューラ１の制御により、CPE８とキャッシュクラスタ７との間に閉域接続または閉域経路が確立される。キャッシュクラスタ７は、自律的に格納処理を開始するために、閉域接続または閉域経路の確立処理の中で「学習対象データの格納場所」がスケジューラ１からキャッシュクラスタ７に渡されている。以下に、本処理を説明する。

　キャッシュクラスタ７は、閉域接続の確立を契機として、閉域接続または閉域経路を介してユーザストレージ６から学習対象データをブロック単位で読み出し（Ｓ２５１）、読み出したブロック単位の学習対象データをクラスタ共有ストレージ４に書き込む（Ｓ２５２）。キャッシュクラスタ７は、学習対象データを全てクラスタ共有ストレージ４に格納するまで、Ｓ２５１およびＳ２５２を繰り返す。キャッシュクラスタ７は、学習対象データを全て格納した後、学習対象データの取得完了を、スケジューラ１に通知する（Ｓ２５３）。この通知には、クラスタ共有ストレージ４上の学習対象データの格納場所が含まれる。

　図２８では、キャッシュクラスタ７がクラスタ共有ストレージ４に対し、ユーザストレージ６上の学習対象データの取得を指示する。前提条件などについては、図２７と同じであるため、ここでは説明を省略する。以下に、本処理を説明する。

　キャッシュクラスタ７は、閉域接続の確立を契機として、ユーザストレージ６に学習対象データの取得を指示する（Ｓ２７１）。この指示には、「学習対象データの格納場所」が含まれる。クラスタ共有ストレージ４は、閉域接続または閉域経路を介してユーザストレージ６から学習対象データを取得する（Ｓ２７２）。これにより、閉域接続または閉域経路を介してユーザストレージ６の学習対象データがクラスタ共有ストレージ４に格納される。クラスタ共有ストレージ４は、学習対象データの取得完了を、スケジューラ１に報告する（Ｓ２７３）。この報告には、クラスタ共有ストレージ４上の学習対象データの格納場所が含まれる。

　図２９は、「学習処理におけるキャッシュクラスタへのデータアクセス処理」Ｄを示すシーケンス図である。本処理では、キャッシュクラスタ７への学習対象データのキャッシュ（フェッチ）が完全に完了する前に投機的にジョブがデプロイされ、学習を開始している場合である。キャッシュクラスタ７がキャッシュ対象とする学習対象データは、ユーザストレージ６またはキャッシュクラスタ７に格納されている。

　本処理の前提として、スケジューラ１にジョブが登録される。スケジューラ１の制御により、キャッシュクラスタ７が学習対象データのキャッシュを開始する。ジョブがデプロイされる。キャッシュクラスタ７の学習対象データにジョブからアクセスが可能になる。ジョブが、学習処理を開始する（Ｓ２９１）。ジョブは、学習対象データにアクセスしながら学習処理を行う。以下に、本処理を説明する。

　ジョブは、学習対象データのブロック単位での読み込みをキャッシュクラスタ７に要求する（Ｓ２９２）。キャッシュクラスタ７は、キャッシュミスが発生した場合（Ｓ２９３）、学習対象データへの透過的接続（Ｓ２９４、Ｓ２９５）と、学習対象データのプリフェッチ（Ｓ２９６）とを並列処理で行う。キャッシュミスは、キャッシュクラスタ７がキャッシュ対象としているデータのうち、要求元（キャッシュクラスタ７を利用するジョブなど）が、未キャッシュのデータを読み書きしようとした状態を指す。データが存在しないため、要求元に対してデータを即時応答することができない。キャッシュクラスタ７は、要求元を待たせたまま、キャッシュ対象データをオリジンに要求し、キャッシュデータを作成してから要求元に応答するなどの処理が発生する。

　学習対象データへの透過的接続では、キャッシュクラスタ７は、キャッシュミスしたブロックの学習対象データをオリジンから取得し（Ｓ２９４）、取得したブロックの学習対象データをジョブに返却する（Ｓ２９５）。キャッシュクラスタ７は、キャッシュミス時に学習対象データの元データにアクセスしながら、ジョブにデータを返却する。これにより、ジョブにはキャッシュミスの発生を隠ぺいしつつ、透過的に学習対象データのオリジンにアクセスさせる。なお、キャッシュクラスタ７において、ここで返却している学習対象データのブロックは、今後利用される見込みがないため、キャッシュしないことでデータ入力処理を高速化してもよい。

　学習対象データのプリフェッチでは、数ブロック先の学習対象データを先読みしてキャッシュする（Ｓ２９６）。キャッシュクラスタ７は、キャッシュミス発生後、学習対象データのオリジンにアクセスして応答をジョブに返却するとともに、今後、ジョブが読み込む学習対象データのブロックについて、数ブロック先のキャッシュを並行して開始する。これにより、キャッシュミスを一時的なものとして、その後のキャッシュミスの発生を低減し、データ入出力処理を高速化する。

　図３０Ａおよび図３０Ｂは、「ジョブのチェックポイント処理」を示すシーケンス図である。チェックポイント処理は、動作中のジョブに含まれる仮想空間やプロセスをフリーズし、状態をいくつかのファイル(ダンプ)に保存する処理である。ジョブのチェックポイント処理は、例えば、CRIU (https://www.criu.org/Main_Page、https://github.com/checkpoint-restore/criu) などを使用して実現される。

　本処理では、ジョブがキャッシュクラスタ７から学習対象データを読み込む際のキャッシュミスを許容する。具体的には、キャッシュミスが発生した場合に、その発生を検知し、ジョブをチェックポイントする。本処理では、キャッシュクラスタ７への学習対象データのフェッチが完全に完了する前に投機的にジョブがデプロイされ、学習を開始している場合である。キャッシュクラスタ７がキャッシュ対象とする学習対象データは、ユーザストレージ６またはキャッシュクラスタ７に格納されている。

　本処理の前提として、ノード３は、キャッシュクラスタ７上のボリュームをジョブのダンプの格納場所としてマウントしている。ジョブのダンプの格納場所は、クラスタ共有ストレージ４上でもよい。スケジューラ１にジョブが登録される。スケジューラ１の制御により、キャッシュクラスタ７が学習対象データのキャッシュを開始する。ジョブがデプロイされる。キャッシュクラスタ７の学習対象データにジョブからアクセスが可能になる。ジョブが、学習処理を開始する（Ｓ３１１）。ジョブは、学習対象データにアクセスしながら学習処理を行う。以下に、本処理を説明する。

　学習対象データの読み込みでキャッシュミスが連続して発生する。この場合、以下の３つの処理のいずれかの処理が行われる。

　「キャッシュクラスタが検知する場合」では、キャッシュクラスタ７が、所定の閾値以上の連続したキャッシュミスを検出し（Ｓ３１２）、スケジューラ１にキャッシュミスの発生を通知する（Ｓ３１３）。閾値は、クラスタ管理者が任意に決定する。閾値は、ブロックサイズや通信速度などから適切な値を決定することができる。

　「ジョブがキャッシュミスを検知する場合」では、ジョブが、ストレージIO帯域幅の減少等からキャッシュミスを検知し（Ｓ３１４）、スケジューラ１にキャッシュミスの発生を通知する（Ｓ３１５）。

　「スケジューラ１がキャッシュミスを検知する場合」では、ノード３が、ジョブのストレージIO帯域幅やGPU使用率等をマスタ２に報告する（Ｓ３１６）。スケジューラ１は、マスタ２にジョブの状態を問い合わせる（Ｓ３１７）。マスタ２は、ノード３から報告されているジョブの状態を応答する（Ｓ３１８）。スケジューラ１は、ジョブの状態からジョブのストレージIO帯域幅の減少や、GPUがほぼ使用されていないことなどを確認して、キャッシュミスの発生を検知する。

　スケジューラ１は、キャッシュミスの発生を検知すると、ジョブのチェックポイントをマスタ２に指示し（Ｓ３１９）、マスタは、ジョブのチェックポイントをノード３に指示する（Ｓ３２０）。ノード３は、ジョブをチェックポイントする（Ｓ３２１）。すなわち、ノード３は、ジョブのダンプをキャッシュクラスタ７上に格納する。ノード３は、事前にキャッシュクラスタ７をマウントしている。ジョブのチェックポイントにより、ジョブは一時停止状態（サスペンド状態）となる。一方、キャッシュクラスタ７による学習対象データの未キャッシュ部分のプリフェッチは継続される。

　ノード３は、ジョブのチェックポイント完了をマスタ２に報告し（Ｓ３２２）、マスタ２は、ジョブのチェックポイント完了をスケジューラ１に報告する（Ｓ３２３）。この報告には、ジョブのダンプの格納場所が含まれる。そして、後述する「ジョブのリストア処理」Ｅが行われる。

　図３１は、別の「ジョブのチェックポイント処理」を示すシーケンス図である。本処理では、ジョブがキャッシュクラスタ７から学習対象データを読み込む際のキャッシュミスを防止する。具体的には、キャッシュミスの発生を事前に検知し、ジョブをチェックポイントする。なお、本処理の前提は、図３０Ａと同様であるためここでは、説明を省略する。以下に、本処理を説明する。

　ジョブが学習を開始すると（Ｓ３３１）、キャッシュクラスタ７は、キャッシュの利用状況の監視を開始する。キャッシュ済みの学習対象データ量と、ジョブが読み出したデータ量との変遷からキャッシュの発生を事前に検知する（Ｓ３３２）。キャッシュクラスタ７は、スケジューラ１にキャッシュミス発生の事前警告を通知する（Ｓ３３３）。スケジューラ１は、ジョブのチェックポイントをマスタ２に指示し（Ｓ３３４）、マスタは、ジョブのチェックポイントをノード３に指示する（Ｓ３３５）。ノード３は、ジョブをチェックポイントする（Ｓ３３６）。すなわち、ノード３は、事前にマウントしたキャッシュクラスタ７上にジョブのダンプを格納する。ジョブのチェックポイントにより、ジョブは一時停止状態となる。一方、キャッシュクラスタ７による学習対象データの未キャッシュ部分のプリフェッチは継続される。

　ノード３は、ジョブのチェックポイント完了をマスタ２に報告し（Ｓ３３７）、マスタ２は、ジョブのチェックポイント完了をスケジューラ１に報告する（Ｓ３３８）。この報告には、ジョブのダンプの格納場所が含まれる。そして、後述する「ジョブのリストア処理」Ｅが行われる。

　図３２Ａ、図３２Ｂおよび図３２Ｃは、「ジョブのリストア」Ｅを示すシーケンス図である。本処理は、ジョブがチェックポイントされた後、ジョブが実行を再開するまでの処理である。ジョブのリストアは、チェックポイントされたジョブのダンプから、ジョブを復元し動作を再開させる処理である。ジョブのリストアは、例えば、CRIU (https://www.criu.org/Main_Page、https://github.com/checkpoint-restore/criu) などを使用して実現される。

　本処理の前提として、ノード３は、キャッシュクラスタ７上のボリュームをジョブのダンプの格納場所としてマウントしている。ダンプの格納場所は、クラスタ共有ストレージ４上でもよい。スケジューラ１にジョブが登録される。スケジューラ１の制御により、キャッシュクラスタ７が学習対象データのキャッシュを開始する。ジョブがデプロイされる。キャッシュクラスタ７の学習対象データにジョブからアクセスが可能になる。ジョブが、学習処理を開始する（Ｓ３５１）。ジョブは、学習対象データにアクセスしながら、学習処理を行う。スケジューラ１がジョブをチェックポイントすることで、ジョブの実行を一次停止する。ジョブが停止された後も、学習対象データの未キャッシュ部分のプリフェッチは継続される。以下に、本処理を説明する。

　チェックポイントによりジョブの実行が一時停止されると、以下の「キャッシュクラスタのポーリング確認によるリストア待機」、「時間予測に基づくリストア待機」および「キャッシュクラスタから通知する場合」の３つの処理のいずれかの処理が行われる。

　「キャッシュクラスタのポーリング確認によるリストア待機」では、スケジューラ１がジョブのチェックポイント時のキャッシュデータ量と、学習対象データのデータ量とをキャッシュクラスタ７に問い合わせて（Ｓ３５２）、キャッシュクラスタ７からこれらの情報を取得する（Ｓ３５３）。学習対象データのデータ量はジョブ登録時にユーザから取得してもよい。そして、スケジューラ１は、キャッシュデータ量をキャッシュクラスタ７に問い合わせ、取得する（Ｓ３５４、Ｓ３５５）。スケジューラ１は、「キャッシュデータ量」－「チェックポイント時のキャッシュデータ量」＞＝「データ量閾値」となるまで、Ｓ３５４およびＳ３５５の処理を繰り返す。

　「時間予測に基づくリストア待機」では、スケジューラ１は、チェックポイント時のキャッシュデータ量と、キャッシュクラスタ７のキャッシュ速度と、学習対象データのデータ量とを、キャッシュクラスタ７に問い合わせ（Ｓ３５６）、これらの情報を取得する（Ｓ３５７）。学習対象データのデータ量はジョブ登録時にユーザから取得してもよい。キャッシュクラスタ７のキャッシュ速度は、キャッシュクラスタ７が学習対象データをキャッシュする際のデータ入力スループットを示す。

　スケジューラ１は、待機時間候補１を算出する（Ｓ３５８）。具体的には、スケジューラ１は、チェックポイント時のキャッシュデータ量とキャッシュ速度から、今後キャッシュデータ量が閾値を超過するまでの時間を時間候補１として算出する。スケジューラ１は、待機時間候補２を算出する（Ｓ３５９）。具体的には、スケジューラ１は、チェックポイント時のキャッシュデータ量とキャッシュ速度から、今後、学習対象データの全てがキャッシュされるまでの時間を時間候補２として算出する。スケジューラ１は、待機候補時間１と待機候補時間２とを比較し、短い方の時間待機する（Ｓ３６０）。

　「キャッシュクラスタから通知する場合」では、スケジューラ１は、必要なキャッシュデータ量をキャッシュクラスタ７に指示する（Ｓ３６１）。キャッシュクラスタ７は、学習対象データの未キャッシュ部分をキャッシュし（Ｓ３６２）、指示されたデータ量をキャッシュしたことを契機にスケジューラ１に通知する（Ｓ３６３）。

　スケジューラ１は、チェックポイントされたサスペンドジョブをRQ２３に登録する（Ｓ３６４）。スケジューラ１は、マスタ２にGPUの空き状況等を問い合わせ（Ｓ３６５）、取得する（Ｓ３６６）。GPUに空きがある場合、スケジューラ１は、ジョブをスケジューリングする（Ｓ３６７）。具体的には、スケジューラ１は、RQ２３のジョブを、DQ２４の通常のジョブより優先的にスケジュールする。スケジューラ１は、ジョブのリストアをマスタ２に指示し（Ｓ３６８）、マスタ２はジョブのリストアをノード３に指示する（Ｓ３６９）。この指示には、ダンプの格納場所が含まれる。ノード３は、ジョブのリストアを実行し（Ｓ３７０）、ジョブの実行を再開する（Ｓ３７１）。例えば、Network namespaceなどの仮想環境が復元され、チェックポイント時の状況から学習処理が再開可能な状態に復元される。ノード３は、学習処理を再開する（Ｓ３７２）。

　（本実施形態の効果）
　以上説明した本実施形態のGPUクラスタシステムにおけるスケジューラ１は、投入されたジョブを、フェッチ開始待ちのジョブを格納する第１ステージキュー１３-１５に格納する第１キューセレクタ１１と、第１ステージキュー１３-１５のジョブを取り出してフェッチングジョブリスト３０に登録し、ストレージ４に格納された、前記ジョブのデータのフェッチをキャッシュクラスタ７に開始させる第１ジョブセレクタ１２と、フェッチしたデータ量が所定の閾値を超えたジョブを、フェッチングジョブリスト３０から取り出し、デプロイ待ちのジョブを格納する第２ステージキュー２３－２５に格納する第２キューセレクタ２１と、第２ステージキュー２３－２５からジョブを取り出し、当該ジョブのデプロイを指示する第２ジョブセレクタ２２と、を有し、前記ジョブのデプロイ指示には、前記ジョブのデータの格納場所としてキャッシュクラスタ７が指定され、GPUクラスタはキャッシュクラスタ７にアクセスして前記ジョブを実行する。

　これにより本実施形態では、ストレージの速度不足により発生するGPUの遊休時間を低減し、GPUの稼働率を向上させることができる。すなわち、学習対象データなどのデータの読み出しを高速化することができ、GPUクラスタシステムの提供事業者によるGPUの稼働率を高めることができる。

　また、本実施形態では、実行前のジョブをフェッチングジョブリスト３０に登録し、キャッシュクラスタ７にデータのプリフェッチを開始させる。このように、GPUによるジョブの実行と並行してデータのプリフェッチを行うことで、GPUを効率的に使用することができる。

　また、本実施形態では、データ待ちによるGPU遊休時にジョブを一時停止し、他のジョブにGPUを譲ることで、GPUの稼働率を向上することができる。

　（ハードウェア構成）
　上記説明したスケジューラ１は、例えば、図３３に示すような汎用的なコンピュータシステムを用いることができる。図示するコンピュータシステムは、CPU（Central Processing Unit、プロセッサ）９０１と、メモリ９０２と、ストレージ９０３（HDD：Hard Disk Drive、SSD：Solid State Drive）と、通信装置９０４と、入力装置９０５と、出力装置９０６とを備える。メモリ９０２およびストレージ９０３は、記憶装置である。このコンピュータシステムにおいて、CPU９０１がメモリ９０２上にロードされた所定のプログラムを実行することにより、スケジューラ１の各機能が実現される。

　また、スケジューラ１は、１つのコンピュータで実装されてもよく、あるいは複数のコンピュータで実装されても良い。また、スケジューラ１は、コンピュータに実装される仮想マシンであっても良い。

　スケジューラ１用のプログラムは、HDD、SSD、USB（Universal Serial Bus）メモリ、CD (Compact Disc)、DVD (Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。

　なお、本発明は上記実施形態および変形例に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。

　１　：スケジューラ
　１１：第１キューセレクタ
　１２：第１ジョブセレクタ
　１３：ジョブキュー（JQ）
　１４：公平性超過ジョブキュー（OFJQ）
　１５：ユーザ超過ジョブキュー（OUJQ）
　２１：第２キューセレクタ
　２２：第２ジョブセレクタ
　２３：リストアキュー（RQ）
　２４：デプロイキュー（DQ）
　２５：公平性超過キュー（OFDQ）
　３０：フェッチングジョブリスト（FJL）
　３１：アカウントDB
　３２：GPU使用量監視部
　２　：マスタ
　３　：ノード
　４　：クラスタ共有ストレージ
　５　：ユーザ端末
　６　：ユーザストレージ
　７　：キャッシュクラスタ

Claims

　GPUクラスタシステムが行うスケジューリング方法であって、
　スケジューラは、
　　投入されたジョブを、フェッチ開始待ちのジョブを格納する第１ステージキューに格納するステップと、
　　第１ステージキューのジョブを取り出してフェッチングジョブリストに登録し、前記ジョブのデータのフェッチをキャッシュクラスタに開始させるステップと、
　　フェッチしたデータ量が所定の閾値を超えたジョブを、フェッチングジョブリストから取り出し、デプロイ待ちのジョブを格納する第２ステージキューに格納するステップと、
　　第２ステージキューからジョブを取り出し、当該ジョブのデプロイを指示するステップと、を行い、
　前記キャッシュクラスタは、
　　フェッチングジョブリストに登録されたジョブのデータを、当該データが格納されたストレージからフェッチして、当該キャッシュクラスタに格納するステップを行い、
　GPUクラスタは、
　　前記キャッシュクラスタのデータにアクセスして、ジョブを実行するステップを行う
　スケジューリング方法。
　GPUクラスタシステムにおけるスケジューラであって、
　投入されたジョブを、フェッチ開始待ちのジョブを格納する第１ステージキューに格納する第１キューセレクタと、
　第１ステージキューのジョブを取り出してフェッチングジョブリストに登録し、ストレージに格納された、前記ジョブのデータのフェッチをキャッシュクラスタに開始させる第１ジョブセレクタと、
　フェッチしたデータ量が所定の閾値を超えたジョブを、フェッチングジョブリストから取り出し、デプロイ待ちのジョブを格納する第２ステージキューに格納する第２キューセレクタと、
　第２ステージキューからジョブを取り出し、当該ジョブのデプロイを指示する第２ジョブセレクタと、を有し、
　前記ジョブのデプロイ指示には、前記ジョブのデータの格納場所として前記キャッシュクラスタが指定され、GPUクラスタは前記キャッシュクラスタにアクセスして前記ジョブを実行する
　スケジューラ。
　請求項２記載のスケジューラであって、
　第１ステージキューは、公平性の観点から各ユーザに割り当てられたGPUの割当量を超えていないジョブが格納されるジョブキューと、前記割当量を超えたジョブが格納される超過ジョブキューとを備え、
　第１ジョブセレクタは、前記ジョブキューのジョブを前記超過ジョブキューのジョブより優先的にフェッチングジョブリストに登録する
　スケジューラ。
　請求項２または３記載のスケジューラであって、
　第２ステージキューは、リストア待ちのジョブが格納されるリストアキューと、デプロイ待ちのジョブが格納されるデプロイキューと、公平性の観点から各ユーザに割り当てられたGPUの割当量を超えたジョブが格納され超過キューとを備え、
　第２ジョブセレクタは、前記リストアキューのジョブを前記デプロイキューのジョブより優先的にデプロイ指示し、前記デプロイキューのジョブを前記超過キューのジョブより優先的にデプロイ指示する
　スケジューラ。
　請求項４記載のスケジューラであって、
　第２ジョブセレクタは、前記リストアキュー、前記デプロイキューおよびの前記超過キューの全てが空の場合、第２キューセレクタを起動し、フェッチングジョブリストの中でフェッチしたデータ量が最も多いジョブまたはフェッチングジョブリストの先頭のジョブを、前記リストアキュー、前記デプロイキューおよびの前記超過キューのいずれかに格納させる
　スケジューラ。
　請求項２から５のいずれか１項に記載のスケジューラと、キャッシュクラスタと、GPUクラスタとを備えるGPUクラスタシステムであって、
　前記キャッシュクラスタは、フェッチングジョブリストに登録されたジョブのデータを、当該データが格納されたストレージからフェッチして、当該キャッシュクラスタに格納し、
　前記GPUクラスタは、前記キャッシュクラスタのデータにアクセスして、ジョブを実行する
　GPUクラスタシステム。
　請求項２から５のいずれか１項に記載のスケジューラとして、コンピュータを機能させるプログラム。