WO2021177249A1

WO2021177249A1 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: WO2021177249A1
Application number: PCT/JP2021/007781
Authority: WO
Inventors: 拓也成平; 顕生早川; 上野　晃司; 湧一甕
Original assignee: ソニーグループ株式会社
Priority date: 2020-03-06
Filing date: 2021-03-01
Publication date: 2021-09-10
Also published as: JP7616204B2; JPWO2021177249A1

Abstract

情報処理装置（１）は、取得部（２２）と、決定部（２３）とを備える。取得部（２２）は、１イテレーションに相当する学習処理を繰り返し実行する深層学習において、最初の学習処理を行うことで、学習処理において内部メモリ（３）に転送されるデータの使用順序を示す順序情報を取得する。決定部（２３）は、取得部（２２）によって取得された順序情報に基づいて、次回以降の学習処理におけるデータのメモリスワップに関するスケジュールを決定する。

Description

情報処理装置、情報処理方法および情報処理プログラム

　本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。

　近年、深層学習（ディープラーニング）の研究が盛んに行われている。この深層学習では、生成されるモデルが大きい（ネットワークの層数や、パラメータ数が多い）程、モデルとしての性能が高くなる傾向にある。また、モデルが大きくなるほど、プロセッサの必要となる内部メモリの領域も大きくなる。

　この点について、例えば、プロセッサ外のメモリ領域をスワップ先としてデータをスワップさせることで、仮想的にメモリ領域を拡大する技術がある（例えば、特許文献１参照）。

米国特許出願公開第２０１９／０３０３０２５号明細書

　しかしながら、従来技術では、内部メモリのメモリ容量によっては処理オーバヘッドが多く発生してしまうおそれがあった。

　そこで、本開示では、深層学習における処理オーバヘッドを抑えることができる情報処理装置、情報処理方法および情報処理プログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、取得部と、決定部とを備える。前記取得部は、１イテレーションに相当する学習処理を繰り返し実行する深層学習において、最初の前記学習処理を行うことで、前記学習処理において内部メモリに転送されるデータの使用順序を示す順序情報を取得する。前記決定部は、前記取得部によって取得された前記順序情報に基づいて、次回以降の前記学習処理における前記データのメモリスワップに関するスケジュールを決定する。

実施形態に係る情報処理方法の概要を示す図である。実施形態に係る情報処理方法の概要を示す図である。実施形態に係る情報処理装置の構成例を示すブロック図である。内部メモリにおけるメモリ領域の設定方法を説明するための図である。内部メモリにおけるメモリ領域の設定方法を説明するための図である。決定部によるスケジュール決定処理を示す図である。決定部によるスケジュール決定処理を示す図である。決定部によるスケジュール決定処理を示す図である。決定部によるスケジュール決定処理を示す図である。決定部によるスケジュール決定処理を示す図である。決定部によるリスケジュール処理を示す図である。変形例に係る内部メモリにおけるメモリ領域の設定方法を示す図である。対象範囲を用いたスケジュール決定処理を示す図である。対象範囲を用いたスケジュール決定処理を示す図である。対象範囲を用いたスケジュール決定処理を示す図である。実施形態に係る情報処理装置が実行する処理の処理手順を示すフローチャートである。実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

　なお、説明は以下の順序で行うものとする。
　　１．実施形態
　　　１．１　情報処理方法の概要
　　　１．２　情報処理装置の構成例
　　　１．３　情報処理の詳細
　　　１．４　処理フロー
　　２．ハードウェア構成
　　３．変形例
　　４．まとめ

　１．実施形態
　まず、実施形態について、以下に図面を参照して詳細に説明する。　

　１．１　情報処理方法の概要
　図１Ａおよび図１Ｂは、実施形態に係る情報処理方法の概要を示す図である。図１Ａでは、情報処理システムＳを示している。図１Ａに示すように、実施形態に係る情報処理システムＳは、ＧＰＵ（Graphics　Processing　Unit）１と、ＣＰＵ（Central　Processing　Unit）１００とを備える。

　ＧＰＵ１は、深層学習を実行する情報処理装置であり、コア２（後述する制御部２）と、内部メモリ３（後述する記憶部３）とを備える。ＣＰＵ１００は、情報処理装置であり、ＧＰＵ１が深層学習を実行する際の内部メモリ３のスワップ先となる外部メモリ１１０を有する。

　図１Ａに示す例では、ニューラルネットワークを用いた深層学習の例を示している。すなわち、ＧＰＵ１のコア２は、順伝播により入力層Ｌ１から出力層Ｌ２に向かって順番に関数計算し、出力層Ｌ２の出力データと教師データとの誤差に基づいて逆伝播により出力層Ｌ２から入力層Ｌ１に向かって各パラメータ（重み値等）を修正する関数計算を行う。

　そして、順伝播による関数計算処理（順伝播処理）および逆伝播による関数計算処理（逆伝播処理）に加えて、順伝播処理および逆伝播処理に基づき各パラメータを更新する更新処理をそれぞれ１回行うことを１イテレーションと呼ぶ。そして、深層学習とは、この１イテレーションに相当する学習処理を繰り返し実行することでモデルを学習（生成）する処理のことを指す。

　そして、コア２は、この学習処理を実行する場合に、学習用データ（各パラメータ等）をＣＰＵ１００の外部メモリ１１０から内部メモリ３にスワップインしたり、内部メモリ３から外部メモリ１１０にスワップアウトしたりすることで、内部メモリ３のメモリ領域の使用量の削減を図っている。なお、以下では、「学習用データ」を単に「データ」と称する場合がある。

　しかしながら、従来技術では、内部メモリおよび外部メモリ間のメモリスワップ処理によって、深層学習における処理オーバヘッドが大きくなるおそれがあった。

　そこで、実施形態に係る情報処理方法では、メモリスワップのスケジュールを最適化することで、処理オーバヘッドを低減することとした。ここで、図１Ｂを用いて、実施形態に係る情報処理方法を説明する。なお、以下で示す「学習処理の実行」とは、実際に学習処理を実行することを指す場合に限らず、深層学習の解析のためにシミュレーション的に学習処理を実行することを指す場合であってもよい（つまり、実際に実行しない）。

　具体的には、図１Ｂに示すように、実施形態に係る情報処理方法では、まず、１回目の学習処理（最初の学習処理）を実行する（ステップＳ１）。実施形態に係る情報処理方法では、この最初の学習処理において、内部メモリ３に転送（スワップイン）される学習用データの使用順序を示す順序情報を取得する（ステップＳ２）。

　図１Ｂでは、順序情報の一例を模式的に示している。例えば、図１Ｂでは、順伝播処理における各層（conv1,conv2,loss：関数計算の層）、逆伝播処理における各層（▽loss,▽_wconv2,▽_xconv2,▽_wconv1：関数計算の層）および更新処理（update：関数計算の層）で使用されるデータを示している。なお、図１Ｂにおいて、「ｘ１」および「ｘ２」は関数計算における変数のデータであり、「ｗ１」および「ｗ２」は関数計算における重みのデータであり、「ｙ」は関数計算の出力（処理結果）であり、「t」はラベル（教師データ）であり、損失関数（学習処理の繰り返し最適化の目的関数）である。

　また、実線の丸である「read」は、内部メモリ３に読み込む（スワップインする）データであることを示し、間隔が狭い破線の丸である「write」は、各層の出力として内部メモリ３に書き込まれるデータであることを示し、間隔が広い破線の丸である「read＆write」は、内部メモリ３に読み書きされるデータであることを示す。

　つまり、順序情報は、学習処理である順伝播処理、逆伝播処理および更新処理において、各データがどのタイミングで使用されるか（どのタイミングでスワップインされるか）を示す情報である。

　つづいて、実施形態に係る情報処理方法では、取得した順序情報に基づいて、次回以降（２回目以降）の学習処理におけるデータのメモリスワップに関するスケジュールを決定する（ステップＳ３）。

　具体的には、実施形態に係る情報処理方法では、内部メモリ３にデータをスワップインするタイミングおよび内部メモリ３から外部メモリ１１０へスワップアウトするタイミング、データを削除してメモリを解放するタイミングを示すスケジュールを決定する。なお、詳細なスケジュールの決定方法については後述する。

　そして、実施形態に係る情報処理方法では、決定したスケジュールに従って２回目以降の学習処理を繰り返し実行する（ステップＳ４）。

　つまり、実施形態に係る情報処理方法では、最初の学習処理により、データの使用順序を把握してから、次回以降の学習処理において処理オーバヘッドが発生しにくい最適なメモリスワップ処理のスケジュールを決定する。これにより、次回以降の学習処理において、メモリスワップ処理に起因する処理オーバヘッドを抑えることができる。

　なお、最初の学習処理では、計算毎にデータをスワップインし、計算後にすべてのデータをスワップアウトするため、多少の処理オーバヘッドが発生する可能性があるが、次回以降の学習処理の回数が莫大であるため、深層学習全体として見れば、最初の学習処理における処理オーバヘッドは無視できる。また、シミュレーション的に深層学習を実行した場合であれば、実際に深層学習を実行する場合の最初の学習処理について、決定したスケジュールに従ってメモリスワップを行うことで、最初の学習処理における処理オーバヘッドを抑えることができる。

　すなわち、実施形態に係る情報処理方法によれば、深層学習における処理オーバヘッドを抑えることができる。

　なお、実施形態に係る情報処理方法では、内部メモリ３を、スワップイン専用のメモリ領域と、スワップアウト専用のメモリ領域とに分割するが、かかる点については後述する。

　１．２　情報処理装置の構成例
　次に、図２を用いて、実施形態に係る情報処理装置１の構成例について説明する。図２は、実施形態に係る情報処理装置１の構成例を示すブロック図である。なお、図２に示す情報処理装置１は、例えば、ＧＰＵ１であるが、ＧＰＵ１に限らず、深層学習を実行可能なプロセッサであればよい。

　図２に示すように、実施形態に係る情報処理装置１は、制御部２と、記憶部３とを備える。また、情報処理装置１は、データのスワップ先となる外部メモリ１１０（図１Ａ参照）を有するＣＰＵ１００に接続される。

　制御部２は、例えば、ＧＰＵ等によって、情報処理装置１内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部２は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　図２に示すように、制御部２は、実行部２１と、取得部２２と、決定部２３とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部２の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　記憶部３は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部３は、図２に示すように、学習用データ３１と、スケジュール情報３２とを記憶する。

　学習用データ３１は、関数計算における変数や、重み等のデータであり、学習処理に使用されるデータである。なお、学習用データ３１は、深層学習を実行するユーザによって入力されたり、後述する実行部２１が実行する学習処理の過程で生じたりする。また、学習用データ３１には、順伝搬処理で生成された中間層の出力データや、一連の計算処理（順伝播処理、逆伝播処理および更新処理）で生成される各種中間出力データも含まれる。

　スケジュール情報３２は、学習処理におけるデータのメモリスワップに関するスケジュールの情報であり、スワップインのタイミングやスワップアウトのタイミング、データを削除してメモリを解放するタイミング等の情報が含まれる。なお、スケジュール情報３２は、後述する決定部２３によって生成される情報であり、後述する実行部２１によって使用される情報である。

　１．３　情報処理の詳細
　次に、制御部２の各機能（実行部２１、取得部２２および決定部２３）について詳細に説明する。

　実行部２１は、深層学習に関する学習処理を繰り返し実行する。具体的には、実行部２１は、学習処理における関数計算や、関数計算に必要なデータのメモリスワップ（内部メモリ３へのスワップインおよび外部メモリ１１０へのスワップアウト）等を行う。

　なお、実行部２１が実行するメモリスワップは、最初の学習処理（１イテレーション目）と、２回目以降の学習処理（２イテレーション目以降）とで異なる。

＜１イテレーション目＞
　実行部２１は、１イテレーション目の学習処理において、関数計算毎に計算直前に必要なデータを外部メモリ１１０から内部メモリ３へスワップインし、関数計算を行う。そして、実行部２１は、関数計算後に使用したデータをただちにスワップアウトする。

　つまり、実行部２１は、最初の学習処理においては、関数計算毎にスワップインおよびスワップアウトを繰り返す。これにより、内部メモリ３のメモリ不足が発生しないため、最初の学習処理を確実に終了することができる。

＜２イテレーション目以降＞
　実行部２１は、２イテレーション目以降の学習処理においては、後述する決定部２３によって決定されたスケジュールに従って学習処理（メモリスワップ）を実行する。具体的には、実行部２１は、記憶部３に記憶されたスケジュール情報に従って学習処理を繰り返す。なお、決定部２３によって決定されるスケジュールについては後述する。

　取得部２２は、実行部２１によって最初の学習処理が実行された場合に、学習処理において内部メモリ３に転送されるデータの使用順序を示す順序情報を取得する。例えば、取得部２２は、内部メモリ３である記憶部３に記憶された学習用データ３１のスワップインおよびスワップアウトの順序を観測し、順序情報として取得する。

　なお、取得部２２は、２回目以降の学習処理については、順序情報を取得しない。これにより、制御部２の処理負荷が嵩むことを抑制できる。

　決定部２３は、取得部２２によって取得された順序情報に基づいて、次回以降の学習処理におけるデータのメモリスワップに関するスケジュールを決定し、スケジュール情報３２として記憶部３へ記憶する。このスケジュール決定処理は、１回目の学習処理の後で、２回目の学習処理の前に行われる。

　決定部２３は、内部メモリ３のメモリ領域に基づいて、学習処理のメモリスワップのためのメモリ領域を設定する。かかる点について、図３および図４を用いて説明する。

　図３および図４は、内部メモリ３におけるメモリ領域の設定方法を説明するための図である。なお、図３に示す矩形形状の幅（紙面左右方向）の長さは、内部メモリ３の最大メモリ容量に対応している。図３に示すように、決定部２３は、内部メモリ３のメモリ領域を、スワップインされたデータが書き込まれる第１領域３１０と、スワップアウトされるデータが書き込まれる第２領域３２０とに分割する。

　具体的には、決定部２３は、第１領域３１０および第２領域３２０それぞれのメモリ容量が同じとなるように分割する。つまり、第１領域３１０および第２領域３２０それぞれのメモリ容量は、内部メモリ３の最大メモリ容量の１／２に相当する。

　また、図３に示すように、第１領域３１０および第２領域３２０の境界は、関数計算の実行位置に対応している。なお、図３に示すように、内部メモリ３を矩形形状で視覚化し、この矩形形状の内部メモリ３の第１領域３１０や、第２領域３２０、関数計算実行位置を使って決定部２３がメモリスワップのスケジュールを決定するが、かかる点については、図５で説明する。

　なお、図３では、第１領域３１０および第２領域３２０を同じメモリ容量となるように配分にした場合を示したが、第１領域３１０および第２領域３２０の配分は任意に設定可能であり、また、学習処理中に、配分を動的に変更することもできる。なお、配分を動的に変更する点については図１１で後述する。

　次に、図４を用いて、第１領域３１０および第２領域３２０それぞれの機能について詳細に説明する。図４に示すように、第１領域３１０は、内部メモリ３にスワップインされるデータを格納するメモリ領域である。また、第２領域３２０は、内部メモリ３から外部メモリ１１０へスワップアウトされるデータを格納するメモリ領域である。

　具体的には、決定部２３は、取得部２２によって取得された順序情報であるデータの使用順序に従ってデータを順次スワップインしていくとともに、関数計算で使用が終わったデータを順次スワップアウトしていく。

　より具体的には、決定部２３は、まず、第１領域３１０のメモリ領域に空きがあれば、データのスワップインを開始する（ステップＳ１１）。なお、決定部２３は、第１領域３１０のメモリ領域に空きが無ければ、後述するステップＳ１５におけるデータのスワップアウトが完了するまでステップＳ１１の実行を待機する。

　そして、決定部２３は、第１領域３１０にデータのスワップインが完了すると、かかるデータを使用して関数計算を実行する（ステップＳ１２）。そして、決定部２３は、関数計算を終了後、使用したデータを第２領域３２０へ移す（ステップＳ１３）。

　なお、「第１領域３１０から第２領域３２０へデータを移す」とは、第１領域３１０のメモリ領域から第２領域３２０のメモリ領域へ実際に移す処理であってもよく、あるいは、データを実際に移すのではなく、「第１領域３１０のデータ」というタグと、「第２領域３２０のデータ」というタグとを変更する処理であってもよい。

　つまり、内部メモリ３における第１領域３１０および第２領域３２０は、メモリ領域の位置を示すものであってもよく、あるいは、メモリ容量の配分を示すものであってもよい。

　そして、決定部２３は、第１領域３１０から第２領域３２０へデータを移すと、かかるデータのスワップアウトを開始する（ステップＳ１４）。なお、詳細は後述するが、直近の関数計算で再度同じデータを使用する場合には、スワップアウトせずに内部メモリ３（後述する第１領域３１０）に留まらせる場合がある。

　そして、決定部２３は、スワップアウトが完了した場合、メモリ領域を解放する（ステップＳ１５）。これにより、開放されたメモリ領域は、第１領域３１０として使用される。

　次に、図５～図９を用いて、視覚化した内部メモリ３（図３参照）を使ったスケジュールの決定処理について説明する。図５～図９は、決定部２３によるスケジュール決定処理を示す図である。

　まず、図５を用いて、決定部２３によるスケジュール決定処理の基本動作について説明する。図５では、各矩形が１データに相当し、複数の矩形がデータの使用順序に沿って並んでいる例を示している。

　図５では、図３で示した内部メモリ３に相当する矩形形状の領域が使用順序の方向に移動していくこととする。なお、図５では、第１領域３１０、第２領域３２０および関数計算実行位置の図示を省略しているが、第１領域３１０および第２領域３２０それぞれが同じメモリ容量であり、関数計算実行位置が内部メモリ３の領域の中央位置であることとする。また、「Head」とは、第１領域３１０におけるスワップインを開始するデータの位置を示し、「Tail」とは、第２領域３２０におけるスワップアウトが終了するデータの位置を示す。

　このスケジュール決定処理の基本動作として、「関数計算実行位置」における関数計算処理と、「Head」におけるスワップイン処理と、「Tail」におけるスワップアウト処理とはそれぞれ非同期で行われていることとする。

　そして、このスケジュール決定処理の基本動作として、時刻ｉにおける「関数計算実行位置」の関数計算（ｆｉ）が終了し、次の時刻ｉ＋１の関数計算（ｆｉ＋１）へ移るためには、関数計算（ｆｉ＋１）の実行に必要なデータのスワップインが完了している必要がある。

　つまり、時刻ｉにおいて、関数計算処理、スワップイン処理およびスワップアウト処理すべてが完了した場合、時刻ｉ＋１に移る。すなわち、内部メモリ３に相当する矩形形状の領域が使用順序の方向に関数計算処理１個分に相当するデータ分だけ移動する。

　具体的には、時刻ｉにおいて、「関数計算実行位置」の関数計算（ｆｉ）に必要なデータのスワップインが完了している場合、ｆｉの関数計算処理を実行する。また、ｆｉの関数計算処理を実行している間に、「Head」においては、データのスワップイン処理を行い、「Tail」においては、データのスワップアウト処理を行う。

　つまり、時刻ｉにおいて、関数計算処理と並行して、時刻ｉ＋１以降に実行される関数計算（ｆｉ＋１以降）に必要なデータのスワップイン処理および時刻ｉ以前の関数計算で使用したデータのスワップアウト処理を実行する。なお、関数計算（ｆｉ）に必要なデータは、関数計算（ｆｉ）の実行直前までにスワップインが完了していればよく、関数計算（ｆｉ）の実行直前までにスワップインが完了していなければ、関数計算（ｆｉ）の実行直前にスワップインの完了待ちを行う。このように、関数計算処理を実行している時間の中に、スワップイン処理およびスワップアウト処理を隠すことができるため、スワップイン処理およびスワップアウト処理に起因する処理オーバヘッドを抑えることができる。

　なお、図５に示した決定部２３の基本動作は、あくまでも「スケジュール」であり、決定部２３が実際に各処理を行っているわけではない。つまり、決定部２３は、時刻ｉにおいて、ｆｉの関数計算処理を実行するようスケジューリングし、さらに、ｆｉの関数計算処理の実行中に使用順序に対応する位置のデータのスワップイン処理およびスワップアウト処理を実行するようスケジューリングするだけである。

　なお、決定部２３に決定されたスケジュールに沿って、実行部２１が時刻ｉにおいて、ｆｉの関数計算処理を実行し、さらに、ｆｉの関数計算処理の実行中に使用順序に対応する位置のデータのスワップイン処理およびスワップアウト処理を実行する。

　このスケジュール決定処理の基本動作により、どの関数計算の時に、どのデータをどのタイミングでスワップインし、また、どのデータをどのタイミングでスワップアウトするかをスケジューリングできる。

　なお、図５に示した基本動作は、第１領域３１０のデータを順次スワップインし、第２領域３２０のデータを順次スワップアウトするものであるが、この基本動作に対して、第１領域３１０のデータをスワップインしなかったり、第２領域３２０のデータをスワップアウトしなかったりするイレギュラーな動作が発生する場合がある。かかる点について、図６～図９を用いて説明する。

　例えば、図６に示すように、決定部２３は、使用順序において、第１領域３１０である「Head」の位置のデータＤ１をスワップインするスケジュールを決定する際に、かかるデータＤ１が既に内部メモリ３に存在する場合、「Head」の位置のデータＤ１のスワップインを行わない。

　つまり、決定部２３は、使用順序において、内部メモリ３にスワップインするデータＤ１が内部メモリ３に存在する場合、当該データＤ１のスワップインを禁止するスケジュールを決定する。

　これにより、内部メモリ３においてデータＤ１の重複をなくすことができるため、内部メモリ３のメモリ不足を低減できる。また、「Head」の位置のデータＤ１のスワップインを行わないため、スワップイン処理に起因する処理オーバヘッドを抑えることができる。

　そして、決定部２３は、図６に示す「Head」の位置のデータＤ１をスワップインしなかった場合、図７に示すように、データＤ１を使用するｆｉの関数計算処理の実行後、データＤ１をスワップアウトしないようにスケジュールし、後の関数計算処理で当該データＤ１を使えるようにする。

　つまり、決定部２３は、使用順序的に後のデータＤ１のスワップインを禁止した場合、使用順序的に前のデータＤ１の関数計算実行後におけるスワップアウトを禁止する。これにより、使用順序的に後のデータＤ１として関数計算を行うことができる。

　また、データＤ１のスワップアウトを行わないため、スワップアウト処理に起因する処理オーバヘッドを抑えることができる。

　次に、図８を用いて、一度スワップアウトすると決定したスケジュールをキャンセルする場合について説明する。

　図８の上段に示すように、決定部２３は、まず、内部メモリ３に既にスワップインしたデータＤ１を使ってｆｉの関数計算処理を実行後、内部メモリ３の「Head」の位置までにおいて、データＤ１の使用予定が無いため、データＤ１のスワップアウトをスケジュールする（ステップＳ２１）。

　そして、決定部２３は、関数計算処理を進めていき、「Head」の位置にデータＤ１が出現した場合、すなわち、「Head」の位置においてデータＤ１をスワップインすることを検出した場合（ステップＳ２２）、使用順序的に前のスワップアウトするとスケジュールされたデータＤ１のスケジュールをキャンセルする（ステップＳ２３）。

　つまり、決定部２３は、ステップＳ２２におけるデータＤ１のスワップインを禁止するスケジュールを決定するとともに、ステップＳ２３におけるデータＤ１のスワップアウトを禁止するスケジュールを決定する。

　これにより、データＤ１の使用間隔が所定値以上離れた場合であっても、後のデータＤ１のスワップイン処理および前のデータＤ１のスワップアウト処理を省略できるため、メモリスワップに起因する処理オーバヘッドを抑えることができる。

　なお、図８で示したデータＤ１は、「read」、「write」および「read＆write」のいずれかのデータである。このため、データＤ１が「write」の場合、関数計算の処理結果として書き込まれるものであるため、データＤ１が「Head」の位置にきたとしても、実際にはスワップインする必要がない。

　そこで、決定部２３は、「Head」の位置のデータＤ１が「write」である場合、かかるデータＤ１のスワップインをしないこととした。かかる点について、図９を用いて説明する。

　図９の上段に示すように、決定部２３は、「Head」の位置のデータＤ１が「write」である場合、データＤ１のスワップインを禁止するスケジュールを決定する。つまり、決定部２３は、存在しえないデータＤ１に対してスワップイン処理が開始されるという不要な処理を省くことができる。

　そして、図９の下段に示すように、決定部２３は、データＤ１に対応する関数計算が実行される直前までに、処理結果であるデータＤ１を書き込むための空のメモリ領域である空領域３３０を確保しておく。

　つまり、決定部２３は、使用順序におけるデータＤ１が、学習処理の処理結果として内部メモリ３に書き込まれるデータである場合、内部メモリ３内に当該データＤ１を格納するための空領域３３０を確保するスケジュールを決定する。

　なお、空領域３３０を確保（生成）するタイミングは、任意のタイミングであってよい。例えば、決定部２３は、対応する関数計算の１つ前の関数計算が行われるタイミングで空領域３３０を確保してもよく、「Head」の位置の時点でデータＤ１に対応する空領域３３０を確保するようにしてもよい。

　なお、決定部２３により使用順序に沿ってデータのスケジュールを決定していく場合、図９に示す空領域３３０を確保できず、メモリ不足となる場合がある。そこで、決定部２３は、空領域３３０のためのメモリ不足が判明した場合、スケジュールをやり直す（リスケジュールする）。かかる点について、図１０を用いて説明する。

　図１０は、決定部２３によるリスケジュール処理を示す図である。なお、図１０に示す各ノードＮ１～Ｎ４は、関数計算を示しており、白抜き円の内部に記載された数字が、それぞれの関数計算を実行中にスワップインする予定のデータの数を示している。図１０では、説明の便宜上、データの数として示しているが、実際には、内部メモリ３において使用されるメモリ量である。

　図１０の左図に示すように、決定部２３は、ノードＮ１の関数計算の実行中に１つのデータをスワップインし、ノードＮ２の関数計算の実行中に３つのデータをスワップインし、ノードＮ３の関数計算の実行中に２つのデータをスワップインするスケジュールを決定したとする。そして、ノードＮ１～Ｎ３のデータをスワップインすることで、メモリ不足が発生し、ノードＮ４の関数計算の処理結果のデータを格納（write）するための空領域３３０を確保できなかったとする。

　この場合、決定部２３は、ノードＮ１～Ｎ４においてスワップインするデータの数をリスケジュールすることで、ノードＮ４において空領域３３０を確保できるようにする。具体的には、決定部２３は、まず、ノードＮ４において空領域３３０を確保するために不足しているメモリ容量（データの数）を算出し、当該不足しているメモリ容量を充足するためにノードＮ２～Ｎ４をリスケジュールする。

　例えば、ノードＮ２～Ｎ４においてデータをスワップインしなければ、ノードＮ４のための空領域３３０を確保できる場合、ノードＮ２～Ｎ４においてスワップインするデータの数をゼロ、すなわち、スワップインしないようにリスケジュールする。

　より具体的には、まず、決定部２３は、ノードＮ４において内部メモリ３のメモリ不足を検出したとする。決定部２３は、メモリ不足を検出した場合、ノードＮ４で必要なメモリ量が確保できるまでノードをバックトラックする。具体的には、まず、決定部２３は、ノードＮ４における確保可能メモリ量をゼロで初期化する。つづいて、決定部２３は、１つ前のノードＮ３に戻り、ノードＮ３のメモリ量「２」を確保可能メモリ量に追加し、ノードＮ３のメモリ量「２」を「０」に書き換える。このように、決定部２３は、ノードＮ４から遡って、確保可能メモリ量＞メモリ不足量となるまでバックトラックを行う。図１０に示す例では、ノードＮ２までバックトラックすることで、確保可能メモリ量＞メモリ不足量となったことを示している。つまり、図１０に示す例では、決定部２３は、ノードＮ４でメモリ不足が発生した場合に、ノードＮ２およびノードＮ３のリスケジュールを行い、ノードＮ４におけるメモリ不足を解消する。

　これにより、「write」のデータのための空領域３３０を確実に確保することができる。

　また、決定部２３は、所定番目（所定時刻）の関数計算後、当該関数計算を以降に再度行わない、つまり、学習処理において、使用順序的に後に発生しないデータについては、関数計算後、スワップアウトせずに、当該データを削除し、メモリ領域を解放する。

　これにより、不要なスワップアウト処理を省くことができるため、スワップアウト処理に起因する処理オーバヘッドを抑えることができる。

　次に、図１１を用いて、内部メモリ３における第１領域３１０および第２領域３２０の配分を動的に変更する方法について説明する。図１１は、変形例に係る内部メモリ３におけるメモリ領域の設定方法を示す図である。

　なお、図１１において、使用順序の開始位置とは、学習処理における最初のデータの位置、つまり、学習処理が開始される位置であり、このため、かかる開始位置における内部メモリ３－１は、スワップインされていないため、データが存在していない。

　図１１に示すように、決定部２３は、学習処理の開始直後においては、内部メモリ３のすべてのメモリ領域を第１領域３１０としてデータのスワップインを行う。これは、学習処理の開始直後は、スワップアウトするデータがないため、第２領域３２０を設定しても実際には使用されないためである。これにより、学習処理の開始直後においてより多くのデータをスワップインできるため、データがスワップインされていないために関数計算が行われない状況を回避できる。

　そして、決定部２３は、内部メモリ３－３～３－４のように、使用順序が進むにつれて第２領域３２０の配分を大きくしていき、最終的に、第１領域３１０および第２領域３２０が略同じ配分となるようにする。

　つまり、決定部２３は、使用順序における最初は第１領域３１０のみ設定し、使用順序が進むにつれて第２領域３２０の配分を大きくしていく。これにより、内部メモリ３の使用されない領域を減らすことができるため、メモリ効率を高めることができる。

　なお、決定部２３は、使用順序に応じて第１領域３１０および第２領域３２０の配分を動的に変更する場合に限らず、例えば、学習処理における処理プロセスに応じて第１領域３１０および第２領域３２０の配分を変更してもよい。

　上述したように、学習処理には、ニューラルネットワークにおける順伝播処理、逆伝播処理および更新処理の処理プロセスが含まれる。処理プロセスのうち、順伝播処理では、後の逆伝播処理のために、スワップアウトするデータの数が多い。換言すれば、逆伝播処理では、後の処理のためにデータをスワップアウトする必要が無いため、スワップアウトするデータの数が少ない。

　そこで、決定部２３は、順伝播処理の場合には、第１領域３１０よりも第２領域３２０の配分を大きくする。これにより、スワップアウト処理に起因した処理オーバヘッドを抑えることができる。

　また、決定部２３は、逆伝播処理の場合には、第２領域３２０よりも第１領域３１０の配分を大きくする。これにより、スワップイン処理に起因した処理オーバヘッドを抑えることができる。

　なお、上述した実施形態では、内部メモリ３における第１領域３１０および第２領域３２０の配分を決定したが、これは、言い換えれば、使用順序における先のデータを第１領域３１０を使い切るまでスワップインするものである。つまり、第１領域３１０の空き容量に応じてスワップインするか否かを決定する対象範囲が変動する。

　そこで、以下では、第１領域３１０および第２領域３２０の配分を決定するのではなく、スワップインするか否かを決定する対象範囲５００（図１２参照）を決定（固定）する。ここで、図１２～図１４を用いて、対象範囲５００を用いたスケジュール決定処理について説明する。

　図１２～図１４は、対象範囲５００を用いたスケジュール決定処理を示す図である。図１２に示すように、決定部２３は、関数実行位置のデータを基準にして、使用順序的に先に位置する所定のデータ数Ｎまでの範囲をスワップインするか否かを決定する対象範囲５００として決定する。つまり、対象範囲５００は、所定の関数実行位置において、内部面メモリ３にスワップインにしておくべき使用順序の範囲であり、具体的には、関数実行位置のデータを始点として、使用順序におけるデータ数Ｎだけ先の範囲である。

　なお、データ数Ｎとは、図１２では、便宜上データの数として示しているが、厳密にはデータ量（例えば、bytes）であり、例えば、深層学習を行うユーザによって指定される。このデータ数Ｎは、内部メモリ３の最大メモリ量よりも小さい値であることが好ましい。

　そして、決定部２３は、関数計算実行位置である関数計算（ｆｉ）を始点として、対象範囲５００内にあるデータ数Ｎについて、スワップインするか否かのスケジュールを決定する。なお、スワップインするか否かのスケジュールを決定する方法については、上述した実施形態と同様であるため、ここでは説明を省略する。

　そして、決定部２３は、例えば、データ数Ｎのうち、４つのデータＤ１をスワップインするスケジュールを決定した場合、関数計算（ｆｉ）を実行時には、内部メモリ３のメモリ領域のうち、４つのデータＤ１のためのメモリ領域をスワップイン用として決定する。そして、決定部２３は、内部メモリ３のメモリ領域のうち、スワップイン用のメモリ領域を除いたメモリ領域をスワップアウト用として決定する。

　つまり、上述した実施形態では第１領域３１０に空きが無くなるまでデータをスワップインしたのに対して、図１２では、第１領域３１０を設定するのではなく、データをスワップインすべき使用順序の範囲を対象範囲５００として予め設定する。

　このように、所定の関数計算実行位置から所定のデータ数Ｎをスワップインする対象範囲５００を予め設定することで、必要以上に先のデータをスワップインしないようできる。このため、スワップインするためのメモリ領域の使用量が減ることで、スワップアウトするためのメモリ領域をより多く使用できるため、スワップアウトのための時間を長く取れる。従って、内部メモリ３のメモリ領域の不足時のスワップアウト完了待ち時に既にスワップアウトが終わっている可能性が高いため、スワップアウト完了待ちに伴う処理オーバヘッドを減らすことができる。

　なお、データ数Ｎは、ユーザによって指定される場合に限らず、内部メモリ３の最大メモリ量のｎ％（ｎは１００未満）のように自動で設定されてもよい。あるいは、最初の学習処理により各関数計算に要する時間を取得し、かかる時間により、スワップイン完了待ちに伴う処理オーバヘッドを最小限できるデータ数Ｎを自動で決定してもよい。

　次に、図１３では、対象範囲５００のデータＤ３をスワップする際に、内部メモリ３に空きが無い場合の処理について説明する。図１３の上段では、関数計算（ｆｉ）の実行時において、内部メモリ３は、スワップインしたデータＤ１およびスワップアウト予定のデータＤ２で埋まっていることとする。

　そして、図１３の中段に示すように、関数計算（ｆｉ）のタイミングにおいて、対象範囲５００の最新の位置にあるデータＤ３をスワップインするスケジュールを決定したとする。かかる場合、決定部２３は、データＤ３をスワップインする前に、スワップアウト予定のデータＤ２のうち最も古いデータＤ２をスワップアウトするスケジュールを決定することで、データＤ３をスワップインするためのメモリ領域を空ける。そして、決定部２３は、スワップアウト予定のデータＤ２のうち、最も古いデータＤ２のスワップアウトが完了した後に、データＤ３のスワップインを開始するスケジュールを決定する。これにより、データＤ３を確実にスワップインすることができる。

　次に、図１４を用いて、関数計算（ｆｉ）において、計算結果としてデータＤ３（すなわち、write）を内部メモリ３に書き込む場合について説明する。図１４でも、図１３と同様に、関数計算（ｆｉ）の実行時において、内部メモリ３は、スワップインしたデータＤ１およびスワップアウト予定のデータＤ２で埋まっていることとする。かかる場合、関数計算（ｆｉ）を実行時には、計算結果であるデータＤ３を書き込むためのメモリ領域を内部メモリ３に確保する必要がある。かかる場合、決定部２３は、関数計算（ｆｉ）を実行する前に、スワップアウト予定のデータＤ２のうち最も古いデータＤ２をスワップアウトするスケジュールを決定することで、データＤ３を書き込むためのメモリ領域を空ける。そして、決定部２３は、スワップアウト予定のデータＤ２のうち、最も古いデータＤ２のスワップアウトが完了した後に、データＤ３を書き込むためのメモリ領域を確保した状態で、関数計算（ｆｉ）を実行するスケジュールを決定する。これにより、データＤ３のための空き領域を確実に確保することができる。

　１．４　処理フロー
　次に、図１５を用いて、実施形態に係る情報処理装置１が実行する処理の処理手順について説明する。図１５は、実施形態に係る情報処理装置１が実行する処理の処理手順を示すフローチャートである。

　図１５に示すように、まず、実行部２１は、最初の学習処理を実行する（ステップＳ１０１）。最初の学習処理では、メモリスワップに関するスケジュールが決定していないため、関数計算時に必要なデータを内部メモリ３にスワップインし、関数計算後には使用したデータを外部メモリ１１０にスワップアウトする。

　つづいて、取得部２２は、最初の学習処理において内部メモリ３に転送されるデータの使用順序を示す順序情報を取得する（ステップＳ１０２）。

　つづいて、決定部２３は、取得部２２が取得した順序情報に基づいて、次回以降の学習処理のメモリスワップに関するスケジュールを決定する（ステップＳ１０３）。

　つづいて、実行部２１は、決定部２３が決定したスケジュールに従って次回以降の学習処理を実行し（ステップＳ１０４）、処理を終了する。

　２．ハードウェア構成
　続いて、図１６を参照して、実施形態に係る情報処理装置１等のハードウェア構成の一例について説明する。図１６は、実施形態に係る情報処理装置１のハードウェア構成の一例を示すブロック図である。　

　図１６に示すように、情報処理装置１は、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９００、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３、ホストバス９０５、ブリッジ９０７、外部バス９０６、インタフェース９０８、入力装置９１１、出力装置９１２、ストレージ装置９１３、ドライブ９１４、接続ポート９１５、及び通信装置９１６を備える。情報処理装置１は、ＧＰＵ９００、ＣＰＵ９０１の少なくとも１つに替えて、又はこれと共に、電気回路、ＤＳＰ若しくはＡＳＩＣ等の処理回路を備えてもよい。

　ＧＰＵ９００およびＣＰＵ９０１は、演算処理装置、及び制御装置として機能し、各種プログラムに従って情報処理装置１内の動作全般を制御する。また、ＧＰＵ９００およびＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＧＰＵ９００およびＣＰＵ９０１が使用するプログラム及び演算パラメータ等を記憶する。ＲＡＭ９０３は、ＧＰＵ９００およびＣＰＵ９０１の実行において使用するプログラム、及びその実行において適宜変化するパラメータ等を一時記憶する。なお、ＲＡＭ９０３は、ＧＰＵ９００およびＣＰＵ９０１それぞれに対応する専用のメモリ領域を有する。ＧＰＵ９００およびＣＰＵ９０１は、例えば、実行部２１、取得部２２および決定部２３の機能を実行してもよい。　

　ＧＰＵ９００、ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０５により相互に接続されている。ホストバス９０５は、ブリッジ９０７を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０６に接続されている。なお、ホストバス９０５、ブリッジ９０７、及び外部バス９０６は、必ずしも分離構成されなくともよく、１つのバスにこれらの機能が実装されてもよい。　

　入力装置９１１は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ又はレバー等のユーザによって情報が入力される装置である。または、入力装置９１１は、赤外線又はその他の電波を利用したリモートコントロール装置であってもよく、情報処理装置１の操作に対応した携帯電話又はＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９１１は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成する入力制御回路などを含んでもよい。　

　出力装置９１２は、情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置である。出力装置９１２は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）ディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ装置、レーザープロジェクタ、ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）プロジェクタ又はランプ等の表示装置であってもよく、スピーカ又はヘッドホン等の音声出力装置等であってもよい。　

　出力装置９１２は、例えば、情報処理装置１による各種処理にて得られた結果を出力してもよい。具体的には、出力装置９１２は、情報処理装置１による各種処理にて得られた結果を、テキスト、イメージ、表、又はグラフ等の様々な形式で視覚的に表示してもよい。または、出力装置９１２は、音声データ又は音響データ等のオーディオ信号をアナログ信号に変換して聴覚的に出力してもよい。　

　ストレージ装置９１３は、情報処理装置１の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９１３は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現されてもよい。例えば、ストレージ装置９１３は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出装置、及び記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置９１３は、ＣＰＵ９０１が実行するプログラム、各種データ及び外部から取得した各種のデータ等を格納してもよい。

　ドライブ９１４は、記憶媒体用リーダライタであり、情報処理装置１に内蔵又は外付けされる。ドライブ９１４は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９１４は、リムーバブル記憶媒体に情報を書き込むことも可能である。　

　接続ポート９１５は、外部機器と接続されるインタフェースである。接続ポート９１５は、外部機器とのデータ伝送可能な接続口であり、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）であってもよい。　

　通信装置９１６は、例えば、ネットワークＮに接続するための通信デバイス等で形成されたインタフェースである。通信装置９１６は、例えば、有線若しくは無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード等であってもよい。また、通信装置９１６は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。通信装置９１６は、例えば、インターネット又は他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。　

　なお、ネットワーク４０は、情報の有線又は無線の伝送路である。例えば、ネットワーク４０は、インターネット、電話回線網若しくは衛星通信網などの公衆回線網、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、又はＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク４０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。　

　なお、情報処理装置１に内蔵されるＧＰＵ、ＣＰＵ、ＲＯＭ及びＲＡＭなどのハードウェアに対して、上述した本実施形態に係る情報処理装置１の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供することが可能である。　

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。　

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　３．変形例
　また、上記情報処理プログラムをインターネット等のネットワーク上のサーバ装置が備えるディスク装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。また、上述の機能を、ＯＳ（Operating　System）とアプリケーションソフトとの協働により実現してもよい。この場合には、ＯＳ以外の部分を媒体に格納して配布してもよいし、ＯＳ以外の部分をサーバ装置に格納しておき、コンピュータにダウンロード等できるようにしてもよい。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。

　また、上述の実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、上述の実施形態のフローチャート及びシーケンス図に示された各ステップは、適宜順序を変更することが可能である。

　４．まとめ
　以上説明したように、本開示の一実施形態によれば、本実施形態に係る情報処理装置１は、取得部２２と、決定部２３とを備える。取得部２２は、１イテレーションに相当する学習処理を繰り返し実行する深層学習において、最初の学習処理を行うことで、学習処理において内部メモリ３に転送されるデータの使用順序を示す順序情報を取得する。決定部２３は、取得部２２によって取得された順序情報に基づいて、次回以降の学習処理におけるデータのメモリスワップに関するスケジュールを決定する。これにより、深層学習における処理オーバヘッドを抑えることができる。

　以上、本開示の各実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　１イテレーションに相当する学習処理を繰り返し実行する深層学習において、最初の前記学習処理を行うことで、前記学習処理において内部メモリに転送されるデータの使用順序を示す順序情報を取得する取得部と、
　前記取得部によって取得された前記順序情報に基づいて、次回以降の前記学習処理における前記データのメモリスワップに関するスケジュールを決定する決定部と
　を備える情報処理装置。
（２）
　前記決定部によって決定された前記スケジュールに従って次回以降の前記学習処理を実行する実行部をさらに備え、
　前記実行部は、
　最初の前記学習処理において、関数計算毎に計算直前に前記データをスワップインし、計算後に前記データをスワップアウトする、前記（１）に記載の情報処理装置。
（３）
　前記決定部は、
　前記内部メモリの領域を、スワップインされた前記データが書き込まれる第１領域と、スワップアウトされる前記データが書き込まれる第２領域とに分割する、前記（１）または（２）に記載の情報処理装置。
（４）
　前記決定部は、
　前記学習処理における処理プロセスに応じて前記第１領域および前記第２領域の配分を変更する、前記（１）～（３）のいずれか１つに記載の情報処理装置。
（５）
　前記決定部は、
　前記使用順序における最初は前記第１領域のみ設定し、前記使用順序が進むにつれて前記第２領域の配分を大きくしていく、前記（１）～（４）のいずれか１つに記載の情報処理装置。
（６）
　前記学習処理は、
　ニューラルネットワークにおける順伝播処理、逆伝播処理および更新処理を含み、
　前記決定部は、
　前記順伝播処理の場合には、前記第１領域よりも前記第２領域の配分を大きくする、前記（４）または（５）に記載の情報処理装置。
（７）
　前記決定部は、
　前記逆伝播処理の場合には、前記第２領域よりも前記第１領域の配分を大きくする、前記（６）に記載の情報処理装置。
（８）
　前記決定部は、
　前記使用順序において、前記内部メモリにスワップインする前記データが前記内部メモリに存在する場合、当該データのスワップインを禁止する前記スケジュールを決定する、前記（６）または（７）に記載の情報処理装置。
（９）
　前記決定部は、
　前記使用順序において、前記学習処理における使用が完了した前記データに対応する前記内部メモリの領域を解放する前記スケジュールを決定する、前記（１）～（８）のいずれか１つに記載の情報処理装置。
（１０）
　前記決定部は、
　前記使用順序における前記データが、前記学習処理の処理結果として前記内部メモリに書き込まれるデータである場合、前記内部メモリ内に当該データを格納するための空領域を確保する前記スケジュールを決定する、前記（１）～（９）のいずれか１つに記載の情報処理装置。
（１１）
　前記決定部は、
　前記学習処理における関数計算実行位置を基準にしてスワップインするデータ量の範囲を示す対象範囲を予め設定し、前記対象範囲毎に、前記データのスワップインに関するスケジュールを決定する、前記（１）～（１０）に記載の情報処理装置。
（１２）
　１イテレーションに相当する学習処理を繰り返し実行する深層学習において、最初の前記学習処理を行うことで、前記学習処理において内部メモリに転送されるデータの使用順序を示す順序情報を取得する取得工程と、
　前記取得工程によって取得された前記順序情報に基づいて、次回以降の前記学習処理における前記データのメモリスワップに関するスケジュールを決定する決定工程と
　を含む情報処理方法。
（１３）
　１イテレーションに相当する学習処理を繰り返し実行する深層学習において、最初の前記学習処理を行うことで、前記学習処理において内部メモリに転送されるデータの使用順序を示す順序情報を取得する取得手順と、
　前記取得手順によって取得された前記順序情報に基づいて、次回以降の前記学習処理における前記データのメモリスワップに関するスケジュールを決定する決定手順と
　をコンピュータに実行させる情報処理プログラム。

　１　　　情報処理装置（ＧＰＵ）
　２　　　制御部（コア）
　３　　　記憶部（内部メモリ）
　２１　　実行部
　２２　　取得部
　２３　　決定部
　３１　　学習用データ
　３２　　スケジュール情報
　１００　ＣＰＵ
　１１０　外部メモリ
　３１０　第１領域
　３２０　第２領域

Claims

　１イテレーションに相当する学習処理を繰り返し実行する深層学習において、最初の前記学習処理を行うことで、前記学習処理において内部メモリに転送されるデータの使用順序を示す順序情報を取得する取得部と、
　前記取得部によって取得された前記順序情報に基づいて、次回以降の前記学習処理における前記データのメモリスワップに関するスケジュールを決定する決定部と
　を備える情報処理装置。
　前記決定部によって決定された前記スケジュールに従って次回以降の前記学習処理を実行する実行部をさらに備え、
　前記実行部は、
　最初の前記学習処理において、関数計算毎に計算直前に前記データをスワップインし、計算後に前記データをスワップアウトする、請求項１に記載の情報処理装置。
　前記決定部は、
　前記内部メモリの領域を、スワップインされた前記データが書き込まれる第１領域と、スワップアウトされる前記データが書き込まれる第２領域とに分割する、請求項１に記載の情報処理装置。
　前記決定部は、
　前記学習処理における処理プロセスに応じて前記第１領域および前記第２領域の配分を変更する、請求項３に記載の情報処理装置。
　前記決定部は、
　前記使用順序における最初は前記第１領域のみ設定し、前記使用順序が進むにつれて前記第２領域の配分を大きくしていく、請求項３に記載の情報処理装置。
　前記学習処理は、
　ニューラルネットワークにおける順伝播処理、逆伝播処理および更新処理を含み、
　前記決定部は、
　前記順伝播処理の場合には、前記第１領域よりも前記第２領域の配分を大きくする、請求項４に記載の情報処理装置。
　前記決定部は、
　前記逆伝播処理の場合には、前記第２領域よりも前記第１領域の配分を大きくする、請求項６に記載の情報処理装置。
　前記決定部は、
　前記使用順序において、前記内部メモリにスワップインする前記データが前記内部メモリに存在する場合、当該データのスワップインを禁止する前記スケジュールを決定する、請求項１に記載の情報処理装置。
　前記決定部は、
　前記使用順序において、前記学習処理における使用が完了した前記データに対応する前記内部メモリの領域を解放する前記スケジュールを決定する、請求項１に記載の情報処理装置。
　前記決定部は、
　前記使用順序における前記データが、前記学習処理の処理結果として前記内部メモリに書き込まれるデータである場合、前記内部メモリ内に当該データを格納するための空領域を確保する前記スケジュールを決定する、請求項１に記載の情報処理装置。
　前記決定部は、
　前記学習処理における関数計算実行位置を基準にしてスワップインするデータ量の範囲を示す対象範囲を予め設定し、前記対象範囲毎に、前記データのスワップインに関するスケジュールを決定する、請求項１に記載の情報処理装置。
　１イテレーションに相当する学習処理を繰り返し実行する深層学習において、最初の前記学習処理を行うことで、前記学習処理において内部メモリに転送されるデータの使用順序を示す順序情報を取得する取得工程と、
　前記取得工程によって取得された前記順序情報に基づいて、次回以降の前記学習処理における前記データのメモリスワップに関するスケジュールを決定する決定工程と
　を含む情報処理方法。
　１イテレーションに相当する学習処理を繰り返し実行する深層学習において、最初の前記学習処理を行うことで、前記学習処理において内部メモリに転送されるデータの使用順序を示す順序情報を取得する取得手順と、
　前記取得手順によって取得された前記順序情報に基づいて、次回以降の前記学習処理における前記データのメモリスワップに関するスケジュールを決定する決定手順と
　をコンピュータに実行させる情報処理プログラム。