WO2023210665A1

WO2023210665A1 - 計算グラフの改善

Info

Publication number: WO2023210665A1
Application number: PCT/JP2023/016361
Authority: WO
Inventors: 望窪田
Original assignee: 望窪田
Priority date: 2022-04-27
Filing date: 2023-04-25
Publication date: 2023-11-02
Also published as: JP2023162911A; US20250053820A1; JP7199121B1

Abstract

情報処理方法は、情報処理装置に含まれる１又は複数のプロセッサが、所定の計算グラフにより表現されるニューラルネットワークを用いる所定の学習モデルに、所定のデータを入力して学習を行うこと、所定のデータ及び／又は所定の計算グラフを変更することであって、所定の計算グラフ内の所定のレイヤの所定のノードに関連付けられる関数及び関数の出力値を入力する活性化関数のうち、関数を変更することを含み、変更後の所定のデータ及び／又は所定の計算グラフを用いた学習の学習結果を取得すること、学習が行われた任意のデータ及び任意の計算グラフと、任意のデータ及び任意の計算グラフを用いて学習されたときの学習結果とを含む学習データを用いて、教師あり学習を行うこと、教師あり学習により生成される予測モデルであって、所定のデータを入力して特定の計算グラフを出力する予測モデルを生成すること、を実行する。

Description

計算グラフの改善

　本発明は、適切な計算グラフを提供可能な情報処理方法、記録媒体及び情報処理装置に関する。

　近年、汎用ＡＩ（Artificial General Intelligence）の研究が行われており、学習精度を高めるため、ニューラルネットワークの構成をより複雑化して任意の問題に対応することが考えられている。下記特許文献１には、ニューラルネットワークに用いられる関数を表現する計算グラフを修正することが記載されている。

特表２０１８－５３３７９２号公報

　ここで、ニューラルネットワークを用いる学習は、損失関数の最適化として定式化される。損失関数の最適化として、損失関数の出力を最小化するために、誤差逆伝搬法が用いられる。誤差逆伝搬法を実装する方法の一つして、計算グラフが作成され、その逆をたどるということが行われる。このとき、計算グラフ内のノード数や、エッジとノードとの関係や、各ノードに関連付けられる関数などを変更することで、計算グラフは任意の構成が考えられる。

　しかしながら、データセットの種類や解くべき問題などによって、計算グラフは異なるものが使用されてもよいが、現在一般的に利用されている計算グラフが最善であるとは限らなかった。

　そこで、本発明の目的の１つは、ニューラルネットワークを構成する計算グラフを、より適切にすることを可能にする情報処理方法、記録媒体及び情報処理装置を提供する。

　本発明の一態様に係る情報処理方法は、情報処理装置に含まれる１又は複数のプロセッサが、所定の計算グラフにより表現されるニューラルネットワークを用いる所定の学習モデルに、所定のデータを入力して学習を行うこと、前記所定のデータ及び／又は前記所定の計算グラフを変更することであって、前記所定の計算グラフ内の所定のレイヤの所定のノードに関連付けられる関数及び前記関数の出力値を入力する活性化関数のうち、前記関数を変更することを含む、前記変更すること、変更後の所定のデータ及び／又は所定の計算グラフを用いた前記学習の学習結果を取得すること、前記学習が行われた任意のデータ及び任意の計算グラフと、前記任意のデータ及び前記任意の計算グラフを用いて学習されたときの学習結果とを含む学習データを用いて、教師あり学習を行うこと、前記教師あり学習により生成される予測モデルであって、所定のデータを入力して特定の計算グラフを出力する予測モデルを生成すること、を実行する。

　本発明によれば、ニューラルネットワークを構成する計算グラフを、より適切にすることを可能にする情報処理方法、プログラム及び情報処理装置を提供することができる。

実施形態に係るシステム構成の一例を示す図である。実施形態に係る情報処理装置の物理的構成の一例を示す図である。実施形態に係る情報処理装置の処理ブロックの一例を示す図である。実施形態に係るレイヤの一部の一例を示す図である。実施形態に係る情報処理装置の処理ブロックの一例を示す図である。実施形態に係る計算グラフに関する情報の一例を示す図である。実施形態に係る所定のデータに関する情報と、適切な計算グラフに関する情報との関連データの一例を示す図である。実施形態に係る予測モデルの生成に関する処理の一例を示すフローチャートである。実施形態に係るユーザが利用する情報処理装置における処理の一例を示すフローチャートである。

　添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

　［実施形態］
　＜システム構成＞
　図１は、実施形態に係るシステム構成の一例を示す図である。図１に示す例では、サーバ１０と、各情報処理装置２０Ａ、２０Ｂ、２０Ｃ、２０Ｄとが、ネットワークを介してデータ送受信可能なように接続される。情報処理装置を個別に区別しない場合は情報処理装置２０とも表記する。

　サーバ１０は、データを収集、分析可能な情報処理装置であり、１つ又は複数の情報処理装置から構成されてもよい。情報処理装置２０は、スマートフォン、パーソナルコンピュータ、タブレット端末、サーバ、コネクティッドカーなど、機械学習を実行可能な情報処理装置である。なお、情報処理装置２０は、脳波をセンシングする侵襲型又は非侵襲型の電極に直接的又は間接的に接続されており、脳波データを解析、送受信可能な装置でもよい。

　図１に示すシステムでは、サーバ１０は、例えば、様々なデータセットを用いて、様々な計算グラフのいずれかにより表現されるニューラルネットワークを用いる学習モデルに、いずれかのデータセットを入力して学習を実行する。このとき、サーバ１０は、所定のデータセット及び所定の計算グラフのときの学習性能を関連付けて記憶する。

　次に、サーバ１０は、任意のデータセットと、任意の計算グラフとを用いた学習結果（例えば学習性能）を訓練データとして、所定のデータに対して、学習性能が高い計算グラフを特定する予測モデルを学習して生成する。

　これにより、所定のデータに対して学習が行われる場合、ニューラルネットワークを構成する計算グラフをより適切にすることが可能になる。また、サーバ１０は、計算グラフの各ノードに関連付けられる関数を変更することで計算グラフを変更してもよい。なお、この関数は、誤差逆伝搬法を考慮して微分可能な関数が望ましい。

　＜ハードウェア構成＞
　図２は、実施形態に係る情報処理装置１０の物理的構成の一例を示す図である。情報処理装置１０は、演算部に相当する１又は複数のＣＰＵ（Central Processing Unit）１０ａと、記憶部に相当するＲＡＭ（Random Access Memory）１０ｂと、記憶部に相当するＲＯＭ（Read only Memory）１０ｃと、通信部１０ｄと、入力部１０ｅと、表示部１０ｆと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。

　本実施形態では、情報処理装置１０が一台のコンピュータで構成される場合について説明するが、情報処理装置１０は、複数のコンピュータ又は複数の演算部が組み合わされて実現されてもよい。また、図２で示す構成は一例であり、情報処理装置１０はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。

　ＣＰＵ１０ａは、ＲＡＭ１０ｂ又はＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。ＣＰＵ１０ａは、より適切な計算グラフを調べるための学習モデルを用いて学習を行うプログラム（学習プログラム）や、任意のデータを入力したときに適切な計算グラフを出力する予測モデルを生成するための学習を行うプログラム（予測プログラム）を実行する演算部である。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々のデータを受け取り、データの演算結果を表示部１０ｆに表示したり、ＲＡＭ１０ｂに格納したりする。

　ＲＡＭ１０ｂは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するプログラム、様々な計算グラフに関する計算グラフデータ、適切な計算グラフを予測する予測モデル、学習対象のデータに関する情報と、このデータに対応する適切な計算グラフとの対応関係を示す関連データなどのデータを記憶してもよい。なお、これらは例示であって、ＲＡＭ１０ｂには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。

　ＲＯＭ１０ｃは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＯＭ１０ｃは、例えば学習プログラムや、書き換えが行われないデータを記憶してよい。

　通信部１０ｄは、情報処理装置１０を他の機器に接続するインターフェースである。通信部１０ｄは、インターネット等の通信ネットワークに接続されてよい。

　入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。

　表示部１０ｆは、ＣＰＵ１０ａによる演算結果を視覚的に表示するものであり、例えば、ＬＣＤ（Liquid Crystal Display）により構成されてよい。表示部１０ｆが演算結果を表示することは、ＸＡＩ（eXplainable AI：説明可能なＡＩ）に貢献し得る。表示部１０ｆは、例えば、学習結果や、関数データを表示してもよい。

　学習プログラムは、ＲＡＭ１０ｂやＲＯＭ１０ｃ等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部１０ｄにより接続される通信ネットワークを介して提供されてもよい。情報処理装置１０では、ＣＰＵ１０ａが学習プログラムを実行することにより、後述する図３を用いて説明する様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、情報処理装置１０は、ＣＰＵ１０ａとＲＡＭ１０ｂやＲＯＭ１０ｃが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。また、情報処理装置１０は、ＧＰＵ（Graphical Processing Unit）やＡＳＩＣ（Application Specific Integrated Circuit）を備えていてもよい。

　なお、情報処理装置２０の構成は、図２に示す情報処理装置１０の構成と同様であるため、その説明を省略する。また、情報処理装置１０と情報処理装置２０とは、データ処理を行う基本的な構成であるＣＰＵ１０ａやＲＡＭ１０ｂ等を有していればよく、入力部１０ｅや表示部１０ｆは設けられなくてもよい。また、入力部１０ｅや表示部１０ｆは、外部からインターフェースを用いて接続されてもよい。

　＜処理構成＞
　図３は、実施形態に係る情報処理装置１０の処理ブロックの一例を示す図である。情報処理装置１０は、取得部１１、第１学習部１２、変更部１３、第２学習部１４、関連付け部１５、出力部１６、及び記憶部１７を備える。例えば、図３に示す第１学習部１２、変更部１３、第２学習部１４、関連付け部１５は、例えばＣＰＵ１０ａなどにより実行されて実現され、取得部１１及び出力部１６は、例えば通信部１０ｄなどにより実現され、記憶部１７は、ＲＡＭ１０ｂ及び／又はＲＯＭ１０ｃなどにより実現され得る。

　取得部１１は、所定のデータを取得する。例えば、取得部１１は、所定のデータとして、画像データ、系列データ、テキストデータなどの公知のデータセットを取得してもよい。なお、取得部１１は、記憶部１７に記憶されたデータを取得してもよいし、他の情報処理装置により送信されたデータを取得してもよい。

　第１学習部１２は、所定の計算グラフにより表現されるニューラルネットワークを用いる所定の学習モデル１２ａに、取得部１１により取得された所定のデータを入力して学習を行う。例えば、第１学習部１２は、計算グラフが異なる複数の学習モデル１２ａを使用する。いずれの計算グラフを用いるかは、学習される所定の問題、又は所定のデータセットに対して、適宜設定されるとよい。また、第１学習部１２は、複数の学習モデル１２ａそれぞれを用いて学習した学習結果（例えば学習性能）を取得する。

　所定の問題は、例えば画像データ、系列データ及びテキストデータの少なくともいずれかについて、分類、生成及び最適化の少なくともいずれかを行う問題を含む。ここで、画像データは、静止画のデータと、動画のデータとを含む。系列データは、音声データや株価のデータを含む。

　また、所定の学習モデル１２ａは、ニューラルネットワークを含む学習モデルであり、例えば、画像認識モデル、系列データ解析モデル、ロボットの制御モデル、強化学習モデル、音声認識モデル、音声生成モデル、画像生成モデル、自然言語処理モデル等の少なくとも１つを含む。また、具体例としては、所定の学習モデル１２ａは、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＤＮＮ（Deep Neural Network）、ＬＳＴＭ（Long Short-Term Memory）、双方向ＬＳＴＭ、ＤＱＮ（Deep Q-Network）、ＶＡＥ（Variational AutoEncoder）、ＧＡＮｓ（Generative Adversarial Networks）、ｆｌｏｗ－ｂａｓｅｄ生成モデル等のいずれかでもよい。

　また、学習モデル１２ａは、学習済みモデルを枝刈り（Pruning）、量子化（Quantization）、蒸留（Distillation）又は転移（Transfer）して得られるモデルを含む。なお、これらは一例に過ぎず、第１学習部１２は、これら以外の問題について、学習モデルの機械学習を行ってもよい。

　変更部１３は、所定のデータ及び／又は所定の計算グラフを変更する。例えば、変更部１３は、複数の所定のデータの中から、第１学習部１２に入力される所定のデータを１つずつ順に変更する。また、変更部１３は、全ての所定のデータに対して学習が行われた場合、別の計算グラフを利用するため、複数の計算グラフの中から１つを選択して計算グラフを変更する。これにより、所定のデータと所定の計算グラフとの任意の組み合わせに対して学習させることが可能になる。例えば、変更部１３は、所定のデータと所定の計算グラフとの全ての組み合わせが学習されるように、所定のデータ及び／又は所定の計算グラフを順に変更してもよいし、所定の条件が満たされるまで所定のデータ及び／又は所定の計算グラフを順に変更してもよい。また、変更部１３は、所定の計算グラフ内の所定のレイヤの所定のノードに関連付けられる第１関数と、この第１関数の出力値を入力する活性化関数（第２関数）とのうち、第１関数を変更することを含む。

　取得部１１又は第１学習部１２は、変更後の所定のデータ及び／又は所定の計算グラフを用いた学習の学習結果を取得する。例えば、取得部１１又は第１学習部１２は、様々な組み合わせの所定のデータ及び／又は所定の計算グラフを用いて学習された学習結果を取得する。

　第１学習部１２は、変更部１３により変更された所定のデータを学習モデル１２ａに入力し、又は変更された所定の計算グラフを適用した学習モデル１２ａに所定のデータを入力して学習を行うことにより、学習結果を取得することを含んでもよい。上述したとおり、第１学習部１２は、所定のデータが変更された場合は、現在の学習モデル１２ａを用いて学習し、所定の計算グラフが変更された場合は、変更後の計算グラフを適用し、更新された学習モデル１２ａに所定のデータを入力して学習を行う。

　取得部１１は、変更部１３により変更された所定のデータ及び／又は所定の計算グラフを用いた学習が他の情報処理装置により行われ、他の情報処理装置から学習結果を取得することを含んでもよい。取得部１１は、それぞれ異なる所定のデータや、それぞれ異なる計算グラフを用いて学習された各情報処理装置２０から、各学習結果を取得する。例えば、サーバ１０は、分散学習を実行するため、各情報処理装置２０に対して、任意のデータや任意の計算グラフを送信し、送信した任意のデータや任意の計算グラフを用いた学習を指示してもよい。

　第２学習部１４は、学習が行われた任意のデータ及び任意の計算グラフと、任意のデータ及び任意の計算グラフを用いて学習されたときの学習結果とを含む学習データを用いて、教師あり学習を行う。例えば、第２学習部１４は、任意のデータ及び任意の計算グラフを用いて学習された際の学習結果（例えば学習性能）を正解ラベルとする訓練データを用いて、教師あり学習を行う。

　具体例として、訓練データは、画像のデータセット及び様々な計算グラフを用いて学習された際の分類性能を正解ラベルとする訓練データを含み、又は、テキストのデータセット及び様々な計算グラフを用いて学習された際の文字認識結果を正解ラベルとする訓練データなどを含む。

　また、第２学習部１４は、教師あり学習により生成される予測モデルであって、所定のデータを入力して特定の計算グラフを出力する予測モデルを生成する。例えば、第２学習部１４は、任意のデータを入力すると、このデータに対して適切な計算グラフを出力する予測モデルを生成する。

　具体例として、第２学習部１４は、画像のデータを予測モデルに入力すると、この画像データの特徴に基づいて、この特徴に応じて適切な計算グラフを出力する。適切な計算グラフとは、例えば、様々な計算グラフの中で、この画像データの特徴に対して最も分類性能が良い計算グラフを示す。様々な計算グラフには、レイヤ数、各レイヤのノード数、ノードとエッジとの関係などが異なる計算グラフを含む。

　以上の構成により、第２学習部１４により生成された予測モデルを用いることで、任意のデータ（例、データセット）に対して、ニューラルネットワークを構成する計算グラフを、より適切にすることが可能になる。

　また、関連付け部１５は、所定のデータに関する情報と、予測モデルにより出力された計算グラフに関する情報とを関連付ける。例えば、関連付け部１５は、所定のデータの特徴情報と、特定された計算グラフを識別する情報とを関連付けた関連データを記憶部１７に記憶する。関連データは、例えば図７を用いて後述する。

　以上の構成により、サーバ１０は、学習対象データの特徴情報が関連データに記憶されていれば、学習をしなくても、その学習対象データに適した計算グラフを特定することができる。この場合、学習対象データが関連データに記憶されていない場合に、第２学習部１４は学習を行うにようにしてもよい。その結果、サーバ１０の処理負荷を軽減することができ、サーバ１０の処理効率を向上させることが可能になる。

　出力部１６は、第２学習部１４により予測された計算グラフを、他の情報処理装置２０に出力してもよい。例えば、出力部１６は、所定のデータを送信して、適切な計算グラフの取得を要求した情報処理装置２０に対し、所定のデータに対応する適切な計算グラフを出力してもよい。また、出力部１６は、予測された計算グラフを記憶部１７に出力してもよい。

　また、変更部１３は、所定の計算グラフ内の所定の層（レイヤ）の所定のノードに関連付けられる第１関数であって、この所定レイヤの１つ前のレイヤの各ノードからの出力値を取得して変換する第１関数を変更することを含んでもよい。例えば、変更部１３は、各ノードの出力値を１つに変換するための第１関数として、線形の１次関数ではなく、非線形の二次関数や三次関数などの微分可能な関数に変更してもよい。この第１関数は、誤差逆伝搬法が考慮されて、微分可能な関数が用いられるとよい。

　一般的に、あるレイヤの各ノードの出力値を次のレイヤに渡す際に、シンプルな関数（例えばｙ＝ｗ×ｘ＋ｂ）を用いて線形変換が行われる。ｙは出力、ｗは重み行列、ｘは入力ベクトル、ｂはバイアスベクトルを表す。

　図４は、実施形態に係るレイヤの一部の一例を示す図である。図４に示すレイヤＬ－１において、４つのノードがあり、それぞれのノードの出力値はｈ_０１、ｈ_０２、ｈ_０３、１とする。出力値１は、バイアスである。この場合、レイヤＬの各ノードでは、一般的には前のレイヤＬ－１の出力値に線形変換と、非線形変換（活性化関数）とを順に行って出力値が生成される。ここで、線形変換において、一般的にはｕ＝ｗｈ＋ｂという第１関数を用いて線形変換が行われる。例えば、図４に示すｕ_１１、ｕ_１２は、以下の式（１）及び（２）を用いて算出される。

また、上記式は、入力ベクトルＨ_０、重み行列Ｗ_１０、バイアスベクトルＢ_１、出力Ｕ_１を以下のように定義すれば、式（７）のように記載することができる。

Ｕ_１＝Ｗ_１０×Ｈ_０＋Ｂ_１　・・・式（７）

　上記例では、計算グラフにおける各ノードに対して、前の層の出力値に線形変換（Ｗ_１０×Ｈ_０）が行われるが、この第１関数として、微分可能な関数、例えば二次関数や三次関数などが用いられてもよい。これにより、線形関数を用いるときの損失関数の出力値よりも、他の非線形な関数を用いるときの損失関数の出力値の方が、小さくなる場合もあり得る。すなわち、損失関数の値が小さいということは、正解値と予測値との誤差が小さく学習性能が高いことを意味する。なお、第１関数の出力値が、活性化関数である第２関数に入力される。

　第１学習部１２は、各ノードに関連付けられた、前の層の出力値を１つの値に変換する第１関数として様々な関数を含む計算グラフを用いて学習する。これにより、線形変換の場合の損失関数の出力値よりも、所定の関数に相当する非線形変換の場合の損失関数の出力値の方が小さくなるか否かを調べることができる。所定のデータに対しては、非線形変換の場合の損失関数の出力値が小さくなれば、このことが第２学習部１４による教師あり学習により予測モデルに反映される。したがって、所定のデータと同一又は類似するデータが予測モデルに入力されれば、非線形変換の関数を含む計算グラフが出力されることが想定される。この計算グラフは、損失関数の出力値がより小さくなるような計算グラフであるため、その学習性能を向上させることが可能になる。また、様々な計算グラフには、ノード数やエッジなどの構成は同じでも、各ノードに関連付けられる関数が異なるグラフも含まれる。

　図５は、実施形態に係る情報処理装置２０の処理ブロックの一例を示す図である。情報処理装置２０は、取得部２１、学習部２２、出力部２３、及び記憶部２４を備える。情報処理装置２０は、汎用のコンピュータで構成されてもよい。

　取得部２１は、他の情報処理装置（例えばサーバ１０）により、分散学習の指示とともに、所定の計算グラフに関する情報や所定のデータセットに関する情報を取得してもよい。所定の計算グラフに関する情報は、計算グラフの構成を示す情報や、計算グラフの各ノードに関連付けられる、前の層からの出力値を変換する関数を示す情報でもよい。所定のデータセットに関する情報は、データセット自体でもよく、所定のデータセットが格納された格納先を示す情報でもよい。

　学習部２２は、所定の計算グラフを用いる学習を行う学習モデル２２ａに学習対象の所定のデータセットを入力して学習を行う。学習部２２は、学習後の学習結果をサーバ１０にフィードバックするように制御する。学習結果は、例えば、学習性能などを含み、学習時間をさらに含んでもよい。学習部２２は、学習対象のデータセットの種類、及び／又は、解くべき問題に応じて、学習モデル２２ａを選択してもよい。

　また、所定の学習モデル２２ａは、ニューラルネットワークを含む学習モデルであり、例えば、画像認識モデル、系列データ解析モデル、ロボットの制御モデル、強化学習モデル、音声認識モデル、音声生成モデル、画像生成モデル、自然言語処理モデル等の少なくとも１つを含む。また、具体例としては、所定の学習モデル２２ａは、ＣＮＮ（Convolutional Neural Network）、ＲＮＮ（Recurrent Neural Network）、ＤＮＮ（Deep Neural Network）、ＬＳＴＭ（Long Short-Term Memory）、双方向ＬＳＴＭ、ＤＱＮ（Deep Q-Network）、ＶＡＥ（Variational AutoEncoder）、ＧＡＮｓ（Generative Adversarial Networks）、ｆｌｏｗ－ｂａｓｅｄ生成モデル等のいずれかでもよい。

　また、学習モデル２２ａは、学習済みモデルを枝刈り（Pruning）、量子化（Quantization）、蒸留（Distillation）又は転移（Transfer）して得られるモデルを含む。なお、これらは一例に過ぎず、学習部２２は、これら以外の問題について、学習モデルの機械学習を行ってもよい。

　出力部２３は、分散学習の学習結果に関する情報を他の情報処理装置に出力する。例えば、出力部２３は、学習部２２による学習結果に関する情報をサーバ１０に出力する。例えば、分散学習の学習結果に関する情報は、上述したように、学習性能を含み、学習時間をさらに含んでもよい。

　記憶部２４は、学習部２２に関するデータを記憶する。記憶部２４は、所定のデータセット２４ａや、サーバ１０から取得したデータ、学習途中のデータ、学習結果に関する情報などを記憶する。

　これにより、情報処理装置２０は、他の情報処理装置（例えばサーバ１０）からの指示により、所定のデータセットに対して、所定の計算グラフを適用した分散学習を実行し、学習結果をサーバ１０にフィードバックすることが可能になる。

　また、出力部２３は、所定のデータに関する情報を他の情報処理装置（例えばサーバ１０）に出力する。出力部２３は、所定のデータ（例えば学習対象のデータセット）を出力してもよいし、所定のデータの特徴情報を出力してもよい。

　取得部２１は、他の情報処理装置から、所定のデータに対応する計算グラフを取得する。取得される計算グラフは、他の情報処理装置が予測モデルを利用して予測した、所定のデータに適切な計算グラフである。また、所定の計算グラフは、所定のレイヤの所定のノードに関連付けられる第１関数と第１関数の出力値を入力する活性化関数のうち、所定のデータに応じて特定される第１関数を含んでもよい。

　学習部２２は、取得された計算グラフを所定の学習モデル２２ａに適用する。このとき、学習モデル２２ａは、上述した学習に用いられた学習モデル２２ａに計算グラフを適用してもよい。また、学習モデル２２ａは、他の情報処理装置１０から取得される学習モデルでもよいし、自装置で管理する学習モデルでもよい。

　学習部２２は、計算グラフが適用された学習モデル２２ａに、所定のデータを入力して学習結果を取得する。この学習結果は、所定のデータに適した計算グラフを用いて学習した結果であるため、学習性能の向上を図ることができる。

　また、取得部２１は、取得する計算グラフとして、計算グラフ内の所定のレイヤの所定のノードに関連付けられる第１関数であって、所定レイヤの１つ前のレイヤの各ノードからの出力値を取得して変換する第１関数を取得することを含んでもよい。これにより、前レイヤの各出力値を取得して変化する方法として線形変換が一般的であるが、微分可能な任意の変換方法を利用して学習性能の向上を図ることができる。

　＜データ例＞
　図６は、実施形態に係る計算グラフに関する情報の一例を示す図である。図６に示す例では、関数ＩＤごとに計算グラフに関する情報として第１関数が関連付けられている。例えば、様々な計算グラフの一例として、計算グラフの各ノードに関連付けられた第１関数が任意である計算グラフとする。具体例として、関数ＩＤが「Ａ００１」の関数として一次関数「ｕ＝ｗｈ＋ｂ」が各ノードに関連付けられ、関数ＩＤが「Ａ００２」の関数として二次関数「ｕ＝ｗｈ^２＋ｂ」が各ノードに関連付けられる。なお、様々な計算グラフの一例として、前の層の出力値を入力する関数を任意とすることを説明したが、計算グラフ内のレイヤ数、各レイヤのノード数、ノードとエージとの関係を任意とする計算グラフでもよい。なお、図６に示すデータは、図３に示す計算グラフ１７ｂのデータの一例である。

　図７は、実施形態に係る所定のデータに関する情報と、適切な計算グラフに関する情報とを関連付けた関連データの一例を示す図である。図７に示す例では、データセットの種類Ａに関数ＩＤ「Ａ００１」の第１関数が関連付けられ、データの種類Ｂに関数「Ａ００２」の第１関数が関連付けられている。なお、図７に示すデータは、図３に示す関連データ１７ｃの一例である。

　＜動作＞
　図８は、実施形態に係る予測モデルの生成に関する処理の一例を示すフローチャートである。図８に示す処理は、情報処理装置１０により実行される。

　ステップＳ１０２において、情報処理装置１０の第１学習部１２は、所定の計算グラフにより表現されるニューラルネットワークを用いる所定の学習モデルに、所定のデータを入力して学習を行う。所定のデータは、記憶部１７のデータセット１７ａから選択されてもよいし、他の装置からネットワークを介して受信された所定のデータでもよいし、ユーザ操作に応じて入力された所定のデータを取得してもよい。また、所定の計算グラフは、デフォルトで第１計算グラフが設定されていればよい。

　ステップＳ１０４において、情報処理装置１０の変更部１３は、所定のデータ及び／又は所定の計算グラフを変更する。変更部１３は、所定の基準に従って、学習対象のデータを変更したり、計算グラフを変更したりする。変更部１３は、所定の計算グラフ内の所定のレイヤの所定のノードに関連付けられる第１関数及び第１関数の出力値を入力する活性化関数のうち、第１関数を変更することを含んでもよい。

　ステップＳ１０６において、情報処理装置１０の第１学習部１２は、変更後の所定のデータ及び／又は所定の計算グラフを用いた学習の学習結果を取得する。

　ステップＳ１０８において、情報処理装置１０の第２学習部１４は、学習が行われた任意のデータ及び任意の計算グラフと、任意のデータ及び任意の計算グラフを用いて学習されたときの学習結果とを含む学習データを用いて、教師あり学習を行う。

　ステップＳ１１０で、情報処理装置１０の第２学習部１４は、教師あり学習により生成される予測モデルであって、所定のデータを入力して特定の計算グラフを出力する予測モデルを生成する。

　以上の処理により、生成された予測モデルを利用することで、ニューラルネットワークを構成する計算グラフを、より適切にすることを可能にする。

　図９は、実施形態に係るユーザが利用する情報処理装置２０における処理の一例を示すフローチャートである。ステップＳ２０２において、情報処理装置２０の出力部２３は、学習対象の所定のデータに関する情報を他の情報処理装置（例えばサーバ１０）に出力する。

　ステップＳ２０４において、情報処理装置２０の取得部２１は、他の情報処理装置（例えばサーバ１０）から、所定のデータに対応する計算グラフを示す情報を取得する。取得される計算グラフは、所定のレイヤの所定のノードに関連付けられる第１関数及び第１関数の出力値を入力する活性化関数のうち、所定のデータに応じて特定される第１関数を含んでもよい。

　ステップＳ２０６において、情報処理装置２０の学習部２２は、取得された計算グラフを所定の学習モデル２２ａに適用する。

　ステップＳ２０８において、情報処理装置２０の学習部２２は、計算グラフが適用された学習モデル２２ａに、所定のデータを入力して学習結果を取得する。

　これにより、エッジ側の情報処理装置であっても、学習対象のデータに対して適切な計算グラフを取得して学習を行うことで、学習性能の向上を図ることができる。

　以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。また、第１学習部１２を備える装置と、第２学習部１４を備える装置とは別のコンピュータでもよい。この場合、生成された第１学習部１２により学習された学習結果が、ネットワークを介して、第２学習部１４を備える装置に送信されてもよい。

　また、情報処理装置１０は、変更部１３を必ずしも設けなくてもよい。例えば、情報処理装置１０は、任意の学習対象のデータと任意の計算グラフの組における各学習性能を取得して第２学習部１４による学習を行ってもよい。

　１０…情報処理装置、１０ａ…ＣＰＵ、１０ｂ…ＲＡＭ、１０ｃ…ＲＯＭ、１０ｄ…通信部、１０ｅ…入力部、１０ｆ…表示部、１１…取得部、１２…第１学習部、１２ａ…学習モデル、１３…変更部、１４…第２学習部、１４ａ…予測モデル、１５…関連付け部、１６…出力部、１７…記憶部、１７ａ…データセット、１７ｂ…計算グラフ、１７ｃ…関連データ、２１…取得部、２２…学習部、２２ａ…学習モデル、２３…出力部、２４…記憶部、２４ａ…データセット

Claims

　情報処理装置に含まれる１又は複数のプロセッサが、
　所定の計算グラフにより表現されるニューラルネットワークを用いる所定の学習モデルに、所定のデータを入力して学習を行うこと、
　前記所定のデータ及び／又は前記所定の計算グラフを変更することであって、前記所定の計算グラフ内の所定のレイヤの所定のノードに関連付けられる関数及び前記関数の出力値を入力する活性化関数のうち、前記関数を変更することを含む、前記変更すること、
　変更後の所定のデータ及び／又は所定の計算グラフを用いた前記学習の学習結果を取得すること、
　前記学習が行われた任意のデータ及び任意の計算グラフと、前記任意のデータ及び前記任意の計算グラフを用いて学習されたときの学習結果とを含む学習データを用いて、教師あり学習を行うこと、
　前記教師あり学習により生成される予測モデルであって、所定のデータを入力して特定の計算グラフを出力する予測モデルを生成すること、
　を実行する情報処理方法。
　前記取得することは、
　変更後のデータ及び／又は計算グラフを用いて前記学習を行うことにより前記学習結果を取得することを含む、請求項１に記載の情報処理方法。
　前記取得することは、
　変更後のデータ及び／又は計算グラフを用いた前記学習が行われた他の情報処理装置から前記学習結果を取得することを含む、請求項１に記載の情報処理方法。
　前記１又は複数のプロセッサは、
　前記所定のデータに関する情報と、前記計算グラフに関する情報とを関連づけること、をさらに実行する請求項１に記載の情報処理方法。
　前記変更することは、
　前記所定のレイヤの１つ前のレイヤの各ノードからの出力値を取得して変換する前記関数を変更することを含む、請求項１に記載の情報処理方法。
　情報処理装置に含まれる１又は複数のプロセッサに、
　所定の計算グラフにより表現されるニューラルネットワークを用いる所定の学習モデルに、所定のデータを入力して学習を行うこと、
　前記所定のデータ及び／又は前記所定の計算グラフを変更することであって、前記所定の計算グラフ内の所定のレイヤの所定のノードに関連付けられる関数及び前記関数の出力値を入力する活性化関数のうち、前記関数を変更することを含む、前記変更すること、
　変更後の所定のデータ及び／又は所定の計算グラフを用いた前記学習の学習結果を取得すること、
　任意の所定のデータと、任意の所定の計算グラフと、前記任意の所定のデータ及び前記任意の所定の計算グラフを用いて学習したときの学習結果とを含む学習データを用いて、教師あり学習を行うこと、
　前記教師あり学習により生成される予測モデルであって、所定のデータを入力して特定の計算グラフを出力する予測モデルを生成すること、
　を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
　１又は複数のプロセッサを含む情報処理装置であって、
　前記１又は複数のプロセッサは、
　所定の計算グラフにより表現されるニューラルネットワークを用いる所定の学習モデルに、所定のデータを入力して学習を行うこと、
　前記所定のデータ及び／又は前記所定の計算グラフを変更することであって、前記所定の計算グラフ内の所定のレイヤの所定のノードに関連付けられる関数及び前記関数の出力値を入力する活性化関数のうち、前記関数を変更することを含む、前記変更すること、
　変更後の所定のデータ及び／又は所定の計算グラフを用いた前記学習の学習結果を取得すること、
　任意の所定のデータと、任意の所定の計算グラフと、前記任意の所定のデータ及び前記任意の所定の計算グラフを用いて学習したときの学習結果とを含む学習データを用いて、教師あり学習を行うこと、
　前記教師あり学習により生成される予測モデルであって、所定のデータを入力して特定の計算グラフを出力する予測モデルを生成すること、
　を実行する情報処理装置。
　情報処理装置に含まれる１又は複数のプロセッサが、
　所定のデータに関する情報を他の情報処理装置に出力すること、
　前記他の情報処理装置から、前記所定のデータに対応する計算グラフを取得することであって、前記計算グラフは、所定のレイヤの所定のノードに関連付けられる関数及び前記関数の出力値を入力する活性化関数のうち、前記所定のデータに応じて特定される前記関数を含む、前記取得すること、
　前記計算グラフを所定の学習モデルに適用すること、
　前記計算グラフが適用された学習モデルに、前記所定のデータを入力して学習結果を取得すること、
　を実行する情報処理方法。
　前記計算グラフを取得することは、
　前記所定のレイヤの１つ前のレイヤの各ノードからの出力値を取得して変換する前記関数を取得することを含む、請求項８に記載の情報処理方法。
　情報処理装置に含まれる１又は複数のプロセッサに、
　所定のデータに関する情報を他の情報処理装置に出力すること、
　前記他の情報処理装置から、前記所定のデータに対応する計算グラフを取得することであって、前記計算グラフは、所定のレイヤの所定のノードに関連付けられる関数及び前記関数の出力値を入力する活性化関数のうち、前記所定のデータに応じて特定される前記関数を含む、前記取得すること、
　前記計算グラフを所定の学習モデルに適用すること、
　前記計算グラフが適用された学習モデルに、前記所定のデータを入力して学習結果を取得すること、
　を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
　情報処理装置に含まれる１又は複数のプロセッサを含む情報処理装置であって、
　前記１又は複数のプロセッサが、
　所定のデータに関する情報を他の情報処理装置に出力すること、
　前記他の情報処理装置から、前記所定のデータに対応する計算グラフを取得することであって、前記計算グラフは、所定のレイヤの所定のノードに関連付けられる関数及び前記関数の出力値を入力する活性化関数のうち、前記所定のデータに応じて特定される前記関数を含む、前記取得すること、
　前記計算グラフを所定の学習モデルに適用すること、
　前記計算グラフが適用された学習モデルに、前記所定のデータを入力して学習結果を取得すること、
　を実行する情報処理装置。