WO2021250752A1

WO2021250752A1 - 学習方法、学習装置及びプログラム

Info

Publication number: WO2021250752A1
Application number: PCT/JP2020/022566
Authority: WO
Inventors: 具治岩田
Original assignee: 日本電信電話株式会社
Priority date: 2020-06-08
Filing date: 2020-06-08
Publication date: 2021-12-16
Also published as: JP7439923B2; US20230222324A1; JPWO2021250752A1

Abstract

一実施形態に係る学習方法は、事例と前記事例に対するラベルとが含まれるデータＧ_ｄを入力する入力手順と、第１のニューラルネットワークのパラメータと、前記データＧ_ｄに含まれる各事例のうち前記ラベルが観測されている事例を表す情報とを用いて、前記データＧ_ｄに含まれる各事例に対するラベルの予測値を計算する予測手順と、第２のニューラルネットワークのパラメータと、前記データＧ_ｄに含まれる各事例のうち前記ラベルが観測されている事例を表す情報とを用いて、前記データＧ_ｄに含まれる各事例のうち、一の事例を選択する選択手順と、前記予測値と前記データＧ_ｄに含まれる各事例に対するラベルの値との第１の誤差を用いて、前記第１のニューラルネットワークのパラメータを学習する第１の学習手順と、前記第１の誤差と、前記一の事例が追加で観測された場合における前記各事例に対するラベルの予測値と前記各事例に対するラベルの値との第２の誤差とを用いて、前記第２のニューラルネットワークのパラメータを学習する第２の学習手順と、をコンピュータが実行することを特徴とする。

Description

学習方法、学習装置及びプログラム

　本発明は、学習方法、学習装置及びプログラムに関する。

　一般に、機械学習手法では、ラベルが付与された学習事例数が多いほど高い性能を達成することができる。一方で、多くの学習事例にラベルを付与することは高いコストが掛かるという問題がある。

　この問題を解決するために、予測が不確実な事例にラベルを付与する能動学習法が提案されている（例えば、非特許文献１）。

Lewis, David D and Gale, William A, "A sequential algorithm for training text classiers." Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 3-12, 1994

　しかしながら、既存の能動学習法は直接的に機械学習性能を高めるように事例を選択しないため、十分な性能を達成できないことがあるという問題点がある。

　本発明の一実施形態は、上記の点に鑑みてなされたもので、高性能な事例選択モデル及びラベル予測モデルを学習することを目的とする。

　上記目的を達成するため、一実施形態に係る学習方法は、事例と前記事例に対するラベルとが含まれるデータＧ_ｄを入力する入力手順と、第１のニューラルネットワークのパラメータと、前記データＧ_ｄに含まれる各事例のうち前記ラベルが観測されている事例を表す情報とを用いて、前記データＧ_ｄに含まれる各事例に対するラベルの予測値を計算する予測手順と、第２のニューラルネットワークのパラメータと、前記データＧ_ｄに含まれる各事例のうち前記ラベルが観測されている事例を表す情報とを用いて、前記データＧ_ｄに含まれる各事例のうち、一の事例を選択する選択手順と、前記予測値と前記データＧ_ｄに含まれる各事例に対するラベルの値との第１の誤差を用いて、前記第１のニューラルネットワークのパラメータを学習する第１の学習手順と、前記第１の誤差と、前記一の事例が追加で観測された場合における前記各事例に対するラベルの予測値と前記各事例に対するラベルの値との第２の誤差とを用いて、前記第２のニューラルネットワークのパラメータを学習する第２の学習手順と、をコンピュータが実行することを特徴とする。

　高性能な事例選択モデル及びラベル予測モデルを学習することができる。

本実施形態に係る学習装置の機能構成の一例を示す図である。本実施形態に係る学習処理の流れの一例を示すフローチャートである。本実施形態に係る予測モデル学習処理の流れの一例を示すフローチャートである。本実施形態に係る選択モデル学習処理の流れの一例を示すフローチャートである。評価結果の一例を示す図である。本実施形態に係る学習装置のハードウェア構成の一例を示す図である。

　以下、本発明の一実施形態について説明する。本実施形態では、事例とそのラベルが含まれる複数のデータ集合が与えられたときに、ラベルを付与する事例を選択する事例選択モデル（以下、「選択モデル」という。）と、事例に対するラベルを予測するラベル予測モデル（以下「予測モデル」という。）とを学習する学習装置１０について説明する。

　本実施形態に係る学習装置１０には、学習時に、入力データとして、Ｄ個のグラフデータで構成されるグラフデータ集合

が与えられるものとする。なお、明細書のテキスト中では、このグラフデータ集合を「Ｇ」と表記する。

　ここで、Ｇ_ｄ＝（Ａ_ｄ，Ｘ_ｄ，ｙ_ｄ）はｄ番目のグラフを表すグラフデータである。ただし、

はｄ番目のグラフの隣接行列、Ｎ_ｄはｄ番目のグラフのノード数である。また、

はｄ番目のグラフの特徴量データ、

はｄ番目のグラフにおけるｎ番目のノードの特徴量であり、Ｊ_ｄはｄ番目のグラフの特徴量の次元数である。また、

はｄ番目のグラフの各特徴量のラベル集合である。ｙ_ｄｎはｄ番目のグラフにおけるｎ番目のノードの特徴量ｘ_ｄｎに対するラベル（言い換えれば、ｄ番目のグラフにおけるｎ番目のノードに対するラベル）を表す。すなわち、各特徴量ｘ_ｄｎ（つまり、ｄ番目のグラフの各ノード）はラベルが付与された事例に相当する。

　なお、本実施形態では、一例として、グラフデータが与えられるものとするが、グラフデータ以外の任意のデータ（例えば、任意のベクトルデータ、画像データ、系列データ等）が与えられた場合についても同様に適用可能である。

　テスト時（又は、予測モデル及び選択モデルの運用時等）には、ラベルが未知のグラフデータＧ^＊＝（Ａ^＊，Ｘ^＊）が与えられるものとする。このとき、なるべく少ないラベルの付与で（つまり、ラベルの付与対象として選択するノード（事例）数がなるべく少なく）、与えられたグラフ内のノードのラベルをより高い精度で予測することができる選択モデル及び予測モデルを学習することが学習装置１０の目標である。そのために、本実施形態に係る学習装置１０は、まず予測モデルを学習した後、学習済みの予測モデルを用いて選択モデルを学習するものとする。ただし、これは一例であって、例えば、予測モデルと選択モデルとを同時に学習してもよいし、又は予測モデルと選択モデルとを交互に学習してもよい。

　なお、テスト時にはグラフ内の全てのノードのラベルが未知のグラフデータＧ^＊＝（Ａ^＊，Ｘ^＊）が与えられる場合を想定するが、グラフ内の一部のノードにラベルが付与されていてもよい（つまり、少数のノードに対するラベルが与えられていてもよい。）。

　＜予測モデル及び選択モデル＞
　予測モデル及び選択モデルは、与えられたグラフの各ノードの特徴量と、観測されているラベルと、どの事例のラベルが観測されているかを表す情報とを入力し、それらの情報を統合して出力するものであれば、任意のニューラルネットワークを用いることができる。

　例えば、ニューラルネットワークへの入力としては、以下の式（１）に示すｚ_ｄｎ ^（０）を用いることができる。

　ここで、

はｄ番目のグラフにおいてどの事例のラベルが観測されているかを表すマスクベクトルであり、ｎ番目の事例のラベルが観測されていればｎ番目の要素はｍ_ｄｎ＝１、そうでなければｍ_ｄｎ＝０である。なお、以降では、ラベルが観測されている事例を「観測事例」とも表す。つまり、マスクベクトルｍ_ｄはｄ番目のグラフの観測事例を表すベクトルである。

　また、

はｄ番目のグラフにおいて観測されているラベルを表すベクトルであり、ｍ_ｄｎ＝１であればｎ番目の要素は

、そうでなければ

となる。なお、明細書のテキスト中では、ｄ番目のグラフにおいて観測されているラベルを表すベクトル及びその要素をそれぞれ「^－ｙ_ｄ」及び「^－ｙ_ｄｎ」と表記する。

　予測モデル及び選択モデルのニューラルネットワークとしては、例えば、グラフ畳み込みニューラルネットワークを用いることができる。グラフ畳み込みニューラルネットワークを用いることにより、全事例の情報をグラフに応じて統合することができる。

　ニューラルネットワークをｆとして、予測モデルは、以下の式（２）で表すことができる。

　ここで、Φはニューラルネットワークｆのパラメータ、

は予測値を表す。なお、上記の式（２）に示すｆでは、入力されたＧ_ｄ及びｍ_ｄから上記の式（１）に示すｚ_ｄｎ ^（０）が作成され、これらのｚ_ｄｎ ^（０）がグラフ畳み込みニューラルネットワークに入力される。すなわち、より正確には、上記の式（２）に示すｆは、Ｇ_ｄ及びｍ_ｄから各ｚ_ｄｎ ^（０）を作成する関数と、パラメータΦを持つグラフ畳み込みニューラルネットワークとで構成される。

　また、ニューラルネットワークをｇとして、選択モデルは、以下の式（３）で表すことができる。

　ここで、Θはニューラルネットワークｇのパラメータ、

はｄ番目のグラフにおけるスコアベクトルであり、ｓ_ｄｎはｎ番目の事例が選択されるスコアを表す。なお、上記の式（３）に示すｇも同様に、入力されたＧ_ｄ及びｍ_ｄから上記の式（１）に示すｚ_ｄｎ ^（０）が作成され、これらのｚ_ｄｎ ^（０）がグラフ畳み込みニューラルネットワークに入力される。すなわち、より正確には、上記の式（３）に示すｇは、Ｇ_ｄ及びｍ_ｄから各ｚ_ｄｎ ^（０）を作成する関数と、パラメータΘを持つグラフ畳み込みニューラルネットワークとで構成される。

　＜機能構成＞
　まず、本実施形態に係る学習装置１０の機能構成について、図１を参照しながら説明する。図１は、本実施形態に係る学習装置１０の機能構成の一例を示す図である。

　図１に示すように、本実施形態に係る学習装置１０は、入力部１０１と、予測部１０２と、予測モデル学習部１０３と、選択部１０４と、選択モデル学習部１０５と、記憶部１０６とを有する。

　記憶部１０６には、グラフデータ集合Ｇや学習対象となるパラメータΦ及びΘ等が記憶されている。

　入力部１０１は、学習時に、記憶部１０６に記憶されているグラフデータ集合Ｇを入力する。なお、テスト時には、入力部１０１は、ラベルが未知のグラフデータＧ^＊を入力する。

　ここで、予測モデルの学習時には、予測モデル学習部１０３によってグラフデータ集合ＧからグラフデータＧ_ｄがサンプリングされた上で、このグラフデータＧ_ｄのノード集合｛１，・・・，Ｎ_ｄ｝から観測事例がサンプリングされる。同様に、選択モデルの学習時でも、選択モデル学習部１０５によってグラフデータ集合ＧからグラフデータＧ_ｄがサンプリングされた上で、このグラフデータＧ_ｄのノード集合｛１，・・・，Ｎ_ｄ｝から観測事例が順次サンプリングされる。

　予測部１０２は、予測モデル学習部１０３によってサンプリングされたグラフデータＧ_ｄと、このグラフデータＧ_ｄからサンプリングされた観測事例を表すマスクベクトルｍ_ｄと、パラメータΦとを用いて、上記の式（２）により予測値（つまり、当該グラフデータＧ_ｄが表すグラフの各ノードに対するラベルの値）を計算する。

　なお、テスト時には、予測部１０２は、グラフデータＧ^＊と、このグラフデータＧ^＊の観測事例を表すマスクベクトルｍ^＊と、学習済みの予測モデルのパラメータとを用いて、上記の式（２）により予測値（つまり、当該グラフデータＧ^＊が表すグラフの各ノードに対するラベルの値）を計算する。

　予測モデル学習部１０３は、入力部１０１によって入力されたグラフデータ集合ＧからグラフデータＧ_ｄをサンプリングした上で、このグラフデータＧ_ｄのノード集合｛１，・・・，Ｎ_ｄ｝からＮ_Ｓ個の観測事例をサンプリングする。なお、サンプリングする観測事例数Ｎ_Ｓは予め設定される。また、サンプリングする際、予測モデル学習部１０３は、ランダムにサンプリングを行ってもよいし、予め設定された何等かの分布に従ってサンプリングを行ってもよい。

　そして、予測モデル学習部１０３は、グラフデータ集合ＧからサンプリングしたグラフデータＧ_ｄに含まれるラベル集合ｙ_ｄと、予測部１０２によって計算された予測値との誤差を用いて、この誤差が小さくなるように学習対象のパラメータΦを更新（学習）する。

　例えば、予測モデル学習部１０３は、以下の式（４）に示す期待予測誤差を最小化するように学習対象のパラメータΦを更新すればよい。

　ここで、Ｅは期待値、Ｌは以下の式（５）に示す予測誤差を表す。

　なお、ｆ_ｎは上記の式（２）に示すｆのｎ番目の要素（つまり、予測値のｎ番目の要素）である。

　ただし、Ｌとして予測誤差ではなく、予測の誤りを表す任意の指標（例えば、負の対数尤度等）が用いられてもよい。

　選択部１０４は、選択モデル学習部１０５によってサンプリングされたグラフデータＧ_ｄと、このグラフデータＧ_ｄからサンプリングされた観測事例を表すマスクベクトルｍ_ｄと、パラメータΘとを用いて、上記の式（３）によりスコアベクトルを計算する。

　なお、テスト時には、選択部１０４は、グラフデータＧ^＊と、このグラフデータＧ^＊の観測事例を表すマスクベクトルｍ^＊と、学習済みの選択モデルのパラメータとを用いて、上記の式（３）によりスコアベクトルを計算する。スコアベクトルが計算されることにより、ノード（事例）をラベル付与対象として選択することができる。なお、ラベル付与対象とするノードの選択方法としては、例えば、スコアベクトルの要素のうち最も値が高い要素に対応するノードを選択すればよい。これ以外にも、例えば、スコアベクトルの要素のうちその値が高い順に所定の個数の要素を選択し、これら選択された要素に対応するノードをラベル付与対象として選択してもよいし、スコアベクトルの要素のうち所定の閾値以上の値の要素に対応するノードをラベル付与対象として選択してもよい。

　選択モデル学習部１０５は、入力部１０１によって入力されたグラフデータ集合ＧからグラフデータＧ_ｄをサンプリングした上で、このグラフデータＧ_ｄのノード集合｛１，・・・，Ｎ_ｄ｝からＮ_Ａ個の観測事例を順次サンプリングする。なお、サンプリングされる最大観測事例数Ｎ_Ａは予め設定される。また、グラフデータＧ_ｄをサンプリングする際、選択モデル学習部１０５は、ランダムにサンプリングを行ってもよいし、予め設定された何等かの分布に従ってサンプリングを行ってもよい。一方で、観測事例をサンプリングする際には、選択モデル学習部１０５は、後述する選択分布に従ってサンプリングを行う。

　ここで、選択モデル学習部１０５は、事例を選択したときの予測性能が向上するようにパラメータΘを学習する。例えば、選択モデル学習部１０５は、予測性能向上の指標として、以下の式（６）に示す予測誤差削減率を用いることができる。

　上記の式（６）に示す予測誤差削減率は、事例を追加で選択したときの予測誤差の削減率を表している。ここで、＾Φ（正確には、ハット「＾」はΦの真上に表記）は予測モデルのニューラルネットワークｆの学習済みパラメータである。また、ｎはｄ番目のグラフにおいて新たに観測されたノード（事例）を表し、ｍ_ｄ ^（＋ｎ）はｄ番目のグラフにおけるｎ番目のノード（事例）が追加で観測された場合のマスクベクトルｍ_ｄ、つまりｎ'＝ｎであればｍ_ｄｎ' ^（＋ｎ）＝１、そうでなければｍ_ｄｎ' ^（＋ｎ）＝ｍ_ｄｎ'である。

　選択モデルを学習する際の目的関数としては、上記の式（６）に示す予測誤差削減率を用いて、例えば、以下の式（７）に示す期待誤差削減率を用いることができる。

　すなわち、上記の式（７）に示す期待誤差削減率を最大化するように学習対象のパラメータΘを更新すればよい。ここで、π（Θ）は選択モデルに基づく選択分布（ノード（事例）を選択するための分布）であり、π_ｄ＝π_ｄ（Θ）のｎ番目の要素π_ｄｎは以下の式（８）で表される。

　ここで、ｓ'_ｄｎは、ｍ_ｄｎ＝０の場合はｓ'_ｄｎ＝ｓ_ｄｎ、それ以外の場合はｓ'_ｄｎ＝－∞である。これにより、既に観測されている事例は選択されなくなる。

　＜学習処理の流れ＞
　次に、本実施形態に係る学習装置１０が実行する学習処理の流れについて、図２を参照しながら説明する。図２は、本実施形態に係る学習処理の流れの一例を示すフローチャートである。

　まず、入力部１０１は、記憶部１０６に記憶されているグラフデータ集合Ｇを入力する（ステップＳ１０１）。

　次に、学習装置１０は、予測モデル学習処理を実行し、予測モデルのパラメータΦを学習する（ステップＳ１０２）。続いて、学習装置１０は、選択モデル学習処理を実行し、選択モデルのパラメータΘを学習する（ステップＳ１０３）。なお、予測モデル学習処理及び選択モデル学習処理の詳細な流れについては後述する。

　以上により、本実施形態に係る学習装置１０は、予測部１０２で実現される予測モデルのパラメータΦと選択部１０４で実現される選択モデルのパラメータΘとを学習することができる。なお、テスト時には、予測部１０２は、グラフデータＧ^＊と、このグラフデータＧ^＊の観測事例を表すマスクベクトルｍ^＊と、学習済みのパラメータ＾Φとを用いて、上記の式（２）により予測値を計算する。同様に、テスト時には、選択部１０４は、グラフデータＧ^＊と、このグラフデータＧ^＊の観測事例を表すマスクベクトルｍ^＊と、学習済みのパラメータ＾Θとを用いて、上記の式（３）によりスコアベクトルを計算する。マスクベクトルｍ^＊の各要素の値は、グラフデータＧ^＊が表すグラフのｎ番目のノードに対するラベルが観測されていればｍ_ｎ＝１、そうでなければｍ_ｎ＝０となる。

　また、テスト時における学習装置１０は予測モデル学習部１０３及び選択モデル学習部１０５を有していなくてもよく、例えば、「ラベル予測装置」や「事例選択装置」等と称されてもよい。

　　≪予測モデル学習処理≫
　次に、上記のステップＳ１０２の予測モデル学習処理の流れについて、図３を参照しながら説明する。図３は、本実施形態に係る予測モデル学習処理の流れの一例を示すフローチャートである。

　まず、予測モデル学習部１０３は、予測モデルのパラメータΦを初期化する（ステップＳ２０１）。パラメータΦは、例えば、ランダムに初期化されてもよいし、或る分布に従うように初期化されてもよい。

　以降のステップＳ２０２～ステップＳ２０７は所定の終了条件を満たすまで繰り返し実行される。所定の終了条件としては、例えば、学習対象のパラメータΦが収束したこと、当該繰り返しが所定の回数実行されたこと等が挙げられる。

　予測モデル学習部１０３は、図２のステップＳ１０１で入力されたグラフデータ集合ＧからグラフデータＧ_ｄをサンプリングする（ステップＳ２０２）。

　次に、予測モデル学習部１０３は、上記のステップＳ２０２でサンプリングされたグラフデータＧ_ｄのノード集合｛１，・・・，Ｎ_ｄ｝からＮ_Ｓ個の観測事例をサンプリングする（ステップＳ２０３）。これらＮ_Ｓ個の観測事例の集合をＳとする。

　次に、予測モデル学習部１０３は、マスクベクトルｍ_ｄの各要素の値を、ｎ∈Ｓならばｍ_ｄｎ＝１、そうでなければｍ_ｄｎ＝０と設定する（ステップＳ２０４）。

　次に、予測部１０２は、グラフデータＧ_ｄとマスクベクトルｍ_ｄとパラメータΦとを用いて、上記の式（２）により予測値^－ｙ_ｄを計算する（ステップＳ２０５）。

　続いて、予測モデル学習部１０３は、グラフデータＧ_ｄとマスクベクトルｍ_ｄと上記のステップＳ２０５で計算された予測値^－ｙ_ｄとパラメータΦとを用いて、上記の式（５）により誤差ＬとそのパラメータΦに関する勾配とを計算する（ステップＳ２０６）。なお、勾配は、例えば、誤差逆伝播法等の既知の手法により計算すればよい。

　そして、予測モデル学習部１０３は、上記のステップＳ２０６で計算した誤差Ｌ及びその勾配を用いて、学習対象のパラメータΦを更新する（ステップＳ２０７）。なお、予測モデル学習部１０３は、既知の更新式等により学習対象のパラメータΦを更新すればよい。

　　≪選択モデル学習処理≫
　次に、上記のステップＳ１０３の選択モデル学習処理の流れについて、図４を参照しながら説明する。図４は、本実施形態に係る選択モデル学習処理の流れの一例を示すフローチャートである。

　まず、選択モデル学習部１０５は、選択モデルのパラメータΘを初期化する（ステップＳ３０１）。パラメータΘは、例えば、ランダムに初期化されてもよいし、或る分布に従うように初期化されてもよい。

　以降のステップＳ３０２～ステップＳ３０４は所定の終了条件を満たすまで繰り返し実行される。所定の終了条件としては、例えば、学習対象のパラメータΘが収束したこと、当該繰り返しが所定の回数実行されたこと等が挙げられる。

　選択モデル学習部１０５は、図２のステップＳ１０１で入力されたグラフデータ集合ＧからグラフデータＧ_ｄをサンプリングする（ステップＳ３０２）。

　次に、選択モデル学習部１０５は、マスクベクトルｍ_ｄ＝０と初期化（つまり、マスクベクトルｍ_ｄの各要素の値を０に初期化）する（ステップＳ３０３）。

　続いて、学習装置１０は、ｓ＝１，・・・，Ｎ_Ａに対して以下のステップＳ３１１～ステップＳ３１８を繰り返し実行する（ステップＳ３０４）。すなわち、学習装置１０は、以下のステップＳ３１１～ステップＳ３１８をＮ_Ａ回繰り返し実行する。なお、Ｎ_Ａは最大観測事例数である。

　選択部１０４は、グラフデータＧ_ｄとマスクベクトルｍ_ｄとパラメータΘとを用いて、上記の式（３）によりスコアベクトルｓ_ｄを計算する（ステップＳ３１１）。

　次に、選択モデル学習部１０５は、上記の式（８）により選択分布π_ｄを計算する（ステップＳ３１２）。

　次に、選択モデル学習部１０５は、上記のステップＳ３１２で計算された選択分布π_ｄに従って、グラフデータＧ_ｄのノード集合｛１，・・・，Ｎ_ｄ｝から観測事例ｎを選択する（ステップＳ３１３）。

　次に、選択モデル学習部１０５は、上記の式（６）により予測誤差削減率Ｒ（Ｇ_ｄ，ｍ_ｄ，ｎ）を計算する（ステップＳ３１４）。

　続いて、選択モデル学習部１０５は、上記のステップＳ３１４で計算された予測誤差削減率Ｒ（Ｇ_ｄ，ｍ_ｄ，ｎ）と、上記のステップＳ３１２で計算された選択分布π_ｄとを用いて、パラメータΘを更新する（ステップＳ３１５）。選択モデル学習部１０５は、例えば、Θ←Θ＋αＲ（Ｇ_ｄ，ｍ_ｄ，ｎ）∇_Θｌｏｇπ_ｄｎによりパラメータΘを更新すればよい。ここで、αは学習係数、∇_ΘはパラメータΘに関する勾配を表す。なお、一例として、強化学習の方策勾配法によってパラメータΘを更新しているが、これに限られず、強化学習の他の手法によりパラメータΘが更新されてもよい。

　そして、選択モデル学習部１０５は、上記のステップＳ３１３で選択した観測事例ｎに応じてマスクベクトルｍ_ｄを更新する（ステップＳ３１６）。すなわち、選択モデル学習部１０５は、上記のステップＳ３１３で選択した観測事例ｎに対応する要素ｍ_ｄｎを１に更新（つまり、ｍ_ｄｎ＝１に更新）する。

　＜評価結果＞
　次に、本実施形態に係る学習装置１０によって学習された選択モデル及び予測モデルの評価結果について説明する。本実施形態では、一例として、グラフデータの１つである交通データを用いて評価した。その評価結果を図５に示す。

　図５では横軸が観測事例数、縦軸が予測誤差を表している。また、Randomはランダムに事例を選択する手法、Varianceは予測分散が最大の事例を選択する手法、Entropyはエントロピーが最大の事例を選択する手法、MIは相互情報量が最大の事例を選択する手法である。また、NNは、本実施形態に係る学習装置１０によって学習される選択モデル及び予測モデルとしてフィードフォワードネットワークを用いた場合である。一方で、Oursは、本実施形態に係る学習装置１０によって学習される選択モデル及び予測モデルとしてグラフ畳み込みニューラルネットワークを用いた場合である。

　図５に示すように、Ourでは他の手法と比較して低い予測誤差が達成されており、高性能な予測モデルが得られていることがわかる。

　＜ハードウェア構成＞
　最後に、本実施形態に係る学習装置１０のハードウェア構成について、図６を参照しながら説明する。図６は、本実施形態に係る学習装置１０のハードウェア構成の一例を示す図である。

　図６に示すように、本実施形態に係る学習装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続されている。

　入力装置２０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置２０２は、例えば、ディスプレイ等である。なお、学習装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ２０３は、記録媒体２０３ａ等の外部装置とのインタフェースである。学習装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、学習装置１０が有する各機能部（入力部１０１、予測部１０２、予測モデル学習部１０３、選択部１０４及び選択モデル学習部１０５）を実現する１以上のプログラムが格納されていてもよい。なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

　通信Ｉ／Ｆ２０４は、学習装置１０を通信ネットワークに接続するためのインタフェースである。なお、学習装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

　プロセッサ２０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。学習装置１０が有する各機能部は、例えば、メモリ装置２０６に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

　メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。学習装置１０が有する記憶部１０６は、例えば、メモリ装置２０６により実現される。ただし、当該記憶部１０６は、例えば、学習装置１０と通信ネットワークを介して接続される記憶装置（例えば、データベースサーバ等）により実現されていてもよい。

　本実施形態に係る学習装置１０は、図６に示すハードウェア構成を有することにより、上述した学習処理を実現することができる。なお、図６に示すハードウェア構成は一例であって、学習装置１０は、他のハードウェア構成を有していてもよい。例えば、学習装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１０　　　　学習装置
　１０１　　　入力部
　１０２　　　予測部
　１０３　　　予測モデル学習部
　１０４　　　選択部
　１０５　　　選択モデル学習部
　１０６　　　記憶部
　２０１　　　入力装置
　２０２　　　表示装置
　２０３　　　外部Ｉ／Ｆ
　２０３ａ　　記録媒体
　２０４　　　通信Ｉ／Ｆ
　２０５　　　プロセッサ
　２０６　　　メモリ装置
　２０７　　　バス

Claims

　事例と前記事例に対するラベルとが含まれるデータＧ_ｄを入力する入力手順と、
　第１のニューラルネットワークのパラメータと、前記データＧ_ｄに含まれる各事例のうち前記ラベルが観測されている事例を表す情報とを用いて、前記データＧ_ｄに含まれる各事例に対するラベルの予測値を計算する予測手順と、
　第２のニューラルネットワークのパラメータと、前記データＧ_ｄに含まれる各事例のうち前記ラベルが観測されている事例を表す情報とを用いて、前記データＧ_ｄに含まれる各事例のうち、一の事例を選択する選択手順と、
　前記予測値と前記データＧ_ｄに含まれる各事例に対するラベルの値との第１の誤差を用いて、前記第１のニューラルネットワークのパラメータを学習する第１の学習手順と、
　前記第１の誤差と、前記一の事例が追加で観測された場合における前記各事例に対するラベルの予測値と前記各事例に対するラベルの値との第２の誤差とを用いて、前記第２のニューラルネットワークのパラメータを学習する第２の学習手順と、
　をコンピュータが実行することを特徴とする学習方法。
　前記第２の学習手順は、
　前記第１の誤差に対する前記第２の誤差の削減率が最大となるように前記第２のニューラルネットワークのパラメータを学習する、ことを特徴とする請求項１に記載の学習方法。
　前記選択手順は、
　前記一の事例を選択するためのスコアを計算し、前記スコアに基づく分布に従って前記一の事例を選択する、ことを特徴とする請求項１又は２に記載の学習方法。
　前記データＧ_ｄは、事例をノードとするグラフ形式で表されたデータであり、
　前記第１のニューラルネットワーク及び第２のニューラルネットワークは、グラフ畳み込みニューラルネットワークである、ことを特徴とする請求項１乃至３の何れか一項に記載の学習方法。
　事例と前記事例に対するラベルとが含まれるデータＧ_ｄを入力する入力部と、
　第１のニューラルネットワークのパラメータと、前記データＧ_ｄに含まれる各事例のうち前記ラベルが観測されている事例を表す情報とを用いて、前記データＧ_ｄに含まれる各事例に対するラベルの予測値を計算する予測部と、
　第２のニューラルネットワークのパラメータと、前記データＧ_ｄに含まれる各事例のうち前記ラベルが観測されている事例を表す情報とを用いて、前記データＧ_ｄに含まれる各事例のうち、一の事例を選択する選択部と、
　前記予測値と前記データＧ_ｄに含まれる各事例に対するラベルの値との第１の誤差を用いて、前記第１のニューラルネットワークのパラメータを学習する第１の学習部と、
　前記第１の誤差と、前記一の事例が追加で観測された場合における前記各事例に対するラベルの予測値と前記各事例に対するラベルの値との第２の誤差とを用いて、前記第２のニューラルネットワークのパラメータを学習する第２の学習部と、
　を有することを特徴とする学習装置。
　コンピュータに、請求項１乃至４の何れか一項に記載の学習方法を実行させるプログラム。