WO2021106202A1

WO2021106202A1 - 学習装置、学習方法及びプログラム

Info

Publication number: WO2021106202A1
Application number: PCT/JP2019/046820
Authority: WO
Inventors: 具治岩田; 充敏熊谷
Original assignee: 日本電信電話株式会社
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-06-03
Also published as: JPWO2021106202A1; JP7420148B2; US20230016231A1

Abstract

一実施形態に係る学習装置は、特徴量空間が異なる複数のデータセットを入力する入力部と、前記データセット毎に、前記データセットの各特徴の性質を表す特徴潜在ベクトルを生成する第１の生成部と、前記データセットに含まれる観測ベクトル毎に、前記観測データの性質を表す事例潜在ベクトルを生成する第２の生成部と、前記特徴潜在ベクトルと前記事例潜在ベクトルとを用いて、対象とする機械学習問題を解くためのモデルによって解を予測する予測部と、前記データセット毎に、前記特徴潜在ベクトルと前記事例潜在ベクトルと前記解とを用いて所定の目的関数を最適化することで、前記モデルのパラメータを学習する学習部と、を有することを特徴とする。

Description

学習装置、学習方法及びプログラム

　本発明は、学習装置、学習方法及びプログラムに関する。

　機械学習手法では、通常、タスク固有の学習データセットを使用して学習を行う。また、高い性能を達成するためには大量の学習データセットが必要である。しかしながら、タスク毎に十分な量のデータを用意するには高いコストを要するという問題がある。

　この問題を解決するために、異なるタスクの学習データを活用し、少数の学習データでも高い性能を達成するためのメタ学習法が提案されている（例えば非特許文献１）。

Chelsea Finn, Pieter Abbeel, Sergey Levine, "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks.", Proceedings of the 34th International Conference on Machine Learning, 2017.

　しかしながら、メタ学習法では特徴量空間が異なるデータを活用することができないという問題がある。

　本発明の一実施形態は、上記の点に鑑みてなされたもので、特徴量空間が異なる複数のデータセットの集合が与えられた場合に機械学習問題を解くためのモデルを学習することを目的とする。

　上記目的を達成するため、一実施形態に係る学習装置は、特徴量空間が異なる複数のデータセットを入力する入力部と、前記データセット毎に、前記データセットの各特徴の性質を表す特徴潜在ベクトルを生成する第１の生成部と、前記データセットに含まれる観測ベクトル毎に、前記観測データの性質を表す事例潜在ベクトルを生成する第２の生成部と、前記特徴潜在ベクトルと前記事例潜在ベクトルとを用いて、対象とする機械学習問題を解くためのモデルによって解を予測する予測部と、前記データセット毎に、前記特徴潜在ベクトルと前記事例潜在ベクトルと前記解とを用いて所定の目的関数を最適化することで、前記モデルのパラメータを学習する学習部と、を有することを特徴とする。

　特徴量空間が異なる複数のデータセットの集合が与えられた場合に機械学習問題を解くためのモデルを学習することができる。

本実施形態に係る学習装置の機能構成の一例を示す図である。本実施形態に係る学習処理の流れの一例を示すフローチャートである。本実施形態に係るテスト処理の流れの一例を示すフローチャートである。本実施形態に係る学習装置のハードウェア構成の一例を示す図である。

　以下、本発明の一実施形態について説明する。本実施形態では、特徴量空間が異なる複数のデータセットの集合が与えられた場合に、機械学習問題を解くためのモデルを学習することが可能な学習装置１０について説明する。また、観測ベクトルの集合が与えられた場合に、学習されたモデルを用いて、対象とする機械学習問題を解く場合についても説明する。

　学習装置１０の学習時には、入力データとして、Ｄ個のデータセットの集合

が与えられるものとする。ここで、

はｄ番目のデータセットを構成する観測ベクトルの集合であり、

はｎ番目の事例、Ｎ_ｄは事例数、Ｉ_ｄは特徴量数を表す。本実施形態では、対象とする機械学習問題を密度推定、この機械学習問題を解くためのモデルをニューラルネットワークとして、少数の観測ベクトルの集合（つまり、少数の観測ベクトルで構成されるデータセット）

が与えられた場合に、この観測ベクトルの集合Ｘ_ｄ*を生成した密度分布ｐ_ｄ*（ｘ）を推定することを目的とする。なお、観測データがベクトル形式でない場合（例えば、観測データが画像やグラフ等である場合）には、観測データをベクトル形式に変換することで、本実施形態を同様に適用することが可能である。また、対象とする機械学習問題が密度推定ではなく、例えば、分類や回帰、クラスタリング等であっても、本実施形態を同様に適用することが可能である。

　＜機能構成＞
　まず、本実施形態に係る学習装置１０の機能構成について、図１を参照しながら説明する。図１は、本実施形態に係る学習装置１０の機能構成の一例を示す図である。

　図１に示すように、本実施形態に係る学習装置１０は、読込部１０１と、特徴潜在ベクトル生成部１０２と、事例潜在ベクトル生成部１０３と、予測部１０４と、学習部１０５と、テスト部１０６と、記憶部１０７とを有する。

　記憶部１０７には、学習時やテスト時に用いられる各種データが記憶される。すなわち、記憶部１０７には、学習時にはＤ個のデータセットの集合が少なくとも記憶されている。また、記憶部１０７には、テスト時には少数の観測ベクトルの集合と学習済みパラメータ（つまり、学習時に学習されたニューラルネットワークのパラメータ）とが少なくとも記憶されている。

　読込部１０１は、学習時にはＤ個のデータセットの集合を入力データとして読み込む。また、読込部１０１は、テスト時には少数の観測ベクトルの集合を入力データとして読み込む。

　特徴潜在ベクトル生成部１０２は、各データセットの各特徴の性質を表す特徴潜在ベクトルを生成する。データセットｄのｉ番目の特徴の特徴潜在ベクトルｖ_ｄｉは、例えば、以下の式（１）に示す正規分布によって生成されると仮定する。

　ここで、

は平均μ，共分散Σの正規分布を表し、ｄｉａｇ（ｘ）はベクトルｘを対角要素に持つ対角行列を表す。μ_ｖ及びσ_ｖはデータセットｄのｉ番目の特徴の観測値

とその他の特徴（つまり、データセットｄのｉ番目以外の特徴）の観測値

とを入力とするニューラルネットワークである。これらμ_ｖ及びσ_ｖは全データセットで共有されている。なお、正規分布ではなく他の分布や、分布を用いない決定的なニューラルネットワークでモデル化してもよい。

　事例潜在ベクトル生成部１０３は、各データセットの各事例の性質を表す事例潜在ベクトルを生成する。データセットｄのｎ番目の事例の事例潜在ベクトルｚ_ｄｎは、例えば、以下の式（２）に示す正規分布によって生成されると仮定する。

　ここで、μ_ｚ及びσ_ｚはデータセットｄのｎ番目の事例の観測ベクトルｘ_ｄｎと特徴潜在ベクトルの集合

とを入力とするニューラルネットワークである。これらμ_ｚ及びσ_ｚは全データセットで共有されている。なお、正規分布ではなく他の分布や、分布を用いない決定的なニューラルネットワークでモデル化してもよい。

　予測部１０４は、特徴潜在ベクトルと事例潜在ベクトルとを用いて、観測ベクトルｘ_ｄｎの密度を予測する。密度は、例えば、以下の式（３）に示す正規分布によって予測することができる。

　ここで、μ_ｘ及びσ_ｘは特徴潜在ベクトルと事例潜在ベクトルとを入力とするニューラルネットワークである。なお、正規分布ではなく、特徴に合わせた他の分布を用いて密度を計算してもよい。例えば、観測ベクトルが離散の場合はカテゴリカル分布、非負整数値の場合はポアソン分布、非負実数値の場合はガンマ分布等を用いることが考えられる。

　なお、対象とする機械学習問題が密度推定でない場合は、特徴潜在ベクトルと事例潜在ベクトルとを用いてその機械学習問題を解くニューラルネットワークを用いればよい。例えば、機械学習問題が回帰問題である場合は、回帰するニューラルネットワークを用いればよい。

　学習部１０５は、読込部１０１によって読み込まれたＤ個のデータセットの集合を用いて、対象とする機械学習問題の性能が高くなるように、ニューラルネットワークのパラメータを学習する。

　例えば、対象とする機械学習問題が密度推定である場合、学習部１０５は、各データセットに対する対数尤度の下限のモンテカルロ近似である以下の式（４）に示す目的関数を最大化することによって、ニューラルネットワークのパラメータを学習することができる。

　ここで、Ｌはサンプル数、

である。また、

は標準正規分布

から生成された値、ＫＬはＫＬダイバージェンス、ｐ（ｚ_ｄｎ）は事前分布である。

　上記の式（４）に示す目的関数の計算手順としては、まず特徴潜在ベクトル生成部１０２により特徴潜在ベクトル

を生成し、次に事例潜在ベクトル生成部１０３により事例潜在ベクトル

を生成し、次に予測部１０４により

を評価した後、学習部１０５により目的関数を計算する。目的関数の最大化には任意の最適化手法が利用できるが、例えば、確率的勾配降下法等を用いることができる。また、事前分布としては任意の分布を利用することができるが、例えば、標準正規分布

を用いることができる。

　なお、各データセットをランダムに分割することにより疑似的に学習データセットとテストデータセットとを作成し、疑似的なテストデータセットにおける機械学習問題の性能が高くなるように学習してもよい。また、学習に利用する特徴量をランダムに選択して、疑似的に、より多様なデータセットを生成し、学習してもよい。

　テスト部１０６は、読込部１０１によって読み込まれた観測ベクトルの集合Ｘ_ｄ*を用いて、学習済みのニューラルネットワークにより対象とする機械学習問題を解く。機械学集問題を解く手順としては、まず特徴潜在ベクトル生成部１０２により観測ベクトルの集合Ｘ_ｄ*から特徴潜在ベクトルを生成し、次に事例潜在ベクトル生成部１０３により観測ベクトルと特徴潜在ベクトルとから事例潜在ベクトルを生成し、次に予測部１０４により特徴潜在ベクトルと事例潜在ベクトルとを用いて対象とする機械学習問題を解く。

　例えば、対象とする機械学習問題が密度推定である場合、テスト部１０６は、重要サンプリングを用いて、以下の式（５）により密度を推定することができる。

　ここで、Ｊはサンプル数である。また、Ｖ^（ｊ）及びｚ^（ｊ）はそれぞれ以下の式（６）に示す分布からサンプリングした特徴潜在ベクトルｖ^（ｊ）の集合及び事例潜在ベクトルであり、それぞれ特徴潜在ベクトル生成部１０２及び事例潜在ベクトル生成部１０３により生成できる。

　なお、対象とする機械学習問題が条件付き密度推定である場合は、テスト部１０６は、以下の式（７）により条件付き密度を推定することができる。

　ここで、Ｖ^（ｊ）及びｚ^（ｊ）はそれぞれ以下の式（８）に示す分布からサンプリングした特徴潜在ベクトルｖ^（ｊ）の集合及び事例潜在ベクトルであり、それぞれ特徴潜在ベクトル生成部１０２及び事例潜在ベクトル生成部１０３により生成できる。

　なお、＼ｉはｉ番目の特徴を除いたベクトル又は集合を表す。

　＜学習処理の流れ＞
　以降では、本実施形態に係る学習処理の流れについて、図２を参照しながら説明する。図２は、本実施形態に係る学習処理の流れの一例を示すフローチャートである。

　まず、読込部１０１は、Ｄ個のデータセットの集合を入力データとして読み込む（ステップＳ１０１）。以降では、Ｄ個のデータセットのうちの或るデータセットｄを用いて学習を行う場合について説明する。

　学習部１０５は、特徴潜在ベクトル生成部１０２を呼び出して、特徴潜在ベクトル生成部１０２によってＬ個の特徴潜在ベクトルを生成（サンプリング）する（ステップＳ１０２）。これにより、ｌ＝１，・・・，Ｌとして、データセットｄの特徴潜在ベクトルの集合Ｖ_ｄ ^（ｌ）が得られる。

　次に、学習部１０５は、事例潜在ベクトル生成部１０３を呼び出して、事例潜在ベクトル生成部１０３によってＬ個の事例潜在ベクトルを生成（サンプリング）する（ステップＳ１０３）。これにより、ｌ＝１，・・・，Ｌとして、データセットｄのｎ番目の事例の事例潜在ベクトルｚ_ｄｎ ^（ｌ）が得られる。

　次に、学習部１０５は、予測部１０４を呼び出して、予測部１０４によって

を得る（ステップＳ１０４）。

　次に、学習部１０５は、上記の式（４）に示す目的関数（対数尤度）の値とその勾配とを計算し、目的関数の値を最大化させるように、ニューラルネットワークのパラメータを更新する（ステップＳ１０５）。

　次に、学習部１０５は、所定の終了条件を満たすか否かを判定する（ステップＳ１０６）。終了条件を満たさない場合には、学習部１０５は、上記のステップＳ１０２に戻り、次のデータセットｄを用いて学習を行う。一方で、終了条件を満たす場合には、学習部１０５は学習処理を終了する。これにより、学習済みのパラメータが記憶部１０７に記憶される。なお、終了条件としては、例えば、ステップＳ１０２～ステップＳ１０６が実行された回数（繰り返し回数）が或る指定された値を超えたこと、繰り返し回数がＮ（ただし、Ｎは任意の自然数）回目のときと繰り返し回数がＮ＋１回目のときで目的関数値の変化量が或る指定された値よりも小さくなったこと、学習に用いたデータセットとは異なるデータセットに対する目的関数値が最小になったこと、等が挙げられる。

　＜テスト処理の流れ＞
　以降では、本実施形態に係るテスト処理の流れについて、図３を参照しながら説明する。図３は、本実施形態に係るテスト処理の流れの一例を示すフローチャートである。

　まず、読込部１０１は、観測ベクトルの集合（データセット）Ｘ_ｄ*を入力データとして読み込む（ステップＳ２０１）。

　次に、テスト部１０６は、特徴潜在ベクトル生成部１０２を呼び出して、特徴潜在ベクトル生成部１０２によってＪ個の特徴潜在ベクトルを生成（サンプリング）する（ステップＳ２０２）。これにより、ｊ＝１，・・・，Ｊとして、特徴潜在ベクトルの集合Ｖ^（ｊ）が得られる。

　次に、テスト部１０６は、事例潜在ベクトル生成部１０３を呼び出して、事例潜在ベクトル生成部１０３によってＪ個の事例潜在ベクトルを生成（サンプリング）する（ステップＳ２０３）。これにより、ｊ＝１，・・・，Ｊとして、事例潜在ベクトルｚ^（ｊ）が得られる。

　そして、テスト部１０６は、予測部１０４を呼び出して、予測部１０４によって上記の式（５）を用いて密度を予測する（ステップＳ２０４）。これにより、密度を予測する機械学習問題を解いたことになる。

　＜評価＞
　ここで、本実施形態の手法の評価について説明する。本実施形態の手法を評価するために、特徴量空間が異なる５つのデータセット（Glass, Segment, Vehicle, Vowel, Wine）を用いて既存の手法（変分オートエンコーダ（VAE）、混合正規分布（GMM）、カーネル密度推定（KDE））と比較した。学習時には５つのデータセットを全て用いた。一方で、テスト時には各データセットで特徴の３０％を削り、特徴をランダムに入れ替えた。

　このとき、本実施形態の手法と既存の手法との評価結果を以下の表１に示す。

　なお、評価指標は対数尤度であり、その値が高いほど密度推定性能が高いことを表す。

　上記の表１に示すように、本実施形態の手法は、既存の手法と比較して、全てのデータセットで高い密度推定性能が得られていることがわかる。

　＜ハードウェア構成＞
　最後に、本実施形態に係る学習装置１０のハードウェア構成について、図４を参照しながら説明する。図４は、本実施形態に係る学習装置１０のハードウェア構成の一例を示す図である。

　図４に示すように、本実施形態に係る学習装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続されている。

　入力装置２０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置２０２は、例えば、ディスプレイ等である。なお、学習装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ２０３は、外部装置とのインタフェースである。外部装置には、記録媒体２０３ａ等がある。学習装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、学習装置１０が有する各機能部（読込部１０１、特徴潜在ベクトル生成部１０２、事例潜在ベクトル生成部１０３、予測部１０４、学習部１０５及びテスト部１０６）を実現する１以上のプログラムが格納されていてもよい。

　なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

　通信Ｉ／Ｆ２０４は、学習装置１０を通信ネットワークに接続するためのインタフェースである。なお、学習装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

　プロセッサ２０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。学習装置１０が有する各機能部は、例えば、メモリ装置２０６等に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

　メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。学習装置１０が有する記憶部１０７は、例えば、メモリ装置２０６を用いて実現可能である。なお、例えば、記憶部１０７は、学習装置１０と通信ネットワークを介して接続される記憶装置等を用いて実現されていてもよい。

　本実施形態に係る学習装置１０は、図４に示すハードウェア構成を有することにより、上述した学習処理やテスト処理を実現することができる。なお、図４に示すハードウェア構成は一例であって、学習装置１０は、他のハードウェア構成を有していてもよい。例えば、学習装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１０　　　　学習装置
　１０１　　　読込部
　１０２　　　特徴潜在ベクトル生成部
　１０３　　　事例潜在ベクトル生成部
　１０４　　　予測部
　１０５　　　学習部
　１０６　　　テスト部
　１０７　　　記憶部

Claims

　特徴量空間が異なる複数のデータセットを入力する入力部と、
　前記データセット毎に、前記データセットの各特徴の性質を表す特徴潜在ベクトルを生成する第１の生成部と、
　前記データセットに含まれる観測ベクトル毎に、前記観測ベクトルの性質を表す事例潜在ベクトルを生成する第２の生成部と、
　前記特徴潜在ベクトルと前記事例潜在ベクトルとを用いて、対象とする機械学習問題を解くためのモデルによって解を予測する予測部と、
　前記データセット毎に、前記特徴潜在ベクトルと前記事例潜在ベクトルと前記解とを用いて所定の目的関数を最適化することで、前記モデルのパラメータを学習する学習部と、
　を有することを特徴とする学習装置。
　データセットを入力として、前記学習部により学習されたパラメータを用いて、前記予測部により前記機械学習問題の解を予測させるテスト部を有することを特徴とする請求項１に記載の学習装置。
　前記データセットに含まれる各観測ベクトルには、前記データセットに応じた個数の特徴の観測値が含まれ、
　前記第１の生成部は、
　各特徴のうちの一の特徴の観測値と、各特徴のうちの前記一の特徴以外の特徴の観測値とを入力とするニューラルネットワークに基づく正規分布からサンプリングすることで、前記特徴潜在ベクトルを生成する、ことを特徴とする請求項１又は２に記載の学習装置。
　前記第２の生成部は、
　前記観測ベクトルと前記特徴潜在ベクトルの集合とを入力とするニューラルネットワークに基づく正規分布からサンプリングすることで、前記事例潜在ベクトルを生成する、ことを特徴とする請求項１乃至３の何れか一項に記載の学習装置。
　前記予測部は、
　前記特徴潜在ベクトルと前記事例潜在ベクトルとを入力とするニューラルネットワークに基づく正規分布によって前記解を予測する、ことを特徴とする請求項１乃至４の何れか一項に記載の学習装置。
　前記学習部は、
　前記機械学習問題が密度推定問題である場合、前記複数のデータセットの各々に対する対数尤度の下限のモンテカルロ近似を前記目的関数として、前記モデルのパラメータを学習する、ことを特徴とする請求項１乃至５の何れか一項に記載の学習装置。
　特徴量空間が異なる複数のデータセットを入力する入力手順と、
　前記データセット毎に、前記データセットの各特徴の性質を表す特徴潜在ベクトルを生成する第１の生成手順と、
　前記データセットに含まれる観測ベクトル毎に、前記観測ベクトルの性質を表す事例潜在ベクトルを生成する第２の生成手順と、
　前記特徴潜在ベクトルと前記事例潜在ベクトルとを用いて、対象とする機械学習問題を解くためのモデルによって解を予測する予測手順と、
　前記データセット毎に、前記特徴潜在ベクトルと前記事例潜在ベクトルと前記解とを用いて所定の目的関数を最適化することで、前記モデルのパラメータを学習する学習手順と、
　をコンピュータが実行することを特徴とする学習方法。
　コンピュータを、請求項１乃至６の何れか一項に記載の学習装置における各部として機能させるためのプログラム。