WO2024100851A1

WO2024100851A1 - モデル学習装置、モデル学習方法、およびモデル学習プログラム

Info

Publication number: WO2024100851A1
Application number: PCT/JP2022/041952
Authority: WO
Inventors: 優太南部; 匡宏幸島; 隆二山本
Original assignee: 日本電信電話株式会社
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2024-05-16

Abstract

一実施形態に係る、未知のタスクに対してゼロショット学習を実現するモデル学習装置は、メタ訓練で用いられる観測可能なタスクの集合と、ゼロショット学習における既知クラスのプロトタイプの集合を示す第１の補助情報と、未知クラスのプロトタイプの集合を示す第２の補助情報と、を含む入力データ、および複数のモデルから成る合成モデルを含むモデルデータを取得し、モデルデータの学習率パラメータを取得する取得部と、入力データ、モデルデータ、および学習率パラメータを用いて、メタ訓練で用いられる損失関数がゼロショット学習に用いる損失関数で評価される目的関数を最小化するように最適化手法を用いて合成モデルのモデルパラメータを学習するモデルパラメータ学習部と、モデルパラメータを出力装置に表示するように制御する出力制御部と、を備える。

Description

モデル学習装置、モデル学習方法、およびモデル学習プログラム

　この発明は、モデル学習装置、モデル学習方法、およびモデル学習プログラムに関する。

　従来の教師あり学習手法によって学習させたモデルは、利用できるデータが少ない場合、または変化するタスクに適応しなければいけない場合に性能が低下してしまう。例えば、一部のクラスのデータがまったく利用できない場合にこの課題はさらに顕著になる。何故なら、利用できるデータが少ない場合ですら性能が低下するにも関わらず、データが全く得られない場合を想定しているからである。しかしながら、一部クラスのデータが得られない環境でも変化するタスクに適応可能な学習手法が必要な場合がある。

　例えば、人間の脳波からその人間が想起している単語を推定するモデルの学習方法を考える。一般に脳波を含め人間の生体信号には個人差があるため、個人をタスクとみなすときタスクも同様にそれぞれ異なる。そのため、推定したい個人（タスク）ごとにデータを取得し、脳波から単語を推定するモデルをそれぞれ個別に学習させる必要がある。さらに、この設定には「対象とする単語すべての脳波が得られるとは限らない」という課題も存在する。これは、今後、推定対象としたい個人が現れる度に対象とするすべての単語を想起してもらい、その想起した際のそれぞれの脳波を計測するという操作が必要となる。しかしながら、このような操作が現実的でないことは明らかである。このような場合を想定すると、「個人ごとにデータに差があっても適応可能」且つ「一部のデータを用いて訓練するだけで他のデータに対する推論も可能」な学習手法が必要である。

　一部のクラスのデータしか利用できない設定に特化した従来技術として、ゼロショット学習（例えば、非特許文献１および非特許文献２を参照）がある。ゼロショット学習とは、ラベル付データと補助情報（Auxiliary information）と呼ばれる既存知識から、訓練には出現していないクラスのデータも推論可能なモデルを学習させる手法である。補助情報は、クラスの特徴に関する情報を含んでおり、各クラスを表現する代表的なベクトルの集合として表現されることが多い。この補助情報にデータの利用できないクラスの情報が含まれていることで、データの利用できるクラスの学習から間接的にデータの利用できないクラスのインスタンスの分類を推論している。

Hugo Larochelle, Dumitru Erhan, and Yoshua Bengio. Zero-data learning of new tasks. In Proceedings of the 23rd National Conference on Artificial Intelligence - Volume 2, AAAI’08, p. 646-651. AAAI Press, 2008. Mark Palatucci, Dean Pomerleau, Geoffrey Hinton, and Tom M. Mitchell. Zero-shot learning with semantic output codes. In Proceedings of the 22nd International Conference on Neural Information Processing Systems, NIPS’09, p. 1410-1418, Red Hook, NY, USA, 2009. Curran Associates Inc. Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic metalearning for fast adaptation of deep networks. In Doina Precup and YeeWhye Teh, editors, Proceedings of the 34th International Conference on Machine 16 Learning, Vol.70 of Proceedings of Machine Learning Research, pp. 1126-1135. PMLR, 06-11 Aug 2017. Marta Garnelo, Dan Rosenbaum, Christopher Maddison, Tiago Ramalho, David Saxton, Murray Shanahan, Yee Whye Teh, Danilo Rezende, and S. M. Ali Eslami. Conditional neural processes. In Jennifer Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning, Vol. 80 of Proceedings of Machine Learning Research, pp. 1704-1713. PMLR, 10-15 Jul 2018. Bernardino Romera-Paredes and Philip H. S. Torr. An embarrassingly simple approach to zero-shot learning. In Proceedings of the 32nd International Conference on International Conference on Machine Learning - Volume 37, ICML’15, p. 2152-2161. JMLR.org, 2015. Zhenyong Fu, TaoA Xiang, Elyor Kodirov, and Shaogang Gong. Zero-shot object recognition by semantic manifold distance. In 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2635-2644, 2015. Zhenyong Fu, Tao Xiang, Elyor Kodirov, and Shaogang Gong. Zero-shot learning on semantic class prototype graph. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 40, No. 8, pp. 2009-2022, 2018.

　従来技術で開示されるゼロショット学習を用いる手法は、データがまったく利用できない設定に関する解決策の１つであり、変化するタスクに適応しなければいけないという課題へは対応していないという問題がある。

　この発明は、上記事情に着目してなされたもので、その目的とするところは、複数のタスクのモデルをゼロショット学習させる過程から学習の仕方を学習することで、ゼロショット学習を未知のタスクに適応する際の学習性能を向上させる技術を提供することにある。

　具体的には、ゼロショット学習に対して、変化するタスクにも適応可能な手法であるメタ学習を導入した新たな学習手法を提供することにある。

　上記課題を解決するためにこの発明の一態様は、未知のタスクに対してゼロショット学習を実現するモデル学習装置であって、メタ訓練で用いられる観測可能なタスクの集合と、前記ゼロショット学習における既知クラスのプロトタイプの集合を示す第１の補助情報と、未知クラスのプロトタイプの集合を示す第２の補助情報と、を含む入力データ、および複数のモデルから成る合成モデルを含むモデルデータを取得し、前記モデルデータの学習率パラメータを取得する取得部と、前記入力データ、前記モデルデータ、および前記学習率パラメータを用いて、前記メタ訓練で用いられる損失関数が前記ゼロショット学習に用いる損失関数で評価される目的関数を最小化するように最適化手法を用いて前記合成モデルのモデルパラメータを学習するモデルパラメータ学習部と、前記モデルパラメータを出力装置に表示するように制御する出力制御部と、を備えるようにしたものである。

　この発明の一態様によれば、ゼロショット学習に有用な知識を獲得するモデルをメタ学習によって学習させることにより、将来の未知のタスクに対するゼロショット学習の性能を向上させる手法を提供することが可能となる。

図１は、従来技術と本発明の問題設定を表現した図である。図２は、Meta zero-shot learning手法の概要を示した図である。図３は、実施形態に係るモデル学習装置のハードウェア構成の一例を示すブロック図である。図４は、実施形態におけるモデル学習装置のソフトウェア構成を、図１に示したハードウェア構成に関連付けて示すブロック図である。図５は、モデル学習装置がモデルパラメータθを得るための概要動作の一例を示すフローチャートである。図６は、ステップＳＴ１０３の動作をより詳細に説明した概要動作の一例を示すフローチャートである。

　以下、図面を参照してこの発明に係る実施形態を説明する。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。例えば、複数の同一または類似の要素が存在する場合に、各要素を区別せずに説明するために共通の符号を用いることがあるし、各要素を区別して説明するために当該共通の符号に加えて枝番号を用いることもある。

　［実施形態］　
　（メタ学習）　
　初めに、メタ学習について説明する。メタ学習は、学習する範囲を特定のタスクだけでなく関連するタスクの分布に広げることで、そのタスク分布から生成されるタスクへの学習性能を向上させるメタ知識を見つける手法である。簡単に記載すると、メタ学習は、学習の仕方を学習する手法である。ここで、メタ学習とは、モデルを単一のタスクで訓練するのではなく、そのタスクに類似するタスクの分布で訓練することで、関連する未知のタスクに汎化する知識を学習する手法である。このメタ学習の導入により、モデルの分布を学習することが可能になり、将来の未知のタスクにゼロショット学習を適応する際にそのモデル分布を参考にモデルを学習させることができる。

　メタ学習は、メタ知識を獲得するための訓練プロセスであるメタ訓練、獲得したメタ知識を実際に活用してその性能を評価するメタテストにより構成される。メタ訓練は、学習の仕方を学習するフェーズである。前述の通りメタ学習は、タスクの分布に対して行われるため、説明のためにメタ訓練用のタスク集合を

と定義する。ここで、τ_ｉ ^ｓｒｃはあるタスク分布ｐ（τ）からサンプルされたタスクであり、Ｎ^ｓｒｃは、τ^ｓｒｃの要素数である。一般にタスクは、データセットと損失関数から構成されているため、Ｔ_ｉ ^ｓｒｃはＴ_ｉ ^ｓｒｃ＝（Ｄ_ｉ ^ｓｐｔ，Ｄ_ｉ ^ｑｒｙ，Ｌ^ｔａｓｋ）と表現する。ここで、Ｌ^ｔａｓｋは、損失関数であり、Ｄ^ｓｐｔは、サポートセットと呼ばれるデータセット、Ｄ^ｑｒｙは、クエリセットと呼ばれるデータセットである。また、それぞれのデータセットはＤ次元の実数空間Ｘに属する入力インスタンスｘとクラス集合Ｙに属するラベルｙの組の集合からなる。

　このとき、メタ訓練の目的は、タスク分布ｐ（τ）からサンプルされるタスクの訓練に有用なメタ知識ωを得ることである。メタ知識ωは、メタ知識空間Ｗ⊂Ｒ^Ｋに属するベクトルとして表現される。メタ訓練ではまず、サポートセットＤ_ｉ ^ｓｐｔを用いてタスクごとに任意のモデルｆ（・；θ）を訓練する過程からメタ知識ωを推定する。そして、得られたメタ知識ωをクエリセットＤ_ｉ ^ｑｒｙに活用し、その損失を、損失関数Ｌ^ｍｅｔａを用いて計算することにより、損失を最小化するより良いメタ知識を探索する。ここで用いられる損失関数Ｌ^ｍｅｔａは、目的とするメタ知識によって技術ごとに独自に定義される損失関数である。

　メタテストは、メタ訓練で得たメタ知識を評価するフェーズである。メタ知識は、学習のコツに相当するため、メタ知識の性能を評価するためには別のタスクに対してそのメタ知識を活用してモデルを訓練させてみる必要がある。よって、メタテストは「テスト」という名称がついているが「訓練→テスト」の両方を実施する。つまり、メタテストだけで通常の教師あり学習と同等の操作をする。

　説明のため、メタテストの対象となるタスクの集合を

と定義する。ここで、Ｔ_ｉ ^ｔｇｔは、あるタスク分布ｐ（τ）からサンプルされたタスクであり、Ｎ^ｔｇｔは、τ^ｔｇｔの要素数である。また、Ｔ_ｉ ^ｓｒｃと同様にＴ_ｉ ^ｔｇｔはＴ_ｉ ^ｔｇｔ＝（Ｄ_ｉ ^ｔｒ，Ｄ_ｉ ^ｔｅ，Ｌ^ｔａｓｋ）と表現できる。Ｄ^ｔｒおよびＤ^ｔｅはそれぞれ、メタテストで用いる訓練データセット・テストデータセットである。この時、メタテストでは、訓練データセットＤ_ｉ ^ｔｒとメタ知識を入力として、モデルを訓練する。そして、テストデータセットＤ_ｉ ^ｔｅに対して訓練したモデルの評価を行う。メタ学習の説明のために定義した記号は、以下の表のようにまとめられる。

　次に、メタ学習の一般的なアプローチを２つのパターンを用いて説明する。　
　・パターン１：Bi-Level Optimization：このアプローチでは、モデルの学習とメタ知識の学習という２段階でメタ訓練を行う。１段階目では、以下に示す式（１）により、メタ知識ωを与えた状態でのＤ_ｉ ^ｓｐｔに対するＬ^ｔａｓｋを最小化することで、モデルｆの最適パラメータθ_ｉ ^＊（ω）を得る。

　２段階目では、以下に示す式（２）を用いて、タスクごとに得られた最適パラメータθ_ｉ ^＊（ω）とωを未知のデータＤ_ｉ ^ｑｒｙに活用し、その損失を最小化することで、どのようなωを与えると性能の良いパラメータθ_ｉ ^＊（ω）が得られるかを探索する。

　Bi-Level Optimizationの具体的な先行技術として非特許文献３が挙げられる。例えば、非特許文献３では、メタ知識ωを式（１）におけるθの初期値として定義している。つまり、式（１）において訓練する前に代入処理「θ←ω」を実行し、その初期値から最適パラメータθ_ｉ ^＊（ω）の探索を始める。そして、得られた最適パラメータを活用したモデルｆ（・；θ_ｉ ^＊（ω））を用いて、損失を式（２）から計算することで、関連タスク全般に対してより良い性能を得られる初期値ω^＊を探索する。これにより、メタテストにおいて未知のタスクのモデルを訓練する際に、より良い初期値ω^＊から探索を始めることができるため、効率よくモデルの訓練が可能になる。

　・パターン２：Feed-Forward Model：このアプローチの特徴は、タスクをエンコードするfeed-forwardモデルの学習によりモデルの分布を獲得することにある。このアプローチでは、サポートセットをベクトルにエンコードすることでタスク集合のモデル分布を推定する。そして、未知のタスクに適用する際には、そのタスクのサポートセットをエンコードしたベクトルをデコーダに与えることで、モデル分布からモデルをサンプリングする。これにより、未知のタスクであってもそのタスクに適応したモデルを得る。

　説明のため、データセットからタスクをエンコードするfeed-forwardモデルをｈとし、入力インスタンスとｈの出力から推論結果を出力するデコードモデルをｇとし、ｈとｇを組み合わせた合成モデルを

と定義する。このとき、以下に示す式（３）を解くことでｆの最適パラメータθ^＊を得る。

　これは、Ｄ_ｉ ^ｓｐｔをエンコーダに与えてタスクをあるベクトル空間に埋め込み、そのベクトルとＤ_ｉ ^ｑｒｙのインスタンスｘをｇに入力することで，ｙとの損失からｆを学習している。これにより、未知のタスクが与えられたときそのタスクの訓練データをｈに与えるだけでタスクのベクトル表現を獲得でき、そのベクトルと分類したいインスタンスをｇに入力することでそのタスクに特化した分類が実現できる。このアプローチにおいては、メタ知識が明示的に定義されているわけではなく、得られたエンコーダ・デコーダの最適パラメータθ^＊がメタ知識だと考えることができる。

　Feed-Forward Modelは、例えば、非特許文献４に開示される。例えば、エンコーダは、サポートセットＤ_ｉ ^ｓｐｔを入力としてベクトルｒを出力する多層パーセプトロンである。そして、デコーダは、ベクトルｒとクエリセットＤ_ｉ ^ｑｒｙのインスタンスｘ_ｊ ^ｑｒｙを入力としてカテゴリカル分布を出力する多層パーセプトロンである。このとき、合成モデルｆを最適化する損失関数は、式（３）のＬ^ｍｅｔａを負の対数尤度にすることで定義している。そして、Ｌ^ｍｅｔａおよび合成モデルｆはそれぞれ、以下の式（４）および式（５）のように表せる。

　ここで、ラベルｙはone-hot encodingされたベクトルであり、＜ｆ（ｘ；θ），ｙ＞はｆ（ｘ；θ）とｙの内積である。このようにして得た合成モデルｆの最適パラメータθ^＊を活用して、メタテストでは未知のタスクＴ_ｉ ^ｔｇｔに対して、

により合成モデルｆ（・，Ｄ_ｉ ^ｔｒ；θ^＊）を用いてＤ_ｉ ^ｔｅに対する性能を評価する。ただし、この手法では、サポートセットおよびクエリセットが同一分布からサンプルされていることを仮定しており、ゼロショット学習のように訓練時にはまったく出現しなかったクラスをテストで推論する必要がある場合を想定していない。

　ゼロショット学習　
　次に、一般的な設定のゼロショット学習について説明する。ゼロショット学習は、データが得られているクラスに対する学習のみで、まったくデータの得られないクラスの推論が可能なモデルを学習する手法である。ただし、補助的な情報なしにまったくデータの得られないクラスの推論は、困難である。そのため、クラスの関係性を示すデータ「補助情報（Auxiliary information）」を用いてデータの得られないクラスへの適応を図る。

　最初に、データが得られるクラスを既知クラス（Seen class）と定義して、その集合を

と表現する。そして、訓練時にはデータは得られないがテストの対象となるクラスを未知クラス（Unseen Class）と定義して、その集合を

と表現する。ここで、Ｎ^ｓおよびＮ^ｕはそれぞれ、既知クラス集合と未知クラス集合の要素数である。次に、入力空間をＸ⊂Ｒ^Ｄとして、訓練に用いるＮ^ｔｒ個の入力空間上のインスタンスを

とする。ここで、Ｒは、実空間である。ここで、Ｘに対応するラベルは

とする。ここで、Ｎ^ｔｒは、訓練データセットのインスタンスの数である。訓練データセットは、これらを組み合わせて

と表現する。

　補助情報は、クラスごとに設定された代表的なベクトルの集合として表現される。これらのベクトルは、一般にプロトタイプと呼ばれ、それぞれクラスの特徴を表している。このプロトタイプを補助情報空間Ａ⊂Ｒ^Ｍ上のベクトルと定義して、既知クラス集合Ｓのプロトタイプの集合を

未知クラス集合Ｕのプロトタイプの集合を

と表現する。このとき、入力空間のインスタンスｘを補助情報空間に適切に射影するようなモデルΦ（・；σ）：Ｘ→Ａがあれば、補助空間上でΦ（ｘ）に近しいプロトタイプを持つクラスがｘに対応するクラスであると推定できる。そのため、ゼロショット学習は、以下の式（６）を解くことを目的としている。

　ここで、ｇは、Φ（ｘ）とＡ^ｓを入力としてｘに対応するクラスを推定するデコードモデルｇ：Ａ→Ｓであり、多くの場合ｋＮＮ法やone-vs-rest法などが用いられる。このような最適パラメータσ^＊が得られれば、未知クラス集合に対応するインスタンスｘ^ｕに対しても、ｇ（Φ（ｘ^ｕ；σ^＊），Ａ^ｕ）を求めることで、どの未知クラスに対応するかを推定することができる。ゼロショット学習の説明のために定義した記号は、表２のようにまとめることができる。

　次に、ゼロショット学習の非特許文献５に開示されるような例を説明する。この例では、入力インスタンス、ラベル、補助情報を行列で表現し、線形のモデルをゼロショット学習している。入力インスタンスは、

を行列とみた

となる。ラベルは、

と定義されており、これはクラスｃ_ｉ ^ｓが入力インスタンスに対応するクラスであるときｉ番目の値が１、それ以外の値を－１とした、いわゆるone-hotベクトルを並べたものである。補助情報のプロトタイプは、Ｍ次元の２値ベクトルで表現し、行列表現にすることで

となる。このとき、次に示すｈｉｎｇｅ損失を用いた最適化問題を解くことでパラメータを推定する。

ここで、Φは、最適化したいパラメータを含む変換行列であり、＜（Ｘ^ＴΦＡ^ｓ）_ｉ，Ｙ_ｉ）＞は、行列の積Ｘ^ＴΦＡ^ｓのｉ行列目と行列Ｙのｉ行列目の内積である。Ｘ^Ｔに変換行列Φをかける操作は、式（６）のΦ（・，σ）に対応しており、行列Ａ^ｓをかける操作がｇ（・，Ａ^ｓ）に対応している。推論時、Ｎ^ｕ個の未知のクラスのプロトタイプ

があるとき、未知のインスタンスｘ^ｕに対して

を解くことで推論結果ｃ_ｊ ^ｕが得られる。このような一般的なゼロショット学習では、タスクそれぞれに対して独立に学習するだけであり、関連するタスクから共通的なメタ知識を抽出することは検討されていない。

　（問題設定）　
　本実施形態では、ゼロショット学習に特化したfeed-forwardモデル型メタ学習手法により、未知のタスクに対しても高性能なゼロショット学習を実現する。そこで、従来技術と本発明の問題設定の違いを明らかにする。

　図１は、従来技術と本発明の問題設定を表現した図である。
　図１（ａ）に示すように、一般的な教師あり学習では、訓練に利用できるクラスのデータが推論対象となっている。これに対して、図１（ｂ）に示すように、本発明のゼロショット学習の問題設定では、推論対象となるクラスが訓練時にはまったく現れない未知のクラスであることを想定している。

　また、図１（ｃ）に示すように、一般的なメタ学習の問題設定では変化するタスクに対応するために学習対象をタスク分布に広げて複数のタスクに有効な学習手法を検討している。図１（ｄ）に示すように、図１（ｃ）の設定と比較して本実施形態が対象とする問題設定は、従来のゼロショット学習とメタ学習の問題設定が複合したものになっている。つまり、本実施形態は、変化するタスクへの対策としてタスク分布に対する学習が必要かつそのタスクの推論対象は訓練時には現れない未知クラスを対象にしているという２つの課題を同時に解決するものである。

　これらの問題設定の違いを以下の表３にまとめた。

　以上の問題設定を踏まえて、上で説明した記号を再定義する。メタ訓練用のタスク集合τ^ｓｒｃを

とすると、サポートセットＤ_ｉ ^ｓｐｔは、入力空間Ｘ⊂Ｒ^Ｄのインスタンスと既知クラス集合Ｓのみから構成されるＸ×Ｓであり、クエリセットＤ_ｉ ^ｑｒｙは、Ｘのインスタンスと未知クラス集合Ｕのラベルのみから構成されるＸ×Ｕとなる。同様にメタテスト用のタスク集合τ^ｔｇｔは、

と定義され、訓練データセットＤ_ｉ ^ｔｒは、Ｘ×Ｓで構成されており、テストデータセットＤ_ｉ ^ｔｅは、Ｘ×Ｕから構成される。ここで、Ｎ^ｓｒｃおよびＮ^ｔｇｔはそれぞれ、τ^ｓｒｃおよびτ^ｔｇｔの要素数であり、Ｔ_ｉ ^ｓｒｃおよびＴ_ｉ ^ｔｇｔは、あるタスク分布ｐ（τ）からサンプルされる。

　このような問題設定の場合、上で説明したfeed-forwardモデル型メタ学習のように、サポートセットＤ_ｉ ^ｓｐｔのデータからエンコーダを学習させたとしても、それがクエリセットＤ_ｉ ^ｑｒｙのデータの分類に有効だとは限らない。何故なら、サポートセットのデータは既知クラス集合Ｓからサンプルされており、クエリセットのデータは、未知クラス集合Ｕからサンプルされているため、データの分布が異なるからである。そこで、この問題設定に特化した機械学習技術としてfeed-forwardモデル型のMeta zero-shot learning手法を用いる。

　図２は、Meta zero-shot learning手法の概要を示した図である。
　図２に示すMeta zero-shot learning手法では、３つのモデルを合成したものを入力モデルとして与える。３つのモデルとは、Conditional Neural Processにおいて用いられているエンコーダｈ（・）：Ａ×Ａ→Ｗ、デコーダモデルｇ（・）：Ａ×Ａ×Ｗ→Ｓ∪Ｕ、およびゼロショット学習にて用いる補助情報空間への射影モデルΦ（・）：Ｘ→Ａである。ここで、エンコーダとデコーダは、上で説明したメタ学習手法と異なる。エンコーダモデルｈの入力は、入力空間のインスタンスｘ_ｊとそのラベルｙ_ｊではなく、射影モデルの出力Φ（ｘ_ｊ）とラベルのプロトタイプπ（ｙ_ｊ）∈Ａ^ｓを入力として以下のベクトルｒ_ｊを出力する。
　　　　　　ｒ_ｊ＝ｈ（Φ（ｘ_ｊ），π（ｙ_ｊ））。
　ここで、πは、クラスとプロトタイプの対応を表す関数π（・）：Ｓ∪Ｕ→Ａである。また、デコーダモデルｇの入力は、未知のインスタンスｘ^ｕとベクトルｒ_ｊではな
く、Φ（ｘ^ｕ）と第１の補助情報Ａ^ｕとｒ_ｊの平均ｒを入力としてカテゴリカル分布などの以下の推定結果ｙ＾を出力する。

　ここで，第１の補助情報Ａ^ｕは、ゼロショット学習の説明において定義した補助情報

であり、Ｊは、エンコーダモデルｈに入力するデータセットの要素数である。このように、提案手法のモデルは、ゼロショット学習の射影モデルΦと補助情報を用いるという点から上で説明したfeed-forwardモデル型メタ学習とは異なる。

　提案手法の目的は、上述した３つのモデルｈ，ｇ，Φのパラメータを推定することである。ただし、ここでは、説明を簡易にするため、ｇ，ｈ，Φを合成したモデル全体をｆ（・；θ）＝ｇ（Φ（・），Ａ^ｕ，ｈ（・））と表現し、合成モデルのパラメータθを推定するものとする。

　（入力データ、入力モデル、および出力）
　次に、入力データ、入力モデル、および出力について説明する。
　入力データ：入力となるデータは、（ｉ）メタ訓練に用いるタスク集合

（ｉｉ）ゼロショット学習において補助情報として用いる

である。

　入力モデル：入力となるモデルは、（ｉ）Ｘ⊂Ｒ^Ｄのインスタンスを入力として補助情報空間Ａ⊂Ｒ^Ｍに射影するモデルΦ（・）、（ｉｉ）データセットからタスクをエンコードするモデルｈ（・）、（ｉｉｉ）ｈの出力とΦの出力と第１の補助情報Ａ^ｕからカテゴリカル分布を推定するデコードモデルｇ（・）、の３つを組み合わせた合成モデルｆ（・；θ）とする。ここで、θは、合成モデルｆのパラメータである。ΦはＲ^Ｄ→Ｒ^Ｍへ射影可能な任意のモデルが利用可能であり、例えば、非特許文献５に開示されるような線形のモデルでもよいし、Neural Networkのような非線形のモデルでもよい。さらに、Φは、タスクごとに事前学習されたものを用いても良い。ｈは、例えば、非特許文献４のような多層パーセプトロン、またはＣＮＮなど任意のモデルでよい。また、ｇは、カテゴリカル分布を出力するとしたが、例えば、ゼロショット学習のｋＮＮ法またはやone-vs-rest法などのノンパラメトリックモデルでもよい（例えば、非特許文献６および７を参照）。

　出力：本手法における出力は、合成モデルｆのパラメータθの最適パラメータ推定結果θ^＊である。

　（目的関数）　
　提案手法におけるパラメータ推定は、目的関数を最適化することで行う。本手法の目的は、複数の未知のタスクに対するゼロショット学習の性能が向上するようなモデルパラメータを推定することである。そのため、目的関数は、未知のタスクに対するゼロショット学習の損失によって構成される。これを踏まえ、目的関数は、次の式（９）～式（１１）のように定義される。

ここで、Ｌ^ｚｓｌは、ゼロショット学習に用いられるような、ｇ（・）とｙが近しいとき値が小さくなる任意の損失関数（例えば、式（７）など）である。上で説明した目的関数との違いは、式（１０）に示すように、複数のタスクに対するゼロショット学習の損失でメタ学習の損失を計算することにある。つまり、一般的なfeed-forwardモデル型メタ学習の損失関数（例えば、式（３））と本実施形態における式（９）を比較すると、本実施形態では、入力に補助情報が用いられておりＬ^ｍｅｔａがＬ^ｚｓｌの損失関数で評価されている点が異なる。また、タスクごとに事前学習されたモデルΦ_ｉを用いる場合、式（１０）のΦを事前学習済みモデルΦ_ｉとすればよい。

　（最適化法）　
　目的関数の最適化には、勾配法や確率的勾配法、Adamなど任意の最適化手法が適用できる。勾配法を利用する場合は、ｋ回目の最適化ステップで下記の式に従ってパラメータを更新することを繰り返せばよい。

ここで、γ_ｋは、学習率パラメータである、目的関数の勾配∇Ｌ（・）を計算して導出した関数を用いても、数値的に計算してもよい。

　（構成）　
　図３は、実施形態に係るモデル学習装置１のハードウェア構成の一例を示すブロック図である。
　モデル学習装置１は、入力されたデータを解析して、出力データを生成し出力する、コンピュータである。モデル学習装置１は、任意の場所に設置されて良い。

　図３に示すように、モデル学習装置１は、制御部１０、プログラム記憶部２０、データ記憶部３０、通信インタフェース４０、および入出力インタフェース５０を備える。制御部１０、プログラム記憶部２０、データ記憶部３０、通信インタフェース４０、および入出力インタフェース５０は、バスを介して互いに通信可能に接続されている。さらに通信インタフェース４０は、ネットワークを介して外部装置と通信可能に接続されてよい。また、入出力インタフェース５０は、入力装置２および出力装置３と通信可能に接続される。

　制御部１０は、モデル学習装置１を制御する。制御部１０は、中央処理ユニット（ＣＰＵ：Central Processing Unit）等のハードウェアプロセッサを備える。例えば、制御部１０は、様々なプログラムを実行することが可能な集積回路であっても良い。

　プログラム記憶部２０は、記憶媒体として、例えば、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ（Read Only Memory）等の不揮発性メモリとを組み合わせて使用することができる。プログラム記憶部２０は、各種処理を実行するために必要なプログラムを格納している。すなわち、制御部１０は、プログラム記憶部２０に格納されたプログラムを読み出して実行することにより各種制御および動作を実現し得る。

　データ記憶部３０は、記憶媒体として、例えば、ＨＤＤ、メモリカード等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリとを組み合わせて使用したストレージである。データ記憶部３０は、制御部１０がプログラムを実行して各種処理を行う過程で取得および生成されたデータを記憶するために用いられる。

　通信インタフェース４０は、１つ以上の有線または無線の通信モジュールを含む。例えば、通信インタフェース４０は、ネットワークを介して外部装置と有線または無線接続する通信モジュールを含む。通信インタフェース４０は、Ｗｉ－Ｆｉアクセスポイントおよび基地局等の外部装置と無線接続する無線通信モジュールを含んでも良い。さらに、通信インタフェース４０は、近距離無線技術を利用して外部装置と無線接続するための無線通信モジュールを含んでも良い。すなわち、通信インタフェース４０は、制御部１０の制御の下、外部装置との間で通信を行い、各種情報を送受信することができるものであれば一般的な通信インタフェースで良い。

　入出力インタフェース５０は、入力装置２および出力装置３等と接続される。入出力インタフェース５０は、入力装置２および出力装置３の間で情報の送受信を可能にするインタフェースである。入出力インタフェース５０は、通信インタフェース４０と一体であってもよい。例えば、モデル学習装置１と、入力装置２または出力装置３とは、近距離無線技術等を使用して無線接続されており、当該近距離無線技術を用いて情報の送受信を行ってもよい。

　入力装置２は、例えば、ユーザがモデル学習装置１に対して各種情報を入力するためのキーボードやポインティングデバイス等を含む。また、入力装置２は、プログラム記憶部２０またはデータ記憶部３０に格納するべきデータを、ＵＳＢメモリ等のメモリ媒体から読み出すためのリーダや、そのようなデータをディスク媒体から読み出すためのディスク装置を含んでも良い。

　出力装置３は、モデル学習装置１が推定したモデルパラメータ等を表示するディスプレイを含む。

　図４は、実施形態におけるモデル学習装置１のソフトウェア構成を、図１に示したハードウェア構成に関連付けて示すブロック図である。
　制御部１０は、取得部１０１と、モデルパラメータ学習部１０２と、出力制御部１０３と、を備える。また、データ記憶部３０は、取得データ記憶部３０１と、モデルパラメータ記憶部３０２とを備える。

　取得部１０１は、データ取得部１０１１およびパラメータ取得部１０１２を備える。

　データ取得部１０１１は、入力データおよびモデルデータを取得する。入力データは、メタ訓練で用いられる観測可能なタスクの集合、ゼロショット学習における既知クラスのプロトタイプの集合を示す第１の補助情報（Ａ^ｕ）、未知クラスのプロトタイプの集合を示す第２の補助情報（Ａ^ｓ）を含む。モデルデータは、Ｘ⊂Ｒ^Ｄのインスタンスを入力として補助情報空間Ａ⊂Ｒ^Ｍに射影する第１のモデル（Φ（・））、データセットからタスクをエンコードする第２のモデル（ｈ（・））、前記第１のモデルの出力と第２のモデルの出力と前記第２の補助情報からカテゴリカル分布を推定するデコードモデルである第３のモデル（ｇ（・））を組み合わせた合成モデルのモデルパラメータを含む。

　また、パラメータ取得部１０１２は、設定パラメータを取得する。ここで、設定パラメータは、モデルパラメータの最適パラメータ推定の際に使用する学習率パラメータである。

　モデルパラメータ学習部１０２は、モデルパラメータを学習する。モデルパラメータ学習部１０２は初期化部１０２１と、回数設定部１０２２と、更新部１０２３と、判定部１０２４と、を備える。

　初期化部１０２１は、計算繰り返し回数を初期化する。モデルパラメータを学習する前に、初期化部１０２１は、後述するモデルパラメータ記憶部３０２に記憶された計算繰り返し回数を初期化する。

　回数設定部１０２２は、最大繰り返し回数を設定する。回数設定部１０２２は、モデルパラメータの更新処理を繰り返すための最大回数を示す最大繰り返し回数の値を設定する。最大繰り返し回数は、例えば、管理者の入力に従って設定して良い。

　更新部１０２３は、入力データ、入力モデル、設定パラメータ（学習率パラメータ）を用いて、メタ訓練で用いられる損失関数がゼロショット学習に用いる損失関数で評価される目的関数を最小化するように上述した最適化手法を用いてモデルパラメータを更新する。なお、モデルパラメータの更新方法の詳細は、後述する。

　さらに、更新部１０２３は、計算繰り返し回数を更新する。例えば、更新部１０２３は、計算繰り返し回数の値を１だけ増やすことにより、計算繰り返し回数を更新する。

　判定部１０２４は、計算繰り返し回数＞最大繰り返し回数であるかどうかを判定する。

　出力制御部１０３は、モデルパラメータを出力する。出力制御部１０３は、入出力インタフェース５０を通じて、出力装置３のディスプレイ等にモデルパラメータを表示させて良い。また、出力制御部１０３は、管理者の指示に従って、任意のタイミングでモデルパラメータ記憶部３０２に記憶された学習したモデルパラメータを出力装置３のディスプレイに表示させて良い。

　（動作）　
　図５は、モデル学習装置１がモデルパラメータθを得るための概要動作の一例を示すフローチャートである。
　モデル学習装置１の制御部１０がプログラム記憶部２０に記憶されたプログラムを読み出して実行することにより、このフローチャートの動作が実現される。

　この動作は、モデル学習装置１の管理者がデータ、設定パラメータ等を入力装置２に入力することにより開始しても良い。或いは、管理者の指示に応じて開始しても良い。

　ステップＳＴ１０１で、データ取得部１０１１は、入力データおよびモデルデータを取得する。ここで、入力データは、観測可能なタスクの集合τ^ｓｒｃ、補助情報Ａ^ｓ，Ａ^ｕを含み、モデルデータは、上述した複数のモデルを合成した合成モデルｆを含む。データ取得部１０１１は、取得した入力データおよびモデルデータをデータ記憶部３０１１に記憶させる。また、入力データおよびモデルデータは、管理者が入力装置２に入力した情報であっても良いし、データ記憶部３０に記憶された情報であっても良い。

　ステップＳＴ１０２で、データ取得部１０１１は、設定パラメータを取得する。ここで、設定パラメータは、最適化の際に用いる学習パラメータγ_ｋを含む。また、設定パラメータは、管理者が入力装置２に入力した情報であっても良いし、データ記憶部３０に記憶された情報であっても良い。
データ取得部１０１１は、取得した設定パラメータをパラメータ記憶部３０１２に記憶させる。

　ステップＳＴ１０３で、モデルパラメータ学習部１０２は、モデルパラメータθを学習する。

　図６は、ステップＳＴ１０３の動作をより詳細に説明した概要動作の一例を示すフローチャートである。
　ステップＳＴ２０１で、初期化部１０２１は、計算繰り返し回数を初期化する。モデルパラメータθを学習する前に、初期化部１０２１は、モデルパラメータ記憶部３０２に記憶された計算繰り返し回数を初期化する。

　ステップＳＴ２０２で、回数設定部１０２２は、最大繰り返し回数を設定する。回数設定部１０２２は、モデルパラメータの更新処理を繰り返すための最大回数を示す最大繰り返し回数の値を設定する。最大繰り返し回数は、例えば、管理者の入力に従って設定して良い。

　ステップＳＴ２０３で、更新部１０２３は、モデルパラメータθを上で示した式（９）および式（１２）に従って更新する。すなわち、更新部１０２３は、式（９）で示す目的関数を式（１２）で示す最適化ステップに従ってモデルパラメータθを更新する。

　ステップＳＴ２０４で、更新部１０２３は、計算繰り返し回数を更新する。例えば、更新部１０２３は、計算繰り返し回数の値を１だけ増やすことにより、計算繰り返し回数を更新する。

　ステップＳＴ２０５で、判定部１０２４は、計算繰り返し回数＞最大繰り返し回数であるかどうかを判定する。計算繰り返し回数が最大繰り返し回数以下であると判定した場合、処理は、ステップＳＴ２０３に戻る。一方、計算繰り返し回数が最大繰り返し回数よりも大きい場合、モデルパラメータ学習部１０２は、学習したモデルパラメータθを出力制御部１０３に出力する。また、モデルパラメータ学習部１０２は、学習したモデルパラメータθをモデルパラメータ記憶部３０２に記憶させる。そして、処理は、ステップＳＴ１０４に進むことになる。

　図５に戻り、ステップＳＴ１０４で、出力制御部１０３は、モデルパラメータθを出力する。出力制御部１０３は、入出力インタフェース５０を通じて、出力装置３のディスプレイ等にモデルパラメータθを表示させて良い。また、出力制御部１０３は、管理者の指示に従って、任意のタイミングでモデルパラメータ記憶部３０２に記憶された学習したモデルパラメータθを出力装置３のディスプレイに表示させて良い。

　（適用例）　
　最後に、最適化されたモデルパラメータを使用した適用例について説明する。　
　例えば、本実施形態において、従来のメタ学習と同様にメタ訓練とメタテストの２段階からなる。メタ訓練では、タスク集合τ^ｓｒｃと補助情報Ａ^ｓ、Ａ^ｕ、そして、モデルを上記説明した手法に入力し、目的関数を最小化するように

に最適化法を用いることで推定パラメータθ^＊を得る。そして、メタテストの時には未知のタスクＴ_ｉ ^ｔｇｔの訓練データセットＤ_ｉ ^ｔｒと未知の入力空間のインスタンスｘ^ｕ∈Ｄ_ｉ ^ｔｅが得られるため、ｙ＾^ｕ＝ｆ（ｘ^ｕ，Ｄ_ｉ ^ｔｒ，Ａ^ｕ；θ^＊）を計算することで、推定値ｙ＾^ｕが得られる。

　（作用効果）　
　実施形態によれば、データの全く得られないクラスのインスタンスを分類可能なモデルを学習するゼロショット学習において、その学習自体を学習するメタ学習のアプローチを取り入れることにより、将来の未知のタスクに対するゼロショット学習の性能を向上することができる。これにより、例えば、人間の脳波から想起している事柄を推定する等のデータが得られないクラスがあり、且つ個人差もあることにより、個別のモデルをゼロから学習しなくてはいけない場合であっても、未知の個人に対する個別モデルを効率的に学習することができる。

　［他の実施形態］
　上記の実施形態は、例えば、個人差に限らず、地域差、データ取得環境の違い等の個別にゼロショット学習を行う必要がある場合のようなより一般的なものに適用することも可能である。

　また、前記実施形態に記載した手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウェア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ等）等の記憶媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段（実行プログラムのみならずテーブル、データ構造も含む）を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記憶媒体に記憶されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書で言う記憶媒体は、頒布用に限らず、計算機内部或いはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。

　要するに、この発明は上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。さらに、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。

　１…モデル学習装置
　２…入力装置
　３…出力装置
　１０…制御部
　１０１…取得部
　１０１１…データ取得部
　１０１２…パラメータ取得部
　１０２…モデルパラメータ学習部
　１０２１…初期化部
　１０２２…回数設定部
　１０２３…更新部
　１０２４…判定部
　１０３…出力制御部
　２０…プログラム記憶部
　３０…データ記憶部
　３０１…取得データ記憶部
　３０１１…データ記憶部
　３０１２…パラメータ記憶部
　３０２…モデルパラメータ記憶部
　４０…通信インタフェース
　５０…入出力インタフェース

Claims

　未知のタスクに対してゼロショット学習を実現するモデル学習装置であって、
　メタ訓練で用いられる観測可能なタスクの集合と、前記ゼロショット学習における既知クラスのプロトタイプの集合を示す第１の補助情報と、未知クラスのプロトタイプの集合を示す第２の補助情報と、を含む入力データ、および複数のモデルから成る合成モデルを含むモデルデータを取得し、前記モデルデータの学習率パラメータを取得する取得部と、
　前記入力データ、前記モデルデータ、および前記学習率パラメータを用いて、前記メタ訓練で用いられる損失関数が前記ゼロショット学習に用いる損失関数で評価される目的関数を最小化するように最適化手法を用いて前記合成モデルのモデルパラメータを学習するモデルパラメータ学習部と、
　前記モデルパラメータを出力装置に表示するように制御する出力制御部と、
　を備える、モデル学習装置。
　モデルパラメータ学習部は、前記学習率パラメータおよび前記目的関数の勾配を用いて、所定の回数、前記モデルパラメータを更新する更新部をさらに備える、請求項１に記載のモデル学習装置。
　前記合成モデルは、Ｘ⊂Ｒ^Ｄのインスタンスを入力として補助情報空間Ａ⊂Ｒ^Ｍに射影する第１のモデル、データセットからタスクをエンコードする第２のモデル、前記第１のモデルの出力と第２のモデルの出力と前記第２の補助情報からカテゴリカル分布を推定する第３のモデルを組み合わせた合成モデルであり、前記Ｘは、Ｄ次元の実数で表現される入力空間であり、Ｒは、実数空間である、請求項１に記載のモデル学習装置。
　前記第２のモデルは、前記第１のモデルの出力と、前記第１の補助情報とを入力としてベクトルを出力し、前記プロトタイプは、クラスと前記プロトタイプの対応を表す関数である、請求項３に記載のモデル学習装置。
　前記第３のモデルは、前記第１のモデルの出力と、前記ベクトルの平均を入力として前記カテゴリカル分布を推定する、請求項４に記載のモデル学習装置。
　前記モデルパラメータを学習することは、第１のモデル、第２のモデル、および第３のモデルのパラメータを推定することである、請求項３に記載のモデル学習装置。
　未知のタスクに対してゼロショット学習を実現するモデル学習装置のプロセッサが実行するモデル学習方法であって、
　メタ訓練で用いられる観測可能なタスクの集合と、前記ゼロショット学習における既知クラスのプロトタイプの集合を示す第１の補助情報と、未知クラスのプロトタイプの集合を示す第２の補助情報と、を含む入力データ、および複数のモデルから成る合成モデルを含むモデルデータを取得することと、
　前記モデルデータの学習率パラメータを取得することと、
　前記入力データ、前記モデルデータ、および前記学習率パラメータを用いて、前記メタ訓練で用いられる損失関数が前記ゼロショット学習に用いる損失関数で評価される目的関数を最小化するように最適化手法を用いて前記合成モデルのモデルパラメータを学習することと、
　前記モデルパラメータを出力装置に表示するように制御することと、
　を備える、モデル学習方法。
　未知のタスクに対してゼロショット学習を実現するモデル学習装置のプロセッサが実行するモデル学習プログラムであって、
　メタ訓練で用いられる観測可能なタスクの集合と、前記ゼロショット学習における既知クラスのプロトタイプの集合を示す第１の補助情報と、未知クラスのプロトタイプの集合を示す第２の補助情報と、を含む入力データ、および複数のモデルから成る合成モデルを含むモデルデータを取得することと、
　前記モデルデータの学習率パラメータを取得することと、
　前記入力データ、前記モデルデータ、および前記学習率パラメータを用いて、前記メタ訓練で用いられる損失関数が前記ゼロショット学習に用いる損失関数で評価される目的関数を最小化するように最適化手法を用いて前記合成モデルのモデルパラメータを学習することと、
　前記モデルパラメータを出力装置に表示するように制御することと、
　を前記プロセッサによって実行させるための命令を備えるモデル学習プログラム。