JPWO2018066442A1

JPWO2018066442A1 - モデル学習システム、モデル学習方法およびモデル学習プログラム

Info

Publication number: JPWO2018066442A1
Application number: JP2018543862A
Authority: JP
Inventors: 遼平藤巻; 允聡今泉
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-10-07
Filing date: 2017-09-28
Publication date: 2019-07-25
Also published as: WO2018066442A1

Abstract

部分観測マルコフ決定過程のモデルを学習するモデル学習システムであって、パラメータ推定部８１は、モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定する。変分確率推定部８２は、重み付き周辺化尤度の下限を最大化する変分確率を推定する。隠れ変数削除判定部８３は、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する。収束判定部８４は、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定する。

Description

本発明は、部分観測マルコフ決定過程のモデルを学習するモデル学習システム、モデル学習方法およびモデル学習プログラムに関する。

部分観測マルコフ決定過程（partially observed Markov decision processes：以下、ＰＯＭＤＰｓ、または、ＰＯＭＤＰと記す。）は、強化学習において強力かつ成功している確率モデルである。マルコフ決定過程（Markov decision processes ：以下、ＭＤＰｓ、または、ＭＤＰと記す。）における隠れ状態を説明するため、ＰＯＭＤＰｓは、適応性がありながら簡潔な表現を得ており、その表現は、より正確な政策、次元的な悩みに対する適切に緩和、および、ＭＤＰｓと比較して学習されたモデルの高い解釈性を導出している。このような強力な表現の可能性から、ＰＯＭＤＰｓは、ロボット制御や音声処理、ビジネスマーケティングや医薬サービスなどのアプリケーションへの適用に成功している。

ＰＯＭＤＰのパラメータを学習するにあたり、直接政策探索法（direct policy search：以下、ＤＰＳと記す。）の使用は、特に有望である。直接探索では、政策空間において最善の政策が作成される。一方、価値反復（value-iteration ）や時間的差分学習（temporal difference learning）などの他のフレームワークでは、値空間で探査が行われる。

また、隠れ要素の振る舞いの複雑さは隠れ要素の次元と共に急速に増加するが、ＤＰＳは、直接政策をモデル化するため、それがどのように振る舞うかモデル化する必要がなく、効率的な計算の面からも強みがある。

ＤＰＳｓによるＰＯＭＤＰｓを最大限に活用するための重要な未解決問題の一つに、モデル選択問題、すなわち、適切な隠れ状態の次元の決定および政策関数の複雑性の決定、が挙げられる。高い適応性のあるモデル表現のため、ＰＯＭＤＰｓは、モデルの複雑性が過大評価されると過学習をしてしまうことがある。

また、ＰＯＭＤＰｓの特異性（統計モデルの特異性）により、ベイズ情報量基準（Bayesian information criterion：以下、ＢＩＣと記す。）のような古典的アプローチでは機能せず、交差検証（クロスバリデーション）のようなアプローチでは、多くの計算負荷がかかってしまう。

ＤＰＳでないフレームワークとして、非特許文献１には、ノンパラベイズに基づく方法が記載されている。非特許文献１に記載された方法では、隠れ変数の次元が自動で決定される。

なお、混合モデルを推定する方法の一例が、特許文献１に記載されている。特許文献１に記載された方法では、データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率が計算される。そして、計算された隠れ変数の変分確率を用いて、混合モデルのコンポーネントごとに分離されたモデル事後確率の下限が最大となるようにコンポーネントの種類及びそのパラメータを最適化することで、最適な混合モデルが推定される。

国際公開第２０１２／１２８２０７号

T. Ueno, K. Hayashi, T. Washio, and Y. Kawahara, "Weighted likelihood policy search with model selection," in Advances in Neural Information Processing Systems, pp. 2357-2365, 2012

一般に、モデルを手作業で選択するのは多くの時間を要し、また、用いられるデータも動的に変わっていくことから、再学習するにも多くの時間を要する。また、想定される組合せも膨大になることから、自動で処理を行わない場合には全ての組合せを探索することは困難であり、モデルの精度が下がってしまうことになる。そのため、コンピュータ等を用いて適切にモデルを学習できる方法が望まれる。

ＰＯＭＤＰでは、隠れ変数の次元および出力分布の複雑性に従ってモデルが推定される。また、モデルの性能は、隠れ変数の次元および出力分布の複雑性に依存する。そのため、モデルの複雑性について適切なチューニングが必要になる。

非特許文献１に記載された方法を用いることで、隠れ変数の次元を決定することは可能である。しかし、非特許文献１には、ＤＰＳｓによるＰＯＭＤＰｓにおけるモデル選択問題に対処する方法は記載されていない。また、非特許文献１に記載された方法は、効用関数（value function）を基礎とする方法であり、ＤＰＳｓと比較して期待利得が低いと言う問題がある。

そこで、本発明は、理論的正当性を失うことなく、高速にＰＯＭＤＰのモデルの複雑性を決定できるモデル学習システム、モデル学習方法およびモデル学習プログラムを提供することを目的とする。

本発明によるモデル学習システムは、部分観測マルコフ決定過程のモデルを学習するモデル学習システムであって、モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定するパラメータ推定部と、重み付き周辺化尤度の下限を最大化する変分確率を推定する変分確率推定部と、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する隠れ変数削除判定部と、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定する収束判定部とを備え、収束判定部によってモデルが収束したと判定されるまで、パラメータ推定部によるパラメータの推定、変分確率推定部による変分確率の推定および隠れ変数削除判定部による該当する隠れ変数の削除を繰り返すことを特徴とする。

本発明によるモデル学習方法は、部分観測マルコフ決定過程のモデルを学習するモデル学習方法であって、モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定し、重み付き周辺化尤度の下限を最大化する変分確率を推定し、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除し、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定し、モデルが収束したと判定されるまで、パラメータの推定、変分確率の推定および該当する隠れ変数の削除を繰り返すことを特徴とする。

本発明によるモデル学習プログラムは、部分観測マルコフ決定過程のモデルを学習するコンピュータに適用されるモデル学習プログラムであって、コンピュータに、モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定するパラメータ推定処理、重み付き周辺化尤度の下限を最大化する変分確率を推定する変分確率推定処理、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する隠れ変数削除判定処理、および、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定する収束判定処理を実行させ、収束判定処理でモデルが収束したと判定されるまで、パラメータ推定処理、変分確率推定処理および隠れ変数削除判定処理を繰り返させることを特徴とする。

本発明によれば、理論的正当性を失うことなく、高速にＰＯＭＤＰのモデルの複雑性を決定できる。

本発明によるモデル学習システムの一実施形態を示すブロック図である。モデル学習システムの動作例を示すフローチャートである。本発明によるモデル学習システムの概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

本発明のモデル学習システムは、ＤＰＳｓによるＰＯＭＤＰｓのためのベイズモデル選択アルゴリズムを用いてモデルを学習する。本発明のモデル学習システムは、主に２つの技術が用いられる。まず、その２つの概要を説明する。

一つ目は、ＰＯＭＤＰｓに用いる重み付き因子化情報量基準（weighted factorized information criterion ：以下、ｗＦＩＣと記す。）である。本発明では、ＭＤＰｓに用いるＤＰＳとは異なる探索法である重み付き尤度政策探索（weighted likelihood policy search ：以下、ＷＬＰＳと記す。）をＰＯＭＤＰｓに拡張する。

以下の説明では、ＰＯＭＤＰｓにＷＬＰＳを単純に拡張することが難しいことを示し、その代わりに、ＰＯＭＤＰｓのモデル選択に、ベイズ周辺対数化尤度により導かれる周辺重み付き尤度関数を提案する。また、以下では、上述するｗＦＩＣと呼ばれる扱いやすい漸近近似を説明する。ＦＩＣは、隠れ変数モデルの選択基準として開発されており、ｗＦＩＣはＦＩＣを自然な形で周辺重み付き対数尤度関数へ拡張するものである。

二つ目は、ＦＡＢ（factorized Asymptotic Bayesian）政策探索である。ｗＦＩＣを最大化する最適な政策（すなわち、モデルおよびパラメータ）を獲得するため、本発明では、ＦＡＢ政策探索（以下、ＦＡＢＰＳと記す）と呼ばれる、期待値最大化（expectation maximization：以下、ＥＭと記す。）政策探索の一変形形態を提案する。

ＦＡＢの隠れ状態選択の仕組みを利用して、ＦＡＢＰＳは、隠れ状態の次元と政策関数の複雑性の両方を、ＥＭ交互最適化の単体実行で、同時に決定できる。さらに、ＦＡＢＰＳは、期待される総報酬を最大化するパラメータを見つけることができる。

次に、ＰＭＤＰｓについて説明する。ＰＯＭＤＰは、複数の構成要素（Ｓ，Ａ，Ｏ，ｒ，ｐ，ｐ_０）で定義される。Ｓは状態空間を示し、Ａは行動空間を示し、Ｏは観測空間を示す。また、これらの要素を、それぞれ、状態ｓ∈Ｓ，行動ａ∈Ａ，観測値ｏ∈Ｏと表記する。ＰＯＭＤＰは、有限個（Ｋ個）の要素を有する不連続な状態空間を考慮する。すなわち、｜Ｓ｜＝Ｋである。また、行動空間および観測空間は、連続であってもよく、非連続であってもよい。

遷移関数ｐ：Ａ×Ｓ×Λ×Ｓ→［０，１］は、ｐ（ｓ´｜ａ，ｓ，λ）：＝Ｐｒ（ｓ´｜ａ，ｓ，λ）で表される。なお、Λは遷移パラメータ空間であり、λは遷移パラメータ空間の要素である。観測関数ｐ_０：Ｓ×Ｏ→［０，１］は、与えられたｓを用いてｐ_０（ｏ｜ｓ）と表される。

ＰＯＭＤＰのエージェントは、その状態に基づいて行動を決定する。また、政策関数π：Ｓ×Ａ×Θ→［０，１］は、π（ａ｜ｓ，θ）：＝Ｐｒ（ａ｜ｓ，θ）で表される。Θは、政策パラメータ空間であり、θは政策パラメータ空間の要素である。すなわち、θ∈Θである。

例えば、政策関数は、以下に示すようなθ＝（θ_１，…，θ_Ｊ）についての多項式平均の正規分布であってもよい。なお、Ｊは、多項式関数の次数である。

また、状態とエージェントがとる行動の対に基づき、ｒ（ｓ，ａ）で表される報酬関数ｒ：Ｓ×Ａ→Ｒによって、報酬が得られる。Ｒは、連続した報酬空間である。

サンプルのサイズｎに対して、行動Ａ_ｎ＝（ａ_１，…，ａ_ｎ）の順序および観測値Ｏ_ｎ＝（ｏ_１，…，ｏ_ｎ）の順序が存在し、各順序は、長さＴを有する。すなわち、ａ_ｉ＝（ａ_ｉ，１，…，ａ_ｉ，Ｔ）およびｏ_ｉ＝（ｏ_ｉ，１，…，ｏ_ｉ，Ｔ）である。ここで、各ｋ＝１，…Ｋについてのインジケータ変数をｓ^ｋ _ｉ，ｔとする。ｓ^ｋ _ｉ，ｔ＝１は、エージェントがｋ番目の状態にあることを表わし、ｓ^ｋ _ｉ，ｔ＝０は、エージェントがｋ番目以外の状態にあることを表わす。また、インジケータ集合をＳ＝（ｓ_１，…，ｓ_ｎ）と表す。ｓ_ｉは、ｓ^ｋ _ｉ，ｔの順序を含む。

データから初期状態ｓ_０の分布を推定することは容易であるが、以下の説明では、説明を容易にするため、初期状態ｓ_０の分布が均一であるものとする。

ＰＯＭＤＰの主たる目的は、以下の式１で定義される報酬関数で期待される総計を最大化するような最適な政策パラメータθ^＊∈Θを見つけることである。

ｓ_ｉ，ａ_ｉ，ｏ_ｉについての同時分布は、以下の式２で表される。

また、報酬の総和、すなわち、Ｒ^λ _ｉ，Ｔ：＝Ｒ（ｓ_ｉ，ａ_ｉ，ｏ_ｉ，λ）は、以下の式３で表される。

式３において、ｂ_ｉ，ｔ（ｓ）は信念分布と呼ばれ、以下の式４で定義される。

一般に、上記式１は、パラメータを最大化するには困難な形式である。
ところで、期待値最大化政策探索（expectation maximization policy search：以下、ＥＭＰＳと記す。）は、ＤＰＳの変形であり、ＦＡＢＰＳと密接な関係を有する。そして、ＥＭＰＳは、ＥＭアルゴリズムによって以下の式５に示す変分下界を最大化する。

式５において、ｑ（ｓ_ｉ，ａ_ｉ，ｏ_ｉ）は、（ｓ_ｉ，ａ_ｉ，ｏ_ｉ）についての任意の分布であり、ｑ（ｓ_ｉ，ａ_ｉ，ｏ_ｉ）∝ｐ（ｓ_ｉ，ａ_ｉ，ｏ_ｉ｜θ，λ）Ｒ^λ _ｉ，Ｔの場合に等号が成り立つ。ｑ（ｓ_ｉ，ａ_ｉ，ｏ_ｉ）∝ｐ（ｓ_ｉ，ａ_ｉ，ｏ_ｉ｜θ，λ）Ｒ^λ _ｉ，Ｔであると想定することにより、以下の式６に示すように、θに関してＦ（ｑ，θ，λ）の１階の条件が得られる。

式６において、∇_θは、θに関する偏微分である。適切なｑおよびλについて、上記１階の条件を解くことにより、上記式５の右辺を最大化する最適な政策パラメータθ^＊を推定することが可能である。

次に、上述するＷＬＰＳを説明する。ＷＬＰＳは、ＥＭＰＳの一例であり、ＭＤＰにおける政策関数の複雑性を制御するために用いられる。ＷＬＰＳは、ＤＰＳと最尤推定のための統計的推論問題との自然な繋がりを明らかにする。また、ＷＬＰＳは、ＭＤＰのモデル選択問題におけるベイズ情報基準のような情報基準を導出する。

ここで、ＭＤＰにおいて、ｓ_ｉとａ_ｉの同時分布を以下の式７のように定義する。

ここで、最適な政策を見つけるため、以下の式８に示すような重み付き尤度関数が用いられる。重み付き尤度関数については、例えば、非特許文献１に記載されている。

式８において、（ｓ_ｉ，ａ_ｉ）は、与えられたθ´についての設計分布ｐ_θ´（ｓ_ｉ，ａ_ｉ）からサンプリングされているものとする。重み付き尤度関数のキーとなる性質は、ｐ^＊ _θ´，θ（ｓ_ｉ，ａ_ｉ）のマキシマイザが、以下の式９に示す１階の条件の解に収束するということである。

したがって、重み付き尤度評価器は、上記式９に示す条件の元、上記式５に示す下界を最大化する。さらに、ＭＤＰのためにベイズ情報基準のような情報基準が導出される。この情報基準は、重み付き尤度に基づき、以下に示す式１０で表される。式１０において、θハット（θに上付き＾）は、上記式８のマキシマイザであり、ｍは、θの次元である。

次に、重み付き因子化情報量基準（ｗＦＩＣ）について説明する。まず、上記式６に示す１階の条件を、以下の式１１のように書き直す。

ただし、任意のｓ_ｉについてｐ（ａ_ｉ，ｏ_ｉ｜ｓ_ｉ，θ，λ）から（ａ_ｉ，ｓ_ｉ）を取得できないため、式１１の解に収束するような重み付き尤度の評価器を構築することは困難である。ここで、ｑ（ｓ_ｉ，ａ_ｉ，ｏ_ｉ）∝ｐ（ｓ_ｉ）ｐ（ａ_ｉ，ｏ_ｉ｜θ，λ）Ｒ^λ _ｉ，Ｔの条件の元、上記式５の変分下界について、以下の式１２に示す代わりの１階の条件を考慮する。

以上をもとに、与えられたθ´およびλ´に対し、ＰＯＭＰＤにおける変分重み付き尤度関数ｐ^＊（ａ_ｉ，ｏ_ｉ｜θ，λ）を、以下の式１３のように定義する。

変分重み付き尤度関数の評価器は、以下の性質を満たす。すなわち、与えられたθ´およびλ´に対し、θに関して、上記式１３のマキシマイザは、以下の式１４に示す解に収束する。

変分重み付き尤度は、理論上、報酬の最大化と統計的推論（最尤）とを橋渡しするという良い特性を有するが、上記式１３の最大化は、実際には困難である。

ＰＯＭＰＤ向けに重み付き尤度関数を拡張するのは容易い問題ではない。さらに、たとえ、上記式１３を最大化する解が得られたとしても、モデル選択問題が残る。そこで、本発明では、上述する重み付き因子化情報量基準（ｗＦＩＣ）を使用する。以下の説明では、モデル候補のインデックスをＭで表記する。

ｓ_ｉは実際には取得されないため、不可能ではあるが、ｐ^＊（ｓ_ｉ，ａ_ｉ，ｏ_ｉ｜θ，λ）は扱いやすく、（ｓ_ｉ，ａ_ｉ，ｏ_ｉ）〜ｐ（ｓ_ｉ，ａ_ｉ，ｏ_ｉ｜θ´，λ´）の条件のもと、マキシマイザが上記の式６に示す１階の条件を満たすことを示すのは簡単である。ここで、標準的なベイズモデル選択では、以下の式１５で示す周辺対数化尤度関数が想定される。

周辺対数化尤度は、モデル選択において有益な特性を有することが知られているが、ここでの目的は、重み付き尤度関数を最大化することによって得られる期待総報酬を最大化することである。そこで、本発明では、これらの２つの目的を達成するため、事前分布ｐ（θ，λ｜Ｍ）について、以下の式１６に示す周辺重み付き対数尤度関数を定義する。なお、Ｑ^λ _Ｔ≡１の場合、周辺重み付き対数尤度は、通常の周辺対数化尤度と等しくなる。

上記式１６は、通常の周辺尤度のように、解くことが困難である。ここで、幾つかの緩やかな条件のもと、ＦＩＣのキーアイディアを用いることで、ラプラス法を適用することが可能である。ＦＩＣのキーアイディアを考慮すると、θハット周囲のｐ^＊（Ｓ_ｎ，Ａ_ｎ，Ｏ_ｎ｜θ）の以下の式１７に示す拡張が与えられる。

式１７において、θハットの特性により、一次の項は無視できる。各状態の確率を近似するため、θ_ｋおよびλ_ｋを、状態ｓ＝ｋの確率関数に影響を与えるθおよびλの部分とする。このとき、以下の式１８で示すｌｏｇｐ^＊（Ｓ_ｎ，Ａ_ｎ，Ｏ_ｎ｜Ｍ）の近似が得られる。

式１８において、Ｄ_ｘは、ｘの次元を表わし、Ｈ_＊は、以下の式１９で定義されるヘッセ行列である。

式１８において、［Ｈ_π；θ_ｋ］は、θ_ｋに関する二次方程式を表わす。例えば、

である。
上記式１６を式１８に代入することにより、以下の式２０に示すｗＦＩＣが得られる。

ｗＦＩＣは、隠れ状態に依存し、かつ、過剰なモデル化に対する罰則項として機能する３つの正則化項を有する。式２０において二重のアンダーラインで示す３番目の正則化項も、隠れマルコフモデルにおける標準的なＦＩＣに現れる。この正則化項は、状態遷移の複雑性を制御する。式２０において波線のアンダーラインで示す１番目および２番目の正則化項は、ＰＯＭＤＰで用いられるｗＦＩＣ特有の正則化項である。

これらの定義のもと、本実施形態のモデル学習システムを図面を参照して説明する。本実施形態のモデル学習システムでは、Ｓ，Ａ，Ｏの同時分布を考えるモデルを推定する。

図１は、本発明によるモデル学習システムの一実施形態を示すブロック図である。本実施形態のモデル学習システム１００は、初期値設定部１０と、パラメータ推定部２０と、変分確率推定部３０と、隠れ変数削除判定部４０と、収束判定部５０と、記憶部６０を備えている。

初期値設定部１０は、モデルを学習する際に用いる各種パラメータを初期化する。具体的には、初期値設定部１０は、観測値データ、初期隠れ変数の次元を入力し、変分確率およびパラメータを出力する。初期値設定部１０は、設定された変分確率およびパラメータを記憶部６０に記憶する。初期化する方法は任意であり、例としては、変分確率やパラメータをそれぞれランダムに設定する方法などが挙げられる。

上述する式に対応させると、観測値データがＯ_ｎに対応し、初期隠れ変数の次元がＫに対応する。また、出力される変分確率がｑに対応し、パラメータがθ、λに対応する。なお、以下の説明では、変分確率が繰り返し更新されるため、変分確率の初期状態をｑ^（０）と記すこともあり、更新された変分確率をｑ^{（ｌ−１）}と記すこともある。

パラメータ推定部２０は、観測値データ、パラメータおよび変分確率に基づいて、推定されるモデルにおける観測値データに対する重み付き対数周辺化尤度の下限を最大化するパラメータを推定する。ニューラルネットワークモデルのパラメータを求めるために用いられるパラメータとは、初期値設定部１０により初期化されたモデルのパラメータ、または、後述の処理で更新されたモデルのパラメータである。具体的には、パラメータ推定部２０は、変分確率ｑ＝ｑ^（ｌ）を固定してλおよびθを最適化する。

パラメータ推定部２０は、以下の式２１で遷移パラメータλを更新する。式２１において、Ｄ｛・｜｜・｝は、カルバック・ライブラー情報量を表わす。

遷移分布は、以下の式２２に示すフォワード・バックワードアルゴリズムの要素によって算出される。

また、パラメータ推定部２０は、以下の式２３を解くことにより、政策関数を更新する。

θに関する最適化問題において、罰則項はｌ０ペナルティとして作用する。そのため、特徴選択において政策関数の複雑性を自動的に制御できる。

変分確率推定部３０は、観測値データ、パラメータ、および変分確率に基づいて、重み付き対数周辺化尤度の下限を最大化する変分確率を推定する。具体的には、変分確率推定部３０は、パラメータθ＝θ^{（ｌ−１）}およびλ＝λ^{（ｌ−１）}を固定して、変分確率を最適化する。

なお、閉形式の更新式は存在しないが、以下の式２４に示すフォワード・バックワードアルゴリズムによって、変分確率推定部３０は、変分確率ｑを、効率よく更新できる。

式２４において、ζ_ｉ，ｔは、以下の式２５の規格化定数である。

ここで、ｐチルダ（ｐに上付き〜）を、以下の式２６のように定義する。

式２６において、δ^π _{ｉ，ｔ，ｋ}、δ^Ｑ _{ｉ，ｔ，ｋ}およびδ^ｐ _{ｉ，ｔ，ｋ}、は、以下のように定義される。なお、ｑ^{（ｌ−１）} _{ｉ，ｋ，ｔ}：＝ｑ^{（ｌ−１）}（ｓ^ｋ _ｉ，ｔ）である。

上記において、Δ^π _ｉ，ｔ、Δ^Ｑ _ｉ，ｔおよびΔ^ｐ _ｉ，ｔは、それぞれ、

を作成する規格化定数である。

以上をもとに、変分確率ｑ^（ｌ）は、以下の式２７で与えられる。すなわち、変分確率推定部３０は、以下の式２７に示す変分確率を推定する。

隠れ変数削除判定部４０は、変分確率推定部３０により推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定する。具体的には、隠れ変数削除判定部４０は、隠れ変数に関する変分確率の和が閾値以下の場合、削除対象の隠れ変数と判定し、その隠れ変数を削除する。

δ^π _{ｉ，ｔ，ｋ}、δ^Ｑ _{ｉ，ｔ，ｋ}およびδ^ｐ _{ｉ，ｔ，ｋ}、式２１における正則化項から来ている。δ^ｐ _{ｉ，ｔ，ｋ}は、ＦＡＢの隠れマルコフモデルにも現れ、ＥＭアルゴリズムの繰り返し処理を通じて、小さな隠れ状態を除く効果を有する。そこで、例えば、以下の式２８に示す値が閾値よりも小さい場合、隠れ変数削除判定部４０は、対応する隠れ変数を削除する。なお、ＦＡＢのＥＭアルゴリズムが、自動的にこの「収縮」効果によって、隠れ状態の次元を選択することはよく研究されている。

一方、δ^π _{ｉ，ｔ，ｋ}およびδ^Ｑ _{ｉ，ｔ，ｋ}は、ＦＡＢＰＳに特有のものである。δ^π _{ｉ，ｔ，ｋ}において、以下に示す式２９は、概ね、確率的政策関数の期待良さを意味する。

したがって、この正則化項は、貧弱な政策の隠れ状態を除く効果を有する。同様に、δ^Ｑ _{ｉ，ｔ，ｋ}において、貧弱な期待報酬の隠れ状態は、モデルから除かれる。なお、δ^π _{ｉ，ｔ，ｋ}およびδ^Ｑ _{ｉ，ｔ，ｋ}は、ＦＩＣには現れず、ｗＦＩＣにのみ現れる。これら２つの独特な正則化項によって、ｗＦＩＣを最大化するＦＡＢＰＳは、標準的なＦＡＢ推論よりも、よりよい政策を学習することが可能になる。

収束判定部５０は、推定された変分確率または／およびパラメータに基づいて、モデルの収束性を判定する。具体的には、収束判定部５０は、求めたパラメータおよび推定された変分確率が最適化基準を満たしているか判定する。最適化基準は、ユーザ等により予め定められ、記憶部６０に記憶される。

収束判定部５０により収束していないと判定された場合、パラメータ推定部２０による処理（すなわち、パラメータの推定）および変分確率推定部３０の処理（すなわち、変分確率の推定）が行われ、隠れ変数削除判定部４０の処理（すなわち、隠れ変数の削除）までの一連の処理が繰り返される。

このような処理が行われるため、収束判定部５０は、例えば、上記式２０の値を各ステップで計算し、前回の値との変化が小さければ収束したと判定してもよい。この場合、ｗＷＩＣの値の変化が最適化基準として設定される。また、収束判定部５０は、例えば、θ、λまたはｑについて、前回のステップとの差を足し合わせていき、その値の変化が小さければ収束したと判定してもよい。この場合、各パラメータまたは変分確率の変化が最適化基準として設定される。

初期値設定部１０と、パラメータ推定部２０と、変分確率推定部３０と、隠れ変数削除判定部４０と、収束判定部５０とは、プログラム（モデル学習プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、記憶部６０に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、初期値設定部１０、パラメータ推定部２０、変分確率推定部３０、隠れ変数削除判定部４０および収束判定部５０として動作してもよい。

また、初期値設定部１０と、パラメータ推定部２０と、変分確率推定部３０と、隠れ変数削除判定部４０と、収束判定部５０とは、それぞれが専用のハードウェアで実現されていてもよい。また、記憶部６０は、例えば、磁気ディスク等により実現される。

次に、本実施形態のモデル学習システムの動作を説明する。図２は、本実施形態のモデル学習システムの動作例を示すフローチャートである。

モデル学習システム１００は、学習処理に用いるデータとして、観測値データおよび初期隠れ変数次元並びに最適化基準の入力を受け付ける（ステップＳ１１）。初期値設定部１０は、入力された観測値データおよび初期隠れ変数次元をもとに、変分確率およびパラメータを設定する（ステップＳ１２）。

パラメータ推定部２０は、観測値データおよび設定されたパラメータ並びに変分確率をもとに、重み付き対数周辺化尤度の下限を最大化するモデルのパラメータを推定する（ステップＳ１３）。また、変分確率推定部３０は、観測値データおよび設定されたパラメータ並びに変分確率をもとに、重み付き対数周辺化尤度の下限を最大化するように変分確率のパラメータを推定する（ステップＳ１４）。

隠れ変数削除判定部４０は、推定された変分確率に基づいて、各隠れ変数を削除するか否か判定し（ステップＳ１５）、所定の条件を満たす（該当する）隠れ変数を削除する（ステップＳ１６）。

収束判定部５０は、求めたパラメータおよび推定した変分確率が最適化基準を満たしているか否か判定する（ステップＳ１７）。最適化基準が満たされていると判定された場合（ステップＳ１７におけるＹｅｓ）、処理を終了する。一方、最適化基準が満たされていないと判定された場合（ステップＳ１７におけるＮｏ）、ステップＳ１３から処理が繰り返される。

なお、図２では、初期値設定部１０による処理の後、パラメータ推定部２０による処理が行われ、その後で変分確率推定部３０による処理および隠れ変数削除判定部４０による処理が行われる動作を例示した。ただし、処理の順序は、図２に例示する方法に限られない。初期値設定部１０による処理の後、変分確率推定部３０による処理および隠れ変数削除判定部４０による処理が行われ、その後で、パラメータ推定部２０による処理が行われてもよい。すなわち、ステップＳ１２の処理の後で、ステップＳ１４およびステップＳ１５の処理が行われ、その後で、ステップＳ１２の処理が行われてもよい。そして、ステップＳ１５の処理で最適化基準が満たされていないと判定された場合、ステップＳ１４から処理が繰り返されてもよい。

以上のように、本実施形態では、パラメータ推定部２０が、上記式１７に示す重み付き周辺化対数尤度の下限を最大化するパラメータλ，θを推定し、変分確率推定部３０が、上記式１７に示す重み付き周辺化対数尤度の下限を最大化する変分確率ｑを推定する。そして、隠れ変数削除判定部４０が、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除し、収束判定部５０が、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定する。

ここで、本実施形態では、収束判定部５０によってモデルが収束したと判定されるまで、パラメータ推定部２０によるパラメータの推定、変分確率推定部３０による変分確率の推定および隠れ変数削除判定部４０による該当する隠れ変数の削除が繰り返される。そのような構成により、理論的正当性を失うことなく、高速にＰＯＭＤＰのモデルの複雑性を決定できる。

次に、本発明の概要を説明する。図３は、本発明によるモデル学習システムの概要を示すブロック図である。本発明によるモデル学習システム８０（例えば、モデル学習システム１００）は、部分観測マルコフ決定過程（ＰＯＭＰＤ）のモデルを学習するモデル学習システムであって、モデルにおける観測値データ（例えば、Ｏ）に対する重み付き周辺化尤度（例えば、上記式１７）の下限を最大化するパラメータ（例えば、λ，θ）を推定するパラメータ推定部８１（例えば、パラメータ推定部２０）と、重み付き周辺化尤度の下限を最大化する変分確率（例えば、ｑ）を推定する変分確率推定部８２（例えば、変分確率推定部３０）と、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する隠れ変数削除判定部８３（例えば、隠れ変数削除判定部４０）と、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定する収束判定部８４（例えば、収束判定部５０）とを備えている。

そして、収束判定部８４によってモデルが収束したと判定されるまで、パラメータ推定部８１による前記パラメータの推定、変分確率推定部８２による変分確率の推定および隠れ変数削除判定部８３による該当する隠れ変数の削除を繰り返す。

そのような構成により、理論的正当性を失うことなく、高速にＰＯＭＤＰのモデルの複雑性を決定できる。その結果、過学習を防ぎ、計算負荷の小さいモデルを推定することが可能になる。

また、隠れ変数削除判定部８３は、隠れ変数に関する変分確率の和（例えば、上記式２８）が閾値以下の場合、その隠れ変数を削除対象の隠れ変数と判定してもよい。

また、パラメータ推定部８１は、観測値データ（例えば、Ｏ_ｎ）、パラメータ（例えば、λ，θ）および変分確率（例えば、ｑ^{（ｌ−１）}）に基づいて、パラメータを推定してもよい。

このとき、パラメータ推定部８１は、政策関数の複雑性に応じてｌ０ペナルティとして作用する罰則項を含む関数（例えば、上記式２３の右辺に含まれる関数）の最大値で政策関数のパラメータを更新してもよい。

また、変分確率推定部８２は、観測値データ（例えば、Ｏ_ｎ）、パラメータ（例えば、λ，θ）、および変分確率（例えば、ｑ^{（ｌ−１）}）に基づいて、変分確率を推定してもよい。具体的には、変分確率推定部８２は、パラメータ推定部８１により推定されたパラメータを固定して、変分確率を推定してもよい。

図４は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、ＣＰＵ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備えている。

上述のモデル推定装置は、それぞれコンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（モデル学習プログラム）の形式で補助記憶装置１００３に記憶されている。ＣＰＵ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行しても良い。

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１６年１０月７日に出願された日本特許出願２０１６−１９９１０４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、ＰＯＭＤＰｓのモデルを学習するモデル学習システムに好適に適用される。他にも、本発明のモデル学習システムは、例えば、自動運転、エージェント、制御則学習、ゲーム、経路探索、自動発注に関するモデルを学習するシステムに好適に適用可能である。

１０初期値設定部
２０パラメータ推定部
３０変分確率推定部
４０隠れ変数削除判定部
５０収束判定部
１００モデル学習システム

Claims

部分観測マルコフ決定過程のモデルを学習するモデル学習システムであって、
前記モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定するパラメータ推定部と、
前記重み付き周辺化尤度の下限を最大化する変分確率を推定する変分確率推定部と、
推定された変分確率に基づいて、前記モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する隠れ変数削除判定部と、
推定された変分確率またはパラメータに基づいて、前記モデルの収束性を判定する収束判定部とを備え、
前記収束判定部によって前記モデルが収束したと判定されるまで、前記パラメータ推定部による前記パラメータの推定、前記変分確率推定部による前記変分確率の推定および前記隠れ変数削除判定部による該当する隠れ変数の削除を繰り返す
ことを特徴とするモデル学習システム。
隠れ変数削除判定部は、隠れ変数に関する変分確率の和が閾値以下の場合、当該隠れ変数を削除対象の隠れ変数と判定する
請求項１記載のモデル学習システム。
パラメータ推定部は、観測値データ、パラメータおよび変分確率に基づいて、パラメータを推定する
請求項１または請求項２記載のモデル学習システム。
パラメータ推定部は、政策関数の複雑性に応じてｌ０ペナルティとして作用する罰則項を含む関数の最大値で政策関数のパラメータを更新する
請求項３記載のモデル学習システム。
変分確率推定部は、観測値データ、パラメータ、および変分確率に基づいて、変分確率を推定する
請求項１から請求項４のうちのいずれか１項に記載のモデル学習システム。
変分確率推定部は、パラメータ推定部により推定されたパラメータを固定して、変分確率を推定する
請求項５記載のモデル推定システム。
部分観測マルコフ決定過程のモデルを学習するモデル学習方法であって、
前記モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定し、
前記重み付き周辺化尤度の下限を最大化する変分確率を推定し、
推定された変分確率に基づいて、前記モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除し、
推定された変分確率またはパラメータに基づいて、前記モデルの収束性を判定し、
前記モデルが収束したと判定されるまで、前記パラメータの推定、前記変分確率の推定および該当する隠れ変数の削除を繰り返す
ことを特徴とするモデル学習方法。
隠れ変数に関する変分確率の和が閾値以下の場合、当該隠れ変数を削除対象の隠れ変数と判定する
請求項７記載のモデル学習方法。
部分観測マルコフ決定過程のモデルを学習するコンピュータに適用されるモデル学習プログラムであって、
前記コンピュータに、
前記モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定するパラメータ推定処理、
前記重み付き周辺化尤度の下限を最大化する変分確率を推定する変分確率推定処理、
推定された変分確率に基づいて、前記モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する隠れ変数削除判定処理、および、
推定された変分確率またはパラメータに基づいて、前記モデルの収束性を判定する収束判定処理を実行させ、
前記収束判定処理で前記モデルが収束したと判定されるまで、前記パラメータ推定処理、前記変分確率推定処理および前記隠れ変数削除判定処理を繰り返させる
ためのモデル学習プログラム。
コンピュータに、
隠れ変数削除判定処理で、隠れ変数に関する変分確率の和が閾値以下の場合、当該隠れ変数を削除対象の隠れ変数と判定させる
請求項９記載のモデル学習プログラム。