JPWO2018066442A1 - モデル学習システム、モデル学習方法およびモデル学習プログラム - Google Patents

モデル学習システム、モデル学習方法およびモデル学習プログラム Download PDF

Info

Publication number
JPWO2018066442A1
JPWO2018066442A1 JP2018543862A JP2018543862A JPWO2018066442A1 JP WO2018066442 A1 JPWO2018066442 A1 JP WO2018066442A1 JP 2018543862 A JP2018543862 A JP 2018543862A JP 2018543862 A JP2018543862 A JP 2018543862A JP WO2018066442 A1 JPWO2018066442 A1 JP WO2018066442A1
Authority
JP
Japan
Prior art keywords
model
hidden variable
parameter
probability
variational
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018543862A
Other languages
English (en)
Inventor
遼平 藤巻
遼平 藤巻
允聡 今泉
允聡 今泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2018066442A1 publication Critical patent/JPWO2018066442A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

部分観測マルコフ決定過程のモデルを学習するモデル学習システムであって、パラメータ推定部81は、モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定する。変分確率推定部82は、重み付き周辺化尤度の下限を最大化する変分確率を推定する。隠れ変数削除判定部83は、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する。収束判定部84は、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定する。

Description

本発明は、部分観測マルコフ決定過程のモデルを学習するモデル学習システム、モデル学習方法およびモデル学習プログラムに関する。
部分観測マルコフ決定過程(partially observed Markov decision processes:以下、POMDPs、または、POMDPと記す。)は、強化学習において強力かつ成功している確率モデルである。マルコフ決定過程(Markov decision processes :以下、MDPs、または、MDPと記す。)における隠れ状態を説明するため、POMDPsは、適応性がありながら簡潔な表現を得ており、その表現は、より正確な政策、次元的な悩みに対する適切に緩和、および、MDPsと比較して学習されたモデルの高い解釈性を導出している。このような強力な表現の可能性から、POMDPsは、ロボット制御や音声処理、ビジネスマーケティングや医薬サービスなどのアプリケーションへの適用に成功している。
POMDPのパラメータを学習するにあたり、直接政策探索法(direct policy search:以下、DPSと記す。)の使用は、特に有望である。直接探索では、政策空間において最善の政策が作成される。一方、価値反復(value-iteration )や時間的差分学習(temporal difference learning)などの他のフレームワークでは、値空間で探査が行われる。
また、隠れ要素の振る舞いの複雑さは隠れ要素の次元と共に急速に増加するが、DPSは、直接政策をモデル化するため、それがどのように振る舞うかモデル化する必要がなく、効率的な計算の面からも強みがある。
DPSsによるPOMDPsを最大限に活用するための重要な未解決問題の一つに、モデル選択問題、すなわち、適切な隠れ状態の次元の決定および政策関数の複雑性の決定、が挙げられる。高い適応性のあるモデル表現のため、POMDPsは、モデルの複雑性が過大評価されると過学習をしてしまうことがある。
また、POMDPsの特異性(統計モデルの特異性)により、ベイズ情報量基準(Bayesian information criterion:以下、BICと記す。)のような古典的アプローチでは機能せず、交差検証(クロスバリデーション)のようなアプローチでは、多くの計算負荷がかかってしまう。
DPSでないフレームワークとして、非特許文献1には、ノンパラベイズに基づく方法が記載されている。非特許文献1に記載された方法では、隠れ変数の次元が自動で決定される。
なお、混合モデルを推定する方法の一例が、特許文献1に記載されている。特許文献1に記載された方法では、データの混合モデル推定のターゲットとなる確率変数に対する隠れ変数の変分確率が計算される。そして、計算された隠れ変数の変分確率を用いて、混合モデルのコンポーネントごとに分離されたモデル事後確率の下限が最大となるようにコンポーネントの種類及びそのパラメータを最適化することで、最適な混合モデルが推定される。
国際公開第2012/128207号
T. Ueno, K. Hayashi, T. Washio, and Y. Kawahara, "Weighted likelihood policy search with model selection," in Advances in Neural Information Processing Systems, pp. 2357-2365, 2012
一般に、モデルを手作業で選択するのは多くの時間を要し、また、用いられるデータも動的に変わっていくことから、再学習するにも多くの時間を要する。また、想定される組合せも膨大になることから、自動で処理を行わない場合には全ての組合せを探索することは困難であり、モデルの精度が下がってしまうことになる。そのため、コンピュータ等を用いて適切にモデルを学習できる方法が望まれる。
POMDPでは、隠れ変数の次元および出力分布の複雑性に従ってモデルが推定される。また、モデルの性能は、隠れ変数の次元および出力分布の複雑性に依存する。そのため、モデルの複雑性について適切なチューニングが必要になる。
非特許文献1に記載された方法を用いることで、隠れ変数の次元を決定することは可能である。しかし、非特許文献1には、DPSsによるPOMDPsにおけるモデル選択問題に対処する方法は記載されていない。また、非特許文献1に記載された方法は、効用関数(value function)を基礎とする方法であり、DPSsと比較して期待利得が低いと言う問題がある。
そこで、本発明は、理論的正当性を失うことなく、高速にPOMDPのモデルの複雑性を決定できるモデル学習システム、モデル学習方法およびモデル学習プログラムを提供することを目的とする。
本発明によるモデル学習システムは、部分観測マルコフ決定過程のモデルを学習するモデル学習システムであって、モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定するパラメータ推定部と、重み付き周辺化尤度の下限を最大化する変分確率を推定する変分確率推定部と、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する隠れ変数削除判定部と、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定する収束判定部とを備え、収束判定部によってモデルが収束したと判定されるまで、パラメータ推定部によるパラメータの推定、変分確率推定部による変分確率の推定および隠れ変数削除判定部による該当する隠れ変数の削除を繰り返すことを特徴とする。
本発明によるモデル学習方法は、部分観測マルコフ決定過程のモデルを学習するモデル学習方法であって、モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定し、重み付き周辺化尤度の下限を最大化する変分確率を推定し、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除し、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定し、モデルが収束したと判定されるまで、パラメータの推定、変分確率の推定および該当する隠れ変数の削除を繰り返すことを特徴とする。
本発明によるモデル学習プログラムは、部分観測マルコフ決定過程のモデルを学習するコンピュータに適用されるモデル学習プログラムであって、コンピュータに、モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定するパラメータ推定処理、重み付き周辺化尤度の下限を最大化する変分確率を推定する変分確率推定処理、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する隠れ変数削除判定処理、および、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定する収束判定処理を実行させ、収束判定処理でモデルが収束したと判定されるまで、パラメータ推定処理、変分確率推定処理および隠れ変数削除判定処理を繰り返させることを特徴とする。
本発明によれば、理論的正当性を失うことなく、高速にPOMDPのモデルの複雑性を決定できる。
本発明によるモデル学習システムの一実施形態を示すブロック図である。 モデル学習システムの動作例を示すフローチャートである。 本発明によるモデル学習システムの概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
本発明のモデル学習システムは、DPSsによるPOMDPsのためのベイズモデル選択アルゴリズムを用いてモデルを学習する。本発明のモデル学習システムは、主に2つの技術が用いられる。まず、その2つの概要を説明する。
一つ目は、POMDPsに用いる重み付き因子化情報量基準(weighted factorized information criterion :以下、wFICと記す。)である。本発明では、MDPsに用いるDPSとは異なる探索法である重み付き尤度政策探索(weighted likelihood policy search :以下、WLPSと記す。)をPOMDPsに拡張する。
以下の説明では、POMDPsにWLPSを単純に拡張することが難しいことを示し、その代わりに、POMDPsのモデル選択に、ベイズ周辺対数化尤度により導かれる周辺重み付き尤度関数を提案する。また、以下では、上述するwFICと呼ばれる扱いやすい漸近近似を説明する。FICは、隠れ変数モデルの選択基準として開発されており、wFICはFICを自然な形で周辺重み付き対数尤度関数へ拡張するものである。
二つ目は、FAB(factorized Asymptotic Bayesian)政策探索である。wFICを最大化する最適な政策(すなわち、モデルおよびパラメータ)を獲得するため、本発明では、FAB政策探索(以下、FABPSと記す)と呼ばれる、期待値最大化(expectation maximization:以下、EMと記す。)政策探索の一変形形態を提案する。
FABの隠れ状態選択の仕組みを利用して、FABPSは、隠れ状態の次元と政策関数の複雑性の両方を、EM交互最適化の単体実行で、同時に決定できる。さらに、FABPSは、期待される総報酬を最大化するパラメータを見つけることができる。
次に、PMDPsについて説明する。POMDPは、複数の構成要素(S,A,O,r,p,p)で定義される。Sは状態空間を示し、Aは行動空間を示し、Oは観測空間を示す。また、これらの要素を、それぞれ、状態s∈S,行動a∈A,観測値o∈Oと表記する。POMDPは、有限個(K個)の要素を有する不連続な状態空間を考慮する。すなわち、|S|=Kである。また、行動空間および観測空間は、連続であってもよく、非連続であってもよい。
遷移関数p:A×S×Λ×S→[0,1]は、p(s´|a,s,λ):=Pr(s´|a,s,λ)で表される。なお、Λは遷移パラメータ空間であり、λは遷移パラメータ空間の要素である。観測関数p:S×O→[0,1]は、与えられたsを用いてp(o|s)と表される。
POMDPのエージェントは、その状態に基づいて行動を決定する。また、政策関数π:S×A×Θ→[0,1]は、π(a|s,θ):=Pr(a|s,θ)で表される。Θは、政策パラメータ空間であり、θは政策パラメータ空間の要素である。すなわち、θ∈Θである。
例えば、政策関数は、以下に示すようなθ=(θ,…,θ)についての多項式平均の正規分布であってもよい。なお、Jは、多項式関数の次数である。
Figure 2018066442
また、状態とエージェントがとる行動の対に基づき、r(s,a)で表される報酬関数r:S×A→Rによって、報酬が得られる。Rは、連続した報酬空間である。
サンプルのサイズnに対して、行動A=(a,…,a)の順序および観測値O=(o,…,o)の順序が存在し、各順序は、長さTを有する。すなわち、a=(ai,1,…,ai,T)およびo=(oi,1,…,oi,T)である。ここで、各k=1,…Kについてのインジケータ変数をs i,tとする。s i,t=1は、エージェントがk番目の状態にあることを表わし、s i,t=0は、エージェントがk番目以外の状態にあることを表わす。また、インジケータ集合をS=(s,…,s)と表す。sは、s i,tの順序を含む。
データから初期状態sの分布を推定することは容易であるが、以下の説明では、説明を容易にするため、初期状態sの分布が均一であるものとする。
POMDPの主たる目的は、以下の式1で定義される報酬関数で期待される総計を最大化するような最適な政策パラメータθ∈Θを見つけることである。
Figure 2018066442
,a,oについての同時分布は、以下の式2で表される。
Figure 2018066442
また、報酬の総和、すなわち、Rλ i,T:=R(s,a,o,λ)は、以下の式3で表される。
Figure 2018066442
式3において、bi,t(s)は信念分布と呼ばれ、以下の式4で定義される。
Figure 2018066442
一般に、上記式1は、パラメータを最大化するには困難な形式である。
ところで、期待値最大化政策探索(expectation maximization policy search:以下、EMPSと記す。)は、DPSの変形であり、FABPSと密接な関係を有する。そして、EMPSは、EMアルゴリズムによって以下の式5に示す変分下界を最大化する。
Figure 2018066442
式5において、q(s,a,o)は、(s,a,o)についての任意の分布であり、q(s,a,o)∝p(s,a,o|θ,λ)Rλ i,Tの場合に等号が成り立つ。q(s,a,o)∝p(s,a,o|θ,λ)Rλ i,Tであると想定することにより、以下の式6に示すように、θに関してF(q,θ,λ)の1階の条件が得られる。
Figure 2018066442
式6において、∇θは、θに関する偏微分である。適切なqおよびλについて、上記1階の条件を解くことにより、上記式5の右辺を最大化する最適な政策パラメータθを推定することが可能である。
次に、上述するWLPSを説明する。WLPSは、EMPSの一例であり、MDPにおける政策関数の複雑性を制御するために用いられる。WLPSは、DPSと最尤推定のための統計的推論問題との自然な繋がりを明らかにする。また、WLPSは、MDPのモデル選択問題におけるベイズ情報基準のような情報基準を導出する。
ここで、MDPにおいて、sとaの同時分布を以下の式7のように定義する。
Figure 2018066442
ここで、最適な政策を見つけるため、以下の式8に示すような重み付き尤度関数が用いられる。重み付き尤度関数については、例えば、非特許文献1に記載されている。
Figure 2018066442
式8において、(s,a)は、与えられたθ´についての設計分布pθ´(s,a)からサンプリングされているものとする。重み付き尤度関数のキーとなる性質は、p θ´,θ(s,a)のマキシマイザが、以下の式9に示す1階の条件の解に収束するということである。
Figure 2018066442
したがって、重み付き尤度評価器は、上記式9に示す条件の元、上記式5に示す下界を最大化する。さらに、MDPのためにベイズ情報基準のような情報基準が導出される。この情報基準は、重み付き尤度に基づき、以下に示す式10で表される。式10において、θハット(θに上付き^)は、上記式8のマキシマイザであり、mは、θの次元である。
Figure 2018066442
次に、重み付き因子化情報量基準(wFIC)について説明する。まず、上記式6に示す1階の条件を、以下の式11のように書き直す。
Figure 2018066442
ただし、任意のsについてp(a,o|s,θ,λ)から(a,s)を取得できないため、式11の解に収束するような重み付き尤度の評価器を構築することは困難である。ここで、q(s,a,o)∝p(s)p(a,o|θ,λ)Rλ i,Tの条件の元、上記式5の変分下界について、以下の式12に示す代わりの1階の条件を考慮する。
Figure 2018066442
以上をもとに、与えられたθ´およびλ´に対し、POMPDにおける変分重み付き尤度関数p(a,o|θ,λ)を、以下の式13のように定義する。
Figure 2018066442
変分重み付き尤度関数の評価器は、以下の性質を満たす。すなわち、与えられたθ´およびλ´に対し、θに関して、上記式13のマキシマイザは、以下の式14に示す解に収束する。
Figure 2018066442
変分重み付き尤度は、理論上、報酬の最大化と統計的推論(最尤)とを橋渡しするという良い特性を有するが、上記式13の最大化は、実際には困難である。
POMPD向けに重み付き尤度関数を拡張するのは容易い問題ではない。さらに、たとえ、上記式13を最大化する解が得られたとしても、モデル選択問題が残る。そこで、本発明では、上述する重み付き因子化情報量基準(wFIC)を使用する。以下の説明では、モデル候補のインデックスをMで表記する。
は実際には取得されないため、不可能ではあるが、p(s,a,o|θ,λ)は扱いやすく、(s,a,o)〜p(s,a,o|θ´,λ´)の条件のもと、マキシマイザが上記の式6に示す1階の条件を満たすことを示すのは簡単である。ここで、標準的なベイズモデル選択では、以下の式15で示す周辺対数化尤度関数が想定される。
Figure 2018066442
周辺対数化尤度は、モデル選択において有益な特性を有することが知られているが、ここでの目的は、重み付き尤度関数を最大化することによって得られる期待総報酬を最大化することである。そこで、本発明では、これらの2つの目的を達成するため、事前分布p(θ,λ|M)について、以下の式16に示す周辺重み付き対数尤度関数を定義する。なお、Qλ ≡1の場合、周辺重み付き対数尤度は、通常の周辺対数化尤度と等しくなる。
Figure 2018066442
上記式16は、通常の周辺尤度のように、解くことが困難である。ここで、幾つかの緩やかな条件のもと、FICのキーアイディアを用いることで、ラプラス法を適用することが可能である。FICのキーアイディアを考慮すると、θハット周囲のp(S,A,O|θ)の以下の式17に示す拡張が与えられる。
Figure 2018066442
式17において、θハットの特性により、一次の項は無視できる。各状態の確率を近似するため、θおよびλを、状態s=kの確率関数に影響を与えるθおよびλの部分とする。このとき、以下の式18で示すlogp(S,A,O|M)の近似が得られる。
Figure 2018066442
式18において、Dは、xの次元を表わし、Hは、以下の式19で定義されるヘッセ行列である。
Figure 2018066442
式18において、[Hπ;θ]は、θに関する二次方程式を表わす。例えば、
Figure 2018066442
である。
上記式16を式18に代入することにより、以下の式20に示すwFICが得られる。
Figure 2018066442
wFICは、隠れ状態に依存し、かつ、過剰なモデル化に対する罰則項として機能する3つの正則化項を有する。式20において二重のアンダーラインで示す3番目の正則化項も、隠れマルコフモデルにおける標準的なFICに現れる。この正則化項は、状態遷移の複雑性を制御する。式20において波線のアンダーラインで示す1番目および2番目の正則化項は、POMDPで用いられるwFIC特有の正則化項である。
これらの定義のもと、本実施形態のモデル学習システムを図面を参照して説明する。本実施形態のモデル学習システムでは、S,A,Oの同時分布を考えるモデルを推定する。
図1は、本発明によるモデル学習システムの一実施形態を示すブロック図である。本実施形態のモデル学習システム100は、初期値設定部10と、パラメータ推定部20と、変分確率推定部30と、隠れ変数削除判定部40と、収束判定部50と、記憶部60を備えている。
初期値設定部10は、モデルを学習する際に用いる各種パラメータを初期化する。具体的には、初期値設定部10は、観測値データ、初期隠れ変数の次元を入力し、変分確率およびパラメータを出力する。初期値設定部10は、設定された変分確率およびパラメータを記憶部60に記憶する。初期化する方法は任意であり、例としては、変分確率やパラメータをそれぞれランダムに設定する方法などが挙げられる。
上述する式に対応させると、観測値データがOに対応し、初期隠れ変数の次元がKに対応する。また、出力される変分確率がqに対応し、パラメータがθ、λに対応する。なお、以下の説明では、変分確率が繰り返し更新されるため、変分確率の初期状態をq(0)と記すこともあり、更新された変分確率をq(l−1)と記すこともある。
パラメータ推定部20は、観測値データ、パラメータおよび変分確率に基づいて、推定されるモデルにおける観測値データに対する重み付き対数周辺化尤度の下限を最大化するパラメータを推定する。ニューラルネットワークモデルのパラメータを求めるために用いられるパラメータとは、初期値設定部10により初期化されたモデルのパラメータ、または、後述の処理で更新されたモデルのパラメータである。具体的には、パラメータ推定部20は、変分確率q=q(l)を固定してλおよびθを最適化する。
パラメータ推定部20は、以下の式21で遷移パラメータλを更新する。式21において、D{・||・}は、カルバック・ライブラー情報量を表わす。
Figure 2018066442
遷移分布は、以下の式22に示すフォワード・バックワードアルゴリズムの要素によって算出される。
Figure 2018066442
また、パラメータ推定部20は、以下の式23を解くことにより、政策関数を更新する。
Figure 2018066442
θに関する最適化問題において、罰則項はl0ペナルティとして作用する。そのため、特徴選択において政策関数の複雑性を自動的に制御できる。
変分確率推定部30は、観測値データ、パラメータ、および変分確率に基づいて、重み付き対数周辺化尤度の下限を最大化する変分確率を推定する。具体的には、変分確率推定部30は、パラメータθ=θ(l−1)およびλ=λ(l−1)を固定して、変分確率を最適化する。
なお、閉形式の更新式は存在しないが、以下の式24に示すフォワード・バックワードアルゴリズムによって、変分確率推定部30は、変分確率qを、効率よく更新できる。
Figure 2018066442
式24において、ζi,tは、以下の式25の規格化定数である。
Figure 2018066442
ここで、pチルダ(pに上付き〜)を、以下の式26のように定義する。
Figure 2018066442
式26において、δπ i,t,k、δ i,t,kおよびδ i,t,k、は、以下のように定義される。なお、q(l−1) i,k,t:=q(l−1)(s i,t)である。
Figure 2018066442
上記において、Δπ i,t、Δ i,tおよびΔ i,tは、それぞれ、
Figure 2018066442
を作成する規格化定数である。
以上をもとに、変分確率q(l)は、以下の式27で与えられる。すなわち、変分確率推定部30は、以下の式27に示す変分確率を推定する。
Figure 2018066442
隠れ変数削除判定部40は、変分確率推定部30により推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定する。具体的には、隠れ変数削除判定部40は、隠れ変数に関する変分確率の和が閾値以下の場合、削除対象の隠れ変数と判定し、その隠れ変数を削除する。
δπ i,t,k、δ i,t,kおよびδ i,t,k、式21における正則化項から来ている。δ i,t,kは、FABの隠れマルコフモデルにも現れ、EMアルゴリズムの繰り返し処理を通じて、小さな隠れ状態を除く効果を有する。そこで、例えば、以下の式28に示す値が閾値よりも小さい場合、隠れ変数削除判定部40は、対応する隠れ変数を削除する。なお、FABのEMアルゴリズムが、自動的にこの「収縮」効果によって、隠れ状態の次元を選択することはよく研究されている。
Figure 2018066442
一方、δπ i,t,kおよびδ i,t,kは、FABPSに特有のものである。δπ i,t,kにおいて、以下に示す式29は、概ね、確率的政策関数の期待良さを意味する。
Figure 2018066442
したがって、この正則化項は、貧弱な政策の隠れ状態を除く効果を有する。同様に、δ i,t,kにおいて、貧弱な期待報酬の隠れ状態は、モデルから除かれる。なお、δπ i,t,kおよびδ i,t,kは、FICには現れず、wFICにのみ現れる。これら2つの独特な正則化項によって、wFICを最大化するFABPSは、標準的なFAB推論よりも、よりよい政策を学習することが可能になる。
収束判定部50は、推定された変分確率または/およびパラメータに基づいて、モデルの収束性を判定する。具体的には、収束判定部50は、求めたパラメータおよび推定された変分確率が最適化基準を満たしているか判定する。最適化基準は、ユーザ等により予め定められ、記憶部60に記憶される。
収束判定部50により収束していないと判定された場合、パラメータ推定部20による処理(すなわち、パラメータの推定)および変分確率推定部30の処理(すなわち、変分確率の推定)が行われ、隠れ変数削除判定部40の処理(すなわち、隠れ変数の削除)までの一連の処理が繰り返される。
このような処理が行われるため、収束判定部50は、例えば、上記式20の値を各ステップで計算し、前回の値との変化が小さければ収束したと判定してもよい。この場合、wWICの値の変化が最適化基準として設定される。また、収束判定部50は、例えば、θ、λまたはqについて、前回のステップとの差を足し合わせていき、その値の変化が小さければ収束したと判定してもよい。この場合、各パラメータまたは変分確率の変化が最適化基準として設定される。
初期値設定部10と、パラメータ推定部20と、変分確率推定部30と、隠れ変数削除判定部40と、収束判定部50とは、プログラム(モデル学習プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、記憶部60に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、初期値設定部10、パラメータ推定部20、変分確率推定部30、隠れ変数削除判定部40および収束判定部50として動作してもよい。
また、初期値設定部10と、パラメータ推定部20と、変分確率推定部30と、隠れ変数削除判定部40と、収束判定部50とは、それぞれが専用のハードウェアで実現されていてもよい。また、記憶部60は、例えば、磁気ディスク等により実現される。
次に、本実施形態のモデル学習システムの動作を説明する。図2は、本実施形態のモデル学習システムの動作例を示すフローチャートである。
モデル学習システム100は、学習処理に用いるデータとして、観測値データおよび初期隠れ変数次元並びに最適化基準の入力を受け付ける(ステップS11)。初期値設定部10は、入力された観測値データおよび初期隠れ変数次元をもとに、変分確率およびパラメータを設定する(ステップS12)。
パラメータ推定部20は、観測値データおよび設定されたパラメータ並びに変分確率をもとに、重み付き対数周辺化尤度の下限を最大化するモデルのパラメータを推定する(ステップS13)。また、変分確率推定部30は、観測値データおよび設定されたパラメータ並びに変分確率をもとに、重み付き対数周辺化尤度の下限を最大化するように変分確率のパラメータを推定する(ステップS14)。
隠れ変数削除判定部40は、推定された変分確率に基づいて、各隠れ変数を削除するか否か判定し(ステップS15)、所定の条件を満たす(該当する)隠れ変数を削除する(ステップS16)。
収束判定部50は、求めたパラメータおよび推定した変分確率が最適化基準を満たしているか否か判定する(ステップS17)。最適化基準が満たされていると判定された場合(ステップS17におけるYes)、処理を終了する。一方、最適化基準が満たされていないと判定された場合(ステップS17におけるNo)、ステップS13から処理が繰り返される。
なお、図2では、初期値設定部10による処理の後、パラメータ推定部20による処理が行われ、その後で変分確率推定部30による処理および隠れ変数削除判定部40による処理が行われる動作を例示した。ただし、処理の順序は、図2に例示する方法に限られない。初期値設定部10による処理の後、変分確率推定部30による処理および隠れ変数削除判定部40による処理が行われ、その後で、パラメータ推定部20による処理が行われてもよい。すなわち、ステップS12の処理の後で、ステップS14およびステップS15の処理が行われ、その後で、ステップS12の処理が行われてもよい。そして、ステップS15の処理で最適化基準が満たされていないと判定された場合、ステップS14から処理が繰り返されてもよい。
以上のように、本実施形態では、パラメータ推定部20が、上記式17に示す重み付き周辺化対数尤度の下限を最大化するパラメータλ,θを推定し、変分確率推定部30が、上記式17に示す重み付き周辺化対数尤度の下限を最大化する変分確率qを推定する。そして、隠れ変数削除判定部40が、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除し、収束判定部50が、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定する。
ここで、本実施形態では、収束判定部50によってモデルが収束したと判定されるまで、パラメータ推定部20によるパラメータの推定、変分確率推定部30による変分確率の推定および隠れ変数削除判定部40による該当する隠れ変数の削除が繰り返される。そのような構成により、理論的正当性を失うことなく、高速にPOMDPのモデルの複雑性を決定できる。
次に、本発明の概要を説明する。図3は、本発明によるモデル学習システムの概要を示すブロック図である。本発明によるモデル学習システム80(例えば、モデル学習システム100)は、部分観測マルコフ決定過程(POMPD)のモデルを学習するモデル学習システムであって、モデルにおける観測値データ(例えば、O)に対する重み付き周辺化尤度(例えば、上記式17)の下限を最大化するパラメータ(例えば、λ,θ)を推定するパラメータ推定部81(例えば、パラメータ推定部20)と、重み付き周辺化尤度の下限を最大化する変分確率(例えば、q)を推定する変分確率推定部82(例えば、変分確率推定部30)と、推定された変分確率に基づいて、モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する隠れ変数削除判定部83(例えば、隠れ変数削除判定部40)と、推定された変分確率またはパラメータに基づいて、モデルの収束性を判定する収束判定部84(例えば、収束判定部50)とを備えている。
そして、収束判定部84によってモデルが収束したと判定されるまで、パラメータ推定部81による前記パラメータの推定、変分確率推定部82による変分確率の推定および隠れ変数削除判定部83による該当する隠れ変数の削除を繰り返す。
そのような構成により、理論的正当性を失うことなく、高速にPOMDPのモデルの複雑性を決定できる。その結果、過学習を防ぎ、計算負荷の小さいモデルを推定することが可能になる。
また、隠れ変数削除判定部83は、隠れ変数に関する変分確率の和(例えば、上記式28)が閾値以下の場合、その隠れ変数を削除対象の隠れ変数と判定してもよい。
また、パラメータ推定部81は、観測値データ(例えば、O)、パラメータ(例えば、λ,θ)および変分確率(例えば、q(l−1))に基づいて、パラメータを推定してもよい。
このとき、パラメータ推定部81は、政策関数の複雑性に応じてl0ペナルティとして作用する罰則項を含む関数(例えば、上記式23の右辺に含まれる関数)の最大値で政策関数のパラメータを更新してもよい。
また、変分確率推定部82は、観測値データ(例えば、O)、パラメータ(例えば、λ,θ)、および変分確率(例えば、q(l−1))に基づいて、変分確率を推定してもよい。具体的には、変分確率推定部82は、パラメータ推定部81により推定されたパラメータを固定して、変分確率を推定してもよい。
図4は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、CPU1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備えている。
上述のモデル推定装置は、それぞれコンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(モデル学習プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行しても良い。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2016年10月7日に出願された日本特許出願2016−199104を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、POMDPsのモデルを学習するモデル学習システムに好適に適用される。他にも、本発明のモデル学習システムは、例えば、自動運転、エージェント、制御則学習、ゲーム、経路探索、自動発注に関するモデルを学習するシステムに好適に適用可能である。
10 初期値設定部
20 パラメータ推定部
30 変分確率推定部
40 隠れ変数削除判定部
50 収束判定部
100 モデル学習システム

Claims (10)

  1. 部分観測マルコフ決定過程のモデルを学習するモデル学習システムであって、
    前記モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定するパラメータ推定部と、
    前記重み付き周辺化尤度の下限を最大化する変分確率を推定する変分確率推定部と、
    推定された変分確率に基づいて、前記モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する隠れ変数削除判定部と、
    推定された変分確率またはパラメータに基づいて、前記モデルの収束性を判定する収束判定部とを備え、
    前記収束判定部によって前記モデルが収束したと判定されるまで、前記パラメータ推定部による前記パラメータの推定、前記変分確率推定部による前記変分確率の推定および前記隠れ変数削除判定部による該当する隠れ変数の削除を繰り返す
    ことを特徴とするモデル学習システム。
  2. 隠れ変数削除判定部は、隠れ変数に関する変分確率の和が閾値以下の場合、当該隠れ変数を削除対象の隠れ変数と判定する
    請求項1記載のモデル学習システム。
  3. パラメータ推定部は、観測値データ、パラメータおよび変分確率に基づいて、パラメータを推定する
    請求項1または請求項2記載のモデル学習システム。
  4. パラメータ推定部は、政策関数の複雑性に応じてl0ペナルティとして作用する罰則項を含む関数の最大値で政策関数のパラメータを更新する
    請求項3記載のモデル学習システム。
  5. 変分確率推定部は、観測値データ、パラメータ、および変分確率に基づいて、変分確率を推定する
    請求項1から請求項4のうちのいずれか1項に記載のモデル学習システム。
  6. 変分確率推定部は、パラメータ推定部により推定されたパラメータを固定して、変分確率を推定する
    請求項5記載のモデル推定システム。
  7. 部分観測マルコフ決定過程のモデルを学習するモデル学習方法であって、
    前記モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定し、
    前記重み付き周辺化尤度の下限を最大化する変分確率を推定し、
    推定された変分確率に基づいて、前記モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除し、
    推定された変分確率またはパラメータに基づいて、前記モデルの収束性を判定し、
    前記モデルが収束したと判定されるまで、前記パラメータの推定、前記変分確率の推定および該当する隠れ変数の削除を繰り返す
    ことを特徴とするモデル学習方法。
  8. 隠れ変数に関する変分確率の和が閾値以下の場合、当該隠れ変数を削除対象の隠れ変数と判定する
    請求項7記載のモデル学習方法。
  9. 部分観測マルコフ決定過程のモデルを学習するコンピュータに適用されるモデル学習プログラムであって、
    前記コンピュータに、
    前記モデルにおける観測値データに対する重み付き周辺化尤度の下限を最大化するパラメータを推定するパラメータ推定処理、
    前記重み付き周辺化尤度の下限を最大化する変分確率を推定する変分確率推定処理、
    推定された変分確率に基づいて、前記モデルの隠れ変数を削除するか否か判定し、削除対象に該当すると判定された隠れ変数を削除する隠れ変数削除判定処理、および、
    推定された変分確率またはパラメータに基づいて、前記モデルの収束性を判定する収束判定処理を実行させ、
    前記収束判定処理で前記モデルが収束したと判定されるまで、前記パラメータ推定処理、前記変分確率推定処理および前記隠れ変数削除判定処理を繰り返させる
    ためのモデル学習プログラム。
  10. コンピュータに、
    隠れ変数削除判定処理で、隠れ変数に関する変分確率の和が閾値以下の場合、当該隠れ変数を削除対象の隠れ変数と判定させる
    請求項9記載のモデル学習プログラム。
JP2018543862A 2016-10-07 2017-09-28 モデル学習システム、モデル学習方法およびモデル学習プログラム Pending JPWO2018066442A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016199104 2016-10-07
JP2016199104 2016-10-07
PCT/JP2017/035104 WO2018066442A1 (ja) 2016-10-07 2017-09-28 モデル学習システム、モデル学習方法およびモデル学習プログラム

Publications (1)

Publication Number Publication Date
JPWO2018066442A1 true JPWO2018066442A1 (ja) 2019-07-25

Family

ID=61832120

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018543862A Pending JPWO2018066442A1 (ja) 2016-10-07 2017-09-28 モデル学習システム、モデル学習方法およびモデル学習プログラム

Country Status (2)

Country Link
JP (1) JPWO2018066442A1 (ja)
WO (1) WO2018066442A1 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140343903A1 (en) * 2013-05-20 2014-11-20 Nec Corporation Factorial hidden markov models estimation device, method, and program

Also Published As

Publication number Publication date
WO2018066442A1 (ja) 2018-04-12

Similar Documents

Publication Publication Date Title
JP6824382B2 (ja) 複数の機械学習タスクに関する機械学習モデルのトレーニング
Loshchilov et al. CMA-ES for hyperparameter optimization of deep neural networks
Rajeswaran et al. Meta-learning with implicit gradients
Behrmann et al. Understanding and mitigating exploding inverses in invertible neural networks
Berahas et al. Global convergence rate analysis of a generic line search algorithm with noise
Seijen et al. True online TD (lambda)
Walsh et al. Exploring compact reinforcement-learning representations with linear regression
Zanette et al. Cautiously optimistic policy optimization and exploration with linear function approximation
Wang et al. Variational inference with tail-adaptive f-divergence
Prashanth Policy gradients for CVaR-constrained MDPs
US9292801B2 (en) Sparse variable optimization device, sparse variable optimization method, and sparse variable optimization program
Hachiya et al. Adaptive importance sampling for value function approximation in off-policy reinforcement learning
Siivola et al. Correcting boundary over-exploration deficiencies in Bayesian optimization with virtual derivative sign observations
Ono et al. Locally private distributed reinforcement learning
Liang et al. Reducing variance in temporal-difference value estimation via ensemble of deep networks
JP2020091611A (ja) 行動決定プログラム、行動決定方法、および行動決定装置
Takayama et al. Multi-objective deep inverse reinforcement learning for weight estimation of objectives
Rogozhnikov et al. InfiniteBoost: building infinite ensembles with gradient descent
Chang et al. An asymptotically efficient simulation-based algorithm for finite horizon stochastic dynamic programming
Tangkaratt et al. Vild: Variational imitation learning with diverse-quality demonstrations
JP6950701B2 (ja) モデル推定装置、モデル推定方法およびモデル推定プログラム
WO2018167830A1 (ja) 対話装置、対話システム、及びコンピュータ読み取り可能な記録媒体
Lin et al. Risk aggregation in the presence of discrete causally connected random variables
JP6536157B2 (ja) モデル推定システム、モデル推定方法およびモデル推定プログラム
JPWO2018066442A1 (ja) モデル学習システム、モデル学習方法およびモデル学習プログラム