WO2022049672A1

WO2022049672A1 - 学習装置、学習方法、制御システムおよび記録媒体

Info

Publication number: WO2022049672A1
Application number: PCT/JP2020/033265
Authority: WO
Inventors: 達哉森
Original assignee: 日本電気株式会社
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2022-03-10
Also published as: JPWO2022049672A1; US20230306302A1

Abstract

学習装置が、制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ前記第２評価値を算出するモデル計算手段と、複数の前記第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の良さの指標値である第１評価値とに基づいて、前記評価モデルを更新するモデル更新手段とを備える。

Description

学習装置、学習方法、制御システムおよび記録媒体

　本発明は、学習装置、学習方法、制御システムおよび記録媒体に関する。

　機械学習の１つに強化学習がある。
　例えば、特許文献１には、Ｑ学習と呼ばれる強化学習を実行して、メンテナンスが求められる対象のメンテナンス範囲の最適化を図ることが記載されている。

国際公開第２０１９／０５００１４号

　強化学習に必要な時間が比較的短く済むことが好ましい。

　本発明の目的の１つは、上述の課題を解決することのできる学習装置、学習方法、制御システムおよび記録媒体を提供することである。

　本発明の第１の態様によれば、学習装置は、制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ前記第２評価値を算出するモデル計算手段と、複数の前記第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の良さの指標値である第１評価値とに基づいて、前記評価モデルを更新するモデル更新手段とを備える。

　本発明の第２の態様によれば、制御システムは、制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ前記第２評価値を算出するモデル計算手段と、複数の前記第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の良さの指標値である第１評価値とに基づいて、前記評価モデルを更新する評価モデル更新手段と、前記評価モデルを用いて前記方策モデルを更新する方策モデル更新手段と、前記方策モデルを用いて制御値を算出する制御決定手段と、前記制御値に基づいて制御対象を制御する制御実施手段と、を備える。

　本発明の第３の態様によれば、学習方法は、コンピュータが、制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ前記第２評価値を算出し、複数の前記第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の良さの指標値である第１評価値とに基づいて、前記評価モデルを更新することを含む。

　本発明の第４の態様によれば、記録媒体は、コンピュータに、制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ前記第２評価値を算出することと、複数の前記第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の良さの指標値である第１評価値とに基づいて、前記評価モデルを更新することとを実行させるためのプログラムを記録する記録媒体である。

　上記した学習装置、制御システム、学習方法および記録媒体によれば、強化学習に必要な時間の短縮を図ることができる。

実施形態に係る制御システムの構成例を示す図である。実施形態に係る評価モデル記憶装置の構成例を示す図である。実施形態に係る学習装置の構成例を示す図である。実施形態に係る制御システムが行う処理の手順の例を示すフローチャートである。実施形態に係る制御システムがモデルを更新する処理手順の例を示すフローチャートである。実施例１における制御対象の振り子の例を示す図である。実施例２に係るＶＡＭプラントにおけるセクションの構成例を示す図である。実施形態に係る学習装置の構成例を示す図である。実施形態に係る制御システムの構成例を示す図である。実施形態に係る学習方法における処理手順の例を示す図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　実施例２にて後述するように、実施形態に係る制御装置は、例えば、化学プラントを制御する制御内容を、強化学習に従い算出された方策モデルに基づき決定する。化学プラントには、温度、圧力および流量等を測定する観測装置が設置されている。制御装置は、観測装置が測定した測定結果に基づき、化学プラントにおける各装置についての制御内容を決定するための方策モデルを決定する。そして、制御装置は、決定した方策モデルに従い制御内容を決定し、決定した内容に従い各装置を制御する。

　実施例３にて後述するように、実施形態に係る制御装置は、例えば、ロボットを制御する制御内容を、強化学習に従い算出された方策モデルに基づき決定する。制御対象のロボットは、複数の関節を有する。ロボットを制御するシステムには、関節の角度等を測定するための観測装置が設置されている。制御装置は、観測装置が測定した測定結果に基づき、ロボットについての制御内容を決定するための方策モデルを決定する。そして、制御装置は、決定した方策モデルに従い制御内容を決定し、決定した内容に従いロボットを制御する。
　実施形態に係る制御装置の適用先は、上述した例に限定されず、例えば、製造工場における製造装置、または、輸送装置等であってもよい。

＜用語および概念の説明＞
　実施形態の説明をするための用語および概念について説明する。
　強化学習は、マルコフ決定過程において状態遷移確率が未知の状況下で、累積報酬（Cumulative Reward）の期待値を最大化する行動決定則（Decision Rule）を得る手法である。行動決定則を、方策（Policy）、または、制御則（Control Rule）とも称する。

　マルコフ決定過程は、「ある状態ｓのときに、方策πに従い行動ａが選択・実行され、状態遷移確率ρ（ｓ’，ｒ｜ｓ，ａ）に従って状態ｓから新しい状態ｓ’に遷移し、報酬ｒが与えられる」、という一連の事象が繰り返し行われる過程を表す。
　方策は、確率的に行動を算出するものであってもよい。あるいは、デルタ分布を用いて行動を一意に算出する方策を記述することもできる。行動を一意に算出する方策は決定論的方策と呼ばれ、ａ_ｔ＝π（ｓ_ｔ）のように関数的に表される。ａ_ｔは、時刻ｔにおける行動を示す。πは、方策を示す関数である。ｓ_ｔは、時刻ｔにおける状態を示す。すなわち、方策は、時刻ｔにおける状態ｓ_ｔから時刻ｔにおける行動ａ_ｔを算出（または、決定、選択）するモデル（または、関数）であるということができる。

　累積報酬とは、ある期間に得られる報酬の和である。例えば、ある時刻ｔから（ｔ＋Ｔ）までの累積報酬Ｒ_ｔは、式（１）のように表される。

　γはγ∈［０，１］の実数定数である。γを割引率とも称する。ｒ_ｔは時刻ｔにおける報酬である。この累積報酬について、時刻ｔにおける状態ｓ_ｔ、行動ａ_ｔが与えられたときの、状態遷移確率ρ、方策πに関する累積報酬の条件付き期待値をＱ^π（ｓ_ｔ，ａ_ｔ）と表記し、式（２）のように定義する。

　式（２）のＱ^π（ｓ_ｔ，ａ_ｔ）はＱ関数（または行動価値関数）と呼ばれる。Ｅは期待値を示す。
　また、あらゆる状態ｓについて式（３）の値が最大となる方策πは最適方策と呼ばれる。

　ここで、行動ａは方策πからサンプリングされるものとし、これをａ～π（・｜ｓ）と表記する。最適方策をπ^＊と表す。
　方策が最適方策π^＊のときのＱ関数は最適Ｑ関数と呼ばれる。最適Ｑ関数をＱ^＊（ｓ，ａ）と表す。
　基本的には「最適Ｑ関数を最大化する行動ａを出力」する決定論的方策が最適方策π^＊となる。つまり、式（４）のように書ける。

　強化学習ではＱ関数のモデルおよび方策のモデルを用意し、学習を通してＱ関数のモデルを最適Ｑ関数に近づけ、そのＱ関数のモデルを元に方策のモデルを最適方策に近づける。以下では、Ｑ関数のモデルをＱ関数モデルと呼び、方策のモデルを方策モデルと呼ぶことにする。

＜Ｑ関数モデルを複数用いることの説明＞
　実施形態では、方策が決定論的方策である場合を例に説明するが、非決定論的方策を用いるようにしてもよい。
　実施形態ではＱ関数モデルを複数用いて、Ｑ関数モデルが過大に推定されることを緩和する。Ｑ関数モデルを２つ用いる場合を例に説明するが、３つ以上のＱ関数モデルを用いるようにしてもよい。

　Ｑ関数モデルを２つ用意することが、Ｑ関数モデルが過大に推定されることの緩和に繋がる理由を説明する。例えば、行動が連続値のマルコフ決定過程に対し、経験再生（Experience Replay）の手法を用い、平均二乗ＴＤ誤差をベースにＱ関数モデルを最適化することを考える。
　ＴＤ誤差（Temporal Difference Error）δ^ＴＤを式（５）のように定義する。

　ＴＤ誤差δ^ＴＤは、報酬の見込みと実際の報酬との差を示す。
　ｙは式（６）のように示され、機械学習における教師あり学習の教師信号に近い役割を果たす。

　ｙを教師信号とも称する。
　φは、方策モデルのパラメータである。
　θは、Ｑ関数モデルのパラメータである。θ’はＱ関数モデルの更新を安定化させるためのターゲットパラメータである。ターゲットパラメータθ’には、基本的には過去のθの値が使われ、定期的に最新のθの値に更新される。学習中にパラメータθの値が更新され、θを用いたＱ関数が変化するのに対し、ターゲットパラメータθ’の値の更新をθの更新に対して遅らせることで、教師信号ｙの値の急激な変動を抑えることができ、学習が安定すると期待される。
　パラメータの値を更新することを、パラメータを更新するとも称する。モデルのパラメータが更新されることで、モデルも更新される。

　Ｑ関数モデルのパラメータθを明示して「Ｑ_θ」と表記している。Ｑ関数モデルＱ_θが示すＱ関数を、Ｑ関数Ｑ_θとも称する。「Ｑ_θ」の「θ」をパラメータ変数と捉える場合、「Ｑ_θ」は、Ｑ関数モデルを示す。一方、「Ｑ_θ」の「θ」をパラメータ値と捉える場合、「Ｑ_θ」は、Ｑ関数を示す。

　方策πのパラメータφを明示して「π_φ」と表記している。方策モデルπ_φが示す方策を、方策π_φとも称する。「π_φ」の「φ」をパラメータ変数と捉える場合、「π_φ」は、方策モデルを示す。一方、「π_φ」の「φ」をパラメータ値と捉える場合、「π_φ」は、方策を示す。
　Ｑ関数モデルのパラメータθの学習のために、式（７）の損失関数Ｊ（θ）を用いることができる。

　Ｂは、経験を記憶する経験記憶装置からサンプルされる経験のミニバッチである。「経験」とは過去に起きた状態遷移のことである。この経験は、状態ｓと、状態ｓに対する行動ａと、行動ａに応じた報酬ｒと、行動ａに応じた次の状態ｓ’とを組み合わせた（ｓ，ａ，ｒ，ｓ’）で表される。（ｓ，ａ，ｒ，ｓ’）～Ｂは、ミニバッチＢに含まれる経験（ｓ，ａ，ｒ，ｓ’）を示す。

　教師信号ｙが学習中に変化するパラメータθ’に依存することから、Ｑ関数モデルの最適化の実行中に教師信号ｙは変化する。
　方策モデルπ_φについて決定論的方策を仮定しており、別の更新則でＱ_θを最大化するａを出力するようにパラメータφが更新される。

　ここでいう別の更新則として、方策πが、Ｑ_θの値を最大化するような行動ａを出力するように、パラメータφの値を更新するいろいろな更新則を用いることができる。
　例えば、目的関数Ｊ_π（φ）＝［Ｑ_θ（ｓ，π_φ（ｓ））］として、この目的関数Ｊ_π（φ）の値を最大化するように確率的勾配法を適用する更新則を用いるようにしてもよいが、これに限定されない。

　Ｑ関数の学習に時間を要する要因の１つに、Ｑ関数の過大推定問題と呼ばれる問題がある。Ｑ関数の過大推定で問題となるのは式（６）のＱ_θ’（ｓ’，π_φ（ｓ’））の部分である。ターゲットパラメータθ’および同期元のパラメータθが、方策π_φに関する累積報酬の期待値としての真のＱ関数Ｑ^πφを上手く近似できていない場合、π_φ（ｓ）が「上手く近似ができていないＱ_θを最大化するａを出力する」ため、Ｑ関数モデルの出力値が真のＱ関数の出力値よりも大きくなるような過大バイアスが入ってしまう。結果として、式（５）から（７）までを用いた学習でθは誤った方向に更新されてしまう。

　そこで、実施形態では、２つのＱ関数モデルを用意し、出力値を比較して小さい方の出力値を採用することでＱ関数の過大推定を緩和する。言い換えると、これにより、モデル更新が安定するため学習に必要な時間が短縮されると期待される。
　実施形態では、同じＱ関数モデル本体に異なるパラメータ値を適用することで、複数のＱ関数モデルを構成する場合を例に説明する。

　具体的には、実施形態に係る制御システムは、２つのＱ関数モデルに共通のＱ関数モデル本体にパラメータθ_１を適用して第１Ｑ関数モデルを構成する。また、制御システムは、Ｑ関数モデル本体にパラメータθ_２を適用して第２Ｑ関数モデルを構成する。

　そして、制御システムは、第１Ｑ関数モデルの値と、第１Ｑ関数モデルおよび第２Ｑ関数モデルのうち何れか小さい方の値とを用いる損失関数を用いて、第１Ｑ関数モデルのパラメータθ_１の値を更新する。また、制御システムは、第２Ｑ関数モデルの値と、第１Ｑ関数モデルおよび第２Ｑ関数モデルのうち何れか小さい方の値とを用いる損失関数を用いて、第２Ｑ関数モデルのパラメータθ_２の値を更新する。
　例えば上記の式（５）を式（８）のように変更する。

　式（８）のＱ関数Ｑ_θ１（ｓ，ａ）を表すモデルは、第１Ｑ関数モデルの例に該当する。Ｑ関数Ｑ_θ２（ｓ，ａ）を表すモデルは、第２Ｑ関数モデルの例に該当する。Ｑ関数Ｑ_θ２（ｓ，ａ）は、Ｑ関数モデルＱ_θ１（ｓ，ａ）のパラメータθ_１をパラメータθ_２に置き換えたＱ関数モデルＱ_θ２（ｓ，ａ）が示すＱ関数である。
　ｙ_ＣＤＱは、式（９）のように示される。

　ｙ_ＣＤＱを教師信号とも称する。
　上記の式（７）の損失関数Ｊ（θ）を、式（１０）の損失関数Ｊ_ＱＭ（θ_１）のように変更する。

　式（８）から（１０）まではＱ関数モデルの２つのパラメータθ_１、θ_２のうちのθ_１の更新則である。θ_２も、式（８）から（１０）においてθ_１をθ_２に置き換えた更新則で最適化される。Ｑ関数モデルが２つになるのでターゲットパラメータもそれぞれθ’_１、θ’_２が用いられ、出力値の小さい方のターゲットパラメータが教師信号の計算に使われる。

　ただし、制御システムが、Ｑ関数毎に異なるＱ関数モデル本体を用いて複数のＱ関数モデルを構成するようにしてもよい。この場合も、制御システムは、個々のＱ関数モデルの値と、複数のＱ関数モデルの最小値とを用いた損失関数を用いて、Ｑ関数モデル毎にパラメータを更新する。

　式（９）の「Ｑ_θ’ｉ（ｓ’，π_φ（ｓ’））」は、状態ｓ’と、状態ｓ’を方策π_φに適用して得られる行動π_φ（ｓ’）とをＱ関数モデルＱ_θ’ｉに適用することを示している。この「Ｑ_θ’ｉ（ｓ’，π_φ（ｓ’））」は、状態ｓ’が与えられ、状態ｓ’に応じて行動π_φ（ｓ’）が得られた場合の、累積報酬の条件付き期待値を示す。この点で、Ｑ関数モデルＱ_θ’ｉは、状態ｓ’における行動π_φ（ｓ’）の良さ（または、価値、有効性、好ましさ）を評価（または、推定）するモデルであるということができる。Ｑ関数モデルＱ_θ’ｉの値は、状態ｓ’における行動π_φ（ｓ’）の良さ（または、価値、有効性、好ましさ）の指標値であるということができる。

　状態ｓは、第１状態の例に該当する。行動ａは、第１行動の例に該当する。制御対象が、第１状態である状態ｓにて第１行動である行動ａを行った場合の遷移先の状態ｓ’は、第２状態の例に該当する。第２状態である状態ｓ’を方策π_φに適用して得られる行動π_φ（ｓ’）は、第２行動の例に該当する。

　Ｑ関数Ｑ_θ’ｉは、第２行動評価関数の例に該当する。ここでいう第２行動評価関数は、第２状態における第２行動の評価値を算出する関数である。
　Ｑ関数に状態ｓ’と行動π_φ（ｓ’）と適用したＱ関数値Ｑ_θ’ｉ（ｓ’，π_φ（ｓ’））は、第２行動評価値の例に該当する。ここでいう第２行動評価値は、第２状態における第２行動の評価値である。第２行動評価値を第２評価値とも称する。

　Ｑ関数モデルＱ_θ’ｉは、第２行動評価関数モデルの例に該当する。ここでいう第２行動評価関数モデルは、第２行動評価関数のモデルである。第２行動評価関数モデルのパラメータ値が定まることで、第２行動評価関数モデルが、１つの第２行動評価関数を示す。

　ただし、実施形態における第２行動の評価手段は、関数の形式で示されるもの（第２行動評価関数）に限定されない。第２状態と第２行動との入力に対して第２行動の評価値を出力可能ないろいろな手段を、第２行動の評価手段として用いることができる。例えば、第２行動の評価手段が、ホワイトノイズなどの揺らぎを持った評価値を出力するものであってもよい。この場合、第２行動の評価手段が、同じ第２状態および第２行動の入力に対して異なる評価値を出力するものであってもよい。

　第２行動の評価手段が、関数の形式で示されるものに限定されないことから、実施形態における第２行動の評価モデルも、関数を示すモデル（第２行動評価関数モデル）に限定されない。このように、関数を表すモデルに限定されない第２行動の評価モデルを、第２行動評価モデル、または単に評価モデルと称する。
　Ｑ関数モデルＱ_θ’ｉは、関数モデルの例にも該当する。

　また、実施形態では、Ｑ関数モデルの過大推定を更に緩和するために、経験に優先度を付して、優先度の高い経験を優先的に学習に用いる。この手法を、優先度付き経験再生法(Prioritized Experience Replay; PER)と称する。
　具体的には、過去の経験に対しそれぞれ「優先度」を紐付けて「優先度記憶装置」に記憶する。そして、経験取得部が優先度に基づいて経験を選択し、ミニバッチを構築する。ミニバッチ内の経験がモデル更新に用いられるため、優先度の高い経験ほど更新に用いられ易い。また、ミニバッチ内の経験に対し、新しい優先度の値を算出して優先度を更新する。

＜実施形態における構成＞
　図１は、実施形態に係る制御システムの構成例を示す図である。図１に示す構成で、制御システム１０は、観測器１２、状態推定装置１３、報酬計算装置１４、制御実施装置１５、制御決定装置２０、方策モデル記憶装置２１、学習装置３０、経験記憶装置３１、および、評価モデル記憶装置４０を備える。

　制御対象１１は、制御システム１０による制御の対象である。制御可能ないろいろな事物を制御対象１１とすることができる。制御対象１１が、制御システム１０の一部となっていてもよい。あるいは、制御対象１１が、制御システム１０の外部の構成となっていてもよい。

　観測器１２は、制御対象１１の状態推定に用いられる情報を観測する。
　状態推定装置１３は、観測器１２から得た情報を元に制御対象１１の状態を推定する。
　報酬計算装置１４は、例えばユーザーが指定する「状態に対する点数（報酬）計算則」に従い、報酬を計算する。ただし、報酬計算装置１４が報酬を取得する方法は、特定の方法に限定されない。報酬計算装置１４が報酬を取得する方法として、状態に応じた報酬を取得可能ないろいろな方法を用いることができる。

　ある状態ｓとある行動ａとが決まると、行動ａによる状態ｓからの遷移先の状態ｓ’が決まる。すると、報酬計算装置１４は、状態ｓ’に応じた報酬を算出することができる。この点で報酬は、ある状態におけるある行動の良さ（または、有効性、価値、好ましさ）を表す指標値であるということができる。
　報酬は、第１行動評価値の例に該当する。ここでいう第１行動評価値は、第１状態における第１行動の評価値である。第１行動評価値を第１評価値とも称する。

　制御実施装置１５は、制御決定装置２０が出力する制御値に従い、制御対象１１を制御する。
　制御実施装置１５は、制御実施手段の例に該当する。
　制御決定装置２０は、状態推定装置１３が推定する状態と、方策モデル記憶装置２１が記憶する方策モデルとを参照し、方策πの演算を行い制御値を出力する。
　制御決定装置２０は、制御決定手段の例に該当する。

　方策モデル記憶装置２１は、状態の入力に対して制御値を出力する方策モデルを記憶する。例えば、方策モデル記憶装置２１は、方策モデル本体と、方策モデルのパラメータφとを記憶する。方策モデル本体にパラメータφを適用することで、方策モデルを得られる。
　学習装置３０は、状態推定装置１３が出力する状態ｓ、制御決定装置２０が出力する制御値による制御対象の行動ａ、報酬計算装置１４が出力する報酬ｒ、および、制御実施装置１５の制御により行動ａが行われた直後に状態推定装置１３が出力する状態、すなわち状態遷移後の状態ｓ’の組（ｓ，ａ，ｒ，ｓ’）、すなわち経験を経験記憶装置３１に逐一追加・記録する。ここでの逐一は、例えば、制御実施装置１５が制御対象１１に対する制御を行う毎である。

　また、学習装置３０は、方策モデル記憶装置２１、評価モデル記憶装置４０、および、経験記憶装置３１を参照して、方策モデル記憶装置２１および評価モデル記憶装置４０の更新も行う。具体的には、学習装置３０は、これらの記憶装置が記憶するモデルおよび経験を参照して、これらのモデルのパラメータを更新する。

　図２は、評価モデル記憶装置４０の構成例を示す図である。図２に示す構成で、評価モデル記憶装置４０は、第１Ｑ関数モデル記憶装置４１と、第２Ｑ関数モデル記憶装置４２とを備える。

　第１Ｑ関数モデル記憶装置４１は、上述した第１Ｑ関数モデルのパラメータθ_１を記憶する。第２Ｑ関数モデル記憶装置４２は、上述した第２Ｑ関数モデルのパラメータθ_２を記憶する。
　また、評価モデル記憶装置４０は、第１Ｑ関数モデルと第２Ｑ関数モデルとに共通のＱ関数モデル本体を記憶する。第１Ｑ関数モデル記憶装置４１および第２Ｑ関数モデル記憶装置４２のうち何れか一方、または両方が、Ｑ関数モデル本体を記憶するようにしてもよい。あるいは、評価モデル記憶装置４０が、第１Ｑ関数モデル記憶装置４１および第２Ｑ関数モデル記憶装置４２とは異なる記憶領域を有してＱ関数モデル本体を記憶するようにしてもよい。

　これにより、評価モデル記憶装置４０は、方策モデル記憶装置２１に記録される方策の性能の評価、および、前述のＱ関数モデルの過大推定問題の緩和に用いられる、２つのＱ関数モデルを記憶する。特に、評価モデル記憶装置４０は、これら２つのＱ関数モデルそれぞれのパラメータを記憶する。

　図３は、学習装置３０の構成例を示す図である。図３に示す構成で、学習装置３０は、優先度記憶装置３３、経験取得部３４、ミニバッチ記憶装置３５、優先度算出部３７、優先度設定部３８、モデル更新部５０、および、モデル計算部５３を備える。モデル更新部５０は、Ｑ関数モデル更新部５１、および、方策モデル更新部５２を備える。
　優先度記憶装置３３は、経験記憶装置３１が記憶する経験それぞれに対応する優先度を記憶する。この優先度は、優先度算出部３７が算出する。

　経験取得部３４は、優先度記憶装置３３が記憶する優先度に従い、経験記憶装置３１から経験を優先度付きサンプリングでサンプリングしミニバッチを構成する。なおミニバッチを構成する際、各経験のインデックスｉも併せる。これはミニバッチ内の経験が経験記憶装置３１内のどの経験に対応するのかを確認できるようにするためである。構成されたミニバッチは、次回のサンプリングまではミニバッチ記憶装置３５に一時的に保存される。
　経験取得部３４は、経験取得手段の例に該当する。

　優先度算出部３７は第１Ｑ関数モデル記憶装置４１、および、第２Ｑ関数モデル記憶装置４２を用いて、ミニバッチ内の経験についてそれぞれ優先度を算出する。具体的には、優先度算出部３７は、式（１１）を用いて、パラメータθ_１およびθ_２のうち何れかＱ関数値が大きくなるほうのインデックスをκ_ｂに設定する。

　そして、優先度算出部３７は、式（１２）を用いて新たな優先度Ｐ’_ｂを算出する。

　ここでインデックスｂは経験のインデックスであり、その経験がミニバッチ内に格納されていることを示している。インデックスｂで識別される経験を、インデックスｂの経験とも称する。
　ｓ_ｂは、インデックスｂの経験における状態を示す。ａ_ｂは、インデックスｂの経験における状態ｓ_ｂに対する行動を示す。ｒ_ｂは、インデックスｂの経験における状態ｓ_ｂの下での行動ａ_ｂに応じた報酬を示す。ｓ’_ｂは、インデックスｂの経験における状態ｓ_ｂでの行動ａ_ｂによる遷移先の状態を示す。
　優先度算出部３７は、２つのＱ関数モデルそれぞれに（ｓ_ｂ，ａ_ｂ）を入力し、得られる出力値を比較して大きい方のモデルを用いて（式（１１）参照）、ＴＤ誤差の絶対値を新しい優先度Ｐ’_ｂとして算出する（式（１２）参照）。

　算出された新たな優先度Ｐ’_ｂは優先度設定部３８に出力される。優先度設定部３８はミニバッチ内の経験のインデックスを参照し、優先度記憶装置３３内の経験のインデックスに対応する各優先度を上書き更新する。すなわち、優先度設定部３８は、インデックスｂの経験の優先度を更新する。
　また、優先度設定部３８は、新規に追加され優先度が紐付けられていない経験に対し、優先度記憶装置３３を参照して優先度の初期値を付与する。例えば、優先度設定部３８は、優先度記憶装置３３が記憶する全ての経験に紐付けられている各優先度を参照し、最大の値をとる優先度（すなわち、最も高い優先度）を、新規に追加された経験に紐付ける。
　優先度設定部３８は、優先度設定手段の例に該当する。

　モデル更新部５０はミニバッチ記憶装置３５が記憶するミニバッチと、優先度算出部３７が算出する経験の優先度とを参照して、パラメータθ_１、θ_２およびφを更新する。モデル更新部５０は、モデル更新手段の例に該当する。
　上記のように、パラメータθ_１は、第１Ｑ関数モデルのパラメータである。第１Ｑ関数モデル記憶装置４１がパラメータθ_１を記憶する。パラメータθ_２は、第２Ｑ関数モデルのパラメータである。第２Ｑ関数モデル記憶装置４２がパラメータθ_２を記憶する。方策モデル記憶装置２１がパラメータφを記憶する。

　Ｑ関数モデル更新部５１は、パラメータθ_１およびθ_２を更新する。具体的には、Ｑ関数モデル更新部５１は、式（１０）に示される損失関数Ｊ_ＱＭ（θ_１）の値を小さくするように、パラメータθ_１を更新する。また、Ｑ関数モデル更新部５１は、式（１０）のパラメータθ１をパラメータθ_２に置き換えて得られる損失関数Ｊ_ＱＭ（θ_２）の値を小さくするように、パラメータθ_１を更新する。
　Ｑ関数モデル更新部５１は、評価モデル更新手段の例に該当する。

　方策モデル更新部５２は、パラメータφを更新する。具体的には、方策モデル更新部５２は、上述した目的関数Ｊ_π（φ）の値を大きくするように、パラメータφを更新する。実施形態ではＱ関数が２つあるので、方策モデル更新部５２は、Ｑ_θ１（ｓ，π_φ（ｓ））およびＱ_θ２（ｓ，π_φ（ｓ））のうち値が小さい方を目的関数「Ｊ_π（φ）＝［Ｑ_θ（ｓ，π_φ（ｓ））］」の「Ｑ_θ（ｓ，π_φ（ｓ））」に適用して、パラメータφを更新する。
　方策モデル更新部５２は、方策モデル更新手段の例に該当する。

　モデル計算部５３は、第１Ｑ関数モデル、第２Ｑ関数モデル、方策モデルの各々の値を計算する。例えば、モデル計算部５３は、Ｑ関数モデル更新部５１が第１Ｑ関数モデル、第２Ｑ関数モデルの各々を更新する際、式（８）から（１０）までにおける第１Ｑ関数モデル、第２Ｑ関数モデル、方策モデルの各々の値を算出する。また、モデル計算部５３は、方策モデル更新部５２が方策モデルを更新する際、目的関数Ｊ_π（φ）の値を算出するために、第１Ｑ関数モデル、第２Ｑ関数モデル、方策モデルの各々の値を算出する。また、モデル計算部５３は、優先度算出部３７が経験の優先度を算出する際に参照する、第１Ｑ関数モデル、第２Ｑ関数モデルの各々の値を算出する。
　モデル計算部５３は、モデル計算手段の例に該当する。

＜実施形態における処理＞
　図４は、制御システム１０が行う処理の手順の例を示すフローチャートである。制御システム１０は、図４の処理を繰り返し行う。
　図４の処理で、観測器１２が制御対象１１に関する観測を行う（ステップＳ１０１）。例えば、観測器１２は、制御対象１１とその周囲環境とを観測する。

　次に状態推定装置１３が観測器１２の観測情報を元に、制御対象１１に関する状態を推定する（ステップＳ１０２）。例えば、状態推定装置１３は、制御対象１１とその周囲環境とを含んだ状態を推定するなど、制御対象１１の制御に影響し得る状態を推定する。
　次に制御決定装置２０が、状態推定装置１３が推定する状態と、方策モデル記憶装置２１とを参照して、制御値を算出し出力する（ステップＳ１０３）。次に制御実施装置１５が、制御決定装置２０が出力する制御値に従い制御対象１１の制御を実施する（ステップＳ１０４）。

　次に報酬計算装置１４が、状態推定装置１３が推定する状態と、制御決定装置２０が出力する制御値とを参照して報酬を算出し出力する（ステップＳ１０５）。
　次に学習装置３０が、状態推定装置１３が推定する状態と、制御決定装置２０が出力する制御値と、報酬計算装置１４が出力する報酬とを、経験として経験記憶装置３１に追加、記録する（ステップＳ１０６）。

　次に学習装置３０が、方策モデル記憶装置２１が記憶する方策モデル、評価モデル記憶装置４０が記憶するＱ関数モデル、および、経験記憶装置３１が記憶する経験を参照して、これらのモデルを更新する（ステップＳ１０７）。具体的には、方策モデル更新部５２が、方策モデル記憶装置２１が記憶する方策モデルのパラメータφを更新する。Ｑ関数モデル更新部５１は、評価モデル記憶装置４０が記憶するＱ関数モデルのパラメータθ_１およびθ_２を更新する。
　ステップＳ１０７の後、制御システム１０は、図４の処理を終了する。上述したように、制御システム１０は、ステップＳ１０１からＳ１０７までの一連の処理を再度繰り返す。

　図５は、制御システム１０がモデルを更新する処理手順の例を示すフローチャートである。制御システム１０は、図４のステップＳ１０７で図５の処理を行う。
　図５の処理で、優先度設定部３８が経験記憶装置３１に追加された経験に対する優先度の初期値を優先度記憶装置３３に追加記録する（ステップＳ１０７１）。
　次に経験取得部３４が優先度付き経験再生を行いミニバッチを構成し（ステップＳ１０７２）、ミニバッチ記憶装置３５に記録する（ステップＳ１０７３）。

　次にモデル計算部５３が、ミニバッチ記憶装置３５内のミニバッチ、第１Ｑ関数モデル記憶装置４１が記憶する第１Ｑ関数モデル、および、第２Ｑ関数モデル記憶装置４２が記憶する第２Ｑ関数モデルを参照し、ミニバッチ内の各経験に内包される状態、制御値の組（ｓ，ａ）を入力にしたときの第１Ｑ関数モデルの値および第２Ｑ関数モデルの値を算出し出力する（ステップＳ１０７４）。

　続いて優先度算出部３７は、各経験について、第１Ｑ関数モデルおよび第２Ｑ関数モデルのうち出力値が最大のＱ関数モデルを選択し（ステップＳ１０７５）、選択されたＱ関数モデル用のＴＤ誤差を算出する（ステップＳ１０７６）。ステップＳ１０７５は式（１１）に相当する。ステップＳ１０７６は式（１２）に相当する。

　次に優先度算出部３７は算出されたＴＤ誤差の絶対値を新たな優先度として算出する（ステップＳ１０７７）。続いて優先度設定部３８は優先度算出部３７により算出された新たな優先度を参照し、優先度記憶装置３３内の対応する経験について優先度を新たな優先度に更新する（ステップＳ１０７８）。

　そして、モデル更新部５０は、ミニバッチ記憶装置３５内のミニバッチ、および、優先度算出部３７を用いて、方策モデル記憶装置２１、第１Ｑ関数モデル記憶装置４１、および、第２Ｑ関数モデル記憶装置４２、に保存される各パラメータを更新する（ステップＳ１０７９）。

　具体的には、モデル計算部５３が、ミニバッチ記憶装置３５内のミニバッチから優先度に従って経験を読み出し、読み出した経験を用いて第１Ｑ関数モデル、第２Ｑ関数モデル、方策モデルの各々の値を算出する。Ｑ関数モデル更新部５１は、第１Ｑ関数モデル、第２Ｑ関数モデル、方策モデルの各々の値を参照して、第１Ｑ関数モデルおよび第２Ｑ関数モデルを更新する。方策モデル更新部５２は、第１Ｑ関数モデル、第２Ｑ関数モデル、方策モデルの各々の値を参照して、方策モデルを更新する。
　ステップＳ１０７９の後、制御システム１０は、図５の処理を終了する。

　ステップＳ１０７７で優先度算出部３７の算出する優先度は、過大推定を起こしている可能性の高い方のＱ関数モデルのＴＤ誤差の絶対値である。これにより、優先度付き経験再生にて過大推定を起こしている可能性の高い経験ほどモデル更新に使用され易くなる。これにより、Ｑ関数モデルの過大推定問題を積極的に緩和することができ、結果として学習が安定するため、必要な演算処理時間を短縮できる。

　以上のように、モデル計算部５３は、制御対象１１の状態ｓにおける行動ａに応じた状態ｓ’と、状態ｓ’から方策モデルπ_φを用いて算出される行動π_φ（ｓ’）とに基づいて、状態ｓ’における行動π_φ（ｓ’）の良さの指標値であるＱ関数値Ｑ_θ’１（ｓ’，π_φ（ｓ’））およびＱ_θ’２（ｓ’，π_φ（ｓ’））を算出する２つのＱ関数モデルＱ_θ’１およびＱ_θ’２を用いて、それぞれＱ関数値を算出する。

　上述したように、状態ｓは、第１状態の例に該当する。行動ａは、第１行動の例に該当する。状態ｓ’は、第２状態の例に該当する。行動π_φ（ｓ’）は、第２行動の例に該当する。Ｑ関数値Ｑ_θ’１（ｓ’，π_φ（ｓ’））およびＱ_θ’２（ｓ’，π_φ（ｓ’））は、第２評価値の例に該当する。Ｑ関数モデルＱ_θ’１およびＱ_θ’２は、評価モデルの例に該当する。

　モデル更新部５０は、Ｑ関数値Ｑ_θ’１（ｓ’，π_φ（ｓ’））およびＱ_θ’２（ｓ’，π_φ（ｓ’））のうち何れか小さい方のＱ関数値と、報酬ｒとに基づいて、Ｑ関数モデルＱ_θ’１およびＱ_θ’２を更新する。報酬ｒは、状態ｓにおける行動ａの良さの指標値である第１評価値の例に該当する。

　このように、学習装置３０では、複数のＱ関数モデルを用いてＱ関数モデルの学習を行うことで、値が比較的小さいＱ関数を用いて行動の評価を推定することができる。これにより、Ｑ関数モデルの過大推定など行動の評価が過大に推定されることを緩和することができる。学習装置３０によれば、この点で、強化学習に必要な時間の短縮を図ることができる。

　また、優先度設定部３８は、経験毎に、その経験を用いた場合のＱ関数値の誤差の大きさに基づく優先度を紐づける。経験取得部３４は、優先度に基づいて経験を取得する。
　これにより、学習装置３０は、Ｑ関数値の誤差が大きくなる経験を優先的に用いてＱ関数モデルの学習を行うことができ、誤差を効率的に改善できることが期待される。
　学習装置３０によれば、この点で、強化学習に必要な時間の短縮を図ることができる。

　また、経験取得部３４は、優先度に基づいて経験をサンプリングしたミニバッチを取得する。
　これにより、学習装置３０は、優先度が高い複数の経験を用いて評価関数の学習を行うことができる。
　学習装置３０によれば、複数の経験を用いて学習を行う点で学習が安定し、かつ、優先度が高い経験を用いる点で、強化学習に必要な時間の短縮を図ることができる。

　図６は、実施例１における制御対象の振り子の例を示す図である。
　実施例１では、制御システム１０が、図６のような振り子を倒立させる例について説明する。図６の振り子１１Ａは、制御対象１１の例に該当する。この振り子１１Ａは軸にモーターが付いており、振り子１１Ａの動きをモーターで制御できる。
　ここで、実施例１の目的は、モーターの制御により、制限時間１００秒の間に振り子１１Ａを倒立させ（図６の位置ＰＯＳ３）、倒立状態をできるだけ長く維持させる自動制御則（自動制御のための方策）を学習により獲得することとする。

　ただし、このモーターのトルクはあまり強くなく、例えば振り子１１Ａを位置ＰＯＳ１から直接位置ＰＯＳ３へ移動させて倒立させることはできない。このため、位置ＰＯＳ１にある振り子１１Ａを倒立させるには、まずトルクを掛けて例えば位置ＰＯＳ２まで移動させある程度位置エネルギーを蓄えてから、逆方向に適度なトルクを掛けて位置ＰＯＳ３まで持っていく必要がある。
　実施例１では、特に断らない場合は、「π」は円周率を示し、「θ」は角度を示す。

　実施例１では、観測器１２は振り子１１Ａの角度θを測定するセンサーである。ここで角度はｙ軸の正の向きを基準としてθ∈［－π，π］と定義する。なお、図６の位置ＰＯＳ１はθ＝－５π／６に相当する。位置ＰＯＳ２はθ＝５π／１２に相当する。位置ＰＯＳ３はθ＝０に相当する。

　振り子１１Ａの状態ｓを、角度θ、角速度θ′、および、各加速度θ”で表すものとし、（θ，θ′，θ”）と表記する。また、実施例１では位置ＰＯＳ１を振り子１１Ａの初期位置とし、初期角度－５π／６とする。初期角速度、初期角加速度は共に０とする。

　状態推定装置１３は観測器１２のセンサー情報から真の軸の角度θ、角速度θ′、角加速度θ”を推定し、状態ｓ＝（θ，θ′，θ”）の情報を構成する。状態推定装置１３は、０．１秒毎に状態推定を行い、状態の情報を０．１秒毎に出力するものとする。状態推定装置１３のアルゴリズムとして例えばカルマンフィルタ等を使うこととする。

　報酬計算装置１４は状態推定装置１３から状態ｓの情報を受け取り、報酬関数ｒ（ｓ）＝－θ^２を算出する。この報酬関数は実施例１の目的に合わせて、倒立時間が長くなるほど累積報酬が高くなるように設計されているものとする。

　制御実施装置１５は制御決定装置２０から制御値ｃを受け取り、振り子１１Ａを制御する。実施例１での制御値ｃは、モーターに掛ける電圧Ｖであり、制御値ｃの値域は［－２Ｖ，＋２Ｖ］であるとする。また制御実施装置１５は新たな制御値ｃを受け取るまでは同じ電圧をモーターに掛け続けるものとする。制御値ｃは、振り子１１Ａの行動ａを示す。

　また、状態推定装置１３の状態算出（図４のステップＳ１０２）から０．０１秒間で、制御決定装置２０の処理（図４のステップＳ１０３）、制御実施装置１５の処理（図４のステップＳ１０４）、および、報酬計算装置１４の処理（図４のステップＳ１０５）が完了するものとする。これにより、状態推定装置１３における状態推定の０．０１秒後に制御値が変更されるものとする。制御決定間隔は状態推定間隔と同様に０．１秒とする。

　離散時間ラベルｔ＝０、１、２、３、．．．を、制御開始時刻、（制御開始時刻＋０．１秒後）、（制御開始時刻＋０．２秒後）、（制御開始時刻＋０．３秒後）、．．．と定義する。制御開始時刻、（制御開始時刻＋０．１秒後）、（制御開始時刻＋０．２秒後）、（制御開始時刻＋０．３秒後）、．．．について推定される状態ベクトルをｓ_０、ｓ_１、ｓ_２、ｓ_３、．．．と表記する。制御開始時刻、（制御開始時刻＋０．１秒後）、（制御開始時刻＋０．２秒後）、（制御開始時刻＋０．３秒後）、．．．について算出される制御値をｃ_０、ｃ_１、ｃ_２、ｃ_３、．．．と表記する。制御値ｃ_０、ｃ_１、ｃ_２、ｃ_３、．．．が示す振り子１１Ａの行動を、ａ_０、ａ_１、ａ_２、ａ_３、．．．と表記する。制御開始時刻、（制御開始時刻＋０．１秒後）、（制御開始時刻＋０．２秒後）、（制御開始時刻＋０．３秒後）、．．．について算出される報酬値をｒ_０、ｒ_１、ｒ_２、ｒ_３、．．．と表記する。

　制御決定装置２０は状態推定装置１３から状態ｓを受け取り、方策モデル記憶装置２１が記憶する方策モデルを参照して方策モデルの演算を行い、演算結果を制御値ｃとして制御実施装置１５に送信する。
　実施例１では、方策モデルは隠れ層２層の全結合型のニューラルネットワークで、入力層が状態ｓを受け取り、出力層が制御値ｃを出力する。また隠れ層１層あたりのノード数は２５６個とし、活性化関数としてｔａｎｈ関数を使用することとする。このニューラルネットワークモデルの全パラメータは方策モデル記憶装置２１に保持される。

　経験記憶装置３１は各時刻ｔにおける、状態推定装置１３が推定する状態ｓ_ｔ、制御決定装置２０が出力する制御値ｃ_ｔ、報酬計算装置１４が出力する報酬値ｒ_ｔ、および、次の時刻（ｔ＋１）にて状態推定装置１３が推定する状態ｓ_ｔ＋１の組（ｓ_ｔ，ｃ_ｔ，ｒ_ｔ，ｓ_ｔ＋１）、すなわち「経験」を逐次記録していく。上記のように、制御値ｃ_ｔは、行動ａ_ｔを示す。

　評価モデル記憶装置４０の第１Ｑ関数モデル記憶装置４１が記憶するモデル、および、第２Ｑ関数モデル記憶装置４２が記憶するモデルは、何れも方策モデルと同様に、隠れ層２層の全結合型のニューラルネットワークで、隠れ層１層あたりのノード数は２５６個とし、活性化関数としてｔａｎｈ関数を使用することとする。ただし、入力層は状態と制御値の組（ｓ，ｃ）を受け取り、出力層はＱ（ｓ，ｃ）の値を出力する。

　学習装置３０では、新たに追加された経験に対して優先度設定部３８が初期優先度を優先度記憶装置３３に記録する（図５のステップＳ１０７１）。優先度設定部３８は、初期優先度として、最初の経験に対しては１を割り当て、それ以降は「これまで算出された優先度のうちの最大値」を割り当てる。
　経験取得部３４は、式（１３）に示す確率に従って経験をサンプリングする。

　ｉは経験記憶装置３１内の経験のインデックスである。ｐ_ｉは経験ｉに対する優先度である。Ｋはサンプリング時における経験記憶装置３１内の全経験数である。αはサンプリング時における優先度ｐの重みを調整するハイパーパラメータである。αの値として、例えば０．６などの値を用いる。また、ここではミニバッチが含む経験数を２５６個とし、これを優先度付きサンプリングで構築する。

　このミニバッチに対して優先度算出部３７は実施形態で述べた方法で新たな優先度を算出する。優先度設定部３８は、対象となる経験に紐付けられる優先度を、新たな優先度に更新する。

　モデル更新部５０はミニバッチ内の全経験を用いて、以下の３つの目的関数を確率的勾配降下法で最小化することでモデルを更新する。
　１つ目の目的関数は、Ｑ関数モデルのパラメータθ_１を調整するための目的関数であり、式（１４）のように示される。

　式（１４）の「θ_１」は、Ｑ関数モデルのパラメータを示す。「π_φ」は、方策を示す。
　ｂは、経験のインデックスであり、ミニバッチに含まれている経験であることを示す。Ｎ_Ｂは、ミニバッチ内の経験の個数を示す。ω_ｂは、経験の優先度に応じた重み（重み係数）を示す。
　式（１４）は、式（１０）に示される損失関数の例に該当する。具体的には、式（１４）で、式（１０）に示される損失関数に重みω_ｂを導入し具体化した例に該当する。
　２つ目の目的関数は、Ｑ関数モデルのパラメータθ_２を調整するための目的関数であり、式（１５）のように示される。

　式（１５）の「θ_２」は、Ｑ関数モデルのパラメータを示す。「π_φ」は、方策を示す。
　式（１５）は、式（１０）においてθ_１をθ_２に置き換えた損失関数の例に該当する。具体的には、式（１５）は、式（１０）においてθ_１をθ_２に置き換えた損失関数に重みω_ｂを導入し具体化した例に該当する。
　３つ目の目的関数は、方策モデルのパラメータφを調整するための目的関数であり、式（１６）のように示される。

　式（１６）の「θ_１」は、Ｑ関数モデルのパラメータを示す。「π_φ」は、方策を示す。
　式（１６）は、上述した目的関数Ｊ_π（φ）の式「Ｊ_π（φ）＝［Ｑ_θ（ｓ，π_φ（ｓ））］」の最大化の例に該当する。具体的には、式（１６）は、式「Ｊ_π（φ）＝［Ｑ_θ（ｓ，π_φ（ｓ））］」に重みω_ｂを導入し具体化した例に該当する。式（１６）の値を最大化するように、方策モデルのパラメータφの値を調整する。
　優先度算出部３７は、例えば式（１７）に基づいて、インデックスｂの経験の重みω_ｂを算出する。

　式（１７）に示される重みω_ｂは、優先度付きサンプリングを重要度サンプリングと見なしたときの重要度重みを表す。この重要度重みを用いることで、優先度付きサンプリングによるバイアスを補正する効果が得られる。

　実施例１では、確率的勾配降下法を用いる際の学習率は０．００３とし、エポック数は１とする。
　重みω_ｂ（重要度重み）の影響の度合いはハイパーパラメータβで調整可能である。この場合、優先度算出部３７は、式（１７）を用いて算出する重みω_ｂの値を、式（１４）から（１６）までのω_ｂに入力する。

　βの値域は［０，１］であり、βが０に近い程、重要度重みの影響を弱め、βが１に近い程、重要度重みの影響を忠実に再現する。優先度付きサンプリングによるバイアスはある程度残しておいた方が学習初期の学習効率が良いので、ここではβ＝０．４を用いる。優先度算出部３７が、例えば図４の処理の実行回数に応じて、ハイパーパラメータβの値を変更するようにしてもよい。

　優先度算出部３７が、ハイパーパラメータβの適用とは別に、重みω_ｂのスケーリングを行うようにしてもよい。ここでは学習の安定性を保つために、ω_ｂをω_ｍａｘで割ったものを、実際の重要度重みの値とする。ω_ｍａｘは優先度記憶装置３３内の全優先度に関して最大の値を用いて計算した値を取る。
　優先度算出部３７は、式（１７）を用いて算出する重みω_ｂをω_ｍａｘで割った値を、式（１４）から（１６）までのω_ｂに入力する。

　実施例１における１つ目の効果として、Ｑ関数の過大推定問題の緩和のために２つのＱ関数を用いる際に適した優先度付きサンプリングを導入できる。
　実施例１における２つ目の効果として、経験の優先度を定義することで、Ｑ関数モデルの過大推定問題が積極的に緩和され、より少ない経験数で良好なＱ関数モデルおよび方策モデルを獲得できると期待される。
　上記２つの効果により、「倒立振り子」問題において、本発明技術を使用しない場合と比較して「少ない経験数」で倒立する方策モデルを獲得できると期待される。

　実施例２では、制御システム１０が、化学プラントの一種であるＶＡＭ（Vinyl Acetate Monomer）プラントの自動制御を行う例について説明する。
　ここではＶＡＭプラントシミュレータを制御対象１１とするが、ＶＡＭプラントシミュレータが十分現実を再現している場合は、方策モデルを学習後に制御対象１１を実際のＶＡＭプラントに置き換えて適用してもよい。実施例２では、制御対象１１を実際のＶＡＭプラントに置き換えることを前提に説明をする。

　図７は、ＶＡＭプラントにおけるセクションの構成例を示す図である。ＶＡＭプラントは７つの異なる役割を果たすセクションで構成されている。
　セクション１でＶＡＭの原材料を混合する。セクション２で化学反応を起こしＶＡＭを生成する。セクション３から５まででＶＡＭの分離、圧縮および収集を行う。セクション６から７まででＶＡＭの蒸留および沈殿を行う。これら一連の工程で得られるＶＡＭが製品として売り出される。

　実施例２のＶＡＭプラント全体として、圧力・温度・流量などを測定する観測機器が約１００個、圧力・温度・流量などを調整するＰＩＤ制御器（Proportional-Integral-Differential Controller）が約３０個備え付けられている。実施例２では、このＶＡＭプラントの全体収益を上げるような方策モデルを獲得することを目的とする。ここで全体収益とは、製品利益（ＶＡＭ）から消費コスト（エチレン、酢酸酸素、電気、水など）を差し引いたものである。

　なおＶＡＭプラントの制御時間は１００時間とし、この制御時間の中で全体収益の累計が初期状態を継続するときの値よりも改善することを最終目的とする。ここでの初期状態とは、人手で各ＰＩＤ制御器の目標値を調整し、ＶＡＭプラント全体として定常状態になった状態のこととする。この初期状態はＶＡＭプラントシミュレータで予め用意されているものを使用する。

　実施例２では、観測器１２は上述した観測機器約１００個を用いて構成される。使用したＶＡＭプラントシミュレータでは、観測機器では測定できない重要な物理量も取得できるが、それらは使用しない。ＶＡＭプラントシミュレータを実際のＶＡＭプラントに置き換えるためである。

　状態推定装置１３は観測器１２の情報から真の温度、圧力、流量などの物理量を推定し、状態を構成する。状態推定は３０分毎に行われるものとし、状態の情報も３０分毎に出力されるとする。状態推定装置１３のアルゴリズムは例えばカルマンフィルタ等を使うこととする。

　報酬計算装置１４は状態推定装置１３から状態ｓを受け取り、上述の全体収益、ｒ（ｓ）を算出する。計算方法はＶＡＭプラントシミュレータに準拠する。全体収益が上がるほど報酬も高くなる。
　制御実施装置１５は制御決定装置２０から制御値ｃを受け取り、ＶＡＭプラントシミュレータを制御する。実施例２での制御値ｃは、各ＰＩＤ制御器の目標値である。制御実施装置１５は新たな制御値ｃを受け取るまでは同じ目標値を維持する。制御値ｃは、ＶＡＭプラントの行動ａを示す。

　また、状態推定装置１３の状態算出（図４のステップＳ１０２）から１秒間で、制御決定装置２０の処理（図４のステップＳ１０３）、制御実施装置１５の処理（図４のステップＳ１０４）、および、報酬計算装置１４の処理（図４のステップＳ１０５）が完了するものとする。これにより、状態推定装置１３における状態推定の１秒後に制御値が変更されるものとする。制御決定間隔は状態推定間隔と同様に３０分とする。

　離散時間ラベルｔ＝０、１、２、３、．．．を、制御開始時刻、（制御開始時刻＋３０分後）、（制御開始時刻＋６０分後）、（制御開始時刻＋９０分後）、．．．と定義する。

　制御決定装置２０、方策モデル記憶装置２１、学習装置３０、経験記憶装置３１、評価モデル記憶装置４０、については実施例１の場合と同様であり、説明を省略する。

　実施例２における２つの効果は実施例１の場合と同様である。その結果として、本発明技術を使用しない場合と比較して「少ない経験数」で全体収益を改善する方策モデルを獲得でき、ＶＡＭプラントシミュレータが十分現実を再現している場合は、実際のＶＡＭプラントに方策モデルを適用しても同等の全体収益改善を出すことができる。

　実施例３では、制御システム１０が、人型ロボットを自動制御する場合について説明する。実施例３でも実施例２と同様にシミュレーションで学習した方策モデルを実際の制御対象に適用することを念頭に置いて説明する。つまり、ここでは制御対象１１はシミュレータ上の人型ロボットであり、シミュレータを用いて得られた方策を実際の人型ロボットに適用することを考える。

　実施例３では、人型ロボットが制御時間１００秒の間に、転ばずに二足歩行し続けるような方策モデルを獲得することを最終目的とする。制御対象の人型ロボットには１７個の関節があり、それぞれにモーターが付いている。観測器１２は各関節の角度およびトルクを測定するセンサーと、頭部に搭載されるＬＩＤＡＲ（Light Detection and Ranging）とを含む。使用したシミュレータでは観測器１２では測定できない重要な物理量も取得できるが、それらは使用しない。実際の人型ロボットにも適用するためである。

　状態推定装置１３は観測器１２の情報から真の各関節の角度、角速度、角加速度、トルク、ロボットの重心の絶対座標、重心速度、各関節に掛かる負荷、を推定し、状態を構成する。状態推定は０．１秒毎に行われるものとし、状態の情報も０．１　秒毎に出力されるとする。状態推定装置１３のアルゴリズムは例えばカルマンフィルタやＳＬＡＭ(Simultaneous Localization And Mapping)等を使うこととする。

　報酬計算装置１４は、状態推定装置１３が出力する状態ｓ、制御決定装置２０が出力する制御値ｃ、制御値ｃが制御実施装置１５により実施された直後に状態推定装置１３が出力する状態、すなわち状態遷移後の状態ｓ′、の組（ｓ，ｃ，ｓ′）を入力とし、報酬関数ｒ（ｓ，ｃ，ｓ′）を算出する。制御値ｃは、ロボットの行動を示す。

　報酬の計算方法はOpenAI社のgymに準拠する。基本は人型ロボットの重心速度が前方向に速いほど高い報酬を与える。また、可能な限り省電力にするためにモーターに強いトルクが出るほど減点する。また、人型ロボットが転ばないように、重心が高い位置に維持されるとボーナス点を与える。

　制御実施装置１５は制御決定装置２０から制御値ｃを受け取り、各関節のモーターのトルクを制御する。また、状態推定装置１３の状態算出（図４のステップＳ１０２）から０．０１秒間で、制御決定装置２０の処理（図４のステップＳ１０３）、制御実施装置１５の処理（図４のステップＳ１０４）、および、報酬計算装置１４の処理（図４のステップＳ１０５）、が完了するものとする。これにより、状態推定装置１３における状態推定の０．０１秒後に制御値が変更されるものとする。制御決定間隔は状態推定間隔と同様に０．１秒とする。また、離散時間ラベルｔを、実施例１と同様に状態推定のタイミングに合わせて定義する。

　制御決定装置２０、方策モデル記憶装置２１、学習装置３０、経験記憶装置３１、および、評価モデル記憶装置４０、については実施例１の場合と同様であり、ここでは説明を省略する。

　実施例３における２つの効果は実施例１の場合と同様である。その結果として、本発明技術を使用しない場合と比較して「少ない経験数」で人型ロボットが転ばずに二足歩行する方策モデルを獲得でき、人型ロボットモデルが十分現実を再現している場合は、実際の人型ロボットに方策モデルを適用しても同等の全体収益改善を出すことができる。

　図８は、実施形態に係る学習装置の構成例を示す図である。図８に示す構成で、学習装置５１０は、モデル計算部５１１と、モデル更新部５１２とを備える。
　かかる構成で、モデル計算部５１１は、制御対象の第１状態における第１行動に応じた第２状態と、第２状態から方策モデルを用いて算出される第２行動とに基づいて、第２状態における第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ第２評価値を算出する。モデル更新部５１２は、複数の第２評価値のうち最も小さい第２評価値と、第１状態における第１行動の良さの指標値である第１評価値とに基づいて、評価モデルを更新する。
　モデル計算部５１１は、モデル計算手段の例に該当する。モデル更新部５１２は、モデル更新手段の例に該当する。

　このように、学習装置５１０では、複数の評価関数を用いて評価関数の学習を行うことで、値が比較的小さい評価関数を用いて評価関数を推定することができる。これにより、例えばＱ関数モデルの過大推定など、評価関数が過大に推定されることを緩和することができる。学習装置５１０によれば、この点で、強化学習に必要な時間の短縮を図ることができる。

　モデル計算部５１１は、例えば、図３に例示されているようなモデル計算部５３等の機能を用いて実現することができる。モデル更新部５１２は、例えば、図３に例示されているようなモデル更新部５０等の機能を用いて実現することができる。よって、学習装置５１０は、図３に例示されているような学習装置３０等の機能を用いて実現することができる。

　図９は、実施形態に係る制御システムの構成例を示す図である。図９に示す構成で、制御システム５２０は、モデル計算部５２１と、評価モデル更新部５２２と、方策モデル更新部５２３と、制御決定部５２４と、制御実施部５２５とを備える。

　かかる構成で、モデル計算部５２１は、制御対象の第１状態における第１行動に応じた第２状態と、第２状態から方策モデルを用いて算出される第２行動とに基づいて、第２状態における第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ第２評価値を算出する。評価モデル更新部５２２は、複数の第２評価値のうち最も小さい第２評価値と、第１状態における第１行動の良さの指標値である第１評価値とに基づいて、評価モデルを更新する。方策モデル更新部５２３は、評価モデルを用いて方策モデルを更新する。制御決定部５２４は、方策モデルを用いて制御値を算出する。制御実施部５２５は、制御値に基づいて制御対象を制御する。

　モデル計算部５２１は、モデル計算手段の例に該当する。評価モデル更新部５２２は、評価モデル更新手段の例に該当する。方策モデル更新部５２３は、方策モデル更新手段の例に該当する。制御決定部５２４は、制御決定手段の例に該当する。制御実施部５２５は、制御実施手段の例に該当する。

　このように、制御システム５２０では、複数の評価関数を用いて評価関数の学習を行うことで、値が比較的小さい評価関数を用いて評価関数を推定することができる。これにより、例えばＱ関数モデルの過大推定など、評価関数が過大に推定されることを緩和することができる。制御システム５２０によれば、この点で、強化学習に必要な時間の短縮を図ることができる。

　モデル計算部５２１は、例えば、図３に例示されているようなモデル計算部５３等の機能を用いて実現することができる。評価モデル更新部５２２は、例えば、図３に例示されているようなＱ関数モデル更新部５１等の機能を用いて実現することができる。方策モデル更新部５２３は、例えば、図３に例示されているような方策モデル更新部５２等の機能を用いて実現することができる。制御決定部５２４は、例えば、図１に例示されているような制御決定装置２０等の機能を用いて実現することができる。制御実施部５２５は、例えば、図１に例示されているような制御実施装置１５等の機能を用いて実現することができる。よって、制御システム５２０は、図１から３までに例示されているような制御システム１０等の機能を用いて実現することができる。

　図１０は、実施形態に係る学習方法における処理手順の例を示す図である。図１０に示す学習方法は、モデル計算工程（ステップＳ５１１）と、モデル更新工程（ステップＳ５１２）をと含む。
　モデル計算工程（ステップＳ５１１）では、制御対象の第１状態における第１行動に応じた第２状態と、第２状態から方策モデルを用いて算出される第２行動とに基づいて、第２状態における第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ第２評価値を算出する。モデル更新工程（ステップＳ５１２）では、複数の第２評価値のうち最も小さい第２評価値と、第１状態における第１行動の良さの指標値である第１評価値とに基づいて、評価モデルを更新する。

　図１０の学習方法では、複数の評価関数を用いて評価関数の学習を行うことで、値が比較的小さい評価関数を用いて評価関数を推定することができる。これにより、Ｑ関数モデルの過大推定など、評価関数が過大に推定されることを緩和することができる。図１０の学習方法によれば、この点で、強化学習に必要な時間の短縮を図ることができる。

　図１１は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
　図１１に示す構成で、コンピュータ７００は、ＣＰＵ７１０と、主記憶装置７２０と、補助記憶装置７３０と、インタフェース７４０と、不揮発性記録媒体７５０とを備える。
　上記の学習装置３０、学習装置５１０、および、制御システム５２０のうち何れか１つ以上またはその一部が、コンピュータ７００に実装されてもよい。その場合、上述した各処理部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ７１０は、プログラムに従って、上述した各記憶部に対応する記憶領域を主記憶装置７２０に確保する。各装置と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って通信を行うことで実行される。また、インタフェース７４０は、不揮発性記録媒体７５０用のポートを有し、不揮発性記録媒体７５０からの情報の読出、および、不揮発性記録媒体７５０への情報の書込を行う。

　学習装置３０がコンピュータ７００に実装される場合、経験取得部３４、優先度算出部３７、優先度設定部３８、モデル更新部５０、Ｑ関数モデル更新部５１、および、方策モデル更新部５２の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ７１０は、プログラムに従って、優先度記憶装置３３、および、ミニバッチ記憶装置３５に対応する記憶領域を主記憶装置７２０に確保する。
　学習装置３０と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。

　学習装置５１０がコンピュータ７００に実装される場合、モデル計算部５１１、および、モデル更新部５１２の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ７１０は、プログラムに従って、学習装置５１０が行う処理のための記憶領域を主記憶装置７２０に確保する。
　学習装置５１０と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。

　制御システム５２０がコンピュータ７００に実装される場合、モデル計算部５２１、評価モデル更新部５２２、方策モデル更新部５２３、制御決定部５２４、および、制御実施部５２５の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ７１０は、プログラムに従って、制御システム５２０が行う処理のための記憶領域を主記憶装置７２０に確保する。
　制御実施部５２５から制御対象への制御信号の送信など、制御システム５２０と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。

　上述したプログラムのうち何れか１つ以上が不揮発性記録媒体７５０に記録されていてもよい。この場合、インタフェース７４０が不揮発性記録媒体７５０からプログラムを読み出すようにしてもよい。そして、ＣＰＵ７１０が、インタフェース７４０が読み出したプログラムを直接実行するか、あるいは、首記億装置７２０または補助記憶装置７３０に一旦保存して実行するようにしてもよい。

　なお、学習装置３０、学習装置５１０、および、制御システム５２０が行う処理の全部または一部を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
　また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　本発明の実施形態は、学習装置、学習方法、制御システムおよび記録媒体に適用してもよい。

　１０、５２０　制御システム
　１１　制御対象
　１２　観測器
　１３　状態推定装置
　１４　報酬計算装置
　１５　制御実施装置
　２０　制御決定装置
　２１　方策モデル記憶装置
　３０、５１０　学習装置
　３１　経験記憶装置
　３３　優先度記憶装置
　３４　経験取得部
　３５　ミニバッチ記憶装置
　３７　優先度算出部
　３８　優先度設定部
　４０　評価モデル記憶装置
　４１　第１Ｑ関数モデル記憶装置
　４２　第２Ｑ関数モデル記憶装置
　５０、５１２　モデル更新部
　５１　Ｑ関数モデル更新部
　５２、５２３　方策モデル更新部
　５３、５１１、５２１　モデル計算部
　５２２　評価モデル更新部
　５２４　制御決定部
　５２５　制御実施部

Claims

　制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ前記第２評価値を算出するモデル計算手段と、
　複数の前記第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の良さの指標値である第１評価値とに基づいて、前記評価モデルを更新するモデル更新手段と
　を備える学習装置。
　前記第１状態と、前記第１行動と、前記第２状態と、前記第１行動に応じて得られる報酬との組み合わせである経験を取得する経験取得手段
　をさらに備える、請求項１に記載の学習装置。
　前記経験毎に、その経験を用いた場合の前記第２評価値の誤差の大きさに基づく優先度を紐づける優先度設定手段をさらに備え、
　前記経験取得手段は、前記優先度に基づいて前記経験を取得する、
　請求項２に記載の学習装置。
　前記経験取得手段は、前記優先度に基づいて前記経験をサンプリングしたミニバッチを取得する、
　請求項３に記載の学習装置。
　制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ前記第２評価値を算出するモデル計算手段と、
　複数の前記第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の良さの指標値である第１評価値とに基づいて、前記評価モデルを更新する評価モデル更新手段と、
　前記評価モデルを用いて前記方策モデルを更新する方策モデル更新手段と、
　前記方策モデルを用いて制御値を算出する制御決定手段と、
　前記制御値に基づいて制御対象を制御する制御実施手段と、
　を備える制御システム。
　コンピュータが、
　制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ前記第２評価値を算出し、
　複数の前記第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の良さの指標値である第１評価値とに基づいて、前記評価モデルを更新する
　ことを含む学習方法。
　コンピュータに、
　制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ前記第２評価値を算出することと、
　複数の前記第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の良さの指標値である第１評価値とに基づいて、前記評価モデルを更新することと
　を実行させるためのプログラムを記録する記録媒体。