WO2023058094A1

WO2023058094A1 - 学習装置、学習方法、制御システムおよび記録媒体

Info

Publication number: WO2023058094A1
Application number: PCT/JP2021/036673
Authority: WO
Inventors: 拓也平岡
Original assignee: 日本電気株式会社
Priority date: 2021-10-04
Filing date: 2021-10-04
Publication date: 2023-04-13

Abstract

学習装置は、制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の評価結果を示す指標値にノイズを含ませた第２評価値を算出する評価モデルを複数用いて、ノイズを含む複数の第２評価値をそれぞれ算出するモデル計算部と、前記複数の第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の評価結果を示す指標値である第１評価値とに基づいて、前記方策モデルまたは前記方策モデルのパラメータを更新するモデル更新部とを備える。

Description

学習装置、学習方法、制御システムおよび記録媒体

　本発明は、学習装置、学習方法、制御システムおよび記録媒体に関する。

　機械学習の１つに、最適化したＱ関数を用いて方策を決定するＱ学習法なる強化学習の手法がある。
　例えば、特許文献１には、Ｑ学習と呼ばれる強化学習を実行して、メンテナンスが求められる対象のメンテナンス範囲の最適化を図ることが記載されている。

国際公開第２０２１／５１５９３０号パンフレット

　強化学習に必要な時間が比較的短く済むことが好ましい。

　本発明の目的の１つは、上述の課題を解決することのできる学習装置、学習方法、制御システムおよび記録媒体を提供することである。

　本発明の第１の態様によれば、学習装置は、制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の評価結果を示す指標値にノイズを含ませた第２評価値を算出する評価モデルを複数用いて、ノイズを含む第２評価値をそれぞれ算出するモデル計算部と、前記複数の第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の評価結果を示す指標値である第１評価値とに基づいて、前記方策モデルまたは前記方策モデルのパラメータを更新するモデル更新部とを備える、学習装置である。

　本発明の第２の態様によれば、制御システムは、制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の評価結果を示す指標値にノイズを含ませた第２評価値を算出する評価モデルを複数用いて、ノイズを含む第２評価値をそれぞれ算出するモデル計算手段と、前記複数の第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の評価結果を示す指標値である第１評価値とに基づいて、前記方策モデルまたは前記方策モデルのパラメータを更新するモデル更新手段とを備える。

　本発明の第３の態様によれば、学習方法は、コンピュータが、制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の評価結果を示す指標値にノイズを含ませた第２評価値を算出する評価モデルを複数用いて、ノイズを含む第２評価値をそれぞれ算出し、前記複数の第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の評価結果を示す指標値である第１評価値とに基づいて、前記方策モデルまたは前記方策モデルのパラメータを更新すること、を含む。

　本発明の第４の態様によれば、記録媒体は、コンピュータに、制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の評価結果を示す指標値にノイズを含ませた第２評価値を算出する評価モデルを複数用いて、ノイズを含む第２評価値をそれぞれ算出させることと、前記複数の第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の評価結果を示す指標値である第１評価値とに基づいて、前記方策モデルまたは前記方策モデルのパラメータを更新させること、とを実行させるためのプログラムを記録する記録媒体である。

　上記した学習装置、制御システム、学習方法および記録媒体によれば、強化学習に必要な時間の短縮を図ることができる。

実施形態に係る制御システムの構成例を示す図である。実施形態に係る制御システムのブロック図である。実施形態に係る評価モデル記憶装置の構成例を示す図である。実施形態に係る学習装置の構成例を示す図である。実施形態に係る制御システムが行う処理の手順の例を示すフローチャートである。実施形態のＱ関数のモデルを説明するための図である。実施形態の１つのＱ関数モデルの構成図である。実施形態の制御システムがモデルを更新する処理手順の例を説明するための図である。実施形態における検証結果を示す図である。実施形態における検証結果を示す図である。実施形態における検証結果を示す図である。実施例１における制御対象の振り子の例を示す図である。実施例２に係るＶＡＭプラントにおけるセクションの構成例を示す図である。実施形態に係る学習装置の構成例を示す図である。実施形態に係る制御システムの構成例を示す図である。実施形態に係る学習方法における処理手順の例を示す図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　実施形態に係る制御装置は、例えば、化学プラント（実施例２にて後述）、ロボット（実施例３にて後述）、製造装置、輸送装置等の制御対象を制御する場合に、制御対象に対する制御内容を、強化学習を用いて決定する。制御対象は、該制御内容に従い動作する。制御装置は、例えば。制御を実施する制御システム（図１）にて動作するともいうことができる。
　実施例２にて後述するように、実施形態に係る制御装置は、例えば、化学プラントを制御する制御内容を、強化学習に従い算出された方策モデルに基づき決定する。化学プラントには、温度、圧力および流量等を測定する観測装置が設置されている。制御装置は、観測装置が測定した測定結果に基づき、化学プラントにおける各装置についての制御内容を決定するための方策モデルを決定する。そして、制御装置は、決定した方策モデルに従い制御内容を決定し、決定した内容に従い各装置を制御する。

　実施例３にて後述するように、実施形態に係る制御装置は、例えば、ロボットを制御する制御内容を、強化学習に従い算出された方策モデルに基づき決定する。制御対象のロボットは、複数の関節を有する。ロボットを制御するシステムには、関節の角度等を測定するための観測装置が設置されている。制御装置は、観測装置が測定した測定結果に基づき、ロボットについての制御内容を決定するための方策モデルを決定する。そして、制御装置は、決定した方策モデルに従い制御内容を決定し、決定した内容に従いロボットを制御する。
　実施形態に係る制御装置の適用先は、上述した例に限定されず、例えば、製造工場における製造装置、または、輸送装置等であってもよい。

＜用語および概念の説明＞
　実施形態の説明をするための用語および概念について説明する。
　強化学習は、マルコフ決定過程（Markov decision process）において状態遷移確率が未知の状況下で、累積報酬（Cumulative Reward）の期待値を最大化する行動決定則（Decision Rule）を得る手法である。行動決定則を、方策（Policy）、または、制御則（Control Rule）とも称する。

　マルコフ決定過程は、「ある状態ｓのときに、方策πに従い行動ａが選択・実行され、状態遷移確率ρ（ｓ’，ｒ｜ｓ，ａ）に従って状態ｓから状態ｓ’に遷移し、報酬ｒが与えられる」、という一連の事象が繰り返し行われる過程を表す。
　方策は、確率的に行動を算出するものであってもよい。あるいは、デルタ分布を用いて行動を一意に算出する方策を記述することもできる。行動を一意に算出する方策は決定論的方策と呼ばれ、ａ_ｔ＝π（ｓ_ｔ）のように関数にて表される。すなわち、決定論的方策において、状態ｓ_ｔにて実施する行動ａ_ｔは、１つに決定される。ａ_ｔは、時刻ｔにおける行動を示す。πは、方策を示す関数である。ｓ_ｔは、時刻ｔにおける状態を示す。すなわち、方策は、時刻ｔにおける状態ｓ_ｔから時刻ｔにおける行動ａ_ｔを算出（または、決定、選択）するモデル（または、関数）であるということができる。

　累積報酬とは、ある期間に得られる報酬の和である。例えば、ある時刻ｔから（ｔ＋Ｔ）までの累積報酬Ｒ_ｔは、式（１）のように表される。

　γはγ∈［０，１］の実数定数である。γを割引率とも称する。ｒ_ｔは時刻ｔにおける報酬である。この累積報酬について、時刻ｔにおける状態ｓ_ｔ、行動ａ_ｔが与えられたときの、状態遷移確率ρ、方策πに関する累積報酬の条件付き期待値をＱ_π（ｓ_ｔ，ａ_ｔ）と表記し、式（２）のように定義する。

　式（２）のＱ_π（ｓ_ｔ，ａ_ｔ）はＱ関数（または行動価値関数）と呼ばれる。Ｅは期待値を示す。
　また、複数の状態を含む状態セットSにおける状態ｓについて、式（３）の値が最大となる方策πは最適方策と呼ばれる。

　ここで、行動ａは方策πからサンプリングされるものとし、これをａ～π（・｜S）と表記する。

　ところで、Ｑ学習法による強化学習は、Ｑ関数を用いて最適な方策（最適方策）を導出するようにＱ関数のパラメータを決定する。最適な方策に対応するＱ関数を最適Ｑ関数と呼ぶ。Ｑ関数のモデルおよび方策のモデルを用意し、学習を通してＱ関数のモデルを最適Ｑ関数に近づけ、そのＱ関数のモデルを基に方策のモデルを最適方策に近づける。以下では、Ｑ関数のモデルをＱ関数モデルと呼び、方策のモデルを方策モデルと呼ぶことにする。

　例えば、Ｑ関数の値ｙは式（４）のように示される。

　ｙを正解ラベルとも称する。
　θは、方策モデルのパラメータである。
　φは、Ｑ関数モデルのパラメータである。上に線を着けたφ（以下、φbarという。）はＱ関数モデルの更新を安定化させるためのターゲットパラメータである。ターゲットパラメータφbarには、基本的には過去のφの値が使われ、随時、φの値に更新される。学習中にパラメータφの値が更新され、φを用いたＱ関数が変化するのに対し、ターゲットパラメータφbarの値の更新をφの更新に対して遅らせることで、ターゲットｙの値の急激な変動を抑えることができ、学習が安定すると期待される。
　パラメータの値を更新することを、パラメータを更新するとも称する。モデルのパラメータが更新されることで、モデルも更新される。ターゲットパラメータは、パラメータの更新に応じて更新される。

　Ｑ関数モデルに、そのパラメータφを明示して「Ｑ_φ」と表記している。Ｑ関数モデルＱ_φが示すＱ関数を、Ｑ関数Ｑ_φとも称する。「Ｑ_φ」の「φ」がパラメータ変数である場合、「Ｑ_φ」は、パラメータφのＱ関数モデルである。一方、「Ｑ_φ」の「φ」をパラメータ値である場合、「Ｑ_φ」は、パラメータφのＱ関数である。

　方策πのパラメータθを明示して「π_θ」と表記している。方策モデルπ_θが示す方策を、方策π_θとも称する。「π_θ」の「θ」がパラメータ変数である場合、「π_θ」は、方策モデルを示す。一方、「π_θ」の「θ」がパラメータ変数の値（以降、「パラメータ値」と表す）である場合、「π_θ」は、方策を示す。

　実施形態のＱ学習法では、Ｑ関数モデルを複数用いて過大推定を緩和させる手法を提供する。

＜実施形態における構成＞
　図１Ａは、実施形態に係る制御システムの構成例を示す図である。図１Ｂは、実施形態に係る制御システムのブロック図である。

　図１Ａに示す構成で、制御システム１０は、観測器１２、状態推定装置１３、報酬計算装置１４、制御実施装置１５、制御決定装置２０、方策モデル記憶装置２１、学習装置３０、経験記憶装置３１、および、評価モデル記憶装置４０を備える。

　制御対象１１は、制御を受ける対象である。制御可能ないろいろな事物（たとえば、化学プラント、ロボット）を制御対象１１とすることができる。制御対象１１が、制御システム１０の一部となっていてもよい。あるいは、制御対象１１が、制御システム１０の外部の構成となっていてもよい。

　観測器１２は、制御対象１１の状態を観測する。観測器１２が出力する情報は、制御対象１１の状態を示す情報である。制御システム１０が化学プラントである場合に、観測器１２は、例えば、温度センサー、湿度センサー、圧力センサー等のセンサーである。制御システム１０がロボットである場合に、観測器１２は、例えば、ロボットおよびロボットの周囲を撮影している撮像装置、ロボットの位置を特定するGPS（Global Positioning system）等の観測機器である。
　状態推定装置１３は、観測器１２から得た情報を元に制御対象１１の状態を推定する。

　制御決定装置２０と制御実施装置１５は、制御決定手段の例に該当する。
　制御決定装置２０は、状態推定装置１３が推定する状態と、方策モデル記憶装置２１に格納されている方策モデルとを参照して方策モデルと方策πとを選択し、方策πの演算を行って制御値を出力する。方策モデルと方策πの選択について後述する。

　制御実施装置１５は、制御決定装置２０が出力する制御値に従い、制御対象１１を制御する。

　例えば、制御決定装置２０は、制御目標と、この制御目標に対する制御対象１１の状態とに基づいて、制御目標と状態推定装置１３によって推定された状態との差異が減少するように、所定の制御側に基づいて制御値を生成する。制御対象１１の状態は、観測器１２によって検出された状態、または状態推定装置１３によって推定された状態の何れかまたは両方であってよい。図１は、制御対象１１の状態として、状態推定装置１３によって推定された状態を利用する場合を例示するが、これに制限されない。なお、制御決定装置２０は、外部から供給される制御目標を利用してもよく、制御目標を自ら生成してもよく、予め定められている制御目標を利用してもよい。

　さらに、制御決定装置２０は、方策モデル記憶装置２１を参照して方策モデルを選択し、その方策モデルを用いて、上記の所定の制御側を決定する。

　方策モデル記憶装置２１には、状態の入力に対して制御値を出力する方策モデルが格納される。例えば、方策モデル記憶装置２１は、パラメータ変数θを含む方策モデルと、パラメータ変数θの値とを記憶する。以降、パラメータ変数θを含む方策モデルのことを方策モデル本体という。方策モデル本体におけるパラメータ変数θに値を設定することで、方策モデルが得られる。この方策モデルは、後述する学習装置３０を用いた学習によって登録される。

　報酬計算装置１４は、例えば、学習装置３０による学習に利用される。報酬計算装置１４は、例えばユーザーが指定する「状態に対する点数（報酬）計算則」に従い、報酬を取得する。ただし、報酬計算装置１４が報酬を取得する方法は、特定の方法に限定されない。報酬計算装置１４が報酬を取得する方法として、状態に応じた報酬を取得可能ないろいろな方法を用いることができる。
　例えば、報酬計算装置１４は、報酬を取得する際に、観測器１２が出力する情報または状態推定装置１３が出力する情報を用いて報酬を計算してよい。

　制御対象１１が状態ｓにあるときに、方策に基づいて行動ａが決定される。その状態ｓの下で行動ａが実行されることによって、制御対象１１の状態は、状態ｓから状態ｓ’に遷移する。これに応じて、報酬計算装置１４は、状態ｓ’の良否の程度に応じた指標値を算出する。この指標値を報酬と呼ぶ。この点で報酬は、ある状態におけるある行動の良さ（または、有効性、価値、好ましさ）を表す指標値であるということができる。この場合に、報酬が多いほど行動が良く、報酬が少ないほど行動が悪い。
　あるいは、指標値は、ペナルティーであってもよい。この場合に、指標値は、ある状態における行動の不適切さを表す指標であるということができる。この場合に、ペナルティーが多いほど行動が悪く、ペナルティーが少ないほど行動が良い。
　報酬は、第１行動評価値の例に該当する。ここでいう第１行動評価値は、第１状態における第１行動の評価値である。第１行動評価値を第１評価値とも称する。

　学習装置３０は、状態推定装置１３が出力する状態ｓ、制御決定装置２０が出力する制御値による制御対象の行動ａ、報酬計算装置１４が出力する報酬ｒ、および、制御実施装置１５の制御による行動ａ後に状態推定装置１３が出力する状態（すなわち状態遷移後の状態ｓ’の組（ｓ，ａ，ｒ，ｓ’）、「経験」とも表す）を経験記憶装置３１に、例えば、逐一追加・記録する。ここでの逐一は、例えば、制御実施装置１５が制御対象１１に対する制御を行う毎である。学習装置３０は、逐一、経験記憶装置３１に経験を追加（または記録）しなくてもよい。

　そして、学習装置３０は、方策モデル記憶装置２１、評価モデル記憶装置４０、および、経験記憶装置３１を参照して、方策モデル記憶装置２１および評価モデル記憶装置４０を更新する。具体的には、学習装置３０は、これらの記憶装置が記憶するモデルおよび経験を参照して、これらのモデルのパラメータを更新する。

　図２は、評価モデル記憶装置４０の構成例を示す図である。図２に示す構成で、評価モデル記憶装置４０は、例えば、第１Ｑ関数モデル記憶装置４１と、第２Ｑ関数モデル記憶装置４２とを備える。

　第１Ｑ関数モデル記憶装置４１は、上述した第１Ｑ関数モデルのパラメータφ_１を記憶する。第２Ｑ関数モデル記憶装置４２は、上述した第２Ｑ関数モデルのパラメータφ_２を記憶する。
　また、評価モデル記憶装置４０は、第１Ｑ関数モデルと第２Ｑ関数モデルとに共通のＱ関数モデル本体を記憶する。第１Ｑ関数モデル記憶装置４１および第２Ｑ関数モデル記憶装置４２のうち何れか一方、または両方が、Ｑ関数モデル本体を記憶するようにしてもよい。あるいは、評価モデル記憶装置４０が、第１Ｑ関数モデル記憶装置４１および第２Ｑ関数モデル記憶装置４２とは異なる記憶領域を有してＱ関数モデル本体を記憶するようにしてもよい。

　これにより、評価モデル記憶装置４０は、方策モデル記憶装置２１に記録される方策の性能の評価、および、前述のＱ関数モデルの過大推定問題の緩和に用いられる、２つのＱ関数モデルを記憶する。特に、評価モデル記憶装置４０は、これら２つのＱ関数モデルそれぞれのパラメータを記憶する。

　上記のとおり、共通するＱ関数モデル本体に、夫々独立に決定したパラメータ値を適用することで互いに異なる複数のＱ関数モデルを構成可能にする場合を例示する。これにより、複数のＱ関数モデルは、それぞれ固有の値を出力する。なお、以下の説明の中で、このＱ関数モデル本体を用いることに関する説明を省略して、各Ｑ関数モデルを適用することに代えて説明することがある。

　図３は、学習装置３０の構成例を示す図である。図３に示す構成で、学習装置３０は、経験取得部３４、ミニバッチ記憶装置３５、モデル更新部５０、および、モデル計算部５３を備える。モデル更新部５０は、Ｑ関数モデル更新部５１、および、方策モデル更新部５２を備える。

　経験取得部３４は、所定の規準に従い、経験記憶装置３１から経験をサンプリングしてミニバッチを構成する。なおミニバッチを構成する際、各経験のインデックスも併せる。これはミニバッチ内の経験が経験記憶装置３１内のどの経験に対応するのかを確認できるようにするためである。この経験取得部３４は、経験取得手段の例に該当する。例えば、上記のサンプリングに係る所定の規準として、例えば、サンプリング対象にする経験数、ミニバッチの大きさ（またはミニバッチ内の経験数）、予め定められたサンプリングの優先度順などの選択基準を適用してよい。予め定められた優先度順には、サンプリングされてからの期間が比較的少ないものを優先させるなどの優先度を利用してもよい。

　実施形態のＱ関数のモデルは、上記の複数の関数モデルを組み合わせて構成する。
　図５は、実施形態のＱ関数のモデルの例を表す図である。図６は、実施形態の１つのＱ関数モデルの構成図である。

　Ｑ関数のモデル５３０は、複数のＱ関数モデルと、評価器５３４とを備える。

　例えば、複数のＱ関数モデルのうちの１番目の第１_Ｑ関数モデルは、Ｑ関数Ｑ_φbar１として規定される。２番目の第２_Ｑ関数モデルは、Ｑ関数Ｑ_φbar２として規定される。最後のＭ番目の第Ｍ_Ｑ関数モデルは、Ｑ関数Ｑ_φbarＭとして規定される。Ｑ関数モデルの個数Ｍは、２以上の整数であり、適宜定めてよい。例えば、Ｍの値を２にすれば、２個のＱ関数モデルを利用する構成になり、Ｍの値を３にすれば、３個のＱ関数モデルを利用する構成になる。このようにＭの値によって３個以上のＱ関数モデルを利用する構成も可能である。以下の実施形態では、説明を簡素化するように２個のＱ関数モデルを利用する構成を中心に説明する。
　各Ｑ関数モデルは、ある状態ｓに関するデータとある行動ａに関するデータとを入力データとして用いる。各Ｑ関数モデルは、状態ｓに関するデータとある行動ａに関するデータとに基づいて、Ｑ関数モデルのパラメータを用いた演算を実行して、評価値を夫々算出する。行動ａに関するデータは、第１行動に係る方策情報を示すデータの一例であり、状態ｓに関するデータは、第１状態に係る状態情報に関するデータの一例である。

　例えば、上記の複数のＱ関数モデルには、Ｑ関数Ｑ_φbar１からＱ関数Ｑ_φbarＭに夫々対応付けられた複数の演算ブロックが含まれる。例えば、演算ブロック５３１には、Ｑ関数Ｑ_φbar１が割り当てられ、演算ブロック５３２には、Ｑ関数Ｑ_φbar２が割り当てられ、演算ブロック５３３には、Ｑ関数Ｑ_φbarＭが割り当てられている。演算ブロック５３１は、Ｑ関数モデルのパラメータφbar１を用いて規定されたＱ関数Ｑ_φbar１の演算を実行して、ｙ１を算出する。演算ブロック５３２は、Ｑ関数モデルのパラメータφbar２を用いて規定されたＱ関数Ｑ_φbar２の演算を実行して、ｙ２を算出する。演算ブロック５３３は、Ｑ関数モデルのパラメータφbarＭを用いて規定されたＱ関数Ｑ_φbarＭの演算を実行して、ｙＭを算出する。ｙ１からｙＭは、スカラーである。

　評価器５３４は、夫々算出されたｙ１からｙＭの中の最小値を選択して、選択結果をターゲットｙとして出力する。

　一般的に、複数のＱ関数モデルの個数を増やすと過大推定を緩和する傾向が高まる半面、演算負荷が高くなる。
　本実施形態は複数のＱ関数モデルを用いるが、上記のような傾向に対して、Ｑ関数モデルの個数を比較的少なくすることを可能にする事例について説明する。なお、実施形態の説明では、典型的な事例として、Ｑ関数モデルを２つ用いる場合を例示する。

　なお、２つのＱ関数モデルの出力値であるｙ１とｙ２の中から、より小さい方の出力値を採用することでＱ関数の過大推定を緩和する。言い換えると、これにより、モデル更新が安定するため学習に必要な時間が短縮される。

　次に、図６を参照して、１つのＱ関数の一例について説明する。ここでは、１番目の第１Ｑ関数モデルに対応する演算ブロック５３１を例示する。演算ブロック５３２も、演算ブロック５３１と同様に構成してよい。

　Ｑ関数Ｑ_φbar１は、隠れ層ＨＬ１からＨＬ９を有する。この図６に示す左側を入力側、右側を出力側とすると、隠れ層ＨＬ１からＨＬ９が、入力側から出力側に直列に配置される。隠れ層ＨＬ１からＨＬ９による処理過程は、図６の左から右へと矢印に沿って進む。

　隠れ層ＨＬ１は、第１重み演算を実施する第１ウエイト演算層（Weight）である。
　隠れ層ＨＬ１に対する入力ベクトルであるベクトルiasは、式（５）に示すように、夫々ベクトルで示される状態ｓと行動ａとを結合して形成される。隠れ層ＨＬ１は、ベクトルiasから隠れベクトルhを算出する。例えば、隠れ層ＨＬ１は、式（６）に示すように、ベクトルiasの転置ベクトルを、第１重み行列Ｗにかけることで、隠れベクトルhを算出する。添え字のＴは、転置ベクトルの演算子である。

　隠れ層ＨＬ２は、入力ベクトルであるベクトルhの各要素の値の一部を、Ｑ関数Ｑ_φbarｉの評価値に反映させない演算処理（ドロップアウト演算という。）を含めて実行して、出力ベクトルであるベクトルh’を生成する。隠れ層ＨＬ２は、第１ドロップアウト演算を実施するドロップアウト演算層（Dropout）の一例である。ドロップアウト演算層は、制御対象の状態を遷移させるための方策情報（方策モデルに係る情報）と、前記制御対象の状態情報とに基づく演算結果の一部を前記評価値に反映させないドロップアウト演算を実施する。

　例えば、隠れ層ＨＬ２は、入力されるベクトルhの各要素の値の一部を、確率的に０に変更する。０に変更されない要素の値は、ベクトルhの各要素の値と同じでよい。より具体的には、隠れ層ＨＬ２は、ベクトルhの各要素に対して、０～１の範囲の値をとる乱数値(rand)を夫々生成して、夫々の乱数値が予め設定された閾値（dropout rate）よりも下回る場合に、要素の値を０に設定して、上記に該当しない要素の値を維持する。そして、隠れ層ＨＬ２は、演算処理の結果を、ベクトルh’として出力する。ベクトルhのサイズとベクトルh’のサイズは同じである。

　例えば、隠れ層ＨＬ２による演算処理を式（７）に示す。Ｄｒｏｐｏｕｔ（・）は、ベクトルに対するドロップアウト演算の関数を示す。

　ここで、ベクトルhのｉ番目の要素をｈ_ｉで示し、ベクトルh’のｉ番目の要素をｈ’_ｉで示すと、上記の関係を、次の式（８）のように定義される。この式（８）に示すように、乱数（ｒａｎｄ）の値に基づいて、０に置換される場合がある。０への置換は正規の値に対するノイズ（第１ノイズと呼ぶ。）とみなすことができる。

　隠れ層ＨＬ３は、入力ベクトルであるベクトルh’を正規化する演算を実施して、出力ベクトルであるベクトルh’’を生成する。隠れ層ＨＬ３は、前述のドロップアウト演算を実施する隠れ層ＨＬ２の後段に設けられている。隠れ層ＨＬ３は、隠れ層ＨＬ２（ドロップアウト演算層）の出力に基づいて、その出力に含まれる要素の値を規格化するレイヤ規格化層（Layer normalization）を含む。

　例えば、隠れ層ＨＬ３は、ベクトルh’に対して、そのベクトルh’の各要素の平均および標準偏差を計算して、規格化する演算を実施して、出力ベクトルであるベクトルh’’を生成する。規格化する演算は、式（１０）に示すように、例えば、要素の値と平均との差を標準偏差にて割る処理である。そして、隠れ層ＨＬ３は、演算処理の結果を、ベクトルh’’として出力する。ベクトルhのサイズとベクトルh’のサイズは同じである。隠れ層ＨＬ３による演算処理を式（９）に示す。ＬａｙｅｒＮｏｒｍ（・）は、規格化演算の関数を示す。より具体的な演算式の例を、式（１０）に示す。式（１０）中の｜ｈ’｜は、ベクトルｈ’の要素の個数を示す。

　隠れ層ＨＬ４は、入力ベクトルであるベクトルh’’に対して活性化関数を適用する演算を実施して、出力ベクトルであるベクトルh’’’を生成する。隠れ層ＨＬ４は、前述の規格化演算を実施する隠れ層ＨＬ４の後段に設けられている。例えば、隠れ層ＨＬ４は、隠れ層ＨＬ３（規格化演算層）の出力に対して、ランプ関数を含むＲｅＬＵ（Rectified Linear Unit）関数を適用する演算を実施する活性化関数の演算層を含む。隠れ層ＨＬ４による演算処理を式（１１）に示す。ＲｅＬＵ（・）は、活性化関数を示す。より具体的な演算式の例を、式（１２）に示す。そして、隠れ層ＨＬ４は、演算処理の結果を、ベクトルh’’’として出力する。ベクトルh’’のサイズとベクトルh''’のサイズは同じである。隠れ層ＨＬ４は、隠れ層ＨＬ３であるレイヤ規格化層の出力を識別する識別層の一例である。

　次に、隠れ層ＨＬ５から隠れ層ＨＬ８について説明する。隠れ層ＨＬ５は、前述の隠れ層ＨＬ１と同様の演算処理を実施する。隠れ層ＨＬ６は、前述の隠れ層ＨＬ２と同様の演算処理を実施する。隠れ層ＨＬ７は、前述の隠れ層ＨＬ３と同様の演算処理を実施する。隠れ層ＨＬ８は、前述の隠れ層ＨＬ４と同様の演算処理を実施する。隠れ層ＨＬ５から隠れ層ＨＬ８の各層における入力ベクトルと、出力ベクトルと、内部の演算の係数、閾値、入力ベクトルと出力ベクトルのサイズなどは、隠れ層ＨＬ１から隠れ層ＨＬ４のものと互いに異なる。

　例えば、隠れ層ＨＬ５は、隠れ層ＨＬ４によって生成されたベクトルh''’を入力ベクトルとする。隠れ層ＨＬ５は、第２重み演算を実施する第２ウエイト演算層（Weight）である。隠れ層ＨＬ５における処理は、式（６）に示す演算処理と同様であるが、式（６）のベクトルiasがベクトルh''’である点と、第２演算に用いる重み行列が第２重み行列Ｗである点と、式（６）のベクトルｈがベクトル（h）'である点が、隠れ層ＨＬ１における処理とは異なる。第２重み行列Ｗの大きさと要素の値は、第１重み行列Ｗのものとは互いに異なるものでよい。

　隠れ層ＨＬ６から隠れ層ＨＬ８の各演算も同様に、前述の各式を適用できる。
　例えば、隠れ層ＨＬ６における処理は、式（７）に示す演算処理と同様であるが、式（７）のベクトルｈがベクトル（h）'である点と、式（７）のベクトルｈ’がベクトル（h’）'である点が、隠れ層ＨＬ２における処理とは異なる。
　隠れ層ＨＬ７における処理は、式（９）に示す演算処理と同様であるが、式（９）のベクトルｈ’がベクトル（h’）'である点と、式（９）のベクトルｈ’’がベクトル（h’’）'である点が、隠れ層ＨＬ３における処理とは異なる。
　隠れ層ＨＬ８における処理は、式（１１）に示す演算処理と同様であるが、式（１１）のベクトルｈ’’がベクトル（h’’）'である点と、式（１１）のベクトルｈ’’’がベクトル（h’’’）'である点が、隠れ層ＨＬ４における処理とは異なる。

　なお、前述の式（８）、式（１０）、および式（１２）の適用に関数する詳細な説明を省略するが、上記の式（７）、式（９）、および式（１１）の説明を参照して、式（８）、式（１０）、および式（１２）を利用するとよい。
　これにより、隠れ層ＨＬ８の演算を終えて、ベクトルh''’に代わるベクトル（h''’）’が算出される。

　隠れ層ＨＬ９は、第３重み演算を実施する第３ウエイト演算層（Weight）である。
　隠れ層ＨＬ９に対する入力ベクトルは、式（１３）と式（１３）により算出されるベクトルh''’と同様のベクトル（h''’）’である。隠れ層ＨＬ９は、ベクトル（h''’）’と、所定の重みベクトルとを用いてスカラー値を算出する。隠れ層ＨＬ９が算出するスカラー値はＱ関数の出力として扱われる。

　実施形態に係る演算処理には、以上の演算処理を含むＱ関数を利用する。

　モデル更新部５０は、ミニバッチ記憶装置３５が記憶するミニバッチを参照して、パラメータφ_１、φ_２およびθを更新する。モデル更新部５０は、モデル更新手段の例に該当する。
　上記のように、パラメータφ_１は、第１Ｑ関数モデルのパラメータである。第１Ｑ関数モデル記憶装置４１は、パラメータφ_１を記憶する。パラメータφ_２は、第２Ｑ関数モデルのパラメータである。第２Ｑ関数モデル記憶装置４２は、パラメータφ_２を記憶する。方策モデル記憶装置２１は、パラメータθを記憶する。

　Ｑ関数モデル更新部５１は、パラメータφ_１およびφ_２を更新する。Ｑ関数モデル更新部５１は、評価モデル更新手段の例に該当する。

　方策モデル更新部５２は、パラメータθを更新する。方策モデル更新部５２は、方策モデル更新手段の例に該当する。

　モデル計算部５３は、第１Ｑ関数モデル、第２Ｑ関数モデル、方策モデルの各々の値を計算する。例えば、Ｑ関数モデル更新部５１が第１Ｑ関数モデル、第２Ｑ関数モデルの各々を更新する際、モデル計算部５３は、第１Ｑ関数モデル、第２Ｑ関数モデル、方策モデルの各々の値を算出する。モデル計算部５３は、モデル計算手段の例に該当する。例えば、モデル計算部５３は、上記の方策情報と上記の状態情報とに対する重み付け演算を実施して、重み付け演算の結果にノイズを付加して、ノイズが付加された演算結果の値を規格化して、規格化された結果を所定の識別規則に従い識別して、その識別の結果（識別結果）に基づいて、学習状況を示す評価値を生成する第１Ｑ関数モデルと第２Ｑ関数モデル（Ｑ関数）を用いる。モデル計算部５３は、上記の第１Ｑ関数モデルと第２Ｑ関数モデル（Ｑ関数）を用いて、学習状況を示す評価値を生成する。この詳細については後述する。

　パラメータ記憶部５７は、学習処理に利用するハイパーパラメータを記憶する。
　パラメータ取得部５８は、上記のハイパーパラメータを取得して、パラメータ記憶部５７に追加する。ハイパーパラメータは、学習処理に用いるパラメータの中で、ユーザーなどによって決定されるパラメータである。例えば、ユーザーなどによりシナリオ、動作モードなどが指定される。上記のシナリオ、動作モードには、これを識別可能なハイパーパラメータが対応付けられている。学習装置３０は、このハイパーパラメータを用いて、所望のシナリオ、動作モードにおける学習処理を実施する。後述するパラメータＧは、ハイパーパラメータの一例である。

　より具体的には、例えば、パラメータ取得部５８は、モデル更新に関わるＱ関数の個数と、Ｑ関数内のノイズを付加する演算層（ドロップアウト演算層）の層数と、Ｑ関数内で、前段の層の出力に基づいて出力を規格化するレイヤ規格化層の層数と、制御対象１１の動作モードに応じて価値伝搬の演算を実施する回数と、の中の少なくとも何れかの情報を受け付けて取得する。

＜実施形態における処理＞
　図４は、制御システム１０が行う処理の手順の例を示すフローチャートである。制御システム１０は、図４の処理を繰り返し行う。
　図４の処理で、制御システム１０は、ユーザーなどにより指定されるシナリオ、動作モードなどに対応付けられている制御パラメータ（学習処理のパラメータＧ）を、学習装置３０によって取得して（ステップＳ１００）、これを制御パラメータとしてパラメータ記憶部５７に格納する。このパラメータＧは、ハイパーパラメータの一例である。パラメータＧにより特定される条件のもとで、制御システム１０は、以下の処理を実施する。

　観測器１２は、制御対象１１に関する観測を行う（ステップＳ１０１）。例えば、観測器１２は、制御対象１１とその周囲環境とを観測する。

　次に、状態推定装置１３は、観測器１２の観測情報を元に、制御対象１１に関する状態を推定する（ステップＳ１０２）。例えば、状態推定装置１３は、制御対象１１とその周囲環境とを含んだ状態を推定するなど、制御対象１１の制御に影響し得る状態を推定する。

　次に制御決定装置２０は、状態推定装置１３によって推定される状態と、方策モデル記憶装置２１とを参照して取得した方策モデルとに従って、上記の推定される状態にて実施する行動を決め、決めた行動に応じた制御値を算出する（ステップＳ１０３）。次に、制御実施装置１５は、制御決定装置２０によって出力される制御値に従い制御対象１１の制御を実施する（ステップＳ１０４）。

　次に報酬計算装置１４は、状態推定装置１３によって推定される状態と、制御決定装置２０によって出力される制御値とを参照して、例えば制御対象１１の状態の推定値と、上記の制御値に基づいた制御の結果の観測結果又は状態の推定結果とに基づいて報酬を算出する（ステップＳ１０５）。なお、上記の一例として、報酬計算装置１４は、制御値の基となる制御目標値と、観測結果による検出値との自乗誤差を報酬の算出に用いてもよい。

　次に、学習装置３０は、状態推定装置１３によって推定される状態と、制御決定装置２０によって出力される制御値と、報酬計算装置１４によって出力される報酬とのセットを、経験として経験記憶装置３１に追加、記録する（ステップＳ１０６）。

　次に学習装置３０は、方策モデル記憶装置２１に格納されている方策モデル、評価モデル記憶装置４０に格納されているＱ関数モデル、および、経験記憶装置３１に格納されている経験を参照して、これらのモデルを更新する（ステップＳ１０７）。具体的には、方策モデル更新部５２は、方策モデル記憶装置２１に格納されている方策モデルのパラメータθを更新する。Ｑ関数モデル更新部５１は、評価モデル記憶装置４０に格納されているＱ関数モデルのパラメータφ_１およびφ_２を更新する。
　ステップＳ１０７の後、制御システム１０は、図４の処理を終了する。上述したように、制御システム１０は、ステップＳ１０１からＳ１０７までの一連の処理を再度繰り返す。

　図７は、実施形態の制御システム１０がモデルを更新する処理手順の例を説明するための図である。制御システム１０は、図６の処理を、図７に示すアルゴリズムを用いて実施してもよい。

ステップＳ１：
　学習装置３０は、方策モデルのパラメータθ（policy parameters θ）と、２つのドロップアウトＱ関数のパラメータφ１、φ２とを初期化して、再現バッファＤを空にして、ターゲットパラメータφbar１、φbar２をパラメータφ１、φ２を用いて設定する。

ステップＳ２：
　学習装置３０は、以下の処理を繰り返す。

ステップＳ３：
　学習装置３０は、状態ｓ_ｉにおける方策π_θによって定まる確率π_θ（・｜ｓ_ｉ）に基づいて行動ａ_ｉを決定し、決定した行動ａ_ｉが実行されるよう制御する。学習装置３０は、その行動ａ_ｉの結果に基づいた報酬ｒ_ｉと、次の状態ｓ_ｉ＋１を観測して、これらの情報を関連付けた経験データを生成する。学習装置３０は、この経験データを再現バッファＤに追加する。追加する経験データを、式（１４）に示す。追加される経験データは、例えば、実時間で生じた事象を観測して得られた結果になる。学習装置３０は、これを時刻歴情報として経験記憶装置３１に記憶させる。なお、各経験データは、一意に識別可能な識別情報ｋが付与されていてもよい。

ステップＳ４：
　学習装置３０は、ハイパーパラメータＧの更新により、ステップＳ５からステップＳ９までの処理を繰り返す。

ステップＳ５：
　学習装置３０は、経験記憶装置３１の再現バッファＤに格納されている経験データの中から、ハイパーパラメータＧに対応付けられた特定のミニバッチＢを抽出する。抽出されたミニバッチＢを、式（１５）に示す。この式（１５）におけるｓ，ａ，ｒ，およびｓ’は、抽出されたミニバッチＢに含まれる経験データの状態ｓ_ｔ、行動ａ_ｉ、報酬ｒ_ｉ、および状態ｓ_ｔ＋１に夫々対応する。このミニバッチＢの経験データは、所定の期間に亘って観測された経験に対するデータセットを含むものであってよい。

ステップＳ６：
　学習装置３０は、抽出されたミニバッチＢに基づいて、ドロップアウトＱ関数のターゲットｙを、次の式（１６）に従い計算する。ドロップアウトＱ関数とは、前述の図６に示したＱ関数の一例である。以下の説明において、ドロップアウトＱ関数のことを単にＱ関数と呼ぶ。特に明示しない実施形態のＱ関数は、一般的なＱ関数ではなく、ドロップアウトＱ関数のことである。

　この式（１６）の右辺第２項は、エントロピー最大強化学習（Maximum entropy RL （reinforcement learning））を適用したＱ関数の演算式の一例である。右辺第２項の小括弧内の第２項は、エントロピー項である。このエントロピー項は、同小括弧内の第１項の所謂Ｑ関数の値に適量の揺らぎを付与するように、この項の演算結果の大きさが調整されている。これにより、前述の式（４）のＱ関数を単独で用いる一般的な強化学習に比べて、局所解に陥ることを抑制することができる。なお、前述のドロップアウトＱ関数によって付加される変動（ノイズ）を第１ノイズと規定して、このエントロピー項による変動（ノイズ）を第２ノイズと規定することができる。上記の式（１６）によって算出されるターゲットｙには、上記の２つの変動成分（ノイズ）が含まれている。

ステップＳ７：
　学習装置３０は、識別変数ｉの値を１と２の何れかに切り替えて、夫々ステップＳ８とステップＳ９の演算を行うように制御する。

ステップＳ８：
　学習装置３０は、式（１７）を用いた最急降下法によって、パラメータφ１、φ２を夫々更新する。学習装置３０は、例えば、２つのＱ関数のうち式（１７）の上段の式の値が小さい方を選択する。式（１７）の下段は、上段の式の値を用いたパラメータφｉの更新の式である。

ステップＳ９：
　学習装置３０は、式（１８）に示す演算式と、Ｑネットワークパラメータのφ１、φ２を夫々用いて、ターゲットパラメータφbar１、φbar２を夫々更新する。ρは、予め定められた定数である。

ステップＳ１０：
　学習装置３０は、式（１９）に示す演算式に基づく勾配を使った山登り法を用いて、ポリシーパラメータθを更新する。ρは、予め定められた定数である。

　なお、式（１９）中のＢは、経験を記憶する経験記憶装置からサンプルされる経験のミニバッチである。「｜Ｂ｜」は、ミニバッチの大きさである。「経験」とは過去に起きた状態遷移のことである。この経験は、状態ｓと、状態ｓに対する行動ａと、行動ａに応じた報酬ｒと、行動ａに応じた次の状態ｓ’とを組み合わせた（ｓ，ａ，ｒ，ｓ’）で表される。上記の式（１５）は、ミニバッチＢに含まれる経験（ｓ，ａ，ｒ，ｓ’）を示す。

　学習中に変化するパラメータφbarにターゲットｙが依存することから、Ｑ関数モデルの最適化の実行中にターゲットｙは変化する。
　方策モデルπ_θについて決定論的方策を仮定しており、別の更新則でＱ_φを最大化するａを出力するようにパラメータθが更新される。

　比較例の一般的なＱ関数を用いる場合、そのＱ関数の学習に時間を要する要因の１つに、Ｑ関数の過大推定問題と呼ばれる問題がある。Ｑ関数の過大推定で問題となるのは式（４）のＱφbar（ｓ’，π_θ（ｓ’））の部分である。ターゲットパラメータφbarおよび同期元のパラメータφが、方策π_θに関する累積報酬の期待値としての真のＱ関数Ｑ_πθを適切に近似できていない場合、π_θ（ｓ）が「適切に近似ができていないＱ_φを最大化するａを出力する」ため、Ｑ関数モデルの出力値が真のＱ関数の出力値よりも大きくなるような過大バイアスが入ってしまう。

　そこで、実施形態では、２つのＱ関数モデルを用意し、出力値を比較して小さい方の出力値を採用することでＱ関数の過大推定を緩和する。言い換えると、これにより、モデル更新が安定するため学習に必要な時間が短縮されると期待される。
　実施形態では、同じＱ関数モデル本体に異なるパラメータ値を適用することで、複数のＱ関数モデルを構成する場合を例に説明する。

　式（１７）から（１９）まではＱ関数モデルのパラメータφ_iの更新則である。実施形態では、２つのパラメータφ_１、φ_２に夫々適用される。Ｑ関数モデルが２つになるのでターゲットパラメータもそれぞれφbar_１、φbar_２が用いられ、出力値の小さい方のターゲットパラメータが教師信号の計算に使われる。

　式（１８）の「Ｑφbar_ｉ」は、状態ｓ’と、状態ｓ’を方策π_θに適用して得られる行動π_θ（ｓ’）とをＱ関数モデルＱφbar_ｉに適用することを示している。この「Ｑφbar_ｉ」は、状態ｓ’が与えられ、状態ｓ’に応じて行動π_θ（ｓ’）が得られた場合の、累積報酬の条件付き期待値を示す。この点で、Ｑ関数モデルＱφbar_ｉは、状態ｓ’における行動π_θ（ｓ’）の良さ（または、価値、有効性、好ましさ）を評価（または、推定）するモデルであるということができる。Ｑ関数モデルＱφbar_ｉの値は、状態ｓ’における行動π_θ（ｓ’）の良さ（または、価値、有効性、好ましさ）の指標値であるということができる。

　状態ｓは、第１状態の例に該当する。行動ａは、第１行動の例に該当する。制御対象が、第１状態である状態ｓにて第１行動である行動ａを行った場合の遷移先の状態ｓ’は、第２状態の例に該当する。第２状態である状態ｓ’を方策π_θに適用して得られる行動π_θ（ｓ’）は、第２行動の例に該当する。

　Ｑ関数Ｑφbar_ｉは、第２行動評価関数の例に該当する。ここでいう第２行動評価関数は、第２状態における第２行動の評価値を算出する関数である。
　Ｑ関数に状態ｓ’と行動π_θ（ｓ’）と適用したＱ関数値Ｑφbar_ｉは、第２行動評価値の例に該当する。ここでいう第２行動評価値は、第２状態における第２行動の評価値である。第２行動評価値を第２評価値とも称する。

　Ｑ関数モデルＱφbar_ｉは、第２行動評価関数モデルの例に該当する。ここでいう第２行動評価関数モデルは、第２行動評価関数のモデルである。第２行動評価関数モデルのパラメータ値が定まることで、第２行動評価関数モデルが、１つの第２行動評価関数を示す。

　ただし、実施形態における第２行動の評価手段は、関数の形式で示されるもの（第２行動評価関数）に限定されない。第２状態と第２行動との入力に対して第２行動の評価値を出力可能ないろいろな手段を、第２行動の評価手段として用いることができる。例えば、第２行動の評価手段が、ホワイトノイズなどの揺らぎを持った評価値を出力するものであってもよい。この場合、第２行動の評価手段が、同じ第２状態および第２行動の入力に対して異なる評価値を出力するものであってもよい。このように、実施形態の第２状態における第２行動の評価値（第２評価値）にはノイズが含まれる。Ｑ関数Ｑφbar_ｉと、Ｑ関数モデルＱφbar_ｉは、夫々上記の第２行動の評価値に乱雑さを付加するように構成されている。

　第２行動の評価手段が、関数の形式で示されるものに限定されないことから、実施形態における第２行動の評価モデルも、関数を示すモデル（第２行動評価関数モデル）に限定されない。このように、関数を表すモデルに限定されない第２行動の評価モデルを、第２行動評価モデル、または単に評価モデルと称する。
　Ｑ関数モデルＱφbar_ｉは、関数モデルの例にも該当する。

　以上のように、モデル計算部５３は、制御対象１１の状態ｓにおける行動ａに応じた状態ｓ’と、状態ｓ’から方策モデルπ_θを用いて算出される行動π_θ（ｓ’）とに基づいて、状態ｓ’における行動π_θ（ｓ’）の良さの指標値であるＱ関数値Ｑφbar_１（ｓ’，π_θ（ｓ’））およびＱφbar_２（ｓ’，π_θ（ｓ’））を算出する２つのＱ関数モデルＱφbar_１およびＱφbar_２を用いて、それぞれＱ関数値を算出する。

　上述したように、状態ｓは、第１状態の例に該当する。行動ａは、第１行動の例に該当する。状態ｓ’は、第２状態の例に該当する。行動π_θ（ｓ’）は、第２行動の例に該当する。Ｑ関数値Ｑφbar_１およびＱφbar_２は、第２評価値の例に該当する。Ｑ関数モデルＱφbar_１およびＱφbar_２は、評価モデルの例に該当する。

　モデル更新部５０は、Ｑ関数値Ｑφbar_１およびＱφbar_２のうち何れか小さい方のＱ関数値と、報酬ｒとに基づいて、Ｑ関数モデルＱφbar_１およびＱφbar_２を更新する。報酬ｒは、状態ｓにおける行動ａの良さの指標値である第１評価値の例に該当する。

　このように、学習装置３０では、複数のＱ関数モデルを用いて各Ｑ関数モデルの学習を行うことで、値が比較的小さいＱ関数を用いて行動の評価を推定することができる。これにより、Ｑ関数モデルの過大推定など行動の評価が過大に推定されることを緩和することができる。学習装置３０によれば、この点で、強化学習に必要な時間の短縮を図ることができる。

　これにより、学習装置３０は、Ｑ関数値の誤差が大きくなる経験を優先的に用いてＱ関数モデルの学習を行うことができ、誤差を効率的に改善できることが期待される。
　学習装置３０によれば、この点で、強化学習に必要な時間の短縮を図ることができる。

　次に、図８から図１０を参照して、実施形態の検証結果について説明する。図８から図１０は、実施形態における検証結果を示す図である。
　図８に示すグラフ内の分布は、環境とのインタラクション回数と報酬の平均利得（Average return）との関係を示す。図８に示すグラフにおいて、環境とのインタラクション回数が横軸に、報酬の平均利得が縦軸に設定されている。この図８のグラフから強化学習装置のサンプル効率が読み取れる。図８内の網掛けは、各インタラクションにおいて報酬の値がばらついた範囲を示す。

　例えば、報酬の平均利得が所定値に達するまでのサンプリング回数、つまり環境とのインタラクション回数がより少ない方が、より効率よく強化学習装置の学習が進行していることになる。ここに示されたサンプル効率は、強化学習装置の学習特性の全体的な性能を示す。グラフ内で、より左上にあるほど、サンプル効率が高いことを示す。

　実線が比較例のサンプル効率を示し、破線が本実施形態のサンプル効率を示す。以下同様である。図８から、本実施形態の結果（破線）は比較例（実線）よりもサンプル効率の点で優れていることが分かる。

　図９に示すグラフは、過大評価バイアス（overestimation-bias）の削減性能を示す。図９に示すグラフにおいて、環境とのインタラクション回数が横軸に、実際と推定結果との差の平均（average bias）が縦軸に設定されている。この図９のグラフから、強化学習装置の推定結果が実際のものからどれだけずれているかが読み取れる。図９内の網掛けは、各インタラクションにおいて、強化学習装置の推定結果と、実際のものとの差異がばらついた範囲を示す。

　例えば、この縦軸の値が０に近い方が、より正しく推定できていることを示し、より早く０に近づく方が、実際と推定結果との差がより早く削減する性能（削減性能という。）を有することになる。図９から、本実施形態は比較例よりも過大評価バイアスの削減性能が優れていることが分かる。

　図１０に示すグラフは、Ｑ関数の値の分散（Variance）の削減性能を示す。図１０に示すグラフにおいて、環境とのインタラクション回数が横軸に、Ｑ関数の値の分散（Variance）の平方根が縦軸に設定されている。この図１０のグラフから、Ｑ関数の推定がばらついているかが読み取れる。図１０内の網掛けは、各インタラクションにおいて、Ｑ関数の分散の平方根がばらついた範囲を示す

　例えば、バイアスの標準偏差が０に近いほど、Ｑ関数の値の分散の削減性能が高くなる。図１０から、環境とのインタラクション回数が少ないうちは、実施形態の方が比較例よりもＱ関数の値の分散の削減性能が高いことが分かる。

　上記の実施形態によれば、学習装置３０のモデル計算部５３は、制御対象１１の状態ｓ（第１状態）における行動ａ（第１行動）に応じた状態ｓ’（第２状態）と、状態ｓ’から方策π_θ（方策モデル）を用いて算出される行動π_θ（ｓ’）（第２行動）とに基づいて、状態ｓ’における行動π_θ（ｓ’）の評価結果を示す指標値にノイズを含ませたＱ関数値Ｑφbar_ｉ（第２評価値）を算出するＱ関数モデル（評価モデル）を複数用いて、ノイズを含むＱ関数値Ｑφbar_ｉ（第２評価値）をそれぞれ算出する。モデル更新部５０は、複数のＱ関数値Ｑφbar_ｉ（第２評価値）のうち最も小さいＱ関数値Ｑφbar_ｉ（第２評価値）と、状態ｓにおける行動ａの評価結果を示す指標値である報酬ｒ（第１評価値）とに基づいて、方策π_θ（方策モデル）またはそのパラメータ変数θを更新する。

　以下、幾つかの具体的な適用例を例示して、その実施例を説明する。

　図１１は、実施例１における制御対象の振り子の例を示す図である。
　実施例１では、制御システム１０が、図１１のような振り子を倒立させる例について説明する。図１１は、振り子の軸方向から見た立面図である。例えば、図１１の右向きに＋Ｘ軸、図１１の上向きに＋Ｚ軸、図１１の面に交差して奥行き方向に＋Ｙ軸を定める。振り子の軸は、Ｙ方向に延伸している。図１１の振り子１１Ａは、制御対象１１の例に該当する。この振り子１１Ａは軸にモーターが付いており、振り子１１Ａの動きをモーターで制御できる。
　ここで、実施例１の目的は、モーターの制御により、制限時間１００秒の間に振り子１１Ａを倒立させ（図１１の位置ＰＯＳ３）、倒立状態をできるだけ長く継続する自動制御則（自動制御のための方策）を学習により獲得することとする。

　ただし、このモーターのトルクはあまり強くなく、例えば振り子１１Ａを位置ＰＯＳ１から直接位置ＰＯＳ３へ移動させて倒立させることはできない。このため、位置ＰＯＳ１にある振り子１１Ａを倒立させるには、まずトルクを掛けて例えば位置ＰＯＳ２まで移動させある程度位置エネルギーを蓄えてから、逆方向に適度なトルクを掛けて位置ＰＯＳ３まで持っていく必要がある。
　実施例１では、特に断らない場合は、「π」は円周率を示し、「ｘ」は角度を示す。

　実施例１では、観測器１２は振り子１１Ａの角度ｘを測定するセンサーである。ここで角度は＋Ｙ軸の正の向きに延伸する＋Ｙ軸周りの角度ｘを、＋Ｚ軸方向を角度の基準として、＋Ｚ軸方向から＋Ｘ軸に向かう時計回りの回転方向を正に、反時計回りの回転方向を負にとることで、振り子１１Ａの角度ｘの範囲を、ｘ∈［－π，π］と定義する。なお、図１１の位置ＰＯＳ１はｘ＝－５π／６に相当する。位置ＰＯＳ２はｘ＝５π／１２に相当する。位置ＰＯＳ３はｘ＝０に相当する。

　振り子１１Ａの状態ｓを、角度ｘ、角速度ｘ′、および、角加速度ｘ”で表すものとし、（ｘ，ｘ′，ｘ”）と表記する。また、実施例１では位置ＰＯＳ１を振り子１１Ａの初期位置とし、初期角度－５π／６とする。初期角速度、初期角加速度は共に０とする。

　状態推定装置１３は観測器１２のセンサー情報から真の軸の角度ｘ、角速度ｘ′、角加速度ｘ”を推定し、状態ｓ＝（ｘ，ｘ′，ｘ”）の情報を構成する。状態推定装置１３は、０．１秒毎に状態推定を行い、状態の情報を０．１秒毎に出力するものとする。状態推定装置１３のアルゴリズムとして例えばカルマンフィルタ等を使うこととする。

　報酬計算装置１４は状態推定装置１３から状態ｓの情報を受け取り、報酬関数ｒ（ｓ）＝－ｘ^２を算出する。この報酬関数は実施例１の目的に合わせて、倒立時間が長くなるほど累積報酬が高くなるように設計されているものとする。

　制御実施装置１５は制御決定装置２０から制御値ｃを受け取り、振り子１１Ａを制御する。実施例１での制御値ｃは、モーターに掛ける電圧Ｖであり、制御値ｃの値域は［－２Ｖ，＋２Ｖ］であるとする。また制御実施装置１５は新たな制御値ｃを受け取るまでは同じ電圧をモーターに掛け続けるものとする。制御値ｃは、振り子１１Ａの行動ａを示す。

　また、状態推定装置１３の状態算出（図４のステップＳ１０２）から０．０１秒間で、制御決定装置２０の処理（図４のステップＳ１０３）、制御実施装置１５の処理（図４のステップＳ１０４）、および、報酬計算装置１４の処理（図４のステップＳ１０５）が完了するものとする。これにより、状態推定装置１３における状態推定の０．０１秒後に制御値が変更されるものとする。制御決定間隔は状態推定間隔と同様に０．１秒とする。

　離散時間ラベルｔ＝０、１、２、３、．．．を、それぞれ、制御開始時刻、（制御開始時刻＋０．１秒後）、（制御開始時刻＋０．２秒後）、（制御開始時刻＋０．３秒後）、．．．と定義する。制御開始時刻、（制御開始時刻＋０．１秒後）、（制御開始時刻＋０．２秒後）、（制御開始時刻＋０．３秒後）、．．．について推定される状態ベクトルを、それぞれ、ｓ_０、ｓ_１、ｓ_２、ｓ_３、．．．と表記する。制御開始時刻、（制御開始時刻＋０．１秒後）、（制御開始時刻＋０．２秒後）、（制御開始時刻＋０．３秒後）、．．．について算出される制御値を、それぞれ、ｃ_０、ｃ_１、ｃ_２、ｃ_３、．．．と表記する。制御値ｃ_０、ｃ_１、ｃ_２、ｃ_３、．．．が示す振り子１１Ａの行動を、それぞれ、ａ_０、ａ_１、ａ_２、ａ_３、．．．と表記する。制御開始時刻、（制御開始時刻＋０．１秒後）、（制御開始時刻＋０．２秒後）、（制御開始時刻＋０．３秒後）、．．．について算出される報酬値を、それぞれ、ｒ_０、ｒ_１、ｒ_２、ｒ_３、．．．と表記する。

　制御決定装置２０は状態推定装置１３から状態ｓを受け取り、方策モデル記憶装置２１が記憶する方策モデルを参照して方策モデルの演算を行い、演算結果を制御値ｃとして制御実施装置１５に送信する。
　実施例１では、方策モデルは隠れ層２層の全結合型のニューラルネットワークで、入力層が状態ｓを受け取り、出力層が制御値ｃを出力する。また隠れ層１層あたりのノード数は２５６個とし、活性化関数としてｔａｎｈ関数を使用することとする。このニューラルネットワークモデルの全パラメータは方策モデル記憶装置２１に保持される。

　経験記憶装置３１は各時刻ｔにおける、状態推定装置１３が推定する状態ｓ_ｔ、制御決定装置２０が出力する制御値ｃ_ｔ、報酬計算装置１４が出力する報酬値ｒ_ｔ、および、次の時刻（ｔ＋１）にて状態推定装置１３が推定する状態ｓ_ｔ＋１の組（ｓ_ｔ，ｃ_ｔ，ｒ_ｔ，ｓ_ｔ＋１）、すなわち「経験」を逐次記録していく。上記のように、制御値ｃ_ｔは、行動ａ_ｔを示す。

　評価モデル記憶装置４０の第１Ｑ関数モデル記憶装置４１が記憶するモデル、および、第２Ｑ関数モデル記憶装置４２が記憶するモデルは、何れも方策モデルと同様に、隠れ層２層の全結合型のニューラルネットワークで、隠れ層１層あたりのノード数は２５６個とし、活性化関数としてｔａｎｈ関数を使用することとする。ただし、入力層は状態と制御値の組（ｓ，ｃ）を受け取り、出力層はＱ（ｓ，ｃ）の値を出力する。

　学習装置３０の経験取得部３４は、新たな経験をサンプリングして、経験記憶装置３１に追加する。
　学習装置３０は、前述の図４に示した処理、または図７示したアルゴリズムに従って学習処理を進める。

　本実施形態の技術によれば、上記の「倒立振り子」問題において、本実施形態の技術を使用しない場合と比較して「少ない経験数」で倒立する方策モデルを獲得できる。

　実施例２では、制御システム１０が、化学プラントの一種であるＶＡＭ（Vinyl Acetate Monomer）プラントの自動制御を行う例について説明する。
　ここではＶＡＭプラントシミュレータを制御対象１１とするが、ＶＡＭプラントシミュレータが十分現実を再現している場合は、方策モデルを学習後に制御対象１１を実際のＶＡＭプラントに置き換えて適用してもよい。実施例２では、制御対象１１を実際のＶＡＭプラントに置き換えることを前提に説明をする。

　図１２は、ＶＡＭプラントにおけるセクションの構成例を示す図である。ＶＡＭプラントは７つの異なる役割を果たすセクションで構成されている。
　セクション１でＶＡＭの原材料を混合する。セクション２で化学反応を起こしＶＡＭを生成する。セクション３から５まででＶＡＭの分離、圧縮および収集を行う。セクション６から７まででＶＡＭの蒸留および沈殿を行う。これら一連の工程で得られるＶＡＭが製品として売り出される。

　実施例２のＶＡＭプラント全体として、圧力・温度・流量などを測定する観測機器が約１００個、圧力・温度・流量などを調整するＰＩＤ制御器（Proportional-Integral-Differential Controller）が約３０個備え付けられている。実施例２では、このＶＡＭプラントの全体収益を上げるような方策モデルを獲得することを目的とする。ここで全体収益とは、製品利益（ＶＡＭ）から消費コスト（エチレン、酢酸、酸素、電気、水など）を差し引いたものである。

　なおＶＡＭプラントの制御時間は１００時間とし、この制御時間の中で全体収益の累計が初期状態を継続するときの値よりも改善することを最終目的とする。ここでの初期状態とは、人手で各ＰＩＤ制御器の目標値を調整し、ＶＡＭプラント全体として定常状態になった状態のこととする。この初期状態はＶＡＭプラントシミュレータで予め用意されているものを使用する。

　実施例２では、観測器１２は上述した観測機器約１００個を用いて構成される。使用したＶＡＭプラントシミュレータでは、観測機器では測定できない重要な物理量も取得できるが、それらは使用しない。ＶＡＭプラントシミュレータを実際のＶＡＭプラントに置き換えるためである。

　状態推定装置１３は観測器１２の情報から真の温度、圧力、流量などの物理量を推定し、状態を構成する。状態推定は３０分毎に行われるものとし、状態の情報も３０分毎に出力されるとする。状態推定装置１３のアルゴリズムは例えばカルマンフィルタ等を使うこととする。

　報酬計算装置１４は状態推定装置１３から状態ｓを受け取り、上述の全体収益、ｒ（ｓ）を算出する。計算方法はＶＡＭプラントシミュレータに準拠する。全体収益が上がるほど報酬も高くなる。
　制御実施装置１５は制御決定装置２０から制御値ｃを受け取り、ＶＡＭプラントシミュレータを制御する。実施例２での制御値ｃは、各ＰＩＤ制御器の目標値である。制御実施装置１５は新たな制御値ｃを受け取るまでは同じ目標値を維持する。制御値ｃは、ＶＡＭプラントの行動ａを示す。

　また、状態推定装置１３の状態算出（図４のステップＳ１０２）から１秒間で、制御決定装置２０の処理（図４のステップＳ１０３）、制御実施装置１５の処理（図４のステップＳ１０４）、および、報酬計算装置１４の処理（図４のステップＳ１０５）が完了するものとする。これにより、状態推定装置１３における状態推定の１秒後に制御値が変更されるものとする。制御決定間隔は状態推定間隔と同様に３０分とする。

　離散時間ラベルｔ＝０、１、２、３、．．．を、それぞれ、制御開始時刻、（制御開始時刻＋３０分後）、（制御開始時刻＋６０分後）、（制御開始時刻＋９０分後）、．．．と定義する。

　制御決定装置２０、方策モデル記憶装置２１、学習装置３０、経験記憶装置３１、評価モデル記憶装置４０、については実施例１の場合と同様であり、説明を省略する。

　実施例２における２つの効果は実施例１の場合と同様である。その結果として、本発明技術を使用しない場合と比較して「少ない経験数」で全体収益を改善する方策モデルを獲得でき、ＶＡＭプラントシミュレータが十分現実を再現している場合は、実際のＶＡＭプラントに方策モデルを適用しても同等の全体収益改善を出すことができる。

　実施例３では、制御システム１０が、人型ロボットを自動制御する場合について説明する。実施例３でも実施例２と同様にシミュレーションで学習した方策モデルを実際の制御対象に適用することを念頭に置いて説明する。つまり、ここでは制御対象１１はシミュレータ上の人型ロボットであり、シミュレータを用いて得られた方策を実際の人型ロボットに適用することを考える。

　実施例３では、人型ロボットが制御時間１００秒の間に、転ばずに二足歩行し続けるような方策モデルを獲得することを最終目的とする。制御対象の人型ロボットには１７個の関節があり、それぞれにモーターが付いている。観測器１２は各関節の角度およびトルクを測定するセンサーと、頭部に搭載されるＬＩＤＡＲ（Light Detection and Ranging）とを含む。使用したシミュレータでは観測器１２では測定できない重要な物理量も取得できるが、それらは使用しない。実際の人型ロボットにも適用するためである。

　状態推定装置１３は観測器１２の情報から真の各関節の角度、角速度、角加速度、トルク、ロボットの重心の絶対座標、重心速度、各関節に掛かる負荷、を推定し、状態を構成する。状態推定は０．１秒毎に行われるものとし、状態の情報も０．１秒毎に出力されるとする。状態推定装置１３のアルゴリズムは例えばカルマンフィルタやＳＬＡＭ（Simultaneous Localization And Mapping）等を使うこととする。

　報酬計算装置１４は、状態推定装置１３が出力する状態ｓ、制御決定装置２０が出力する制御値ｃ、制御値ｃが制御実施装置１５により実施された直後に状態推定装置１３が出力する状態、すなわち状態遷移後の状態ｓ′、の組（ｓ，ｃ，ｓ′）を入力とし、報酬関数ｒ（ｓ，ｃ，ｓ′）を算出する。制御値ｃは、ロボットの行動を示す。

　報酬の計算方法はOpenAI社のgymに準拠する。基本は人型ロボットの重心速度が前方向に速いほど高い報酬を与える。また、可能な限り省電力にするためにモーターに強いトルクが出るほど減点する。また、人型ロボットが転ばないように、重心が高い位置に維持されるとボーナス点を与える。

　制御実施装置１５は制御決定装置２０から制御値ｃを受け取り、各関節のモーターのトルクを制御する。また、状態推定装置１３の状態算出（図４のステップＳ１０２）から０．０１秒間で、制御決定装置２０の処理（図４のステップＳ１０３）、制御実施装置１５の処理（図４のステップＳ１０４）、および、報酬計算装置１４の処理（図４のステップＳ１０５）、が完了するものとする。これにより、状態推定装置１３における状態推定の０．０１秒後に制御値が変更されるものとする。制御決定間隔は状態推定間隔と同様に０．１秒とする。また、離散時間ラベルｔを、実施例１と同様に状態推定のタイミングに合わせて定義する。

　制御決定装置２０、方策モデル記憶装置２１、学習装置３０、経験記憶装置３１、および、評価モデル記憶装置４０、については実施例１の場合と同様であり、ここでは説明を省略する。

　実施例３における２つの効果は実施例１の場合と同様である。その結果として、本発明技術を使用しない場合と比較して「少ない経験数」で人型ロボットが転ばずに二足歩行する方策モデルを獲得でき、人型ロボットモデルが十分現実を再現している場合は、実際の人型ロボットに方策モデルを適用しても同等の全体収益改善を出すことができる。

　図１３は、実施形態に係る学習装置の構成例を示す図である。図１３に示す構成で、学習装置５１０は、モデル計算部５１１と、モデル更新部５１２とを備える。
　かかる構成で、モデル計算部５１１は、制御対象の第１状態における第１行動に応じた第２状態と、第２状態から方策モデルを用いて算出される第２行動とに基づいて、第２状態における第２行動の指標値である第２評価値を算出する評価モデルを複数用いて、第２評価値をそれぞれ算出する。モデル更新部５１２は、複数の第２評価値のうち最も小さい第２評価値と、第１状態における第１行動の指標値である第１評価値とに基づいて、方策モデルまたは方策モデルのパラメータθを更新する。
　モデル計算部５１１は、モデル計算手段の例に該当する。モデル更新部５１２は、モデル更新手段の例に該当する。
　上記の通り、実施形態のモデル計算部５１１は、敢えてノイズ（揺らぎ、乱雑さ）を第２評価値に含ませている。換言すれば、モデル計算部５１１は、制御対象の第１状態における第１行動に応じた第２状態と、第２状態から方策モデルを用いて算出される第２行動とに基づいて、第２状態における第２行動の評価結果を示す指標値にノイズを含ませた第２評価値を算出する評価モデルを複数用いて、ノイズを含む第２評価値をそれぞれ算出する。モデル更新部５１２は、それぞれ算出された複数の第２評価値のうち最も小さい第２評価値と、第１状態における第１行動の評価結果を示す指標値である第１評価値とに基づいて、方策モデルまたは方策モデルのパラメータθを更新する。行動の評価に、例えば行動の良さまたは前述の他の指標を適用してよいことはいうまでもない。

　このように、学習装置５１０では、複数の評価関数を用いて評価関数の学習を行うことで、値が比較的小さい評価関数を用いて評価関数を推定することができる。これにより、例えばＱ関数モデルの過大推定など、評価関数が過大に推定されることを緩和することができる。学習装置５１０によれば、この点で、強化学習に必要な時間の短縮を図ることができる。

　モデル計算部５１１は、例えば、図３に例示されているようなモデル計算部５３等の機能を用いて実現することができる。モデル更新部５１２は、例えば、図３に例示されているようなモデル更新部５０等の機能を用いて実現することができる。よって、学習装置５１０は、図３に例示されているような学習装置３０等の機能を用いて実現することができる。

　図１４は、実施形態に係る制御システムの構成例を示す図である。図１４に示す構成で、制御システム５２０は、モデル計算部５２１と、評価モデル更新部５２２と、方策モデル更新部５２３と、制御決定部５２４と、制御実施部５２５と、を備える。

　かかる構成で、モデル計算部５２１は、制御対象の第１状態における第１行動に応じた第２状態と、第２状態から方策モデルを用いて算出される第２行動とに基づいて、第２状態における第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ第２評価値を算出する。評価モデル更新部５２２は、複数の第２評価値のうち最も小さい第２評価値と、第１状態における第１行動の良さの指標値である第１評価値とに基づいて、評価モデルを更新する。方策モデル更新部５２３は、評価モデルを用いて方策モデルを更新する。制御決定部５２４は、方策モデルを用いて制御値を算出する。制御実施部５２５は、制御値に基づいて制御対象を制御する。

　モデル計算部５２１は、モデル計算手段の例に該当する。評価モデル更新部５２２は、評価モデル更新手段の例に該当する。方策モデル更新部５２３は、方策モデル更新手段の例に該当する。制御決定部５２４は、制御決定手段の例に該当する。制御実施部５２５は、制御実施手段の例に該当する。

　このように、制御システム５２０では、複数の評価関数を用いて評価関数の学習を行うことで、値が比較的小さい評価関数を用いて評価関数を推定することができる。これにより、例えばＱ関数モデルの過大推定など、評価関数が過大に推定されることを緩和することができる。制御システム５２０によれば、この点で、強化学習に必要な時間の短縮を図ることができる。

　モデル計算部５２１は、例えば、図３に例示されているようなモデル計算部５３等の機能を用いて実現することができる。評価モデル更新部５２２は、例えば、図３に例示されているようなＱ関数モデル更新部５１等の機能を用いて実現することができる。方策モデル更新部５２３は、例えば、図３に例示されているような方策モデル更新部５２等の機能を用いて実現することができる。制御決定部５２４は、例えば、図１に例示されているような制御決定装置２０等の機能を用いて実現することができる。制御実施部５２５は、例えば、図１に例示されているような制御実施装置１５等の機能を用いて実現することができる。よって、制御システム５２０は、図１から３までに例示されているような制御システム１０等の機能を用いて実現することができる。

　図１５は、実施形態に係る学習方法における処理手順の例を示す図である。図１５に示す学習方法は、モデル計算工程（ステップＳ５１１）と、モデル更新工程（ステップＳ５１２）をと含む。
　モデル計算工程（ステップＳ５１１）では、制御対象の第１状態における第１行動に応じた第２状態と、第２状態から方策モデルを用いて算出される第２行動とに基づいて、第２状態における第２行動の良さの指標値である第２評価値を算出する評価モデルを複数用いて、それぞれ第２評価値を算出する。モデル更新工程（ステップＳ５１２）では、複数の第２評価値のうち最も小さい第２評価値と、第１状態における第１行動の良さの指標値である第１評価値とに基づいて、評価モデルを更新する。

　図１５の学習方法では、複数の評価関数を用いて評価関数の学習を行うことで、値が比較的小さい評価関数を用いて評価関数を推定することができる。これにより、Ｑ関数モデルの過大推定など、評価関数が過大に推定されることを緩和することができる。図１５の学習方法によれば、この点で、強化学習に必要な時間の短縮を図ることができる。

　図１６は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
　図１６に示す構成で、コンピュータ７００は、ＣＰＵ７１０と、主記憶装置７２０と、補助記憶装置７３０と、インタフェース７４０と、不揮発性記録媒体７５０とを備える。
　上記の学習装置３０、学習装置５１０、および、制御システム５２０のうち何れか１つ以上またはその一部が、コンピュータ７００に実装されてもよい。その場合、上述した各処理部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ７１０は、プログラムに従って、上述した各記憶部に対応する記憶領域を主記憶装置７２０に確保する。各装置と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って通信を行うことで実行される。また、インタフェース７４０は、不揮発性記録媒体７５０用のポートを有し、不揮発性記録媒体７５０からの情報の読出、および、不揮発性記録媒体７５０への情報の書込を行う。

　学習装置３０がコンピュータ７００に実装される場合、経験取得部３４、モデル更新部５０、Ｑ関数モデル更新部５１、および、方策モデル更新部５２の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ７１０は、プログラムに従って、ミニバッチ記憶装置３５に対応する記憶領域を主記憶装置７２０に確保する。
　学習装置３０と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。

　学習装置５１０がコンピュータ７００に実装される場合、モデル計算部５１１、および、モデル更新部５１２の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ７１０は、プログラムに従って、学習装置５１０が行う処理のための記憶領域を主記憶装置７２０に確保する。
　学習装置５１０と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。

　制御システム５２０がコンピュータ７００に実装される場合、モデル計算部５２１、評価モデル更新部５２２、方策モデル更新部５２３、制御決定部５２４、および、制御実施部５２５の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ７１０は、プログラムに従って、制御システム５２０が行う処理のための記憶領域を主記憶装置７２０に確保する。
　制御実施部５２５から制御対象への制御信号の送信など、制御システム５２０と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。

　上述したプログラムのうち何れか１つ以上が不揮発性記録媒体７５０に記録されていてもよい。この場合、インタフェース７４０が不揮発性記録媒体７５０からプログラムを読み出すようにしてもよい。そして、ＣＰＵ７１０が、インタフェース７４０が読み出したプログラムを直接実行するか、あるいは、主記憶装置７２０または補助記憶装置７３０に一旦保存して実行するようにしてもよい。

　なお、学習装置３０、学習装置５１０、および、制御システム５２０が行う処理の全部または一部を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
　また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　本発明の実施形態は、学習装置、学習方法、制御システムおよび記録媒体に適用してもよい。

　１０、５２０　制御システム
　１１　制御対象
　１２　観測器
　１３　状態推定装置
　１４　報酬計算装置
　１５　制御実施装置
　２０　制御決定装置
　２１　方策モデル記憶装置
　３０、５１０　学習装置
　３１　経験記憶装置
　３４　経験取得部
　３５　ミニバッチ記憶装置
　４０　評価モデル記憶装置
　４１　第１Ｑ関数モデル記憶装置
　４２　第２Ｑ関数モデル記憶装置
　５０、５１２　モデル更新部
　５１　Ｑ関数モデル更新部
　５２、５２３　方策モデル更新部
　５３、５１１、５２１　モデル計算部
　５２２　評価モデル更新部
　５２４　制御決定部
　５２５　制御実施部

Claims

　制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の評価結果を示す指標値にノイズを含ませた第２評価値を算出する評価モデルを複数用いて、ノイズを含む第２評価値をそれぞれ算出するモデル計算部と、
　前記それぞれ算出された複数の第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の評価結果を示す指標値である第１評価値とに基づいて、前記方策モデルまたは前記方策モデルのパラメータを更新するモデル更新部と
　を備える学習装置。
　前記モデル計算部は、
　前記方策モデルに係る情報と前記第１状態に係る状態情報と前記第２状態に係る状態情報とに基づく演算結果に前記ノイズを含ませた前記第２評価値を算出する、
　請求項１に記載の学習装置。
　前記モデル計算部は、
　前記ノイズを含ませる演算と、前記ノイズを含ませた演算結果を規格化する演算とを実施する
　請求項１に記載の学習装置。
　前記モデル計算部は、
　前記ノイズを含ませた演算結果をレイヤ規格化層（Layer normalization）を用いて規格化する
　請求項１に記載の学習装置。
　前記モデル計算部は、
　前記第１行動に係る方策情報と前記第１状態に係る状態情報とに対する重み付け演算を実施して、
　前記重み付け演算の結果にノイズを付加して、
　前記ノイズが付加された演算結果の値を規格化して、
　前記規格化された結果を所定の識別規則に従い識別して、
　前記識別結果に基づいて、学習状況を示す評価値を生成する
　請求項１に記載の学習装置。
　前記モデル計算部は、
　前記方策情報と前記第１状態に係る状態情報とに対する重み付け演算を実施して、
　前記重み付け演算の結果にノイズを付加して、
　前記ノイズが付加された演算結果の値を規格化して、
　前記規格化された結果を所定の識別規則に従い識別して、
　前記識別結果に基づいて、前記学習状況を示す評価値を生成するＱ関数を用いて、前記学習状況を示す評価値を生成する
　請求項５に記載の学習装置。
　前記更新に関わるＱ関数の個数と、
　前記Ｑ関数内の前記ノイズを付加する演算層の層数と、
　前記Ｑ関数内で、前段の層の出力に基づいて前記出力を規格化するレイヤ規格化層の層数と、
　前記制御対象の動作モードに応じて価値伝搬の演算を実施する回数と、の中の少なくとも何れかの情報を受け付けるパラメータ取得部
　を備え、
　前記モデル計算部は、
　前記受け付けた情報を用いて前記価値伝搬の演算を実施する
　請求項１に記載の学習装置。
　制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の評価結果を示す指標値にノイズを含ませた第２評価値を算出する評価モデルを複数用いて、ノイズを含む第２評価値をそれぞれ算出するモデル計算手段と、
　前記それぞれ算出された複数の第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の評価結果を示す指標値である第１評価値とに基づいて、前記方策モデルまたは前記方策モデルのパラメータを更新するモデル更新手段と
　を備える制御システム。
　コンピュータが、
　制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の評価結果を示す指標値にノイズを含ませた第２評価値を算出する評価モデルを複数用いて、ノイズを含む第２評価値をそれぞれ算出し、
　前記それぞれ算出された複数の第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の評価結果を示す指標値である第１評価値とに基づいて、前記方策モデルまたは前記方策モデルのパラメータを更新すること、
　を含む学習方法。
　コンピュータに、
　制御対象の第１状態における第１行動に応じた第２状態と、前記第２状態から方策モデルを用いて算出される第２行動とに基づいて、前記第２状態における前記第２行動の評価結果を示す指標値にノイズを含ませた第２評価値を算出する評価モデルを複数用いて、ノイズを含む第２評価値をそれぞれ算出させることと、
　前記それぞれ算出された複数の第２評価値のうち最も小さい第２評価値と、前記第１状態における前記第１行動の評価結果を示す指標値である第１評価値とに基づいて、前記方策モデルまたは前記方策モデルのパラメータを更新させること、
　とを実行させるためのプログラムを記録する記録媒体。