WO2023170973A1

WO2023170973A1 - 強化学習装置、強化学習方法、及び強化学習プログラム

Info

Publication number: WO2023170973A1
Application number: PCT/JP2022/011121
Authority: WO
Inventors: 翠児玉; 綜太朗前島; 諒平松山; 崇洋秦; 正人神谷
Original assignee: 日本電信電話株式会社
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2023-09-14
Also published as: JPWO2023170973A1

Abstract

連続行動空間を対象とした強化学習を行う強化学習装置である。強化学習装置には、シミュレーション及びエージェントモデルについてあらかじめ定められた設定が保存されている。強化学習装置は、シミュレーションにより取得された状態をエージェントモデルに入力し、方策を取得するエージェントモデル推定部と、方策と、あらかじめ定義された探索量とに基づいて、行動を算出する行動決定部と、探索量を推定するための探索量推定部とを含み、エージェントモデル推定部は、状態と、報酬と、フラグと、行動とに基づいて、エージェントモデルの設定に応じて、エージェントモデルを更新し、探索量推定部は、報酬に対して求まる予測報酬と、前の試行における探索量とに基づいて、探索量を更新し、フラグ及び設定に応じた所定の条件を満たすまで、行動の算出、エージェントモデルの更新、及び探索量の更新を繰り返す。

Description

強化学習装置、強化学習方法、及び強化学習プログラム

　開示の技術は、強化学習装置、強化学習方法、及び強化学習プログラムに関する。

　強化学習は未知の環境に対してより良い行動を学習できる手法である。行動には連続的な値を用いることも可能であり、連続的な行動を扱う場合には、方策の確立密度関数を平均μ、分散σ^２の正規分布として扱うことができる（例えば非特許文献１参照）。この時、σが大きいほど算出される行動のばらつきが大きく、広範囲な探索がなされる。

また、強化学習は試行錯誤によって学習を行うため、学習が遅いという欠点があり、これまでに並列化等の計算時間短縮化のための検討が行われてきている（例えば非特許文献２参照）。

木村元, 小林重信. "Actor に適正度の履歴を用いた actor-critic アルゴリズム: 不完全な value-function のもとでの強化学習." 人工知能 15.2 (2000): 267-275. 森紘一郎, 山名早人. "強化学習並列化による学習の高速化." 情報処理学会研究報告知能と複雑系 (ICS) 2004.29 (2003-ICS-135) (2004): 89-94.

　従来の強化学習の手法には次の第１及び第２の課題がある。第１の課題は、強化学習の学習収束に多大な時間を要することである。そのため、なるべく少ない試行数で学習ができること、効率的な探索のために一回の試行の計算時間が過大に増えないことが達成できれば、計算時間が少なく学習を収束させることができる。

　第２の課題は、方策に基づき探索と試行錯誤を行う強化学習では、方策が不完全であると探索がうまく行えず、局所解に陥り最適な制御が実現できなくなる場合があることである。

　開示の技術は、上記の点に鑑みてなされたものであり、連続行動空間を対象とした強化学習において、予測報酬に応じて探索空間を動的に調整できる強化学習装置、強化学習方法、及び強化学習プログラムを提供することを目的とする。

　本開示の第１態様は、連続行動空間を対象とした強化学習を行う強化学習装置であって、シミュレーション及びエージェントモデルについてあらかじめ定められた設定が保存されており、前記強化学習における前記設定に基づくシミュレーションでは、あらかじめ定義された行動を入力として、次の試行における状態と、当該状態に応じた報酬と、シミュレーション実行が終了したかどうかを示すフラグとが取得されるようになっており、前記シミュレーションにより取得された前記状態を前記エージェントモデルに入力し、方策を取得するエージェントモデル推定部と、前記方策と、あらかじめ定義された探索量とに基づいて、前記行動を算出する行動決定部と、前記探索量を推定するための探索量推定部とを含み、前記エージェントモデル推定部は、前記状態と、前記報酬と、前記フラグと、前記行動とに基づいて、前記エージェントモデルの前記設定に応じて、前記エージェントモデルを更新し、前記探索量推定部は、前記報酬に対して求まる予測報酬と、前の試行における前記探索量とに基づいて、前記探索量を更新し、前記フラグ及び前記設定に応じた所定の条件を満たすまで、前記行動の算出、前記エージェントモデルの更新、及び前記探索量の更新を繰り返す。

　本開示の第２態様は、連続行動空間を対象とした強化学習を行う強化学習方法であって、シミュレーション及びエージェントモデルについてあらかじめ定められた設定が保存されており、前記強化学習における前記設定に基づくシミュレーションでは、あらかじめ定義された行動を入力として、次の試行における状態と、当該状態に応じた報酬と、シミュレーション実行が終了したかどうかを示すフラグとが取得されるようになっており、前記シミュレーションにより取得された前記状態を前記エージェントモデルに入力し、方策を取得し前記方策と、あらかじめ定義された探索量とに基づいて、前記行動を算出し、更に、前記状態と、前記報酬と、前記フラグと、前記行動とに基づいて、前記エージェントモデルの前記設定に応じて、前記エージェントモデルを更新し、前記報酬に対して求まる予測報酬と、前の試行における前記探索量とに基づいて、前記探索量を更新し、前記フラグ及び前記設定に応じた所定の条件を満たすまで、前記行動の算出、前記エージェントモデルの更新、及び前記探索量の更新を繰り返す、処理をコンピュータに実行させる。

　本開示の第３態様は、連続行動空間を対象とした強化学習を行う強化学習プログラムであって、シミュレーション及びエージェントモデルについてあらかじめ定められた設定が保存されており、前記強化学習における前記設定に基づくシミュレーションでは、あらかじめ定義された行動を入力として、次の試行における状態と、当該状態に応じた報酬と、シミュレーション実行が終了したかどうかを示すフラグとが取得されるようになっており、前記シミュレーションにより取得された前記状態を前記エージェントモデルに入力し、方策を取得し前記方策と、あらかじめ定義された探索量とに基づいて、前記行動を算出し、更に、前記状態と、前記報酬と、前記フラグと、前記行動とに基づいて、前記エージェントモデルの前記設定に応じて、前記エージェントモデルを更新し、前記報酬に対して求まる予測報酬と、前の試行における前記探索量とに基づいて、前記探索量を更新し、前記フラグ及び前記設定に応じた所定の条件を満たすまで、前記行動の算出、前記エージェントモデルの更新、及び前記探索量の更新を繰り返す、処理をコンピュータに実行させる。

　開示の技術によれば、連続行動空間を対象とした強化学習において、予測報酬に応じて探索空間を動的に調整できる。

強化学習装置のハードウェア構成を示すブロック図である。本実施形態の強化学習装置の機能的な構成を示すブロック図である。学習設定保存部に保存されるデータの一例である。モデル保存部に保存されるエージェントモデルのデータの一例である。行動保存部に保存される行動のデータの一例である。強化学習装置による強化学習処理の流れを示すフローチャートである。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　図１は、強化学習装置１００のハードウェア構成を示すブロック図である。

　図１に示すように、強化学習装置１００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１３、ストレージ１４、入力部１５、表示部１６及び通信インタフェース（Ｉ／Ｆ）１７を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、強化学習プログラムが格納されている。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

　表示部１６は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能してもよい。

　通信インタフェース１７は、端末等の他の機器と通信するためのインタフェースである。当該通信には、例えば、イーサネット（登録商標）若しくはＦＤＤＩ等の有線通信の規格、又は、４Ｇ、５Ｇ、若しくはＷｉ－Ｆｉ（登録商標）等の無線通信の規格が用いられる。

　次に、強化学習装置１００の各機能構成について説明する。図２は、本実施形態の強化学習装置の機能的な構成を示すブロック図である。各機能構成は、ＣＰＵ１１がＲＯＭ１２又はストレージ１４に記憶された強化学習プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。強化学習装置１００は連続行動空間を対象とした強化学習を行う。

　図２に示すように、強化学習装置１００は、学習設定保存部１１０と、エージェントモデル推定部１１１と、探索量推定部１１２と、行動決定部１１３とを含んで構成されている。当該構成が強化学習装置１００の主構成１００Ａである。また、強化学習装置１００は、入出力の機能を担う処理部として、設定入力部１０１と、シミュレーション実行部１０２と、モデル保存部１０３と、行動保存部１０４と、操作出力部１０５とを含む。

　設定入力部１０１は、ユーザからの入力により受け付けたデータを学習設定保存部１１０に保存する。なお、設定入力部１０１はハードウェアとしては入力部１５に相当する。

　学習設定保存部１１０には、設定入力部１０１でユーザから受け付けたデータが設定として保存される。図３は学習設定保存部１１０に保存されるデータの一例である。データは、「設定項目」、「設定内容」、「設定対象」のカラムごとに情報が保存される。「設定内容」が「設定項目」についての設定又は設定値である。「設定対象」が強化学習装置１００の対象の処理部である。１行目、２行目には、「設定項目」が｛探索量推定部パラメータ｝及び｛初期探索量｝に対する設定が保存され、探索量推定部１１２で利用される。｛探索量推定部パラメータ｝としては、α、λ、Ｃが定められる。３行目には、「設定項目」が｛強化学習アルゴリズム名｝に対する設定が保存され、エージェントモデル推定部１１１で利用される。｛強化学習アルゴリズム名｝により、エージェントモデル推定部１１１での処理内容を定める強化学習アルゴリズム（以下、単にアルゴリズムと記載するものは強化学習アルゴリズムを指す）を選定する。４、８行目には、各アルゴリズムに対して必要となる「設定項目」が｛最大ステップ数｝、｛エージェントモデル保存頻度｝に対する設定が保存される。５～７行目には、「設定項目」が、シミュレーション実行部１０２の処理内容を選定する｛シミュレーション種類名｝、｛シミュレーション初期化パラメータ｝、実行開始時の行動値を示す｛初期行動値｝に対する設定が保存される。なおこれらの設定は一例であり、学習設定保存部１１０には適宜、強化学習に必要な設定を保存し得る。学習設定保存部１１０は、保存された各設定値を、各設定値の設定対象であるシミュレーション実行部１０２、エージェントモデル推定部１１１、及び探索量推定部１１２へそれぞれ送信する。

　シミュレーション実行部１０２は、入力された行動ａに対してシミュレーションを実行する。シミュレーション実行のトリガとなる行動ａの入力は、初期動作時には学習設定保存部１１０から初期行動値を受信し、初期行動値を行動ａとする。初期動作時以外は、行動決定部１１３から行動ａを受信する。シミュレーション実行部１０２は、シミュレーションの実行により、シミュレーションの結果観測される状態ｓ（次の状態ｓ）と、状態に対して定義される報酬ｒと、フラグｄを出力し、これらの出力をエージェントモデル推定部１１１へ送信する。フラグｄはシミュレーションが終了しシミュレーション環境をリセットするべきかどうかを示す真偽値である。

　シミュレーション実行部１０２の内部アルゴリズムは、学習設定保存部１１０に保存される｛シミュレーション種類名｝に応じて設定される。内部アルゴリズムは、例えば、特定の操作に対して画面や状態が遷移することを特徴とするビデオゲーム又はボードゲームに相当するものや、シミュレータを利用することができる。シミュレータは、あらかじめユーザが用意した特定の状態に対して機器を操作した場合の状態変化を再現するものであり、例えば、空調を制御した場合の室内の温湿度変化を再現するシミュレータを利用できる。なお、シミュレーション実行部１０２と同じ入出力を持つ実環境が存在する場合、実環境を用いてもよい。実環境は、例えば、空調を制御できる建物があり、室内の温湿度変化をセンサ等により計測しデータを収集することができる環境である。

　エージェントモデル推定部１１１は、シミュレーション実行部１０２から送信された出力（状態ｓ、報酬ｒ、及びフラグｄ）を受け付け、行動決定部１１３から送信された前回試行の行動ａを受け付ける。また、エージェントモデル推定部１１１は、学習設定保存部１１０に保存されている各種設定値を読み込み、モデル保存部１０３に保存されるエージェントモデルを抽出する。

　エージェントモデル推定部１１１は、シミュレーション実行部１０２から取得した状態ｓをエージェントモデルに入力し、エージェントモデルの出力の一部として方策πを取得する。エージェントモデル推定部１１１は、取得された方策πを行動決定部１１３に送信する。また、エージェントモデル推定部１１１は、状態ｓ、報酬ｒ、フラグｄ、及び行動ａを抽出したエージェントモデルへ入力し、エージェントモデルを更新する。ここでエージェントモデルの更新に用いられる状態ｓは、後述するように次の時刻（試行）についての次の状態ｓであり、当該次の状態ｓに応じた報酬ｒ、及びフラグｄである。また、行動ａは方策π取得後に更新されたものである。エージェントモデルの計算に用いる内部アルゴリズム（強化学習アルゴリズム）は、学習設定保存部１１０に保存される｛強化学習アルゴリズム名｝により定義される。強化学習アルゴリズムは既存技術を用いればよく、連続値行動を対象とするアルゴリズムを用いればよい。アルゴリズムにより定義されるエージェントモデルは、関数又はニューラルネットワークの様態であり、それらのハイパーパラメータやニューラルネットワークの重み係数は各アルゴリズムにより定義される方法で更新される。アルゴリズムによっては、エージェントモデル推定部内で、状態ｓ、報酬ｒ、及び行動ａの履歴を保存し、モデルの更新に利用する場合もある。アルゴリズムにより定義されるエージェントモデルの更新が実行された場合又は学習設定保存部１１０にエージェントモデルの保存頻度が記載される場合には、エージェントモデル推定部１１１は、その設定値に基づき、更新されたエージェントモデルをモデル保存部１０３に送信する。

　探索量推定部１１２は、シミュレーション実行部１０２から送信された報酬ｒを受け付け、報酬ｒをもとに、例えば式（１）から予測報酬ｒ_ｐｒｅｄを更新する。式（１）のパラメータαは予測報酬の学習率であり、学習設定保存部１１０に保存される｛探索量推定パラメータ｝の設定値を利用する。また、右辺のｒ_ｐｒｅｄは更新前の予測報酬である。なお、右辺のｒ_ｐｒｅｄの初期値として０などの任意の値を利用する。

・・・（１）

　次に、探索量推定部１１２は、予測報酬ｒ_ｐｒｅｄをもとに式（２）から探索量σを決定し、行動決定部１１３へ送信する。なお、式（２）のパラメータλ及びＣは学習設定保存部１１０に保存される｛探索量推定パラメータ｝の設定値を利用する。

・・・（２）

　式（１）及び式（２）は、動物及び人間の運動学習における運動のばらつきを動的に調整するモデルを簡略化したものである。

　行動決定部１１３は、エージェントモデル推定部１１１から送信された方策πと、探索量推定部１１２から出力された探索量σに基づいて、次の試行の行動ａを算出して決定し、シミュレーション実行部１０２へ行動ａを送信する。

　ここで、方策πが平均μ、分散σ^２の正規分布を表す場合、行動ａの確率密度関数は探索量推定部１１２から出力される探索量σによって以下式（３）のように表現できる。ｘは確率変数である。行動ａは確率密度関数に応じて確率的に決定される。これにより連続行動空間を対象とした強化学習が行える。

・・・（３）

　モデル保存部１０３には、エージェントモデル推定部１１１において更新されたエージェントモデルが保存される。図４はモデル保存部１０３に保存されるエージェントモデルのデータの一例である。モデルの保存は原則更新される度に行うとする。学習設定保存部１１０に｛エージェントモデル保存頻度｝が記載される場合にはその設定に従う。

　また、エージェントモデル推定部１１１の学習を途中で中断し再度実行する際に、あらかじめモデル保存部１０３に同一の｛強化学習アルゴリズム名｝、同一の｛シミュレーション種類名｝のモデルが保存されている場合には、ステップ数の大きいモデルを読みだして利用することができる。

　行動保存部１０４には、行動決定部１１３から送信された各時刻における行動が保存される。図５は行動保存部１０４に保存される行動のデータの一例である。

　操作出力部１０５は行動保存部１０４に保存された特定の期間の行動を抽出し、対象とする制御器へ制御内容を出力する。

（強化学習装置１００の処理フロー）
　次に、強化学習装置１００の作用について説明する。図６は、強化学習装置１００による強化学習処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から強化学習プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、強化学習処理が行なわれる。

　ステップＳ１００において、ＣＰＵ１１は、エージェントモデル及び探索量を初期化する。初期化は、エージェントモデルはエージェントモデル推定部１１１で行い、探索量は探索量推定部１１２で行う。

　エージェントモデル推定部１１１では、学習設定保存部１１０に保存された｛強化学習アルゴリズム名｝等の設定項目をもとにエージェントモデルを初期化する。モデル保存部１０３において、学習設定保存部１１０に保存された｛強化学習アルゴリズム名｝及び｛シミュレーション種類名｝の組み合わせに該当するモデルがすでに存在する場合は、該当するモデルのうちステップ数が大きいものをエージェントモデルの重みとして読み出す。ここで、モデル保存部１０３に保存されるモデルを読み出した場合は、現在のステップ数を保存されたモデルのステップ数により定義する。モデル保存部１０３に保存されるモデルを読み出さない場合は、現在のステップ数を０とする。現在のステップ数はエージェントモデル推定部１１１内部に保存する。

　また、探索量推定部１１２では、学習設定保存部１１０に保存された｛探索量推定パラメータ｝及び｛初期探索量｝を抽出する。探索量として初期探索量の値を用いるように初期化する。

　ステップＳ１０２において、ＣＰＵ１１は、シミュレーション実行部１０２におけるシミュレータを初期化し、状態ｓを取得する。

　シミュレーション実行部１０２では、学習設定保存部１１０に保存された｛シミュレーション種類名｝及び｛シミュレーション初期化パラメータ｝を読み出し、シミュレーション種類名に該当するシミュレーション環境を、シミュレーション初期化パラメータを用いて初期化する。シミュレーション実行部１０２は初期化により、初期状態ｓを出力し、エージェントモデル推定部に出力する。また、状態ｓはシミュレーション実行部１０２内部に保存される。

　ステップＳ１０４において、ＣＰＵ１１は、エージェントモデル推定部１１１として、シミュレーション実行部１０２から取得した状態ｓをエージェントモデルに入力し、方策πを出力として取得する。

　ステップＳ１０６において、ＣＰＵ１１は、行動決定部１１３として、エージェントモデル推定部１１１から出力された方策πと、探索量推定部１１２で定義された探索量σとに基づいて、行動ａを算出し、決定する。行動ａはシミュレーション実行部１０２と行動保存部１０４に出力されるとともにエージェントモデル推定部１１１の内部にも保存される。

　ステップＳ１０８において、ＣＰＵ１１は、エージェントモデル推定部１１１に保存される現在のステップに１を加算する。

　ステップＳ１１０において、ＣＰＵ１１は、シミュレーション実行部１０２として、次の状態ｓと、報酬ｒと、フラグｄとを取得する。シミュレーション実行部１０２では、行動決定部１１３から取得された行動ａとシミュレーション実行部１０２内部に保存された状態ｓをもとに、次の時刻（次の試行）についての次の状態ｓを取得する。またシミュレーション実行部１０２では、当該次の状態ｓの取得と共に、当該次の状態ｓに応じて、報酬ｒと、シミュレーション実行が終了したかどうかを示すフラグｄとを算出する。

　ステップＳ１１２において、ＣＰＵ１１は、エージェントモデル推定部１１１として、エージェントモデルを更新する。更新は、シミュレーション実行部１０２から取得した状態ｓ、報酬ｒ、及びフラグｄと、エージェントモデル推定部１１１内部に保存される行動ａとに基づいて、｛強化学習アルゴリズム名｝に応じて実行する。更新されたエージェントモデルは｛エージェントモデル保存頻度｝に記載の頻度に該当する場合にモデル保存部１０３に保存する。

　なお、強化学習アルゴリズムの種類によっては、毎度のシミュレーション実行の度にエージェントモデルを更新する場合と、モデル更新を行わずに複数回おきにまとめて更新を行う場合がある。｛強化学習アルゴリズム名｝に登録されたアルゴリズム名が複数回おきにまとめて更新を行うアルゴリズムである場合は、更新せずにエージェントモデル推定部１１１内部に保存する。つまり、アルゴリズムにより定義される更新タイミング以外の場合は、エージェントモデルの更新処理は行わず、代わりにシミュレーション実行部１０２から取得した状態ｓ、報酬ｒ、及びフラグｄをエージェントモデル推定部１１１内部に保存する。アルゴリズムにより定義される更新タイミングの際には、エージェントモデル推定部１１１内部に保存された状態ｓ、報酬ｒ、フラグｄ、及び行動ａの履歴をもとにエージェントモデルの更新をおこなう。

　ステップＳ１１４において、ＣＰＵ１１は、探索量推定部１１２として、シミュレーション実行部１０２から取得した報酬ｒから求まる予測報酬と探索量推定部１１２内部に保存される前の時刻における探索量σに基づいて、探索量を更新する。探索量の更新は、上記式（１）の予測報酬の算出及び式（２）の探索量σの算出により行う。更新された探索量は探索量推定部１１２の内部に保存し、行動決定部１１３の動作の際に利用する。このように探索量を更新することで、報酬量が少ない場合に探索空間を広げるように更新が行える。

　ステップＳ１１６において、ＣＰＵ１１は、シミュレーション実行部１０２におけるフラグｄがＴｒｕｅ又はＦａｌｓｅの何れであるかを判定する。Ｔｒｕｅの場合には、ステップＳ１０２のシミュレーション実行部１０２の初期化を実行し、その後の後続処理を再度実行する。フラグｄがＦａｌｓｅの場合はステップＳ１１８へ移行する。Ｆａｌｓｅであることが本開示のフラグに関する所定の条件を満たすことの一例である。

　ステップＳ１１８において、ＣＰＵ１１は、エージェントモデル推定部１１１に保持される変数である現在のステップが、学習設定保存部１１０に保存される最大ステップ数を超えるか否か判定する。超えない場合は、ステップＳ１０４以降の処理を再度実行し、超える場合はすべての処理を終了する。最大ステップ数を超えることが本開示の設定に関する所定の条件を満たすことの一例である。

　以上説明したように本実施形態の強化学習装置１００によれば、連続行動空間を対象とした強化学習において、予測報酬に応じて探索空間を動的に調整できる。これにより、報酬が多く得られる状況では探索空間を広げずに学習収束までの時間を短縮し、一方、報酬が得られない状況では探索空間を広げることで局所解に陥ることなく最適な制御を実現することができる。

　一般的に報酬が多く得られる状況では、現状の方策でも良い制御を実行できるため、広範囲な探索をする需要は低く、反対に報酬が得られない状況では、良い制御を実行できないため、広範囲に探索をする必要がある。本開示の手法では、探索空間を予測報酬に応じて動的に調整することで、報酬の得られない方策に陥った場合に探索空間を拡大し、広範囲の行動を試行することで局所解から脱して最適解を探索する。

　本開示の手法によれば、連続行動空間を対象とした強化学習で、効率的に探索をおこなうことで学習収束までの時間を短縮することができ、第１の課題を解決できる。また、報酬量が少ない場合に探索空間を広げることで、局所解に陥らずより報酬を獲得できる方策を学習することができ、第２の課題を解決できる。

（種々の産業分野への活用）
　本開示における強化学習装置１００を用いた手法は、種々の産業分野に利用できるため活用例を挙げて各ケースを説明する。

＜空調制御に利用する場合＞
　本利用形態の場合、シミュレーション実行部１０２として気象データ、来館者人数、過去の室温、空調制御データ等を入力として将来の室温変化及び熱消費量を予測するシミュレータを利用し、行動として空調制御の設定値を扱う。これにより、快適さを保ちながら省エネ性を実現する最適な空調制御を学習するエージェントモデルを作成することができる。

　シミュレーション実行部１０２での温度予測については、各種データを入力とし、室温を出力とするニューラルネットワークや回帰モデルを利用することで実現できる。また、熱消費量予測については、気象データや来館者人数、空調機の設定値を入力とし必要熱量を予測する回帰モデルを利用することで実現できる。また、これらを組み合わせて利用することもできる。

　このとき、シミュレーション実行部１０２は、気象データや来館者人数、過去の室温、空調制御履歴などの各種センサ等から取得されたデータを内部に保持している（これを環境データと定義する）。また、シミュレーション実行部１０２は、これらの環境データを利用して将来時刻の環境変化を再現するモデルと空調制御にともない空調機器で消費される熱量（熱消費量）を推定するモデルをあらかじめ学習していることとする。また、推定された温湿度と熱消費量に基づいて、これらの値が快適かつ省エネかを評価するルールはあらかじめ定められているとする。

　なお、ステップＳ１００ついては上記処理フローの説明の通りである。ステップＳ１０２については、シミュレーション実行部１０２において、学習設定保存部１１０に登録されている｛シミュレーション種類名｝及び｛シミュレーション初期化パラメータ｝を読み出す。ここで、空調制御に利用する場合は、気象、来館者人数、過去の室温、空調制御に応じて将来の室温変化を予測するシミュレータの名前（例：室内温湿度再現ｅｎｖ）を指定する。｛シミュレーション初期化パラメータ｝に応じてシミュレーション実行部１０２を初期化する。例えば、環境データが存在しシミュレーション実行可能な日付のなかから１日をランダムに選定し、シミュレーション初期化パラメータで指定された時刻ｔにより、当該日付の時刻ｔから室内温湿度再現を行うために必要な環境データをロードし、シミュレーション実行部１０２内に保持する。また、当該日付の時刻ｔから熱消費量推定に必要な環境データも同様にロードし、シミュレーション実行部１０２内に保持する。初期状態として、時刻ｔの室内温湿度データを取得し、エージェントモデル推定部１１１に出力する。

　ステップＳ１０４、Ｓ１０８、Ｓ１１２以降については上記処理フローの説明の通りである。

　ステップＳ１０６については、上記処理フローの説明の通りである。ここで行動ａとは、ある時刻における空調制御方法を示すものであり、図４のように各空調機器に対する設定値を示すものである。ステップＳ１１０については、シミュレーション実行部１０２において、次の時刻（例えば１０分後）の室内温湿度を予測する。室内温湿度は、行動決定部１１３から取得された行動ａ（つまりは空調制御方法）とシミュレーション実行部１０２にて保存される状態ｓ及びあらかじめロードされている環境データをもとに予測する。また、空調制御にともない空調機器で消費される熱量について、状態ｓ及びあらかじめロードされている環境データを用いて推定する。室内温湿度を表す状態ｓ及び予測消費熱量から、あらかじめ定められた快適さと省エネ性の観点で良い状態かどうかを評価するルールに基づき、報酬を決定する。シミュレーションを行った時刻が当該日付のうちデータが存在する最後の時刻である場合は、シミュレーションが終了したかどうかのフラグｄをＴｒｕｅとし、これ以外の場合はＦａｌｓｅとする。状態ｓと報酬ｒ、フラグｄをエージェントモデル推定部１１１及び探索量推定部１１２に出力する。

＜ロボット等の機器制御に利用する場合＞
　本利用形態の場合、シミュレーション実行部１０２として機器の状態を示す情報と機器操作を入力として将来の機器の状態を予測するシミュレータを利用し、行動として機器の操作コマンド（モーターの動作や機器の移動指示）を扱う。機器の状態を示す情報は関節の角度や速度、ロボットの位置情報などである。これにより目的の動作を実現する最適な機器制御を学ぶエージェントモデルを作成することができる。このとき、シミュレーション実行部１０２は、事前に計測されたデータから機器状態の変化をあらかじめ予測できるように学習済みであるか、物理シミュレータにより機器状態の変化を予測できるとする。また、目的の動作であることを評価するルールはあらかじめ定められているとする。

　なお、ステップＳ１００ついては上記処理フローの説明の通りである。ステップＳ１０２については、シミュレーション実行部１０２において、学習設定保存部１１０に登録されている｛シミュレーション種類名｝及び｛シミュレーション初期化パラメータ｝を読み出す。ここで、ロボット制御に利用する場合は、前状態と機器操作から次状態を予測するシミュレータの名前（例：ロボットアームｅｎｖ）を指定する。｛シミュレーション初期化パラメータ｝に応じてシミュレーション実行部１０２を初期化する。

　ステップＳ１０６については、上記処理フローの説明の通りである。ここで行動ａとは、ある時刻における機器制御方法を示すものである。ステップＳ１１０については、シミュレーション実行部１０２において、次の時刻（例えば１秒後）の状態変化を予測する。状態変化は、行動決定部１１３から取得された行動ａ（つまりは機器制御方法）とシミュレーション実行部にて保存される状態ｓ及びあらかじめロードされている環境データをもとに予測する。また、あらかじめ定められた目的の動作であることを評価するルールに基づき、報酬を決定する。シミュレーションをおこなった結果、動作の失敗によりシミュレーションが終了した場合は、シミュレーション終了したかのフラグｄをＴｒｕｅとし、これ以外の場合はＦａｌｓｅとする。状態ｓと報酬ｒ、終了フラグｄをエージェントモデル推定部及び探索量推定部に出力する。動作の失敗とは、例えば、ロボットアームで物体を運ぶ際に、物体を落としてしまう、移動するロボットが操作対象エリアより外に出てしまう等である。

＜ゲームの操作に利用する場合＞
　本利用形態の場合、シミュレーション実行部１０２として状態を示す情報（ゲーム画面など）とゲーム操作を入力として状態が遷移するゲームをシミュレータとして利用し、行動としてゲーム操作を扱う。これにより高得点を得られるゲーム操作を学ぶエージェントモデルを作成することができる。このとき、ゲームのルールはあらかじめ定められており、報酬として取得できることを前提とする。

　なお、ステップＳ１００ついては上記処理フローの説明の通りである。ステップＳ１０２においては、シミュレーション実行部１０２において、学習設定保存部１１０に登録されている｛シミュレーション種類名｝及び｛シミュレーション初期化パラメータ｝を読み出す。ここで、ゲーム操作に利用する場合は、シミュレータ（ゲーム）の名前（例：ブロック崩しｅｎｖ）を指定する。｛シミュレーション初期化パラメータ｝に応じてシミュレーション実行部を初期化する。

　ステップＳ１０６については、上記処理フローの説明の通りである。ここで行動ａとは、ある時刻における機器制御方法を示すものである。ステップＳ１１０については、シミュレーション実行部１０２において、行動決定部１１３から取得された行動ａ（つまりはゲーム操作）をもちいてゲームを実行し、次の時刻（例えば１フレーム後）の状態変化を得る。また、あらかじめ定められたゲームのルールに基づき報酬を取得する。シミュレーションを行った結果、ゲームオーバー等によりシミュレーション（ゲーム実行）が終了した場合は、シミュレーション終了したかのフラグｄをＴｒｕｅとし、これ以外の場合はＦａｌｓｅとする。状態ｓと報酬ｒ、終了フラグｄをエージェントモデル推定部及び探索量推定部に出力する。

　以上が活用例の説明である。

　なお、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した強化学習処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、強化学習処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記実施形態では、強化学習プログラムがストレージ１４にあらかじめ記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　連続行動空間を対象とした強化学習を行う強化学習装置であって、
　シミュレーション及びエージェントモデルについてあらかじめ定められた設定が保存されており、
　前記強化学習における前記設定に基づくシミュレーションでは、あらかじめ定義された行動を入力として、次の試行における状態と、当該状態に応じた報酬と、シミュレーション実行が終了したかどうかを示すフラグとが取得されるようになっており、
　前記シミュレーションにより取得された前記状態を前記エージェントモデルに入力し、方策を取得し、
　前記方策と、あらかじめ定義された探索量とに基づいて、前記行動を算出し、
　更に、前記状態と、前記報酬と、前記フラグと、前記行動とに基づいて、前記エージェントモデルの前記設定に応じて、前記エージェントモデルを更新し、
　前記報酬に対して求まる予測報酬と、前の試行における前記探索量とに基づいて、前記探索量を更新し、
　前記フラグ及び前記設定に応じた所定の条件を満たすまで、前記行動の算出、前記エージェントモデルの更新、及び前記探索量の更新を繰り返す、
　ように構成されている強化学習装置。

　（付記項２）
　強化学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記プログラムは連続行動空間を対象とした強化学習を行う強化学習プログラムであって、
　シミュレーション及びエージェントモデルについてあらかじめ定められた設定が保存されており、
　前記強化学習における前記設定に基づくシミュレーションでは、あらかじめ定義された行動を入力として、次の試行における状態と、当該状態に応じた報酬と、シミュレーション実行が終了したかどうかを示すフラグとが取得されるようになっており、
　前記シミュレーションにより取得された前記状態を前記エージェントモデルに入力し、方策を取得し、
　前記方策と、あらかじめ定義された探索量とに基づいて、前記行動を算出し、
　更に、前記状態と、前記報酬と、前記フラグと、前記行動とに基づいて、前記エージェントモデルの前記設定に応じて、前記エージェントモデルを更新し、
　前記報酬に対して求まる予測報酬と、前の試行における前記探索量とに基づいて、前記探索量を更新し、
　前記フラグ及び前記設定に応じた所定の条件を満たすまで、前記行動の算出、前記エージェントモデルの更新、及び前記探索量の更新を繰り返す、
　非一時的記憶媒体。

１００強化学習装置
１００学習装置
１０１設定入力部
１０２シミュレーション実行部
１０３モデル保存部
１０４行動保存部
１０５操作出力部
１１０学習設定保存部
１１１エージェントモデル推定部
１１２探索量推定部
１１３行動決定部

Claims

　連続行動空間を対象とした強化学習を行う強化学習装置であって、
　シミュレーション及びエージェントモデルについてあらかじめ定められた設定が保存されており、
　前記強化学習における前記設定に基づくシミュレーションでは、あらかじめ定義された行動を入力として、次の試行における状態と、当該状態に応じた報酬と、シミュレーション実行が終了したかどうかを示すフラグとが取得されるようになっており、
　前記シミュレーションにより取得された前記状態を前記エージェントモデルに入力し、方策を取得するエージェントモデル推定部と、
　前記方策と、あらかじめ定義された探索量とに基づいて、前記行動を算出する行動決定部と、
　前記探索量を推定するための探索量推定部とを含み、
　前記エージェントモデル推定部は、前記状態と、前記報酬と、前記フラグと、前記行動とに基づいて、前記エージェントモデルの前記設定に応じて、前記エージェントモデルを更新し、
　前記探索量推定部は、前記報酬に対して求まる予測報酬と、前の試行における前記探索量とに基づいて、前記探索量を更新し、
　前記フラグ及び前記設定に応じた所定の条件を満たすまで、前記行動の算出、前記エージェントモデルの更新、及び前記探索量の更新を繰り返す、
　強化学習装置。
　前記探索量推定部は、前記設定に定めた予測報酬の学習率のパラメータと、前記報酬とに基づいて前記予測報酬を算出し、算出した前記予測報酬と前記設定における探索量推定のためのパラメータとに基づいて探索量を更新する請求項１に記載の強化学習装置。
　前記行動決定部により決定される前記行動は、確率変数と、前記方策が表す、正規分布の平均及び分散とを用いた確率密度関数に応じて確率的に決定される請求項１又は請求項２に記載の強化学習装置。
　前記行動は、空調制御方法である請求項１又は請求項２に記載の強化学習装置。
　連続行動空間を対象とした強化学習を行う強化学習方法であって、
　シミュレーション及びエージェントモデルについてあらかじめ定められた設定が保存されており、
　前記強化学習における前記設定に基づくシミュレーションでは、あらかじめ定義された行動を入力として、次の試行における状態と、当該状態に応じた報酬と、シミュレーション実行が終了したかどうかを示すフラグとが取得されるようになっており、
　前記シミュレーションにより取得された前記状態を前記エージェントモデルに入力し、方策を取得し、
　前記方策と、あらかじめ定義された探索量とに基づいて、前記行動を算出し、
　更に、前記状態と、前記報酬と、前記フラグと、前記行動とに基づいて、前記エージェントモデルの前記設定に応じて、前記エージェントモデルを更新し、
　前記報酬に対して求まる予測報酬と、前の試行における前記探索量とに基づいて、前記探索量を更新し、
　前記フラグ及び前記設定に応じた所定の条件を満たすまで、前記行動の算出、前記エージェントモデルの更新、及び前記探索量の更新を繰り返す、
　処理をコンピュータに実行させる強化学習方法。
　連続行動空間を対象とした強化学習を行う強化学習プログラムであって、
　シミュレーション及びエージェントモデルについてあらかじめ定められた設定が保存されており、
　前記強化学習における前記設定に基づくシミュレーションでは、あらかじめ定義された行動を入力として、次の試行における状態と、当該状態に応じた報酬と、シミュレーション実行が終了したかどうかを示すフラグとが取得されるようになっており、
　前記シミュレーションにより取得された前記状態を前記エージェントモデルに入力し、方策を取得し、
　前記方策と、あらかじめ定義された探索量とに基づいて、前記行動を算出し、
　更に、前記状態と、前記報酬と、前記フラグと、前記行動とに基づいて、前記エージェントモデルの前記設定に応じて、前記エージェントモデルを更新し、
　前記報酬に対して求まる予測報酬と、前の試行における前記探索量とに基づいて、前記探索量を更新し、
　前記フラグ及び前記設定に応じた所定の条件を満たすまで、前記行動の算出、前記エージェントモデルの更新、及び前記探索量の更新を繰り返す、
　処理をコンピュータに実行させる強化学習プログラム。