WO2021245720A1

WO2021245720A1 - プランナー装置、プランニング方法、プランニングプログラム記録媒体、学習装置、学習方法および学習プログラム記録媒体

Info

Publication number: WO2021245720A1
Application number: PCT/JP2020/021528
Authority: WO
Inventors: 拓也平岡; 貴士大西
Original assignee: 日本電気株式会社
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2021-12-09
Also published as: US20230211498A1; JPWO2021245720A1; JP7380874B2

Abstract

状態取得手段は、第１時刻における制御対象の状態を取得する。行動決定手段は、事前学習された価値関数に対して前記状態を入力としたときに算出される価値が最大となるように、第１時刻の次の制御タイミングである第２時刻における行動を決定する。価値関数は、第１時刻における制御対象の状態と第２時刻における行動から、第２時刻より後の第３時刻まで行動の決定を繰り返した場合に、第２時刻から第３時刻までの各制御タイミングにおける制御対象の状態に基づく報酬の総和に係る価値を算出するように学習されている。

Description

プランナー装置、プランニング方法、プランニングプログラム記録媒体、学習装置、学習方法および学習プログラム記録媒体

　本開示は、プランナー装置、プランニング方法、プランニングプログラム記録媒体、学習装置、学習方法および学習プログラム記録媒体に関する。

　非特許文献１には、行動に応じて環境が変化するロボットなどの制御において、オンライン学習にて環境モデルを生成し、最適な行動を探索する技術が開示されている。特許文献１には、強化学習においていわゆる次元の呪いを回避する技術が開示されている。

特開２００７－０１８４９０号公報

Anusha Nagabandi, Chelsea Finn and Sergey Levine, "Deep online learning via meta-learning: Continual adaption for model-based RL", arXiv preprint atXiv: 1812.07671, 2018.

　非特許文献１に記載の技術において、より適切な行動を決定するためには、軌跡の探索深さを深くし、かつ生成する軌跡のパターン数を多くすることが好ましい。ここで、探索深さをＰとおき、パターン数をＱとおくと、非特許文献１に記載の技術において行動を決定するためには、Ｐ×Ｑに比例する計算量が必要となる。
　しかしながら、一般的に、ある状態が取得されたタイミングから制御を実行すべきタイミングまでの時間は有限であり、十分な精度を得るだけの計算時間が用意できないことがある。例えば、ロボットの歩容制御においては、制御の計算に割り当てられる時間は数ミリ秒であることが一般的であり、時間内に適切な行動を決定することは困難である。

　本開示の目的の１つは、少ない計算量で精度よく行動を決定することができるプランナー装置、プランニング方法、プランニングプログラム、学習装置、学習方法および学習プログラムを提供することにある。

　本発明の第１の態様によれば、プランナー装置は、第１時刻における制御対象の状態を取得する状態取得手段と、事前学習された価値関数に対して前記状態を入力としたときに算出される価値が最大となるように、前記第１時刻の次の制御タイミングである第２時刻における行動を決定する行動決定手段とを備え、前記価値関数は、前記第１時刻における前記制御対象の状態と前記第２時刻における行動から、前記第２時刻より後の第３時刻まで行動の決定を繰り返した場合に、前記第２時刻から前記第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和に係る価値を算出するように学習されている。

　本発明の第２の態様によれば、プランニング方法は、第１時刻における制御対象の状態を取得することと、事前学習された価値関数に対して前記状態を入力としたときに算出される価値が最大となるように、前記第１時刻の次の制御タイミングである第２時刻における行動を決定することとを備え、前記価値関数は、前記第１時刻における前記制御対象の状態と前記第２時刻における行動から、前記第２時刻より後の第３時刻まで行動の決定を繰り返した場合に、前記第２時刻から前記第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和に係る価値を算出するように学習されている。

　本発明の第３の態様によれば、プランニングプログラムが格納された記録媒体は、コンピュータに、第１時刻における制御対象の状態を取得することと、事前学習された価値関数に対して前記状態を入力としたときに算出される価値が最大となるように、前記第１時刻の次の制御タイミングである第２時刻における行動を決定することとを実行させ、前記価値関数は、前記第１時刻における前記制御対象の状態と前記第２時刻における行動から、前記第２時刻より後の第３時刻まで行動の決定を繰り返した場合に、前記第２時刻から前記第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和に係る価値を算出するように学習されている。

　本発明の第４の態様によれば、学習装置は、第１時刻における制御対象の状態と前記第１時刻の次の制御タイミングである第２時刻における行動から、前記第２時刻における前記制御対象の状態を予測する予測手段と、前記予測手段に、前記第２時刻以降の行動を繰り返し入力することで得られる、前記第２時刻から前記第２時刻より後の第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和を価値として算出する報酬算出手段と、前記状態と前記行動と前記価値とに基づいて、前記第１時刻における制御対象の状態と、前記第２時刻における行動を入力として、前記価値を出力するように価値関数のパラメータを更新する更新手段とを備える。

　本発明の第５の態様によれば、学習方法は、第１時刻における制御対象の状態と前記第１時刻の次の制御タイミングである第２時刻における行動から、前記第２時刻における前記制御対象の状態を予測する予測関数に、前記第２時刻以降の行動を繰り返し入力することで得られる、前記第２時刻から前記第２時刻より後の第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和を価値として算出することと、前記状態と前記行動と前記価値とに基づいて、前記第１時刻における制御対象の状態と、前記第２時刻における行動を入力として、前記価値を出力するように価値関数のパラメータを更新することとを備える。

　本発明の第６の態様によれば、ための学習プログラムが格納された記録媒体は、コンピュータに、第１時刻における制御対象の状態と前記第１時刻の次の制御タイミングである第２時刻における行動から、前記第２時刻における前記制御対象の状態を予測する予測関数に、前記第２時刻以降の行動を繰り返し入力することで得られる、前記第２時刻から前記第２時刻より後の第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和を価値として算出することと、前記状態と前記行動と前記価値とに基づいて、前記第１時刻における制御対象の状態と、前記第２時刻における行動を入力として、前記価値を出力するように価値関数のパラメータを更新することとを実行させる。

　上記態様によれば、プランナー装置は、少ない計算量で精度よく行動を決定することができる。

第１の実施形態に係るプランナー装置の構成を示す概略ブロック図である。第１の実施形態に係るプランナー装置の動作を示すフローチャートである。第１の実施形態に係る学習装置の構成を示す概略ブロック図である。第１の実施形態に係る学習装置による価値関数の学習処理を示すフローチャートである。プランナー装置の基本構成を示す概略ブロック図である。学習装置の基本構成を示す概略ブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

〈第１の実施形態〉
《プランナー装置１０の構成》
　以下、図面を参照しながら実施形態について詳しく説明する。
　第１の実施形態に係るプランナー装置１０（図１にて図示）は、制御対象について設けられ、当該制御対象のセンサから得られた計測信号に基づいて、制御対象の行動を決定する。制御対象の例としては、ロボット、プラント、インフラストラクチャーなどが挙げられる。制御対象の個数は、１つであってもよいし、複数であってもよい。
　プランナー装置１０が決定する制御対象の行動の例としては、制御対象のアクチュエータの操作量などが挙げられる。例えば、第１の実施形態に係るプランナー装置１０は、四足歩行ロボットに取り付けられたセンサが計測する姿勢および周辺環境に基づいて、当該ロボットが転倒せずに歩行するように、各脚の関節の回転量を決定する。
　プランナー装置１０が決定する制御対象の行動の例としては、プラントにおける制御対象の装置（バルブの開閉、搬送装置の移動など）が挙げられる。例えば、第１の実施形態に係るプランナー装置１０は、配管における物質の流量を計測するセンサが計測した流量等に基づいて、当該配管が正常な状態を保てるよう、該配管に接続しているバルブの開閉（または開閉量）を決定する。
　以降の説明においては、便宜上、プランナー装置１０は、制御タイミングにおける制御対象の行動を決定するとする。プランナー装置１０は、行動を決定する処理を複数回実行するとする。複数の制御タイミングは、一定間隔であってもよいし、不定な間隔であってもよい。

　図１は、第１の実施形態に係るプランナー装置１０の構成を示す概略ブロック図である。プランナー装置１０は、状態取得部１１、報酬算出部１２、軌跡記憶部１３、価値関数記憶部１４、行動候補生成部１５、行動決定部１６、及び、制御部１７を備える。

　状態取得部１１は、制御対象について設けられた各種センサから、制御対象の状態を示す計測値を取得する。状態取得部１１は、状態取得手段の一例である。
　報酬算出部１２は、状態取得部１１が取得した計測値と、制御対象の前回の制御タイミングにおける行動とに基づいて、制御対象の状態および行動に基づく報酬を計算する。
　軌跡記憶部１３は、状態取得部１１が取得した計測値と、報酬算出部１２が算出した報酬と、行動決定部１６が決定した行動との組み合わせの時系列である軌跡データを記憶する。
　報酬は、たとえば、制御対象の目標状態への近さの程度を表す。報酬は、制御対象の状態と行動との関数としてされる。

　価値関数記憶部１４は、直近のＮ（Ｎは、自然数）ステップの制御タイミングに係る軌跡データと、当該軌跡データの次の制御タイミングにおける行動とを入力として、当該行動に対する価値を出力する価値関数を記憶する。第１の実施形態に係る価値関数によって算出される価値は、入力された行動によって変化する制御対象の状態に応じた値である。第１の実施形態に係る価値関数は、たとえば、学習済みの機械学習モデルである。価値関数の学習方法については図３を参照しながら後述する。
　行動候補生成部１５は、次の制御タイミングにおける複数の行動の候補を生成する。行動候補生成部１５は、例えば軌跡記憶部１３が記憶する軌跡データに基づいて複数の行動の候補を生成してもよいし、乱数に基づいて複数の行動の候補を生成してもよい。

　行動決定部１６は、価値関数記憶部１４が記憶する価値関数と、軌跡記憶部１３が記憶する軌跡データと、行動候補生成部１５が生成した複数の行動の候補とに基づいて、制御対象に施す行動を決定する。具体的には、行動決定部１６は、以下の手順で行動を決定する。まず、行動決定部１６は、価値関数に軌跡データと複数の行動の候補のそれぞれを入力することで、各候補について価値を算出する。そして、行動決定部１６は、複数の行動の候補のうち、たとえば、最も価値の高いものを、制御対象に施す行動に決定する。行動決定部１６は、行動決定手段の一例である。
　制御部１７は、行動決定部１６が決定した行動を制御対象に出力する。

《プランナー装置１０の動作》
　図２は、第１の実施形態に係るプランナー装置１０の動作を示すフローチャートである。
　プランナー装置１０は、制御対象の制御タイミング毎に以下の処理を実行する。まず、プランナー装置１０の状態取得部１１は、制御対象のセンサから計測値を取得する（ステップＳ１）。状態取得部１１は、取得した計測値を軌跡記憶部１３に記録する。次に、報酬算出部１２は、ステップＳ１で取得した計測値と、軌跡記憶部１３が記憶する前回の制御タイミングにおける行動とに基づいて、前回の行動の報酬を算出する（ステップＳ２）。報酬算出部１２は、算出した報酬を軌跡記憶部１３に記録する。

　行動候補生成部１５は、次の制御タイミングにおける複数の行動の候補を生成する（ステップＳ３）。行動決定部１６は、ステップＳ３で生成した複数の行動の候補を１つずつ選択し、各候補について、ステップＳ５の処理を実行する（ステップＳ４）。行動決定部１６は、価値関数記憶部１４が記憶する価値関数に、軌跡記憶部１３が記憶する軌跡データと、ステップＳ４で選択した行動の候補を入力することで、当該候補について価値を算出する（ステップＳ５）。そして、行動決定部１６は、複数の行動の候補のうち、たとえば最も価値の高いものを、制御対象に施す行動に決定する（ステップＳ６）。行動決定部１６は、決定した行動を軌跡記憶部１３に記録する。制御部１７は、行動決定部１６が決定した行動を制御対象に出力する（ステップＳ７）。

　つまり、第１の実施形態に係るプランナー装置１０の一制御周期における計算量は、行動候補生成部１５が生成する行動候補の数に比例する。

《学習装置》
　以下、プランナー装置１０の価値関数の学習について説明する。
　価値関数は、学習装置２０によって学習される。学習装置２０は、プランナー装置１０と別個の装置として設けられてもよいし、プランナー装置１０と一体に設けられてもよい。

　図３は、第１の実施形態に係る学習装置２０の構成を示す概略ブロック図である。学習装置２０は、軌跡記憶部２１、データセット抽出部２２、予測関数学習部２３、予測関数記憶部２４、予測部２５、行動候補生成部２６、価値関数学習部２７、及び、価値関数記憶部２８を備える。

　軌跡記憶部２１は、過去に制御対象が動作したときの軌跡データを記憶する。軌跡記憶部２１が記憶する軌跡データの長さは、少なくとも価値関数の入力に用いられる軌跡データの長さ（Ｎステップの制御タイミング）より長い。
　データセット抽出部２２は、軌跡記憶部２１が記憶する軌跡データから予測関数および価値関数の学習に用いる学習データセットを抽出する。

　予測関数学習部２３は、データセット抽出部２２が抽出した学習データセットに基づいて、予測関数のパラメータを学習する。予測関数学習部２３は、直近のＮステップの制御タイミングに係る軌跡データと次の制御タイミングに係る行動とが入力された場合に、当該次のタイミングに係る状態と報酬とを出力するように、予測関数のパラメータを学習する。予測関数は、ニューラルネットワークなどの機械学習モデルによって構成される。
　予測関数記憶部２４は、学習済みの予測関数を記憶する。
　予測部２５は、予測関数記憶部２４が記憶する予測関数を用いて、入力された軌跡データと行動とから、次のタイミングに係る状態と報酬とを予測する。予測部２５は、予測手段の一例である。

　行動候補生成部２６は、次の制御タイミングにおける複数の行動の候補を生成する。行動候補生成部２６は、例えば軌跡データに基づいて複数の行動の候補を生成してもよいし、乱数に基づいて複数の行動の候補を生成してもよい。

　価値関数学習部２７は、データセット抽出部２２が抽出した学習データセット、行動候補生成部２６が生成する行動候補、ならびに予測部２５が予測した状態および報酬に基づいて、価値関数のパラメータを学習する。価値関数学習部２７は、将来のＰ（Ｐは、自然数）ステップの制御タイミングまでの報酬の和に応じた価値を出力するように、価値関数のパラメータを学習する。価値関数学習部２７は、報酬算出手段および更新手段の一例である。
　価値関数記憶部２８は、学習済みの価値関数を記憶する。

《予測関数の学習》
　価値関数の学習の前に、学習装置２０は、予測関数のパラメータを学習する。
　データセット抽出部２２は、軌跡記憶部２１が記憶する軌跡データから、（Ｎ＋１）ステップの制御タイミングに係る状態、行動および報酬の組み合わせの時系列を学習データセットとして複数個切り出す。データセット抽出部２２は、切り出したＮステップ分の制御タイミングに係る状態、行動および報酬の組み合わせの時系列を軌跡データとする。予測関数学習部２３は、Ｎステップ分の制御タイミングに係る軌跡データと（Ｎ＋１）ステップ目の行動とを入力サンプルとし、（Ｎ＋１）ステップ目の状態と報酬とを出力サンプルとする学習により、予測関数のパラメータを更新する。データセット抽出部２２は、更新した予測関数を予測関数記憶部２４に記録する。

《価値関数の学習》
　予測関数のパラメータを更新すると、学習装置２０は、価値関数のパラメータを学習する。図４は、第１の実施形態に係る学習装置２０による価値関数の学習処理を示すフローチャートである。

　データセット抽出部２２は、軌跡記憶部２１が記憶する軌跡データから、連続するＮ（Ｎは自然数）ステップの制御タイミングに係る状態、行動および報酬の組み合わせの時系列を学習用の軌跡データとして切り出す（ステップＳ３１）。行動候補生成部２６は、切り出した軌跡データの次の制御タイミング（（Ｎ＋１）ステップ目の制御タイミング）における行動候補を生成する（ステップＳ３２）。予測部２５は、ステップＳ３１で切り出した軌跡データとステップＳ３２で生成した行動候補を、予測関数記憶部２４が記憶する予測関数に代入することで、次の制御タイミングにおける状態と報酬とを予測する（ステップＳ３３）。

　次に、データセット抽出部２２は、生成した行動候補、ならびに予測された状態および報酬を軌跡データに加える（ステップＳ３４）。行動候補生成部２６は、さらに次の制御タイミングにおける行動候補を生成する（ステップＳ３５）。予測部２５は、ステップＳ３４で生成した直近Ｎステップの制御タイミングに係る軌跡データとステップＳ３５で生成した行動候補を、予測関数記憶部２４が記憶する予測関数に代入することで、次の制御タイミングにおける状態と報酬とを予測する（ステップＳ３６）。

　価値関数学習部２７は、ステップＳ３５で生成した行動候補が、ステップＳ３１で切り出された軌跡データよりＰステップ後の制御タイミングに係る行動候補であるか否かを判定する（ステップＳ３７）。生成した行動候補がＰステップより前の制御タイミングに係る行動候補である場合（ステップＳ３７：ＮＯ）、学習装置２０は、ステップＳ３４に処理を戻し、さらに次の制御タイミングについて状態と報酬とを予測する。

　生成した行動候補がＰステップ後の制御タイミングに係る行動候補である場合（ステップＳ３７：ＹＥＳ）、価値関数学習部２７は、Ｐステップにおける報酬の総和を算出する（ステップＳ３８）。報酬の総和は、時間経過についての割引率を加味した加重和であってもよい。次に、価値関数学習部２７は、Ｐステップ分の行動候補の生成の試行回数がＱ（Ｑは、自然数）回以上であるか否かを判定する（ステップＳ３９）。Ｐステップ分の行動候補の生成の試行回数がＱ回未満である場合（ステップＳ３９：ＮＯ）、ステップＳ３２に処理を戻し、再度Ｐステップ分の行動候補を生成し、報酬を予測する。
　Ｐステップ分の行動候補の生成の試行回数がＱ回以上である場合（ステップＳ３９：ＹＥＳ）、ステップＳ３８でＱ回算出された報酬の総和のうち最大のものを特定する（ステップＳ４０）。

　価値関数学習部２７は、ステップＳ３１で切り出した軌跡データと、ステップＳ３２で生成した行動候補とを入力サンプルとし、ステップＳ４０で特定した報酬の総和を出力サンプルとして、価値関数のパラメータを学習する（ステップＳ４１）。価値関数学習部２７は、価値関数の学習の終了条件を満たしたか否かを判定する（ステップＳ４２）。学習の終了条件は、例えばパラメータの変化率が閾値未満となること、試行回数が所定回数を超えることなどが挙げられる。価値関数の学習の終了条件を満たしていない場合（ステップＳ４２：ＮＯ）、ステップＳ３１に処理を戻し、パラメータの更新を繰り返し実行する。他方、価値関数の学習の終了条件を満たした場合（ステップＳ４２：ＹＥＳ）、価値関数学習部２７は、学習済みの価値関数を価値関数記憶部２８に記録し、処理を終了する。価値関数記憶部２８に記憶された価値関数は、プランナー装置１０の価値関数記憶部１４に記録される。

《作用・効果》
　このように、第１の実施形態に係る価値関数は、Ｎステップ目の制御タイミングにおける制御対象の状態と（Ｎ＋１）ステップ目の制御タイミングにおける行動から、（Ｎ＋Ｐ）ステップ目の制御タイミングまで行動の決定を繰り返した場合に、（Ｎ＋１）から（Ｎ＋Ｐ）までの各制御タイミングにおける制御対象の状態に基づく報酬の総和に係る価値を算出するように学習される。これにより、プランナー装置１０は、Ｐステップ分の状態および価値の繰り返し計算を行うことなく、Ｐステップ後の報酬の総和が最大となるような行動を決定することができる。すなわち、探索深さをＰとおき、パターン数をＱとおいた場合に、非特許文献１に記載の技術では、（Ｐ×Ｑ）に比例する計算量で行動を決定するところ、第１の実施形態に係るプランナー装置１０は、Ｑに比例する計算量で行動を決定することができる。

〈他の実施形態〉
　以上、図面を参照して一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、様々な設計変更等をすることが可能である。すなわち、他の実施形態においては、上述の処理の順序が適宜変更されてもよい。また、一部の処理が並列に実行されてもよい。

　上述した実施形態に係るプランナー装置１０および学習装置２０は、単独のコンピュータによって構成されるものであってもよいし、プランナー装置１０または学習装置２０の構成を複数のコンピュータに分けて配置し、複数のコンピュータが互いに協働することでプランナー装置１０または学習装置２０として機能するものであってもよい。なお、第１の実施形態に係るプランナー装置１０は、制御対象に搭載されるが、これに限られない。例えば、他の実施形態に係るプランナー装置１０は、制御対象と遠隔に設けられ、制御対象との通信により、制御対象から状態量の計測値を受信し、制御対象に行動データを送信してもよい。

　なお、プランナー装置１０と学習装置２０とが制御対象に搭載される場合、学習装置２０はプランナー装置１０の軌跡記憶部１３が記憶する軌跡データを用いて、定期的に予測関数および価値関数を更新することができる。すなわち、プランナー装置１０と学習装置２０とが制御対象に搭載されることで、学習装置２０は、予測関数および価値関数をオンラインで更新することができる。

　また、上述した実施形態に係る予測関数は、軌跡データと行動とを入力として状態および報酬を算出するが、これに限られない。例えば、他の実施形態に係る予測関数は、状態を出力し、報酬を出力しないものであってよい。この場合、報酬は、例えば報酬算出部１２などによって、予測関数から予測された状態に基づいて別途計算されてもよい。

　また、上述した実施形態に係る予測関数は、Nステップ分の軌跡データを用いて状態および報酬を算出するが、これに限られない。例えば、他の実施形態に係る予測関数は、直近の状態および行動に基づいて次の制御タイミングにおける状態および報酬を出力するものであってもよい。

〈基本構成〉
　図５は、プランナー装置１０の基本構成を示す概略ブロック図である。
　上述した実施形態では、プランナー装置１０の一実施形態として図１に示す構成について説明したが、プランナー装置１０の基本構成は、図５に示すとおりである。
　すなわち、プランナー装置１０は、状態取得手段１０１、及び行動決定手段１０２を基本構成とする。

　状態取得手段１０１は、第１時刻における制御対象の状態を取得する。
　行動決定手段１０２は、事前学習された価値関数に対して前記状態を入力としたときに算出される価値が最大となるように、第１時刻の次の制御タイミングである第２時刻における行動を決定する。
　価値関数は、第１時刻における制御対象の状態と第２時刻における行動から、第２時刻より後の第３時刻まで行動の決定を繰り返した場合に、第２時刻から第３時刻までの各制御タイミングにおける制御対象の状態に基づく報酬の総和に係る価値を算出するように学習されている。
　これにより、プランナー装置１０は、少ない計算量で精度よく行動を決定することができる。

　図６は、学習装置２０の基本構成を示す概略ブロック図である。
　上述した実施形態では、学習装置２０の一実施形態として図３に示す構成について説明したが、学習装置２０の基本構成は、図６に示すとおりである。
　すなわち、学習装置２０は、予測手段２０１、報酬算出手段２０２、及び更新手段２０３を基本構成とする。

　予測手段２０１は、第１時刻における制御対象の状態と第１時刻の次の制御タイミングである第２時刻における行動から、第２時刻における制御対象の状態を予測する。
　報酬算出手段２０２は、予測手段２０１に、第２時刻以降の行動を繰り返し入力することで得られる、第２時刻から第２時刻より後の第３時刻までの各制御タイミングにおける制御対象の状態に基づく報酬の総和を価値として算出する。
　更新手段２０３は、状態と行動と価値とに基づいて、第１時刻における制御対象の状態と、第２時刻における行動を入力として、価値を出力するように価値関数のパラメータを更新する。
　これにより、学習装置２０は、少ない計算量で精度よく行動を決定するための価値関数を生成することができる。

〈コンピュータ構成〉
　図７は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
　コンピュータ９０は、プロセッサ９１、メインメモリ９２、ストレージ９３、インタフェース９４を備える。
　上述のプランナー装置１０および学習装置２０は、コンピュータ９０に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ９３に記憶されている。プロセッサ９１は、プログラムをストレージ９３から読み出してメインメモリ９２に展開し、当該プログラムに従って上記処理を実行する。また、プロセッサ９１は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ９２に確保する。プロセッサ９１の例としては、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、マイクロプロセッサなどが挙げられる。

　プログラムは、コンピュータ９０に発揮させる機能の一部を実現するためのものであってもよい。例えば、プログラムは、ストレージに既に記憶されている他のプログラムとの組み合わせ、または他の装置に実装された他のプログラムとの組み合わせによって機能を発揮させるものであってもよい。なお、他の実施形態においては、コンピュータ９０は、上記構成に加えて、または上記構成に代えてＰＬＤ（Programmable Logic Device）などのカスタムＬＳＩ（Large Scale Integrated Circuit）を備えてもよい。ＰＬＤの例としては、ＰＡＬ(Programmable Array Logic)、ＧＡＬ(Generic Array Logic)、ＣＰＬＤ(Complex Programmable Logic Device)、ＦＰＧＡ（Field Programmable Gate Array）が挙げられる。この場合、プロセッサ９１によって実現される機能の一部または全部が当該集積回路によって実現されてよい。このような集積回路も、プロセッサの一例に含まれる。

　ストレージ９３の例としては、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ－ＲＯＭ（Digital Versatile Disc Read Only Memory）、半導体メモリ等が挙げられる。ストレージ９３は、コンピュータ９０のバスに直接接続された内部メディアであってもよいし、インタフェース９４または通信回線を介してコンピュータ９０に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ９０に配信される場合、配信を受けたコンピュータ９０が当該プログラムをメインメモリ９２に展開し、上記処理を実行してもよい。少なくとも１つの実施形態において、ストレージ９３は、一時的でない有形の記憶媒体である。

　また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能をストレージ９３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。
　以上、実施形態（及び実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　プランナー装置は、搬送装置、ロボット、プラント、インフラストラクチャー等の制御対象の制御に利用することができる。

１０　プランナー装置
１１　状態取得部
１２　報酬算出部
１３　軌跡記憶部
１４　価値関数記憶部
１５　行動候補生成部
１６　行動決定部
１７　制御部
２０　学習装置
２１　軌跡記憶部
２２　データセット抽出部
２３　予測関数学習部
２４　予測関数記憶部
２５　予測部
２６　行動候補生成部
２７　価値関数学習部
２８　価値関数記憶部

Claims

　第１時刻における制御対象の状態を取得する状態取得手段と、
　事前学習された価値関数に対して前記状態を入力としたときに算出される価値が最大となるように、前記第１時刻の次の制御タイミングである第２時刻における行動を決定する行動決定手段と
　を備え、
　前記価値関数は、前記第１時刻における前記制御対象の状態と前記第２時刻における行動から、前記第２時刻より後の第３時刻まで行動の決定を繰り返した場合に、前記第２時刻から前記第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和に係る価値を算出するように学習されている
　プランナー装置。
　前記行動決定手段は、前記第１時刻までの状態の時系列を含む軌跡データと前記価値関数とに基づいて前記行動を決定し、
　前記価値関数は、前記軌跡データと前記第２時刻における行動から、前記価値を算出するように学習されている
　請求項１に記載のプランナー装置。
　前記軌跡データは、前記制御対象の状態と行動と報酬の組み合わせの時系列を含む
　請求項２に記載のプランナー装置。
　前記価値関数の学習過程において、
　基準時刻における前記制御対象の状態と前記基準時刻の次の制御タイミングにおける行動から、前記次の制御タイミングおける前記制御対象の状態および報酬を予測する予測関数に行動を繰り返し入力し、前記第２時刻から第３時刻までの報酬を得ることで、前記価値が算出される
　請求項１から請求項３の何れか１項に記載のプランナー装置。
　前記予測関数は、過去の前記制御対象の状態及び行動を学習データセットとして、前記制御対象の第１時刻における状態と第２時刻における行動を入力として、前記第２時刻における状態を出力するように学習された学習済みモデルである
　請求項４に記載のプランナー装置。
　第１時刻における制御対象の状態を取得することと、
　事前学習された価値関数に対して前記状態を入力としたときに算出される価値が最大となるように、前記第１時刻の次の制御タイミングである第２時刻における行動を決定することと
　を備え、
　前記価値関数は、前記第１時刻における前記制御対象の状態と前記第２時刻における行動から、前記第２時刻より後の第３時刻まで行動の決定を繰り返した場合に、前記第２時刻から前記第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和に係る価値を算出するように学習されている
　プランニング方法。
　コンピュータに、
　第１時刻における制御対象の状態を取得することと、
　事前学習された価値関数に対して前記状態を入力としたときに算出される価値が最大となるように、前記第１時刻の次の制御タイミングである第２時刻における行動を決定することと
　を実行させ、
　前記価値関数は、前記第１時刻における前記制御対象の状態と前記第２時刻における行動から、前記第２時刻より後の第３時刻まで行動の決定を繰り返した場合に、前記第２時刻から前記第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和に係る価値を算出するように学習されている
　プランニングプログラムが格納された記録媒体。
　第１時刻における制御対象の状態と前記第１時刻の次の制御タイミングである第２時刻における行動から、前記第２時刻における前記制御対象の状態を予測する予測手段と、
　前記予測手段に、前記第２時刻以降の行動を繰り返し入力することで得られる、前記第２時刻から前記第２時刻より後の第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和を価値として算出する報酬算出手段と、
　前記状態と前記行動と前記価値とに基づいて、前記第１時刻における制御対象の状態と、前記第２時刻における行動を入力として、前記価値を出力するように価値関数のパラメータを更新する更新手段と
　を備える学習装置。
　第１時刻における制御対象の状態と前記第１時刻の次の制御タイミングである第２時刻における行動から、前記第２時刻における前記制御対象の状態を予測する予測関数に、前記第２時刻以降の行動を繰り返し入力することで得られる、前記第２時刻から前記第２時刻より後の第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和を価値として算出することと、
　前記状態と前記行動と前記価値とに基づいて、前記第１時刻における制御対象の状態と、前記第２時刻における行動を入力として、前記価値を出力するように価値関数のパラメータを更新することと
　を備える学習方法。
　コンピュータに、
　第１時刻における制御対象の状態と前記第１時刻の次の制御タイミングである第２時刻における行動から、前記第２時刻における前記制御対象の状態を予測する予測関数に、前記第２時刻以降の行動を繰り返し入力することで得られる、前記第２時刻から前記第２時刻より後の第３時刻までの各制御タイミングにおける前記制御対象の状態に基づく報酬の総和を価値として算出することと、
　前記状態と前記行動と前記価値とに基づいて、前記第１時刻における制御対象の状態と、前記第２時刻における行動を入力として、前記価値を出力するように価値関数のパラメータを更新することと
　を実行させるための学習プログラムが格納された記録媒体。