WO2023026342A1

WO2023026342A1 - 動作規則決定装置、動作規則決定方法および記録媒体

Info

Publication number: WO2023026342A1
Application number: PCT/JP2021/030873
Authority: WO
Inventors: 拓也平岡; 貴士大西
Original assignee: 日本電気株式会社
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-03-02
Also published as: JPWO2023026342A1

Abstract

動作規則決定装置が、制御対象の動作に関する条件が反映された第一評価関数から、前記制御対象の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定する評価関数設定部と、前記第二評価関数を用いて前記制御対象の動作規則の学習を行い、学習結果と、前記第一評価関数とを用いて前記制御対象の動作規則の学習を行う学習部と、を備える。

Description

動作規則決定装置、動作規則決定方法および記録媒体

　本発明は、動作規則決定装置、動作規則決定方法および記録媒体に関する。

　制御対象の動作規則の学習において、動作に関する条件が設定される場合がある。
　例えば、特許文献１に記載の強化学習方法では、制御の対象の状態計測が行われる時間間隔と、対象への行動決定が行われる時間間隔とが異なる場合に、過去の状態を予測し、予測された状態について制約条件に対する危険度を算出する。そして、この強化学習方法では、算出した危険度と、危険度算出の対象となった状態に対する今回の行動の影響度とに応じて、制御の対象への今回の行動に関する探索範囲を特定して行動を決定する。

特開２０２１－３３７６７号公報

　制御対象の動作規則の学習において、動作に関する条件が設定される場合、条件が設定されることで学習が比較的難しくなる場合がある。この場合に、学習が難しくなる度合いを緩和するための対策を講じられることが好ましい。

　本発明の目的の一例は、上述した課題を解決することのできる動作規則決定装置、動作規則決定方法および記録媒体を提供することである。

　本発明の第一の態様によれば、動作規則決定装置は、制御対象の動作に関する条件が反映された第一評価関数から、前記制御対象の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定する評価関数設定部と、前記第二評価関数を用いて前記制御対象の動作規則の学習を行い、学習結果と、前記第一評価関数とを用いて前記制御対象の動作規則の学習を行う学習部と、を備える。

　本発明の第二の態様によれば、動作規則決定方法は、コンピュータが、制御対象の動作に関する条件が反映された第一評価関数から、前記制御対象の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定し、前記第二評価関数を用いて前記制御対象の動作規則の学習を行い、学習結果と、前記第一評価関数とを用いて前記制御対象の動作規則の学習を行うことを含む。

　本発明の第三の態様によれば、記録媒体は、コンピュータに、制御対象の動作に関する条件が反映された第一評価関数から、前記制御対象の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定することと、前記第二評価関数を用いて前記制御対象の動作規則の学習を行い、学習結果と、前記第一評価関数とを用いて前記制御対象の動作規則の学習を行うことと、を実行させるためのプログラムを記録した記録媒体である。

　上記した動作規則決定装置、動作規則決定方法および記録媒体によれば、制御対象の動作規則の学習において、動作に関する条件が設定されることで学習が比較的難しくなる場合に、学習が難しくなる度合いを緩和するための対策を講じることができる。

実施形態に係る制御システム構成例を示す図である。実施形態に係る動作規則決定装置の構成例を示す図である。第１エピソードの第１ターンの例を示す図である。第１エピソードの第２ターンの例を示す図である。第１エピソードの第３ターンの例を示す図である。第２エピソードの第１ターンの例を示す図である。第２エピソードの第２ターンの例を示す図である。実施形態に係る履歴情報取得部が記憶する履歴情報の例を示す図である。実施形態に係る制御対象の動作に関する条件の例を示す図である。実施形態に係るリスク考慮型履歴情報の第１の例を示す図である。実施形態に係るリスク考慮型履歴情報の第２の例を示す図である。実施形態に係るリスク考慮型履歴情報の第３の例を示す図である。実施形態に係る動作規則決定装置が、制御対象の行動規則を学習によって決定する処理手順の例を示す図である。実施形態に係る履歴情報取得部がシミュレーションによって履歴情報を取得する場合の処理手順の例を示す図である。実施形態に係る学習部が動作規則評価処理を行う手順の例を示す図である。実施形態に係る動作規則決定装置の構成の例を示す図である。実施形態に係る動作規則決定方法における処理の手順の例を示す図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　以下、本発明の実施形態を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
　図１は、実施形態に係る制御システム構成例を示す図である。図１に示す構成で、制御システム１は、動作規則決定装置１００と、制御装置２００と、制御対象３００とを備える。

　制御システム１は、制御対象３００を制御する。具体的には、動作規則決定装置１００が、強化学習にて制御対象３００の動作規則を決定する。制御装置２００は、動作規則決定装置１００が決定した動作規則に基づいて制御対象３００の動作を決定し、決定した動作を制御対象３００に実行させる。

　ここでいう強化学習は、ある環境における制御対象の動作を決定する動作規則を、制御対象の動作と、環境および制御対象について観測される状態と、状態または制御対象の動作に対する評価を表す報酬とに基づいて学習する機械学習である。

　制御対象３００の動作は、行動（Action）に該当する。以下では、制御対象３００の動作を行動とも称する。動作規則は方策（Policy）に該当する。以下では、動作規則を方策とも称する。制御対象３００の動作に関する評価は報酬（Reward）に該当する。
　以下では、学習における評価関数として報酬を用いる場合を例に説明するが、これに限らない。例えば、学習における評価関数として、評価が高いほど値が小さくなる評価関数を用いるようにしてもよい。

　なお、動作規則決定装置１００は、時間ステップ毎の状態および制御対象３００の動作を示す情報を含む履歴情報を用いて学習を行う。したがって、動作規則決定装置１００が学習を行う際に、制御装置２００がリアルタイムで制御対象３００を動作させる必要は無い。

　あるいは、動作規則決定装置１００が、制御対象３００の動作規則を制御装置２００に出力し、制御装置２００が動作規則に基づいて制御対象３００を動作させて履歴情報を取得するようにしてもよい。そして、動作規則決定装置１００が、得られた履歴情報を用いて学習を行い、学習結果として動作規則を算出する用にしてもよい。動作規則決定装置１００が、得られた動作規則を制御装置２００に出力し、制御装置２００から取得した履歴情報を用いて動作規則の学習を行うことを繰り返すようにしてもよい。

　動作規則決定装置１００は、例えばコンピュータを用いて構成される。あるいは、動作規則決定装置１００が、ＡＳＩＣ（Application Specific Integrated Circuit）またはＦＰＧＡ（Field Programmable Gate Array）を用いて構成されるなど、動作規則決定装置１００専用のハードウェアを用いて構成されていてもよい。同様に、制御対象３００は、例えばコンピュータを用いて構成される。あるいは、制御対象３００が、ＡＳＩＣまたはＦＰＧＡを用いて構成されるなど、制御対象３００専用のハードウェアを用いて構成されていてもよい。

　動作規則決定装置１００が動作規則を学習する際、制御装置２００および制御対象３００は無くてもよい。また、制御装置２００が制御対象３００を動作させる際、動作規則決定装置１００は無くてもよく、制御装置２００が動作規則を取得していればよい。
　あるいは、動作規則決定装置１００と制御装置２００とが一体的に構成されていてもよい。例えば、動作規則決定装置１００と制御装置２００とが同一のコンピュータに実装されていてもよい。

　制御対象３００は、特定のものに限定されない。例えば、制御対象３００は、自動車、飛行機、船舶などの移動体であってもよい。あるいは、制御対象３００は、加工工場、または、製造工程など制御の対象となる設備または装置であってもよい。制御対象３００は、制御装置２００が制御可能であり、かつ、例えば特定の状態を避けるための制約条件が設定されるなど、制御対象３００の動作に関する条件が設定される、いろいろなものとすることができる。

　図２は、動作規則決定装置１００の構成例を示す図である。図２に示す構成で、動作規則決定装置１００は、通信部１１０と、記憶部１８０と、制御部１９０とを備える。記憶部１８０は、カリキュラム記憶部１８１と、方策パラメータ記憶部１８２と、履歴情報記憶部１８３とを備える。制御部１９０は、カリキュラム設定部１９１と、履歴情報取得部１９３と、履歴情報変換部１９４と、学習部１９５とを備える。カリキュラム設定部１９１は、評価関数設定部１９２を備える。

　通信部１１０は、他の装置と通信を行う。例えば、通信部１１０が、動作規則決定装置１００が決定する動作規則を制御装置２００へ送信するようにしてもよい。
　記憶部１８０は、各種情報を記憶する。記憶部１８０は、動作規則決定装置１００が備える記憶デバイスを用いて構成される。

　カリキュラム記憶部１８１は、カリキュラム情報を記憶する。カリキュラム情報は、動作規則決定装置１００が行う動作規則の学習を、段階的に進めるための設定情報である。動作規則決定装置１００は、動作規則の学習を、簡単な学習から難しい学習へと段階的に進めることで、効率的に学習を行う。

　ここでいう学習が難しいことは、仮に段階的な学習を行わず、ある設定での学習を直接行った場合に、方策最適化が不安定になることであってもよい。あるいは、学習が難しいことは、仮に段階的な学習を行わず、ある設定での学習を直接行った場合に、学習結果が指定されている条件を満たさないなど、学習結果に対する評価が低いか、あるいは、高い評価を得るまでに時間がかかることであってもよい。

　例えば、制御対象３００の一連の動作が満たすべき制約条件が設けられている場合について考える。制御対象３００の一連の動作をエピソード（Episode）とも称する。
　制約条件を強化学習の枠組みに組み入れる方法として、制約条件が満たされない場合にエピソードの最後のターンにおける報酬値にペナルティを付加することを考える。報酬へのペナルティの付加は、例えば、報酬値が大きいほど高い評価を表すのに対し、報酬値にマイナスの所定値を加える、すなわち、報酬値から所定値を減算することで行われる。
　ここでいうエピソードの１ターンは、時間ステップの１ステップである。時刻を時間ステップで表し、制御対象３００および制御装置２００が、状態の観測、行動の決定および行動を、１ターンに１回行うものとする。

　報酬値にペナルティが付加される場合、エピソードの最後のターンでのみ報酬値にペナルティが付加されることで、最後から１つ前のターンと、最後のターンとで、報酬値が大きく変化する。このような報酬値の大きな変化によって学習が難しくなることが考えられる。

　そこで、動作規則決定装置１００は、報酬値のターン毎の差異による変動が小さくなるように、学習の枠組みを設定する。例えば、動作規則決定装置１００が、エピソードの最後のターンとは異なるターンでも、報酬値に対してペナルティの付加に相当する計算を行うようにしてもよい。あるいは、動作規則決定装置１００が、ペナルティ付加の判定閾値を小さくして、ペナルティ（罰則）の発生頻度を低減させるようにしてもよい。

　動作規則決定装置１００は、比較的簡単な学習を行い、学習結果として得られる動作規則を、より難しい学習における動作規則の初期値に設定して学習を行う。これにより、動作規則決定装置１００が、より難しい学習を効率的に行えると期待される。
　この場合の、個々の学習の枠組みをカリキュラムと称する。

　方策パラメータ記憶部１８２は、方策パラメータ値を記憶する。方策パラメータは、動作規則の学習モデルである方策モデルにおける学習パラメータである。方策モデルに方策パラメータ値を設定することで、方策（動作規則）が得られる。方策の学習は、方策パラメータ値を更新することで行われる。

　動作規則決定装置１００が用いる方策モデルの表現形式は、特定の表現形式に限定されない。例えば、方策モデルが、パラメータを含む数式として構成されていてもよい。あるいは、方策モデルが、ニューラルネットワークを用いて構成されていてもよい。

　履歴情報記憶部１８３は、制御対象３００の動作の履歴情報を記憶する。この履歴情報は、動作規則の強化学習のための学習データとして用いられる。この履歴情報には、ターン毎に、エピソードの識別番号と、エピソード内でのターンの回数と、行動と、状態と、報酬とが示される。

　エピソードの識別番号は、例えば、エピソードの実行順による１からの通し番号であってもよい。エピソード内でのターンの回数も、１からの通し番号で示されていてもよい。行動として、例えば制御対象３００のモータに対する指令値など、制御対象３００に対する制御指令値が示されていてもよい。状態として、制御対象３００または環境に関するセンサ測定値が示されていてもよい。報酬関数が知られており行動および状態から報酬値を計算可能な場合は、履歴情報に報酬値の情報が含まれていなくてもよい。

　制御部１９０は、動作規則決定装置１００の各部を制御して各種処理を実行する。制御部１９０の機能は、例えば、動作規則決定装置１００が備えるＣＰＵ（Central Processing Unit、中央処理装置）が、記憶部１８０からプログラムを読み出して実行することで実行される。

　カリキュラム設定部１９１は、カリキュラムを設定する。例えば、カリキュラム０、カリキュラム１、カリキュラム２の順で実行する場合、カリキュラム設定部１９１は、まず、カリキュラム０に設定する。カリキュラム０での学習が進み、カリキュラム０の終了条件が成立すると、カリキュラム設定部１９１は、カリキュラム１に設定する。このように、カリキュラム設定部１９１は、カリキュラムの設定および更新を行う。
　カリキュラム設定部１９１が、カリキュラムの番号を記憶するカウンタの値を設定し更新することで、実行中のカリキュラムを示すようにしてもよい。

　また、カリキュラム設定部１９１は、カリキュラムの開始時に、そのカリキュラムを実行するための関数の設定など、カリキュラムを実行するための各種設定を行う。例えば、カリキュラムの設定が、報酬の書き換え規則の設定で行われる場合、カリキュラム設定部１９１の評価関数設定部１９２が、各カリキュラムの開始時に報酬の書き換え規則を設定する。

　評価関数設定部１９２は、カリキュラム毎に報酬関数を設定する。あるいは、履歴情報に報酬値が示されている場合、評価関数設定部１９２が、カリキュラム毎に報酬値の書き換え規則を設定するようにしてもよい。
　特に、評価関数設定部１９２は、制御対象３００の動作に関する条件が反映された第一評価関数から、制御対象３００の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定する。

　ここでの第一評価関数は、制御対象３００の動作に関する条件（制約条件）が満たされない場合のペナルティ付加規則が反映された報酬関数である。第二評価関数は、第一評価関数から、ターン間での報酬関数の相違が小さくなるように変更された報酬関数である。

　第二評価関数は、第一評価関数を用いる場合よりも学習が簡単になるように書き換えられた評価関数であり、最終的な学習結果としての動作規則を求めたい設定を示す。動作規則決定装置１００は、動作規則の学習の最後のカリキュラムで、第一評価関数を用いた学習を行う。一方、動作規則決定装置１００は、動作規則の学習の最後よりも前のカリキュラムで、第二評価関数を用いた学習を行う。

　第一評価関数が、制御対象３００の一連の動作の時間ステップのうち最後の時間ステップにおいて、条件が反映されるように設定されていてもよい。例えば、上述したようにエピソードの最後のターンで条件が満たされていない場合に、報酬値にペナルティが付加されるようになっていてもよい。

　そして、評価関数設定部１９２が、第一評価関数から、最後の時間ステップにおける条件に基づく条件を、制御対象３００の一連の動作の時間ステップのうち、最後の時間ステップとは異なる時間ステップにおいて反映させる変更が行われた、第二評価関数を生成するようにしてもよい。

　「第一評価関数から、最後の時間ステップにおける条件に基づく条件を、制御対象３００の一連の動作の時間ステップのうち、最後の時間ステップとは異なる時間ステップにおいて反映させる変更が行われた、第二評価関数」は、「第一評価関数から、制御対象３００の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数」の例に該当する。

　第一評価関数が、制御対象３００の動作に関する評価が閾値よりも低い評価である場合に、制御対象３００の動作に関する評価を低下させるように設定されていてもよい。そして、評価関数設定部１９２が、第一評価関数から、制御対象３００の動作に関する評価が閾値以上に高い評価となり易いように閾値が変更された、第二評価関数を生成するようにしてもよい。

　「第一評価関数から、制御対象３００の動作に関する評価が閾値以上に高い評価となり易いように閾値が変更された、第二評価関数」も、「第一評価関数から、制御対象３００の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数」の例に該当する。

　履歴情報取得部１９３は、履歴情報を取得する。例えば、履歴情報取得部１９３は、制御対象３００および環境を模擬するシミュレータを備え、シミュレーションを実行する。シミュレーションの際、履歴情報取得部１９３は、学習部１９５が設定する動作規則に従って制御対象３００の動作を決定し、決定した動作を模擬する。
　履歴情報取得部１９３は、シミュレーションの実行における時間ステップ毎に、状態を示す情報と制御対象３００の動作を示す情報と報酬値とを含む履歴情報を生成し、履歴情報記憶部１８３に記憶させる。

　履歴情報変換部１９４は、履歴情報を変換する。特に、履歴情報変換部１９４は、履歴情報に含まれる報酬値に、制御対象３００の動作に関する条件を反映させる変換、および、学習を比較的容易にするための補助報酬を反映させる変換を行う。

　学習部１９５は、第二評価関数を用いて制御対象３００の動作規則の学習を行う。そして、学習部１９５は、第二評価関数を用いた学習の学習結果と、第一評価関数とを用いて、制御対象３００の動作規則の学習を行う。
　学習部１９５が、動作規則の学習中に設定した動作規則に対する評価を取得するようにしてもよい。そして、得られた評価が所定の条件よりも低い場合、学習部１９５が、過去に設定した動作規則を再度設定するようにしてもよい。

　以下に、制御対象３００の動作の例および履歴情報の例を示し、履歴情報の書き換えの例を示す。Ｈｏｐｐｅｒと呼ばれるロボットを制御対象として、Ｈｏｐｐｅｒの動作の例、その動作の履歴情報の例を示す。そして、制約条件を反映させる履歴情報の書き換えの例、および、学習を簡単にするための履歴情報の書き換えの例を示す。

　図３は、第１エピソードの第１ターンの例を示す図である。したがって、図３は、第１エピソードにおける初期状態を示している。図３から図７では、Ｈｏｐｐｅｒ８０１と、目標位置８０２とが示されている。Ｈｏｐｐｅｒ８０１は、制御対象３００の例に該当する。目標位置８０２は、Ｈｏｐｐｅｒ８０１の進行目標の位置に配置されている。図３から図７の例では、目標位置８０２は固定である。したがって、何れのエピソードの何れのターンでも、目標位置８０２は同じ位置に配置されている。
　図４は、第１エピソードの第２ターンの例を示す図である。図４の例では、図３に示される第１ターンの場合よりも、Ｈｏｐｐｅｒ８０１が目標位置８０２に近付いている。

　図５は、第１エピソードの第３ターンの例を示す図である。図５の例では、図４に示される第２ターンの場合よりも、Ｈｏｐｐｅｒ８０１が目標位置８０２に近付いている。第１エピソードでは、図５の例で最大ターン数の３回に達したため、エピソードが終了している。

　履歴情報取得部１９３は、第１エピソードにおける第１ターンから第３ターンまでの、２次元座標におけるＨｏｐｐｅｒ８０１の位置情報と、Ｈｏｐｐｅｒ８０１を動作させるトルクの数値と、報酬との組み合わせの履歴情報を履歴情報記憶部１８３に格納する。

　図６は、第２エピソードの第１ターンの例を示す図である。したがって、図６は、第２エピソードにおける初期状態を示している。
　図７は、第２エピソードの第２ターンの例を示す図である。図７の例では、Ｈｏｐｐｅｒ８０１が転倒している。このため、エピソードが終了している。

　履歴情報取得部１９３は、第２エピソードにおける第１ターンから第２ターンまでの、２次元座標におけるＨｏｐｐｅｒ８０１の位置情報と、Ｈｏｐｐｅｒ８０１の動作を制御するトルクの数値と、報酬との組み合わせの履歴情報を履歴情報記憶部１８３に格納する。

　図８は、履歴情報取得部１９３が記憶する履歴情報の例を示す図である。図８の例では、履歴情報が表形式で示されており、１つの行が１つのターンにおけるＨｏｐｐｅｒ８０１の動作に関する履歴情報を示す。
　図８で、ｍは、エピソードの識別番号を示す。ｔは、ターンの識別番号を示す。動作ａ_ｔ，ｍは、第ｍエピソードの第ｔターンにおける、Ｈｏｐｐｅｒ８０１の動作を制御するトルクの数値を示す。状態ｓ_ｔ，ｍは、第ｍエピソードの第ｔターンにおける、Ｈｏｐｐｅｒ８０１の座標（位置情報）を示す。

　報酬ｒ_ｔ，ｍは、第ｍエピソードの第ｔターンにおける、報酬を示す。
　第１エピソードの第１ターンおよび第２エピソードの第１ターンでは、いずれもエピソードにおける初期状態のため、報酬は０となっている。第１エピソードの第２ターンおよび第３ターンでは、いずれも、Ｈｏｐｐｅｒ８０１が目標位置８０２に向かって進んだ進み具合に応じて報酬が与えられている。一方、第２エピソードの第２ターンでは、Ｈｏｐｐｅｒ８０１が転倒したため、－１０の報酬が与えられている。

　図９は、制御対象３００の動作に関する条件の例を示す図である。図９は、エピソードで得られるリターンの確率分布の例を示している。ここでいうリターンは、報酬を１つのエピソードについて合計した値である。すなわち、リターンは、１エピソード分の累積報酬値である。
　図９の横軸は、リターンを示す。縦軸は、横軸に示されるリターンを得られる確率を示す。

　領域Ａ１は、リターンの分布の下位ε％（εは０＜ε＜１００の実数）を示す。制御対象３００の動作に関する条件として、例えば、リターンの分布の下側ε％の期待値が、特定の閾値以上になるといった制約条件が設定される。ここでの下側は、値が小さい側である。リターンの分布の下側ε％の期待値を、ＣＶａＲ（Condition Value At Risk）とも称する。ＣＶａＲは、領域Ａ１の重心に相当する。
　ただし、制御対象３００の動作に関する条件は、特定の条件に限定されない。

　図１０は、リスク考慮型履歴情報の第１の例を示す図である。リスク考慮型履歴情報は、制御対象３００の動作に関する条件が反映された履歴情報である。図９に示す条件は、制御対象３００が、リターンがある条件以下に小さくなるというリスクを避けるように動作する、という制約条件を示している。この条件が反映された履歴情報は、リスクを避けることを考慮して制御対象３００の動作を決定する動作規則を学習するための学習データとなっている。

　図１０の例で、履歴情報変換部１９４は、図９の履歴情報の状態ｓ_ｔ，ｍがリスク考慮型状態情報ｓ’_ｔ，ｍに置き換えられ、報酬ｒ_ｔ，ｍがリスク考慮型報酬ｒ’_ｔ，ｍに置き換えられたリスク考慮型履歴情報を生成している。
　履歴情報変換部１９４は、式（１）に基づいてリスク考慮型状態情報ｓ’_ｔ，ｍを生成する。

　ここで、「｜｜」は、ベクトルの要素を結合する演算を示す。すなわち、状態ｓ_ｔ，ｍが（ｘ_ｔ，ｍ,ｙ_ｔ，ｍ）と表されるのに対し、リスク考慮型状態情報ｓ’_ｔ，ｍは、（ｘ_ｔ，ｍ,ｙ_ｔ，ｍ，ｖ，Σ_ｔ＝０ ^Ｔｍ－１－ｒ_ｔ，ｍ）と表される。
　ただし、ｘ_ｔ，ｍは、第ｍエピソードの第ｔターンにおけるＨｏｐｐｅｒ８０１の位置のｘ座標を示す。ｙ_ｔ，ｍは、第ｍエピソードの第ｔターンにおけるＨｏｐｐｅｒ８０１の位置のｙ座標を示す。すなわち、ベクトル（ｘ_ｔ，ｍ，ｙ_ｔ，ｍ）は、第ｍエピソードの第ｔターンにおける、２次元座標におけるＨｏｐｐｅｒ８０１の位置情報の例に該当する。

　ｖは、報酬に基づいてリスクを評価するための閾値を示す。Ｔ_ｍは、第ｍエピソードにおけるターン数を示す。図１０の例では、Ｔ_１＝３、Ｔ_２＝２である。
　「Σ_ｔ＝０ ^Ｔｍ－１－ｒ_ｔ，ｍ」は、第ｍエピソードにおけるタイミング「０」からタイミング「T_ｍ－１」までの間の報酬の合計値に、「－１」を乗算した値を表す。すなわち、「Σ_ｔ＝０ ^Ｔｍ－１－ｒ_ｔ，ｍ」は、第ｍエピソードにおけるタイミング「０」からタイミング「T_ｍ－１」までの間のペナルティの合計値であるということもできる。

　リスク考慮型状態情報ｓ’_ｔ，ｍのｖおよびΣ_ｔ＝０ ^Ｔｍ－１－ｒ_ｔ，ｍは、リスク考慮型報酬ｒ’_ｔ，ｍを算出するために用いられる。ただし、これらの情報をリスク考慮型状態情報ｓ’_ｔ，ｍに含めることは必須ではない。例えば、記憶部１８０が、リスク考慮型状態情報ｓ’_ｔ，ｍとは別に閾値ｖを記憶しておくようにしてもよい。また、履歴情報変換部１９４が、リスク考慮型報酬ｒ’_ｔ，ｍを算出する際に、履歴情報に示される状態の履歴を用いるようにすれば、リスク考慮型状態情報ｓ’_ｔ，ｍに「Σ_ｔ＝０ ^Ｔｍ－１－ｒ_ｔ，ｍ」を含める必要はない。

　また、履歴情報変換部１９４は、式（２）に基づいてリスク考慮型報酬ｒ’_ｔ，ｍを生成する。

　ここで、式（２）の（１／ε）ｍａｘ（０，ｖ＋Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍ）がペナルティを表し、εは、どの程度ペナルティを重要視するかを決める係数である。説明の便宜上、εを実数の定数とする。
　式（２）で、報酬ｒ_ｔ，ｍに「－」が付されていることから、第ｍエピソードにおける報酬ｒ_ｔ，ｍの合計が小さいほど、Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍの値は大きくなる。Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍの値が－ｖ以下である場合、式（２）のｍａｘ関数で０が選択され、ペナルティ（１／ε）ｍａｘ（０，ｖ＋Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍ）は０になる。一方、Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍの値が－ｖより大きい場合、式（２）のｍａｘ関数でｖ＋Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍが選ばれ、履歴情報変換部１９４は、ペナルティを（１／ε）（ｖ＋Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍ）と算出する。履歴情報変換部１９４は、このペナルティを報酬ｒ_ｔ，ｍから減算した値を、リスク考慮型報酬ｒ’_ｔ，ｍとして算出する。

　このように、式（２）によれば、第ｍエピソードに関するリターン（累積報酬値）が閾値ｖよりも小さい場合に、第ｍエピソードの最後のターンの報酬値にペナルティが付加される。ペナルティの付加によって報酬値が小さくなる。報酬値が小さい値に変更されることで、制御対象３００が、リターンが閾値ｖよりも小さくなるような行動（動作）をとりにくくなるように、動作規則の学習が進むと期待される。
　一方、エピソードの最後のターンの報酬値にペナルティが付加されることで、その前のターンの報酬値から急激に変化し、上述したように、学習が難しくなる可能性がある。

　図１１は、リスク考慮型履歴情報の第２の例を示す図である。図１１に示すリスク考慮型履歴情報では、図１０に示すリスク考慮型履歴情報から、閾値（ｖの値）が１から０．５に変更されている。

　これにより、閾値の値が１の場合よりも、報酬にペナルティが付加されるエピソードの個数が少なくなる。この点で、制御対象３００の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更されたといえる。これにより、報酬にペナルティが付加されることで報酬値が急変する頻度が低くなり、この点で、学習が難しくなる度合いが緩和されると期待される。

　図１２は、リスク考慮型履歴情報の第３の例を示す図である。図１２に示すリスク考慮型履歴情報では、図１１に示すリスク考慮型履歴情報から、補助報酬を付加する変更が行われている。
　図１２の例で、ｍ＝１、ｔ＝１の場合のｒ＊’_ｔ，ｍの「－（１／０．１＊ｍａｘ（０，０．５－０））」が、補助報酬の例に該当する。ｍ＝１、ｔ＝２の場合のｒ＊’_ｔ，ｍの「－（１／０．１＊ｍａｘ（０，０．５－０－５））」も、補助報酬の例に該当する。ｍ＝２、ｔ＝１の場合のｒ＊’_ｔ，ｍの「－（１／０．１＊ｍａｘ（０，０．５－０））」も、補助報酬の例に該当する。
　図１２の例における補助報酬の付加は、式（３）のように表される。

　図１０および式（２）に示される、制御対象３００の動作に関する条件の報酬への反映では、エピソードにおける最終の時間ステップの報酬ｒ_ｔ，ｍに対して、条件を反映させるための項「－（１／ε）ｍａｘ（０，ｖ＋Σ_ｔ＝０ ^ｔ－ｒ_ｔ，ｍ）」が付加されている。

　図１１に示されるリスク考慮型履歴情報でも、エピソードにおける最終の時間ステップの報酬ｒ_ｔ，ｍに対して、条件を反映させるための項「－（１／ε）ｍａｘ（０，ｖ＋Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍ）」が付加されたままであり、閾値ｖの値が１から０．５に変更されている。

　これに対し、図１２および式（３）に示される補助報酬の付加では、エピソードにおける最終の時間ステップとは異なる時間ステップの報酬ｒ_ｔ，ｍに対して、補助報酬の項「－（１／ε）ｍａｘ（０，ｖ＋Σ_ｔ＝０ ^Ｔｍ－ｒ_ｔ，ｍ）」が付加されている。
　図１２および式（３）に示される補助報酬の付加は、エピソードにおける最終の時間ステップの報酬に付加されている、条件を反映させるための項と同様の項を、エピソードにおける最終の時間ステップとは異なる時間ステップの報酬に付加するものと言える。図１２および式（３）に示される補助報酬の付加の例では、最終の時間ステップ以外の時間ステップについて補助報酬が付加されている。しかし、必ずしもすべての時間ステップについて補助報酬が付加されている必要はなく、最終の時間ステップ以外の時間ステップうち、一部の時刻ステップについて補助報酬が付加されていてもよい。

　このように、補助報酬の項の付加によって、制御対象３００の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更されたといえる。時間ステップ間での評価関数の相違が小さくなることで、報酬値の変化の度合いが小さくなり、この点で、学習が難しくなる度合いが緩和されると期待される。

　図１３は、動作規則決定装置１００が、制御対象３００の行動規則を学習によって決定する処理手順の例を示す図である。
　図１３の処理で、カリキュラム設定部１９１は、カリキュラムを設定する（ステップＳ１１）。例えば、カリキュラム設定部１９１は、カリキュラム０、１、２の順に３段階のカリキュラムを設定する。

　例えば、カリキュラム設定部１９１は、カリキュラム０として、図１２に例示される、閾値が変更され、かつ、補助報酬が付加された報酬を用いる学習を設定する。また、カリキュラム設定部１９１は、カリキュラム１として、図１１に例示される、閾値が変更された報酬を用いる学習を設定する。また、カリキュラム設定部１９１は、カリキュラム２として、図１０に例示される、制御対象３００に関する条件が反映された報酬を用いる学習を設定する。

　カリキュラム２における学習は、制御対象３００の動作規則が満たすべき条件の下での学習と言える。すなわち、カリキュラム２における学習は、学習部１９５が最終的に求めたい動作規則を求めるための学習と言える。
　カリキュラム設定部１９１が、比較的容易な学習から比較的難しい学習へと段階的にカリキュラムを設定することで、学習部１９５は、比較的容易な学習における学習結果を比較的難しい学習に利用することができ、学習を効率的に行えると期待される。例えば、学習部１９５は、比較的容易な学習で得られた動作規則（方策）を、比較的難しい学習における動作規則の初期値に設定することができる。
　ステップＳ１１でのカリキュラムの設定で、評価関数設定部１９２は、カリキュラムに応じた報酬関数を設定する。

　次に、学習部１９５は、カリキュラムにおける動作規則を初期設定する（ステップＳ１２）。例えば、カリキュラム０（最初のカリキュラム）では、学習部１９５は、動作規則を所定の動作規則に設定する。カリキュラム１および２では、学習部１９５は、動作規則を、その前のカリキュラムで得られた動作規則に設定する。

　次に、履歴情報取得部１９３は、履歴情報を取得する（ステップＳ１３）。履歴情報取得部１９３が、制御対象３００の動作のシミュレーションを行って履歴情報を取得するようにしてもよい。あるいは、履歴情報取得部１９３が、制御装置２００が制御対象３００を制御して得られる履歴情報を取得するようにしてもよい。制御対象３００は、取得した履歴情報を履歴情報記憶部１８３に記憶させる。

　次に、履歴情報変換部１９４は、カリキュラム設定部１９１が設定したカリキュラムに応じて履歴情報を変換する（ステップＳ１４）。履歴情報変換部１９４は、変換後の履歴情報を履歴情報記憶部１８３に記憶させる。
　次に、学習部１９５は、履歴情報変換部１９４による変換後の履歴情報を用いて動作規則を学習する（ステップＳ１５）。例えば、学習部１９５が、式（４）を用いて方策勾配法によって動作規則のパラメータの値を更新するようにしてもよい。

　ここで、Ｍは、エピソードの個数を示す。Ｔ_ｍは、第ｍエピソードにおけるターン数を示す。αは、行動規則のパラメータθを更新する大きさを調整するための係数である。
　π（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）は、状態ｓ’_ｔ，ｍおよび行動規則のパラメータθのもとで動作ａ_ｔ，ｍが選ばれる確率を示す。∇_θｌｏｇπ（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）は、θによるｌｏｇπ（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）の微分を示す。∇_θｌｏｇπ（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）が示す傾きの方向に行動規則のパラメータθの値が変化することで、状態ｓ’_ｔ，ｍおよび行動規則のパラメータθのもとで動作ａ_ｔ，ｍが選ばれる確率が上昇する。

　リスク考慮型報酬ｒ’の値が正の場合、学習部１９５は、∇_θｌｏｇπ（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）が示す傾きの方向に行動規則のパラメータθの値を更新する。これによって、状態ｓ’_ｔ，ｍおよび行動規則のパラメータθのもとで動作ａ_ｔ，ｍが選ばれる確率が上昇する。

　一方、リスク考慮型報酬ｒ’の値が負の場合、学習部１９５は、∇_θｌｏｇπ（ａ_ｔ，ｍ｜ｓ’_ｔ，ｍ，θ）が示す傾きの方向と逆方向に行動規則のパラメータθの値を変化させる。これによって、状態ｓ’_ｔ，ｍおよび行動規則のパラメータθのもとで動作ａ_ｔ，ｍが選ばれる確率が低下する。

　学習部１９５は、式（４）を用いることで、リスク考慮型報酬ｒ’の累積値を最大化するように行動規則のパラメータθの値を更新する。上記のように、履歴情報変換部１９４が、リスクを含むエピソードの報酬からペナルティを減算することで、リスクを含むエピソードの動作が選ばれる確率が低下する。

　ただし、学習部１９５が動作規則を学習する方法は、特定の方法に限定されない。例えば、学習部１９５が動作規則を学習する方法として、報酬に基づいて動作規則を更新する公知の方法を用いることができる。
　学習部１９５は、学習で得られた動作規則のパラメータ値を方策パラメータ記憶部１８２に記憶させる（ステップＳ１６）。

　次に、学習部１９５は、動作規則変換処理を行う（ステップＳ１７）。
　動作規則変換処理では、学習部１９５は、得られた動作規則の評価値を算出し、前回のステップＳ１５の実行で得られた動作規則の評価値と比較する。前回のステップＳ１５の実行で得られた動作規則のほうが評価値が大きい場合、学習部１９５は、今回のステップＳ１５の実行を無かったものとして扱う。この場合、学習部１９５は、今回のステップＳ１５の実行で得られた動作規則のパラメータ値を方策パラメータ記憶部１８２から削除し、仮採用するパラメータ値として、前回のステップＳ１５の実行で得られた動作規則のパラメータ値を設定し直す。
　ただし、動作規則変換処理は、必須ではない。したがって、動作規則決定装置１００が、ステップＳ１７の処理を行わず、ステップＳ１６の後、ステップＳ１８を実行するようにしてもよい。

　次に、カリキュラム設定部１９１は、１カリキュラム分の処理が終了したか否かを判定する（ステップＳ１８）。
　例えば、「平均リターン＞１．０」、かつ、制約充足率９０％が成り立つ場合に、カリキュラム設定部１９１が、１カリキュラム分の処理が終了したと判定するようにしてもよい。
　あるいは、カリキュラム設定部１９１が、カリキュラム毎に異なる終了条件を用いるようにしてもよい。

　１カリキュラム分の処理が終了していないとカリキュラム設定部１９１が判定した場合（ステップＳ１８：ＮＯ）、処理がステップＳ１３に戻る。
　一方、１カリキュラム分の処理が終了しているとカリキュラム設定部１９１が判定した場合（ステップＳ１８：ＹＥＳ）、学習部１９５は、そのカリキュラムで得られた条件を満たす動作規則のうち、リターンの期待値が最も大きくなる動作規則を、学習結果として選択する（ステップＳ１９）。

　次に、カリキュラム設定部１９１は、最後のカリキュラムを終了したか否かを判定する（ステップＳ２０）。
　最後のカリキュラムを終了してないとカリキュラム設定部１９１が判定した場合（ステップＳ２０：ＮＯ）、処理がステップＳ１１へ戻る。
　一方、最後のカリキュラムを終了したとカリキュラム設定部１９１が判定した場合（ステップＳ２０：ＹＥＳ）、動作規則決定装置１００は、図１３の処理を終了する。

　図１４は、履歴情報取得部１９３がシミュレーションによって履歴情報を取得する場合の処理手順の例を示す図である。履歴情報取得部１９３は、図１３のステップＳ１３で図１４の処理を行う。
　図１４の処理で、履歴情報取得部１９３は、環境を設定する（ステップＳ１１１）。具体的には、履歴情報取得部１９３は、環境パラメータを有するシミュレーションモデルを備え、環境パラメータに値を設定することで環境の設定を行う。
　図３から図７の例の場合、環境パラメータの例として、床の摩擦抵抗値など床の滑り易さを挙げることができる。ただし、履歴情報取得部１９３が備えるシミュレーションモデルにおける環境パラメータは、特定のものに限定されない。

　次に、履歴情報取得部１９３は、シミュレーションを１ステップ分実行する（ステップＳ１１２）。ここでのシミュレーションの１ステップは、制御対象３００の動作の計算、および、制御対象３００の動作後の状態の計算を１回分行う処理である。
　シミュレーションの１ステップは、時間ステップの１ステップ、および、エピソードの１ターンに該当する。

　次に、履歴情報取得部１９３は、ステップＳ１１２での制御対象３００の動作、および、算出した状態を示す情報を、１ステップ分の履歴情報として履歴情報記憶部１８３に記憶させる（ステップＳ１３）。履歴情報記憶部１８３が履歴情報を記憶している場合、履歴情報取得部１９３は、履歴情報記憶部１８３が記憶している履歴情報に、１ステップ分の履歴情報を追加する。
　履歴情報取得部１９３が、報酬値も算出して履歴情報に含めるようにしてもよい。あるいは、履歴情報取得部１９３または学習部１９５が、制御対象３００の動作および状態に基づいて、事後的に報酬値を算出するようにしてもよい。

　次に、履歴情報取得部１９３は、１エピソード分のシミュレーションが終了したか否かを判定する（ステップＳ１１４）。具体的には、履歴情報取得部１９３は、エピソードの終了条件が成立しているか否かを判定する。
　図３から図７の例の場合、エピソードの終了条件として、エピソードにおけるターン数が所定の数だけ進んだ、あるいは、Ｈｏｐｐｅｒ８０１が転倒した、という条件を挙げることができる。ただし、エピソードの終了条件は、特定の条件に限定されない。

　１エピソード分のシミュレーションが終了していないと履歴情報取得部１９３が判定した場合（ステップＳ１１４：ＮＯ）、処理がステップＳ１１２へ戻る。
　一方、１エピソード分のシミュレーションが終了したと判定した場合（ステップＳ１１４：ＹＥＳ）、履歴情報取得部１９３は、シミュレーションを行うべき環境の設定を全て実行したか否かを判定する（ステップＳ１１５）。例えば、履歴情報取得部１９３は、複数通り定められている環境パラメータ値の設定を全て実行したか否かを判定する。

　実行していない環境の設定があると履歴情報取得部１９３が判定した場合（ステップＳ１１５：ＮＯ）、処理がステップＳ１１１へ戻る。
　一方、シミュレーションを行うべき環境の設定を全て実行したと判定した場合（ステップＳ１１５：ＹＥＳ）、履歴情報取得部１９３は、図１４の処理を終了する。

　図１５は、学習部１９５が動作規則評価処理を行う手順の例を示す図である。学習部１９５は、図１３のステップＳ１７で図１５の処理を行う。
　図１５の処理で、学習部１９５は、図１３のステップＳ１５の今回の実行で得られた動作規則を評価する（ステップＳ２１１）。

　学習部１９５が、ステップＳ２１１で動作規則を評価する方法は特定の方法に限定されない。例えば、ステップＳ２１１が、動作規則を履歴情報取得部１９３に出力して制御対象３００の動作のシミュレーションを実行させ、制御対象３００の動作の結果として得られる状態情報に対する評価指標値を算出するようにしてもよい。

　次に、学習部１９５は、ステップＳ１５の今回の実行で得られた動作規則が、ステップＳ１５の前回の実行で得られた動作規則以上に高評価か否かを判定する（ステップＳ２１２）。例えば、学習部１９５が、ステップＳ１５の今回の実行で得られた動作規則と、ステップＳ１５の前回の実行で得られた動作規則とについて、ステップＳ２１１で算出した評価指標値を比較するようにしてもよい。

　ステップＳ１５の今回の実行で得られた動作規則が、ステップＳ１５の前回の実行で得られた動作規則以上に高評価であると判定した場合（ステップＳ２１２：ＹＥＳ）、学習部１９５は、図１５の処理を終了する。
　一方、ステップＳ１５の前回の実行で得られた動作規則のほうが高評価であると判定した場合（ステップＳ２１２：ＮＯ）、学習部１９５は、今回のステップＳ１５の実行を無かったものとして扱う。この場合、学習部１９５は、今回のステップＳ１５の実行で得られた動作規則のパラメータ値を方策パラメータ記憶部１８２から削除し、仮採用するパラメータ値として、前回のステップＳ１５の実行で得られた動作規則のパラメータ値を設定し直す。
　ステップＳ２１３の後、学習部１９５は、図１５の処理を終了する。

　以上のように、評価関数設定部１９２は、制御対象３００の動作に関する条件が反映された第一評価関数から、制御対象３００の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定する。学習部１９５は、第二評価関数を用いて制御対象３００の動作規則の学習を行う。そして、学習部１９５は、第二評価関数を用いた学習における学習結果と、第一評価関数とを用いて制御対象３００の動作規則の学習を行う。

　第二評価関数を用いる学習のほうが、第一評価関数を用いる学習よりも、時間ステップ間での評価関数の相違が小さいことで評価値の変化量が小さく、学習が容易であることが期待される。学習部１９５が、第二評価関数を用いた学習における学習結果を用いることで、第一評価関数を用いる学習を比較的容易に行えると期待される。このように、動作規則決定装置１００によれば、制御対象３００の動作規則の学習において、動作に関する条件が設定されることで学習が比較的難しくなる場合に、学習が難しくなる度合いを緩和するための対策を講じることができる。

　また、第一評価関数は、制御対象の一連の動作の時間ステップのうち最後の時間ステップにおいて、制御対象３００の動作に関する条件が反映されるように設定されている。評価関数設定部１９２は、第一評価関数から、最後の時間ステップにおける制御対象３００の動作に関する条件に基づく条件を、制御対象３００の一連の動作の時間ステップのうち、最後の時間ステップとは異なる時間ステップにおいて反映させる変更が行われた、前記第二評価関数を生成する。

　これにより、第二評価関数を用いた学習では、制御対象３００の動作に関する評価の時間ステップ間での評価関数の相違が小さくなる。動作規則決定装置１００によれば、時間ステップ間での評価関数の相違が小さくなることで、報酬値の変化の度合いが小さくなり、この点で、学習が難しくなる度合いが緩和されると期待される。

　また、第一評価関数は、制御対象３００の動作に関する評価が閾値よりも低い評価である場合に、制御対象３００の動作に関する評価を低下させるように設定されている。評価関数設定部１９２は、第一評価関数から、制御対象３００の動作に関する評価が閾値以上に高い評価となり易いように閾値が変更された、第二評価関数を生成する。

　第二評価関数を用いた学習では、第一評価関数を用いた学習の場合よりも、評価が低下する頻度が低くなる。この点で、評価関数設定部１９２によって、制御対象３００の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更されたといえる。動作規則決定装置１００によれば、評価が低下して時間ステップ間で評価値が急変する頻度が低くなり、この点で、学習が難しくなる度合いが緩和されると期待される。

　また、学習部１９５は、動作規則の学習中に設定した動作規則に対する評価が所定の条件よりも低い場合、過去に設定した動作規則を再度設定する。
　動作規則決定装置１００によれば、学習に失敗した場合に学習結果を学習に失敗する前の状態に戻すことができ、これによって学習を効率的に行えると期待される。

　図１６は、実施形態に係る動作規則決定装置の構成の例を示す図である。図１６に示す構成で、動作規則決定装置６００は、評価関数設定部６０１と、学習部６０２とを備える。
　かかる構成で、評価関数設定部６０１は、制御対象の動作に関する条件が反映された第一評価関数から、制御対象の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定する。学習部６０２は、第二評価関数を用いて制御対象の動作規則の学習を行い、学習結果と、第一評価関数とを用いて制御対象の動作規則の学習を行う。

　第二評価関数を用いる学習のほうが、第一評価関数を用いる学習よりも、時間ステップ間での評価関数の相違が小さいことで評価値の変化量が小さく、学習が容易であることが期待される。学習部６０２が、第二評価関数を用いた学習における学習結果を用いることで、第一評価関数を用いる学習を比較的容易に行えると期待される。このように、動作規則決定装置６００によれば、制御対象の動作規則の学習において、動作に関する条件が設定されることで学習が比較的難しくなる場合に、学習が難しくなる度合いを緩和するための対策を講じることができる。
　評価関数設定部６０１は、例えば、図２に示される評価関数設定部１９２等の機能を用いて実現することができる。学習部６０２は、例えば、図２に示され学習部１９５等の機能を用いて実現することができる。

　図１７は、実施形態に係る動作規則決定方法における処理の手順の例を示す図である。図１７に示す処理は、評価関数を設定すること（ステップＳ６０１）と、学習を行うこと（ステップＳ６０２）とを含む。
　評価関数を設定すること（ステップＳ６０１）では、コンピュータが、制御対象の動作に関する条件が反映された第一評価関数から、制御対象の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定する。
　学習を行うこと（ステップＳ６０２）では、コンピュータが、第二評価関数を用いて制御対象の動作規則の学習を行い、学習結果と、第一評価関数とを用いて制御対象の動作規則の学習を行う。

　第二評価関数を用いる学習のほうが、第一評価関数を用いる学習よりも、時間ステップ間での評価関数の相違が小さいことで評価値の変化量が小さく、学習が容易であることが期待される。ステップＳ６０２の処理で、第二評価関数を用いた学習における学習結果を用いることで、第一評価関数を用いる学習を比較的容易に行えると期待される。このように、図１７に示す処理によれば、制御対象の動作規則の学習において、動作に関する条件が設定されることで学習が比較的難しくなる場合に、学習が難しくなる度合いを緩和するための対策を講じることができる。

　図１８は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
　図１８に示す構成で、コンピュータ７００は、ＣＰＵ７１０と、主記憶装置７２０と、補助記憶装置７３０と、インタフェース７４０と、不揮発性記録媒体７５０とを備える。

　上記の動作規則決定装置１００、制御装置２００、および動作規則決定装置６００のうち何れか１つ以上またはその一部が、コンピュータ７００に実装されてもよい。その場合、上述した各処理部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ７１０は、プログラムに従って、上述した各記憶部に対応する記憶領域を主記憶装置７２０に確保する。各装置と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って通信を行うことで実行される。また、インタフェース７４０は、不揮発性記録媒体７５０用のポートを有し、不揮発性記録媒体７５０からの情報の読出、および、不揮発性記録媒体７５０への情報の書込を行う。

　動作規則決定装置１００がコンピュータ７００に実装される場合、制御部１９０およびその各部の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ７１０は、プログラムに従って、記憶部１８０およびその各部に対応する記憶領域を主記憶装置７２０に確保する。通信部１１０が行う通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って通信を行うことで実行される。
　動作規則決定装置１００とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

　制御装置２００がコンピュータ７００に実装される場合、その動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ７１０は、プログラムに従って、制御装置２００が処理を行うための記憶領域を主記憶装置７２０に確保する。制御装置２００と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。
　制御装置２００とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

　動作規則決定装置６００がコンピュータ７００に実装される場合、評価関数設定部６０１および学習部６０２の動作は、プログラムの形式で補助記憶装置７３０に記憶されている。ＣＰＵ７１０は、プログラムを補助記憶装置７３０から読み出して主記憶装置７２０に展開し、当該プログラムに従って上記処理を実行する。

　また、ＣＰＵ７１０は、プログラムに従って、動作規則決定装置６００が処理を行うための記憶領域を主記憶装置７２０に確保する。動作規則決定装置６００と他の装置との通信は、インタフェース７４０が通信機能を有し、ＣＰＵ７１０の制御に従って動作することで実行される。
　動作規則決定装置６００とユーザとのインタラクションは、インタフェース７４０が入力デバイスおよび出力デバイスを有し、ＣＰＵ７１０の制御に従って出力デバイスにて情報をユーザに提示し、入力デバイスにてユーザ操作を受け付けることで実行される。

　上述したプログラムのうち何れか１つ以上が不揮発性記録媒体７５０に記録されていてもよい。この場合、インタフェース７４０が不揮発性記録媒体７５０からプログラムを読み出すようにしてもよい。そして、ＣＰＵ７１０が、インタフェース７４０が読み出したプログラムを直接実行するか、あるいは、主記憶装置７２０または補助記憶装置７３０に一旦保存して実行するようにしてもよい。

　なお、動作規則決定装置１００、制御装置２００、および動作規則決定装置６００が行う処理の全部または一部を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
　また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　本発明は、動作規則決定装置、動作規則決定方法および記録媒体に適用してもよい。

　１　制御システム
　１００、６００　動作規則決定装置
　１１０　通信部
　１８０　記憶部
　１８１　カリキュラム記憶部
　１８２　方策パラメータ記憶部
　１８３　履歴情報記憶部
　１９０　制御部
　１９１　カリキュラム設定部
　１９２、６０１　評価関数設定部
　１９３　履歴情報取得部
　１９４　履歴情報変換部
　１９５、６０２　学習部
　２００　制御装置
　３００　制御対象

Claims

　制御対象の動作に関する条件が反映された第一評価関数から、前記制御対象の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定する評価関数設定部と、
　前記第二評価関数を用いて前記制御対象の動作規則の学習を行い、学習結果と、前記第一評価関数とを用いて前記制御対象の動作規則の学習を行う学習部と、
　を備える動作規則決定装置。
　前記第一評価関数は、前記制御対象の一連の動作の時間ステップのうち最後の時間ステップにおいて、前記条件が反映されるように設定されており、
　前記評価関数設定部は、前記第一評価関数から、前記最後の時間ステップにおける前記条件に基づく条件を、前記制御対象の一連の動作の時間ステップのうち、最後の時間ステップとは異なる時間ステップにおいて反映させる変更が行われた、前記第二評価関数を生成する、
　請求項１に記載の動作規則決定装置。
　前記第一評価関数は、前記制御対象の動作に関する評価が閾値よりも低い評価である場合に、前記制御対象の動作に関する評価を低下させるように設定されており、
　前記評価関数設定部は、前記第一評価関数から、前記制御対象の動作に関する評価が閾値以上に高い評価となり易いように前記閾値が変更された、前記第二評価関数を生成する、
　請求項１または請求項２に記載の動作規則決定装置。
　前記学習部は、前記動作規則の学習中に設定した動作規則に対する評価が所定の条件よりも低い場合、過去に設定した動作規則を再度設定する、
　請求項１から３の何れか一項に記載の動作規則決定装置。
　コンピュータが、
　制御対象の動作に関する条件が反映された第一評価関数から、前記制御対象の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定し、
　前記第二評価関数を用いて前記制御対象の動作規則の学習を行い、学習結果と、前記第一評価関数とを用いて前記制御対象の動作規則の学習を行う
　ことを含む動作規則決定方法。
　コンピュータに、
　制御対象の動作に関する条件が反映された第一評価関数から、前記制御対象の動作に関する評価の時間ステップ間での評価関数の相違が小さくなるように変更された第二評価関数を設定することと、
　前記第二評価関数を用いて前記制御対象の動作規則の学習を行い、学習結果と、前記第一評価関数とを用いて前記制御対象の動作規則の学習を行うことと、
　を実行させるためのプログラムを記録した記録媒体。