WO2019021401A1

WO2019021401A1 - 強化学習装置、強化学習方法、および強化学習プログラム記録媒体

Info

Publication number: WO2019021401A1
Application number: PCT/JP2017/027094
Authority: WO
Inventors: 貴士大西; 正明土田
Original assignee: 日本電気株式会社
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2019-01-31
Also published as: JPWO2019021401A1; JP6764143B2

Abstract

強化学習装置は、開始点からゴールに到達するまでのＮ（Ｎは３以上の整数）個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナと、前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナと、を含む。ハイレベルプランナは、タスク知識を用いて、Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、前記Ｍ個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定部を含む。タスク知識は、開始点からゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である。

Description

強化学習装置、強化学習方法、および強化学習プログラム記録媒体

本発明は、強化学習装置、強化学習方法、および強化学習プログラム記録媒体に関する。

強化学習（Reinforcement Learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種である。エージェントは行動を選択することで環境から報酬を得る。強化学習は、一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。

このような強化学習の一つとして、非特許文献１は、Meta-ControllerとControllerとの２つの強化学習エージェントからなる「階層強化学習」を提案している。開始点から目標（Goal）までの間に複数の状態がある状況において、開始点から最短経路で目標まで到達したい場合を想定する。ここで、各状態はサブゴール(Subgoal)とも呼ばれる。非特許文献１においては、Meta-Controllerは、あらかじめ与えられた複数のサブゴール（但し、非特許文献１では、”goal”と記している）の中から、次に達成すべきサブゴールをControllerへ提示している。

Meta-Controllerはハイレベルプランナとも呼ばれ、Controllerはローレベルプランナとも呼ばれる。したがって、非特許文献１では、ハイレベルプランナが複数のサブゴールの中から特定のサブゴールを決定し、ローベルプランナが特定のサブゴールに基づいて実際のアクションを決めている。ハイレベルプランナは、サブゴール決定部を備えている。εを０から１の間の変数とする（０≦ε≦１）。変数εの初期値は１である。試行回数が少ない間は、変数εの値は１に近い。試行回数が増えていくにつれて経験値が蓄積していくので、変数εの値は０に近づくように徐々に減少する。この状況において、サブゴール決定部は、複数のサブゴールの中からεの確率でランダムに特定のサブゴールを選択し、（１－ε）の確率で経験的に特定のサブゴールを選択する。

また、特許文献１は、対象とするタスクを自らが選択して、次々と能力を伸長させていくことができる自律エージェントの学習を実現することができる、「学習制御装置」を開示している。特許文献１に開示された学習制御装置は、予測部と、評価部と、制御部と、計画部とを備える。予測部は、環境を教師とした予測学習を行う。評価部は、予測部による予測のエラー、計画部による計算のエラー、制御部による行動の制御のエラーを観測し、それをもとに、自律エージェントが達成するべきセンサ状態空間上の達成状態を設定し、目標とする達成状態（目標状態）を計画部に与える。計画部は、現在の状態から、評価部により与えられた目標状態に達するまでの行動シーケンスをプラン（計画）する。制御部は、計画部による計画と環境とを教師とした学習を実行し、自律エージェントのアクションを制御する。予測部と制御部の学習が十分に進むと、目標状態を一つのアクションとして階層化することができる。

予測部は、自分自身の取ったアクションと環境の変化（センサ入力の変化）の関係を常に学習しており、誤った計画でも実行されることによって予測部の予測精度が改善されていく。予測部は、大規模サンプルや、大次元入力の学習に耐える関数近似器の能力を利用することにより、次元に呪われることなく、予測学習を行うことができる。また、未熟な予測部で生成したプランにより、誤ったプランが実行されることでも、予測部は不得手な状態空間を経験し、予測性能を向上させることができる。計画部がヒューリスティクス探索の手法を用いることにより、入力の次元が増えて状態空間が大きくなっても、Ｑ学習や動的計画法を用いた場合と比較して、探索の組み合わせが爆発してしまうことを抑制することができる。また、成功シーケンスの学習が繰り返されることにより、制御部を汎化することが可能である。

特許文献２は、予め定義されたアクションのセットに基づいて作動されるロボットの動作の改善方法を提供している。特許文献２は、次のことを記載している。アクションライブラリに保存されているオリジナルアクションの集合の中の少なくとも２つのアクションを組み合わせることにより、複合アクションが生成される。複合アクションを含めてポリシーが学習された後では、それらの複合アクションの多くは使用することができない。一つの理由は、関節動作制限（joints limits）や衝突などのロボットの制約に違反し得るためであり、他の理由は、複合アクションが特定のシナリオにおいては何らの利益ももたらさいためである。したがって、上述の理由からアクションライブラリを小さく維持すべく、そのような無意味な複合アクションがアクションライブラリから除去される。

特開２００６－２６８８１２号公報特開２０１６－１９６０７９号公報

Tejas D. Kulkarni, et al. "Hierarchical Deep Reinforcement Learning: Integrating Tmporal Abstraction and Intrinsic Motivation." 30th Conference on Nural Information Processing Systems (NIPS 2016), Barcelona, Spein.

複雑なシステムのオペレーションを、非特許文献１に開示されているような、階層強化学習によって学習させるとする。この場合、サブゴールの数が多くなる。換言すれば、サブゴールを探索するための探索空間が膨大となる。学習のために、サブゴール決定部は、様々なサブゴールを試行錯誤する必要がある。その結果、非特許文献１に開示された階層強化学習方法では、学習時間が非常に長くなってしまうという課題がある。

特許文献１も、階層強化学習を開示しているに過ぎない。また、特許文献１では、開始点について何ら開示も示唆もしていない。さらに、特許文献１においては、目標（ゴール）が予め設定されてはおらず、評価部が、上述したエラーの観測に基づいて目標状態を設定して、計画部が、現在の状態から目標状態に達するまでの行動シーケンスを計画している。よって、特許文献１においては、開始点からゴールに到達するまでの複数のサブゴールという概念について、何ら開示も示唆もしていない。

特許文献２は、単に、無意味な複合アクションがアクションライブラリから除去することを記載しているに過ぎない。

本発明の目的は、上述した課題を解決できる強化学習装置、強化学習方法、および強化学習プログラム記録媒体を提供することにある。

本発明の一形態は、開始点からゴールに到達するまでのＮ（Ｎは３以上の整数）個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナと、前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナと、を備え、前記ハイレベルプランナは、タスク知識を用いて、前記Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、前記Ｍ個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定部を備え、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、である。

本発明の一形態は、ハイレベルプランナが、開始点からゴールに到達するまでのＮ（Ｎは３以上の整数）個のサブゴールの中から特定のサブゴールを決定し、ローレベルプランナが、前記特定のサブゴールに従って実際のアクションを決める、強化学習方法であって、前記ハイレベルプランナのサブゴール決定部が、タスク知識を用いて、前記Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、前記Ｍ個のサブゴール候補の中から優先的に前記特定のサブゴールを決定し、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべき規則を規定しているタスクルールに基づいて決定された知識である、強化学習方法である。

本発明の一形態は、開始点からゴールに到達するまでのＮ（Ｎは３以上の整数）個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナ手順と、前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナ手順と、をコンピュータに実行させる強化学習プログラムを記録した強化学習プログラム記録媒体であって、前記ハイレベルプランナ手順は、タスク知識を用いて、前記Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、前記Ｍ個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定手順を備え、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、強化学習プログラム記録媒体である。

本発明によれば、試行回数を減らして学習時間を短縮することできる。

本発明の実施形態に係る強化学習装置が適用される、対象システムの概略構成図である。本発明の一実施形態に係る強化学習装置のハードウェア構成を示すブロック図である。図２に示された、タスク知識とサブゴール決定部との詳細な一構成例を示すブロック図である。図２に示したハイレベルプランナにおけるサブゴールの決定フローを示す流れ図である。知識タスクが優先ルールのみから成る場合における、ハイレベルプランナにおけるサブゴール決定フローを示す流れ図である。知識タスクが抑制ルールのみから成る場合における、ハイレベルプランナにおけるサブゴール決定フローを示す流れ図である。タスクルールから知識タスクを作成する一構成例を示すブロック図である。アイテムが配置される、１３×１３升目のフィールドを示す図である。図８に示すフィールドでのアイテム配置の一例を示す図である。第１の実施例におけるタスクルールである、Craftルールを示す図である。優先ルールの一例を示す図である。抑制ルールの一例を示す図である。本実施形態における強化学習装置と、非特許文献１に開示されている階層強化学習（先行技術）との比較結果（実験結果）を示す図である。優先ルールを推論器を用いて導出するために必要な「背景知識」と「目的状態」とを示す図である。推論器によって導出された優先ルールの一例を示す図である。推論器において定義される「非目的状態」の一例を示す図である。推論器によって導出された抑制ルールの一例を示す図である。

図１は、本発明の実施形態に係る強化学習装置が適用される、対象システムの概略構成図である。

対象システムは、開始点Ｓと、目標（ゴール）Ｇとを有する。対象システムには、開始点ＳからゴールＧまでの間にＮ（Ｎは３以上の整数）個のサブゴールが存在する。図１に示す例では、Ｎ個のサブゴールとして、Ａ、Ｂ、およびＣで示される３つのサブゴールを代表的に図示している。ここでは、サブゴールＡを第１のサブゴールと呼び、サブゴールＢを第２のサブゴールと呼び、サブゴールＣを第３のサブゴールと呼ぶことにする。

対象システムには、開始点ＳからゴールＧに到達するまでに満たすべきタスクルールが規定されている。図１に示す対象システムの場合、そのタスクルールに従って、開始点Ｓから、第１のサブゴールＡ、第２のサブゴールＢ、および第３のサブコールＣを経由して、ゴールＧに最短で到達することができる例を示している。

しかしながら、一般的には、対象システムはサブゴールの数が多く、その結果、サブゴールを探索するための探索空間が膨大となる。そこで、本実施形態に係る強化学習装置では、後述するように、タスク知識を利用して探索範囲を絞り、学習の効率化を図っている。

[実施の形態]
図２は、本発明の一実施形態に係る強化学習装置１００のハードウェア構成を示すブロック図である。図示の強化学習装置１００は、プログラム制御により動作するコンピュータで実現可能である。

図示の強化学習装置１００は、図１に示されるような対象システムにおいて、サブゴールを探索する装置である。

強化学習装置１００は、データを入力する入力装置１０１と、データを出力する出力装置１０２と、後述するプログラムやデータを記憶する記憶装置１０４と、データを処理するデータ処理装置１０５とを備えている。

出力装置１０２は、ＬＣＤ（Liquid Crystal Display）やＰＤＰ（Plasma Display Panel）などの表示装置やプリンタからなる。出力装置１０２は、データ処理装置１０５からの指示に応じて、操作メニューなどの各種情報を表示したり、最終結果を印字出力する機能を有する。

記憶装置１０４は、ハードディスクやリードオンリメモリ（ＲＯＭ）およびランダムアクセスメモリ（ＲＡＭ）などのメモリからなる。記憶装置１０４は、データ処理装置１０５における各種処理に必要な処理情報(後述する)やプログラム２０１を記憶する機能を有する。

データ処理装置１０５は、ＭＰＵ（micro processing unit）などのマイクロプロセッサや中央処理装置（ＣＰＵ）からなる。データ処理装置１０５は、記憶装置１０４からプログラム２０１を読み込んで、プログラム２０１に従ってデータを処理する各種処理部を実現する機能を有する。

データ処理装置１０５で実現される主な処理部は、ハイレベルプランナ３０１およびローベルプランナ３０２からなる。

ハイレベルプランナ３０１は、後述するように、上記Ｎ個のサブゴールの中から特定のサブゴールを決定する。ローレベルプランナ３０２は、その特定のサブゴールに従って実際のアクションを決める。

すなわち、ハイレベルプランナ３０１は、図１に示されるような、目標Ｇまでのサブゴールを順次、ローレベルプランナ３０２に指示する。ローレベルプランナ３０２は、その指示されたサブゴールを達成するようにシミュレータ（図示せず）を操作する。ローレベルプランナ３０２は、目標達成の結果をハイレベルプランナ３０１にフィードバックする。

詳述すると、記憶装置１０４は、後述するような、タスク知識２０２を予め格納している。タスク知識２０２は、上記タスクルールに基づいて、後述するように決定された知識である。

ハイレベルプランナ３０１は、サブゴール決定部３０３を備える。サブゴール決定部３０３は、タスク知識２０２を用いて、上記Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、Ｍ個のサブゴール候補の中から優先的に上記特定のサブゴールを決定する。

図３は、タスク知識２０２とサブゴール決定部３０３との詳細な一構成例を示すブロック図である。

図示のタスク知識２０２は、優先ルール２０４と、抑制ルール２０６と含む。優先ルール２０４は、上記タスクルールに基づいて求められた、ゴールＧの到達に資するサブゴールを優先するルールである。一方、抑制ルール２０６は、上記タスクルールに基づいて求められた、ゴールＧの到達に資さないサブゴールを抑制するルールである。

サブゴール決定部３０３は、優先選択部３０５と、サブゴールチェック部３０７とを含む。優先選択部３０５は、優先ルール２０４に従って、Ｎ個のサブゴールの中からＭ個のサブゴール候補を優先的に抽出して選択する。

詳述すると、優先選択部３０５は、サブゴール候補抽出部３１１と、サブゴール選択部３１３とから成る。サブゴール候補抽出部３１１は、優先ルール２０４に従って、Ｎ個のサブゴールからＭ個のサブゴール候補を抽出する。サブゴール選択部３１３は、Ｍ個のサブゴール候補の中から優先的に１つのサブゴールを選択して、選択したサブゴールを出力する。

サブゴールチェック部３０７は、抑制ルール２０６に基づいて、上記選択したサブゴールが、上記特定のサブゴールとしてＯＫかＮＧかを判定する。ＯＫの場合、サブゴールチェック部３０７は、選択したサブゴールを、特定のサブゴールとして出力する。サブゴールチェック部３０７でＮＧと判定されたとする。この場合、所定の確率ｐで、サブゴール選択部３１３は、サブゴール選択をやり直す。また、確率（1-p）で、サブゴールチェック部３０７は、ＮＧとされたサブゴールをそのまま特定のサブゴールとして出力する。

[動作の説明]
次に、図４のフローチャートを参照して、ハイレベルプランナ３０１におけるサブゴールを決定する動作（すなわち、サブゴール決定部３０３の動作）について詳細に説明する。

ここで、上述したのと同様に、εを０から１の間の変数とする（０≦ε≦１）。試行回数が少ない間は、変数εの値は１に近い。試行回数が増えていくにつれて経験値が蓄積されていくので、変数εの値は０に近づくように徐々に減少する。この状況において、本実施形態に係るサブゴール決定部３０３は、εの確率で上記タスク知識２０２を用いて、後述するように、特定のサブゴールを選択し、決定する。一方、先行技術の場合と同様に、サブゴール決定部３０３は、（１－ε）の確率で経験的に特定のサブゴールを選択し（ステップＳ１０１）、特定のサブゴールを決定する（ステップＳ１０２）。

次に、εの確率でタスク知識２０２を用いて、特定のサブゴールを選択し、決定する場合の動作について説明する。

まず、サブゴール候補抽出部３１１は、優先ルール２０４に従って、Ｎ個のサブゴールからＭ個のサブゴール候補を抽出する（ステップＳ１０３）。次に、サブゴール選択部３１３は、抽出したＭ個のサブゴール候補の中から１つのサブゴールを選択し、選択したサブゴールを出力する（ステップＳ１０４）。

次に、サブゴールチェック部３０７は、抑制ルール２０６に基づいて、選択したサブゴールが特定のサブゴールとしてＯＫかＮＧかを判定する（ステップＳ１０５）。ＯＫの場合、サブゴールチェック部３０７は、選択したサブゴールを特定のサブゴールとして決定する（ステップＳ１０２）。一方、サブゴールチェック部３０７でＮＧと判定された場合、所定の確率ｐでステップＳ１０４に戻って、サブゴール選択部３１３は、抽出したＭ個のサブゴール候補の中から１つのサブゴールを選択し直す。また、確率（1-p）で、サブゴールチェック部３０７は、ＮＧとされたサブゴールをそのまま特定のサブゴールとして出力する。

上記実施形態では、タスク知識２０２は、優先ルール２０４と抑制ルール２０６とを備えているが、それに限定されない。例えば、タスク知識２０２は、優先ルール２０４のみから成ってもよく、或いは、抑制ルール２０６のみから成ってもよい。

図５は、知識タスク２０２が優先ルール２０４のみから成る場合における、ハイレベルプランナ３０１におけるサブゴール決定フローを示す流れ図である。図５から明らかなように、図４からステップＳ１０５が省略されている。

図６は、知識タスク２０２が抑制ルール２０６のみから成る場合における、ハイレベルプランナ３０１におけるサブゴール決定フローを示す流れ図である。図６から明らかなように、図４からステップＳ１０３が省略されている。この場合、サブゴール選択部３１３は、Ｎ個のサブゴールの中からランダムに１つのサブゴールを選択することになる（ステップＳ１０４）。

尚、優先ルール２０４や抑制ルール２０６は、人手で作成されてよい。或いは、図７に示されるように、推論器３２０を用いて、タスクルール２１０から動的に優先ルール２０４および抑制ルール２０６を動的に作成してもよい。

[効果の説明]
次に、本実施の形態の効果について説明する。

本発明の実施の形態によれば、試行回数を減らして、学習時間を短縮することができる。その理由は、タスク知識を用いて、探索範囲（選択すべきサブゴール候補）を絞り、学習を高速化しているからである。

尚、強化学習装置１００の各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭ（random access memory）に強化学習プログラムが展開され、該強化学習プログラムに基づいて制御部（ＣＰＵ（central processing unit））等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該強化学習プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録された強化学習プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記実施の形態を別の表現で説明すれば、強化学習装置１００として動作させるコンピュータを、ＲＡＭに展開された強化学習プログラムに基づき、優先選択部３０５（サブゴール候補抽出部３１１、サブゴール選択部３１３）、およびサブゴールチェック部３０７として動作させることで実現することが可能である。

次に、本発明の実施形態に係る強化学習装置１００を、具体的な対象システムに適用した場合の第１の実施例について説明する。第１の実施例に係る対象システムは、Minecraftを模したクラフトゲームである。すなわち、フィールドにある材料を収集／クラフトし、目標となるアイテムをクラフトするタスクである。

以下に、本第１の実施例におけるミッション定義について説明する。目的（目標）は、材料を集めて、rabbit_stewを作ることである。ただし、適切な順番で材料を集めないと違うもの（たとえば、stick、mushroom_stew）ができて失敗してしまう。

逐次報酬は得られず、成功か失敗かによってだけ報酬が得られる。

図８に示されるように、１３×１３升目のフィールドに様々なアイテムを配置している。図９は、そのアイテム配置の一例を示している。したがって、材料は決められた８箇所（サブゴール）にある。常に、同じ初期状態（start）からミッションを開始する。

アクションは４方向の移動のみである。収集／クラフトは自動的に行われる。図１０は、本例におけるトイタスクのタスクルール２１０である、Craftルールを示す図である。本例のトイタスクは、最短３９手である。

本第１の実施例では、タスク知識２０２を人手で作成している。本例における優先ルール２０４は、目標アイテムの前提となる材料の位置をルール化したものである。また、抑制ルール２０６は、失敗アイテムの前提となる材料の位置をルール化したものである。

図１１は、優先ルール２０４の一例を示す図である。図１２は、抑制ルール２０６の一例を示す図である。

図１３は、本実施形態における強化学習装置１００と、非特許文献１に開示されている階層強化学習（先行技術）との比較結果（実験結果）を示す図である。図１３において、横軸は試行回数を示し、縦軸はタスク成功率を示す。また、図１３において、一点破線は、先行技術の実験結果を示し、二点破線は、タスク知識２０２として抑制ルール２０６のみを利用した実験結果を示し、破線は、タスク知識２０２として優先ルール２０４のみを利用した実験結果を示す。そして、実線は、タスク知識２０２として優先ルール２０４と抑制ルール２０６とを併用した実験結果を示す。

図１３から明らかなように、タスク知識２０２として優先ルール２０４と抑制ルール２０６とを併用した、本実施形態に係る強化学習装置１００の学習速度は、先行技術の学習速度と比較して、約５倍高速化されることが分かる。また、タスク知識２０２として優先ルール２０４のみを用いた場合でも、本実施形態に係る強化学習装置１００の学習速度は、先行技術の学習速度と比較して高速化されていることが分かる。　　

上述した第１の実施例では、人手によって、優先ルール２０４と抑制ルール２０６とを作成している。これに対して、以下に述べる第２の実施例では、推論器３２０を用いて、優先ルール２０４と抑制ルール２０６とを動的に作成する。

最初に、推論器３２０を用いて優先ルール２０４を導出する例について説明する。但し、タスクルール２１０は、説明を簡略化するために、図１０に示したものとは異なるものとする。

図１４は、優先ルール２０４を推論器３２０を用いて導出するために必要な「背景知識」と「目的状態」とを示す図である。述語として、動作述語（goto）と状態述語（have）とを定義している。図１４において、「背景知識」のPickupルールは、図９に示すアイテム配置を表現したものである。

推論器３２０は、図１４に示された「背景知識」および「目的状態」のもとで、後ろ向き推論を適用していき、導出された動作述語を優先ルール２０４とする。図１５は、そのようにして導出された優先ルール２０４の一例を示す図である。

次に、推論器３２０を用いて抑制ルール２０６を導出する例について説明する。

推論器３２０は、図１６に示される「非目的状態」を定義し、それに至る動作述語を抑制ルール２０６とする。図１６において、分岐している箇所の条件は、ＡＮＤなので、すべて満たされていると非目的状態になる。

図１７は、そのようにして導出された抑制ルール２０６の一例を示す図である。図１７は、３つの抑制ルールを示している。最初の抑制ルールは、red_mushroomとbrown_mushroomとを持っていて、bowlを持っていないときに、SWに行くのは抑制ルールであることを示している。以下の２つの抑制ルールも同様である。

以上のようにして、推論器３２０は、タスクルール２１０から優先ルール２０４と抑制ルール２０６とを動的に作成することができる。

なお、本発明の具体的な構成は前述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。

以上、実施形態（実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）開始点からゴールに到達するまでのＮ（Ｎは３以上の整数）個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナと；前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナと；を備え、前記ハイレベルプランナは、タスク知識を用いて、前記Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、前記Ｍ個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定部を備え、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、強化学習装置。

（付記２）前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、前記サブゴール決定部は、前記優先ルールに従って、前記Ｎ個のサブゴールの中から前記Ｍ個のサブゴール候補を優先的に抽出して選択する優先選択部を含む、付記１に記載の強化学習装置。

（付記３）前記優先選択部は、前記優先ルールに従って、前記Ｎ個のサブゴールから前記Ｍ個のサブゴール候補を抽出するサブゴール候補抽出部と；前記Ｍ個のサブゴール候補の中から優先的に１つのサブゴールを選択して、選択したサブゴールを出力するサブゴール選択部と；を含む、付記２に記載の強化学習装置。

（付記４）前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、前記サブゴール決定部は、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてＯＫかＮＧかを判定するサブゴールチェック部を更に備える、付記３に記載の強化学習装置。

（付記５）前記サブゴール選択部は、前記サブゴールチェック部でＮＧと判定された場合に、所定の確率で、前記Ｍ個のサブゴール候補の中から、前記１つのサブゴールを選択し直す、付記４に記載の強化学習装置。

（付記６）ハイレベルプランナが、開始点からゴールに到達するまでのＮ（Ｎは３以上の整数）個のサブゴールの中から特定のサブゴールを決定し、ローレベルプランナが、前記特定のサブゴールに従って実際のアクションを決める、強化学習方法であって、前記ハイレベルプランナのサブゴール決定部が、タスク知識を用いて、前記Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、前記Ｍ個のサブゴール候補の中から優先的に前記特定のサブゴールを決定し、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべき規則を規定しているタスクルールに基づいて決定された知識である、強化学習方法。

（付記７）前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、前記サブゴール決定部の優先選択部が、前記優先ルールに従って、前記Ｎ個のサブゴールの中から前記Ｍ個のサブゴール候補を優先的に抽出して選択する、付記６に記載の強化学習方法。

（付記８）前記優先選択部のサブゴール候補抽出部が、前記優先ルールに従って、前記Ｎ個のサブゴールから前記Ｍ個のサブゴール候補を抽出し、前記優先選択部のサブゴール選択部が、前記Ｍ個のサブゴール候補の中から優先的に１つのサブゴールを選択して、選択したサブゴールを出力する、付記７に記載の強化学習方法。

（付記９）前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、前記サブゴール決定部のサブゴールチェック部が、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてＯＫかＮＧかを判定する、付記８に記載の強化学習方法。

（付記１０）前記サブゴール選択部が、前記サブゴールチェック部でＮＧと判定された場合に、所定の確率で、前記Ｍ個のサブゴール候補の中から、前記１つのサブゴールを選択し直す、付記９に記載の強化学習方法。

（付記１１）開始点からゴールに到達するまでのＮ（Ｎは３以上の整数）個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナ手順と、前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナ手順と、をコンピュータに実行させる強化学習プログラムを記録した強化学習プログラム記録媒体であって、前記ハイレベルプランナ手順は、タスク知識を用いて、前記Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、前記Ｍ個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定手順を備え、前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、強化学習プログラム記録媒体。

（付記１２）前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、前記サブゴール決定手順は、前記優先ルールに従って、前記Ｎ個のサブゴールの中から前記Ｍ個のサブゴール候補を優先的に抽出して選択する優先選択手順を含む、付記１１に記載の強化学習プログラム記録媒体。

（付記１３）前記優先選択手順は、前記優先ルールに従って、前記Ｎ個のサブゴールから前記Ｍ個のサブゴール候補を抽出するサブゴール候補抽出手順と、前記Ｍ個のサブゴール候補の中から優先的に１つのサブゴールを選択して、選択したサブゴールを出力するサブゴール選択手順と、を含む、付記１２に記載の強化学習プログラム記録媒体。

（付記１４）前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、前記サブゴール決定手順は、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてＯＫかＮＧかを判定するサブゴールチェック手順を更に備える、付記１３に記載の強化学習プログラム記録媒体。

（付記１５）前記サブゴール選択手順は、前記サブゴールチェック手順でＮＧと判定された場合に、所定の確率で、前記Ｍ個のサブゴール候補の中から、前記１つのサブゴールを選択し直す、付記１４に記載の強化学習プログラム記録媒体。

本発明に係る強化学習装置は、プラント運転支援システムや、インフラ運転支援システム等の用途に適用可能である。

　　１００　　強化学習装置
　　１０１　　入力装置
　　１０２　　出力装置
　　１０４　　記憶装置
　　１０５　　データ処理装置
　　２０１　　プログラム
　　２０２　　タスク知識
　　２０４　　優先ルール
　　２０６　　抑制ルール
　　２１０　　タスクルール
　　３０１　　ハイレベルプランナ
　　３０２　　ローレベルプランナ
　　３０３　　サブゴール決定部
　　３０５　　優先選択部
　　３０７　　サブゴールチェック部
　　３１１　　サブゴール候補抽出部
　　３１３　　サブゴール選択部
　　３２０　　推論器

Claims

開始点からゴールに到達するまでのＮ（Ｎは３以上の整数）個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナと、
前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナと、を備え、
前記ハイレベルプランナは、タスク知識を用いて、前記Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、前記Ｍ個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定部を備え、
前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、
強化学習装置。
前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、
前記サブゴール決定部は、前記優先ルールに従って、前記Ｎ個のサブゴールの中から前記Ｍ個のサブゴール候補を優先的に抽出して選択する優先選択部を含む、
請求項１に記載の強化学習装置。
前記優先選択部は、
前記優先ルールに従って、前記Ｎ個のサブゴールから前記Ｍ個のサブゴール候補を抽出するサブゴール候補抽出部と、
前記Ｍ個のサブゴール候補の中から優先的に１つのサブゴールを選択して、選択したサブゴールを出力するサブゴール選択部と、
を含む、請求項２に記載の強化学習装置。
前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、
前記サブゴール決定部は、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてＯＫかＮＧかを判定するサブゴールチェック部を更に備える、
請求項３に記載の強化学習装置。
前記サブゴール選択部は、前記サブゴールチェック部でＮＧと判定された場合に、所定の確率で、前記Ｍ個のサブゴール候補の中から、前記１つのサブゴールを選択し直す、請求項４に記載の強化学習装置。
ハイレベルプランナが、開始点からゴールに到達するまでのＮ（Ｎは３以上の整数）個のサブゴールの中から特定のサブゴールを決定し、
ローレベルプランナが、前記特定のサブゴールに従って実際のアクションを決める、強化学習方法であって、
前記ハイレベルプランナのサブゴール決定部が、タスク知識を用いて、前記Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、前記Ｍ個のサブゴール候補の中から優先的に前記特定のサブゴールを決定し、
前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべき規則を規定しているタスクルールに基づいて決定された知識である、
強化学習方法。
前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、
前記サブゴール決定部の優先選択部が、前記優先ルールに従って、前記Ｎ個のサブゴールの中から前記Ｍ個のサブゴール候補を優先的に抽出して選択する、
請求項６に記載の強化学習方法。
前記優先選択部のサブゴール候補抽出部が、前記優先ルールに従って、前記Ｎ個のサブゴールから前記Ｍ個のサブゴール候補を抽出し、
前記優先選択部のサブゴール選択部が、前記Ｍ個のサブゴール候補の中から優先的に１つのサブゴールを選択して、選択したサブゴールを出力する、
請求項７に記載の強化学習方法。
前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、
前記サブゴール決定部のサブゴールチェック部が、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてＯＫかＮＧかを判定する、
請求項８に記載の強化学習方法。
前記サブゴール選択部が、前記サブゴールチェック部でＮＧと判定された場合に、所定の確率で、前記Ｍ個のサブゴール候補の中から、前記１つのサブゴールを選択し直す、請求項９に記載の強化学習方法。
開始点からゴールに到達するまでのＮ（Ｎは３以上の整数）個のサブゴールの中から特定のサブゴールを決定するハイレベルプランナ手順と、
前記特定のサブゴールに従って実際のアクションを決めるローレベルプランナ手順と、
をコンピュータに実行させる強化学習プログラムを記録した強化学習プログラム記録媒体であって、
前記ハイレベルプランナ手順は、タスク知識を用いて、前記Ｎ個のサブゴールをＭ（ＭはＮより小さい１以上の整数）個のサブゴール候補に絞って、前記Ｍ個のサブゴール候補の中から優先的に前記特定のサブゴールを決定するサブゴール決定手順を備え、
前記タスク知識は、前記開始点から前記ゴールに到達するまでに満たすべきタスクルールに基づいて決定された知識である、
強化学習プログラム記録媒体。
前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資するサブゴールを優先する優先ルールを含み、
前記サブゴール決定手順は、前記優先ルールに従って、前記Ｎ個のサブゴールの中から前記Ｍ個のサブゴール候補を優先的に抽出して選択する優先選択手順を含む、
請求項１１に記載の強化学習プログラム記録媒体。
前記優先選択手順は、
前記優先ルールに従って、前記Ｎ個のサブゴールから前記Ｍ個のサブゴール候補を抽出するサブゴール候補抽出手順と、
前記Ｍ個のサブゴール候補の中から優先的に１つのサブゴールを選択して、選択したサブゴールを出力するサブゴール選択手順と、
を含む、請求項１２に記載の強化学習プログラム記録媒体。
前記タスク知識は、前記タスクルールに基づいて求められた、前記ゴールの到達に資さないサブゴールを抑制する抑制ルールを更に含み、
前記サブゴール決定手順は、前記抑制ルールに基づいて、前記選択したサブゴールが、前記特定のサブゴールとしてＯＫかＮＧかを判定するサブゴールチェック手順を更に備える、
請求項１３に記載の強化学習プログラム記録媒体。
前記サブゴール選択手順は、前記サブゴールチェック手順でＮＧと判定された場合に、所定の確率で、前記Ｍ個のサブゴール候補の中から、前記１つのサブゴールを選択し直す、請求項１４に記載の強化学習プログラム記録媒体。