WO2021144963A1

WO2021144963A1 - 方策学習方法、方策学習装置、プログラム

Info

Publication number: WO2021144963A1
Application number: PCT/JP2020/001500
Authority: WO
Inventors: 豊八鍬; 貴志丸山
Original assignee: 日本電気株式会社
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2021-07-22
Also published as: JPWO2021144963A1; US20230023899A1; JP7347544B2

Abstract

本発明の学習方策装置１００は、所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、行動要素の選択肢の数が状態に依存しない第一の行動要素と、行動要素の選択肢の数が状態に依存する第二の行動要素と、がある場合に、学習中のモデルを用いて状態に対する第一の行動要素の選択肢毎の選択率を算出し、選択率に基づいて第一の行動要素を選択する第一手段１２１と、選択した第一の行動要素を適用し、第二の行動要素をさらに選択肢として適用した選択肢毎の他の状態について、他の状態に遷移させることによる報酬と他の状態の価値とを算出して、報酬と価値とに基づいて他の状態を決定する第二手段１２２と、他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いてモデルをさらに学習する第三手段１２３と、を備える。

Description

方策学習方法、方策学習装置、プログラム

　本発明は、強化学習を行う方策学習方法、方策学習装置及びプログラムに関する。

　一般に、機械学習と称される技術によれば、具体的な処理の中身を定義するのではなく、サンプルデータの解析を行うことで、そのデータ中のパターンや関係性を抽出し、抽出した結果を用いて分析や認識、制御などを実現することができる。そのような技術の一例として、ニューラルネットワークは、近年のハードウェア性能の飛躍的な向上に伴い、様々な問題において人智を超えた能力を発揮した実績を残していることで注目されている。例えば、囲碁のトッププロとの対局で勝利を収めた囲碁プログラムが知られている。

　機械学習技術のジャンルの一つとして、強化学習がある。強化学習は、ある環境内におけるエージェント（「動作主体」を指す）がどのような行動をとるべきか決定する問題について扱う。そして、エージェントが何らかの行動を実行すると、環境の状態が変化し、環境はエージェントの行動に対していくらかの報酬を与える。エージェントは、長期的に得られる報酬が最大となる行動方策（「環境の状態に応じたエージェントの行動パターンないしその確率分布」を指す）の獲得を目指し、環境内で行動を試行して学習用データを収集する。このように、学習用データがあらかじめ提供されず、エージェント自ら収集する点と、短期的ではなく長期的な利益の最大化を目指す点が、強化学習の特徴である。

　ここで、非特許文献１で開示されるActor-Critic手法は、強化学習手法の一つである。Actor-Critic手法では、エージェントの行動方策を学習する機構であるActorと、環境の状態価値を学習する機構であるCriticを併用して学習を行う手法である。Criticが学習する状態価値は、Actorが学習中の行動方策の評価に用いられる。具体的には、状態S1から実行した行動A1の価値の見込みが、Criticによる状態S1の価値の見込みよりも高い場合、行動A1の価値が高いと判断し、Actorは状態S1から行動A1を実行する確率を上げるよう学習する。また、逆に、状態S1から実行した行動A1の価値の見込みが、Criticによる状態S1の価値の見込みよりも低い場合、行動A1の価値が低いと判断し、Actorは状態S1から行動A1を実行する確率を下げるよう学習する。強化学習手法の中でもActor-Critic手法は精度が高く、特にニューラルネットワークで学習を行う手法は、近年ではスタンダードな手法として知られている。

Richard S. Sutton and Andrew G. Barto: "Reinforcement Learning: An Introduction", MIT Press, 1998.

　しかしながら、非特許文献１に開示される技術であるActor-Critic手法では、エージェントが実行可能な行動の種類の数が環境の状態毎に異なるという問題に対しては、行動の選択率を学習するニューラルネットワークを直接的には構築できず、適用が困難である、という課題が生じる。

　ここで、上記課題について詳しく説明する。まず、ニューラルネットワークは、その性質上、構造を決定してしまうと出力できる値の数も決まってしまう。具体的には、ニューラルネットワークの出力層のユニットの数だけ値が出力できる。そして、エージェントが実行可能な行動の種類の数が環境の状態に依存せず一定の場合、ニューラルネットワークの出力層のユニット数を、エージェントが実行可能な行動の種類の数と一致させる。これにより、ニューラルネットワークの出力を、環境の状態に応じたエージェントの行動の確率分布に対応させることができ、Actor-Critic手法においてエージェントの行動の好適な確率分布を学習すると共にその確率分布を出力する役割を担うActorを実現できる。

　ところが、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題に対しては、ニューラルネットワークの出力層のユニット数は固定されてしまっていることに起因して、状態毎に要素（行動の種類に対応）の数が異なる確率分布を出力することはできない。その結果、一般に、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題に対して、ニューラルネットワークを用いたActor-Critic手法を適用することは困難である。

　このため、本発明の目的の１つは、上述した課題である、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題では、強化学習を行うことが困難である、ことを解決することができる方策学習方法を提供することにある。

　本発明の一形態である方策学習方法は、
　所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
　学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択し、
　選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定し、
　前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する、
という構成をとる。

　また、本発明の一形態である方策学習装置は、
　所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
　学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一モジュールと、
　選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二モジュールと、
　前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三モジュールと、
を備えた、
という構成をとる。

　また、本発明の一形態であるプログラムは、
　所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
　情報処理装置に、
　学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一モジュールと、
　選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二モジュールと、
　前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三モジュールと、
を実現させる、
という構成をとる。

　本発明は、以上のように構成されることにより、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題であっても、強化学習を行うことができる。

本発明の第１の実施形態における方策学習装置の構成を示すブロック図である。本発明の第１の実施形態における方策学習装置の動作を示すフロー図である。本発明の第１の実施形態における方策学習装置による学習データ生成の動作を示すフロー図である。本発明の第１の実施形態における方策額主装置による学習の動作を示すフロー図である。本発明の第１の実施形態の具体例におけるグラフ書き換え系の書き換え規則の例を示す図である本発明の第１の実施形態の具体例におけるグラフ書き換え系で書き換え後の状態が２種類ある状態の書き換え前の例を示す図である。本発明の第１の実施形態の具体例におけるグラフ書き換え系で書き換え後の状態が２種類ある状態の書き換え後の例を示す図である。本発明の第１の実施形態の具体例におけるグラフ書き換え系で書き換え後の状態が３種類ある状態の書き換え前の例を示す図である。本発明の第１の実施形態の具体例におけるグラフ書き換え系で書き換え後の状態が３種類ある状態の書き換え後の例を示す図である。本発明の第１の実施形態の具体例に用いたグラフ書き換え系の学習を実施するグラフ書き換え方策学習装置の構成を示すブロック図である。本発明の実施形態２における方策学習装置のハードウェア構成を示すブロック図である。本発明の実施形態２における方策学習装置の構成を示すブロック図である。本発明の実施形態２における方策学習装置の動作を示すフローチャートである。

　＜実施形態１＞
　本発明の第１の実施形態を、図１乃至図１０を参照して説明する。図１は、方策学習装置の構成を説明するための図であり、図２乃至図４は、方策学習装置の処理動作を説明するための図である。また、図５乃至図１０は、方策学習装置の具体例を説明するための図である。

　［構成］
　以下に開示する方策学習装置は、ある環境（所定の環境）においてエージェントが行動（行動要素）を実行することで、現在の状態（所定の状態）を次の状態（他の状態）に遷移させる際に、その価値を最大化するよう学習する強化学習を行うものである。なお、以下では、所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が状態に依存しない行動要素（第一の行動要素）と、当該行動要素の選択肢の数が状態に依存する行動要素（第二の行動要素）と、がある場合を説明する。

　方策学習装置１は、演算装置と記憶装置とを備えた１台又は複数台の情報処理装置にて構成される。そして、方策学習装置１は、図１に示すように、学習遂行部１１と、状態非依存行動要素決定方策学習部１２と、状態価値学習部１３と、状態非依存行動要素決定部１４と、次状態決定部１５と、行動試行部１６と、環境模擬部１７と、を備える。なお、学習遂行部１１と、状態非依存行動要素決定方策学習部１２と、状態価値学習部１３と、状態非依存行動要素決定部１４と、次状態決定部１５と、行動試行部１６と、環境模擬部１７と、の各機能は、演算装置が記憶装置に格納された各機能を実現するためのプログラムを実行することにより実現することができる。そして、これらの各部１１～１７は、それぞれ概略次のような機能を有する。

　上記学習遂行部１１（第三モジュール）は、状態非依存行動要素決定部１４と、次状態決定部１５と、行動試行部１６と、環境模擬部１７とを統括して、学習に必要なデータを集め、状態非依存行動要素決定方策学習部１２と、状態価値学習部１３とを統括して学習を行う。具体的に、学習遂行部１１は、後述するように次状態決定部１５にて現在状態から次状態を決定する際に用いた情報に基づいて学習データを生成する。そして、学習遂行部１１は、状態非依存行動要素決定方策学習部１２に学習データを用いて学習させ、また、状態価値学習部１３に学習データを用いて学習させる。

　上記状態非依存行動要素決定方策学習部１２（第一モジュール、第三モジュール）は、選択肢の数が状態に依存しない行動要素の選択肢について、環境の個々の状態における好適な選択率を学習する。つまり、状態非依存行動要素決定方策学習部１２は、上述した学習遂行部１１にて生成された学習データを用いて、選択肢の数が状態に依存しない行動要素の選択肢毎の選択率を算出するモデルを生成する。また、状態非依存行動要素決定方策学習部１２は、生成したモデルに現在状態を入力して、選択肢の数が状態に依存しない行動要素の選択肢毎の選択率を出力する。

　上記状態価値学習部１３（第二モジュール、第三モジュール）は、環境の個々の状態の価値を学習する。つまり、状態価値学習部１３は、上述した学習遂行部１１にて生成された学習データを用いて、現在状態から遷移した次状態の価値の値を算出するモデル（第二のモデル）を生成する。また、状態価値学習部１３は、生成したモデルに次状態を入力して、次状態の価値の値を出力する。

　上記状態非依存行動要素決定部１４（第一モジュール）は、選択肢の数が状態に依存しない行動要素の選択を、状態非依存行動要素決定方策学習部１２の出力に応じて決定する。具体的に、状態非依存行動要素決定部１４は、状態非依存行動要素決定方策学習部１２から出力された、選択肢の数が状態に依存しない行動要素の選択肢毎の選択率を受け取り、かかる選択率に基づいて、行動要素の選択を行う。

　上記行動試行部１６（第二モジュール）は、現在状態から実行可能な行動のうち、選択肢の数が状態に依存しない行動要素の内容が、状態非依存行動要素決定部１４が選択したものである行動を試行する。なお、現在状態から実行可能な行動とは、行動要素の選択肢の数が状態に依存しない行動要素を選択肢として適用し、さらに、行動要素の選択肢の数が状態に依存する行動要素を選択肢として適用した行動となる。つまり、行動試行部１６は、換言すると、状態非依存行動要素決定部１４にて選択された行動要素を適用すると共に、行動要素の選択肢の数が状態に依存する行動要素をさらに選択肢として適用した選択肢毎の行動を列挙して、現在状態と列挙した行動内容を環境模擬部１７に渡す。

　上記環境模擬部１７（第二モジュール）は、行動試行部１６が試行した行動つまり列挙された行動に対する報酬を出力するとともに、環境を現在状態から行動を行った後の次状態に変化させて、次状態決定部１５に渡す。

　上記次状態決定部１５（第二モジュール）は、環境模擬部１７から渡された次状態の候補の中から、状態価値学習部１３の出力と、環境模擬部１７から渡された返す報酬と、に応じて次状態を決定する。具体的には、次状態決定部１５は、現在状態から次状態への行動に対する報酬と、次状態の価値と、を足した値を算出し、かかる値が最大の値となる次状態を、実際の次状態として決定する。

　［動作］
　次に、図２を参照して、上述した方策学習装置１の全体の動作について説明する。まず、方策学習装置１は、装置全体の入力として少なくとも環境の初期状態を受け取り、当該初期状態を環境の現在状態とする（ステップＳ１１）。続いて、方策学習装置１の学習遂行部１１が、学習用データを生成して（ステップＳ１２）、学習を行う（ステップＳ１３）。そして、学習遂行部１１は、上記ステップＳ１２～Ｓ１３の動作を規定の回数繰り返す（ステップＳ１４）。なお、上記既定の回数は、方策学習装置１の入力として与えられてもよいし、方策学習装置１が固有に持つ値を用いてもよいし、その他の方法で決められたものでもよい。最後に、学習遂行部１１は、学習済みモデルの出力を行い、方策学習装置１に記憶する（ステップＳ１５）。

　次に、上記ステップＳ１２、つまり、学習データを生成する動作について、図３を参照し、より詳細に説明する。状態非依存行動要素決定部１４は、環境の現在状態を、状態非依存行動要素決定方策学習部１２に入力できるデータ形式に変換した状態データを生成し、状態非依存行動要素決定方策学習部１２に入力する（ステップＳ２１）。ここで、状態非依存行動要素決定方策学習部１２に入力できるデータ形式とは、状態非依存行動要素決定方策学習部１２が学習のバックエンドとして使用するTensorFlow等のフレームワークが受け付けることのできる入力形式のことであり、一般的にはベクトル形式であるが、これに限らない。また、状態非依存行動要素決定方策学習部１２は必ずしもバックエンドとしてTensorFlow等のフレームワークを使用する必要はなく、独自の実装を用いてもよい。

　続いて、状態非依存行動要素決定方策学習部１２は、入力された状態データが示す状態からエージェントが行うべき行動の内容を構成する行動要素のうち、選択肢の数が状態に依存しない行動要素について選択肢の選択率を算出し、算出結果を状態非依存行動要素決定部１４に返す（ステップＳ２２）。そして、状態非依存行動要素決定部１４は、選択率に基づき、選択肢の数が状態に依存しない行動要素の選択肢を選択し、その選択結果を行動試行部１６に渡す（ステップＳ２３）。このとき、状態非依存行動要素決定部１４は、確率通りに選択してもよいし、最も確率の高い選択肢を決定的に選択してもよい。

　続いて、行動試行部１６は、現在状態から実行可能な行動のうち、選択肢の数が状態に依存しない行動要素の内容が、状態非依存行動要素決定部１４で選択されたものである行動を列挙する（ステップＳ２４）。このとき、現在状態から実行可能な行動とは、選択肢の数が状態に依存する行動要素と依存しない行動要素との選択肢毎によりそれぞれ実行されうる行動であり、このうち、選択肢の数が状態に依存しない行動要素の内容が、状態非依存行動要素決定部１４で選択されたものである行動を列挙する。そして、行動試行部１６は、列挙した行動をそれぞれ現在状態から試行するため、現在状態と列挙した行動内容とを環境模擬部１７に渡す（ステップＳ１２５）。環境模擬部１７は、行動した後の状態（以下、次状態）と、行動への報酬と、をそれぞれ算出して返す（ステップＳ２６）。

　続いて、次状態決定部１５は、各次状態を状態価値学習部１３に入力できるデータ形式に変換した状態データを生成し、生成した状態データを状態価値学習部１３に入力する（ステップＳ２７）。ここで、状態価値学習部１３に入力できるデータ形式とは、状態価値学習部１３が学習のバックエンドとして使用するTensorFlow等のフレームワークが受け付けることのできる入力形式のことであり、一般的にはベクトル形式であるが、これに限らない。また、状態価値学習部１３は必ずしもバックエンドとしてTensorFlow等のフレームワークを使用する必要はなく、独自の実装を用いてもよい。

　そして、状態価値学習部１３は、各次状態の価値の値を算出し、次状態決定部１５に返す（ステップＳ２８）。次状態決定部１５は、各次状態について、次状態へ遷移した際に実行した行動への報酬と、次状態の価値と、を足した値を算出し、最大の値となる次状態を実際の次状態として決定する（ステップＳ２９）。

　続いて、学習遂行部１１は、次状態決定部１５で算出した報酬と価値とを足した値の最大の値を、現在状態から実行した行動の価値とし、現在状態と、現在状態から実行した行動の価値と、状態非依存行動要素決定部１４にて選択した行動要素の選択肢と、をセットにしたデータを、学習用データとして保存する。そして、学習遂行部１１は、現在状態を次状態決定部１５で決定した実際の次状態とする（ステップＳ３０）。

　その後、方策学習装置１は、現在状態が終了状態でない限り、上述したステップＳ２１～Ｓ３０を繰り返す（ステップＳ３１）。なお、上記終了状態とは、その状態から実行できる行動が存在しない状態のことである。現在状態が終了状態である場合、現在状態をステップＳ１１で入力された初期状態とする（ステップＳ３２）。そして、方策学習装置１は、既定の回数、ステップＳ２１～Ｓ３２を繰り返す（ステップＳ３３）。なお、上記既定の回数は、方策学習装置１の入力として与えられてもよいし、方策学習装置１が固有に持つ値を用いてもよいし、その他の方法で決められたものでもよい。

　次に、上述したステップＳ１３、つまり、学習の動作について、図４を参照してより詳細に説明する。まず、状態非依存行動要素決定方策学習部１２は、上述したように生成された学習用データを用いて学習を行う（ステップＳ４１）。このとき、状態非依存行動要素決定方策学習部１２による学習対象は、ある状態のデータが入力された際に算出する、ある状態から実行可能な行動のうち選択肢の数が状態に依存しない行動要素における、選択肢の好適な選択率である。ここではActor-Criticにおいて方策を学習する際に典型的に使用される方策勾配法を用いてニューラルネットワークで学習するケースについて説明する。ただし、実現方法はこれに限らない。

　方策勾配法では、損失関数を「logπ(s, a)×(Qπ(s, a)-Vπ(s))」としてニューラルネットワークの更新を行う。ここで、上記「π(s, a)」は方策関数であり、状態がsである場合に行動aを選択すべき確率を表す。本実施形態における「π(s, a)」の値は、個々の学習用データに含まれる状態sを状態非依存行動要素決定方策学習部１２の入力形式に変換し、状態非依存行動要素決定方策学習部１２に入力すると算出される確率ベクトルから、学習用データに含まれる行動要素の選択肢aに対応する実行確率の値を抽出して求める。上記「Qπ(s, a)」は行動価値関数であり、方策関数πに従って行動を行う場合における、状態sから行動aを行う際の価値を表す。本実施形態における「Qπ(s, a)」の値は、個々の学習用データに含まれる、状態から実行した行動の価値を用いる。上記「Vπ(s)」は状態価値関数であり、方策関数πに従って行動を行う場合における、状態sの価値を表す。本実施形態における「Vπ(s)」の値は、個々の学習用データに含まれる状態sを状態価値学習部１３の入力形式に変換し、状態価値学習部１３に入力すると算出される状態価値の値を用いる。

　そして、個々の学習用データに含まれる状態sを状態非依存行動要素決定方策学習部１２の入力形式に変換したものを入力とし、当該入力に対する状態非依存行動要素決定方策学習部１２の出力と、個々の学習用データと、を用いて、上述した損失関数に基づき状態非依存行動要素決定方策学習部１２の学習、つまり状態非依存行動要素決定方策学習部１２が保持するニューラルネットワークの各重み付けの値の更新を行う。学習はTensorFlow等のフレームワークを使用するのが典型的であり本実施形態もその方法で実現可能だが、この方法に限らない。

　なお、上述した状態非依存行動要素決定方策学習部１２の学習（ステップＳ４１）は、個々の学習データ毎に個別に行ってもよいし、適当なサイズ毎に行ってもよいし、全てまとめて行ってもよい。そして、状態非依存行動要素決定方策学習部１２は、全ての学習データの学習を行うまで、ステップＳ４１を繰り返す（ステップＳ４２）。

　また、状態価値学習部１３は、上述した学習用データを用いて学習を行う（ステップＳ４３）。このとき、状態価値学習部１３による学習対象は、ある状態のデータが入力された際に算出する、当該状態の価値である。ここで、状態価値の学習では、損失関数を「(Qπ(s, a)-Vπ(s))^2」としてニューラルネットワークの更新を行う。なお、「Qπ(s, a)」と「Vπ(s)」の定義および値の算出方法は前述した通りである。ここで、記号“^”は、べき乗を表す。

　そして、個々の学習用データに含まれる状態sを状態価値学習部１３の入力形式に変換したものを入力とし、当該入力に対する状態価値学習部１３の出力と、個々の学習用データと、を用いて、上述した損失関数に基づき状態価値学習部１３の学習、つまり状態価値学習部１３が保持するニューラルネットワークの各重み付けの値の更新を行う。学習はTensorFlow等のフレームワークを使用するのが典型的であり本実施形態もその方法で実現可能だが、この方法に限らない。なお、上述した状態価値学習部１３の学習（ステップＳ４３）は、個々の学習データ毎に個別に行ってもよいし、適当なサイズ毎に行ってもよいし、全てまとめて行ってもよい。そして、状態価値学習部１３は、全ての学習データの学習を行うまで、ステップＳ４３を繰り返す（ステップＳ４４）。

　［具体例］
　次に、第１の実施形態の具体例について説明する。ここでは特に、エージェントが実行可能な行動の内容を構成する行動要素について、行動要素の選択肢の種類の数が環境の状態に依存する行動要素と、行動要素の選択肢の種類の数が環境の状態に依存しない行動要素と、そのような行動要素をエージェントの行動要素としてもつ問題と、の具体例を例示する。

　上記問題として、グラフ書き換え系を例に説明する。グラフ書き換え系は、「グラフ」を「状態」、「グラフの書き換え」を「遷移」とみなした状態遷移系である。従って、グラフ書き換え系を定義する「状態の集合」は「グラフの集合」、「遷移の集合」は「グラフ書き換え規則の集合」、として定義される。そして、グラフ書き換え系に強化学習を適用する場合、環境の「状態」は「グラフ」に対応し、エージェントが実行可能な「行動」は、現在の状態であるグラフに適用可能な「グラフ書き換え」に対応する。

　ここで、エージェントが実行可能な行動であるグラフ書き換えは、状態に依存する。なぜなら、個々のグラフ書き換え規則は、グラフ内の複数の場所に適用しうるためである。例えば、環境（グラフ書き換え系）が図５に示すような書き換え規則を持つとき、現在の状態であるグラフが図６に示すものである場合には、１回の遷移（グラフ書き換え）後の状態は、図７に示す２種類のいずれかである。一方、現在の状態であるグラフが図８に示すものである場合には、１回の遷移（グラフ書き換え）後の状態は、図９に示す３種類のいずれかである。このように、グラフ書き換え系に強化学習を適用する場合において、エージェントが実行可能な行動の種類の数は、状態に依存して変化する。すると、このままでは上述した理由でニューラルネットワークを用いたActor-Critic手法を適用できない。

　このため、エージェントが実行する行動を、選択肢の種類の数が状態に依存しない行動要素と、選択肢の種類の数が状態に依存する行動要素と、に分離する。グラフ書き換え系の例では、選択肢の種類の数が状態に依存しない行動要素（第一の行動要素）は、「グラフ書き換え規則」の種類であり、選択肢の種類の数が状態に依存する行動要素（第二の行動要素）は、グラフ書き換え規則を適用する「グラフ中の場所（規則適用場所）」である。「グラフ書き換え規則」の種類の選択肢とは、例えば図５に示すものの場合は、「規則１」と「規則２」であり、この数は状態に依存しない。また、グラフ書き換え規則を適用する「グラフ中の場所」の選択肢とは、例えば図６～７に示すものの場合は、「場所：左」と「場所：右」であり、図８～９に示すものの場合は、「場所：左」と「場所：中央」と「場所：右」である。この選択肢の数は状態に依存する。

　そして、上述した方策学習装置１をグラフ書き換え系の強化学習に適用する場合、ある状態からエージェントが行動を実行する際に、まず、状態非依存行動要素決定方策学習部１２が、どの種類のグラフ書き換え規則を選択すべきかの確率分布（選択率）を算出する（図３のステップＳ２２に対応）。そして、状態非依存行動要素決定方策学習部１２が出力したグラフ書き換え規則の確率分布に応じて、状態非依存行動要素決定部１４が特定の種類のグラフ書き換え規則を選択する（図３のステップＳ２３に対応）。

　その後、次状態決定部１５が、選択された特定の種類のグラフ書き換え規則により書き換えられた実行可能な各書き換え後グラフのうち、どれを次の状態のグラフとするかを決定する（図３のステップＳ２９に対応）。このとき、行動試行部１６が、選択されたグラフ書き換え規則を適用可能なグラフ中の各場所に実際に適用し、グラフを書き換えた後のグラフをそれぞれ列挙する（図３のステップＳ２４に対応）。続いて、環境模擬部１７が、グラフ書き換えに対する報酬の値を算出し、状態価値学習部１３が書き換え後のグラフの価値の値を算出する（図３のステップＳ２６，Ｓ２８に対応）。そして、次状態決定部１５が、報酬と価値の合計が最大になるグラフを選択する（図３のステップＳ２９に対応）。

　なお、上記の具体例では、上述した図１に示す方策学習装置１を用いて強化学習を行う場合を説明したが、方策学習装置は、図１０に示すグラフ書き換え方策学習装置２の構成であってもよい。ここで、グラフ書き換え方策学習装置２は、グラフ書き換え系学習遂行部２１と、グラフ書き換え規則決定方策学習部２２と、グラフ価値学習部２３と、グラフ書き換え規則決定部２４と、書き換え後グラフ決定部２５と、グラフ書き換え試行部２６と、グラフ書き換え系環境模擬部２７と、を備える。但し、これら各部２１～２７のそれぞれは、上述した方策学習装置１が備える学習遂行部１１、状態非依存行動要素決定方策学習部１２、状態価値学習部１３、状態非依存行動要素決定部１４、次状態決定部１５、行動試行部１６、環境模擬部１７、と同等の機能を有する。

　以上のように、上述した第１の実施形態およびその具体例では、行動の内容を決定する構成要素である行動要素について、選択肢の数が状態に依存する行動要素（第二の行動要素）と、選択肢の数が状態に依存しない行動要素（第一の行動要素）と、に分離し、まず、選択肢の数が状態に依存しない行動要素（第一の行動要素）のみについて従来的なActor-Critic手法に則って選択肢を決定する。そのうえで、選択肢の数が状態に依存する行動要素（第二の行動要素）については、別の機能により選択肢を決定している。このようにすることで、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題においても、出力層のユニット数が固定されたニューラルネットワークでの学習が可能になる。これにより、上述した課題である、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題に対し、行動の選択率を学習するニューラルネットを直接的には構築できないという問題を解決することができる。その結果、本発明では、ニューラルネットワークを用いたActor-Critic手法の適用が困難な問題に対しても、その適用が可能になる。

　なお、上述した第１の実施形態およびその具体例を用いて例示的に説明した本発明は、グラフ書き換え系などに代表される、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題に帰着される知的作業（例えばＩＴシステムの設計工程など）の、効率的な手順の獲得を目的とした強化学習に好適に適用可能である。

　＜実施形態２＞
　次に、本発明の第２の実施形態を、図１１乃至図１３を参照して説明する。図１１乃至図１２は、実施形態２における方策学習装置の構成を示すブロック図であり、図１３は、方策学習装置の動作を示すフローチャートである。なお、本実施形態では、上述した実施形態で説明した方策学習装置及び当該方策学習装置による方策学習方法の構成の概略を示している。

　まず、図１１を参照して、本実施形態における方策学習装置１００のハードウェア構成を説明する。方策学習装置１００は、一般的な１台又は複数台の情報処理装置にて構成されており、一例として、以下のようなハードウェア構成を装備している。
　・ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１０１（演算装置）
　・ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１０２（記憶装置）
　・ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１０３（記憶装置）
　・ＲＡＭ１０３にロードされるプログラム群１０４
　・プログラム群１０４を格納する記憶装置１０５
　・情報処理装置外部の記憶媒体１１０の読み書きを行うドライブ装置１０６
　・情報処理装置外部の通信ネットワーク１１１と接続する通信インタフェース１０７
　・データの入出力を行う入出力インタフェース１０８
　・各構成要素を接続するバス１０９

　そして、方策学習装置１００は、プログラム群１０４をＣＰＵ１０１が取得して当該ＣＰＵ１０１が実行することで、図１２に示す第一モジュール１２１、第二モジュール１２２、第三モジュール１２３、を構築して装備することができる。なお、プログラム群１０４は、例えば、予め記憶装置１０５やＲＯＭ１０２に格納されており、必要に応じてＣＰＵ１０１がＲＡＭ１０３にロードして実行する。また、プログラム群１０４は、通信ネットワーク１１１を介してＣＰＵ１０１に供給されてもよいし、予め記憶媒体１１０に格納されており、ドライブ装置１０６が該プログラムを読み出してＣＰＵ１０１に供給してもよい。但し、上述した第一モジュール１２１、第二モジュール１２２、第三モジュール１２３は、これらのモジュールを実現可能な専用の電子回路で構築されるものであってもよい。

　なお、図１１は、方策学習装置１００である情報処理装置のハードウェア構成の一例を示しており、情報処理装置のハードウェア構成は上述した場合に限定されない。例えば、情報処理装置は、ドライブ装置１０６を有さないなど、上述した構成の一部から構成されてもよい。

　そして、方策学習装置１００は、上述したようにプログラムによって構築された第一モジュール１２１、第二モジュール１２２、第三モジュール１２３の機能により、図１３のフローチャートに示す方策学習方法を実行する。

　図１３に示すように、方策学習装置１００は、
　所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
　学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択し（ステップＳ１０１）、
　選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定し（ステップＳ１０２）、
　前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する（ステップＳ１０３）。

　上述した実施形態２によれば、行動の内容を決定する構成要素である行動要素について、選択肢の数が状態に依存しない第一の行動要素と、選択肢の数が状態に依存する第二の行動要素と、に分離し、第一の行動要素については、Actor-Critic手法に則って選択肢を決定する。そのうえで、第二の行動要素については、別の機能により選択肢を決定している。このようにすることで、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題においても、出力層のユニット数が固定されたニューラルネットワークでの学習が可能になる。これにより、上述した課題である、エージェントが実行可能な行動の種類の数が環境の状態毎に異なる問題に対し、行動の選択率を学習するニューラルネットを直接的には構築できないという問題を解決することができる。

　以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。また、上述した方策学習装置が備える、学習遂行部１１、状態非依存行動要素決定方策学習部１２、状態価値学習部１３、状態非依存行動要素決定部１４、次状態決定部１５、行動試行部１６、環境模擬部１７や、第一モジュール１２１、第二モジュール１２２、第三モジュール１２３の機能のうちの少なくとも一以上の機能は、ネットワーク上のいかなる場所に設置され接続された情報処理装置で実行されてもよく、つまり、いわゆるクラウドコンピューティングで実行されてもよい。

　なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　＜付記＞
　上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における方策学習方法、方策学習装置、プログラムの構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
（付記１）
　所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
　学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択し、
　選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定し、
　前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する、
方策学習方法。
（付記２）
　付記１に記載の方策学習方法であって、
　学習中の第二のモデルを用いて前記他の状態の前記価値を算出し、
　前記学習データを用いて前記第二のモデルをさらに学習する、
方策学習方法。
（付記３）
　付記１又は２に記載の方策学習方法であって、
　前記報酬と前記価値との和が最大となる前記他の状態を決定する、
方策学習方法。
（付記４）
　付記１乃至３のいずれかに記載の方策学習方法であって、
　前記状態と、選択された前記第一の行動要素と、前記他の状態を決定する際に算出した前記報酬と前記価値との和の最大値と、を少なくとも関連付けた前記学習データを生成する、
方策学習方法。
（付記５）
　付記１乃至４のいずれかに記載の方策学習方法であって、
　前記環境が、前記状態であるグラフを書き換えることで前記他の状態である他のグラフに遷移するグラフ書き換え系である場合に、
　前記第一の行動要素が前記グラフを書き換える規則を表すグラフ書き換え規則であり、前記第二の行動要素が前記グラフ内における前記グラフ書き換え規則を適用する場所を表す規則適用場所である、
方策学習方法。
（付記６）
　付記５に記載の方策学習方法であって、
　前記モデルを用いて前記グラフに対する前記グラフ書き換え規則の選択肢毎の選択率を算出し、当該選択率に基づいて前記グラフ書き換え規則を選択し、
　選択した前記グラフ書き換え規則を前記グラフ内における前記規則適用場所毎に適用した前記他の状態について、前記報酬と前記価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する、
方策学習方法。
（付記７）
　所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
　学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一手段と、
　選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二手段と、
　前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三手段と、
を備えた方策学習装置。
（付記８）
　付記７に記載の方策学習方法であって、
　前記第二手段は、学習中の第二のモデルを用いて前記他の状態の前記価値を算出し、
　前記第三手段は、前記学習データを用いて前記第二のモデルをさらに学習する、
方策学習装置。
（付記９）
　付記７又は８に記載の方策学習装置であって、
　前記第二手段は、前記報酬と前記価値との和が最大となる前記他の状態を決定する、
方策学習装置。
（付記１０）
　付記７乃至９のいずれかに記載の方策学習装置であって、
　前記第三手段は、前記状態と、選択された前記第一の行動要素と、前記他の状態を決定する際に算出した前記報酬と前記価値との和の最大値と、を少なくとも関連付けた前記学習データを生成する、
方策学習装置。
（付記１１）
　付記７乃至１０のいずれかに記載の方策学習装置であって、
　前記環境が、前記状態であるグラフを書き換えることで前記他の状態である他のグラフに遷移するグラフ書き換え系である場合に、
　前記第一の行動要素が前記グラフを書き換える規則を表すグラフ書き換え規則であり、前記第二の行動要素が前記グラフ内における前記グラフ書き換え規則を適用する場所を表す規則適用場所である、
方策学習装置。
（付記１２）
　付記１１に記載の方策学習装置であって、
　前記第一手段は、前記モデルを用いて前記グラフに対する前記グラフ書き換え規則の選択肢毎の選択率を算出し、当該選択率に基づいて前記グラフ書き換え規則を選択し、
　前記第二手段は、選択した前記グラフ書き換え規則を前記グラフ内における前記規則適用場所毎に適用した前記他の状態について、前記報酬と前記価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する、
方策学習装置。
（付記１３）
　所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
　情報処理装置に、
　学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一手段と、
　選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二手段と、
　前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三手段と、
を実現させるためのプログラム。

１　　　方策学習装置
１１　　学習遂行部
１２　　状態非依存行動要素決定方策学習部
１３　　状態価値学習部
１４　　状態非依存行動要素決定部
１５　　次状態決定部
１６　　行動試行部
１７　　環境模擬部
２　　　グラフ書き換え方策学習装置
２１　　グラフ書き換え系学習遂行部
２２　　グラフ書き換え規則決定方策学習部
２３　　グラフ価値学習部
２４　　グラフ書き換え規則決定部
２５　　書き換え後グラフ決定部
２６　　グラフ書き換え試行部
２７　　グラフ書き換え系環境模擬部
１００　方策学習装置
１０１　ＣＰＵ
１０２　ＲＯＭ
１０３　ＲＡＭ
１０４　プログラム群
１０５　記憶装置
１０６　ドライブ装置
１０７　通信インタフェース
１０８　入出力インタフェース
１０９　バス
１１０　記憶媒体
１１１　通信ネットワーク
１２１　第一モジュール
１２２　第二モジュール
１２３　第三モジュール

Claims

　所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
　学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択し、
　選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定し、
　前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する、
方策学習方法。
　請求項１に記載の方策学習方法であって、
　学習中の第二のモデルを用いて前記他の状態の前記価値を算出し、
　前記学習データを用いて前記第二のモデルをさらに学習する、
方策学習方法。
　請求項１又は２に記載の方策学習方法であって、
　前記報酬と前記価値との和が最大となる前記他の状態を決定する、
方策学習方法。
　請求項１乃至３のいずれかに記載の方策学習方法であって、
　前記状態と、選択された前記第一の行動要素と、前記他の状態を決定する際に算出した前記報酬と前記価値との和の最大値と、を少なくとも関連付けた前記学習データを生成する、
方策学習方法。
　請求項１乃至４のいずれかに記載の方策学習方法であって、
　前記環境が、前記状態であるグラフを書き換えることで前記他の状態である他のグラフに遷移するグラフ書き換え系である場合に、
　前記第一の行動要素が前記グラフを書き換える規則を表すグラフ書き換え規則であり、前記第二の行動要素が前記グラフ内における前記グラフ書き換え規則を適用する場所を表す規則適用場所である、
方策学習方法。
　請求項５に記載の方策学習方法であって、
　前記モデルを用いて前記グラフに対する前記グラフ書き換え規則の選択肢毎の選択率を算出し、当該選択率に基づいて前記グラフ書き換え規則を選択し、
　選択した前記グラフ書き換え規則を前記グラフ内における前記規則適用場所毎に適用した前記他の状態について、前記報酬と前記価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する、
方策学習方法。
　所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
　学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一手段と、
　選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二手段と、
　前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三手段と、
を備えた方策学習装置。
　請求項７に記載の方策学習装置であって、
　前記第二手段は、学習中の第二のモデルを用いて前記他の状態の前記価値を算出し、
　前記第三手段は、前記学習データを用いて前記第二のモデルをさらに学習する、
方策学習装置。
　請求項７又は８に記載の方策学習装置であって、
　前記第二手段は、前記報酬と前記価値との和が最大となる前記他の状態を決定する、
方策学習装置。
　請求項７乃至９のいずれかに記載の方策学習装置であって、
　前記第三手段は、前記状態と、選択された前記第一の行動要素と、前記他の状態を決定する際に算出した前記報酬と前記価値との和の最大値と、を少なくとも関連付けた前記学習データを生成する、
方策学習装置。
　請求項７乃至１０のいずれかに記載の方策学習装置であって、
　前記環境が、前記状態であるグラフを書き換えることで前記他の状態である他のグラフに遷移するグラフ書き換え系である場合に、
　前記第一の行動要素が前記グラフを書き換える規則を表すグラフ書き換え規則であり、前記第二の行動要素が前記グラフ内における前記グラフ書き換え規則を適用する場所を表す規則適用場所である、
方策学習装置。
　請求項１１に記載の方策学習装置であって、
　前記第一手段は、前記モデルを用いて前記グラフに対する前記グラフ書き換え規則の選択肢毎の選択率を算出し、当該選択率に基づいて前記グラフ書き換え規則を選択し、
　前記第二手段は、選択した前記グラフ書き換え規則を前記グラフ内における前記規則適用場所毎に適用した前記他の状態について、前記報酬と前記価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する、
方策学習装置。
　所定の環境における所定の状態が他の状態に遷移する際に選択される行動要素として、当該行動要素の選択肢の数が前記状態に依存しない第一の行動要素と、当該行動要素の選択肢の数が前記状態に依存する第二の行動要素と、がある場合に、
　情報処理装置に、
　学習中のモデルを用いて前記状態に対する前記第一の行動要素の選択肢毎の選択率を算出し、当該選択率に基づいて前記第一の行動要素を選択する第一手段と、
　選択した前記第一の行動要素を適用し、前記第二の行動要素をさらに選択肢として適用した選択肢毎の前記他の状態について、当該他の状態に遷移させることによる報酬と当該他の状態の価値とを算出して、前記報酬と前記価値とに基づいて前記他の状態を決定する第二手段と、
　前記他の状態を決定する際に用いた情報に基づいて学習データを生成し、当該学習データを用いて前記モデルをさらに学習する第三手段と、
を実現させるためのプログラムが格納されたコンピュータ読み取り可能な記録媒体。