WO2022244260A1

WO2022244260A1 - 方策推定装置、方策推定方法、およびプログラム

Info

Publication number: WO2022244260A1
Application number: PCT/JP2021/019430
Authority: WO
Inventors: 匡宏幸島; 公海高橋
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2022-11-24
Also published as: JPWO2022244260A1; JP7552892B2

Abstract

意思決定を行う主体であるエージェントの方策を推定する方策推定装置にあって、エージェントの状態と行動に対して報酬ベクトルと次の時刻の前記エージェントの状態を返すものであって、多目的マルコフ決定過程（ＭＯＭＤＰ）との相互作用を記述するシミュレータと、ＭＯＭＤＰのパラメタと、報酬がベクトル値で与えられる設定において任意の統計量を最大化するアルゴリズムを実行する際の設定パラメタとに基づいて、当該アルゴリズムにより方策を最適化する関数を生成するアルゴリズム実行部を具備する。

Description

方策推定装置、方策推定方法、およびプログラム

　本発明の実施形態は、多目的強化学習のためのリスク考慮型の意思決定則（方策）を推定する技術に関する。

　方策（Policy）とは、当該技術分野において、意思決定主体（エージェント）の意思決定則を意味する用語である。強化学習（ＲＬ：Reinforcement Learning）は、ゲーム分野における成功例（非特許文献２）を受けて、方策を推定する技術として注目を集めている。標準的な強化学習で目的とされるのは、「スカラー値」で表現される報酬の累積割引和（収益とも称される）の「期待値」を最大化して方策を推定することであった。しかし近年では、これとは異なる目的を持つ強化学習の技術が、異なる文脈において幾つも構築されている。

　（例１）
　第１の例は、多目的強化学習（ＭＯＲＬ：Multi-Objective RL）と称される技術群である。ＭＯＲＬでは、報酬が「スカラー値」ではなく「ベクトル値」で表現される設定が考慮される。これは、達成すべき目標が複数個ある状況を考慮することに相当する。

　例えば、エージェントが片付けロボットであるとする。このロボットは、できるだけ多くのものを片付けるという目標と、活動し続けるために時々電源のあるところに戻って自身のバッテリーを充電するという目標との、複数の目標を同時に達成すべく意思決定を行う必要がある。できるだけ多くのものを片付けるという目標は、報酬ベクトルの第１次元が、ものを所定位置に置いた時に正の値と設定されている等で評価することができる。バッテリーを充電するという目標は、報酬ベクトルの第２次元が、残バッテリーが満タンに近いほど正の大きい値をとるように設定されている等で、評価することができる。

　ＭＯＲＬは、一般に、多次元の報酬の収益を最大化するパレート最適な方策の集合を見つけることが行われる。例えば、Preferenceと称される、各目標の選好度合いが既知であるか否かなどの設定に応じて様々なアルゴリズムが知られている。非特許文献５に、single policyやmultiple policyと称されるアプローチがリストアップされている。

　（例２）
　第２の例は、分布強化学習（ＤＲＬ：Distributional RL）と称される技術群である（非特許文献１，３，４）。ＤＲＬでは、収益の「期待値」ではなく、収益の確率分布を推定することを介して「期待値に限らない任意の統計量」を最大化することが、目的とされる。例えば非特許文献３，４では、収益の中央値や分位点を最大化する方策が推定される。中央値や分位点を用いることで、一般にノイズ（非常に値が大きいまたは小さい値）の影響を受けやすい期待値と比べて、頑健な推定を行うことができる。

　また、分位点を最大化することでリスク回避的、またはリスク志向的な方策の推定を行うことができる。例えば、１０％分位点の最大化を考えることで、その値よりも大きい累積割引和を得られる確率が９０％である、リスク回避的な指標を目的関数として方策を推定することができる。同様に、９０％分位点の最大化を考えることで、その値より大きい累積割引和を得られる確率が１０％しかなくても構わないとする、よりリスク志向的な方策を推定することができる。

MarcG Bellemare, Will Dabney, and R´emi Munos. A distributional perspective on reinforcement learning. In International Conference on Machine Learning, pages 449-458, 2017. Volodymyr Mnih, Koray Kavukcuoglu, David Silver, AndreiA. Rusu, Joel Veness, MarcG. Bellemare, Alex Graves, Martin Riedmiller, AndreasK. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, and Demis Hassabis. Human-level control through deep reinforcement learning. Nature, 518(7540):529-533, 2015. Tetsuro Morimura, Masashi Sugiyama, Hisashi Kashima, Hirotaka Hachiya, and Toshiyuki Tanaka. Nonparametric return distribution approximation for reinforcement learning. In International Conference on Machine Learning, pages 799-806, 2010. Tetsuro Morimura, Masashi Sugiyama, Hisashi Kashima, Hirotaka Hachiya, and Toshiyuki Tanaka. Parametric return density estimation for reinforcement learning. In Proceedings of the Twenty-Sixth Conference on Uncertainty in Artificial Intelligence, pages 368-375, 2010. DiederikM Roijers, Peter Vamplew, Shimon Whiteson, and Richard Dazeley. A survey of multi-objective sequential decision-making. Journal of Artificial Intelligence Research, 48:67-113, 2013. Kristof VanMoffaert, MadalinaM Drugan, and Ann Now´e. Scalarized multiobjective reinforcement learning: Novel design techniques. In 2013 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL), pages 191-199. IEEE, 2013.

　現在のところ、ＭＯＲＬのように報酬が「スカラー値」ではなく「ベクトル値」で与えられる設定において、ＤＲＬのように「期待値に限らない任意の統計量」の最大化を行う技術は知られていない。　
　この発明は上記事情に着目してなされたもので、報酬がベクトル値で与えられる設定において、任意の統計量を最大化することを可能にする技術を提供しようとするものである。

　この発明の一態様に係る方策推定装置は、意思決定を行う主体であるエージェントの方策を推定する。この方策推定装置は、プログラムを記憶する記憶部と、記憶部からプログラムをロードされるメモリと、メモリにロードされたプログラムに記載された命令に従って情報を処理するプロセッサとを具備する。記憶部は、シミュレータと、多目的マルコフ決定過程（ＭＯＭＤＰ）のパラメタと、設定パラメタとを記憶する。シミュレータは、エージェントの状態と行動に対して報酬ベクトルと次の時刻のエージェントの状態を返すものであって、ＭＯＭＤＰとの相互作用を記述するシミュレータである。設定パラメタは、報酬がベクトル値で与えられる設定において任意の統計量を最大化するアルゴリズムを実行する際の設定パラメタである。プロセッサは、入力パラメタ処理部と、アルゴリズム実行部と、実行結果処理部とを備える。入力パラメタ処理部は、シミュレータ、ＭＯＭＤＰのパラメタ、および設定パラメタを記憶部に記憶させる。アルゴリズム実行部は、シミュレータ、ＭＯＭＤＰのパラメタ、および設定パラメタを記憶部から取得し、アルゴリズムに基づいて方策を最適化する関数を生成する。実行結果処理部は、生成された関数を出力する。

　この発明の一態様によれば、報酬がベクトル値で与えられる設定において任意の統計量を最大化することが可能になる。これにより、エージェントの状態遷移が過去の履歴に依存する場合でも最適な方策を得ることが可能になる。

図１は、実施形態に係わるＭＯＤＲＬのアルゴリズムの擬似コードの一例を示す図である。図２は、この発明の一実施形態に係る方策推定装置１の一例を示す機能ブロック図である。図３は、図２に示される方策推定装置１の処理手順の一例を示すフローチャートである。

　以下、図面を参照してこの発明に係わる実施形態を説明する。　
　［準備］
　＜マルコフ決定過程（ＭＤＰ）について＞
　ＭＤＰは、（１）により定義される。　

　状態遷移確率（遷移確率とも称される）は、（２）で表される。状態遷移確率は、（３）に示される量が、状態ｓで行動ａを実行する際に状態ｓ′へ遷移する確率を表す。

　報酬関数は、（４）で表される。報酬関数は、（５）に示される量が、状態ｓで行動ａを実行することで得られる報酬を表す。

　割引率γは、（６）で表される。

　なお分布強化学習においては、得られる報酬が、ある確率分布に従って決定されると考える場合がある。この場合は報酬関数に代えて、（７）で表される報酬分布が与えられているとして扱うこととする。（７）の報酬分布は、（８）の量が、状態ｓから行動ａで状態ｓ′に遷移する時に得られる報酬ｒが従う確率分布（密度関数）である。

　実施形態では、エージェントの意思決定則（方策）を表すものとして記号πを用いることとする。πについて（９）が成り立つ。（９）は、（１０）に示される量が、エージェントが状態ｓにいる時に行動ａを選択する確率を表す。

　環境とエージェントとの、時刻ｔまでの相互作用の履歴を式（１１）で表すこととする。

　＜価値関数（Value Function）について＞
　ＭＤＰでは価値関数が重要である。価値関数Ｖ^π、およびＱ^πは、エージェントが方策πに従って行動を決定する際に得られる割引報酬和（収益）の期待値を表すものとして、式（１２）、式（１３）次のように定義される。

　ただし、式（１２）、式（１３）の右辺における（１４）の表現は、エージェントが方策πに従うもとでの履歴~ｈ_ｔ（（１１）に示される）の出方に関する期待値を表す。式（１５）、式（１６）は最適価値関数と称される。

　最適価値関数は、以下のベルマン方程式（式（１７）、式（１８））を満たす。

　ただし、式（１７）、式（１８）の右辺における（１９）の表現は、（３）の遷移確率に従うｓ′の出方に関する期待値を表す。

　（２０）を満たす方策π^＊は、最適方策と称される。

　最適方策は式（２１）で与えられる。式（２１）の右辺における（２２）の表現は指示関数を表す。（２２）の指示関数は、（　）の中の・が真であれば１を返し、そうでなければ０を返す。

　以上の議論から、最適方策を求める問題は、最適価値関数を求める問題へと帰着される。

　状態遷移確率と報酬関数が既知であれば、最適価値関数は価値反復法（Value Iteration）、方策反復法（Policy Iteration）、あるいは線形計画法を用いる方法などのプランニングアルゴリズムを用いることで得られる。状態遷移確率と報酬関数が未知であれば、Ｑ学習やＳＡＲＳＡ法、アクタークリティック法などのＲＬアルゴリズムを用いて最適価値関数を推定することができる。なお、以下の議論では最適価値関数を価値関数と略称することがあるが、両者は同義である。

　＜分布強化学習（ＤＲＬ）について＞
　上記したように、通常の強化学習では収益の期待値を表す価値関数を推定する。一方、ＤＲＬでは、収益の確率分布を推定する。収益（累積割引和）を表すものとして記号ηを導入する。ηについて（２３）が成り立つ。

　収益は、確率的に揺らいで定まる遷移の系列から決まる値であり、確率変数である。これを確率変数Ｅで表すこととすると、収益の確率分布（収益分布）は式（２４）で表現できる。

　この収益分布は式（２５）の分布ベルマン方程式を満たす。

　Ｂ^πは分布ベルマンオペレータである。非特許文献３，４では、この分布ベルマン方程式をベースとして収益分布を推定する手法を構築している。

　パラメトリック推定（非特許文献４）では、収益分布を表現するパラメタθをもつモデル^Ｐ_Ｅ（正規分布やラプラス分布，非対称ラプラス分布など）のパラメタ推定問題を考える。このパラメタを、式（２６）のような分布ベルマン方程式の左辺と右辺の確率分布のKullback Leiblar（ＫＬ）ダイバージェンスを小さくするように、学習する。

　具体的には、ＴＤ学習のように（２７）のパラメタ（θ′）と、（２８）のパラメタ（θ）を別のものとして扱うと、ＫＬダイバージェンスの偏微分が式（２９）で与えられる。

　このことから、式（３０）のように、パラメタθを勾配法によって更新することを繰り返せば良い。

　なお、自然勾配法のような勾配法以外の最適化手法を用いることも可能である。また、状態遷移確率と報酬関数が未知であるときは、分布ベルマンオペレータ中の遷移確率ｓ′と報酬ｒの平均操作を厳密に行うことはできないが、エージェントと環境の相互作用の履歴（ｓ，ａ，ｒ，ｓ′）を用いて（近似的に）計算することが可能である。

　具体的には、更新式を（３１）のように修正すれば良い。

　式（３１）中の~Ｐ_Ｅは、利用する手法によって異なる。Ｑ学習のようなオフポリシー学習型の手法を用いる場合には、式（３２）のように設定すればよい。ＳＡＲＳＡ法のようなオンポリシー学習型の手法を用いる場合には、式（３３）のように設定すればよい。

　非特許文献４では、収益分布を表現するモデル^Ｐ_Ｅに、前記したように正規分布などのシンプルなモデルが利用される。これに代えて、ニューラルネットワークなどの複雑なモデルを利用することも可能である。事実、非特許文献１では、ここに示した手法とは少し異なるが、深層強化学習の代表的な手法であるDeep Q-networkを発展させ、収益分布を推定する手法が構築されている。

　（ノンパラメトリック推定）
　非特許文献３では、収益分布を表現するために粒子フィルタのアプローチが利用される。式（３４）の収益分布を推定する。

　この場合、モデル^^－Ｐ_Ｅを、各状態ごとにＫ個の粒子ｖ_ｓ＝｛ｖ_ｓ，１，…，ｖ_ｓ，Ｋ｝を用いて式（３５）のように構築する。

　環境との相互作用（ｓ，ａ，ｒ，ｓ′）が得られたとき、ランダムに抽出した状態ｓのｐ番目の粒子と状態ｓ′のｑ番目の粒子を用いて、（３６）のように粒子を更新することを繰り返すことで、収益分布^－Ｐ^π _Ｅを推定することができる。

　＜分位点を最大化する強化学習について＞
上記の収益分布の推定を介することで、期待値に限らない統計量を最大化することを目指す強化学習手法を構築できる。例えば、非特許文献４では、分位点の最大化を行う手法が構築されている。この手法では、従来の価値関数に変わるものとして、収益分布の分位点を表す関数Ｑを式（３７）のように定義し、利用する。

　収益分布の推定値^Ｐ^π _Ｅを式（３７）中の収益分布と置き換えたこの関数の推定値を、^Ｑ（ｓ，ａ；ｑ，θ）と表記することとする。ノンパラメトリックな方法で収益分布を求めた場合は、θを｛ｖ_ｓ｝と置き換えれば良い。非特許文献４では、Ｑ学習などでしばしば用いられるε-greedy方策やsoft-max方策の価値関数を、関数^Ｑに置き換えて行動を決定する方法が提案されている。例えば、soft-max方策を用いる場合には、各時刻で式（３８）の方策に従って行動を決定すれば良い。

　なお、^Ｑ（ｓ，ａ；ｑ，θ）は多くの場合、容易に計算できる。例えば収益分布が正規分布Ｎ（η｜μ，σ^２）　で表現されている場合、式（３９）を用いて計算できる。

　上記のような、^Ｑを用いた方策による行動決定と収益分布の更新を各ステップで行う手法が、期待値に限らない統計量を最大化する強化学習手法、例えばｑ－Ｑ学習やｑ－ＳＡＲＳＡ法である。

　＜多目的マルコフ決定過程（ＭＯＭＤＰ）について＞
　ＭＯＭＤＰは、ＭＤＰにおける報酬関数Ｒを、（４０）のように、ベクトル値を返す（Ｍ次元の）関数に置き換えることで定義される。

　すなわち、ＭＯＭＤＰは、（４１）により定義される。　

　状態ｓにおいて行動ａを実行することで得られる報酬の第ｍ次元を、Ｒｍ（ｓ，ａ）で表すこととする。エージェントと環境との相互作用も、報酬がベクトル値であること以外はＭＤＰのそれと同じである。以下の説明では、時刻ｔに得られる報酬ベクトルを（４２）で表し、時刻ｔまでの環境とエージェントとの相互作用の履歴を（４３）で表す。

　ＭＯＭＤＰでは、以下のベクトル値を返す価値関数Ｖ^π（ｓ）、Ｑ^π（ｓ，ａ）を用いる。それぞれ（４４）、（４５）のように表される。

　これらの価値関数は、ベクトル値関数である。このため、スカラー値の関数とは異なり、順序関係（大小関係）を定義できない場合が存在する。例えば、ある状態ｓにおいて（４６）が成り立つ場合、方策πとπ′のどちらが（この状態ｓにおける価値関数値が大きいという意味で）良いかを判断することができない。

　従って、ＭＯＭＤＰでは、多目的関数の最適化で用いられるパレート最適の概念を利用し、パレート最適な方策を定義して、それを求めることを目標とする。

　＜定義（パレート支配）＞
　ある方策πとπ′が、任意の次元ｍに関して（４７）が成り立ち、且つ、ある次元ｍ′があって（４８）が成り立つ時、方策πが方策π′をパレート支配する（または価値関数Ｖ^πがＶ^π′をパレート支配する）と言い、（４９）と表記する。

　＜定義（パレート解）＞
　ある方策πに対してそれをパレート支配する方策が存在しない時、方策πをパレート最適な方策と称する。パレート最適な方策πの価値関数を、パレート最適な価値関数と称する。　
　一般に、パレート最適な方策は複数個存在する。そこで、パレート最適な方策の集合を以下のように定義する。

　＜定義（パレート解集合とパレートフロント）＞
　あるＭＯＭＤＰにおけるパレート最適な方策の集合をパレート解集合という。パレート最適な価値関数の集合をパレートフロントという。

　＜スカラー化関数について＞
　ＭＯＭＤＰを解くアルゴリズムを構築するうえで、通常のＭＤＰのように報酬がスカラーで与えられる状況で利用される手法を活用するアプローチが考えられており、そこで鍵となるのがスカラー化関数である。ＭＯＭＤＰにおけるスカラー化関数とは、ベクトル値の価値関数Ｖ^π（ｓ）を、式（５０）のように、スカラー値のＶ^π _ｗ（ｓ）へスカラー化する関数Ｆのことである。（５１）の線形スカラー化関数Ｆ_Ｌや、（５２）の拡大チェビシェフスカラー化関数（の符号反転）Ｆ_Ｃがしばしば用いられる。

　ただし、ベクトルｖ＝（ｖ１，…，ｖｍ）はＭ次元のベクトル、ベクトルｗは重みベクトルである。ｚｍ、およびεの定義は後述する。線形スカラー化関数の場合に明らかなように、重みベクトルは各次元の選好度合い（Preference）を定めたものであると解釈できる。線形スカラー化関数を用いると、（５３）と書けることから、価値関数Ｖ^π _ｗ（ｓ）が（任意の状態ｓで）最大となる方策を求めることは、（５４）の報酬関数をもつ（報酬がスカラー値で与えられる通常の）ＭＤＰの最適方策を求めることと等しい。スカラー関数として、上記以外にもMinkowskiノルムに基づくものなどが利用されることもある。一般に、スカラー化関数としては、下記のように定義されるstrictly monotonically increasingである関数が利用される。

　＜定義（strictly monotonically increasing）＞
　ある方策πが方策π′をパレート支配するならば，任意の重みベクトルｗを用いたスカラー化関数Ｆで（５５）が成り立つ時、スカラー化関数Ｆはstrictly monotonically increasingであるという。

　定義から明らかなようにstrictly monotonically increasingな関数を用いて、ＭＯＭＤＰを通常のＭＤＰのようにスカラー値を目的関数として解くことでパレート最適な方策および価値関数を求めることができる。（ｗｉが全て正の）線形スカラー関数と拡大チェビシェフスカラー化関数はstrictly monotonically increasingである。

　拡大チェビシェフスカラー化関数におけるｚｍは価値関数の参照点や目標値などに相当し、固定した値を用いても良いし、学習途中で推定途中の価値関数Ｖ^πを用いて（５６）のように更新される値が用いられることもある。

　εは任意の正の値（一般には十分小さい値）であり、この和に関する項はstrictly monotonically increasingとなるために導入されている。また拡大チェビシェフスカラー化としては、上記の式から絶対値記号を外した式（５７）が用いられる場合もある。

　＜ＭＯＭＤＰにおける強化学習アルゴリズム＞
　ＭＯＭＤＰにおける強化学習アルゴリズムは、strictly monotonically increasingなスカラー値関数を用いて設計される。その手法は主に、single policyアプローチと称される方法と、multiple policyアプローチと称される方法とに分類される（非特許文献５）。

　single policyアプローチでは、基本的に、重みベクトルｗを１つ定め、或る１つの（パレート）最適方策を求めることが行われる。パレート最適な方策の集合を求める必要がある場合には、（必要に応じてｗの値を変えながら）複数回実行される。例えば、非特許文献６ではＱ－Ｌｅａｒｎｉｎｇをベースにした手法を構築している。この手法ではベクトル値で表現される価値関数の推定値^Ｑを、以下に説明するような、環境との相互作用を通じて学習する。状態ｓにいるエージェントは、実行する行動ａをスカラー化関数Ｆによりスカラー化した価値関数の推定値（式（５８））を用いて、式（５９）のように決定、実行し、報酬ｒを受け取り、次の状態ｓ′へ遷移する。

　なお、上記の行動決定においては、ε-greedy方策やsoft-max方策を利用しても良い。この１ステップの履歴（ｓ，ａ，ｒ，ｓ′）を用いて、各次元ごとに、Ｑ－ｌｅａｒｎｉｎｇに基づく更新式で、価値関数の推定値を式（６０）に従い更新する。

　ただし、αは学習率である。これを十分な回数繰り返すことで価値関数を推定することができる。

　非特許文献６では、（拡大）チェビシェフスカラー化関数を利用し、参照点ｚｍを適応的に更新しながら価値関数を推定することで、固定したｗを用いた場合であっても多様なパレート最適な方策が得られることが報告されている。実施形態で説明するＭＯＤＲＬ手法は、このsingle policyアプローチの手法を発展させたものとみなすことができる。

　＜概要＞
　開示する技術は、ＭＯＲＬのように報酬が「スカラー値」ではなく「ベクトル値」で与えられる設定において、ＤＲＬのように「期待値に限らない任意の統計量」の最大化を行うことを行う、多目的分布強化学習（ＭＯＤＲＬ： Multi-Objective Distributional RL）である。

　ＭＯＤＲＬを構築するにあたり、次の２点で既存の技術を発展させた。　
　　（ｉ）ＤＲＬでは、スカラーである報酬の割引和の確率分布を考えるため、推定する収益分布は１次元のものであるが、これを多次元分布の収益分布を推定するものへと拡張させる。　
　　（ｉｉ）多次元の収益分布を用いて行動を決定する方策モデルを構築する。

　以下の説明では、ＭＯＭＤＰで多次元の報酬関数ではなく、多次元の報酬分布（（６１）に示す）が与えられているとする。

　単純化のため、この報酬分布は各次元ごとに独立にＰと書ける状況を考えるが、本発明はこのケースに限定されるものではない。

　ＰＲｍ（ｒｍ｜ｓ、ａ、ｓ′）が状態ｓから行動ａで状態ｓ′に遷移する時に得られる報酬ｒのｍ次元要素ｒｍが従う確率分布（密度関数）を表す。

　まず多次元の収益分布の推定について説明する。収益ベクトルを（６２）の記号で表す。収益ベクトルについて（６３）が成り立つ。

　収益ベクトルは、確率的に揺らいで定まる遷移の系列から決まる値であり、確率変数である。これを式（６４）の確率変数で表すこととすると、収益ベクトルのｍ次元要素が従う確率分布（収益分布）は式（６５）で表現できる。

　この収益分布は、式（６６）の分布ベルマン方程式を満たす。

　これは、式（２５）において（６７）のように置き換えたものに相当する。

　収益分布を表すモデルとして、各次元ごとに独立なモデル（式（６８）に示す）を用いることとすれば、パラメタθｍの推定は各次元ごとに独立に行えるので、報酬がスカラー値で与えられる既存のＤＲＬの手法を利用して、（６９）の量を推定することができる。

　具体的には、式（３１）と同様に、環境の相互作用（（７０）に示す）に基づき、（７１）のようにパラメタθｍを更新すれば良い。

　次に、多次元の収益分布を用いた方策モデルについて説明する。ここでは、スカラーの報酬を扱うＤＲＬの既存研究と同様、多次元の分位点を表す（７２）の関数を用いることを考える。

　他の統計量も（７２）の関数の定義を変えることで、同様に取り扱うことが可能である。

　収益分布の推定値^Ｐ^π _Ｅｍを、式（７３）中の収益分布Ｐ^π _Ｅｍと置き換えて得られる、関数（７２）の推定値を（７４）のように表記する。

　関数（７２）は多次元であるから、ＭＯＭＤＰにおいて多次元の価値関数を考えた時と同様に、順序関係を導入することができない。そこで、ＭＯＭＤＰと同様に、スカラー化関数Ｆを用いて行動を決定することとする。あるスカラー関数Ｆと重みベクトルｗでスカラー化した関数を、（７５）のように表記する。（７５）は、（７６）のように表される。

　スカラー関数としては、線形スカラー化関数、または拡大チェビシェフスカラー化関数を利用できる。他にも、strictly monotonically increasingなスカラー化関数を利用すればパレート最適解を得られることが期待できる。これを用いて、ＭＯＭＤＰと同様にε-greedy方策やsoft-max方策などの方策モデルを用いて行動を決定すれば良い。例えば、soft-max 方策を用いる場合には、各時刻で式（７７）の方策に従って行動を決定すれば良い。

　これによって、ＭＯＲＬのように報酬が「スカラー値」ではなく「ベクトル値」で与えられる設定において、ＤＲＬのように「期待値に限らない任意の統計量」の最大化を行うことのできるＭＯＤＲＬが構築できた。　
　図１に、実施形態に係わるＭＯＤＲＬのアルゴリズムの擬似コードの一例を示す。以上の議論を基礎として、次に、本発明の実施の形態について説明する。

　［一実施形態］
　（構成）
　図２は、この発明の一実施形態に係る方策推定装置１の一例を示す機能ブロック図である。方策推定装置１は、ＭＯＤＲＬアルゴリズムにより意思決定主体（エージェント）の意思決定則（方策）を最適化し、推測するもので、例えば、パーソナルコンピュータやサーバコンピュータにより構成される。

　図２において、方策推定装置１は、操作端末などの外部装置２に接続されるインタフェース部５０、ＳＳＤ（Solid State Drive）やＨＤＤ（Hard Disk Drive）等の記憶部としてのストレージ４０、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等のメモリ６０、プロセッサ７０、およびこれらを接続するバス８０を備える。

　ストレージ４０は、ＭＯＭＤＰパラメタ４１を記憶するエリア（第１エリア、第２エリア）、設定パラメタ４２を記憶するエリア（第３エリア）、実行結果４３を記憶するエリア、および、プログラムを記憶するエリアを備える。ＭＯＭＤＰパラメタ４１を記憶するエリアには、併せて、実施形態に係わるシミュレータが記憶される。シミュレータは、エージェントの状態と行動に対して報酬ベクトルと次の時刻のエージェントの状態を返す。このシミュレータは、多目的マルコフ決定過程（ＭＯＭＤＰ）との相互作用を記述する。

　設定パラメタ４２は、報酬がベクトル値で与えられる設定において任意の統計量（例えば期待値）を最大化するアルゴリズムを実行する際の設定パラメタである。実施形態では、図１に示されるアルゴリズム（ＭＯＤＲＬアルゴリズム）実行する際の設定パラメタを、設定パラメタ４２のエリアに記憶する。

　プロセッサ７０は、ストレージ４０からメモリ６０にロードされたプログラムに記載された命令に従って情報を処理する、例えばＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等の演算素子である。

　プロセッサ７０は、実施形態に係わる処理機能として、入力パラメタ処理部１０、ＭＯＤＲＬアルゴリズム実行部２０、および、実行結果処理部３０を備える。　
　入力パラメタ処理部１０は、上記シミュレータ、ＭＯＭＤＰのパラメタ、および設定パラメタをストレージ４０に記憶させる。

　ＭＯＤＲＬアルゴリズム実行部２０は、シミュレータ、ＭＯＭＤＰのパラメタ、および設定パラメタをストレージ４０から取得し、ＭＯＤＲＬアルゴリズムに基づいて方策を最適化する関数を生成する。

　実行結果処理部３０は、ＭＯＤＲＬアルゴリズム実行部２０により生成された関数を、外部装置２等に出力する。また、実行結果処理部３０は、上記生成された関数を用いて計算される方策モデルの最終結果を出力する。

　（作用）
　次に、実施形態に係わる方策推定装置１の作用を説明する。　
　図３は、図２に示される方策推定装置１の処理手順の一例を示すフローチャートである。図３において、プロセッサ７０は、ＭＯＭＤＰとの相互作用を記述するシミュレータをストレージ４０に記憶させる（ステップＳ１）。次にプロセッサ７０は、ＭＯＭＤＰのパラメタ（割引率γ）をストレージ４０に記憶させる（ステップＳ２）。次にプロセッサ７０は、アルゴリズム実行時のパラメタ（利用するスカラー化関数Ｆ、重みベクトルｗ、収益分布のモデル^Ｐ_Ｅ、分位点ｑ、方策モデルπ、方策モデルのパラメタβ、その他利用する最適化手法や学習率の設定など）を、ストレージ４０に記憶させる（ステップＳ３）。

　次にプロセッサ７０は、シミュレータ、および、割引率γや設定パラメタを含む各パラメタをストレージ４０から読み出し（ステップＳ４）、図１に示されるＲＬアルゴリズムにより、方策を最適化するための関数^^－Ｑを生成する（ステップＳ５）。このステップでは、生成された関数を用いて方策モデルを計算しても良い。

　次にプロセッサ７０は、生成された関数関数^^－Ｑ、または、生成された関数を用いて計算された方策モデルなどを出力するとともに（ステップＳ６）、ＭＯＤＲＬアルゴリズムによる演算結果をストレージ４０に記憶させる（実行結果４３）。

　なお、ここではＭＯＤＲＬアルゴリズムとして分位点を利用して定義される関数の最適化をする例を示したが、収益分布から計算可能な任意の統計量を用いることができる。また、収益分布のモデルには正規分布やラプラス分布、非対称ラプラス分布、混合分布、ニューラルネットワークを使って定義される分布などのパラメトリックモデルやノンパラメトリックモデルなど任意の分布を用いることができる。また、収益分布のパラメタの更新には、勾配法や自然勾配法、深層学習で用いられる最適化手法であるＡｄａｍなど、任意の最適化手法を用いることができる。

　（効果）
　以上述べたように、実施形態によれば、報酬が「スカラー値」ではなく「ベクトル値」で与えられる設定において、ＤＲＬのように「期待値に限らない任意の統計量」の最大化を行うことを行う多目的分布強化学習（ＭＯＤＲＬ：Multi-Objective Distributional RL）を構築することが可能になる。すなわち実施形態によれば、推定する収益分布を多次元分布の収益分布を推定するものへと拡張させ、多次元の収益分布を用いて行動を決定する方策モデルを構築することができる。

　なお、この発明は上記実施形態に限定されるものではない。例えば実施形態では、収益分布をパラメトリックモデルで推定する例について説明した。これに限らず、ノンパラメトリックモデルを用いても良い。また、ニューラルネットワークなどの複雑なモデルを用いる場合、収益分布のパラメタの更新には、Ａｄａｍなどの深層学習で用いられる最適化手法を用いてもよい。

　また、方策推定装置１が備える各機能部を複数の装置に分散して配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。

　さらに、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。また、以上で説明した一連の処理は、時間的に連続して実行される必要はなく、各ステップは任意のタイミングで実行されてもよい。

　また、プロセッサ７０は、例えばＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（field-programmable gate array）などの集積回路を含む、他の多様な形式で実現されてもよい。

　上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体（または記憶媒体）に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体の例は、磁気ディスク、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、ＤＶＤ－Ｒなど）、光磁気ディスク（ＭＯなど）、半導体メモリを含む。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ（サーバ）上に格納し、ネットワーク経由でコンピュータ（クライアント）にダウンロードさせてもよい。

　その他、具体的なアルゴリズムの種類たニューラルネットワークの構成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

　実施形態に係わる方策推定装置は、各構成要素の動作をプログラムとして構築し、方策推定装置として利用されるコンピュータにインストールして実行させる、またはネットワークを介して流通させることが可能である。本発明は上記の形態に限定されることなく、種々変更・応用が可能である。

　要するにこの発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

　１…方策推定装置
　２…外部装置
　１０…入力パラメタ処理部
　２０…ＭＯＤＲＬアルゴリズム実行部
　３０…実行結果処理部
　４０…ストレージ
　４１…ＭＯＭＤＰパラメタ
　４２…設定パラメタ
　４３…実行結果
　５０…インタフェース部
　６０…メモリ
　７０…プロセッサ
　８０…バス。

Claims

　意思決定を行う主体であるエージェントの方策を推定する方策推定装置であって、
　プログラムを記憶する記憶部と、
　前記記憶部から前記プログラムをロードされるメモリと、
　前記メモリにロードされたプログラムに記載された命令に従って情報を処理するプロセッサとを具備し、
　　前記記憶部は、
　前記エージェントの状態と行動に対して報酬ベクトルと次の時刻の前記エージェントの状態を返すものであって、多目的マルコフ決定過程（ＭＯＭＤＰ）との相互作用を記述するシミュレータを記憶する第１エリアと、
　前記ＭＯＭＤＰのパラメタを記憶する第２エリアと、
　報酬がベクトル値で与えられる設定において任意の統計量を最大化するアルゴリズムを実行する際の設定パラメタを記憶する第３エリアとを備え、
　　前記プロセッサは、
　前記シミュレータ、前記ＭＯＭＤＰのパラメタ、および前記設定パラメタを前記記憶部に記憶させる入力パラメタ処理部と、
　前記シミュレータ、前記ＭＯＭＤＰのパラメタ、および前記設定パラメタを前記記憶部から取得し、前記アルゴリズムに基づいて前記方策を最適化する関数を生成するアルゴリズム実行部と、
　前記生成された関数を出力する実行結果処理部とを備える、方策推定装置。
　前記実行結果処理部は、前記関数を用いて計算される方策モデルの最終結果を出力する、請求項１に記載の方策推定装置。
　前記統計量は、分位点である、請求項１に記載の方策推定装置。
　前記アルゴリズムは、ＭＯＤＲＬアルゴリズムである、請求項１に記載の方策推定装置。
　プログラムを記憶する記憶部と、前記記憶部から前記プログラムをロードされるメモリと、前記メモリにロードされたプログラムに記載された命令に従って情報を処理するプロセッサを備えるコンピュータにより、意思決定を行う主体であるエージェントの方策を推定する方策推定方法であって、
　前記プロセッサが、前記エージェントの状態と行動に対して、報酬ベクトルと次の時刻の前記エージェントの状態を返すものであって、多目的マルコフ決定過程（ＭＯＭＤＰ）との相互作用を記述するシミュレータを前記記憶部に記憶させることと、
　前記プロセッサが、前記ＭＯＭＤＰのパラメタを前記記憶部に記憶させることと、
　前記プロセッサが、報酬がベクトル値で与えられる設定において任意の統計量を最大化するアルゴリズムを実行する際の設定パラメタを前記記憶部に記憶させることと、
　前記プロセッサが、前記シミュレータ、前記ＭＯＭＤＰのパラメタ、および前記設定パラメタを前記記憶部から取得し、前記アルゴリズムに基づいて前記方策を最適化する関数を生成することと、
　前記プロセッサが、前記生成された関数を出力することとを具備する、方策推定方法。
　請求項１乃至請求項４の何れか１項に記載の装置の各部による処理を前記プロセッサに実行させる、プログラム。