WO2022244260A1 - 方策推定装置、方策推定方法、およびプログラム - Google Patents

方策推定装置、方策推定方法、およびプログラム Download PDF

Info

Publication number
WO2022244260A1
WO2022244260A1 PCT/JP2021/019430 JP2021019430W WO2022244260A1 WO 2022244260 A1 WO2022244260 A1 WO 2022244260A1 JP 2021019430 W JP2021019430 W JP 2021019430W WO 2022244260 A1 WO2022244260 A1 WO 2022244260A1
Authority
WO
WIPO (PCT)
Prior art keywords
policy
function
momdp
algorithm
parameters
Prior art date
Application number
PCT/JP2021/019430
Other languages
English (en)
French (fr)
Inventor
匡宏 幸島
公海 高橋
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/019430 priority Critical patent/WO2022244260A1/ja
Priority to JP2023522180A priority patent/JP7552892B2/ja
Publication of WO2022244260A1 publication Critical patent/WO2022244260A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • Embodiments of the present invention relate to techniques for estimating risk-considered decision-making rules (policies) for multi-objective reinforcement learning.
  • FIG. 3 is a flow chart showing an example of a processing procedure of the policy estimation device 1 shown in FIG.
  • processor 70 causes storage 40 to store a simulator describing interaction with MOMDP (step S1).
  • the processor 70 stores the MOMDP parameter (discount rate ⁇ ) in the storage 40 (step S2).
  • the processor 70 determines the parameters (scalarized function F to be used, weight vector w, profit distribution model ⁇ P E , quantile q, policy model ⁇ , policy model parameter ⁇ , and other optimal parameters to be used when executing the algorithm. method, learning rate setting, etc.) are stored in the storage 40 (step S3).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

意思決定を行う主体であるエージェントの方策を推定する方策推定装置にあって、エージェントの状態と行動に対して報酬ベクトルと次の時刻の前記エージェントの状態を返すものであって、多目的マルコフ決定過程(MOMDP)との相互作用を記述するシミュレータと、MOMDPのパラメタと、報酬がベクトル値で与えられる設定において任意の統計量を最大化するアルゴリズムを実行する際の設定パラメタとに基づいて、当該アルゴリズムにより方策を最適化する関数を生成するアルゴリズム実行部を具備する。

Description

方策推定装置、方策推定方法、およびプログラム
 本発明の実施形態は、多目的強化学習のためのリスク考慮型の意思決定則(方策)を推定する技術に関する。
 方策(Policy)とは、当該技術分野において、意思決定主体(エージェント)の意思決定則を意味する用語である。強化学習(RL:Reinforcement Learning)は、ゲーム分野における成功例(非特許文献2)を受けて、方策を推定する技術として注目を集めている。標準的な強化学習で目的とされるのは、「スカラー値」で表現される報酬の累積割引和(収益とも称される)の「期待値」を最大化して方策を推定することであった。しかし近年では、これとは異なる目的を持つ強化学習の技術が、異なる文脈において幾つも構築されている。
 (例1)
 第1の例は、多目的強化学習(MORL:Multi-Objective RL)と称される技術群である。MORLでは、報酬が「スカラー値」ではなく「ベクトル値」で表現される設定が考慮される。これは、達成すべき目標が複数個ある状況を考慮することに相当する。
 例えば、エージェントが片付けロボットであるとする。このロボットは、できるだけ多くのものを片付けるという目標と、活動し続けるために時々電源のあるところに戻って自身のバッテリーを充電するという目標との、複数の目標を同時に達成すべく意思決定を行う必要がある。できるだけ多くのものを片付けるという目標は、報酬ベクトルの第1次元が、ものを所定位置に置いた時に正の値と設定されている等で評価することができる。バッテリーを充電するという目標は、報酬ベクトルの第2次元が、残バッテリーが満タンに近いほど正の大きい値をとるように設定されている等で、評価することができる。
 MORLは、一般に、多次元の報酬の収益を最大化するパレート最適な方策の集合を見つけることが行われる。例えば、Preferenceと称される、各目標の選好度合いが既知であるか否かなどの設定に応じて様々なアルゴリズムが知られている。非特許文献5に、single policyやmultiple policyと称されるアプローチがリストアップされている。
 (例2)
 第2の例は、分布強化学習(DRL:Distributional RL)と称される技術群である(非特許文献1,3,4)。DRLでは、収益の「期待値」ではなく、収益の確率分布を推定することを介して「期待値に限らない任意の統計量」を最大化することが、目的とされる。例えば非特許文献3,4では、収益の中央値や分位点を最大化する方策が推定される。中央値や分位点を用いることで、一般にノイズ(非常に値が大きいまたは小さい値)の影響を受けやすい期待値と比べて、頑健な推定を行うことができる。
 また、分位点を最大化することでリスク回避的、またはリスク志向的な方策の推定を行うことができる。例えば、10%分位点の最大化を考えることで、その値よりも大きい累積割引和を得られる確率が90%である、リスク回避的な指標を目的関数として方策を推定することができる。同様に、90%分位点の最大化を考えることで、その値より大きい累積割引和を得られる確率が10%しかなくても構わないとする、よりリスク志向的な方策を推定することができる。
MarcG Bellemare, Will Dabney, and R´emi Munos. A distributional perspective on reinforcement learning. In International Conference on Machine Learning, pages 449-458, 2017. Volodymyr Mnih, Koray Kavukcuoglu, David Silver, AndreiA. Rusu, Joel Veness, MarcG. Bellemare, Alex Graves, Martin Riedmiller, AndreasK. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, and Demis Hassabis. Human-level control through deep reinforcement learning. Nature, 518(7540):529-533, 2015. Tetsuro Morimura, Masashi Sugiyama, Hisashi Kashima, Hirotaka Hachiya, and Toshiyuki Tanaka. Nonparametric return distribution approximation for reinforcement learning. In International Conference on Machine Learning, pages 799-806, 2010. Tetsuro Morimura, Masashi Sugiyama, Hisashi Kashima, Hirotaka Hachiya, and Toshiyuki Tanaka. Parametric return density estimation for reinforcement learning. In Proceedings of the Twenty-Sixth Conference on Uncertainty in Artificial Intelligence, pages 368-375, 2010. DiederikM Roijers, Peter Vamplew, Shimon Whiteson, and Richard Dazeley. A survey of multi-objective sequential decision-making. Journal of Artificial Intelligence Research, 48:67-113, 2013. Kristof VanMoffaert, MadalinaM Drugan, and Ann Now´e. Scalarized multiobjective reinforcement learning: Novel design techniques. In 2013 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL), pages 191-199. IEEE, 2013.
 現在のところ、MORLのように報酬が「スカラー値」ではなく「ベクトル値」で与えられる設定において、DRLのように「期待値に限らない任意の統計量」の最大化を行う技術は知られていない。 
 この発明は上記事情に着目してなされたもので、報酬がベクトル値で与えられる設定において、任意の統計量を最大化することを可能にする技術を提供しようとするものである。
 この発明の一態様に係る方策推定装置は、意思決定を行う主体であるエージェントの方策を推定する。この方策推定装置は、プログラムを記憶する記憶部と、記憶部からプログラムをロードされるメモリと、メモリにロードされたプログラムに記載された命令に従って情報を処理するプロセッサとを具備する。記憶部は、シミュレータと、多目的マルコフ決定過程(MOMDP)のパラメタと、設定パラメタとを記憶する。シミュレータは、エージェントの状態と行動に対して報酬ベクトルと次の時刻のエージェントの状態を返すものであって、MOMDPとの相互作用を記述するシミュレータである。設定パラメタは、報酬がベクトル値で与えられる設定において任意の統計量を最大化するアルゴリズムを実行する際の設定パラメタである。プロセッサは、入力パラメタ処理部と、アルゴリズム実行部と、実行結果処理部とを備える。入力パラメタ処理部は、シミュレータ、MOMDPのパラメタ、および設定パラメタを記憶部に記憶させる。アルゴリズム実行部は、シミュレータ、MOMDPのパラメタ、および設定パラメタを記憶部から取得し、アルゴリズムに基づいて方策を最適化する関数を生成する。実行結果処理部は、生成された関数を出力する。
 この発明の一態様によれば、報酬がベクトル値で与えられる設定において任意の統計量を最大化することが可能になる。これにより、エージェントの状態遷移が過去の履歴に依存する場合でも最適な方策を得ることが可能になる。
図1は、実施形態に係わるMODRLのアルゴリズムの擬似コードの一例を示す図である。 図2は、この発明の一実施形態に係る方策推定装置1の一例を示す機能ブロック図である。 図3は、図2に示される方策推定装置1の処理手順の一例を示すフローチャートである。
 以下、図面を参照してこの発明に係わる実施形態を説明する。 
 [準備]
 <マルコフ決定過程(MDP)について>
 MDPは、(1)により定義される。 
Figure JPOXMLDOC01-appb-M000001
 状態遷移確率(遷移確率とも称される)は、(2)で表される。状態遷移確率は、(3)に示される量が、状態sで行動aを実行する際に状態s′へ遷移する確率を表す。
Figure JPOXMLDOC01-appb-M000002
 報酬関数は、(4)で表される。報酬関数は、(5)に示される量が、状態sで行動aを実行することで得られる報酬を表す。
Figure JPOXMLDOC01-appb-M000003
 割引率γは、(6)で表される。
Figure JPOXMLDOC01-appb-M000004
 なお分布強化学習においては、得られる報酬が、ある確率分布に従って決定されると考える場合がある。この場合は報酬関数に代えて、(7)で表される報酬分布が与えられているとして扱うこととする。(7)の報酬分布は、(8)の量が、状態sから行動aで状態s′に遷移する時に得られる報酬rが従う確率分布(密度関数)である。
Figure JPOXMLDOC01-appb-M000005
 実施形態では、エージェントの意思決定則(方策)を表すものとして記号πを用いることとする。πについて(9)が成り立つ。(9)は、(10)に示される量が、エージェントが状態sにいる時に行動aを選択する確率を表す。
Figure JPOXMLDOC01-appb-M000006
 環境とエージェントとの、時刻tまでの相互作用の履歴を式(11)で表すこととする。
Figure JPOXMLDOC01-appb-M000007
 <価値関数(Value Function)について>
 MDPでは価値関数が重要である。価値関数Vπ、およびQπは、エージェントが方策πに従って行動を決定する際に得られる割引報酬和(収益)の期待値を表すものとして、式(12)、式(13)次のように定義される。
Figure JPOXMLDOC01-appb-M000008
 ただし、式(12)、式(13)の右辺における(14)の表現は、エージェントが方策πに従うもとでの履歴~h((11)に示される)の出方に関する期待値を表す。式(15)、式(16)は最適価値関数と称される。
Figure JPOXMLDOC01-appb-M000009
 最適価値関数は、以下のベルマン方程式(式(17)、式(18))を満たす。
Figure JPOXMLDOC01-appb-M000010
 ただし、式(17)、式(18)の右辺における(19)の表現は、(3)の遷移確率に従うs′の出方に関する期待値を表す。
 (20)を満たす方策πは、最適方策と称される。
Figure JPOXMLDOC01-appb-M000011
 最適方策は式(21)で与えられる。式(21)の右辺における(22)の表現は指示関数を表す。(22)の指示関数は、( )の中の・が真であれば1を返し、そうでなければ0を返す。
Figure JPOXMLDOC01-appb-M000012
 以上の議論から、最適方策を求める問題は、最適価値関数を求める問題へと帰着される。
 状態遷移確率と報酬関数が既知であれば、最適価値関数は価値反復法(Value Iteration)、方策反復法(Policy Iteration)、あるいは線形計画法を用いる方法などのプランニングアルゴリズムを用いることで得られる。状態遷移確率と報酬関数が未知であれば、Q学習やSARSA法、アクタークリティック法などのRLアルゴリズムを用いて最適価値関数を推定することができる。なお、以下の議論では最適価値関数を価値関数と略称することがあるが、両者は同義である。
 <分布強化学習(DRL)について>
 上記したように、通常の強化学習では収益の期待値を表す価値関数を推定する。一方、DRLでは、収益の確率分布を推定する。収益(累積割引和)を表すものとして記号ηを導入する。ηについて(23)が成り立つ。
Figure JPOXMLDOC01-appb-M000013
 収益は、確率的に揺らいで定まる遷移の系列から決まる値であり、確率変数である。これを確率変数Eで表すこととすると、収益の確率分布(収益分布)は式(24)で表現できる。
Figure JPOXMLDOC01-appb-M000014
 この収益分布は式(25)の分布ベルマン方程式を満たす。
Figure JPOXMLDOC01-appb-M000015
 Bπは分布ベルマンオペレータである。非特許文献3,4では、この分布ベルマン方程式をベースとして収益分布を推定する手法を構築している。
 パラメトリック推定(非特許文献4)では、収益分布を表現するパラメタθをもつモデル^P(正規分布やラプラス分布,非対称ラプラス分布など)のパラメタ推定問題を考える。このパラメタを、式(26)のような分布ベルマン方程式の左辺と右辺の確率分布のKullback Leiblar(KL)ダイバージェンスを小さくするように、学習する。
Figure JPOXMLDOC01-appb-M000016
 具体的には、TD学習のように(27)のパラメタ(θ′)と、(28)のパラメタ(θ)を別のものとして扱うと、KLダイバージェンスの偏微分が式(29)で与えられる。
Figure JPOXMLDOC01-appb-M000017
 このことから、式(30)のように、パラメタθを勾配法によって更新することを繰り返せば良い。
Figure JPOXMLDOC01-appb-M000018
 なお、自然勾配法のような勾配法以外の最適化手法を用いることも可能である。また、状態遷移確率と報酬関数が未知であるときは、分布ベルマンオペレータ中の遷移確率s′と報酬rの平均操作を厳密に行うことはできないが、エージェントと環境の相互作用の履歴(s,a,r,s′)を用いて(近似的に)計算することが可能である。
 具体的には、更新式を(31)のように修正すれば良い。
Figure JPOXMLDOC01-appb-M000019
 式(31)中の~Pは、利用する手法によって異なる。Q学習のようなオフポリシー学習型の手法を用いる場合には、式(32)のように設定すればよい。SARSA法のようなオンポリシー学習型の手法を用いる場合には、式(33)のように設定すればよい。
Figure JPOXMLDOC01-appb-M000020
 非特許文献4では、収益分布を表現するモデル^Pに、前記したように正規分布などのシンプルなモデルが利用される。これに代えて、ニューラルネットワークなどの複雑なモデルを利用することも可能である。事実、非特許文献1では、ここに示した手法とは少し異なるが、深層強化学習の代表的な手法であるDeep Q-networkを発展させ、収益分布を推定する手法が構築されている。
 (ノンパラメトリック推定)
 非特許文献3では、収益分布を表現するために粒子フィルタのアプローチが利用される。式(34)の収益分布を推定する。
Figure JPOXMLDOC01-appb-M000021
 この場合、モデル^を、各状態ごとにK個の粒子v={vs,1,…,vs,K}を用いて式(35)のように構築する。
Figure JPOXMLDOC01-appb-M000022
 環境との相互作用(s,a,r,s′)が得られたとき、ランダムに抽出した状態sのp番目の粒子と状態s′のq番目の粒子を用いて、(36)のように粒子を更新することを繰り返すことで、収益分布π を推定することができる。
Figure JPOXMLDOC01-appb-M000023
 <分位点を最大化する強化学習について>
上記の収益分布の推定を介することで、期待値に限らない統計量を最大化することを目指す強化学習手法を構築できる。例えば、非特許文献4では、分位点の最大化を行う手法が構築されている。この手法では、従来の価値関数に変わるものとして、収益分布の分位点を表す関数Qを式(37)のように定義し、利用する。
Figure JPOXMLDOC01-appb-M000024
 収益分布の推定値^Pπ を式(37)中の収益分布と置き換えたこの関数の推定値を、^Q(s,a;q,θ)と表記することとする。ノンパラメトリックな方法で収益分布を求めた場合は、θを{v}と置き換えれば良い。非特許文献4では、Q学習などでしばしば用いられるε-greedy方策やsoft-max方策の価値関数を、関数^Qに置き換えて行動を決定する方法が提案されている。例えば、soft-max方策を用いる場合には、各時刻で式(38)の方策に従って行動を決定すれば良い。
Figure JPOXMLDOC01-appb-M000025
 なお、^Q(s,a;q,θ)は多くの場合、容易に計算できる。例えば収益分布が正規分布N(η|μ,σ) で表現されている場合、式(39)を用いて計算できる。
Figure JPOXMLDOC01-appb-M000026
 上記のような、^Qを用いた方策による行動決定と収益分布の更新を各ステップで行う手法が、期待値に限らない統計量を最大化する強化学習手法、例えばq-Q学習やq-SARSA法である。
 <多目的マルコフ決定過程(MOMDP)について>
 MOMDPは、MDPにおける報酬関数Rを、(40)のように、ベクトル値を返す(M次元の)関数に置き換えることで定義される。
Figure JPOXMLDOC01-appb-M000027
 すなわち、MOMDPは、(41)により定義される。 
Figure JPOXMLDOC01-appb-M000028
 状態sにおいて行動aを実行することで得られる報酬の第m次元を、Rm(s,a)で表すこととする。エージェントと環境との相互作用も、報酬がベクトル値であること以外はMDPのそれと同じである。以下の説明では、時刻tに得られる報酬ベクトルを(42)で表し、時刻tまでの環境とエージェントとの相互作用の履歴を(43)で表す。
Figure JPOXMLDOC01-appb-M000029
 MOMDPでは、以下のベクトル値を返す価値関数Vπ(s)、Qπ(s,a)を用いる。それぞれ(44)、(45)のように表される。
Figure JPOXMLDOC01-appb-M000030
 これらの価値関数は、ベクトル値関数である。このため、スカラー値の関数とは異なり、順序関係(大小関係)を定義できない場合が存在する。例えば、ある状態sにおいて(46)が成り立つ場合、方策πとπ′のどちらが(この状態sにおける価値関数値が大きいという意味で)良いかを判断することができない。
Figure JPOXMLDOC01-appb-M000031
 従って、MOMDPでは、多目的関数の最適化で用いられるパレート最適の概念を利用し、パレート最適な方策を定義して、それを求めることを目標とする。
 <定義(パレート支配)>
 ある方策πとπ′が、任意の次元mに関して(47)が成り立ち、且つ、ある次元m′があって(48)が成り立つ時、方策πが方策π′をパレート支配する(または価値関数VπがVπ′をパレート支配する)と言い、(49)と表記する。
Figure JPOXMLDOC01-appb-M000032
 <定義(パレート解)>
 ある方策πに対してそれをパレート支配する方策が存在しない時、方策πをパレート最適な方策と称する。パレート最適な方策πの価値関数を、パレート最適な価値関数と称する。 
 一般に、パレート最適な方策は複数個存在する。そこで、パレート最適な方策の集合を以下のように定義する。
 <定義(パレート解集合とパレートフロント)>
 あるMOMDPにおけるパレート最適な方策の集合をパレート解集合という。パレート最適な価値関数の集合をパレートフロントという。
 <スカラー化関数について>
 MOMDPを解くアルゴリズムを構築するうえで、通常のMDPのように報酬がスカラーで与えられる状況で利用される手法を活用するアプローチが考えられており、そこで鍵となるのがスカラー化関数である。MOMDPにおけるスカラー化関数とは、ベクトル値の価値関数Vπ(s)を、式(50)のように、スカラー値のVπ (s)へスカラー化する関数Fのことである。(51)の線形スカラー化関数Fや、(52)の拡大チェビシェフスカラー化関数(の符号反転)Fがしばしば用いられる。
Figure JPOXMLDOC01-appb-M000033
 ただし、ベクトルv=(v1,…,vm)はM次元のベクトル、ベクトルwは重みベクトルである。zm、およびεの定義は後述する。線形スカラー化関数の場合に明らかなように、重みベクトルは各次元の選好度合い(Preference)を定めたものであると解釈できる。線形スカラー化関数を用いると、(53)と書けることから、価値関数Vπ (s)が(任意の状態sで)最大となる方策を求めることは、(54)の報酬関数をもつ(報酬がスカラー値で与えられる通常の)MDPの最適方策を求めることと等しい。スカラー関数として、上記以外にもMinkowskiノルムに基づくものなどが利用されることもある。一般に、スカラー化関数としては、下記のように定義されるstrictly monotonically increasingである関数が利用される。
Figure JPOXMLDOC01-appb-M000034
 <定義(strictly monotonically increasing)>
 ある方策πが方策π′をパレート支配するならば,任意の重みベクトルwを用いたスカラー化関数Fで(55)が成り立つ時、スカラー化関数Fはstrictly monotonically increasingであるという。
Figure JPOXMLDOC01-appb-M000035
 定義から明らかなようにstrictly monotonically increasingな関数を用いて、MOMDPを通常のMDPのようにスカラー値を目的関数として解くことでパレート最適な方策および価値関数を求めることができる。(wiが全て正の)線形スカラー関数と拡大チェビシェフスカラー化関数はstrictly monotonically increasingである。
 拡大チェビシェフスカラー化関数におけるzmは価値関数の参照点や目標値などに相当し、固定した値を用いても良いし、学習途中で推定途中の価値関数Vπを用いて(56)のように更新される値が用いられることもある。
Figure JPOXMLDOC01-appb-M000036
 εは任意の正の値(一般には十分小さい値)であり、この和に関する項はstrictly monotonically increasingとなるために導入されている。また拡大チェビシェフスカラー化としては、上記の式から絶対値記号を外した式(57)が用いられる場合もある。
Figure JPOXMLDOC01-appb-M000037
 <MOMDPにおける強化学習アルゴリズム>
 MOMDPにおける強化学習アルゴリズムは、strictly monotonically increasingなスカラー値関数を用いて設計される。その手法は主に、single policyアプローチと称される方法と、multiple policyアプローチと称される方法とに分類される(非特許文献5)。
 single policyアプローチでは、基本的に、重みベクトルwを1つ定め、或る1つの(パレート)最適方策を求めることが行われる。パレート最適な方策の集合を求める必要がある場合には、(必要に応じてwの値を変えながら)複数回実行される。例えば、非特許文献6ではQ-Learningをベースにした手法を構築している。この手法ではベクトル値で表現される価値関数の推定値^Qを、以下に説明するような、環境との相互作用を通じて学習する。状態sにいるエージェントは、実行する行動aをスカラー化関数Fによりスカラー化した価値関数の推定値(式(58))を用いて、式(59)のように決定、実行し、報酬rを受け取り、次の状態s′へ遷移する。
Figure JPOXMLDOC01-appb-M000038
 なお、上記の行動決定においては、ε-greedy方策やsoft-max方策を利用しても良い。この1ステップの履歴(s,a,r,s′)を用いて、各次元ごとに、Q-learningに基づく更新式で、価値関数の推定値を式(60)に従い更新する。
Figure JPOXMLDOC01-appb-M000039
 ただし、αは学習率である。これを十分な回数繰り返すことで価値関数を推定することができる。
 非特許文献6では、(拡大)チェビシェフスカラー化関数を利用し、参照点zmを適応的に更新しながら価値関数を推定することで、固定したwを用いた場合であっても多様なパレート最適な方策が得られることが報告されている。実施形態で説明するMODRL手法は、このsingle policyアプローチの手法を発展させたものとみなすことができる。
 <概要>
 開示する技術は、MORLのように報酬が「スカラー値」ではなく「ベクトル値」で与えられる設定において、DRLのように「期待値に限らない任意の統計量」の最大化を行うことを行う、多目的分布強化学習(MODRL: Multi-Objective Distributional RL)である。
 MODRLを構築するにあたり、次の2点で既存の技術を発展させた。 
  (i)DRLでは、スカラーである報酬の割引和の確率分布を考えるため、推定する収益分布は1次元のものであるが、これを多次元分布の収益分布を推定するものへと拡張させる。 
  (ii)多次元の収益分布を用いて行動を決定する方策モデルを構築する。
 以下の説明では、MOMDPで多次元の報酬関数ではなく、多次元の報酬分布((61)に示す)が与えられているとする。
Figure JPOXMLDOC01-appb-M000040
 単純化のため、この報酬分布は各次元ごとに独立にPと書ける状況を考えるが、本発明はこのケースに限定されるものではない。
 PRm(rm|s、a、s′)が状態sから行動aで状態s′に遷移する時に得られる報酬rのm次元要素rmが従う確率分布(密度関数)を表す。
 まず多次元の収益分布の推定について説明する。収益ベクトルを(62)の記号で表す。収益ベクトルについて(63)が成り立つ。
Figure JPOXMLDOC01-appb-M000041
 収益ベクトルは、確率的に揺らいで定まる遷移の系列から決まる値であり、確率変数である。これを式(64)の確率変数で表すこととすると、収益ベクトルのm次元要素が従う確率分布(収益分布)は式(65)で表現できる。
Figure JPOXMLDOC01-appb-M000042
 この収益分布は、式(66)の分布ベルマン方程式を満たす。
Figure JPOXMLDOC01-appb-M000043
 これは、式(25)において(67)のように置き換えたものに相当する。
Figure JPOXMLDOC01-appb-M000044
 収益分布を表すモデルとして、各次元ごとに独立なモデル(式(68)に示す)を用いることとすれば、パラメタθmの推定は各次元ごとに独立に行えるので、報酬がスカラー値で与えられる既存のDRLの手法を利用して、(69)の量を推定することができる。
Figure JPOXMLDOC01-appb-M000045
 具体的には、式(31)と同様に、環境の相互作用((70)に示す)に基づき、(71)のようにパラメタθmを更新すれば良い。
Figure JPOXMLDOC01-appb-M000046
 次に、多次元の収益分布を用いた方策モデルについて説明する。ここでは、スカラーの報酬を扱うDRLの既存研究と同様、多次元の分位点を表す(72)の関数を用いることを考える。
Figure JPOXMLDOC01-appb-M000047
 他の統計量も(72)の関数の定義を変えることで、同様に取り扱うことが可能である。
 収益分布の推定値^Pπ Emを、式(73)中の収益分布Pπ Emと置き換えて得られる、関数(72)の推定値を(74)のように表記する。
Figure JPOXMLDOC01-appb-M000048
 関数(72)は多次元であるから、MOMDPにおいて多次元の価値関数を考えた時と同様に、順序関係を導入することができない。そこで、MOMDPと同様に、スカラー化関数Fを用いて行動を決定することとする。あるスカラー関数Fと重みベクトルwでスカラー化した関数を、(75)のように表記する。(75)は、(76)のように表される。
Figure JPOXMLDOC01-appb-M000049
 スカラー関数としては、線形スカラー化関数、または拡大チェビシェフスカラー化関数を利用できる。他にも、strictly monotonically increasingなスカラー化関数を利用すればパレート最適解を得られることが期待できる。これを用いて、MOMDPと同様にε-greedy方策やsoft-max方策などの方策モデルを用いて行動を決定すれば良い。例えば、soft-max 方策を用いる場合には、各時刻で式(77)の方策に従って行動を決定すれば良い。
Figure JPOXMLDOC01-appb-M000050
 これによって、MORLのように報酬が「スカラー値」ではなく「ベクトル値」で与えられる設定において、DRLのように「期待値に限らない任意の統計量」の最大化を行うことのできるMODRLが構築できた。 
 図1に、実施形態に係わるMODRLのアルゴリズムの擬似コードの一例を示す。以上の議論を基礎として、次に、本発明の実施の形態について説明する。
 [一実施形態]
 (構成)
 図2は、この発明の一実施形態に係る方策推定装置1の一例を示す機能ブロック図である。方策推定装置1は、MODRLアルゴリズムにより意思決定主体(エージェント)の意思決定則(方策)を最適化し、推測するもので、例えば、パーソナルコンピュータやサーバコンピュータにより構成される。
 図2において、方策推定装置1は、操作端末などの外部装置2に接続されるインタフェース部50、SSD(Solid State Drive)やHDD(Hard Disk Drive)等の記憶部としてのストレージ40、ROM(Read Only Memory)、RAM(Random Access Memory)等のメモリ60、プロセッサ70、およびこれらを接続するバス80を備える。
 ストレージ40は、MOMDPパラメタ41を記憶するエリア(第1エリア、第2エリア)、設定パラメタ42を記憶するエリア(第3エリア)、実行結果43を記憶するエリア、および、プログラムを記憶するエリアを備える。MOMDPパラメタ41を記憶するエリアには、併せて、実施形態に係わるシミュレータが記憶される。シミュレータは、エージェントの状態と行動に対して報酬ベクトルと次の時刻のエージェントの状態を返す。このシミュレータは、多目的マルコフ決定過程(MOMDP)との相互作用を記述する。
 設定パラメタ42は、報酬がベクトル値で与えられる設定において任意の統計量(例えば期待値)を最大化するアルゴリズムを実行する際の設定パラメタである。実施形態では、図1に示されるアルゴリズム(MODRLアルゴリズム)実行する際の設定パラメタを、設定パラメタ42のエリアに記憶する。
 プロセッサ70は、ストレージ40からメモリ60にロードされたプログラムに記載された命令に従って情報を処理する、例えばCPU(Central Processing Unit)やMPU(Micro Processing Unit)等の演算素子である。
 プロセッサ70は、実施形態に係わる処理機能として、入力パラメタ処理部10、MODRLアルゴリズム実行部20、および、実行結果処理部30を備える。 
 入力パラメタ処理部10は、上記シミュレータ、MOMDPのパラメタ、および設定パラメタをストレージ40に記憶させる。
 MODRLアルゴリズム実行部20は、シミュレータ、MOMDPのパラメタ、および設定パラメタをストレージ40から取得し、MODRLアルゴリズムに基づいて方策を最適化する関数を生成する。
 実行結果処理部30は、MODRLアルゴリズム実行部20により生成された関数を、外部装置2等に出力する。また、実行結果処理部30は、上記生成された関数を用いて計算される方策モデルの最終結果を出力する。
 (作用)
 次に、実施形態に係わる方策推定装置1の作用を説明する。 
 図3は、図2に示される方策推定装置1の処理手順の一例を示すフローチャートである。図3において、プロセッサ70は、MOMDPとの相互作用を記述するシミュレータをストレージ40に記憶させる(ステップS1)。次にプロセッサ70は、MOMDPのパラメタ(割引率γ)をストレージ40に記憶させる(ステップS2)。次にプロセッサ70は、アルゴリズム実行時のパラメタ(利用するスカラー化関数F、重みベクトルw、収益分布のモデル^P、分位点q、方策モデルπ、方策モデルのパラメタβ、その他利用する最適化手法や学習率の設定など)を、ストレージ40に記憶させる(ステップS3)。
 次にプロセッサ70は、シミュレータ、および、割引率γや設定パラメタを含む各パラメタをストレージ40から読み出し(ステップS4)、図1に示されるRLアルゴリズムにより、方策を最適化するための関数^Qを生成する(ステップS5)。このステップでは、生成された関数を用いて方策モデルを計算しても良い。
 次にプロセッサ70は、生成された関数関数^Q、または、生成された関数を用いて計算された方策モデルなどを出力するとともに(ステップS6)、MODRLアルゴリズムによる演算結果をストレージ40に記憶させる(実行結果43)。
 なお、ここではMODRLアルゴリズムとして分位点を利用して定義される関数の最適化をする例を示したが、収益分布から計算可能な任意の統計量を用いることができる。また、収益分布のモデルには正規分布やラプラス分布、非対称ラプラス分布、混合分布、ニューラルネットワークを使って定義される分布などのパラメトリックモデルやノンパラメトリックモデルなど任意の分布を用いることができる。また、収益分布のパラメタの更新には、勾配法や自然勾配法、深層学習で用いられる最適化手法であるAdamなど、任意の最適化手法を用いることができる。
 (効果)
 以上述べたように、実施形態によれば、報酬が「スカラー値」ではなく「ベクトル値」で与えられる設定において、DRLのように「期待値に限らない任意の統計量」の最大化を行うことを行う多目的分布強化学習(MODRL:Multi-Objective Distributional RL)を構築することが可能になる。すなわち実施形態によれば、推定する収益分布を多次元分布の収益分布を推定するものへと拡張させ、多次元の収益分布を用いて行動を決定する方策モデルを構築することができる。
 なお、この発明は上記実施形態に限定されるものではない。例えば実施形態では、収益分布をパラメトリックモデルで推定する例について説明した。これに限らず、ノンパラメトリックモデルを用いても良い。また、ニューラルネットワークなどの複雑なモデルを用いる場合、収益分布のパラメタの更新には、Adamなどの深層学習で用いられる最適化手法を用いてもよい。
 また、方策推定装置1が備える各機能部を複数の装置に分散して配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。
 さらに、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。また、以上で説明した一連の処理は、時間的に連続して実行される必要はなく、各ステップは任意のタイミングで実行されてもよい。
 また、プロセッサ70は、例えばASIC(Application Specific Integrated Circuit)やFPGA(field-programmable gate array)などの集積回路を含む、他の多様な形式で実現されてもよい。
 上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体(または記憶媒体)に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体の例は、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD-ROM、DVD-Rなど)、光磁気ディスク(MOなど)、半導体メモリを含む。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ(サーバ)上に格納し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
 その他、具体的なアルゴリズムの種類たニューラルネットワークの構成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
 実施形態に係わる方策推定装置は、各構成要素の動作をプログラムとして構築し、方策推定装置として利用されるコンピュータにインストールして実行させる、またはネットワークを介して流通させることが可能である。本発明は上記の形態に限定されることなく、種々変更・応用が可能である。
 要するにこの発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
 1…方策推定装置
 2…外部装置
 10…入力パラメタ処理部
 20…MODRLアルゴリズム実行部
 30…実行結果処理部
 40…ストレージ
 41…MOMDPパラメタ
 42…設定パラメタ
 43…実行結果
 50…インタフェース部
 60…メモリ
 70…プロセッサ
 80…バス。

 

Claims (6)

  1.  意思決定を行う主体であるエージェントの方策を推定する方策推定装置であって、
     プログラムを記憶する記憶部と、
     前記記憶部から前記プログラムをロードされるメモリと、
     前記メモリにロードされたプログラムに記載された命令に従って情報を処理するプロセッサとを具備し、
      前記記憶部は、
     前記エージェントの状態と行動に対して報酬ベクトルと次の時刻の前記エージェントの状態を返すものであって、多目的マルコフ決定過程(MOMDP)との相互作用を記述するシミュレータを記憶する第1エリアと、
     前記MOMDPのパラメタを記憶する第2エリアと、
     報酬がベクトル値で与えられる設定において任意の統計量を最大化するアルゴリズムを実行する際の設定パラメタを記憶する第3エリアとを備え、
      前記プロセッサは、
     前記シミュレータ、前記MOMDPのパラメタ、および前記設定パラメタを前記記憶部に記憶させる入力パラメタ処理部と、
     前記シミュレータ、前記MOMDPのパラメタ、および前記設定パラメタを前記記憶部から取得し、前記アルゴリズムに基づいて前記方策を最適化する関数を生成するアルゴリズム実行部と、
     前記生成された関数を出力する実行結果処理部とを備える、方策推定装置。
  2.  前記実行結果処理部は、前記関数を用いて計算される方策モデルの最終結果を出力する、請求項1に記載の方策推定装置。
  3.  前記統計量は、分位点である、請求項1に記載の方策推定装置。
  4.  前記アルゴリズムは、MODRLアルゴリズムである、請求項1に記載の方策推定装置。
  5.  プログラムを記憶する記憶部と、前記記憶部から前記プログラムをロードされるメモリと、前記メモリにロードされたプログラムに記載された命令に従って情報を処理するプロセッサを備えるコンピュータにより、意思決定を行う主体であるエージェントの方策を推定する方策推定方法であって、
     前記プロセッサが、前記エージェントの状態と行動に対して、報酬ベクトルと次の時刻の前記エージェントの状態を返すものであって、多目的マルコフ決定過程(MOMDP)との相互作用を記述するシミュレータを前記記憶部に記憶させることと、
     前記プロセッサが、前記MOMDPのパラメタを前記記憶部に記憶させることと、
     前記プロセッサが、報酬がベクトル値で与えられる設定において任意の統計量を最大化するアルゴリズムを実行する際の設定パラメタを前記記憶部に記憶させることと、
     前記プロセッサが、前記シミュレータ、前記MOMDPのパラメタ、および前記設定パラメタを前記記憶部から取得し、前記アルゴリズムに基づいて前記方策を最適化する関数を生成することと、
     前記プロセッサが、前記生成された関数を出力することとを具備する、方策推定方法。
  6.  請求項1乃至請求項4の何れか1項に記載の装置の各部による処理を前記プロセッサに実行させる、プログラム。

     
PCT/JP2021/019430 2021-05-21 2021-05-21 方策推定装置、方策推定方法、およびプログラム WO2022244260A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/019430 WO2022244260A1 (ja) 2021-05-21 2021-05-21 方策推定装置、方策推定方法、およびプログラム
JP2023522180A JP7552892B2 (ja) 2021-05-21 2021-05-21 方策推定装置、方策推定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/019430 WO2022244260A1 (ja) 2021-05-21 2021-05-21 方策推定装置、方策推定方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2022244260A1 true WO2022244260A1 (ja) 2022-11-24

Family

ID=84140378

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/019430 WO2022244260A1 (ja) 2021-05-21 2021-05-21 方策推定装置、方策推定方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP7552892B2 (ja)
WO (1) WO2022244260A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793717A (zh) * 2023-02-13 2023-03-14 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DABNEY, WILL ET AL.: "Distributional Reinforcement Learning with Quantile Regression", ARXIV.ORG, 27 October 2017 (2017-10-27), pages 1 - 14, XP093011448, Retrieved from the Internet <URL:https://arxiv.org/pdf/1710.10044.pdf> [retrieved on 20210811] *
RYOSUKE SAITAKE, SHOTA TAKEKI, YUKIYO ARAI: "Comprehensive discovery method of Pareto optimal policy by Chebyshev scalarization of expected reward vector", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. 9, 1 September 2018 (2018-09-01), JP , pages 1276 - 1285, XP009541567, ISSN: 1881-0225, DOI: 10.14923/transinfj.2017SAP0012 *
TAKUMI UEOKA, EIJI UCHIBA, KENJI DOYA: "Multiobjective Reinforcement Learning based on Multiple Value Functions", IEICE TECHNICAL REPORT, NC, vol. 105, no. 658 (NC2005-146), 9 March 2006 (2006-03-09), JP, pages 127 - 132, XP009541569 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115793717A (zh) * 2023-02-13 2023-03-14 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质
CN115793717B (zh) * 2023-02-13 2023-05-05 中国科学院自动化研究所 群体协同决策方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JPWO2022244260A1 (ja) 2022-11-24
JP7552892B2 (ja) 2024-09-18

Similar Documents

Publication Publication Date Title
US11544535B2 (en) Graph convolutional networks with motif-based attention
Valdez et al. Comparative study of the use of fuzzy logic in improving particle swarm optimization variants for mathematical functions using co-evolution
Chen et al. Non-linear system identification using particle swarm optimisation tuned radial basis function models
Arani et al. An improved PSO algorithm with a territorial diversity-preserving scheme and enhanced exploration–exploitation balance
Abd-Alsabour A review on evolutionary feature selection
CA3131688A1 (en) Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
Shin et al. Search performance improvement of particle swarm optimization by second best particle information
JP7059458B2 (ja) 生成的敵対神経網ベースの分類システム及び方法
US20200334565A1 (en) Maximum entropy regularised multi-goal reinforcement learning
Kurek et al. Heterogeneous team deep Q-learning in low-dimensional multi-agent environments
Suresh et al. A sequential learning algorithm for meta-cognitive neuro-fuzzy inference system for classification problems
WO2022244260A1 (ja) 方策推定装置、方策推定方法、およびプログラム
Lu et al. Adaptive online data-driven closed-loop parameter control strategy for swarm intelligence algorithm
Zhang et al. A hybrid alternate two phases particle swarm optimization algorithm for flow shop scheduling problem
CN116210010A (zh) 用于评估工程系统的一致性的方法和系统
Hung Robust Kalman filter based on a fuzzy GARCH model to forecast volatility using particle swarm optimization
Pilát et al. Hypervolume-based local search in multi-objective evolutionary optimization
JP7310941B2 (ja) 推定方法、推定装置及びプログラム
dos Santos Coelho et al. Nonlinear system identification based on B-spline neural network and modified particle swarm optimization
Duell et al. Ensembles for Continuous Actions in Reinforcement Learning.
Atyabi et al. Adapting subject-independent task-specific EEG feature masks using PSO
Alfano et al. Meta-learning the mirror map in policy mirror descent
Hwang et al. Induced states in a decision tree constructed by Q-learning
Singh et al. Application of quantum computing based artificial intelligence algorithm for business development
JP6938259B2 (ja) 生成装置、生成方法、及び生成プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21940871

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023522180

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21940871

Country of ref document: EP

Kind code of ref document: A1