WO2019216427A1

WO2019216427A1 - リスク指標評価装置、リスク指標評価方法及びプログラム

Info

Publication number: WO2019216427A1
Application number: PCT/JP2019/018806
Authority: WO
Inventors: 新一前田
Original assignee: 株式会社ＰｒｅｆｅｒｒｅｄＮｅｔｗｏｒｋｓ
Priority date: 2018-05-11
Filing date: 2019-05-10
Publication date: 2019-11-14

Abstract

パラメータを自動的に設定するとともに信頼性の高いリスク指標を評価できるリスク指標評価装置を提供する。リスク指標評価装置は、入力された状態データをサンプリングする、データサンプリング部と、サンプリングされた状態データから当該状態データに対応するリスクの指標である状態リスク値を計算する、リスク計算部と、サンプリングされた前記状態データと、当該サンプリングされた前記状態データから計算された前記状態リスク値と、に基づいて、新たな状態に関する前記状態リスク値を近似する関数である状態リスク関数を生成する、状態リスク関数近似部と、生成された前記状態リスク関数に基づいて、前記新たな状態に対する状態リスク値をリスク指標として出力する、出力部と、を備える。

Description

リスク指標評価装置、リスク指標評価方法及びプログラム

　本発明は、リスク指標評価装置、リスク指標評価方法及びプログラムに関する。

　車輪型移動ロボット、ＵＡＶ（Unmanned Aerial Vehicle）やＡＵＶ（Autonomous Underwater Vehicle）などのロボット、プラント、自動車などを自動制御する際、安全性や品質を保証するためのリスクコントロールを行いつつ、所望の成果を達成することがしばしば必要になる。屋内用の車輪型移動ロボットの自動制御であれば、移動ロボットを安全に制御するために、自己のロボットと周囲の物体（たとえば、壁や床の状況、家具、人、他の移動ロボットまでの方向や距離、さらに人、他の移動ロボットなどの移動物体の場合、それらの姿勢、移動速度、死角からの出現など）の状態変化を予測して衝突を避けながら、効率良く目的を達成する制御を行う必要がある。

　周囲の物体が、動かない静止物体の場合、そこを通らないようなプランニングを行うことで衝突を避けることができるが、人や移動ロボットなどの移動物体の場合、将来の動きを考慮して適切に衝突リスクを評価する必要がある。しかしながら、移動物体と自己のそれぞれの姿勢や向き、位置、速度の組み合わせは多様であり、さらに将来の移動物体の動きは必ずしも決定論的には決まらず不確実性を持つ。多様な状態のそれぞれで、どうリスクを評価すべきかを人手で設計するのは困難であり、対応できない状態を生じさせてしまう恐れがある。

　この問題に関連する既存のアプローチには、様々な手法があるが、それぞれに課題を抱えている。移動物体の動きうる範囲をオフラインで計算しておき、それをプランニングに活用するアプローチをとっている。確率勾配法によって方策を直接、最適化している。しかし、２次元もしくは３次元空間上に位置する複数の物体がそれぞれ状態遷移する場合、考慮すべき状態が膨大になり、オフラインでの計算を行うことが不可能になったり、計算コストがかかりすぎたりしてしまう。また、確率勾配法による最適化も同様に、複数の物体の状態遷移を想定する場合、学習に必要になるサンプルが膨大になるため、学習にかかる計算コストが大きくなりすぎて収束しなかったりする。

　移動物体の運動を等速直線運動や等加速運動などの決定論的な運動に限定する場合は、それ以外の動きに対するリスクを適切に評価できない。また、移動物体の周囲にマージンをもうける場合は、どのようなマージンをもうけるかのパラメータ設計を行う必要がある。パラメータを人間が設定する方法では、パラメータの設定が難しく、さらには良いパラメータが得られる保証がない。サンプリングによるシミュレーションを行ってパラメータを決定する手法では、計算時間がかかりオンラインでリスク評価をおこなうことができなくなる問題が生じうる。

　そこで、本発明は、信頼性の高いリスク指標を評価できるリスク指標評価装置を提供する。

　一実施形態に係るリスク評価装置は、入力された状態データをサンプリングする、データサンプリング部と、サンプリングされた状態データから当該状態データに対応するリスクの指標である状態リスク値を計算する、リスク計算部と、サンプリングされた前記状態データと、当該サンプリングされた前記状態データから計算された前記状態リスク値と、に基づいて、新たな状態に関する前記状態リスク値を近似する関数である状態リスク関数を生成する、状態リスク関数近似部と、生成された前記状態リスク関数に基づいて、前記新たな状態に対する状態リスク値をリスク指標として出力する、出力部と、を備える。

一実施形態に係るリスク指標評価装置の機能を示すブロック図。一実施形態に係るリスク指標評価装置のデータセットを生成する処理の流れを示すフローチャート。一実施形態に係る学習を行う１エピソードを示す図。一実施形態に係るパラメータ自動決定の処理の流れを示すフローチャート。一実施形態に係るリスク指標評価装置の機能の別の例を示すブロック図。一実施形態に係るパラメータ自動決定の別の例の処理の流れを示すフローチャート。一実施形態に係る処理の流れを示すフローチャート。

　以下、図面を参照して本発明の実施形態についてより詳しく説明する。本実施形態は、本発明を限定するものではない。なお、各図において同等の機能を有する構成要素には同一の符号を付し、同一の構成要素の詳しい説明は繰り返さない。

　本実施形態に係るリスク指標評価装置は、例えば、移動ロボットの自動制御を行う場合等におけるモーションプランニングを想定し、自己のロボットが人間や他のロボット等との衝突等の衝突リスクを評価する。このリスク指標評価装置を用いることで、与えられた制御方策が一定以上のリスクを避けることができるかどうかを判断できるため、一定以上のリスクを避ける条件のもとで与えられたタスクを達成するのに経済的かつ効率的な制御を行う方策の獲得に役立たせることができる。

　（問題設定）
　まず、評価の対象となる値について説明する。リスク指標評価装置は、リスク（衝突事故等）を評価する。一方で、タスク達成のための望ましい状態や経済的な制御の度合いを報酬として表現し、必ず一定以下に抑えることが必要となるリスクと区別して表現する。以下の説明においては、各時刻ｔにおいて、リスクとして衝突等の事故の危険度をｄ_ｔとする。危険度ｄ_ｔは、０以下の値とし、その大きさで避けるべきリスクの重大さを表現する。例えば、速い速度での正面衝突＜遅い速度での正面衝突＜軽微な衝突（かすり傷）＜衝突ギリギリの接近＜０とする。報酬は、正の値とし、その大きさにより、達成するべき望ましい状態や経済的な制御の度合いを表現する。

　ｍをコントロール可能な自己のロボットの状態、ｅをコントロール可能ではない環境の状態を示すものとする。状態遷移確率ｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）は時刻ｔにおける自己のロボットに対する制御入力ａ_ｔを用いて、ｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）＝ｐ（ｅ_ｔ＋１｜ｅ_ｔ，ｍ_ｔ）ｐ（ｍ_ｔ＋１｜ｍ_ｔ，ａ_ｔ）のように表すことができる。時刻ｔからＴまでの状態の系列をｓ_ｔ：Ｔ、制御の系列をａ_ｔ：Ｔ、危険度の系列をｄ_ｔ：Ｔ、報酬の系列をｒ_ｔ：Ｔとそれぞれ表すとして、これらの系列の同時分布ｐ（ｓ_ｔ：Ｔ，ａ_ｔ：Ｔ，ｄ_ｔ：Ｔ，ｒ_ｔ：Ｔ）が、ｐ（ｓ_ｔ：Ｔ，ａ_ｔ：Ｔ，ｄ_ｔ：Ｔ，ｒ_ｔ：Ｔ）＝ｐ（ｓ_１）｛Π_ｔ－１ ^Ｔ－１ｐ（ｄ_ｔ，ｒ_ｔ｜ｓ_ｔ，ａ_ｔ，ｓ_ｔ＋１）ｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）ｐ（ａ_ｔ｜ｓ_ｔ）｝ｐ（ａ_Ｔ，ｓ_Ｔ）のように表すことができる場合、環境ｅが自己のロボットの制御ではコントロール可能ではなくとも、観測可能であり、かつ、ｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）が時刻ｔによらない定常な分布であれば、定常なマルコフ決定過程（ＭＤＰ：Markov Decision Process）であると言える。ｍやｅに死角や遮蔽によって観測できない部分がある場合、部分観測マルコフ決定過程（ＰＯＭＤＰ：Partially Observable MDP）である。以下、状態が観測される過程としてＭＤＰの環境下におけるものとして説明し、ＰＯＭＤＰ環境下での計算については後述する。

　（状態評価関数）
　危険度ｄ_ｔを負の報酬とみなして、報酬ｒ_ｔと和をとった合計値の時刻ｔからＴまでの系列の和の分布ｐ（ｓ_ｔ：Ｔ，ａ_ｔ：Ｔ，ｄ_ｔ：Ｔ，ｒ_ｔ：Ｔ）に関する期待値が最大になるよう制御を行った場合、高い危険度ｄ_ｔを生じさせてしまう制御が含まれてしまう可能性を排除できない。期待値をとらずに環境ｅの状態遷移確率が常に危険度ｄ_ｔの絶対値が最大となる最悪ケースを想定した場合、過剰に保守的な制御を行ってしまい、報酬ｒ_ｔが低くなる可能性がある。そこで、衝突事故リスクを回避しつつ、目的地への素早い移動などのタスク達成を両立させるように、複数の状態評価関数を使用する。

　ｄ_ｔ＜δの事象を避けるべき事故とし、時刻ｔで状態ｓ_ｔについて行動ａ_ｔをとり、その後に方策πにしたがった場合について考える。この場合の事故リスクＲ_δ ^πを、Ｒ_δ ^π（ｓ_ｔ，ａ_ｔ）≡Ｐ^π（ｍｉｎ_ｋ≧ｔｄ_ｋ＜δ｜ｓ_ｔ，ａ_ｔ）と表す。一方、累積報酬和Ｑ^πを、Ｑ^π（ｓ_ｔ，ａ_ｔ）≡Ｅ^π［Σ_ｋ＝１ ^∞γ^ｋ－ｔｒ_ｋ｜ｓ_ｔ，ａ_ｔ］と表す。ここで、Ｅ^π［・｜ｓ_ｔ，ａ_ｔ］は、状態ｓ_ｔにおいて、行動ａ_ｔを選択し、それ以降は方策πにしたがった制御を行った場合の期待値を表す。強化学習においては、Ｖ^π（ｓ_ｔ）≡Ｅ^π［Σ_ｋ＝１ ^∞γ^ｋ－ｔｒ_ｋ｜ｓ_ｔ］と定義され、Ｖ^π（ｓ_ｔ）＝Ｅ^π［Ｑ^π（ｓ_ｔ，ａ_ｔ）｜ｓ_ｔ］という関係になる。状態ｓ_ｔは、例えば、２次元空間、又は、３次元空間の位置を示し、さらにはこれには限定されず、速度、加速度、トルク、重量、等、物体の状態（物理量）を示す多次元の量である。状態ｓ_ｔの内容により、表現できる状態及び出力されるリスクを様々なバリエーションとして拡張することが可能である。例えば、物体同士の衝突等を示すリスクのみならず、電波、音、光等、リスクの対象となり得る現象についても記述することが可能である。

　γは、割引率と呼ばれる定数であり、０≦γ＜１を満たす。γ＜１とすることにより、次の制御によって、同じ衝突を起こすとしても、例えば、３分後に起こす衝突の影響を、１時間後に起こす衝突の影響よりも重視することができる。

　最適な方策にしたがった場合の衝突リスク及び累積報酬和をそれぞれ、Ｒ_δ ^＊（ｓ_ｔ，ａ_ｔ）＝ｍｉｎ_πＲ_δ ^π（ｓ_ｔ，ａ_ｔ）＝Ｐ^＊（ｍｉｎ_ｋ≧ｔｄ_ｋ＜δ｜ｓ_ｔ，ａ_ｔ）、Ｑ^＊（ｓ_ｔ，ａ_ｔ）＝ｍａｘ_πＱ^π（ｓ_ｔ，ａ_ｔ）と定義する。これらの状態リスク、状態価値という２種類の状態評価関数を用いて以下のような行動選択を行う。

　＜第１手法＞
　第１手法では、リスクと報酬とを考慮し、２段階の選択を行う。例えば、安全である場合と、安全ではない場合について別の選択を行う。以下、φを空集合とする。また、ａｒｇｍｉｎ及びａｒｇｍａｘは、ａ_ｔについてのｍｉｎ及びｍａｘを考慮するものとする。

　安全である場合、すなわち、リスクＲ_δ ^＊（ｓ_ｔ，ａ_ｔ）をε以下に抑えられる制御入力が存在する（｛ａ_ｔ｜Ｒ_δ ^＊（ｓ_ｔ，ａ_ｔ）＜ε｝≠φ）場合、平均報酬が最も高くなる制御を行う。例えば、ａ_ｔ＝ａｒｇｍａｘ［Ｑ^＊（ｓ_ｔ，ａ_ｔ）］（ただし、ａ_ｔ∈｛ａ_ｔ’｜Ｒ_δ ^＊（ｓ_ｔ，ａ_ｔ’）＜ε｝）を選択する。

　安全ではない場合、すなわち、リスクＲ_δ ^＊（ｓ_ｔ，ａ_ｔ）をε以下に抑えられる制御入力が存在しない（｛ａ_ｔ｜Ｒ_δ ^＊（ｓ_ｔ，ａ_ｔ）＜ε｝＝φ）場合、リスクが最も低くなるように制御を行う。例えば、ａ_ｔ＝ａｒｇｍｉｎ［Ｒ_δ ^＊（ｓ_ｔ，ａ_ｔ）］を選択する。

　＜第２手法＞
　第２手法では、リスクと報酬とを考慮し、３段階の選択を行う。例えば、とても安全である場合と、とても安全であるとは言えない場合と、安全ではない場合について別の選択を行う。

　とても安全である場合、すなわち、リスクＲ_δ ^＊（ｓ_ｔ，ａ_ｔ）をε_１以下に抑えられる制御入力が存在する（｛ａ_ｔ｜Ｒ_δ ^＊（ｓ_ｔ，ａ_ｔ）＜ε_１｝≠φ）場合、平均報酬が最も高くなる制御を行う。例えば、ａ_ｔ＝ａｒｇｍａｘ［Ｑ^＊（ｓ_ｔ，ａ_ｔ）］（ただし、ａ_ｔ∈｛ａ_ｔ’｜Ｒ_δ ^＊（ｓ_ｔ，ａ_ｔ’）＜ε_１｝）を選択する。

　とても安全であるとは言えない場合、すなわち、リスクＲ_δ ^＊（ｓ_ｔ，ａ_ｔ）をε_１以下に抑えられる制御入力は存在しないが、リスクＲ_δ ^＊（ｓ_ｔ，ａ_ｔ）をε_０以下に抑えられる制御入力は存在する場合、適度にリスク回避をする制御を行う。例えば、ａ_ｔ＝ａｒｇｍｉｎ［ｗＲ_δ ^＊（ｓ_ｔ，ａ_ｔ）－（１－ｗ）Ｑ^＊（ｓ_ｔ，ａ_ｔ）］（ただし、ａ_ｔ∈｛ａ_ｔ’｜Ｒ_δ ^＊（ｓ_ｔ，ａ_ｔ’）＜ε_１｝、０＜ｗ＜１）を選択する。

　安全ではない場合、すなわち、リスクＲ_δ ^＊（ｓ_ｔ，ａ_ｔ）をε_０以下に抑えられる制御入力が存在しない（｛ａ_ｔ｜Ｒ_δ ^＊（ｓ_ｔ，ａ_ｔ）＜ε_０｝＝φ）場合、リスクが最も低くなるように制御を行う。例えば、ａ_ｔ＝ａｒｇｍｉｎ［Ｒ_δ ^＊（ｓ_ｔ，ａ_ｔ）］を選択する。

　第１手法、第２手法いずれにおいても、上記のような制御を行うためには、リスクＲ_δ ^＊（ｓ_ｔ，ａ_ｔ）と累積報酬和Ｑ^＊（ｓ_ｔ，ａ_ｔ）の計算が必要となる。以下、その計算方法について説明する。

　状態リスク（リスク）、状態価値（累積報酬和）はともに再帰的な方程式が成り立つ。状態価値関数は、Ｂｅｌｌｍａｎ方程式により表すことができる。すなわち、累積報酬和Ｑ^＊（ｓ_ｔ，ａ_ｔ）は、以下のように表される。

　本実施形態に係る問題設定の場合、取り得る行動に制約がかかるので、下記のように修正される。

　衝突リスクＲ_δ ^＊（ｓ_ｔ，ａ_ｔ）に対しても、以下の再帰的な方程式が成り立つ。

　同様に、方策πのもとでの衝突リスクＲ_δ ^＊（ｓ_ｔ，ａ_ｔ）については、以下の再帰方程式が成り立つ。ただし、１_ｔ ^δは、ｄ_ｔ＜δというイベント（衝突）が起きた場合に１、それ以外の場合に０となる確率変数を表す。

　この再帰方程式を繰り返し適用することにより、以下の式を得る。

　制御を行う観点からは、行動ａの関数であるとどう制御すべきか明確であるため、上述の式で考えることとなるが、関数による近似を行って学習を行う観点からは、入力変数の次元は小さい方が便利であるので、この数式の両辺において、ａ_ｔについての最小値をとり、状態リスク関数Ｒ_δ ^＊（ｓ_ｔ）を以下のように定義する。

　この状態リスク関数から行動リスク関数への復元は、以下の式により行う。

　上記のように表すことが可能であるため、強化学習を用いることでリスク関数を計算することが可能となる。あるいは、十分大きな時刻ＴにおいてはＲ_δ ^π（ｓ_Ｔ＋１，ａ_Ｔ＋１）をゼロと近似すれば、通常の動的計画法（ＤＰ：Dynamic Programming）やモンテカルロ法を用いることで状態リスク値を計算することが可能となる。すなわち、報酬としてｄ_ｔ＜δの場合は１、それ以外の場合は０となる二値の確率変数を考えた場合の平均評価とほぼ同等なものとなる。通常の平均評価と異なるのは、割引率γの代わりに、Ｐ（ｄ_ｔ≧δ｜ｓ_ｔ，ａ_ｔ）が使用される点である。このように示された確率も、０から１の間の値となる。割引率と異なり、任意の状態ｓ_ｔで１未満であることは保証できないため、一様ノルムのもとで縮小写像とはいえないが、Ｌ_ｐ（１≦ｐ＜∞）ノルムに関しては縮小写像となる。

　動的計画法やモンテカルロ法で正確に状態リスク値を計算するには、計算時間がかかる。とくに、将来の時刻Ｔが大きい場合は計算量が大きくなる。そのため、リアルタイムでリスクを評価する必要がある場合など、限られた計算資源では計算が困難になる場合がある。その場合は、事前に多数の状態における状態リスク値を動的計画法やモンテカルロ法で求めて保存しておき、それを教師データとして、教師あり学習を行うことで、状態を入力として与えたときに出力として状態リスク値を出力する関数近似器を学習する。

モンテカルロ法で状態リスクを計算する場合、各状態でのリスクを確率的にサンプルし、それらの確率的にサンプルされたリスクの平均値で状態リスク値を算出する。教師あり学習で状態リスク関数を生成する場合、この確率的にサンプルされたリスクを教師ラベルとして教師データを構成してもよい。

　一度ｄ_ｔ＜δとなるイベントが発生すると、それ以降の状態に依らず状態リスク関数Ｒ_δ ^＊（ｓ_ｔ）は１に確定する。したがって、ｄ_ｔ＜δとなる危険度が発生した状態が終端状態となる。ただし、複数の物体を想定した多体の状態との衝突を考慮する場合には、状態数が膨大となり、動的計画法の適用は困難となる。

　動的計画法の計算量を減らすために、小さい状態空間で学習させた低次元の関数近似器の構築を行う。ここでの小さい状態空間とは、多体の状態を考えず、環境ｅにたかだか１台の移動物体（あるいは静止障害物）しか含まれない場合を想定した状態空間のことを言う。ここで、多体の状態のリスク関数は、当該小さい状態空間で構築されたリスク関数の和として表す。Ｎ体の移動物体（あるいは、静止障害物等）が存在するとし、ｎ（１≦ｎ≦Ｎ）番目の移動物体と衝突する２体間の危険度をｄ^ｎとする。また、Ｎ体の移動物体同士は独立に状態遷移するものとする。この場合、以下の式が成り立つ。この式は、１以下であるＰ（ｍｉｎ｛ｄ^１，・・・，ｄ^Ｎ｝＝ｄ^ｎ｜ｄ^ｎ＜δ）を１と仮定して上から抑えることにより、多体間の状態リスク関数の値が、それぞれの２体との状態リスク関数の和より小さくなることを保証する。すなわち、２体間の状態リスク関数の値の和から多体間の状態リスク関数の最悪評価ができることを意味する。

　２体間の状態空間の場合、多体間の状態空間に比べて状態空間が小さくなるため、計算量を減らすことができ、動的計画法を用いることが可能となる。動的計画法であれば、数値的に正確な解（数値解）が求められる。ただし、全ての取り得る状態における数値解を求めることは困難であるので、複数のサンプリングした状態で数値解を求め、その数値解に平均的に近づくような関数近似器を学習により取得する。

　状態数が多すぎる場合は、強化学習と同様のアプローチをとる。前述の通り、［数４］で示した式は、Ｂｅｌｌｍａｎ方程式と類似の方程式であり、Ｂｅｌｌｍａｎ方程式からＢｅｌｌｍａｎオペレータを定義するのと同様の手順で右辺をオペレータとして定義することが可能である。このオペレータは、一般にＬ_ｐ（１≦ｐ＜∞）ノルムについて縮小写像となるので、テーブル表現された関数の場合、動的計画法のように、確率的に生じるすべてのイベントを解析しなくとも、確率的に得られるサンプルから関数を更新していくことにより、［数６］を満たす関数へとＬ_ｐ（１≦ｐ＜∞）ノルムの意味で近づけることが可能である。このようなサンプルから更新する手法は、正確な状態遷移の確率を取得できない場合や、状態数が多い場合に使用することが可能である。

　（構成）
　リスク指標評価装置の構成について説明する。図１は、本実施形態に係るリスク指標評価装置１の機能の一例について概略的に示すブロック図である。リスク指標評価装置１は、入力部１０と、データサンプリング部１２と、リスク計算部１４と、データセット格納部１６と、状態リスク関数近似部１８と、近似性能評価部２０と、を備える。以下、リスクとなるイベントを物体同士の衝突として説明する。衝突以外の危険性がある場合には、当該危険性のあるイベントに変更して以下の説明を読み替えてもよい。

　入力部１０は、外部からの入力を受け付ける。入力部１０から入力されたデータは、適宜データを必要とする箇所へと送信される。入力されるデータは、例えば、自己のロボット自己ロボット及び他の移動物体等の状態を示すデータである。以下、上述した、「移動物体」、「障害物等」を併せて、他物体等と記載する。入力されるデータとは、学習フェーズにおいては、学習に必要となるデータであり、リスクの算出フェーズにおいては、例えば、リスクを算出したい状態に関するデータである。

　データサンプリング部１２は、入力部１０に入力された状態を示すデータ等をサンプリングする。例えば、連続的な状態データが入力された場合に、この連続的な状態データをサンプリングすることにより、離散化された状態データを生成する。別の例としては、入力されたデータのサンプリングレートを変換するようにしてもよい。

　リスク計算部１４は、衝突が起きる所定値δに対して、各時刻ｔにおける危険度ｄ_ｔ＜δとなる場合に衝突が起きるとして、［数３］乃至［数７］の記載の数式に基づいて状態リスク関数及び行動リスク関数を計算するモデルとして算出する。具体的には、リスク計算部１４は、ある状態に対応するリスク指標として状態リスク値を計算する。すなわち、このリスク計算部１４は、主にモデルを生成するフェーズにおいて動作する。なお、リスク算出フェーズにおいても、リスクを算出したい状態について並行してモデルを更新することも可能であり、このような場合には、リスク計算部１４は、リスク算出フェーズにおいて動作してもよい。また、このモデルは、あらかじめ定められた所定のしきい値（イベント発生値）を用いることにより、計算された危険度と、当該しきい値とを比較してリスク値を計算するものであってもよい。

　データセット格納部１６は、データサンプリング部１２により生成された状態と、リスク計算部１４により計算された状態リスク値とを紐付けて格納する。リスク計算部１４は、学習したモデルに基づいて、データサンプリング部１２から入力された離散化された状態から状態リスク値を算出し、状態と状態リスク値とを紐付けて格納する。

　状態リスク関数近似部１８は、データセット格納部１６に格納されている状態データに基づいて状態リスク値を近似する関数近似器を生成する。言い換えると、状態リスク関数近似部１８は、近似的に状態リスク値を算出することが可能な関数（関数近似器）を生成する。この関数近似器は、近似性能評価部２０へと状態リスク値を出力し、近似性能評価部２０からフィードバックされた評価値に基づき、状態リスク関数の精度を向上させる。例えば、［数６］におけるＲ_δ ^πの含まれる項は、データサンプリング部１２によって生成された複数の状態のそれぞれにおいて動的計画法により計算した状態リスク値をもとに、状態と状態リスク値のペアを格納したデータセット格納部１６のデータを良く近似できるように関数近似器のパラメータが自動決定される。

　近似性能評価部２０は、評価値を算出し、状態リスク関数近似部１８内の関数近似器の性能を評価する。時刻ｔ－１におけるサンプリングされた状態データを用いて状態リスク関数近似部１８により近似されたリスクＲハット（Ｒ＾）と、データセット格納部１６に格納されている時刻ｔ－１におけるリスクＲとを比較し、時刻ｔにおける環境ｅ_ｔを算出し、近似性能を評価する。状態リスク関数近似部１８と、近似性能評価部２０とは、互いに近似されたリスクと、環境の評価とを入出力し、状態リスク関数の最適化を実行する。

　出力部２２は、状態リスク関数近似部１８が生成した近似された状態リスク関数を外部へと出力する。出力は、例えば、人間が結果を見られるように出力するものであってもよいし、自動的に自己のロボットの動きを制御する信号を生成する制御部へと出力するものであってもよい。同様に、現在及び過去の状態ｓからパラメータを自動決定する場合には、入力部１０も制御部から状態ｓを入力されるものであってもよい。

　（動作）
　図２は、本実施形態における処理の流れを示すフローチャートである。データセットの生成フェーズの処理について、この図２を参照して説明する。

　まず、入力部１０を介してデータサンプリング部１２は、様々な状態に関する情報を取得し、適切な粒度でサンプリングを行う（ステップＳ１０）。データサンプリング部１２は、特に、危険度の高そうな状況の状態を取得し、サンプリングするようにしてもよい。

　２体間の状態空間は、一例として、以下のように定義する。環境ｅは、他物体の状態であると考える。この場合、状態ｓ（ｔ）は、以下のような微分方程式で記述される。

　ここで、ｓ（ｔ）は、連続時間ｔにおける状態を示し、ｕ（ｔ）＝（ａ_ｉ，ａ_ｉ ^ｅ）は、自己物体の制御ａ_ｉと、他物体の制御ａ_ｉ ^ｅとをまとめたものを示す。このＦ（ｓ（ｔ），ｕ（ｔ））がダイナミクスを規定する。なお、他物体の制御が確率的であるとの仮定の下に、上記の式は、確率微分方程式の一種と言えるが、確率変数は確率過程にしたがうというよりは、離散時刻での確率分布にしたがうと仮定することにより、通常の数値計算法で近似可能となる。以下、簡単のため、特に混乱が起こらない箇所においては、確率分布のことを、単純に確率と省略することがある。

　具体的には、離散時刻ｔ＝ｉでの自己のロボットの行動ａ_ｉを選択肢、他の移動物体の行動ａ_ｉ ^ｅは、自己のロボットの行動と無関係に確率的に選択される。自己のロボットと他の移動物体の行動は、次の離散時刻ｔ＝ｉ＋１まで同じ行動を選択し続けるものとする。この場合、単位区間ｉ≦ｔ＜ｉ＋１におけるダイナミクスは、以下のように示される。

　危険度ｄ_ｔは、この単位区間（例えば、０．６秒）に［数１０］で表されるダイナミクスにしたがって状態遷移した場合に生じるイベント（衝突）から算出される。以下に、各離散時刻内で取り得る行動を自己のロボット、他物体に分けて説明する。

　各離散時刻において、この例で考える自己のロボットの取り得る行動は、前進・停止制御と、方向転換制御の２種類である。この２種類のそれぞれの行動を離散化する。離散化は、リスク指標（状態リスク値）の学習と、報酬の学習とにおいて異なる粒度にしてもよい。例えば、状態リスク関数の学習用には、前進・停止制御と、方向転換制御とを［－４，－２，０，＋２，＋４］と離散化した値として取得する。一方で、同じ状態を、累積報酬関数の学習用には、［－４，－３，－２，－１，０，＋１，＋２，＋３，＋４］と離散化する。

　次に、リスク計算部１４は、リスク指標の学習を行うことにより最適化し、状態リスク関数のモデル化を行ってリスク指標の計算を行う（ステップＳ１２）。図３は、状態リスク関数学習時の１エピソードの制御スケジュールの一例を示す図である。各単位区間内は一定の制御を行い、単位区間の切り替わりにおいて、制限値に達していない限り、前進・停止制御と、方向転換制御のそれぞれが５通りの制御が選択可能である。この図３に示すように、例えば、前進・停止制御の単位時間と、方向転換制御の単位時間とを異なるものにしてもよい。

　他物体の時刻ｔにおける行動ａ_ｔ ^ｅを以下のように確率的に決定する。

　他物体の行動と自己のロボットの行動の組み合わせを考える場合、４．２秒後までで考えなければいけない状態分岐は大きくなるが、例えば、［数１１］のように確率的に決定されるようにすると、他物体の選択する行動は、０．８４の確率で直前と同じ行動であるため、ほとんどの場合において、直前と同じ行動となる。ＤＰで算出する状態リスク関数は、以下のように表される。

　状態リスク関数Ｒ_δ ^＊（ｓ_ｔ＋１）は、定義より、０から１までの間の数値となるため、この数値に掛けられる確率が小さくなるほど、その状態への遷移を近似的に０とすることが可能となる。ここで、状態遷移は行動が決まれば決定論的に以下のように表すことができる。

　このことから、状態遷移は、以下のように表すことが可能となる。

　上記の［数１４］においては、ａ_ｔ ^ｅ＝ａ_ｔ－１ ^ｅの場合に決定論的に遷移する状態を、ｓ_ｔ＋１＝ｓ_ｔ＋１ ^１とし、それ以外の状態を順次ｓ_ｔ＋１＝ｓ_ｔ＋１ ^ｋ（ｋ＝２，３，４，５）とした。このように、ａ_ｔ ^ｅ＝ａ_ｔ－１ ^ｅの場合以外（以下、マイナー状態と呼ぶ）、の状態遷移確率は小さく、マイナー状態遷移へは二回続けて遷移する確率は、メジャーな状態遷移確率に比べて十分小さい値となる。そのため、一度マイナーな状態遷移を行った場合、それ以降は、メジャーな状態遷移しか行わないと仮定しても、数値計算上は大きな問題はおこらない。学習すべき状態は、確率的に生成する。この確率的な生成においては、衝突しないような状態を生成してもリスクの学習に役立てられないため、ある程度、危険性の高い状態、例えば、最適に行動しても４回に１度程度は衝突が発生するような危険な状態を生成して学習に用いるのが望ましい。

　以上のように学習を行うことにより、（１）最大加速度・最大減速度、最大方向転換角度の制約、（２）衝突しないことが保証できている場合における制約、（３）衝突した場合における制約、の３つの制約を課すことにより、考慮すべき状態数を削減することが可能となる。（２）については、例えば、最大加速度のもと、４．２秒間で衝突しない位置及び速度である状態の学習を省略可能である。（３）については、衝突が起こったというイベントにおいて終端状態となるので、実質的に状態数を削減することができる。このようにすることにより、状態数を削減することが可能となり、学習の時間的及び演算能力的なコストを削減することが可能となる。

　リスク計算部１４は、［数１２］乃至［数１４］に示す最適化された状態リスク関数Ｒ（ｓ_ｔ）に基づいて、サンプリングされた状態ｓ_ｔから、Ｒ（ｓ_ｔ）を計算し、これら２つの値を紐付けてデータセット格納部１６へと格納する（ステップＳ１４）。

　図４は、データセット格納部１６に、上記の紐付けられたデータが格納された後のパラメータを自動決定する処理の流れを示すフローチャートである。この処理においては、状態リスク関数Ｒ_δ ^＊（ｓ_ｔ）を調整可能なパラメータをもつ関数近似器で表現し、そのパラメータを得られたデータがもっともよく再現できるように最適化を行う。

　状態リスク関数Ｒ_δ ^＊（ｓ_ｔ）を表現する関数近似器としては、例えば、ニューラルネットワークがある。

　入力となる状態は、以下の６つの連続値をとる要素からなる。
１．自己のロボットの速度（大きさ）
２．自己のロボット中心座標における他物体のＸ座標（自己のロボットの進行方向を軸とした座標）
３．自己のロボット中心座標における他物体のＹ座標（自己のロボットの進行方向と交わる方向を軸とした座標）
４．自己のロボットの方向転換角度を基準とした他物体の方向転換角度
５．他物体の速度（大きさ）
６．他物体の加速度（大きさ）

　なお、３．において「交わる」とは原則的には直交することを意味するが、これには限られず、道路等と平行であり、かつ、自己のロボットの進行方向に対して異なる向きであることを表し、Ｘ座標及びＹ座標を用いて他物体を一意的に表現できる座標系における軸であれば構わない。さらに、ＸＹ（あるいはＸＹＺ）の直交座標系ではなく、ｒ－θの極座標系（３次元の場合は、例えば、円柱座標系や球面座標系）であっても構わない。このように、自己のロボットと他物体の位置関係等を適切に表すものであれば、どのような座標系でもよく、計算のしやすさ等により変更できるものとする。

　行動は離散化されており、例えば、０．７秒間隔で
ａ．前進加速度｛３，１，０，－１，－３｝［ｍ／ｓ^２］
ｂ．方向転換角度｛３０°，１０°，０°，－１０°，－３０°｝
から選ばれるものとする。

　関数近似器はニューラルネットワークを用いており、その構成は、例えば、図５のとおりである。すなわち、入力として、上述した状態を受け付ける６ユニット、中間層は、２５６ユニットで構成される１層とし、中間層のそれぞれのユニットから出力へと接続され、リスク指標が取得される。使用するニューラルネットワークの構成は、これには限られず、ユニット数及び中間層の層数は、設計により変更できるものとする。

　まず、データセットから、状態ｓ_ｔと状態リスクＲ（ｓ_ｔ）のセットを取得する（ステップＳ２０）。状態リスク関数近似部１８は、状態ｓ_ｔを取得し、近似性能評価部２０は、対応する状態リスクＲ（ｓ_ｔ）を取得する。

　次に、下記のように、状態リスク関数の最適化を行う（ステップＳ２２）。この最適化は、例えば、データセット格納部１６に格納されている時系列に沿った所定数のデータセットについて入力が終わるまで続けられる（ステップＳ２４：Ｎｏ）。所定数のデータセットを取得し、最適化した後、自動パラメータ決定のモデル化についての学習は終了する（ステップＳ２４：Ｙｅｓ）。別の例としては、所定数のデータではなく、考え得る衝突等について、十分な学習ができたタイミングで学習を終了するようにしてもよい。

　対称性のため、他物体の相対Ｙ座標が負の場合は、それに－１をかけて，他物体の相対方向転換角度も－１をかけて、片方の座標のみから最適化を行う。この場合、リスクは、例えば、下記のような計算式で計算される。

ここで、σは、活性化関数を表し、Ｗは、重み付け行列を示す。［数１５］の例では、入力の状態ｓは重み付け行列Ｗ^（１）により重み付けされ、重み付けされた結果に対して要素毎に活性化関数σを適用して中間層へと出力される。そして、中間層の出力は、重み付け行列Ｗ^（２）により重み付けされ、活性化関数σ_ｙが適用されてリスクＲ＾として出力される。

　次に、報酬算出部は、報酬の最適化を行う。この最適化は、ステップＳ１２において算出された状態リスク関数に基づいて、累積報酬関数を最適化することにより実行される。

　累積報酬関数を学習する場合には、リスクが一定値を下回らないような許容される行動のみから学習する必要があるが、この許容される行動として、以下のような基準でリスク関数の学習時にはなかった行動も含められるようにする。

　ここで、ａ_ｔは、状態リスク関数の学習時には含められなかった中間の行動である。例えば、ａ_ｔ＝＋１という中間状態のリスク関数の値を、以下のように設定するものとする。

　Ｑ関数を求める際は、二体間の状態だけでなく、多体間の状態遷移を考慮する必要があり、状態空間が大きくなる。このため、考慮するべき状態数は少ないほうがよい。このように、計算量を減らすための離散化する粒度を減らす一方で、安全性の保証をとるために［数１７］のように安全側に評価を行う。また、衝突を避けるための最適行動はしばしば急減速又は急な方向転換など極端な行動をとることによって達成されることが多く、粒度は細かくなくとも範囲が同じであれば十分な精度で状態リスクを推定することができる。

　このように、学習フェーズは、まず、リスク指標の学習を行い、最適化されたリスク指標のモデルに基づいて、報酬の学習を行い、報酬のモデルを最適化する二段階の学習を備える。リスク指標は、入力部１０に入力された状態に基づき、上記により決定されたパラメータにしたがったモデルを用いることにより算出される。すなわち、状態リスク関数近似部１８は、状態ｓ_ｔが入力されると、推定されるリスク指標Ｒ＾（ｓ_ｔ）を算出し、出力部２２は、算出されたリスク指標（状態リスク値）を出力する。

　次に、算出されたリスク指標に基づいて、制御信号を生成するフェーズの処理について説明する。まず、入力部１０を介しリスク指標評価装置１は、制御信号を生成する旨の要求及び、現在の状況を取得する。現在の状態とは、例えば、自己のロボットの速度、加速度（前進・停止、方向転換等の状態を含む）等の自己のロボットに関する状態の情報と、環境の情報、例えば、他物体の自己のロボットに対する相対的な位置、速度等の情報や、障害物の位置等の情報である。

　次に、取得した現在の状態に基づいて、現在時刻から単位時間以上の時間が過ぎた後の自己のロボット及び他物体（障害物）の状態を推定する。この状態の推定は、２体間の推定を行う。他物体や障害物が複数存在する場合は、［数９］に基づき、２体間の推定から、最悪となる状態を推定する。状態の推定は、学習フェーズにおいて学習された状態リスク関数のモデル及び報酬のモデルに基づいて行われる。例えば、他物体の時刻ｔにおける行動ａ_ｔ ^ｅは、例えば、［数１１］のように確率的に決定する。

　次に、例えば［数１１］により確率的に決定された他物体の行動の選択並びに状態リスク関数のモデル及び報酬のモデルに基づいて自己のロボットを制御するための信号を生成する。この制御信号の生成は、上述したように、＜第１手法＞や＜第２手法＞に基づいて実行される。

　次に、生成された制御信号を外部へと出力する。このように、リスク指標評価装置１は、現在の状態に基づいて自己のロボットの制御信号を出力する。以上の制御信号の生成は、図示しない制御信号生成部により行われてもよい。リスク指標評価装置１の出力したリスク指標に基づいて、このように制御信号が生成され、自動車へと出力されてもよい。

　以上のように、本実施形態によれば、衝突リスクと累積報酬和という２種類の状態評価値を利用することにより、リスク保証を与えつつ、乗り心地や燃費の良さを追求するという安全性と快適性の両立をしたリスクコントロールを行うことが可能となる。さらに、リスク指標を強化学習、動的計画法等を用いて最適化をすることにより、自己のロボット及び他物体の動きについて１次元のみならず、２次元平面におけるリスクが計算可能となり、より安全性を向上することが可能となる。また、多体間のリスクを２体間におけるリスク指標を用いて表すことが可能となる。

　（変形例）
　次に、ＰＯＭＤＰによるモデル化について説明する。図６は、ＰＯＭＤＰによるモデル化を行う場合のリスク指標評価装置１の機能を概略的に示すブロック図である。ＰＯＭＤＰを利用する一例として、障害物等で他の物体が見えない、又は、見えづらい場合が考えられる。

　図６に示すように、本変形例に係るリスク指標評価装置１は、前述した実施形態に係るリスク指標評価装置１の構成にさらに、状態サンプリング部２４と、期待状態リスク計算部２６とを備えるものである。

　状態サンプリング部２４は、入力部１０から、観測された状態ｏ_ｔを受信し、この観測された状態ｏ_ｔから状態ｓ_ｔ及び状態ｓ_ｔの条件付確率ｐ（ｓ_ｔ｜ｏ_ｔ）を算出し、サンプリングする。状態リスク関数近似部１８は、状態サンプリング部２４がサンプリングした状態ｓ_ｔを用いることにより、前述の実施形態と同様に、リスク関数の近似を行う。

　期待状態リスク計算部２６は、状態サンプリング部２４が算出した条件付確率ｐ（ｓ_ｔ｜ｏ_ｔ）と、状態リスク関数近似部１８が算出した近似されたリスクＲ＾（ｓ_ｔ）に基づいて、隠れた状態を推定した状態リスクの期待値Ｅ［Ｒ＾（ｓ_ｔ）｜ｏ_ｔ］を計算する。

　リスクの指標となるデータセットの生成については、図２と同様のフローチャートにしたがう。ただし、ステップＳ１０において取得するデータは、危険度の高そうな状況の状態をサンプリングすることに加え、隠れた状態のうち危険度の高そうな状況の状態のサンプリングも併せて行う。リスク計算部１４は、隠れた状態についても、危険度の高そうな状態に基づいて、リスクの計算を行う。このリスクの計算は、前述した実施形態と同様に確率的に行う。

　図７は、本変形例における処理の流れを示すフローチャートである。ＰＯＭＤＰを用いる場合には、まず、隠れた状態のうち、危険度の高そうな状態をサンプリングする（ステップＳ３０）。この際、隠れた状態のみならず、前述した実施形態と同様に、隠れていない状態についてもサンプリングを併せて行ってもよい。次に、以下の例にしたがい、リスクの計算を行い（ステップＳ３２）、得られたｓ_ｔ及びＲ_δ ^＊（ｓ_ｔ）のデータセットをデータセット格納部１６へと格納する。

　ＭＤＰを構成する状態ｓ_ｔのうちの一部しか観測できていない場合は、自動パラメータ決定法による状態リスク値Ｒ_δ ^＊（ｓ_ｔ）を直接評価できない。その場合は、観測した状態から状態ｓ_ｔを推定することで期待される状態リスク値を求める。いま、観測された状態をｏ_ｔとし、観測できていない隠れた状態をｈ_ｔとする。ここで、ｓ_ｔ＝（ｏ_ｔ，ｈ_ｔ）なる関係が成り立つ。隠れた状態ｈ_ｔは、観測ｏ_ｔからは一意に定まらず確率的に決まるものとする。たとえば、曲がり角において、曲がり角の先の通路が見えない場合、その曲がり角の先から他物体が向かってきているかどうかのイベントは確率的に生じると考える。このとき、この隠れ状態ｈ_ｔの生成される条件付き確率ｐ（ｈ_ｔ｜ｏ_ｔ）に関して状態リスク関数の期待値をとった期待状態リスク関数Ｅ［Ｒ_δ ^＊（ｓ_ｔ）｜ｏ_ｔ］を求めることで、観測された状態のみから状態リスクを評価することができる。

　期待状態リスク関数の計算は、隠れ状態ｈ_ｔの生成される条件付き確率ｐ（ｈ_ｔ｜ｏ_ｔ）から隠れ状態ｈ_ｔを複数サンプルし、そのサンプル平均を求めることで求めることができる。

ただし、一般に危険な状態を含む隠れ状態ｈ_ｔの生成確率は小さくなるため、少ない回数のサンプリングでより正確な期待状態リスク関数を評価するために重点サンプリングを用いることが望ましい。重点サンプリングはｐ（ｈ_ｔ｜ｏ_ｔ）とは別の条件付き確率分布となるｑ（ｈ_ｔ｜ｏ_ｔ）をサンプラーとして用いて次式のように計算することができる。

　重点サンプリングは、不偏性は失うものの分散を低減するために以下のような形式で計算することもできる。

　そのほか、期待状態リスク関数を求めるために数値的な積分計算の手法を用いることができる。

　期待状態リスク関数を用いることで、将来の状態についての期待状態リスクを評価することができる。ｋ時刻先の将来の期待状態リスクを評価する場合、隠れた状態ｈ_ｔは将来の状態ｓ_ｔ＋ｋを表わす。この将来の状態を複数、評価することで状態の系列からなる軌跡の期待状態リスクを評価できる。

　隠れた状態のサンプリングからデータセットの格納まで終了した後に、状態リスク評価を行うことが可能となる。上述の処理の後、期待状態リスクの評価を行い（ステップＳ３６）、例えば、隠れた状態をも予測した自動車の自動制御の出力値を出力する。

　上記では、二体間の状態リスク関数から多体間の状態リスク関数の最悪評価ができることを述べたが、危険度が二体間で定義される問題の場合、最悪評価を行うことなく、二体間の状態リスク関数から三体間の状態リスク関数、また三体間の状態リスク関数から四体間の状態リスク関数といった、より高次の多体間状態リスク関数を近似的に求めることも可能である。たとえば、衝突という危険度に関しては、二体間で定義される。したがって三体間の状態リスク関数を考える際も、最終的にはいずれか一つの物体との危険度を考えれば良い。そのため、ある程度、先読みをした将来では二体間状態リスク関数で十分、精度良く状態リスク関数を表現できると考えるなら直近の将来に関してのみ三体間の相互作用を考えた状態遷移を考慮し、動的計画法を用いることで三体間の状態リスク関数を求めることができる。

　（リスクの変形例）
　前述の実施形態では、危険度ｄ_ｔ＜δとなるような状態を評価していた。この場合、ｋ≧ｔとなる全ての時間においてδよりも小さい危険度（絶対値がδよりも大きい危険度）が生じる確率を抑えるような評価をしていたが、これには限られない。

　例えば、所定の時間Ｔを定義し、ｔ≦ｋ≦ｔ＋Ｔの間においてδより小さい危険度が生じる確率を抑えてもよい。この場合、リスク関数は、Ｒ_δ ^π（ｓ_ｔ，ａ_ｔ）≡Ｐ^π（ｍｉｎ_{ｔ≦ｋ≦ｔ＋Ｔ}ｄ_ｋ＜δ｜ｓ_ｔ，ａ_ｔ）と書き換えることができる。このように危険度の範囲を設定することにより、安全と評価できなくなる状態を抑制し、又は、評価時間を削減することが可能となる。

　別の例として、Ｅ^π［Σ_ｋ＝ｔ ^ｔ＋Ｔβ^ｋｄ_ｋ］≧ｃとなる制約を満たしつつＥ^π［Σ_ｋ＝ｔ ^ｔ＋Ｔγ^ｋｒ_ｋ］を最大化する目的関数のもとで最適な方策πを求めてもよい。ここで、βは、０≦β≦１の定数である。この場合、時刻ｋは時刻ｔ以降の無限時間先までを考える、すなわち、Ｔが無限大の場合を含むことができるが、その場合はＥ^π［Σ_ｋ＝ｔ ^ｔ＋Ｔβ^ｋｄ_ｋ］が発散しないよう、０≦β<１とする必要がある。

　さらに別の例として、危険な事故が起きたｄ_ｋ≦δ’という状態をｄ_ｋ’＝１、危険な事故が起きていないｄ_ｋ＞δ’という状態をｄ_ｋ’＝０という２値で表して以下のようにリスクを評価してもよい。この場合、Ｅ［ｄ_ｋ’］＝Ｐ（ｄ_ｋ’＝１）×１＋Ｐ（ｄ_ｋ’＝０）×０＝Ｐ（ｄ_ｋ’＝１）と書き換えることができる。これに基づいて、Ｅ^π［ｍａｘ_{ｔ≦ｋ≦ｔ＋Ｔ}ｄ_ｋ’］≦ｃを、Ｐ（ｍａｘ_{ｔ≦ｋ≦ｔ＋Ｔ}ｄ_ｋ’＝１）≦ｃとすることができる。

　このような書き換えは、Ｐ^π（ｍｉｎ_ｋ≧ｔｄ_ｋ＜δ｜ｓ_ｔ，ａ_ｔ）≦ｃやＰ^π（ｍｉｎ_ｋ≧ｔｄ_ｋ＜δ）≦ｃのような制約が、それぞれＥ_π［Ｄ（ｈ）｜ｓ_ｔ，ａ_ｔ］≦ｃやＥ_π［Ｄ（ｈ）］≦ｃの形式で記述できることを意味する。ここで、hは状態や行動、危険度の過去の系列を表すベクトルであり、Ｄ（ｈ）は、ｄ_ｋ＜δ’においてｄ_ｋ’＝１、ｄ_ｋ≧δ’においてｄ_ｋ’＝０となるｄ_ｋ’を用いてＤ（ｈ）=ｍａｘ_{ｔ≦ｋ≦ｔ＋Ｔ}ｄ_ｋ’である。

　（安全な集合の変形例）
　Ｒ_π，ｔ（ｓ_ｔ，ａ_ｔ）＝Ｅ_π，ｔ［Ｄ（ｈ）｜ｓ_ｔ，ａ_ｔ］とおく。これは、時刻ｔで状態ｓにおいて行動ａを取った後、方策πで行動する時のＤの期待値を表す。変形例においては、Ｒ_η，ｔ（ｓ，ａ）＜εで行動している場合に、Ｅ_π，ｔ［Ｄ（ｈ）］がどうなるかを考慮して、安全である行動の集合を定義してもよい。以下において、πのサポートは、ｓｕｐｐ（π（ａ_ｔ｜ｓ_ｔ））＝｛ａ_ｔ｜π（ａ_ｔ｜ｓ_ｔ）＞０｝と表記する。方策πがどの時刻での方策であるかを明示する必要がある場合は、π_ｔやπ_ｔ（ａ_ｔ｜ｓ_ｔ）のように表記する。

　例えば、時刻ｔにおける安全な方策の集合を｛π_ｔ｜ｓｕｐｐ（π_ｔ（ａ_ｔ｜ｓ_ｔ））＝Ａ_η，ｔ（ｓ_ｔ）｝とすることができる。ただし、Ａ_η，ｔ（ｓ_ｔ）＝｛ａ_ｔ｜Ｒ_η，ｔ（ｓ_ｔ，ａ_ｔ）≦ｘ_ｔ｝である。Ｒ_η，ｔ（ｓ_ｔ，ａ_ｔ）の計算に用いられる方策ηは方策πとは異なる方策でよい。方策πとして、Ａ_η，ｔ（ｓ_ｔ）に含まれる任意の行動ａを選択してもよい。

　別の例として、時刻ｔにおける安全な方策の集合を｛π_ｔ｜ｓｕｐｐ（π_ｔ（ａ_ｔ｜ｓ_ｔ））＝Ａ_η，ｔ（ｓ_ｔ）かつＤｉｓｔ（π_ｔ（ａ_ｔ｜ｓ_ｔ），η_ｔ（ａ_ｔ｜ｓ_ｔ））≦ｙ_ｔ｝とすることができる。ただし、Ａ_η，ｔ（ｓ_ｔ）＝｛ａ_ｔ｜Ｒ_η，ｔ（ｓ_ｔ，ａ_ｔ）≦ｘ_ｔ｝であり、Ｄｉｓｔ（π_ｔ（ａ_ｔ｜ｓ_ｔ），η_ｔ（ａ_ｔ｜ｓ_ｔ））は方策π_ｔ（ａ_ｔ｜ｓ_ｔ）と方策η_ｔ（ａ_ｔ｜ｓ_ｔ）の距離を測る関数、ｙ_ｔは１より小さい定数である。Ｒ_η，ｔ（ｓ_ｔ，ａ_ｔ）の計算に用いられる方策ηは方策πとは異なる方策でよいが、方策ηから所定の距離内にある方策であることを要請している。Ｄｉｓｔ（π_ｔ（ａ_ｔ｜ｓ_ｔ），η_ｔ（ａ_ｔ｜ｓ_ｔ））には、たとえば、Σ_{ａ∈Ａη，ｔ（ｓｔ）}｜π（ａ_ｔ｜ｓ_ｔ）－η（ａ_ｔ｜ｓ_ｔ）｜を用いることができる。方策πは、Ｄｉｓｔ（π_ｔ（ａ_ｔ｜ｓ_ｔ），η_ｔ（ａ_ｔ｜ｓ_ｔ））≦ｙ_ｔを満たしている限り、Ａ_η，ｔ（ｓ_ｔ）に含まれる任意の行動ａを選択してもよい。

　さらに別の例として、０≦ｔ≦Ｔである任意のｔに対して、Ｅ_π［｜ｄ_ｔ｜＋Ｅ［Ｒ_η（ｓ_ｔ＋１）｜ｓ_ｔ，ａ_ｔ］｜ｓ_ｔ］≦Ｒ_η（ｓ_ｔ）を満たす方策πを安全な方策の集合としてもよい。

　このように安全な方策の集合を前述の実施形態と比較して広い範囲で定義することにより、より広い範囲の方策から報酬を探すことで、安全性を保ったまま報酬の最大化に、より適した方策を探すことを可能にできる。

　（多体間における方策について）
　前述の実施形態においては、２体間におけるイベントを多体間に拡張することにより、多体間における方策を推定した。多体間（Ｎ体間）における方策は、以下のように異なる例を用いて定義することも可能である。

　例えば、状態がｓ_ｔ＝（ｓ_ｔ ^（１），ｓ_ｔ ^（２），・・・，ｓ_ｔ ^（Ｎ），ｓ_ｔ ^（ｏ））と表すことができるとする。ここで、ｓ_ｔ ^（１），ｓ_ｔ ^（２），・・・，ｓ_ｔ ^（Ｎ）は、それぞれ環境中の１番目からＮ番目のオブジェクトの状態を意味し、ｓ_ｔ ^（ｏ）は、それ以外の自分の状態を含んだ状態を示す。危険度がｄ_ｔ＝Σ_ｎ＝１ ^Ｎｄ_ｔ ^（ｎ）（ｓ_ｔ ^（ｏ），ｓ_ｔ ^（ｎ），ａ_ｔ，ｓ_ｔ＋１ ^（ｏ），ｓ_ｔ＋１ ^（ｎ））のように自分を含んだ状態ｓ_ｔ ^（ｏ），ｓ_ｔ＋１ ^（ｏ）と各オブジェクトの状態ｓ_ｔ ^（ｎ），ｓ_ｔ＋１ ^（ｎ）(ただし、ｎ∈｛１，・・・，Ｎ｝)と行動ａ_ｔで決まる関数ｄ_ｔ ^（ｎ）（ｓ_ｔ ^（ｏ），ｓ_ｔ ^（ｎ），ａ_ｔ，ｓ_ｔ＋１ ^（ｏ），ｓ_ｔ＋１ ^（ｎ））の和で表現されるとし、各関数ｄ_ｔ ^（ｎ）（ｓ_ｔ ^（ｏ），ｓ_ｔ ^（ｎ），ａ_ｔ，ｓ_ｔ＋１ ^（ｏ），ｓ_ｔ＋１ ^（ｎ））が一定の危険度以上となる危険な事象をＳ_ｎのように表すものとする。このとき、Ｓ_１からＳ_Ｎのいずれかの危険な事象が生じる確率は、個々の危険な事象が起きる確率で以下のように抑えることができる。

この関係から、状態遷移確率がｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）＝ｐ（ｓ_ｔ＋１ ^（ｏ）｜ｓ_ｔ ^（ｏ），ａ_ｔ）Π_ｎ＝１ ^Ｎｐ（ｓ_ｔ＋１ ^（ｎ）｜ｓ_ｔ ^（ｎ），ｓ_ｔ ^（ｏ），ａ_ｔ）、方策がπ（ａ_ｔ｜ｓ_ｔ ^（ｏ））と書ける場合、

であることがいえる。ここで、Ｒ_ｔ ^π，ｎ（ｓ_ｔ ^（ｏ），ｓ_ｔ ^（ｎ））は状態がｓ_ｔ ^（ｏ）とｓ_ｔ ^（ｎ）のみからなり、状態遷移確率がｐ（ｓ_ｔ＋１ ^（ｎ）｜ｓ_ｔ ^（ｎ），ｓ_ｔ ^（ｏ），ａ_ｔ）、危険度がｄ_ｔ ^（ｎ）（ｓ_ｔ ^（ｏ），ｓ_ｔ ^（ｎ），ａ_ｔ，ｓ_ｔ＋１ ^（ｏ），ｓ_ｔ＋１ ^（ｎ））とかけるシステムにおける状態リスク関数である。

　この結果、状態（ｓ_ｔ＋１ ^（ｏ），ｓ_ｔ ^（ｎ））、危険度ｄ_ｔ ^（ｎ）（ｓ_ｔ ^（ｏ），ｓ_ｔ ^（ｎ），ａ_ｔ，ｓ_ｔ＋１ ^（ｏ），ｓ_ｔ＋１ ^（ｎ））、状態遷移確率ｐ（ｓ_ｔ＋１ ^（ｏ）｜ｓ_ｔ ^（ｏ），ａ_ｔ）ｐ（ｓ_ｔ＋１ ^（ｎ）｜ｓ_ｔ ^（ｎ），ｓ_ｔ ^（ｏ），ａ_ｔ）からなるサブシステムのリスクＲ_ｔ ^π，ｎ（ｓ_ｔ ^（ｏ），ｓ_ｔ ^（ｎ））を求めておくことで、Ｎ体のオブジェクトのいずれかのオブジェクトとの間で危険な事象が生じるリスクの上限を評価することが可能となる。これによって、リスク関数を求める労力を減らすことができる。

　上述した説明において、δ、ε等のリスク又は報酬等のしきい値は、サンプルを取得したタイミング又は学習をするタイミング等において、あらかじめ設定された所定の値である。例えば、これらの値は、実験又はシミュレーションを行う中で見つけられた最適な値を用いる。

　上述した実施形態においては、移動ロボットの自動運転について説明したが、本発明の応用範囲は、これには限られない。上述の例においては、２次元平面上におけるリスクコントロールを行ったが、これ以上の次元に適用することもできる。例えば、３次元空間で操作を行うアーム付きロボットの移動制御、自動車の自動制御、多次元の変数が必要となる各種工場やプラントの制御又は投資の制御等、リスクと報酬により２面的に最適化が必要となるシステムに適用することが可能である。

　上記の全ての記載において、リスク指標評価装置１の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりＣＰＵ等が実施をしてもよい。ソフトウェアで構成される場合には、リスク指標評価装置１及びその少なくとも一部の機能を実現するプログラムをフレキシブルディスクやＣＤ－ＲＯＭ等の記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、ＦＰＧＡ（Field-Programmable Gate Array）等の回路に実装され、ハードウェアが実行するものであってもよい。学習モデルの生成や、学習モデルに入力をした後の処理は、例えば、ＧＰＵ等のアクセラレータを使用して行ってもよい。

　また、本実施形態に係る学習モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとして利用することが可能である。すなわち、コンピュータのＣＰＵ（Central Processing Unit）が格納部に格納されているモデルに基づいて、演算を行い、結果を出力するように動作する。

　上記の全ての記載に基づいて、本発明の追加、効果又は種々の変形を当業者であれば想到できるかもしれないが、本発明の態様は、上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更及び部分的削除が可能である。

　例えば、図１及び図６においては、データセットの生成と、パラメータ自動決定とについて、同じ装置内に含まれることとしているが、これには限られず、データセットの生成に関する装置と、パラメータ自動決定とに関する装置とを別々にしても構わない。この場合、データセット格納部１６を共有する様にすれば、前述した作用・効果を奏することが可能である。また、データセット格納部１６を共有するのではなく、データセット格納部１６に格納されているデータを共有すれば足りる。

　さらに、図６においては、状態サンプリング部２４と、期待状態リスク計算部２６とを追加しているが、説明において理解を助けるためのものであり、実際には、状態リスク関数近似部１８が、入力部１０から観測された状態ｏ_ｔを受信しそこで状態ｓ_ｔと、条件付確率ｐ（ｓ_ｔ｜ｏ_ｔ）を求め、さらに状態ｓ_ｔから近似されたリスクＲ＾（ｓ_ｔ）を求めるような構成としてもよい。すなわち、図１に記載のリスク指標評価装置１と、図６に記載のリスク指標評価装置１は、実質的に同じものであってもよい。

１：リスク指標評価装置
１０：入力部
１２：データサンプリング部
１４：リスク計算部
１６：データセット格納部
１８：状態リスク関数近似部
２０：近似性能評価部
２２：出力部
２４：状態サンプリング部
２６：期待状態リスク計算部

Claims

　入力された状態データをサンプリングする、データサンプリング部と、
　サンプリングされた状態データから当該状態データに対応するリスクの指標である状態リスク値を計算する、リスク計算部と、
　サンプリングされた前記状態データと、当該サンプリングされた前記状態データから計算された前記状態リスク値と、に基づいて、新たな状態に関する前記状態リスク値を近似する関数である状態リスク関数を生成する、状態リスク関数近似部と、
　生成された前記状態リスク関数に基づいて、前記新たな状態に対する状態リスク値をリスク指標として出力する、出力部と、
　を備えるリスク指標評価装置。
　前記状態リスク関数の近似性能を評価する、近似性能評価部をさらに備え、
　前記状態リスク関数近似部は、前記近似性能評価部が評価した前記状態リスク関数の近似性能に基づいて、当該状態リスク関数を更新する、請求項１に記載のリスク指標評価装置。
　前記近似性能評価部は、前記状態リスク関数近似部が生成した前記状態リスク関数に基づいて近似された前記状態リスク値と、前記リスク計算部が計算した前記状態リスク値とを比較し、前記状態リスク関数近似部の近似性能を評価する、請求項２に記載のリスク指標評価装置。
　前記リスク計算部は、自己又は他物体が取り得る行動と、サンプリングされた前記状態データとに基づいて、危険度を算出し、当該危険度と、イベントが発生するとされる所定のイベント発生値とを比較することにより、サンプリングされた前記状態データにおける前記リスク指標を計算する、請求項１乃至請求項３のいずれかに記載のリスク指標評価装置。
　前記状態リスク関数近似部は、強化学習又は動的計画法により前記状態リスク関数を生成する、請求項１乃至請求項４のいずれかに記載のリスク指標評価装置。
　前記状態リスク値は、確率分布として定義され、多体間における状態リスク値を２体間における状態リスク値を用いて評価する、請求項１乃至請求項５のいずれかに記載のリスク指標評価装置。
　前記状態データは、前記リスク指標を出力する対象の状態を、多次元の量として表したデータである、請求項１乃至請求項６のいずれかに記載のリスク指標評価装置。
　請求項１から７のいずれかに記載のリスク指標評価装置によって算出された前記状態リスク値に基づいて、安全な方策の集合を決定し、前記安全な方策の集合に属する方策又は状態に基づいて、報酬を最大化する学習をする、学習装置。
　データサンプリング部が、入力された状態データをサンプリングするステップと、
　リスク計算部が、サンプリングされた状態データから当該状態データに対応するリスクの指標である状態リスク値を計算するステップと、
　状態リスク関数近似部が、サンプリングされた前記状態データと、当該サンプリングされた前記状態データから計算された前記状態リスク値と、に基づいて、新たな状態に関する前記状態リスク値を近似する関数である状態リスク関数を生成するステップと、
　出力部が、生成された前記状態リスク関数に基づいて、前記新たな状態に対する状態リスク値をリスク指標として出力するステップと、
　を備えるリスク指標評価方法。
　コンピュータに、
　入力された状態データをサンプリングする、データサンプリング手段、
　サンプリングされた状態データから当該状態データに対応するリスクの指標である状態リスク値を計算する、リスク計算手段、
　サンプリングされた前記状態データと、当該サンプリングされた前記状態データから計算された前記状態リスク値と、に基づいて、新たな状態に関する前記状態リスク値を近似する関数である状態リスク関数を生成する、状態リスク関数近似手段、
　生成された前記状態リスク関数に基づいて、前記新たな状態に対する状態リスク値をリスク指標として出力する、出力手段
　として機能させるプログラム。