WO2025041268A1

WO2025041268A1 - 動作計画装置

Info

Publication number: WO2025041268A1
Application number: PCT/JP2023/030165
Authority: WO
Inventors: 隆之助渡辺; 僚太岡本
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2025-02-27
Anticipated expiration: 2026-02-22
Also published as: JP7475562B1; JPWO2025041268A1

Abstract

本開示はサンプリング手法による動的システムの動作計画装置に関し、動的システムに達成させる目標に基づいて動的システムの運動を表現する数式モデルと動的システムの事前に考慮すべき状態制約を出力する行動計画部と、数式モデルと状態制約に基づいて入力サンプリング範囲を制限し、数式モデルに基づいて入力サンプリング範囲での状態推定演算により、動的システムの動作計画を生成する動作計画生成部と、を有している。

Description

動作計画装置

　本開示は動作計画装置に関し、特に、サンプリング手法による動的システムの動作計画装置に関する。

　動的システムの動作計画問題においていくつかの手法が提案されており、そのうちの１つとしてサンプリング手法によるものが開発されている。動作計画問題においては対象が満たすべき制約が存在するが、サンプリング手法では各パーティクルにおいて制約を満たす有効なパーティクル（有効パーティクル）と制約を満たさない無効なパーティクル（無効パーティクル）を判定した上で動作計画を立てるため、複雑な制約にも対応しやすいという利点がある。

　例えば、特許文献１の車両制御システムでは、制御入力のサンプリングを実施した後に物理モデルの時間発展を計算し、状態制約に対する有効パーティクルの判定を行うことで、有効パーティクルのみを用いて所望の運動を満たす確率が最適となるように車両を制御している。

　また、特許文献２の自動運転システムでは、路面の滑りの制約の範囲内で制御入力のサンプリングを実施することで路面の滑りに対する有効パーティクルのみを用いて所望の運動を満たす確率が最適となるように車両を制御している。

特許第６４９４８７２号公報特許第６５９４５８９号公報

A. D. Ames X. Xu, J. W. Grizzle and P. Tabuada. "Control barrier function based quadratic programs for safety critical systems." IEEE Transactions on Automatic Control, Vol. 62, No. 8, pp.3861-3876, 2016. Q. Nguyen and K. Sreenath. "Exponential control barrier functions for enforcing high relative-degree safety-critical constraints." 2016 American Control Conference. 2016.

　サンプリング手法では、サンプリングに基づいて近似される確率密度分布の近似精度を保証するために大量のサンプリング計算が必要である。特許文献１のように入力サンプリングを実施した後に物理モデルの時間発展を計算し、制約を満たす有効パーティクルを判定する場合、有効パーティクル数が少ないと確率密度分布の近似精度を保証できない。つまり、有効なパーティクルの減少によって手法の機能低下が生じる可能性が高くなる。

　また、特許文献２の手法では、事前に入力サンプリングを制限しているため、有効パーティクル数を確保しやすいが、路面の滑りに限定されているため他の用途に適用することが難しく、他の状態制約を考慮する場合には特許文献１と同様の結果となる。

　本開示は、上記のような問題点を解決するためになされたものであり、有効なパーティクルの減少によって手法の機能低下が生じる可能性が低く、適用先のシステムにおいて事前に考慮すべき状態制約が限定されないサンプリング手法による動作計画装置を提供することを目的とする。

　本開示に係る動作計画装置は、サンプリング手法による動的システムの動作計画装置であって、前記動的システムに達成させる目標に基づいて前記動的システムの運動を表現する数式モデルと前記動的システムの事前に考慮すべき状態制約を出力する行動計画部と、前記数式モデルと前記状態制約に基づいて入力サンプリング範囲を制限し、前記数式モデルに基づいて前記入力サンプリング範囲での状態推定演算により、前記動的システムの動作計画を生成する動作計画生成部と、を有している。

　本開示に係る動作計画装置によれば、事前に考慮すべき状態制約の範囲内で入力サンプリングを行うため、サンプリングに基づいて近似される確率密度分布の近似精度を向上させることができ有効なパーティクルの減少によって手法の機能低下が生じる可能性を低減でき、適用先のシステムにおいて事前に考慮すべき状態制約が限定されない。

本開示に係る実施の形態１の動作計画装置を搭載した移動体の構成を示す概略図である。本開示に係る実施の形態１の動作計画装置を搭載した移動体の構成を示す概略図である。本開示に係る実施の形態１の動作計画装置を搭載した移動体が移動を行う状況の一例を模式的に示す図である。本開示に係る実施の形態１の動作計画装置の構成を示すブロック図である。本開示に係る実施の形態１で用いる座標系を模式的に示す図である。本開示に係る実施の形態１の動作計画装置で用いるパーティクルフィルタの演算処理を示すフローチャートである。本開示に係る実施の形態１の動作計画装置における動作計画生成の結果を模式的に示す図である。本開示に係る実施の形態３の動作計画装置における入力サンプリング値の修正方法を模式的に示す図である。本開示に係る実施の形態４の動作計画装置における入力サンプリング範囲の制限方法を模式的に示す図である。実施の形態１～４の動作計画装置を実現するハードウェア構成を示す図である。実施の形態１～４の動作計画装置を実現するハードウェア構成を示す図である。

　＜実施の形態１＞
　＜移動体のシステム構成＞
　図１および図２は、本開示に係る実施の形態１の動作計画装置を搭載した動的システムである移動体１のシステム構成を示す概略図である。図１は移動体１を上面から見た透視図であり、図２は移動体１の側面図である。図１に示すように移動体１は、駆動装置として、車輪１０１、アクチュエータ１０２およびバッテリ１０３を備えている。アクチュエータ１０２はバッテリ１０３から得た電力を駆動力に変換し、車輪１０１へ入力する。アクチュエータ１０２は制御装置１０によって制御される。制御装置１０は、記憶部と演算部を備えており、設定された制御プログラムに従ってアクチュエータ１０２を制御し、移動体１の移動を制御する。

　本実施の形態では、３つの車輪と３つのアクチュエータを使用し全方向に移動可能な移動体１に動作計画装置を搭載した例を示しているが、これに限定されず、例えば差動二輪移動体または脚式移動ロボットに搭載することもできる。ここで、差動二輪移動体とは、独立に回転可能な車輪を２つ有しており、各車輪の回転速度差を利用して直進および旋回を行う移動体である。

　また、本開示の適用対象である動的システムは移動体に限らず、例えばロボットアームまたは天井クレーンなどの運動が数式モデル（微分方程式）として表される動的システムであれば適用可能である。

　動的システムを移動体とした場合は、目標地点に向けて複雑な目標軌道を設定することが可能となる。

　移動体１は、観測装置として、図１に示す車輪角度センサ１１１、図２に示す光学式測域センサ１１２および深度カメラ１１３を備えている。当該観測装置は制御装置１０に接続されている。

　車輪角度センサ１１１は各車輪１０１に設けられ、車輪１０１の回転量を検出する。車輪１０１の回転量に基づいて制御装置１０により移動体１の移動量を算出する。車輪角度センサ１１１は、例えばロータリーエンコーダによって構成される。

　光学式測域センサ１１２は、例えばＬｉＤＡＲ（Light Detection and Ranging）であり、移動体１の上面に備えられている。光学式測域センサ１１２は、移動体１の周辺環境における空間の物理的な形状データを走査平面に沿って計測する。計測された形状データに基づいて、制御装置１０は周辺環境の地図を作成する。作成された地図を参照することで、移動体１が地図平面上のどの位置にいるのかを推定する。この際に、地図を予め作成し、その地図情報を参照することで移動体１の位置を推定することもできる。

　図３は、移動体１が移動を行う状況の一例を模式的に示す図である。図３において、光学式測域センサ１１２で得られた空間の物理的な形状データは、移動体１の走行に対して障害となる人５００および障害となる物６００の形状を含む。制御装置１０は、これら形状データを移動体１が避けるべき対象であると認知する。なお、以下の説明では、人、壁、別の移動体などの移動体１の移動を妨げる対象全てを障害物として表記する。

　前方深度カメラ１１３は、車両前方の空間の物理的な形状データを画像と共に取得する。前方深度カメラ１１３がカメラ画角内の測域情報を取得することで、光学式測域センサ１１２では走査平面上の形状データ（３次元空間上のある平面を切り取ったデータ）を補う。

　ただし、上述した観測装置は一例であり、移動体１が移動する環境において障害物の形状データを得る方法は特に限定されない。

　＜装置構成＞
　図４は、本開示に係る実施の形態１の動作計画装置３００の構成を示すブロック図と、動作計画装置３００に接続される駆動装置１００および観測装置２００の構成を示すブロック図である。

　図４に示されるように、駆動装置１００は、先に説明した、車輪１０１、アクチュエータ１０２およびバッテリ１０３を備えている。観測装置２００は、先に説明した、車輪角度センサ１１１、光学式測域センサ１１２および深度カメラ１１３を備えている。

　図４に示される動作計画装置３００は、制御装置１０に含まれ、行動計画部３１０と動作計画生成部３２０とを備えている。制御装置１０は、目標軌道に従って移動体１を制御する機器であり、例えば、組み込み計算機として搭載される。

　行動計画部３１０は、移動体状態推定部３１１、移動目標演算部３１２および状態制約演算部３１３を有している。

　移動体状態推定部３１１は、例えば、全地球測位センサ（ＧＰＳ）からの情報に基づいて移動体１の自己位置推定を実行する。移動体状態推定部３１１で推定された自己位置情報は、動作計画生成部３２０と移動目標演算部３１２へ出力される。

　移動目標演算部３１２では、移動体状態推定部３１１から出力された移動体１の自己位置および観測装置２００から出力された障害物情報などに基づいて、移動体１に達成させる目標を計算し、状態制約演算部３１３に出力する。当該目標は、例えば、参照軌道および目標地点、回避したい障害物の情報などである。

　行動計画部３１０内の状態制約演算部３１３では、移動目標演算部３１２から出力された移動体１に達成させる目標に基づいて、移動体１の数式モデルと事前に考慮すべき状態制約情報を演算して出力する。本実施の形態１では、事前に考慮すべき状態制約情報は、移動体１と障害物との相対位置情報であり、移動体１の位置と障害物位置と障害物形状を含む情報に基づいて出力する。

　状態制約演算部３１３を行動計画部３１０内に有し、動作計画生成部３２０とは独立させることで、動的システムの動作と状態制約とを表す数式モデルおよびサンプリング手法に依存することなく、統一的に制約を扱うことができる。

　状態制約演算部３１３から出力された相対位置情報は動作計画生成部３２０へ入力される。例えば、観測装置２００の光学式測域センサ１１２からは移動体１と周辺環境との相対距離が得られる。ただし、相対距離はセンサから直接得られる情報に限らず、１つ以上のセンサからの値に基づいて計算した値とすることができる。例えば、ＧＰＳから、制御対象のシステムと回避対象物の位置を取得し、それぞれの位置から相対距離を計算することができる。また、２つのカメラ映像センサを用いて、それぞれの画像データを取得し、それぞれの画像データにおける視差を用いて相対距離を計算することができる。

　また、センサを使わず現象を数式化した値に基づいたソフトウェアによる計算のみの値とすることもできる。例えば、人またはロボットを検知していない場合でも人またはロボットの飛び出しを数式で常に予測する処理を行う。これは、シミュレーションにより、検知していない人の飛び出しまたは、移動体の進入禁止範囲を示す仮想的な壁などを配置する、あるいはセンサ範囲外から確率的に障害物が現れるものとして予測計算する処理である。

　動作計画生成部３２０は、目標軌道生成部３２１および目標軌道記憶部３２２を有している。目標軌道生成部３２１は、行動計画部３１０から出力された移動体１と障害物との相対位置情報、例えば相対距離に基づいて、事前に障害物を回避することを考慮して、目標を達成しながら移動するための目標軌道を生成する。この目標軌道の生成に、サンプリング手法を適用する。生成された目標軌道は、目標軌道記憶部３２２へ出力される。

　目標軌道記憶部３２２は、目標軌道生成部３２１から得られた目標軌道を記憶し、必要な分の目標軌道情報を選択し動作計画として駆動装置１００へ出力する。駆動装置１００は受け取った動作計画に従って移動体１を動作させる。

　＜移動体の座標系＞
　図５は、実施の形態１で用いる座標系を模式的に示す図である。図５のＸ軸およびＹ軸は慣性座標系とし、ｘ_ｒおよびｙ_ｒは慣性座標系での移動体１の重心位置を表す。ただし、ｘ_ｒおよびｙ_ｒは移動体１の位置を表すことができれば重心位置に限定されず、例えば形状中心点、深度カメラ設置点および測域センサ設置点などとすることができる。ｖ_ｘおよびｖ_ｙは、慣性座標系での移動体１のＸ方向とＹ方向の速度である。また、ｘ_ｏおよびｙ_ｏを障害物６００の代表点位置とし、同じくＸＹ慣性座標系で表す。障害物６００の代表点位置は１点以上とすることができ、例えば移動体１と障害物６００との最短距離となる点、障害物６００の形状中心および障害物６００の重心位置等とすることができる。

　＜サンプリング手法＞
　本実施の形態では、目標軌道生成部３２１は、観測装置２００から得られた情報に基づいて、制御装置１０が移動体１を制御するための指標となる目標軌道を、サンプリング手法により動作計画として生成する。実施の形態１の動作計画装置３００は、移動体１の運動を数学的に表した数式モデルｆを用いて状態の時間発展演算を行い、かつ事前に状態制約を考慮した上で、設計された最適化問題を解くことで目標軌道を生成する。本実施の形態では、サンプリング手法の一種であるパーティクルフィルタを用いる。本開示の効果は、動的システムの時間発展に関わる演算がサンプリング手法の定式化内に含まれる全ての場合を対象とするため、サンプリング手法がパーティクルフィルタに限定されない。この効果に関する詳細は、後述する具体的な定式化で説明する。

　＜サンプリング手法による動作計画生成の定式化＞
　本実施の形態では、目標軌道生成部３２１で用いる移動体の状態量ｘと入力ｕを以下の数式（１）のように設定する。

　ここで、座標系は図４に示した座標系とし、ｖ_ｘはＸ方向の速度、ｖ_ｙはＹ方向の速度とする。

　移動体の運動を表す数式モデルｆは以下の数式（２）で表され、入力に対して線形である。このため、入力サンプリング範囲の抽出が単純化でき、計算負荷を低減できる。

　なお、数式（１）と数式（２）は数式モデルの一例であるため、システムの特性に合わせて状態量ｘ、入力ｕ、数式モデルｆを選択することができる。座標系も直交座標系に限らず、例えば、経路座標系で定義することができる。

　本実施の形態では、事前に考慮すべき状態制約として、移動体１が障害物と衝突しない状態制約ｈ（ｘ）≧０を以下の数式（３）のように表す。

　ここで、ｒ_ｍは障害物との一定間隔を表す値である。状態制約ｈ（ｘ）≧０が満たされている間は、障害物とｒ_ｍ以上の距離を保って移動することを意味する。また、この状態制約ｈ（ｘ）≧０は、ｈ（ｘ）≦０として考えることもできる。ただし、本実施の形態では状態制約ｈ（ｘ）≧０を対象とするため、正負の符号に注意する。

　なお、状態制約ｈ（ｘ）はスカラ値であり、状態制約ｈ（ｘ）がスカラ値であるので、入力サンプリング範囲の抽出が単純化でき、計算負荷を低減できる。

　なお、障害物の位置ｘ_ｏ，ｙ_ｏを数式モデルに含めても良く、障害物の位置ｘ_ｏ，ｙ_ｏが動的システムであるとして定義しても良い。

　ここまでをまとめて最適化問題を以下の数式（４）のように設定する。

　ここで、Ｊ（ｘ，ｕ）は評価関数である。評価関数は所望の評価値に応じて設計することができる。例えば、目標地点までの距離の時間積分値または入力の大きさの時間積分値を用いることができる。

　数式（４）では、目標地点までの距離の時間積分値および入力の大きさの時間積分値が最小となるように最適化することを表している。なお、評価関数は数学分野における最適化理論の言葉として用いている。

　本実施の形態では、全方位に移動可能な移動体を対象に定式化を説明したが、動的システムの数式モデルｆと状態制約ｈ（ｘ）を表現できる対象であればこれに限定されない。例えば、差動二輪モデルまたは四輪車両モデルを対象とすることもできる。

　＜サンプリング手法による動作計画生成＞
　本実施の形態では、サンプリング手法としてパーティクルフィルタを採用する。パーティクルフィルタとは、確率密度分布による時系列データの予測手法である。このパーティクルフィルタによる状態推定演算を実行することで、数式（４）の最適化問題を逐次的に解く。

　状態推定演算としてのパーティクルフィルタは、複数のパーティクルによって状態の確率密度分布を近似するものであり、例えば、ある状態量を示すパーティクルが多ければ、その状態の確率密度が高いことになる。この場合、確率密度分布の近似精度を保証するためには大量のパーティクルが必要である。すなわち、本開示の対象である手法では、有効なパーティクルの減少によって手法の機能低下が生じる。この機能低下は、アルゴリズム内で計算されたパーティクルが制約を違反して削除された場合に生じる。本開示に係る技術は、この機能低下の発生要因である制約を事前に考慮することで有効パーティクル数を保ち機能低下を抑制する。

　　＜パーティクルフィルタの演算フロー＞
　図６は、本実施の形態の動作計画装置３００における目標軌道生成部３２１で実行されるパーティクルフィルタの演算処理を示すフローチャートである。

　演算処理を開始すると、目標軌道生成部３２１は、まず、事前に考慮すべき状態制約の情報を取得する（ステップＳ１０１）。この状態制約をパーティクルごとに満たすように確率密度分布を近似する。

　目標軌道生成部３２１は、Ｎ_ｐ個のパーティクルを初期化する（ステップＳ１０２）。ここで、Ｎ_ｐは２以上の整数である。このとき、Ｎ_ｐ個のパーティクルはそれぞれ異なる状態量を有することができる。また、現在の移動体１の状態量に基づいて初期化することもできる。ここで、パーティクルの初期化とは、Ｎ_ｐ個のパーティクルをソフトウェア上で用意するための処理であり、ステップＳ１０２以降の処理を実行するために必要な事前準備である。

　本実施の形態では、パーティクルの状態量Ｐは数式（１）で定義する。また、ｎ個目のパーティクルの状態量をＰ_ｎと表記する。

　本実施の形態では、全てのパーティクルについて変数の初期値は同じ値とし、ｘ_ｒ＝０、ｙ_ｒ＝０、ｖ_ｘ＝０、ｖ_ｙ＝０とする。また、各パーティクルに対し重みｗを定義し、初期値は全パーティクルで等しく、以下の数式（５）のように設定する。また、時刻ｔを定義し、初期値０を設定する。

　次に、目標軌道生成部３２１は、事前に考慮すべき状態制約ｈ（ｘ）≧０に基づいて入力サンプリング範囲を抽出する（ステップＳ１０３）。

　以下、その抽出方法を説明する。まず、状態制約を表す関数ｈ（ｘ）の時間微分を計算する。本実施の形態では、具体的に以下の数式（６）の計算となる。

　ただし、状態量ｘと入力ｕは、数式（１）で定義され、数式モデルｆは数式（２）で表される。

　そして、以下の数式（７）で表される不等式を満たす入力サンプリング範囲でパーティクルを生成する。

　本実施の形態では、具体的に以下の数式（８）で表される不等式となる。

　ここで、α（ｈ）は拡張クラスκ関数と呼ばれ、単調増加かつα（０）＝０である。例えば、α（ｈ）＝α^・ｈが用いられる。なお、「α^・」は正の定数である。

　ある時刻ｔ≧０で状態制約ｈ（ｘ）≧０を満たしている場合に、数式（８）の不等式を満たす入力サンプリングと数式モデルｆによって時間発展する状態量ｘは、時刻ｔ以降もｈ（ｘ）≧０を満たし続ける。理論的な証明は非特許文献１に開示されている。非特許文献１は、移動体が障害物に衝突しない速度範囲の計算方法を開示しており、より具体的には、非特許文献１のII.Ｂ節およびIII.Ｂ節に開示されている。

　なお、本実施の形態では数式（６）と数式（８）を連続時間で表現しているが、定義した離散時間幅Δｔを用いて離散時間表現とすることもできる。

　以上のように、状態制約ｈ（ｘ）≧０を数式（８）の条件で事前に考慮した入力サンプリング範囲で、上述したシステムの数式モデルｆにより離散時間幅Δｔ秒後の状態量ｘ^＋を予測する。これにより、制約を考慮したパーティクルの状態予測が可能となる。

　数式（８）を満たす入力サンプリング範囲で生成されたパーティクルの状態量Ｐ_ｎは状態制約ｈ（ｘ）≧０を満たす。従って、生成された全てのパーティクルが有効であり、確率密度分布の近似精度を保証できる。ここで、確率密度分布の近似精度とは有効パーティクルの数で定義される。最初に用意したＮ_ｐ個から減った分だけ確率密度分布の近似精度が低下するが、生成された全てのパーティクルが有効であるので、近似精度を保証できる。確率密度分布の近似精度が保証されるので、事後処理が不要になり効率が良い。

　次に、目標軌道生成部３２１は、状態制約に基づいた離散時間幅Δｔ秒後の状態を予測する（ステップＳ１０４）。パーティクルの状態予測は、本実施の形態では、数式（２）の数式モデルを用いる。ここで、ステップＳ１０３で抽出された入力サンプリング範囲で乱数を用いてパーティクルを生成することで、状態制約ｈ（ｘ）≧０に基づいたパーティクル生成ができる。

　パーティクルの状態量Ｐは予測状態量ｘ^＋と入力サンプリング値である入力ｕを用いて更新し、以下の数式（９）のように表す。

　ここで、パーティクルの状態量ｘ、予測状態量ｘ^＋、入力サンプリング値である入力ｕは全て列ベクトルであり、簡略化のため転置を用いている。

　パーティクルの状態量ＰをＮ_ｐ回計算した後に、各パーティクルの観測値を求める（ステップＳ１０５）。観測変数は動作計画の目標に基づき設計する。動作計画の目標は、移動体１の周辺環境またはユーザの設定により決定する。本実施の形態では、理想的な移動経路の維持と、移動速度の維持と、障害物との距離の保持とを目標とする。これらの目標に基づき、理想的な移動経路との横偏差ｙ_ｄ、移動速度ｖ、障害物との距離ｄに対する観測変数としてφを以下の数式（１０）で表す。

　ここで、ｅは自然対数を表している。それぞれの値はパーティクルの状態量ｘを用いて表現できるため、観測変数は状態量ｘの関数φ（ｘ）として考えることもできる。以降の議論では、表記の簡単化のためφとして記載する。なお、観測変数としては、理想的な移動経路との横偏差ｙ_ｄ、移動速度ｖ、障害物との距離ｄの少なくとも１つを含む。

　次に、各パーティクルの観測値φ、理想観測値φ_ｉとの差から、各パーティクルの重みｗを更新する。ここで、理想観測値φ_ｉとは、仮想的に設計した理想状態にある移動体１に対する観測値であり、走行計画の目標から決定される。従って、移動体１が動作計画の目標を満たしている場合に、移動体１は理想状態となる。本実施の形態では、理想観測値φ_ｉは以下の数式（１１）で表す。

　ここで、それぞれの値は観測変数φに対応する。従って、本実施の形態では、横偏差は０、理想的な移動速度はｖ_ｉ、障害物との距離ｄは大きく保つ、すなわちｄは無限大（∞）に近付けることで数式（１０）の自然対数ｅで表される値は０に近付けることが理想状態である。

　パーティクルフィルタの理論に基づき、各パーティクルの重みｗを更新する。更新は、以下の数式（１２）で表すように、ｎ個目のパーティクルの重みｗ_ｎと尤度γとに比例し、全パーティクルの重みの積算値が１となるようにする。

　ここで、各パーティクルの尤度γは、予め設定しておいたパーティクルの状態量ｘに関する共分散行列Ｑと観測値φに関する共分散行列Ｒを用いて、以下の数式（１３）を用いてで計算する。

　ここで、ｄｅｔ演算子は正方行列の行列式を計算することを表し、行列Ｓは、以下の数式（１４）で表される。

　ただし、行列Ｈは状態量ｘがある値（バーｘ）の場合の観測変数φを状態量ｘで微分した微分係数であり、以下の数式（１５）で定義する。

　次に、目標軌道生成部３２１は、各パーティクルの重みｗに基づいて、パーティクルのリサンプリングを行う（ステップＳ１０６）。ただし、本実施の形態では、パーティクルの大幅なばらつきを防ぐため、仮想有効パーティクル数Ｎ_ｅｆｆがしきい値Ｎ_ｔｈ以下となる場合にのみリサンプリングを行い、それ以外の場合はこのステップでは何も行わない。ここで、仮想有効パーティクル数Ｎ_ｅｆｆは、以下の数式（１６）を用いて計算する。なお、リサンプリングは毎回実行することもできる。

　ここで、「仮想有効パーティクル数」としているのは、各パーティクルの重みを用いて仮想的にパーティクル数を計算しているためであり、各パーティクルの重みが等しい場合に、数式（１６）の計算結果がパーティクル数と一致する。

　リサンプリング方法としては、通常のパーティクルフィルタと同様に、経験分布関数から等間隔にサンプリングする。リサンプリングを行った場合、数式（５）に基づいて各パーティクルの重みは同等として初期化する。

　次に、目標軌道生成部３２１は、上述の処理で得られたパーティクルの状態量Ｐについて重みｗに基づく加重平均値を計算し、動作計画として状態量ｘと入力ｕを目標軌道生成部３２１に記憶し（ステップＳ１０７）、時刻をｔ＋Δｔとして更新する。

　次に、目標軌道生成部３２１は、更新された時刻ｔが動作計画の計画対象期間である計画ホライズン値τ_ｈに達したかどうかを判断する（ステップＳ１０８）。ｔ＜τ_ｈの場合（Ｎｏの場合）、ステップＳ１０３以下の処理を繰り返す。一方、ｔ≧τ_ｈの場合（Ｙｅｓの場合）、動作計画として記憶した状態量ｘおよび入力ｕのデータを、目標軌道および目標入力データとして出力し、動作計画生成の演算を終了する。

　図７は、上述したサンプリング手法による動作計画生成の結果を模式的に示す図である。ここでは簡単にするため、パーティクルの個数をＮ_ｐ＝１０としているが、実際には推定演算される状態数の１０倍を目安にしてサンプリングを実施している。

　図７において、推定演算される全パーティクルの初期値はノード３３０を参照し、本実施の形態では、ノード３３０と同じ値として演算を開始する。これらのパーティクルに対して数式（１）～数式（８）を用いて説明した処理を経てそれぞれの状態遷移を予測し、数式（９）を用いてパーティクルの状態量を更新してパーティクルの更新値を得る。これらは、数式モデルの数式（２）に従いながら数式（３）で表現された状態制約ｈ（ｘ）≧０を満たすように、例えば、図７中のノード３３０を初期値とした場合に、パーティクル３３１として示すようなばらつきを持つ。

　更新された各パーティクル３３１に対して、数式（１０）～数式（１６）を用いて説明した処理を経て、目標軌道と目標入力が周辺環境との関係に応じて重みが計算され、重みに応じたリサンプリングが実行され、例えば、新しいノード３３２のようになる。ここでは、数式（１０）の観測値を計算するために、理想経路４００と、障害物６００（または人５００）の情報を取得している。

　＜効果＞
　以上説明した動作計画生成部３２０の構成によれば、パーティクルフィルタに代表されるサンプリング手法による動作計画を動的システムへ適用する場合に、状態制約ｈ（ｘ）≧０を事前に考慮した入力サンプリング範囲でパーティクルを生成することで、確率密度分布の精度を保証できる効率の良い動作計画を実施することができる。

　状態制約ｈ（ｘ）≧０を事前に考慮しない場合は障害物と衝突すると判定されたパーティクルは、システムの安全性またはシミュレーションの整合性を保つために後処理が実施される。例えば、衝突すると判定されたパーティクルは削除すると設定すると、確率密度分布の精度を保証できない。例えば、後処理として重みの調整をする場合は、動的システムの数式モデルｆとの整合性を保つ必要があり、調整のための計算負荷が発生する可能性がある。

　なお、本実施の形態では、サンプリング手法としてパーティクルフィルタを例示して説明したが、サンプリング手法は例えばモンテカルロ法を技術背景として有する異なる手法とすることもできる。本開示の特徴は入力サンプリング範囲を数式モデルで表現された状態制約に基づいて事前に制限することであり、サンプリング手法自体の形態とは無関係に導入できる。

　また、数式（３）に示すように状態制約として、障害物との衝突回避を考慮した制約に限定したが、これに限定されない。状態制約として、車線の逸脱を考慮した制約、危険領域への侵入を考慮した制約、急な操舵による転倒を考慮した制約、ロボットアームであれば可動域を考慮した制約、特異姿勢を考慮した制約が挙げられる。

　＜実施の形態２＞
　次に、本開示に係る実施の形態２の動作計画装置３００について説明する。なお、実施の形態２の動作計画装置３００の構成は、図４に示した実施の形態１の動作計画装置３００の構成と同じである。

　以上説明した実施の形態１の数式モデル（数式（１）、数式（２））と状態制約（数式（３））の関係においては、状態制約を表す関数ｈ（ｘ）の時間に関する一階微分で入力項が現れているが、二階以上の時間微分をすることもできる。

　例えば、移動体１の状態量ｘをＸＹ座標系の位置および速度とし、入力ｕをＸＹ座標系における加速度として以下の数式（１７）のように再定義する。

　移動体１の数式モデルｆも以下の数式（１８）のように再定義する。

　状態制約ｈ（ｘ）≧０は、例えば実施の形態１と同様に障害物との衝突を防ぐものとし、数式（３）のように表す。

　ここで、再定義された移動体の数式モデルｆに基づいて、数式（３）の一階微分と二階微分の時間微分を計算すると、それぞれ以下の数式（１９）と数式（２０）の計算となる。

　また、以下の数式（２１）のようにベクトル値関数η（ｘ）を定義する。

　このベクトル値関数η（ｘ）を用いて、状態制約ｈ（ｘ）≧０を事前に考慮するように入力サンプリング範囲を制限するためには、数式（７）の条件を拡張して以下の数式（２２）の条件とする。

　ここで、Ｋ_ｂ＝［ｋ_ｂ１，ｋ_ｂ２］は全ての要素が正であるベクトルを表す。

　数式（２２）で表された入力サンプリング範囲内で乱数に基づいてパーティクルを生成することで、生成されたパーティクルの状態量ｘは状態制約ｈ（ｘ）を満たし続ける。つまり、実施の形態１の結果と同様に無効パーティクルが生成されずに、効率良くサンプリングを実行できる。状態制約ｈ（ｘ）を満たすことに関する数学的な証明は非特許文献２に開示されている。非特許文献２は、移動体が障害物に衝突しない加速度範囲の計算方法を開示しており、より具体的には、非特許文献２のIII節に開示されている。

　＜実施の形態３＞
　次に、本開示に係る実施の形態３の動作計画装置３００について説明する。なお、実施の形態２の動作計画装置３００の構成は、図４に示した実施の形態１の動作計画装置３００の構成と同じである。

　以上説明した実施の形態１における入力サンプリング範囲の制限は、数式（７）で制限された入力サンプリング範囲から乱数に基づいて入力値を取得していた。この制限方法について、最初に制限されない入力サンプリング範囲で乱数に基づいて入力値を取得した後に、数式（７）の制約条件を満たすように入力値を修正することもできる。また、修正方法として入力の修正量を評価関数とする最適化問題に基づいた修正方法を用いることができる。

　図８は、実施の形態３における入力値の修正方法を模式的に示す図である。ここでは、実施の形態１の場合を例として示している。

　図８において、制限されない入力サンプリング範囲である元の入力サンプリング範囲８０４で乱数に基づいて入力値を取得すると、例えば、数式（７）を満たす入力値８０１と、数式（７）を満たさない、すなわち違反する入力値８０２について、数式（７）の左辺の正負が変わる境界８０６に基づいて入力値を分けることができる。

　違反する入力値８０２について、例えば各値について修正量８０５を導入し、元の入力サンプリング範囲８０４と数式（７）で制限された入力サンプリング範囲を満たすように修正後の入力値８０３とする。そして、入力値８０１と修正された入力値８０３によって図６に示したステップＳ１０４以降の処理を実行する。

　本実施の形態においては、入力サンプリング範囲を制限することで、例えば数式（７）で制限された範囲から乱数に基づいて入力値を取得することが難しい場合に、別の最適化問題によって入力値を乱数に基づいて取得した後に修正することができる。

　また、乱数に基づいて取得した入力値を数式（７）を満たすように制限するための入力の修正量を評価関数とすることで、設計者が入力サンプリング範囲を設計者の望ましい範囲に設計することができ、入力値の修正量を直接評価できる。

　入力の修正量を評価関数とする場合には、例えば入力の修正量の２乗として評価関数を設定することができる。このとき、例えば数式（７）が入力に対して線形であれば２次計画問題の解析解を適用することができるため、計算効率が良くなる。

　＜実施の形態４＞
　次に、本開示に係る実施の形態４の動作計画装置３００について説明する。なお、実施の形態４の動作計画装置３００の構成は、図４に示した実施の形態１の動作計画装置３００の構成と同じである。

　実施の形態１または実施の形態３で説明した入力サンプリング範囲の制限は、乱数に基づいて得られた入力値が全て数式（７）を満たすことを要求していたが、実施の形態４では、事前に状態制約ｈ（ｘ）の情報に基づいて入力サンプリング範囲を調整することで、乱数に基づいて取得される入力値の一部または全部が数式（７）を満たさないことも許容する。

　すなわち、数式（７）を満たす入力値が一定数以上となるように入力サンプリング範囲を確率密度分布関数によって近似的に制限し、範囲を調整する。パーティクルフィルタの状態推定演算に確率密度分布の情報を適用できることで、計算負荷を低減できる。

　例えば、入力サンプリング範囲を対称的に制限する場合はガウス分布とし、ガウス分布を特徴づける平均値と標準偏差を入力サンプリング範囲を調整するパラメータとする。または、最適化問題に基づいてガウス分布を特徴づける平均値と標準偏差の両方または片方を入力サンプリング範囲を調整するパラメータとする。なお、入力サンプリング範囲を特定の方向に制限したい場合にはガンマ分布とする。

　パーティクルフィルタの状態推定演算にガウス分布の情報を適用できることで、計算負荷を低減できる。また、入力サンプリング範囲をガウス分布で規定することで、範囲を調整するパラメータを平均値と標準偏差に絞ることができ、計算負荷を低減できる。

　また、ガウス分布による範囲の調整を最適化問題に基づいて調整することで、機械的に調整することができる。

　以下の説明では、入力サンプリング範囲をガウス分布として制限するものとし、図９に制限方法の例を模式的に示している。ここでは、実施の形態１の場合を例として示している。

　図９において、調整された入力サンプリング範囲である元の入力サンプリング範囲をガウス分布として定め、平均値８１１と標準偏差８１２で特徴づける。このとき、乱数に基づいて入力値を取得すると数式（７）を違反する値が多く抽出される。例えば、平均値８１１が数式（７）を違反する場合は、乱数に基づいて取得される入力値が数式（７）を満たす確率は０．５未満である。

　ここで、数式（７）の左辺の正負が変わる境界８０６に基づき、例えば平均値８１１を修正量８１３で修正して修正後平均値８１５とし、標準偏差８１２を修正量８１４で修正して修正後標準偏差８１６とする。なお、修正方法としては、実施の形態３と同様に入力の修正量を評価関数とする最適化問題に基づいた修正方法を用いることができる。

　これらの修正後平均値８１５と修正後標準偏差８１６で特徴づけられたガウス分布から乱数に基づいて取得される入力値は、元の入力サンプリング範囲から取得される入力値と比較して、数式（７）を満たす値が多く抽出される。この入力サンプリング値を用いて、図６のステップＳ１０４以降の処理を実行する。例えば、平均値８１１を修正量８１３で修正して修正後平均値８１５とすると、乱数に基づいて取得される入力値が数式（７）を満たす確率は０．５以上として調整できる。

　入力サンプリング範囲を予め設定した確率密度分布関数で近似することで、確率密度分布を特徴づけるパラメータのみを修正するだけで済む。従って、計算を単純化することができ、計算負荷を低減できる。

　＜ハードウェア構成＞
　なお、以上説明した実施の形態１～４の動作計画装置３００の各構成要素は、コンピュータを用いて構成することができ、コンピュータがプログラムを実行することで実現される。すなわち、例えば、図１０に示す処理回路１０００により実現される。処理回路１０００には、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサが適用され、記憶装置に格納されるプログラムを実行することで各部の機能が実現される。なお、目標軌道記憶部３２２はコンピュータに含まれる記憶装置により実現される。

　処理回路１０００には、専用のハードウェアが適用されても良い。処理回路１０００が専用のハードウェアである場合、処理回路１０００は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはこれらを組み合わせたもの等が該当する。

　動作計画装置３００は、構成要素の各々の機能が個別の処理回路で実現することもでき、それらの機能がまとめて１つの処理回路で実現することもできる。

　また、図１１には、処理回路１０００がプロセッサを用いて構成されている場合におけるハードウェア構成を示している。この場合、動作計画装置３００の各部の機能は、ソフトウェア等（ソフトウェア、ファームウェア、またはソフトウェアとファームウェア）との組み合わせにより実現される。ソフトウェア等はプログラムとして記述され、メモリ１００２に格納される。処理回路１０００として機能するプロセッサ１００１は、メモリ１００２（記憶装置）に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、このプログラムは、動作計画装置３００の構成要素の動作の手順および方法をコンピュータに実行させるものであると言える。

　ここで、メモリ１００２は、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリー、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等の、不揮発性または揮発性の半導体メモリ、ＨＤＤ（Hard Disk Drive）、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（Digital Versatile Disc）およびそのドライブ装置等、または、今後使用されるあらゆる記憶媒体とすることができる。

　以上、動作計画装置３００の各構成要素の機能が、ハードウェアおよびソフトウェア等の何れか一方で実現される構成について説明した。しかしこれに限ったものではなく、動作計画装置３００の一部の構成要素を専用のハードウェアで実現し、別の一部の構成要素をソフトウェア等で実現することもできる。例えば、一部の構成要素については専用のハードウェアとしての処理回路１０００でその機能を実現し、他の一部の構成要素についてはプロセッサ１００１としての処理回路１０００がメモリ１００２に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。

　以上のように、動作計画装置３００は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。

　本開示は詳細に説明されたが、上記した説明は、全ての局面において、例示であって、本開示がそれに限定されるものではない。例示されていない無数の変形例が、本開示の範囲から外れることなく想定され得るものと解される。

　なお、本開示は、その開示の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。

Claims

　サンプリング手法による動的システムの動作計画装置であって、
　前記動的システムに達成させる目標に基づいて前記動的システムの運動を表現する数式モデルと前記動的システムの事前に考慮すべき状態制約を出力する行動計画部と、
　前記数式モデルと前記状態制約に基づいて入力サンプリング範囲を制限し、前記数式モデルに基づいて前記入力サンプリング範囲での状態推定演算により、前記動的システムの動作計画を生成する動作計画生成部と、を有する、動作計画装置。
　前記動作計画生成部は、
　制限されない前記入力サンプリング範囲で乱数に基づいて入力値を取得した後に、前記状態制約を満たすように前記入力値を修正する、請求項１記載の動作計画装置。
　前記動作計画生成部は、
　前記入力サンプリング範囲を満たす入力値が一定数以上となるように前記入力サンプリング範囲を調整する、請求項１記載の動作計画装置。
　前記動作計画生成部は、
　最適化問題に基づいて前記入力値を修正する、請求項２または請求項３記載の動作計画装置。
　前記動作計画生成部は、
　前記入力値を修正する際の修正量を前記最適化問題の評価関数とする、請求項４記載の動作計画装置。
　前記数式モデルは、入力に対して線形である、請求項１記載の動作計画装置。
　前記状態制約は、一階微分による入力サンプリングに対してスカラ値となる制約である、請求項１記載の動作計画装置。
　前記動作計画生成部は、
　前記入力サンプリング範囲を満たす前記入力値が前記一定数以上となるように、前記入力サンプリング範囲を確率密度分布で規定する、請求項３記載の動作計画装置。
　前記動作計画生成部は、
　前記確率密度分布をガウス分布とし、前記ガウス分布を特徴づける平均値および標準偏差を前記入力サンプリング範囲を調整するパラメータとする、請求項８記載の動作計画装置。
　前記動作計画生成部は、
　前記確率密度分布をガウス分布とし、最適化問題に基づいて前記ガウス分布を特徴づける平均値および標準偏差の両方または片方を前記入力サンプリング範囲を調整するパラメータとする、請求項８記載の動作計画装置。
　前記サンプリング手法は、
　複数のパーティクルによって状態の確率密度分布を近似するパーティクルフィルタである、請求項１記載の動作計画装置。
　前記動的システムは移動体である、請求項１から請求項３の何れか１項に記載の動作計画装置。