JPWO2019167457A1 - 情報処理装置、情報処理方法、プログラム、及び移動体 - Google Patents

情報処理装置、情報処理方法、プログラム、及び移動体 Download PDF

Info

Publication number
JPWO2019167457A1
JPWO2019167457A1 JP2020502850A JP2020502850A JPWO2019167457A1 JP WO2019167457 A1 JPWO2019167457 A1 JP WO2019167457A1 JP 2020502850 A JP2020502850 A JP 2020502850A JP 2020502850 A JP2020502850 A JP 2020502850A JP WO2019167457 A1 JPWO2019167457 A1 JP WO2019167457A1
Authority
JP
Japan
Prior art keywords
information processing
cost function
processing device
unit
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020502850A
Other languages
English (en)
Other versions
JP7405072B2 (ja
Inventor
由香 有木
由香 有木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2019167457A1 publication Critical patent/JPWO2019167457A1/ja
Application granted granted Critical
Publication of JP7405072B2 publication Critical patent/JP7405072B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3453Special cost functions, i.e. other than distance or default speed limit of road segments
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/161Decentralised systems, e.g. inter-vehicle communication
    • G08G1/163Decentralised systems, e.g. inter-vehicle communication involving continuous checking

Abstract

本技術の一形態に係る情報処理装置は、取得部と、算出部とを具備する。前記取得部は、移動体が移動した軌道に関する軌道データを含む教師データを取得する。前記算出部は、前記取得された教師データに基づいて、逆強化学習により、移動体の移動に関するコスト関数を算出する。

Description

本技術は、移動体の移動制御に適用可能な情報処理装置、情報処理方法、プログラム、及び移動体に関する。
特許文献1には、車両が狭い駐車スペースや狭い道幅を移動する際に、誘導経路を生成して車両を誘導することで運転を支援する駐車支援システムについて開示されている。この駐車支援システムでは、所定の安全マージンに基づいて誘導経路を生成し、自動誘導を実行する。その際に、障害物等の存在により車両を目標位置まで誘導することが難しくなった場合には、安全マージンを所定の条件に基づいて適宜調整する。これにより、車両を目標位置まで誘導することが可能となっている(特許文献1の明細書段落[0040]〜[0048]図5等)。
特開2017−30481号公報
今後、車両を含む様々な移動体に関して自動運転技術の利用が活発になると考えられる。移動体が移動する環境に合わせた柔軟な移動制御を実現することが可能な技術が求められている。
以上のような事情に鑑み、本技術の目的は、移動環境に合わせた柔軟な移動制御を実現することが可能な情報処理装置、情報処理方法、プログラム、及び移動体を提供することにある。
上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、算出部とを具備する。
前記取得部は、移動体が移動した軌道に関する軌道データを含む教師データを取得する。
前記算出部は、前記取得された教師データに基づいて、逆強化学習により、移動体の移動に関するコスト関数を算出する。
この情報処理装置では、教師データに基づいて、逆強化学習によりコスト関数が算出される。これにより、移動環境に合わせた柔軟な移動制御を実現することが可能となる。
前記コスト関数は、移動体の移動に関する情報を入力することで、コストマップを生成可能であってもよい。
前記移動に関する情報は、前記移動体の位置、前記移動体の周辺情報、及び前記移動体の速度の少なくとも1つを含んでもよい。
前記算出部は、前記コストマップを規定する所定のパラメータが可変となるように、前記コスト関数を算出してもよい。
前記算出部は、安全マージンが可変となるように、前記コスト関数を算出してもよい。
前記情報処理装置は、さらに、前記算出されたコスト関数を、シミュレーションにより最適化する最適化処理部を具備してもよい。
前記最適化処理部は、前記取得された教師データに基づいて、前記コスト関数を最適化してもよい。
前記最適化処理部は、前記シミュレーションにより生成される軌道データに基づいて、前記コスト関数を最適化してもよい。
前記最適化処理部は、前記取得された教師データと、前記シミュレーションにより生成される軌道データとを組み合わせることで、前記コスト関数を最適化してもよい。
前記最適化処理部は、ユーザにより設定された評価パラメータに基づいて、前記コスト関数を最適化してもよい。
前記最適化処理部は、目的地までの達成度、移動に関する安全度、及び移動に関する快適度の少なくとも1つに基づいて、前記コスト関数を最適化してもよい。
前記算出部は、GPIRL(Gaussian Process Inverse Reinforcement Learning)により、前記コスト関数を算出してもよい。
前記コスト関数は、確率分布に基づいたコストマップを生成可能であってもよい。
前記コスト関数は、正規分布に基づいたコストマップを生成可能であってもよい。この場合、前記コストマップは、共分散行列の固有値に応じた安全マージンにより規定されてもよい。
前記コストマップは、前記移動体の進行方向に基づいた安全マージンにより規定されてもよい。
前記算出部は、互いに異なる地域の各々に応じた前記コスト関数をそれぞれ算出することが可能であってもよい。
本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、移動体が移動した軌道に関する軌道データを含む教師データを取得することを含む。
前記取得された教師データに基づいて、逆強化学習により、移動体の移動に関するコスト関数が算出される。
本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
移動体が移動した軌道に関する軌道データを含む教師データを取得するステップ。
前記取得された教師データに基づいて、逆強化学習により、移動体の移動に関するコスト関数を算出するステップ。
本技術の一形態に係る移動体は、取得部と、軌道算出部とを具備する。
前記取得部は、移動体が移動した軌道に関する軌道データを含む教師データに基づいて逆強化学習により算出された、移動体の移動に関するコスト関数を取得する。
前記軌道算出部は、前記取得されたコスト関数に基づいて、軌道を算出する。
前記移動体は、車両として構成されてもよい。
本技術の他の形態に係る情報処理装置は、取得部と、生成部とを具備する。
前記取得部は、移動体の移動に関する情報を取得する。
前記生成部は、前記取得された移動体の移動に関する情報に基づいて、確率分布に基づいたコストマップを生成する。
以上のように、本技術によれば、移動環境に合わせた柔軟な移動制御を実現することが可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術に係る移動制御システムの構成例を示す模式図である。 車両の構成例を示す外観図である。 車両の制御を行う車両制御システムの構成例を示すブロック図である。 サーバ装置の機能的な構成例を示すブロック図である。 サーバ装置によるコスト関数の生成の一例を示すフローチャートである。 コストマップの一例を示す模式図である。 教師データの一例を示す模式図である。 図7に示す教師データに基づいて算出されたコスト関数により生成されるコストマップの一例を示す模式図である。 コスト関数の最適化に用いられるシミュレーションの一例である。 コスト関数の最適化に用いられるシミュレーションの一例である。 本技術に関して行った評価について説明するための図である。 本技術に関して行った評価について説明するための図である。 比較例として挙げる軌道算出方法について説明するための図である。
以下、本技術に係る実施形態を、図面を参照しながら説明する。
[移動制御システムの構成]
図1は、本技術に係る移動制御システムの構成例を示す模式図である。移動制御システム500は、複数の車両10と、ネットワーク20と、データベース25と、サーバ装置30とを有する。複数の車両10の各々は、目的地までの自動走行が可能な自動運転機能を備えている。なお車両10は、本実施形態に係る移動体の一例である。
複数の車両10とサーバ装置30とは、ネットワーク20を介して通信可能に接続されている。サーバ装置30は、データベース25にアクセス可能に接続され、例えば複数の車両10から取得した種々の情報をデータベース25に記録することや、データベース25に記録された種々の情報を読み出して各車両10に送信することが可能である。
ネットワーク20は、例えばインターネットや広域通信回線網等により構築される。その他、任意のWAN(Wide Area Network)やLAN(Local Area Network)等が用いられてよく、ネットワーク20を構築するためのプロトコルは限定されない。
本実施形態では、ネットワーク20、サーバ装置30、及びデータベース25により、いわゆるクラウドサービスが提供される。従って複数の車両10は、クラウドネットワークに接続されているとも言える。
図2は、車両10の構成例を示す外観図である。図2Aは、車両10の構成例を示す斜視図であり、図2Bは、車両10を上方から見た場合の模式図である。
図2A及びBに示すように、車両10は、周辺センサ11を有する。周辺センサ11は、車両10の周辺に関する周辺情報を検出する。ここで周辺情報とは、車両10の周辺の画像情報や奥行情報等を含む情報である。例えば周辺に存在する障害物までの距離や、障害物の大きさ等が、周辺情報として検出される。図2A及び図2Bには、周辺センサ11の一例として、撮像装置12及び距離センサ13が模式的に図示されている。
撮像装置12は、車両10の前方に向けて配置され、車両10の前方を撮影して画像情報を検出する。撮像装置12としては、例えばCCDやCMOS等のイメージセンサを備えたRGBカメラ等が用いられる。これに限定されず、赤外光や偏光光を検出するイメージセンサ等が撮像装置12として用いられてもよい。
距離センサ13は、車両10の前方に向けて配置される。距離センサ13は、その検出範囲に含まれる物体との距離に関する情報を検出し、車両10の周辺の奥行情報を検出する。距離センサ13としては、例えばLiDAR(Laser Imaging Detection and Ranging)センサ等が用いられる。
LiDARセンサを用いることで、例えば奥行情報を持った画像(デプス画像)等を容易に検出することが可能である。また距離センサ13として、例えばTOF(Time of Fright)方式のデプスセンサ等が用いられてもよい。この他距離センサ13の種類等は限定されずレンジファインダー、ミリ波レーダ、及び赤外線レーザ等を用いた任意のセンサが用いられてよい。
この他、周辺センサ11の種類や数等は限定されない。例えば車両10の後方や側方等の任意の方向に向けて配置された周辺センサ11(撮像装置12及び距離センサ13)が用いられてもよい。なお、周辺センサ11は、後述するデータ取得部102が備えるセンサにより構成される。
図3は、車両10の制御を行う車両制御システム100の構成例を示すブロック図である。車両制御システム100は、車両10に設けられ、車両10の各種の制御を行うシステムである。
車両制御システム100は、入力部101、データ取得部102、通信部103、車内機器104、出力制御部105、出力部106、駆動系制御部107、駆動系システム108、ボディ系制御部109、ボディ系システム110、記憶部111、及び、自動運転制御部112を備える。入力部101、データ取得部102、通信部103、出力制御部105、駆動系制御部107、ボディ系制御部109、記憶部111、及び、自動運転制御部112は、通信ネットワーク121を介して、相互に接続されている。通信ネットワーク121は、例えば、CAN(Controller Area Network)、LIN(Local Interconnect Network)、LAN(Local Area Network)、又は、FlexRay(登録商標)等の任意の規格に準拠した車載通信ネットワークやバス等からなる。なお、車両制御システム100の各部は、通信ネットワーク121を介さずに、直接接続される場合もある。
なお、以下、車両制御システム100の各部が、通信ネットワーク121を介して通信を行う場合、通信ネットワーク121の記載を省略するものとする。例えば、入力部101と自動運転制御部112が、通信ネットワーク121を介して通信を行う場合、単に入力部101と自動運転制御部112が通信を行うと記載する。
入力部101は、搭乗者が各種のデータや指示等の入力に用いる装置を備える。例えば、入力部101は、タッチパネル、ボタン、マイクロフォン、スイッチ、及び、レバー等の操作デバイス、並びに、音声やジェスチャ等により手動操作以外の方法で入力可能な操作デバイス等を備える。また、例えば、入力部101は、赤外線若しくはその他の電波を利用したリモートコントロール装置、又は、車両制御システム100の操作に対応したモバイル機器若しくはウェアラブル機器等の外部接続機器であってもよい。入力部101は、搭乗者により入力されたデータや指示等に基づいて入力信号を生成し、車両制御システム100の各部に供給する。
データ取得部102は、車両制御システム100の処理に用いるデータを取得する各種のセンサ等を備え、取得したデータを、車両制御システム100の各部に供給する。
例えば、データ取得部102は、車両10の状態等を検出するための各種のセンサを備える。具体的には、例えば、データ取得部102は、ジャイロセンサ、加速度センサ、慣性計測装置(IMU)、及び、アクセルペダルの操作量、ブレーキペダルの操作量、ステアリングホイールの操舵角、エンジン回転数、モータ回転数、若しくは、車輪の回転速度等を検出するためのセンサ等を備える。
また、例えば、データ取得部102は、車両10の外部の情報を検出するための各種のセンサを備える。具体的には、例えば、データ取得部102は、ToF(Time Of Flight)カメラ、ステレオカメラ、単眼カメラ、赤外線カメラ、及び、その他のカメラ等の撮像装置を備える。また、例えば、データ取得部102は、天候又は気象等を検出するための環境センサ、及び、車両10の周囲の物体を検出するための周囲情報検出センサを備える。環境センサは、例えば、雨滴センサ、霧センサ、日照センサ、雪センサ等からなる。周囲情報検出センサは、例えば、超音波センサ、レーダ、LiDAR(Light Detection and Ranging、Laser Imaging Detection and Ranging)、ソナー等からなる。
さらに、例えば、データ取得部102は、車両10の現在位置を検出するための各種のセンサを備える。具体的には、例えば、データ取得部102は、航法衛星であるGNSS(Global Navigation Satellite System)衛星からの衛星信号(以下、GNSS信号と称する)を受信するGNSS受信機等を備える。
また、例えば、データ取得部102は、車内の情報を検出するための各種のセンサを備える。具体的には、例えば、データ取得部102は、運転者を撮像する撮像装置、運転者の生体情報を検出する生体センサ、及び、車室内の音声を集音するマイクロフォン等を備える。生体センサは、例えば、座面又はステアリングホイール等に設けられ、座席に座っている搭乗者又はステアリングホイールを握っている運転者の生体情報を検出する。
通信部103は、車内機器104、並びに、車外の様々な機器、サーバ、基地局等と通信を行い、車両制御システム100の各部から供給されるデータを送信したり、受信したデータを車両制御システム100の各部に供給したりする。なお、通信部103がサポートする通信プロトコルは、特に限定されるものではなく、また、通信部103が、複数の種類の通信プロトコルをサポートすることも可能である。
例えば、通信部103は、無線LAN、Bluetooth(登録商標)、NFC(Near Field Communication)、又は、WUSB(Wireless USB)等により、車内機器104と無線通信を行う。また、例えば、通信部103は、図示しない接続端子(及び、必要であればケーブル)を介して、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)、又は、MHL(Mobile High-definition Link)等により、車内機器104と有線通信を行う。
さらに、例えば、通信部103は、基地局又はアクセスポイントを介して、外部ネットワーク(例えば、インターネット、クラウドネットワーク又は事業者固有のネットワーク)上に存在する機器(例えば、アプリケーションサーバ又は制御サーバ)との通信を行う。また、例えば、通信部103は、P2P(Peer To Peer)技術を用いて、車両10の近傍に存在する端末(例えば、歩行者若しくは店舗の端末、又は、MTC(Machine Type Communication)端末)との通信を行う。さらに、例えば、通信部103は、車車間(Vehicle to Vehicle)通信、路車間(Vehicle to Infrastructure)通信、車両10と家との間(Vehicle to Home)の通信、及び、歩車間(Vehicle to Pedestrian)通信等のV2X通信を行う。
また、例えば、通信部103は、ビーコン受信部を備え、道路上に設置された無線局等から発信される電波あるいは電磁波を受信し、現在位置、渋滞、通行規制又は所要時間等の情報を取得する。
車内機器104は、例えば、搭乗者が有するモバイル機器若しくはウェアラブル機器、車両10に搬入され若しくは取り付けられる情報機器、及び、任意の目的地までの経路探索を行うナビゲーション装置等を含む。
出力制御部105は、車両10の搭乗者又は車外に対する各種の情報の出力を制御する。例えば、出力制御部105は、視覚情報(例えば、画像データ)及び聴覚情報(例えば、音声データ)のうちの少なくとも1つを含む出力信号を生成し、出力部106に供給することにより、出力部106からの視覚情報及び聴覚情報の出力を制御する。具体的には、例えば、出力制御部105は、データ取得部102の異なる撮像装置により撮像された画像データを合成して、俯瞰画像又はパノラマ画像等を生成し、生成した画像を含む出力信号を出力部106に供給する。また、例えば、出力制御部105は、衝突、接触、危険地帯への進入等の危険に対する警告音又は警告メッセージ等を含む音声データを生成し、生成した音声データを含む出力信号を出力部106に供給する。
出力部106は、車両10の搭乗者又は車外に対して、視覚情報又は聴覚情報を出力することが可能な装置を備える。例えば、出力部106は、表示装置、インストルメントパネル、オーディオスピーカ、ヘッドホン、搭乗者が装着する眼鏡型ディスプレイ等のウェアラブルデバイス、プロジェクタ、ランプ等を備える。出力部106が備える表示装置は、通常のディスプレイを有する装置以外にも、例えば、ヘッドアップディスプレイ、透過型ディスプレイ、AR(Augmented Reality)表示機能を有する装置等の運転者の視野内に視覚情報を表示する装置であってもよい。
駆動系制御部107は、各種の制御信号を生成し、駆動系システム108に供給することにより、駆動系システム108の制御を行う。また、駆動系制御部107は、必要に応じて、駆動系システム108以外の各部に制御信号を供給し、駆動系システム108の制御状態の通知等を行う。
駆動系システム108は、車両10の駆動系に関わる各種の装置を備える。例えば、駆動系システム108は、内燃機関又は駆動用モータ等の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、舵角を調節するステアリング機構、制動力を発生させる制動装置、ABS(Antilock Brake System)、ESC(Electronic Stability Control)、並びに、電動パワーステアリング装置等を備える。
ボディ系制御部109は、各種の制御信号を生成し、ボディ系システム110に供給することにより、ボディ系システム110の制御を行う。また、ボディ系制御部109は、必要に応じて、ボディ系システム110以外の各部に制御信号を供給し、ボディ系システム110の制御状態の通知等を行う。
ボディ系システム110は、車体に装備されたボディ系の各種の装置を備える。例えば、ボディ系システム110は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、パワーシート、ステアリングホイール、空調装置、及び、各種ランプ(例えば、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカ、フォグランプ等)等を備える。
記憶部111は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disc Drive)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイス等を備える。記憶部111は、車両制御システム100の各部が用いる各種プログラムやデータ等を記憶する。例えば、記憶部111は、ダイナミックマップ等の3次元の高精度地図、高精度地図より精度が低く、広いエリアをカバーするグローバルマップ、及び、車両10の周囲の情報を含むローカルマップ等の地図データを記憶する。
自動運転制御部112は、自律走行又は運転支援等の自動運転に関する制御を行う。具体的には、例えば、自動運転制御部112は、車両10の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両10の衝突警告、又は、車両10のレーン逸脱警告等を含むADAS(Advanced Driver Assistance System)の機能実現を目的とした協調制御を行う。また、例えば、自動運転制御部112は、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行う。自動運転制御部112は、検出部131、自己位置推定部132、状況分析部133、計画部134、及び、動作制御部135を備える。
自動運転制御部112は、例えばCPU、RAM、及びROM等のコンピュータに必要なハードウェアを有する。CPUがROMに予め記録されているプログラムをRAMにロードして実行することにより、種々の情報処理方法が実行される。
自動運転制御部112の具体的な構成は限定されず、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific Integrated Circuit)等のデバイスが用いられてもよい。
図2に示すように、自動運転制御部112は、検出部131、自己位置推定部132、状況分析部133、計画部134、及び、動作制御部135を備える。例えば、自動運転制御部112のCPUが所定のプログラムを実行することで、各機能ブロックが構成される。
検出部131は、自動運転の制御に必要な各種の情報の検出を行う。検出部131は、車外情報検出部141、車内情報検出部142、及び、車両状態検出部143を備える。
車外情報検出部141は、車両制御システム100の各部からのデータ又は信号に基づいて、車両10の外部の情報の検出処理を行う。例えば、車外情報検出部141は、車両10の周囲の物体の検出処理、認識処理、及び、追跡処理、並びに、物体までの距離の検出処理を行う。検出対象となる物体には、例えば、車両、人、障害物、構造物、道路、信号機、交通標識、道路標示等が含まれる。また、例えば、車外情報検出部141は、車両10の周囲の環境の検出処理を行う。検出対象となる周囲の環境には、例えば、天候、気温、湿度、明るさ、及び、路面の状態等が含まれる。車外情報検出部141は、検出処理の結果を示すデータを自己位置推定部132、状況分析部133のマップ解析部151、交通ルール認識部152、及び、状況認識部153、並びに、動作制御部135の緊急事態回避部171等に供給する。
また本実施形態では、車外情報検出部141により、機械学習に用いられる学習データが生成される。従って車外情報検出部141は、車両10の外部の情報の検出処理と、学習データの生成処理とをそれぞれ実行することが可能である。
車内情報検出部142は、車両制御システム100の各部からのデータ又は信号に基づいて、車内の情報の検出処理を行う。例えば、車内情報検出部142は、運転者の認証処理及び認識処理、運転者の状態の検出処理、搭乗者の検出処理、及び、車内の環境の検出処理等を行う。検出対象となる運転者の状態には、例えば、体調、覚醒度、集中度、疲労度、視線方向等が含まれる。検出対象となる車内の環境には、例えば、気温、湿度、明るさ、臭い等が含まれる。車内情報検出部142は、検出処理の結果を示すデータを状況分析部133の状況認識部153、及び、動作制御部135の緊急事態回避部171等に供給する。
車両状態検出部143は、車両制御システム100の各部からのデータ又は信号に基づいて、車両10の状態の検出処理を行う。検出対象となる車両10の状態には、例えば、速度、加速度、舵角、異常の有無及び内容、運転操作の状態、パワーシートの位置及び傾き、ドアロックの状態、並びに、その他の車載機器の状態等が含まれる。車両状態検出部143は、検出処理の結果を示すデータを状況分析部133の状況認識部153、及び、動作制御部135の緊急事態回避部171等に供給する。
自己位置推定部132は、車外情報検出部141、及び、状況分析部133の状況認識部153等の車両制御システム100の各部からのデータ又は信号に基づいて、車両10の位置及び姿勢等の推定処理を行う。また、自己位置推定部132は、必要に応じて、自己位置の推定に用いるローカルマップ(以下、自己位置推定用マップと称する)を生成する。自己位置推定用マップは、例えば、SLAM(Simultaneous Localization and Mapping)等の技術を用いた高精度なマップとされる。自己位置推定部132は、推定処理の結果を示すデータを状況分析部133のマップ解析部151、交通ルール認識部152、及び、状況認識部153等に供給する。また、自己位置推定部132は、自己位置推定用マップを記憶部111に記憶させる。
以下では、車両10の位置及び姿勢等の推定処理を自己位置推定処理と記載する場合がある。また車両10の位置及び姿勢の情報を位置姿勢情報と記載する。従って自己位置推定部132により実行される自己位置推定処理は、車両10の位置姿勢情報を推定する処理となる。
状況分析部133は、車両10及び周囲の状況の分析処理を行う。状況分析部133は、マップ解析部151、交通ルール認識部152、状況認識部153、及び、状況予測部154を備える。
マップ解析部151は、自己位置推定部132及び車外情報検出部141等の車両制御システム100の各部からのデータ又は信号を必要に応じて用いながら、記憶部111に記憶されている各種のマップの解析処理を行い、自動運転の処理に必要な情報を含むマップを構築する。マップ解析部151は、構築したマップを、交通ルール認識部152、状況認識部153、状況予測部154、並びに、計画部134のルート計画部161、行動計画部162、及び、動作計画部163等に供給する。
交通ルール認識部152は、自己位置推定部132、車外情報検出部141、及び、マップ解析部151等の車両制御システム100の各部からのデータ又は信号に基づいて、車両10の周囲の交通ルールの認識処理を行う。この認識処理により、例えば、車両10の周囲の信号の位置及び状態、車両10の周囲の交通規制の内容、並びに、走行可能な車線等が認識される。交通ルール認識部152は、認識処理の結果を示すデータを状況予測部154等に供給する。
状況認識部153は、自己位置推定部132、車外情報検出部141、車内情報検出部142、車両状態検出部143、及び、マップ解析部151等の車両制御システム100の各部からのデータ又は信号に基づいて、車両10に関する状況の認識処理を行う。例えば、状況認識部153は、車両10の状況、車両10の周囲の状況、及び、車両10の運転者の状況等の認識処理を行う。また、状況認識部153は、必要に応じて、車両10の周囲の状況の認識に用いるローカルマップ(以下、状況認識用マップと称する)を生成する。状況認識用マップは、例えば、占有格子地図(Occupancy Grid Map)とされる。
認識対象となる車両10の状況には、例えば、車両10の位置、姿勢、動き(例えば、速度、加速度、移動方向等)、並びに、異常の有無及び内容等が含まれる。認識対象となる車両10の周囲の状況には、例えば、周囲の静止物体の種類及び位置、周囲の動物体の種類、位置及び動き(例えば、速度、加速度、移動方向等)、周囲の道路の構成及び路面の状態、並びに、周囲の天候、気温、湿度、及び、明るさ等が含まれる。認識対象となる運転者の状態には、例えば、体調、覚醒度、集中度、疲労度、視線の動き、並びに、運転操作等が含まれる。
状況認識部153は、認識処理の結果を示すデータ(必要に応じて、状況認識用マップを含む)を自己位置推定部132及び状況予測部154等に供給する。また、状況認識部153は、状況認識用マップを記憶部111に記憶させる。
状況予測部154は、マップ解析部151、交通ルール認識部152及び状況認識部153等の車両制御システム100の各部からのデータ又は信号に基づいて、車両10に関する状況の予測処理を行う。例えば、状況予測部154は、車両10の状況、車両10の周囲の状況、及び、運転者の状況等の予測処理を行う。
予測対象となる車両10の状況には、例えば、車両10の挙動、異常の発生、及び、走行可能距離等が含まれる。予測対象となる車両10の周囲の状況には、例えば、車両10の周囲の動物体の挙動、信号の状態の変化、及び、天候等の環境の変化等が含まれる。予測対象となる運転者の状況には、例えば、運転者の挙動及び体調等が含まれる。
状況予測部154は、予測処理の結果を示すデータを、交通ルール認識部152及び状況認識部153からのデータとともに、計画部134のルート計画部161、行動計画部162、及び、動作計画部163等に供給する。
ルート計画部161は、マップ解析部151及び状況予測部154等の車両制御システム100の各部からのデータ又は信号に基づいて、目的地までのルートを計画する。例えば、ルート計画部161は、グローバルマップに基づいて、現在位置から指定された目的地までのルートである目標経路を設定する。また、例えば、ルート計画部161は、渋滞、事故、通行規制、工事等の状況、及び、運転者の体調等に基づいて、適宜ルートを変更する。ルート計画部161は、計画したルートを示すデータを行動計画部162等に供給する。
本実施形態では、サーバ装置30からネットワーク20を介して、車両10の移動に関するコスト関数が自動運転制御部112に送信される。ルート計画部161は、受信したコスト関数に基づいて、移動すべき軌道を算出し、適宜ルート計画に反映させる。
例えばコスト関数に、車両10の移動に関する情報を入力することで、コストマップが生成される。車両10の移動に関する情報としては、例えば車両10の位置、車両10の周辺情報、車両10の速度を含む。もちろんこれに限定されず、車両10の移動に関する任意の情報が用いられてよい。これらのうち1つの情報が用いられる場合もあり得る。
算出されたコストマップに基づいて、最もコストの小さい軌道が算出される。なおコストマップを、コスト関数に含まれる概念とみなすことも可能である。従って、コスト関数に車両10の移動に関する情報を入力することで、最もコストの小さい軌道が算出されるということも可能である。
どのようなコストを計算するかについては限定されず、任意に設定されてよい。例えば動的障害物コスト、静的障害物コスト、障害物の種類に応じたコスト、目標速度追従コスト、目標経路追従コスト、速度変化コスト、及びステアリング変化コスト、及びこれらを組み合わせたもの等、任意に設定されてよい。
例えばユーザが所望とする運転態様を満足する軌道が算出されるように、コストを適宜設定することが可能である。例えばユーザが所望する目的地までの到達度、移動に関する安全度、及び移動に関する快適度等を満足する軌道が算出されるように、コストが適宜設定される。なおここに記載した目的地までの到達度等は、後述するコスト関数の最適化が実行される際のユーザの評価パラメータとしても出てくる概念であり、後に詳しく説明する。
コスト関数(コストマップ)を規定するパラメータを適宜設定することで、計算されるコストを適宜設定することが可能である。例えば障害物との距離、自車両の速度、向き等をパラメータとして適宜設定することで、障害物コストを計算することが可能となる。また目標経路との距離をパラメータとして適宜設定することで、目標追従コストを計算することが可能である。もちろんこのようなパラメータの設定に限定される訳ではない。
本実施形態に係る移動制御システム500では、どのようなコストが設定される場合、すなわちコスト関数(コストマップ)を規定するパラメータとして、どのようなパラメータが設定される場合でも、コスト関数に車両10の移動に関する情報を入力することで最もコストの小さい軌道が算出される。この点については、後に詳しく説明する。
行動計画部162は、マップ解析部151及び状況予測部154等の車両制御システム100の各部からのデータ又は信号に基づいて、ルート計画部161により計画されたルートを計画された時間内で安全に走行するための車両10の行動を計画する。例えば、行動計画部162は、発進、停止、進行方向(例えば、前進、後退、左折、右折、方向転換等)、走行車線、走行速度、及び、追い越し等の計画を行う。行動計画部162は、計画した車両10の行動を示すデータを動作計画部163等に供給する
動作計画部163は、マップ解析部151及び状況予測部154等の車両制御システム100の各部からのデータ又は信号に基づいて、行動計画部162により計画された行動を実現するための車両10の動作を計画する。例えば、動作計画部163は、加速、減速、及び、走行軌道等の計画を行う。動作計画部163は、計画した車両10の動作を示すデータを、動作制御部135の加減速制御部172及び方向制御部173等に供給する。
動作制御部135は、車両10の動作の制御を行う。動作制御部135は、緊急事態回避部171、加減速制御部172、及び、方向制御部173を備える。
緊急事態回避部171は、車外情報検出部141、車内情報検出部142、及び、車両状態検出部143の検出結果に基づいて、衝突、接触、危険地帯への進入、運転者の異常、車両10の異常等の緊急事態の検出処理を行う。緊急事態回避部171は、緊急事態の発生を検出した場合、急停車や急旋回等の緊急事態を回避するための車両10の動作を計画する。緊急事態回避部171は、計画した車両10の動作を示すデータを加減速制御部172及び方向制御部173等に供給する。
加減速制御部172は、動作計画部163又は緊急事態回避部171により計画された車両10の動作を実現するための加減速制御を行う。例えば、加減速制御部172は、計画された加速、減速、又は、急停車を実現するための駆動力発生装置又は制動装置の制御目標値を演算し、演算した制御目標値を示す制御指令を駆動系制御部107に供給する。
方向制御部173は、動作計画部163又は緊急事態回避部171により計画された車両10の動作を実現するための方向制御を行う。例えば、方向制御部173は、動作計画部163又は緊急事態回避部171により計画された走行軌道又は急旋回を実現するためのステアリング機構の制御目標値を演算し、演算した制御目標値を示す制御指令を駆動系制御部107に供給する。
図4は、サーバ装置30の機能的な構成例を示すブロック図である。図5は、サーバ装置30によるコスト関数の生成の一例を示すフローチャートである。
サーバ装置30は、例えばCPU、ROM、RAM、及びHDD等のコンピュータの構成に必要なハードウェアを有する。CPUがROM等に予め記録されている本技術に係るプログラムをRAMにロードして実行することにより、図4に示す各ブロックが構成され、本技術に係る情報処理方法が実行される。
例えばPC(Personal Computer)等の任意のコンピュータにより、サーバ装置30を実現することが可能である。もちろんFPGA、ASIC等のハードウェアが用いられてもよい。また図4に示す各ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
プログラムは、例えば種々の記録媒体を介してサーバ装置30にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。
図4に示すようにサーバ装置30は、教師データ取得部31と、コスト関数算出部32と、最適化処理部33と、コスト関数評価部34とを有する。
教師データ取得部31は、データベース25から、コスト関数を算出するための教師データを取得する(ステップ101)。教師データは、各車両10が移動した軌道に関する軌道データを含む。また教師データは、車両10が、どのような状態でその軌道を移動したかに関する移動状況情報を含む。移動状況情報は、例えば移動した地域の情報、移動した際の車両10の速度や角度、車両10の周辺情報(障害物の有無、障害物までの距離等)、道路の色情報、時間情報、天候情報等、任意の情報が含まれてよい。
典型的には、コスト関数(コストマップ)を規定するパラメータを抽出可能な情報が移動状況情報として取得され、教師データとして用いられる。もちろんコスト関数(コストマップ)を規定するパラメータがそのまま移動状況情報として取得可能であってもよい。
本実施形態では、ネットワーク20を介して、車両10から車両10が移動した軌道に関する軌道データと移動状況情報とを含む移動情報が適宜サーバ装置に集められる。サーバ装置30は、受信した移動情報をデータベース25に格納する。各車両10から集められた移動情報がそのまま教師データとして使用可能であってもよいし、受信した移動情報に基づいて教師データが適宜生成されてもよい。本実施形態において、教師データ取得部は、取得部に相当する。
コスト関数算出部32は、取得された教師データに基づいて、逆強化学習(IRL:Inverse Reinforcement Learning)により、移動体の移動に関するコスト関数を算出する(ステップ102)。逆強化学習により、教師データに含まれる軌道データが最もコストの小さい軌道となるようなコスト関数が算出される。本実施形態では、GPIRL(Gaussian Process Inverse Reinforcement Learning)により、コスト関数が算出される。
コスト関数は、教師データとして用いられる軌道データごとに算出可能である。すなわち1つの軌道データ(教師データ)に対して、逆強化学習により1つのコスト関数が算出される。もちろんこれに限定されず、教師データに含まれる複数の軌道データに対して、1つのコスト関数が算出されてもよい。本実施形態において、コスト関数算出部は、算出部に相当する。
なお最もコストの小さい軌道を算出することは、最も報酬の大きいコストを算出することに相当する。従って、コスト関数の算出は、コストの報酬を計算可能な報酬関数を算出することに相当する。以下、コスト関数の算出を、報酬関数の算出として説明する場合がある。
最適化処理部33は、算出されたコスト関数を最適化する(ステップ103)。本実施形態では、シミュレーションによりコスト関数が最適化される。すなわち算出されたコスト関数を用いて、予め設定された仮想的な空間にて、車両が移動される。このようなシミュレーションに基づいて、コスト関数が最適化される。
コスト関数評価部34は、最適化されたコスト関数を評価して、最も性能の高いコスト関数を、真のコスト関数として選択する(ステップ104)。例えばシミュレーション結果に基づいて、コスト関数に得点が付される。その得点に基づいて、真のコスト関数が算出される。もちろんこれに限定されない。
本実施形態では、コスト関数算出部32、最適化処理部33、及びコスト関数評価部34により、コスト関数ジェネレイターが実現されている。
以下、図4に示す各ブロックにより実行される、図5に示す各ステップについて、詳しく説明する。
図6は、コストマップの一例を示す模式図である。例えばスタート地点41における車両10の周辺に存在する障害物42(×印)を基準として、以下の式においてn=2となる2次元正規分布が設定される。
2次元正規分布であるので、式中の共分散行列Σは2×2の行列となり、2つの固有値と2つの互いに直交する固有ベクトル43及び44を有する。ここで共分散行列Σは対称行列であると規定すると、固有値は1つとなり、等確率楕円(集中楕円)の形状は円形状となる。
コストマップ40では、等確率楕円が安全マージン45として設定される。すなわちコストマップ40は、共分散行列Σの固有値に応じた安全マージン45が規定された、正規分布に基づいたコストマップとなる。
なお安全マージン45は、障害物との距離に関するパラメータであり、その半径よりも離れた位置は安全な位置(例えばコスト最小)となり、安全マージン45の内部は危険な領域(例えばコスト最大)となる。すなわち安全マージン45を通らない軌道が、コストが小さい軌道となる。
例えば車両10の移動に関する情報として周辺の障害物の位置を含む情報がコスト関数に入力される。そうすると、共分散行列の固有値に応じたサイズの安全マージン45が設定されたコストマップ40が生成される。なお、図6では、すべての障害物42に対して、同じサイズの安全マージン45が設定されているが、障害物42ごとに異なるサイズの安全マージン45を設定することが可能である。
図6に示すコストマップ40では、スタート地点41から目的地46までに、安全マージン45を通らない軌道を算出することができない。すなわち図6に示すコストマップ40では、スタート地点41から目的地46までの適正な軌道を算出することが難しい。
図7は、教師データの一例を示す模式図である。例えば図7に示すような教師データが取得されたとする。ここでは説明を分かりやすくするために、図6Aに示す障害物42と同じ位置に障害物42がある状態において、障害物42a及び42bの間を移動する軌道47の軌道データを含む教師データが取得されたとする。コスト関数算出部32は、この教師データに基づいて、GPIRLにより、コスト関数を算出する。
図8は、図7に示す教師データに基づいて算出されたコスト関数により生成されるコストマップ50の一例を示す模式図である。障害物42a及び42bの間を実際に通った軌道データを教師データとしてコスト関数が算出(学習)される。この結果、障害物42a及び42bに設定される安全マージン45のサイズ(共分散行列の固有値)が調整され、スタート地点41から目的地46までの適正な軌道51が算出可能となっている。
すなわち障害物42までの距離と、実際に移動可能であった軌道との関係に基づいてコスト関数が学習され、精度が向上されたコストマップ50が生成されている。なお障害物42a及び42b以外の障害物42に対しても、安全マージンは適宜最適化される。
なお図7では、図6に示す障害物42と同じ位置に障害物42がある状態の教師データを例に挙げた。これに限定されず、周辺状況が異なるような他の場所での軌道データを教師データとして用いることも可能である。そのような教師データを用いて、例えば障害物までの距離と、実際に移動可能であった軌道との関係に基づいて、コスト関数を学習することが可能である。
すなわち場所等にかかわらず、これぐらいの距離に置かれた障害物の間は通れるという実際の軌道データに基づいて、コスト関数を学習させることが可能であり、コストマップの精度を向上させることが可能である。
コストマップ40及び50において、安全マージン45は、コストマップ(コスト関数)を規定するパラメータに相当する。教師データに基づいて逆強化学習を実行することで、安全マージン45が可変となるように、コスト関数を算出することが可能である。
このことは、コストマップ(コスト関数)を規定するパラメータがどのようなパラメータであっても適用される。すなわち本技術を用いることで、コストマップ(コスト関数)を規定する任意のパラメータが可変となるように、コスト関数を算出することが可能である。この結果、移動環境に対応した適正なコスト関数(コストマップ)を生成可能となり、柔軟な移動制御を実現することが可能となる。
例えば歩行者や車両等が多く通る混雑した交差点等では、安全マージンが固定されたコストマップでは、軌道の算出が非常に難しい。本実施形態では、例えばそのような混雑した交差点を実際に通った軌道データを含む教師データに基づいて、コスト関数を学習させることが可能である。これにより安全マージンが最適化されたコストマップを適宜生成することが可能となり、適正な軌道を算出することが可能となる。
以下、GPIRLによる報酬関数の具体的なアルゴリズム例を説明する。上でも述べたが、報酬関数の算出は、コスト関数の算出に相当する。
まず以下の式に示すように、非線形関数の線形結像により、状態sに対する報酬関数r(s)を表現する。状態sは、例えばグリッドマップにおけるグリッドの位置、車両10の速度、向き等、現在の状態に関する任意のパラメータにより規定することが可能である。
φd(x)は、コスト関数を規定するパラメータに応じた特徴量を示す関数である。例えば障害物との距離、車両10の速度、乗り心地に関するパラメータ等、任意のパラメータの各々に応じて、φd(x)が設定される。これらの各特徴量に対して、αにて重み付けがされる。
GPIRLを実行することで、以下の式が成り立つ。
Dは、教師データに含まれる軌道データである。Xuは、教師データに含まれる状態Sから導かれる特徴量であり、特徴量φd(x)に対応する。
uは、仮想的な報酬として設定されたパラメータである。本式に示すように、カーネル関数を用いて、報酬関数rを、GP(Gaussian Process)という非線形回帰の方法で、ガウス分布の平均と分散として効率的に算出することが可能となる。
θは、以下の式に示すように、行列KU,Uの成分k(ui,uj)を規定するためのパラメータであり、θ={β,Λ}となる。
本実施形態では、(数3)の式において、第1項のlogP(D|r)が最大となるような報酬関数r(s)を算出する。このことは、第1項のlogP(D|r)が最大となるように、パラメータ(u、θ)を調整することに相当する。パラメータ(u、θ)を調整するために、例えばマルコフ決定過程(MDP:Markov Decision Process)等の確率モデルや、勾配法等が適宜用いられてよい
図6〜図8に示す例では、距離(安全マージン)に関する特徴量(φ距離(x)と記載する)に基づいて、以下のように、報酬関数r(s)が表現される。なお非線形関数は1つなので、重み付けは1とする。
r(s)=φ距離(s)
グリッドマップ(図示は省略)における全ての状態s(ここではグリッドの位置)に対して、報酬関数r(s)により報酬が算出される。これにより最も報酬の大きい軌道が算出される。
例えば図7に示す教師データに基づいて、GPIRLを実行する。教師データに含まれる状態sから導かれる特徴量(Xu)に基づいて、軌道47(Dに相当)が最も報酬が大きくなるようにパラメータ(u、θ)が調整される。その結果、障害物42に設定される安全マージン45(共分散行列の固有値)が調整される。ここでは、安全マージン45の調整は、パラメータθ内のΛの調整に相当する。
図9及び図10は、最適化処理部33によるコスト関数の最適化に用いられるシミュレーションの一例である。例えばGPIRLにより算出されたコスト関数(報酬関数)を用いて、様々な状況を想定したシミュレーション環境にて、仮想的に車両10'が移動される。
例えば図9Aに示すようなS字の道路に対する走行、図9Bに示すような障害物を中心とした左周りの走行を想定したシミュレーションが実行される。また図10Aに示すような他の車両を含む交差点を直進することを想定したシミュレーションや、高速道路の車線変更を想定したシミュレーションが実行される。もちろん、その他任意のシミュレーション環境を設定可能である。
このようなシミュレーションにおいて、算出されたコスト関数により軌道が算出される。すなわちコスト関数により各状態Sのコストが算出され、最もコストが小さくなる軌道が算出される。
例えば各シミュレーションに対して、適正に車両を移動できなかった、すなわち適正な軌道が算出されなかったとする。この場合、本実施形態では、最適化処理部33により、コスト関数の最適化が実行される。例えば各シミュレーションに対して、適正な軌道が算出されるように、コスト関数が最適化される。
例えば、各シミュレーションにおける適正な軌道のコストが小さくなるように(報酬が大きくなるように)、コスト関数が最適化される。本実施形態では、GPIRLの実行時に調整されるパラメータ(u、θ)が再度調整される。従って最適化は、再学習ともいえる。
例えば各シミュレーション上での自律生成データ(シミュレーションにより生成される軌道データ)、コスト関数を最適化することが可能である。あるいは、データベース25に記憶されている教師データに基づいて、コスト関数を最適化することも可能である。さらに、シミュレーション上の自律生成データと、教師データとを組み合わせて、コスト関数を最適化することも可能である。
例えば自律生成データや教師データをスクリーングし、選出された自律生成データや教師データに基づいて、コスト関数を最適化する。例えば適正に移動できなかった軌道の重みを小さくし、適正な軌道の重みを大きくして、再学習を行うといったことも可能である。
またユーザにより設定された評価パラメータに基づいて、コスト関数の最適化を実行することも可能である。ユーザにより設定された評価パラメータとは、例えば目的地までの達成度、移動に関する安全度、及び移動に関する快適度等が挙げられる。もちろん他の評価パラメータも採用可能である。
目的地までの達成度は、例えば目的地への到着にまでにかかる時間(到達時間)を含む。この評価パラメータが設定されている場合には、各シミュレーションにおいて、到達時間が早くなる軌道のコストが小さくなるように、コスト関数が最適化される。あるいは、シミュレーション上の自律生成データや教師データに含まれる軌道データから、到達時間が早い軌道が選出され、その軌道のコストが小さくなるように、コスト関数が最適化される。
移動に関する安全度は、例えば障害物との距離に関する評価パラメータとなる。例えば各シミュレーションにおいて、障害物を十分に回避している軌道のコストが小さくなるように、コスト関数が最適化される。あるいは、シミュレーション上の自律生成データや教師データから、障害物を十分に回避している軌道が選出され、その軌道のコストが小さくなるように、コスト関数が最適化される。
移動に関する快適度は、例えば移動に応じて運転手に作用する加速度、躍度、振動、操作感等により規定することが可能である。加速度については、不快となる加速度、及び加速等における快適な加速度のいずれもが含まれる。これらのパラメータにより、高速道路における走行性能の快適さ、市街地における走行性能の快適さ等を、快適度として規定することが可能である。
各シミュレーションにおいて、移動に関する快適度が大きい軌道のコストが小さくなるように、コスト関数が最適化される。あるいは、シミュレーション上の自律生成データや教師データから、移動に関する快適度が大きい軌道が抽出され、その軌道のコストが小さくなるように、コスト関数が最適化される。
各評価パラメータに対応したシミュレーションが適宜準備されてもよい。例えば目的地までの達成度が向上するようにコスト関数を最適化することに特化したシミュレーション環境等が準備されてもよい。他の評価パラメータについても同様である。
なお車両10の種類(車種)の情報も含めてシミュレーションを実行することが可能である。すなわち実際の車両10の大きさや性能等も含めてシミュレーションを実行することが可能である。一方で、軌道のみに着目したシミュレーションが実行されてもよい。
その他、コスト関数を最適化する方法として、任意の方法が採用されてよい。例えばクロスエントロピー法や敵対学習等により、コスト関数の最適化が実行されてもよい。
コスト関数評価部34により、最適化されたコスト関数が評価される。例えば各シミュレーションにおいて適正な軌道が算出可能なコスト関数に高い得点が付される。またユーザの評価パラメータに基づいて、高い性能が発揮されるコスト関数に高い得点が付される。コスト関数評価部34は、例えばコスト関数に付された得点に基づいて真のコスト関数を決定する。なおコスト関数の評価方法や真のコスト関数の決定方法は限定されず、任意の方法や採用されてもよい。
また、各地域に固有のコスト関数が算出されてもよい。すなわち互いに異なる地域の各々に応じて、真のコスト関数が算出されてもよい。例えば東京、北京、インド、パリ、ロンドン、ニューヨーク、サンフランシスコ、シドニー、モスクワ、カイロ、ヨハネスブルグ、ブエノスアイレス、リオデジャネイロ等、世界の都市ごとに真のコスト関数が選択されてもよい。あるいは砂漠、森林、雪原、平原等、地域の特色に応じて真のコスト関数が算出されてもよい。もちろん世界共通で使用可能なコスト関数を生成することも可能である。
例えば、地域に応じた教師データを適宜選択することで、地域ごとの真のコスト関数を算出することが可能である。例えば算出対象となる地域を移動する車両10から集められた移動情報に基づいて、地域ごとの教師データを作成することが可能である。その他、任意の方法が採用されてよい。
またユーザの評価パラメータごとに真のコスト関数が生成されてもよい。そして、各車両10にて、どの評価パラメータに対応するコスト関数を用いるかが選択可能であってもよい。
図1に示すように、サーバ装置30により算出された真のコスト関数は、ネットワーク20を介して各車両10に送信される。もちろんコスト関数を適宜更新し、車両10に送信することも可能である。その他、工場出荷時に、算出されたコスト関数がインストールされてもよい。
車両10では、ルート計画部161により、受信したコスト関数に基づいて、軌道が算出される。本実施形態において、図3に示す自動運転制御部112は、移動体が移動した軌道に関する軌道データを含む教師データに基づいて逆強化学習により算出された、移動体の移動に関するコスト関数を取得する取得部として機能する。またルート計画部161は、取得されたコスト関数に基づいて軌道を算出する軌道算出部として機能する。
図11及び図12は、本技術に関して行った評価について説明するための図である。本技術に関して、3つの戦略の異なる動的環境でのコスト関数の学習、評価を行った。動的環境は障害物が垂直方向に移動する環境、水平方向へ移動する環境、ランダム環境を想定し、障害物の位置は範囲内にランダムで与えるとした。
本評価では、画面上に障害物として複数のドット60を、左右方向、上下方向、ランダム方向に移動させる(上記の3つの戦略に相当)。そのときにスタート地点61から目的地62まで移動対象物63を移動させることで評価を行った。
図11は、単純な外接円半径を用いてそれを固定の安全マージンとして設定したコストマップ(コスト関数)にてパス(軌道)を算出した場合の図である。図11Aは、あるタイミングにおいて生成されたコストマップである。図11Bは、障害物である複数のドット60を左から右に移動させた場合に、移動対象物63がスタート地点61から目的地62まで移動した際の軌跡64を示す図である。移動対象物63は、複数のドット60の間を通ることができず何度も回転してしまい、なかなか目的地に到達しなかった。
図12は、本技術に係るコスト関数(コストマップ)を用いてパス(軌道)を算出した場合の図である。ユーザがコントローラ等を用いて、画面を移動するドット60を避けながら目的地まで移動対象物63を移動させる。その軌道データを含む教師データに基づいて、GPIRLによりコスト関数を算出した。この場合、図12Aに示すように、安全マージンが最適化されたコストマップが生成される。この結果図12Bに示すように、移動対象物63は、ドット60の間を通って目的地62まで移動することが可能となった。すなわち本技術によれば、コストマップが戦略によって逐次的に変化され、短期間で目的地まで到達することが可能であった。
以上、本実施形態に係る移動制御システム500では、教師データに基づいて、逆強化学習によりコスト関数が算出される。これにより、移動環境に合わせた柔軟な移動制御を実現することが可能となる。
移動体の自動運転制御において、最適な軌道を生成するためのコスト関数を求めることは重要である。これまで一般的にはコスト関数は実験者により設計されることが多かった。特に障害物に対しては、一定の外接円半径を設定することが多かった。しかしながら、一定の外接円半径を設定するだけでは、障害物が密集する状況においては進行できない可能性や、ゴールまでの到達に時間が掛かる場合がある。
例えば車両10が移動する移動環境として、車両が密集する環境、ランドアバウト等の特殊な環境、外乱が多い環境、不確かさが高い(周りが確認しづらい環境)等、様々な移動環境が考えられる。このような様々な移動環境に対応可能なコスト関数を、予め外接円半径等のパラメータを固定して設計することは、非常に難しい。
図13は、比較例として挙げる軌道算出方法について説明するための図である。例えば図13に示すように、非常に多くの軌道候補90が算出される。そして各軌道候補90について、目標経路追従コスト、及び障害物回避コストがそれぞれ算出される。算出された目標経路追従コスト及び障害物回避コストの合計が最も小さい軌道候補90が、移動すべき軌道として算出される。例えばこのような方法においても、目標経路追従コスト及び障害物回避コストの重み付け等は予め設計されており、様々な移動環境に対応することは難しい。例えば不必要に障害物回避コストを高くしてしまうと、車両が密集する環境等において、車両が動けなくなる場合も起こり得る。
本実施形態では、教師データを用いてコスト関数を学習させることが可能である。これにより安全マージン等のパラメータを、移動環境に合わせて最適化することが可能である。この結果、様々な移動環境に対応可能なコスト関数を算出することが可能となり、環境に合わせた柔軟な移動制御が実現される。
またユーザの評価パラメータに基づいて、コスト関数を再学習することも可能であるので、ユーザが所望とする非常に精度の高い移動制御を実現することが可能となる。また車両10側では、コスト関数に状態Sを入力することで目的地までの軌道が算出される。これにより、処理時間の短縮、処理負担の軽減を図ることが可能である。また今まで経験したことのない環境であっても、他の車両の経験(教師データ)に基づいてコスト関数が算出されるので、地図情報等がない場合でも、車両10を適正に移動させることが可能となる。
なおユーザにより、コスト関数を規定するパラメータを適宜設定することも可能である。従って、コスト関数を規定するパラメータを評価パラメータということも可能である。
<その他の実施形態>
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
本技術を用いて、移動体の進行方向に基づいた安全マージンにより規定されるコストマップを生成することも可能である。例えば2次元正規分布の共分散行列Σとして、互いに異なる値の固有値をもつ行列を採用する。そして大きい方の固有値が進行方向に対応するように、安全マージンが規定される。これにより進行方向に沿って延びる(進行方向を長軸方向とする)長円形状(楕円形状)の安全マージンを設定することが可能となる。
例えば高速道路では、周辺には車両のみ、進行方向は一定、不確かさは低いとった環境となる。また周辺の車両と速度を合わせる必要がある。このような環境に適したコスト関数として、進行方向に固有値が対応されたコスト関数が算出される。また速度に応じて固有値に重み付けが行われ、安全マージンのサイズを最適化するといったことも可能である。
上記では、正規分布に基づいたコストマップ(コスト関数)について説明したが、他の確率分布に基づいたコストマップ(コスト関数)に対しても、本技術は適用可能である。またGPIRL以外の逆強化学習アルゴリズムにより、コスト関数を算出することも可能である。
なお、確率分布に基づいたコストマップ(コスト関数)を生成することも、本発明者により新たり考案された技術である。移動体の移動に関する情報を取得する取得部と、取得された移動体の移動に関する情報に基づいて、確率分布に基づいたコストマップを生成する生成部とを具備する任意の情報処理装置が、新たに考案された技術に含まれる。このような情報処理装置により、移動環境に合わせた柔軟な移動制御を実現することが可能となった。もちろん図1等に示すサーバ装置も含まれる。
上記では、仮想的な空間を用いて、シミュレーションが実行される例を説明した。これに限定されず、車両により検出された周辺情報がサーバ装置に送信され、その実際の周辺情報に基づいて、シミュレーションが実行されてもよい。これにより実際の周辺の状況に応じてコスト関数を最適化することが可能となる。
上記では、サーバ装置により、コスト関数が算出された。しかしながら、車両に備えられる車両制御システムが、本技術に係る情報処理装置として構成され、本技術に係る情報処理方法が実行されてもよい。すなわち車両にて、教師データに基づいた逆強化学習により、コスト関数が算出されてもよい。
本技術は、様々な移動体の制御に適用することが可能である。例えば自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット、建設機械、農業機械(トラクター)等の移動制御に、本技術を適用することが可能である。
本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば教師データの取得、コスト関数の算出等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
すなわち本技術に係る情報処理方法、及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
各図面を参照して説明したサーバ装置、車両等の各構成や処理フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
なお、本技術は以下のような構成も採ることができる。
(1)移動体が移動した軌道に関する軌道データを含む教師データを取得する取得部と、
前記取得された教師データに基づいて、逆強化学習により、移動体の移動に関するコスト関数を算出する算出部と
を具備する情報処理装置。
(2)(1)又は(2)に記載の情報処理装置であって、
前記コスト関数は、移動体の移動に関する情報を入力することで、コストマップを生成可能である
情報処理装置。
(3)(2)又は(3)に記載の情報処理装置であって、
前記移動に関する情報は、前記移動体の位置、前記移動体の周辺情報、及び前記移動体の速度の少なくとも1つを含む
情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
前記算出部は、前記コストマップを規定する所定のパラメータが可変となるように、前記コスト関数を算出する
情報処理装置。
(5)(4)に記載の情報処理装置であって、
前記算出部は、安全マージンが可変となるように、前記コスト関数を算出する
情報処理装置。
(6)(1)から(5)のうちいずれか1つに記載の情報処理装置であって、さらに、
前記算出されたコスト関数を、シミュレーションにより最適化する最適化処理部を具備する
情報処理装置。
(7)(6)に記載の情報処理装置であって、
前記最適化処理部は、前記取得された教師データに基づいて、前記コスト関数を最適化する
情報処理装置。
(8)(6)又は(7)に記載の情報処理装置であって、
前記最適化処理部は、前記シミュレーションにより生成される軌道データに基づいて、前記コスト関数を最適化する
情報処理装置。
(9)(6)から(8)のうちいずれか1つに記載の情報処理装置であって、
前記最適化処理部は、前記取得された教師データと、前記シミュレーションにより生成される軌道データとを組み合わせることで、前記コスト関数を最適化する
情報処理装置。
(10)(6)から(9)のうちいずれか1つに記載の情報処理装置であって、
前記最適化処理部は、ユーザにより設定された評価パラメータに基づいて、前記コスト関数を最適化する
情報処理装置。
(11)(10)に記載の情報処理装置であって、
前記最適化処理部は、目的地までの達成度、移動に関する安全度、及び移動に関する快適度の少なくとも1つに基づいて、前記コスト関数を最適化する
情報処理装置。
(12)(1)から(11)のうちいずれか1つに記載の情報処理装置であって、
前記算出部は、GPIRL(Gaussian Process Inverse Reinforcement Learning)により、前記コスト関数を算出する
情報処理装置。
(13)(1)から(12)のうちいずれか1つに記載の情報処理装置であって、
前記コスト関数は、確率分布に基づいたコストマップを生成可能である
情報処理装置。
(14)(13)に記載の情報処理装置であって、
前記コスト関数は、正規分布に基づいたコストマップを生成可能であり、
前記コストマップは、共分散行列の固有値に応じた安全マージンにより規定される
情報処理装置。
(15)(14)に記載の情報処理装置であって、
前記コストマップは、前記移動体の進行方向に基づいた安全マージンにより規定される
情報処理装置。
(16)(1)から(15)のうちいずれか1つに記載の情報処理装置であって、
前記算出部は、互いに異なる地域の各々に応じた前記コスト関数をそれぞれ算出することが可能である
情報処理装置。
(17)移動体が移動した軌道に関する軌道データを含む教師データを取得し、
前記取得された教師データに基づいて、逆強化学習により、移動体の移動に関するコスト関数を算出する
ことをコンピュータシステムが実行する情報処理方法。
(18)移動体が移動した軌道に関する軌道データを含む教師データを取得するステップと、
前記取得された教師データに基づいて、逆強化学習により、移動体の移動に関するコスト関数を算出するステップと
をコンピュータシステムに実行させるプログラム。
(19)移動体が移動した軌道に関する軌道データを含む教師データに基づいて逆強化学習により算出された、移動体の移動に関するコスト関数を取得する取得部と、
前記取得されたコスト関数に基づいて、軌道を算出する軌道算出部と
を具備する移動体。
(20)移動体の移動に関する情報を取得する取得部と、
前記取得された移動体の移動に関する情報に基づいて、確率分布に基づいたコストマップを生成する生成部と
情報処理装置。
10…車両
20…ネットワーク
25…データベース
30…サーバ装置
31…教師データ取得部
32…コスト関数算出部
33…最適化処理部
34…コスト関数評価部
40、50…コストマップ
45…安全マージン
47、51…軌道
100…車両制御システム
500…移動制御システム

Claims (20)

  1. 移動体が移動した軌道に関する軌道データを含む教師データを取得する取得部と、
    前記取得された教師データに基づいて、逆強化学習により、移動体の移動に関するコスト関数を算出する算出部と
    を具備する情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記コスト関数は、移動体の移動に関する情報を入力することで、コストマップを生成可能である
    情報処理装置。
  3. 請求項2に記載の情報処理装置であって、
    前記移動に関する情報は、前記移動体の位置、前記移動体の周辺情報、及び前記移動体の速度の少なくとも1つを含む
    情報処理装置。
  4. 請求項2に記載の情報処理装置であって、
    前記算出部は、前記コストマップを規定する所定のパラメータが可変となるように、前記コスト関数を算出する
    情報処理装置。
  5. 請求項4に記載の情報処理装置であって、
    前記算出部は、安全マージンが可変となるように、前記コスト関数を算出する
    情報処理装置。
  6. 請求項1に記載の情報処理装置であって、さらに、
    前記算出されたコスト関数を、シミュレーションにより最適化する最適化処理部を具備する
    情報処理装置。
  7. 請求項6に記載の情報処理装置であって、
    前記最適化処理部は、前記取得された教師データに基づいて、前記コスト関数を最適化する
    情報処理装置。
  8. 請求項6に記載の情報処理装置であって、
    前記最適化処理部は、前記シミュレーションにより生成される軌道データに基づいて、前記コスト関数を最適化する
    情報処理装置。
  9. 請求項6に記載の情報処理装置であって、
    前記最適化処理部は、前記取得された教師データと、前記シミュレーションにより生成される軌道データとを組み合わせることで、前記コスト関数を最適化する
    情報処理装置。
  10. 請求項6に記載の情報処理装置であって、
    前記最適化処理部は、ユーザにより設定された評価パラメータに基づいて、前記コスト関数を最適化する
    情報処理装置。
  11. 請求項10に記載の情報処理装置であって、
    前記最適化処理部は、目的地までの達成度、移動に関する安全度、及び移動に関する快適度の少なくとも1つに基づいて、前記コスト関数を最適化する
    情報処理装置。
  12. 請求項1に記載の情報処理装置であって、
    前記算出部は、GPIRL(Gaussian Process Inverse Reinforcement Learning)により、前記コスト関数を算出する
    情報処理装置。
  13. 請求項1に記載の情報処理装置であって、
    前記コスト関数は、確率分布に基づいたコストマップを生成可能である
    情報処理装置。
  14. 請求項13に記載の情報処理装置であって、
    前記コスト関数は、正規分布に基づいたコストマップを生成可能であり、
    前記コストマップは、共分散行列の固有値に応じた安全マージンにより規定される
    情報処理装置。
  15. 請求項14に記載の情報処理装置であって、
    前記コストマップは、前記移動体の進行方向に基づいた安全マージンにより規定される
    情報処理装置。
  16. 請求項1に記載の情報処理装置であって、
    前記算出部は、互いに異なる地域の各々に応じた前記コスト関数をそれぞれ算出することが可能である
    情報処理装置。
  17. 移動体が移動した軌道に関する軌道データを含む教師データを取得し、
    前記取得された教師データに基づいて、逆強化学習により、移動体の移動に関するコスト関数を算出する
    ことをコンピュータシステムが実行する情報処理方法。
  18. 移動体が移動した軌道に関する軌道データを含む教師データを取得するステップと、
    前記取得された教師データに基づいて、逆強化学習により、移動体の移動に関するコスト関数を算出するステップと
    をコンピュータシステムに実行させるプログラム。
  19. 移動体が移動した軌道に関する軌道データを含む教師データに基づいて逆強化学習により算出された、移動体の移動に関するコスト関数を取得する取得部と、
    前記取得されたコスト関数に基づいて、軌道を算出する軌道算出部と
    を具備する移動体。
  20. 移動体の移動に関する情報を取得する取得部と、
    前記取得された移動体の移動に関する情報に基づいて、確率分布に基づいたコストマップを生成する生成部と
    情報処理装置。
JP2020502850A 2018-02-28 2019-01-16 移動制御システム、移動制御方法、及びプログラム Active JP7405072B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018035940 2018-02-28
JP2018035940 2018-02-28
PCT/JP2019/001106 WO2019167457A1 (ja) 2018-02-28 2019-01-16 情報処理装置、情報処理方法、プログラム、及び移動体

Publications (2)

Publication Number Publication Date
JPWO2019167457A1 true JPWO2019167457A1 (ja) 2021-02-12
JP7405072B2 JP7405072B2 (ja) 2023-12-26

Family

ID=67805730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020502850A Active JP7405072B2 (ja) 2018-02-28 2019-01-16 移動制御システム、移動制御方法、及びプログラム

Country Status (5)

Country Link
US (1) US20210116930A1 (ja)
JP (1) JP7405072B2 (ja)
CN (1) CN111758017A (ja)
DE (1) DE112019001046T5 (ja)
WO (1) WO2019167457A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11300968B2 (en) 2018-05-16 2022-04-12 Massachusetts Institute Of Technology Navigating congested environments with risk level sets
EP4113477A4 (en) * 2020-02-27 2023-08-02 Panasonic Intellectual Property Management Co., Ltd. ORDERING SYSTEM AND ORDERING METHOD
CN111694287B (zh) * 2020-05-14 2023-06-23 阿波罗智能技术(北京)有限公司 无人驾驶仿真场景中的障碍物模拟方法和装置
EP4177732A4 (en) * 2020-07-03 2023-11-15 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, INFORMATION PROCESSING SYSTEM AND PROGRAM
EP4177733A4 (en) * 2020-07-03 2023-11-22 Sony Group Corporation INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, INFORMATION PROCESSING SYSTEM AND PROGRAM
CN114527737A (zh) * 2020-11-06 2022-05-24 百度在线网络技术(北京)有限公司 用于自动驾驶的速度规划方法、装置、设备、介质和车辆
US20240083441A1 (en) * 2020-12-25 2024-03-14 Nec Corporation Driving evaluation system, learning device, evaluation result output device, method, and program
DE102021203809B4 (de) * 2021-03-16 2023-05-04 Continental Autonomous Mobility Germany GmbH Fahrverlaufsschätzung in einem Umfeldmodel
CN113295174B (zh) * 2021-07-27 2021-10-08 腾讯科技(深圳)有限公司 一种车道级定位的方法、相关装置、设备以及存储介质
JP7462687B2 (ja) 2022-01-11 2024-04-05 ソフトバンク株式会社 データ生成装置、データ生成プログラム、モデル構築装置、モデル構築プログラム、学習済モデル、車両およびサーバ
CN114415881B (zh) * 2022-01-24 2024-02-09 东北大学 滑雪场环境要素云端实时链接的元宇宙滑雪系统
WO2023149353A1 (ja) * 2022-02-01 2023-08-10 キヤノン株式会社 制御システム、制御方法、及び記憶媒体
WO2023149264A1 (ja) * 2022-02-01 2023-08-10 キヤノン株式会社 制御システム、制御方法、及び記憶媒体
WO2023157301A1 (ja) * 2022-02-21 2023-08-24 日立Astemo株式会社 電子制御装置及び軌道生成方法
WO2023166845A1 (en) * 2022-03-01 2023-09-07 Mitsubishi Electric Corporation System and method for parking an autonomous ego- vehicle in a dynamic environment of a parking area
DE102022111744A1 (de) 2022-05-11 2023-11-16 Bayerische Motoren Werke Aktiengesellschaft Computerimplementiertes Verfahren zum Erstellen einer Route für eine Kampagne zum Sammeln von Daten, Datenverarbeitungsvorrichtung, Server und Kraftfahrzeug

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017204145A (ja) * 2016-05-11 2017-11-16 株式会社豊田中央研究所 走行経路生成装置、モデル学習装置、及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478642B2 (en) * 2008-10-20 2013-07-02 Carnegie Mellon University System, method and device for predicting navigational decision-making behavior
US9090255B2 (en) * 2012-07-12 2015-07-28 Honda Motor Co., Ltd. Hybrid vehicle fuel efficiency using inverse reinforcement learning
KR101966564B1 (ko) * 2014-08-07 2019-08-13 각코호진 오키나와가가쿠기쥬츠다이가쿠인 다이가쿠가쿠엔 밀도 비 추정에 의한 역 강화 학습
JP6623602B2 (ja) * 2015-07-31 2019-12-25 アイシン精機株式会社 駐車支援装置
CN108137052B (zh) * 2015-09-30 2021-09-07 索尼公司 驾驶控制装置、驾驶控制方法和计算机可读介质
US10065654B2 (en) * 2016-07-08 2018-09-04 Toyota Motor Engineering & Manufacturing North America, Inc. Online learning and vehicle control method based on reinforcement learning without active exploration
US10061316B2 (en) * 2016-07-08 2018-08-28 Toyota Motor Engineering & Manufacturing North America, Inc. Control policy learning and vehicle control method based on reinforcement learning without active exploration
US11364899B2 (en) * 2017-06-02 2022-06-21 Toyota Motor Europe Driving assistance method and system
US10416677B2 (en) * 2017-11-14 2019-09-17 Uber Technologies, Inc. Autonomous vehicle routing using annotated maps

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017204145A (ja) * 2016-05-11 2017-11-16 株式会社豊田中央研究所 走行経路生成装置、モデル学習装置、及びプログラム

Also Published As

Publication number Publication date
WO2019167457A1 (ja) 2019-09-06
JP7405072B2 (ja) 2023-12-26
DE112019001046T5 (de) 2020-11-26
CN111758017A (zh) 2020-10-09
US20210116930A1 (en) 2021-04-22

Similar Documents

Publication Publication Date Title
JP7405072B2 (ja) 移動制御システム、移動制御方法、及びプログラム
JP7136106B2 (ja) 車両走行制御装置、および車両走行制御方法、並びにプログラム
CN108137052B (zh) 驾驶控制装置、驾驶控制方法和计算机可读介质
WO2020202741A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに移動体装置
US20200409387A1 (en) Image processing apparatus, image processing method, and program
US11815891B2 (en) End dynamics and constraints relaxation algorithm on optimizing an open space trajectory
US11501461B2 (en) Controller, control method, and program
US20220180561A1 (en) Information processing device, information processing method, and information processing program
JP7374098B2 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、情報処理システム、並びに移動体装置
WO2019098002A1 (ja) 情報処理装置、情報処理方法、プログラム、及び移動体
US11200795B2 (en) Information processing apparatus, information processing method, moving object, and vehicle
JPWO2019039281A1 (ja) 情報処理装置、情報処理方法、プログラム、及び、移動体
JPWO2019082669A1 (ja) 情報処理装置、情報処理方法、プログラム、及び、移動体
JPWO2020100585A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20210297633A1 (en) Information processing device, information processing method, information processing program, and moving body
WO2021193099A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2019203022A1 (ja) 移動体、情報処理装置、情報処理方法、及びプログラム
JP2022028092A (ja) 車両制御装置、車両制御方法、プログラム、及び、車両
WO2021090897A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JPWO2020026825A1 (ja) 情報処理装置、情報処理方法、プログラム、及び、移動体
JPWO2019073795A1 (ja) 情報処理装置、自己位置推定方法、プログラム、及び、移動体
US20220253065A1 (en) Information processing apparatus, information processing method, and information processing program
WO2019150918A1 (ja) 情報処理装置、情報処理方法、プログラム、及び移動体
WO2021033574A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2021024805A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211129

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20211129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231127

R151 Written notification of patent or utility model registration

Ref document number: 7405072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151