WO2021166449A1

WO2021166449A1 - 車両行動評価装置、車両行動評価方法、および車両行動評価プログラム

Info

Publication number: WO2021166449A1
Application number: PCT/JP2020/048689
Authority: WO
Inventors: 大澤　弘幸
Original assignee: 株式会社デンソー
Priority date: 2020-02-17
Filing date: 2020-12-25
Publication date: 2021-08-26
Also published as: JP2021128716A; CN115362092A; JP7347252B2; US20220392276A1

Abstract

車両行動評価装置としてのインタラクティブ予測部（４０）は、近似関数器（５０）を用いて、自車両が取り得る将来の行動に対して、他車両の走行状態を考慮した報酬を算出する。自車両の行動は、その算出された報酬に基づいて評価される。近似関数器（５０）は、自車両の周辺環境と自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、自車両が他車両と接触を回避できた自車両の状況には高い報酬を与え、自車両が他車両と接触に到った自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況－報酬データに基づき学習されたものである。

Description

車両行動評価装置、車両行動評価方法、および車両行動評価プログラム

関連出願の相互参照

　この出願は、２０２０年２月１７日に日本に出願された特許出願第２０２０－２４６５４号を基礎としており、基礎の出願の内容を、全体的に、参照により援用している。

　本開示は、車両行動評価装置、車両行動評価方法、および車両行動評価プログラムに関する。

　例えば、特許文献１には、車両が走行する将来の軌道を評価する軌道評価装置が記載されている。この軌道評価装置は、自車両が走行する将来の軌道を生成し、自車両の周辺の物体の将来位置を予測し、自車両の将来の軌道上の複数の地点について、予測された物体の将来位置との間の、道路の長手方向に関する相対位置関係と、道路の幅方向に関する相対位置関係と、に基づいて評価を行う。そして、地点ごとの評価結果に基づいて、自車両の将来軌道を評価する。

特開２０１８－９５１４９号公報

　上記の特許文献１の軌道評価装置では、自車両および物体が、等速運動あるいは等加速度運動などを行うことを前提として、自車両の目標軌道候補や物体の将来位置を求める。そして、自車両の目標軌道候補の各座標について、推奨車線の中心線との乖離距離、横方向の変動量の大きさ（すなわち、角速度）、対象車線からの逸脱量、および、進行方向と横方向とにおける物体との間隔に基づいて評価値を算出する。目標軌道候補は、座標ごとの評価結果を加算することで評価される。

　しかしながら、自車両および他車両などの物体は、常に等速運動や等加速度運動を行うわけではなく、交通状況に応じて、速度を低下させたり、ときには停止したりすることもある。また、自車両は、必ずしも推奨車線を走行することが目標軌道とはなりえない状況にも遭遇しえる。例えば、自車両の走行車線上の駐車車両によって走行可能な道路幅が狭められた状況に遭遇した場合、自車両は、一時的に対向車線にはみ出して走行する必要が生じる。この際、対向車線を走行する他車両が存在する場合、他車両の行動に応じて、自車両が取るべき行動は変化しえる。例えば、自車両が先に駐車車両を迂回する行動を開始したときに、対向車線を走行する他車両が速度を低下させたり、停止したり場合には、自車両は、そのまま駐車車両を迂回する行動を継続して、元の走行車線に戻ることが望ましい。一方、他車両がそのまま駐車車両の位置まで対向車線を進行してくる場合には、自車両は、他車両の通過をやり過ごすため、速度を低下させたり、停止したりすることが望ましい。

　特許文献１の軌道評価装置では、自車両および物体が、等速運動あるいは等加速度運動などを行うことを前提として、自車両の目標軌道候補や物体の将来位置を求めて、さらに、推奨車線からの距離や、物体との間隔でしか目標軌道候補の評価を行っていない。このため、上記のような状況において、望ましい行動を取り得る目標軌道候補を設定して、その目標軌道候補に高い評価を与えることは困難である。

　本開示は、上述した点に鑑みてなされたものであり、自車両が直面する種々の交通状況に適した自車両の行動を適正に評価することが可能な車両行動評価装置、車両行動評価方法、および車両行動評価プログラムを提供することを目的とする。

　上記目的を達成するために、本開示の車両行動評価装置は、自車両の将来の行動を評価するためのものであって、
　予定走路の走行に際して、自車両が取り得る複数の行動を設定する設定部と、
　自車両の周辺環境と自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、自車両が他車両と接触を回避できた自車両の状況には高い報酬を与え、自車両が他車両と接触に到った自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況－報酬データに基づき学習された関数器を有し、この関数器を用いて、設定部によって設定された自車両の行動に対して、自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて自車両の行動を評価する評価部と、を備えるように構成される。

　また、本開示の車両行動評価方法は、自車両の将来の行動を評価するための方法であって、
　少なくとも１つのプロセッサにより実行される、
　予定走路の走行に際して、自車両が取り得る複数の行動を設定する設定ステップと、
　自車両の周辺環境と自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、自車両が他車両と接触を回避できた自車両の状況には高い報酬を与え、自車両が他車両と接触に到った自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況－報酬データに基づき学習された関数器を用いて、設定ステップにおいて設定された自車両の行動に対して、自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて自車両の行動を評価する評価ステップと、を備えるように構成される。

　さらに、本開示の車両行動評価プログラムは、コンピュータ読み取り可能な非遷移記憶媒体に記憶され、命令を含むプログラムであり、その命令は、少なくとも１つのプロセッサにより実行された場合に、少なくとも１つのプロセッサに、
　予定走路の走行に際して、自車両が取り得る複数の行動を設定させ、
　自車両の周辺環境と自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、自車両が他車両と接触を回避できた自車両の状況には高い報酬を与え、自車両が他車両と接触に到った自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況－報酬データに基づき学習された関数器を用いて、設定された自車両の行動に対して、自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて自車両の行動を評価させるように構成される。

　上述した車両行動評価装置、車両行動評価方法、および車両行動評価プログラムによれば、関数器が、設定された自車両が取り得る将来の行動に対して、他車両の走行状態を考慮した報酬を算出する。自車両の行動は、その算出された報酬に基づいて評価される。関数器は、自車両の周辺環境と自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、自車両が他車両と接触を回避できた自車両の状況には高い報酬を与え、自車両が他車両と接触に到った自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況－報酬データに基づき学習されたものである。このため、自車両の将来の行動が、他車両との接触を回避できた自車両の走行状況に類似した走行状況を含むほど、高い報酬が付与される。従って、自車両の将来の行動に付与された報酬に基づいて、その自車両の将来の行動が、自車両が直面している交通状況に適したものであるか否かを適正に評価することが可能となる。

　なお、請求の範囲の参照番号は、本開示の理解を容易にすべく、後述する実施形態における具体的な構成との対応関係の一例を示すものにすぎず、なんら本開示の範囲を制限することを意図したものではない。

　また、上述した特徴以外の、請求の範囲の各請求項に記載した技術的特徴に関しては、後述する実施形態の説明及び添付図面から明らかになる。

実施形態に係る車両行動評価装置が適用された自動運転システムの全体構成を示す構成図である。時空間状態行動マップの一例を示す図である。近似関数器の作成方法の一例を説明するための図である。図１に示す自動運転システムにおいて、車両を自動的に運転するために実行される処理を示すフローチャートである。自車両の行動を評価して生成する自車両行動評価生成処理を示すフローチャートである。自車両の走行車線上に駐車車両が存在し、自車両はこの駐車車両を迂回して走行しなければならない状況で、対向車線を走行してくる他車両が存在する場合に、自車両と他車両とが取り得る行動に関して説明するための図である。他車両の運転特性を考慮した時空間状態行動マップの一例を示す図である。他車両の運転特性を考慮することが好ましい例として、自車両が側道から本線に合流しようとしているときに、自車両の近くで本線を走行している他車両が存在する状況を示す図である。交通信号の状態を考慮した時空間状態行動マップの一例を示す図である。交通信号の状態を考慮することが好ましい例として、信号のある交差点で自車両が右折のために待機しているときに、対向車線を走行してくる他車両が存在する状況を示す図である。

　（第１実施形態）
　以下、本開示の実施形態について、図面を参照しつつ詳細に説明する。なお、本実施形態では、車両行動評価装置が、車両の自動運転システムに適用された例について説明する。ただし、本開示による車両行動評価装置の適用例は、車両の自動運転システムに制限されない。例えば、車両行動評価装置によって適正と評価された自車両の行動を、推奨行動として自車両の運転者に提示するシステムに適用されてもよい。

　図１には、本実施形態による車両行動評価装置が適用された自動運転システム１００の全体構成が示されている。図１に示すように、自動運転システム１００は、各種センサ１０、長期計画作成部２０、中期計画作成部３０、インタラクティブ予測部４０、短期計画作成部６０、およびパスフォロー制御部７０を備える。

　各種センサ１０は、例えば、カメラ、ＬｉＤＡＲ、ミリ波レーダ等のセンサの少なくとも１つを含む。各種センサ１０は、自車両の周辺環境情報と、自車両の状態を示す自車両情報と、自車の周囲に存在する他車両の状態を示す他車両情報とを検出する。各種センサ１０は、周辺環境情報として、路上の落下物や路上駐車車両などの障害物、ガードレール、縁石、走行区画線等の路面表示、および樹木等の静止物体を検出する。さらに、各種センサ１０は、周辺環境情報として、歩行者、人間以外の動物、他車両等の移動物体を検出する。また、各種センサ１０は、自車両情報として、自車両の位置、方向、速度、加速度を検出する。さらに自車両情報として自車両のジャーク（単位時間当たりの加速度の変化）を検出してもよい。各種センサ１０は、他車両情報として、他車両の位置、方向、速度、加速度を検出する。さらに他車両情報として、他車両のジャークを検出してもよい。なお、自動運転システム１００は、自車両情報および他車両情報の少なくとも一部を、管制センターなどの外部サーバから通信を介して取得してもよい。

　長期計画作成部２０は、車両の乗員によって指定された出発地（現在地）および目的地に基づき、道路地図データベースを利用して、車両が出発地（現在地）から目的地まで達するために走行する道路の経路（走行経路）を作成する。この長期計画作成部２０は、車両がナビゲーション装置を備えている場合、ナビゲーション装置によって構成される。あるいは、長期計画作成部２０は、管理センターなどの外部サーバに設けられてもよい。そして、車両の乗員が出発地（現在地）および目的地に関する情報を外部サーバに送信することにより、外部サーバにおいて目的地までの走行経路を作成してもよい。

　中期計画作成部３０は、長期計画作成部２０よりも詳細に、目的地までの走行経路を設定する。具体的には、例えば、中期計画作成部３０は、走行経路に車線が複数存在する場合に、自車両がどの車線を走行するのかまで特定する。まず、中期計画作成部３０は、長期計画作成部２０によって作成された目的地までの走行経路を取得する。また、中期計画作成部３０は、車両の現在位置周辺の道路情報（車線数、車線幅、形状など）を長期計画作成部２０（道路地図データベース）から取得する。さらに、中期計画作成部３０は、各種センサ１０によって検出された自車両の周辺環境情報、自車両情報、および他車両情報を取得する。

　中期計画作成部３０は、取得した道路情報、および自車両情報に基づいて、自車両が走行する道路が複数車線を有する場合、自車両が走行している車線位置を特定する。また、中期計画作成部３０は、取得した道路情報、周辺環境情報に基づいて、自車両の周囲に他車両が存在することを把握した場合、他車両が走行している車線（同じ進行方向の車線と対向車線とのいずれであるか、さらに、複数車線の場合、他車両が走行している車線位置）も特定する。

　そして、中期計画作成部３０は、取得した走行経路、道路情報、周辺環境情報および自車両情報に基づいて、所定時間（例えば、５秒）または所定距離（例えば、１００ｍ）先までの自車両の道路上の予定軌道を算出する。この所定時間または所定距離は、それぞれ一定値であってもよいし、例えば自車両の速度に応じて変化する可変値であってもよい。

　例えば、中期計画作成部３０は、周辺環境情報に基づいて、自車両が走行する車線上に障害物が存在せず、また、自車両の周囲に他車両などの移動物体が存在しないことを把握した場合に、インタラクティブ予測部４０を介さずに、自車両の進行予定軌道を示す自車両パスを決定してもよい。障害物や他車両との接触可能性が低いので、中期計画作成部３０は、自車両が道なりに走行する場合には、自車両が走行する車線に沿った予定軌道を算出し、また、自車両が右左折、分岐などを行う場合には、その右左折道路や分岐道路の形状に応じた予定軌道を算出してもよい。障害物や他車両が検出された場合であっても、当該障害物や他車両が自車両の行動に左右されないような状態の場合、中期計画作成部３０は、他車両の行動を線形予測し、該予測結果に基づいて自車両パスを決定してもよい。

　一方、周辺環境情報から道路上に駐車車両などの障害物が存在することが分かると、中期計画作成部３０は、道路情報に基づいて、その障害物を回避して道路上を走行することが可能な予定軌道を算出する。また、走行経路が、先の交差点で右折または左折することになっている場合に、自車両が右折レーンまたは左折レーンとは異なるレーンを走行している場合、中期計画作成部３０は、右折レーンまたは左折レーンに車線変更するための予定軌道を算出する。

　なお、中期計画作成部３０が予定軌道を算出する際、中期計画作成部３０は、自車両の周囲に他車両が存在していても、他車両が走行している車線位置や他車両の位置などを考慮せずに、自車両の予定軌道を算出する。その理由は、インタラクティブ予測部４０が、予定軌道に基づき、他車両と接触しない自車両の行動（自車両パスおよびターゲット速度）を定めるためである。従って、中期計画作成部３０は、自車両の周囲に他車両が存在している場合、他車両と接触しない自車両パスを定めるために必要な情報をインタラクティブ予測部４０へ出力する。具体的には、中期計画作成部３０は、インタラクティブ予測部４０へ、自車両の現在の（および過去の）自車両情報、自車両の車線位置情報、他車両の現在の（および過去の）他車両情報、他車両の車線位置情報、自車両の予定軌道、障害物の位置およびサイズ、道路情報などを出力する。

　インタラクティブ予測部４０は、設定部としての機能として、自車両が取り得る複数の行動を設定する。ここで設定される行動として、例えば、「待機」、「徐行」、「進行」、「ウィンカー点灯」などが挙げられる。複数の行動が、互いに異なる速度での進行のみであってもよい。すなわち、インタラクティブ予測部４０が、複数の行動として、速度Ａでの進行と、速度Ａとは異なる速度Ｂで進行とを設定してもよい。さらに、インタラクティブ予測部４０は、設定されたそれぞれの行動を自車両が実行する際の、自車両の進行予定軌道を示す自車両パスを定める。この自車両パスは、自車両の行動と自車両の予定軌道に基づいて定められる。例えば、自車両が待機する場合には、自車両パスは自車両の待機地点に留まるが、自車両が進行する場合には、自車両の予定軌道をなぞるように自車両パスが定められる。また、自車両がある速度で走行する場合と、該速度に比べて相対的に低い（または高い）速度で走行する場合とでは、時間当たりの自車両パスの長さが変化する。さらに、自車両が進行する速度に応じて、予定軌道に基づく自車両パスの軌道を変更してもよい。例えば、予定軌道が曲線を描くときに、自車両が相対的に高い速度で進行する場合には、相対的に低い速度で進行する場合に比較して、曲率が小さくなるように、自車両パスを定めてもよい。

　インタラクティブ予測部４０は、自車両のそれぞれの行動に対して、他車両が取り得る複数の行動を設定する。さらに、インタラクティブ予測部４０は、設定されたそれぞれの行動を他車両が実行する際の、他車両の進行予定軌道を示す他車両パスを定める。他車両パスは、上述した自車両パスと同様に定められる。

　例えば、インタラクティブ予測部４０は、所定時間（例えば、１～５秒）が経過するまでの、上述した自車両パスおよび他車両パスを定める。上述したように、自車両パスおよび他車両パスは、自車両および他車両の行動に応じて、時間あたりの長さや軌道が変化する。このため、自車両が取り得る複数の行動に対応する自車両パスと、その自車両の行動に対して他車両が取り得る複数の行動に対応する他車両パスとのそれぞれの組み合わせは、単に、自車両と他車両との距離的（空間的）な関係だけではなく、時間的な関係も含んだものとなる。従って、自車両が取り得る複数の行動に対応する自車両パスと、その自車両の行動に対して他車両が取り得る複数の行動に対応する他車両パスとのそれぞれの組み合わせの集合は、自車両と他車両との様々な状態を時間的、空間的に表す時空間状態行動マップとなる。この時空間状態行動マップには、自車両パスおよび他車両パスの複数の地点における、自車両の速度、加速度、方向などの付随情報、および他車両の速度、加速度、方向などの付随情報が含まれてもよい。

　図２は、時空間状態行動マップの一例を示している。ただし、図２が示すのは、自車両および他車両とも、取り得る行動は待機と進行の２種類としたシンプルな例である。

　インタラクティブ予測部４０では、近似関数器５０を用いて、自車両が取り得る複数の行動と、その自車両の行動に対して他車両が取り得る複数の行動とのそれぞれの組み合わせを評価する。ここで、近似関数器５０は、評価結果として、自車両と他車両の接触可能性に関する情報を出力する出力部として機能する。図２では、自車両と他車両の接触可能性に関する情報を報酬値とした例を示しているが、自車両と他車両の接触可能性に関する情報は、自車両と他車両の接触可能性の程度を示すものであればアルファベットや記号などでもよい。当該評価は、自車両の位置、速度、および自車両パスと、他車両の位置、速度、および他車両パスを考慮して決定される。そして、インタラクティブ予測部４０は、選択部としての機能として、近似関数器５０の評価結果に基づいて、自車両の行動を選択する。具体的には、自車両が他車両との接触を避けることができる可能性の高い自車両の行動を選択し、その行動を示す情報を中期計画作成部３０に出力する。インタラクティブ予測部４０は、例えば、報酬値が最も大きくなるときの自車両の行動を示す情報を中期計画作成部３０に出力する。自車両の行動を示す情報は、設定した複数の行動のうちの１つの行動であってもよいし、当該１つの行動に加えて、その行動を実行するときの自車両パスおよびその自車両パスを進行する際の所定時間間隔（例えば、１秒間隔）でのターゲット速度を中期計画作成部３０に出力してもよい。後者のほうが、より詳細な走行軌道を生成する短期計画作成部６０の演算負担を減らすことができるため好ましい。なお、近似関数器５０を用いた評価方法については、後に詳細に説明する。また、インタラクティブ予測部４０が、本開示における車両行動評価装置に相当する。

　これら中期計画作成部３０とインタラクティブ予測部４０とは、例えば自車両の車載ＥＣＵによって構成される。車載ＥＣＵは、車両に搭載されるコンピュータであって、少なくとも１つのプロセッサ、ＲＡＭ、ＲＯＭなどのコンピュータ読み取り可能な非遷移記憶媒体、入出力インターフェイス、および、それらを接続するバスを備えるマイクロコンピュータを主体として構成される。車載ＥＣＵに備わる非遷移記憶媒体には、図６に示す車両行動生成処理を実行するためのプログラムが格納されている。そして車載ＥＣＵに備わるプロセッサが当該プログラムを実行する。なお、中期計画作成部３０とインタラクティブ予測部４０とは、１つの車載ＥＣＵによって構成されてもよいし、別個の車載ＥＣＵによって構成されてもよい。また、中期計画作成部３０およびインタラクティブ予測部４０の機能を、自車両と通信可能であり且つ自車両の外部に配置された外部サーバに設けてもよい。

　中期計画作成部３０は、インタラクティブ予測部４０が出力する自車両の行動を示す情報を受信し、その情報を短期計画作成部６０に出力する。短期計画作成部６０は、受信した自車両の行動を示す情報（例えば、自車両パスとターゲット速度）に基づいて、実際に自車両の動きを制御するための短期計画（例えば、１～２秒後までの計画）を作成し、パスフォロー制御部７０に出力する。これにより、自車両の詳細な進行軌道が決定される。なお、短期計画作成部６０も、各種センサ１０からの検出信号を受信しており、想定外の事態（例えば、予測時とは異なる他車両の行動、物影からの移動物体の飛び出しなど）が発生した場合などには、短期計画作成部６０が、自車両を緊急停止させたり、自車両の進行方向を変更させたりする短期計画を作成することによって、想定外の事態にも対応できるように構成されている。

　パスフォロー制御部７０は、操舵制御部、エンジン制御部、ブレーキ制御部などを含み、車両の操舵方向、駆動力、および制動力を制御することにより、短期計画作成部６０が作成した短期計画に従って、自車両の動きを制御する。短期計画作成部６０とパスフォロー制御部７０も、例えば自車両の車載ＥＣＵによって構成される。

　次に、インタラクティブ予測部４０における、近似関数器５０を用いた評価方法について説明する。最初に、図３を参照して、近似関数器５０の作成方法の一例を説明する。図３に示すように、近似関数器５０は、シミュレータ１２０、報酬算出部１３０、近似関数器生成部１４０によって作成される。シミュレータ１２０、報酬算出部１３０、近似関数器生成部１４０は車外に設けられている。

　シミュレータ１２０は、様々な交通環境における自車両と他車両の行動を示す各種のシナリオ（右左折、追い越し、障害物を迂回してのすれ違い、合流、分岐など）に応じて、様々な交通環境の下で自車両および他車両の走行軌道を生成して、自車両および他車両の走行状況をシミュレートする。このシミュレートされる自車両および他車両の走行状況は、自車両および他車両の停止を含む速度の変化を伴うものである。さらに、シミュレートされる走行状況は、接触を回避できた自車両と他車両との走行状況と、接触に到った自車両と他車両との走行状況とを含むものである。

　シミュレータ１２０は、自車両と他車両との走行状況を複数のステップに細分化した各ステップにおける自車両と他車両との走行状況を示す走行データを報酬算出部１３０に出力する。具体的には、シミュレータ１２０は、各ステップにおける走行データとして、自車両の位置、速度、加速度などの自車両の状態、自車両の予定経路、障害物の位置、他車両の位置、速度、加速度などの他車両の状態、経過時間などのデータを報酬算出部１３０に出力する。

　報酬算出部１３０は、受信した走行データに基づいて、自車両と他車両との走行状況における自車両の状況に報酬を付与する。以下に、報酬の算出方法のいくつかの例を説明する。報酬算出部１３０は、自車両と他車両とが接触した場合に、ペナルティとして与えられる、第１のコストを算出する。さらに、報酬算出部１３０は、自車両と他車両とが接触した場合に、その接触に到る以前のステップの自車両の走行状況に対して、接触に到るまでの時間が短くなるほど大きく設定される第２のコストを算出する。そして、報酬算出部１３０は、算出した第１および第２のコストの合計の逆数として報酬を算出する。これにより、他車両との接触を回避できる可能性が高い走行状況であるほど高い報酬が付与され、逆に、他車両との接触の可能性が高い走行状況であるほど低い報酬が付与されるようにすることができる。

　また、報酬算出部１３０は、走行データから把握される、自車両と他車両を含む物体との距離に基づいて、その距離が近づくほど大きく設定される第３のコストを算出し、この第３のコストも加味して（第１および第２のコストの合計値に加え、その合計値の逆数を算出する）、報酬を算出してもよい。自車両と物体との距離が短くなるほど、接触の可能性も高まると考えられるためである。なお、自車両の周囲に複数の物体（例えば、障害物と他車両）が存在する場合には、第３のコストは、それぞれの物体に対して算出される。

　また、報酬算出部１３０は、自車両が他車両との接触を回避するために要する時間（経過時間）が長くなるほど大きく設定される第４のコストを算出し、この第４のコストも加味して（第１～第３のコストの合計値に加え、その合計値の逆数を算出する）、報酬を算出してもよい。経過時間を考慮することで、より素早く他車両との接触を回避することができる走行状況（自車両の行動）に対して、より高い報酬が付与されるようにすることができるためである。

　また、報酬算出部１３０は、自車両が走行すべき車線から逸脱する継続時間および／または距離が長くなるほど大きく設定される第５のコストを算出し、この第５のコストも加味して、報酬を算出してもよい。例えば、自車両の走行車線上の駐車車両によって走行車線の一部が塞がれており、自車両は、駐車車両を迂回するために、少なくとも一部または完全に対向車線を走行する必要がある場合、対向車線を走行する時間が長くなるほど、および／または対向車線を走行する距離が長くなるほど、他車両と接触する可能性が高くなるためである。さらに、報酬算出部１３０は、自車両の加速度が大きくなるほど大きく設定される第６のコストを算出し、この第６のコストも加味して、報酬を算出してもよい。自車両の加速度が高くなるほど、他車両などとの接触の可能性が高まると考えられるためである。

　なお、自車両の行動に対して付与される報酬は、上述した第１～第６のコストに加えて、もしくは代えて、自車両と他車両との接触可能性を反映した他のコストに基づいて算出されてもよい。また、上述した第１～第６のコストにおいて、自車両と他車両とが接触したときのペナルティとしての第１のコストは、他のコストに比較して、相対的に大きく設定される。さらに、自車両と他車両との接触に到る以前のステップの走行状況に対して付与される第２のコストは、第１のコストを、接触に到る時間に応じた割引率で割り引くことにより算出される。具体的には、接触に到るまでの時間が短いほど、割引率は小さくなる。従って、自車両と他車両とが接触するような走行状況、および接触に到る走行状況に対しては、非常に低い報酬が付与されるようにすることができる。

　このようにして、報酬算出部１３０は、自車両と他車両との各種の走行状況に対して、接触する可能性（または、接触を回避できる可能性）に応じた報酬を与えることで、走行状況－報酬データを作成する。作成された走行状況－報酬データは、近似関数器生成部１４０に与えられる。なお、報酬算出部１３０は、個々の走行状況と、それら個々の走行状況に対する報酬データとを、そのまま、近似関数器生成部１４０に与えてもよいが、自車両の予定軌道ごとに、その予定軌道に含まれる走行状況と報酬データとをまとめて、近似関数器生成部１４０に与えてもよい。

　近似関数器生成部１４０は、報酬算出部１３０が作成した走行状況－報酬データに基づいて、近似関数器５０に、自車両と他車両との様々な走行状況（時空間状態）と報酬との関係を近似する関数を学習させる。この近似関数器５０として、ディープニューラルネットワークを用い、学習手法として、いわゆるディープＱラーニングを用いることができる。ただし、近似関数器５０は、ニューラルネットワークに制限されず、例えば、サポートベクターマシン（ＳＶＭ）などを用いてもよい。このような近似関数器５０は、上述した時空間状態行動マップに含まれる、自車両が取り得る複数の行動と、その自車両の行動に対して他車両が取り得る複数の行動とのそれぞれの組み合わせに関して、自車両の位置、速度、および自車両パスと、他車両の位置、速度、および他車両パスに基づいて、自車両の行動に評価としての報酬を付与することができる。なお、予め作成された関数が近似関数器５０として車両に搭載される例を説明したが、近似関数器５０に係る関数が、過去の評価結果や車両の走行履歴に基づいて再学習されてもよい。

　次に、図１に示す自動運転システム１００において、車両を自動的に運転するために実行される処理を、図４のフローチャートを参照して説明する。

　図４のフローチャートにおいて、ステップＳ１００では、長期計画作成部２０が、道路地図データベースを利用して、車両が出発地（現在地）から目的地まで達するために走行する道路の経路（走行経路）を設定する。ステップＳ１１０では、中期計画作成部３０が、長期計画作成部２０によって設定された目的地までの走行経路を取得する。

　ステップＳ１２０では、中期計画作成部３０およびインタラクティブ予測部４０において、適正と評価された自車両の行動（自車両パス、ターゲット速度）が生成される。この自車両行動評価生成処理は、後に、図５のフローチャートに基づいて、詳細に説明される。続くステップＳ１３０では、短期計画作成部６０が、生成された自車両の行動に基づいて、実際に自車両の動きを制御するための短期計画を作成する。ステップＳ１４０では、パスフォロー制御部７０が、作成された短期計画に従って、車両の操舵方向、駆動力、および制動力を制御することにより、自車両の動きを制御する。

　ステップＳ１５０では、自車両が指定された目的地に到達したか否かを判定する。到達していなければ、ステップＳ１２０からの処理が繰り返される。なお、目的地が変更された場合には、再び、最初のステップＳ１００から処理が実行される。

　次に、図５のフローチャートを参照して、中期計画作成部３０およびインタラクティブ予測部４０において実行される、車両行動評価生成処理について説明する。当該車両行動評価生成処理は前述のＳ１２０の工程に対応している。

　最初のステップＳ２００では、車両の現在位置周辺の道路情報と、各種センサ１０によって検出された、周辺環境情報および自車両情報とを入力する。続くステップＳ２１０では、周辺環境情報に基づいて、他車両を含む物体の形状、位置、サイズ、移動物体であるか静止物体であるか等を認識する。

　ステップＳ２２０では、ステップＳ２１０における認識結果に基づいて、自車両の周囲に他車両が存在するか否かを判定する。自車両の周囲に他車両が存在すると判定した場合、ステップＳ２３０の処理に進む。一方、自車両の周囲に他車両が存在しないと判定した場合、ステップＳ３２０の処理に進む。

　ステップＳ２３０では、自車両の取り得る行動、および自車両の行動に対して他車両が取り得る行動を設定するため、および、自車両の行動と他車両の行動とのそれぞれの組み合わせにおいて、自車両の行動を評価するために必要な情報をインタラクティブ予測部４０に出力する。具体的には、現在および過去の自車両の位置、方向、速度、および加速度などの自車両状態情報、自車両が走行している車線位置情報、現在および過去の他車両の位置、方向、速度、および加速度などの他車両状態情報、他車両の車線位置情報、自車両の予定軌道、障害物の位置およびサイズ、道路形状、車線数などを含む道路情報を出力する。

　ステップＳ２４０では、インタラクティブ予測部４０は、取得した各種の情報に基づいて、自車両が待機するか、進行するかを少なくとも含む自車両が取り得る複数の行動を設定する。さらに、インタラクティブ予測部４０は、ステップＳ２５０において、設定されたそれぞれの行動を自車両が実行する際の、自車両の進行予定軌道を示す自車両パスを定める。

　ステップＳ２６０では、インタラクティブ予測部４０は、他車両に関しても、自車両のそれぞれの行動に対して、他車両が待機するか、進行するかを少なくとも含む他車両が取り得る複数の行動を設定する。さらに、インタラクティブ予測部４０は、ステップＳ２７０において、設定されたそれぞれの行動を他車両が実行する際の、他車両の進行予定軌道を示す他車両パスを定める。

　そして、インタラクティブ予測部４０は、ステップＳ２８０において、自車両が取り得る複数の行動と、その自車両の行動に対して他車両が取り得る複数の行動とのそれぞれの組み合わせに関して、近似関数器５０を用いて、自車両の位置、速度、および自車両パスと、他車両の位置、速度、および他車両パスに基づいて、自車両の行動に報酬を付与する。例えば、近似関数器５０は、道路形状、車線数、自車両の予定軌道、障害物の位置、方向、サイズなどから把握される環境において、自車両パスに含まれる複数地点における自車両の位置、方向、速度、加速度と、それに対応する、他車両パスに含まれる複数地点における他車両の位置、方向、速度、加速度との組み合わせに対して、各地点ごとに、学習内容に基づいて報酬を算出する。そして、自車両パスおよび他車両パスに含まれる複数地点での報酬を合計することで、自車両の行動と他車両の行動とのそれぞれの組み合わせにおける、自車両の行動に対して報酬を算出する。

　例えば、図６に示すように、自車両が、自車両の走行車線上に駐車車両が存在し、自車両はこの駐車車両を迂回して走行しなければならない状況で、対向車線を走行してくる他車両が存在する場面に遭遇したとする。この場合、自車両が先に駐車車両に接近して、駐車車両を迂回する行動を開始できる場合には、対向車線を走行する他車両は、自車両が元の走行車線に戻るまで待機したり、あるいは速度を緩めたりする可能性が高い。走行状況－報酬データには、このような走行状況も含まれており、この場合、自車両が駐車車両を迂回して進行する行動に相対的に高い報酬が与えられている。従って、このような走行状況においては、自車両の行動と他車両の行動との組み合わせにおける、自車両の行動の中で、自車両が駐車車両を迂回して進行する行動に高い報酬が与えられることになる。

　一方、対向車線を走行する他車両が先に駐車車両に接近した場合には、自車両は、他車両の通過をやり過ごすため、駐車車両の近傍で待機したり、速度を緩めたりすることが必要である。走行状況－報酬データには、このような走行状況も含まれており、この場合、自車両が他車両の通過を待機したり、速度を緩めたりする行動に高い報酬が与えられている。従って、このような走行状況においては、自車両の行動と他車両の行動との組み合わせにおける自車両の行動の中で、自車両が待機する、あるいは速度を緩める行動に高い報酬が与えられることになる。

　本実施形態では、このように、自車両が取り得る複数の行動と、その自車両の行動に対して他車両が取り得る複数の行動とのそれぞれの組み合わせに関して、近似関数器５０を用いて、自車両の行動に報酬を付与しているので、実際の状況に適した自車両の行動に高い報酬を付与することができる。

　再び、図５のフローチャートに戻って説明を続ける。ステップＳ２８０において、自車両の行動と他車両の行動とのそれぞれの組み合わせにおける、自車両の行動に報酬が付与されると、ステップＳ２９０に進んで、付与されたそれぞれの報酬の中で最も高い報酬と、２番目に高い報酬との間に、所定値以上の差が生じているか否かを判定する。このとき、所定値以上の差が生じていると判定されると、ステップＳ３１０の処理に進む。一方、所定値以上の差が生じていないと判定されると、ステップＳ３００の処理に進む。

　最も高い報酬と２番目に高い報酬との間に所定値以上の差が生じていない場合、いずれの自車両の行動が最も適した行動であるかの優劣を完全には断定できないと考えられる。そのため、本実施形態では、自車両の行動と他車両の行動とのそれぞれの組み合わせに引き続いて自車両が取り得る複数の行動の設定、設定されたそれぞれの行動を自車両が実行する際の自車両パスの決定、自車両のそれぞれの行動に対して他車両が取り得る複数の行動の設定、および、設定されたそれぞれの行動を他車両が実行する際の他車両パスの決定を実行させるべく、ステップＳ２４０の処理にループさせる。ループの際には、他車両の行動や他車両パスに応じて、自車両がどのように行動したり自車両パスが受ける影響を考慮する。さらにもう一度ループする場合は、１回目のループで考慮した自車両の行動および自車両パスに応じて、他車両の行動や他車両パスが受ける影響を考慮する。このように処理をループさせることで、自車両および／または他車両が取った行動に対して、自車両および／または他車両にどのような行動変化が生じるかを高精度に予測することが可能になる。ただし、このループを無制限に許可してしまうと、ループが繰り返され、自車両の行動を決定できない虞が生じる。そのため、ステップＳ３１０では、ループ回数が所定回数に達したか否かを判定する。そして、ループ回数が所定回数に達していなければ、ステップＳ２４０の処理にループするが、ループ回数が所定回数に達している場合には、ステップＳ３１０の処理に進むように構成されている。

　ステップＳ３１０では、付与された報酬に基づいて、最も高い報酬が付与された自車両の行動を選択する。そして、インタラクティブ予測部４０は、選択した自車両の行動に関する情報（自車両パスおよびターゲット速度）を、中期計画作成部３０に出力する。なお、ステップＳ３１０において、報酬に基づいて自車両の行動を選択する代わりに、インタラクティブ予測部４０は中期計画作成部３０に他の行動を指示してもよい。例えば、現在の自車両の速度・加速度の維持、徐々に速度低減、停止のうちいずれかを中期計画作成部３０に指示してもよい。

　一方、ステップＳ２２０において、自車両の周囲に他車両が存在しないと判定された場合に実行されるステップＳ３２０では、中期計画作成部３０は、走行経路に沿って走行するように、道路情報に基づいて自車両の行動を決定する。例えば、自車両が道なりに走行する場合には、自車両が走行する車線に沿った予定軌道を算出し、その予定軌道を走行する際のターゲット速度を算出する。また、自車両が右左折、分岐などを行う場合には、中期計画作成部３０は、その右左折道路や分岐道路の形状に応じた予定軌道およびターゲット速度を算出する。

　以上、説明したように、本実施形態の車両行動評価装置によれば、自車両の行動と他車両の行動とのそれぞれの組み合わせにおける自車両の行動について、近似関数器５０を用いて評価しているので、自車両の（将来の）行動に付与された報酬に基づいて、その自車両の行動が、自車両が直面している交通状況に適したものであるか否かを適正に評価することができる。

　なお、本実施形態の車両行動評価装置において、自車両の行動を評価するために少なくとも１つのプロセッサが行う処理が本開示の車両行動評価方法に相当する。また、本実施形態の車両行動評価装置において、少なくとも１つのプロセッサが車両行動評価方法を実行するための命令を含むプログラムが、本開示の車両行動評価プログラムに相当する。

　（第２実施形態）
　次に、本開示の第２実施形態について説明する。ただし、本実施形態による車両行動評価装置は、第１実施形態の車両行動評価装置と同様に構成されるため、構成に関する説明は省略する。

　上述した第１実施形態では、例えば、図６に基づき、自車両の走行車線上に駐車車両が存在し、自車両はこの駐車車両を迂回して走行しなければならない状況で、対向車線を走行してくる他車両が存在する状況を示し、自車両と他車両とが取り得る行動に関して説明した。しかしながら、他車両が存在する場合に、その他車両を運転する運転者が急いでいる事情があったりした場合には、そのような事情がない場合と比較して、他車両の行動は異なることが多い。本実施形態では、このような他車両の運転特性も考慮する点が、第１実施形態と異なる。

　本実施形態では、図７に示すように、時空間状態行動マップにおいて、他車両の運転特性を考慮する。具体的には、各種センサ１０によって検出される他車両の動きから、他車両が激しい運転を行う運転特性を有しているか、優しい運転を行う運転特性を有しているかを判定する。この際、わずかな時間における他車両の動きだけでは、激しい運転特性を有しているか、優しい運転特性を有しているかを断定することは困難であるため、例えば、激しい運転特性の確率と優しい運転特性の確率とを算出することが好ましい。さらに、他車両の運転特性として、例えば、激しい、平均的、優しいなど３種類以上に区分けしてもよい。

　他車両の運転特性について断定できる場合には、その運転特性に関して枝分かれしている、自車両の行動と他車両の行動との組み合わせを考慮するだけでもよい。ただし、他車両の運転特性に関して、それぞれの特性の確率を算出した場合には、それぞれの運転特性から枝分かれしている自車両の行動と他車両の行動との組み合わせに関して、自車両パスおよび他車両パスを定める。この際、他車両の行動として、他車両の運転特性を考慮することができる。例えば、激しい運転特性の他車両が進行する場合の速度や加速度は、優しい運転特性の他車両が進行する場合の速度や加速度よりも高く見積もることができる。そして、最終的に自車両の行動に付与する報酬は、それぞれの運転特性の確率に応じて、増減して算出すればよい。

　他車両の運転特性を考慮することが好ましい例としては、例えば、第１実施形態において図６を用いて説明した状況に加え、図８に示すような状況も該当する。図８は、自車両が側道から本線に合流しようとしているときに、自車両の近くで本線を走行している他車両が存在する状況を示している。図８に示すような状況において、他車両が激しい運転特性を有している場合、より長い矢印で示すように、高い速度で走行を継続する可能性が高い。一方、他車両が優しい運転特性を有している場合、自車両の本線合流が可能となるように、速度を低下させる可能性が高い。走行状況－報酬データには、他車両の運転特性が激しい場合と、優しい場合の走行状況も含まれている。従って、近似関数器５０により、他車両の運転特性が激しい場合には、速度を低下させる自車両の行動に相対的に高い報酬が与えられ、他車両の運転特性が優しい場合には、他車両の前で本線に合流する自車両の行動に相対的に高い報酬が与えられる可能性が高くなる。このように、他車両の運転特性を考慮することで、他車両と自車両との相対的な位置関係が同じであったとしても、自車両が取るべき最適な行動は変化する。

　さらに、図８に類似する状況として、例えば、自車両が車線変更を行う必要がある場合に、その変更先の車線を他車両が走行しているとき、その他車両の運転特性を考慮することが好ましい。さらに、自車両の周囲に他車両が存在するすべての状況において、他車両の運転特性を考慮するようにしてもよい。

　（第３実施形態）
　次に、本開示の第３実施形態について説明する。ただし、本実施形態による車両行動評価装置も、第１実施形態の車両行動評価装置と同様に構成されるため、構成に関する説明は省略する。

　上述した第２実施形態では、他車両の運転特性を考慮して時空間状態行動マップを作成したが、本実施形態では、交通信号の状態を考慮して時空間状態行動マップを作成する点が、第２実施形態と異なる。

　本実施形態では、図９に示すように、時空間状態行動マップにおいて、交通信号の状態を考慮する。具体的には、図１０に示すように、自車両が交差点において右折しようとしているときに、対向車線を交差点に向かって進行してくる他車両が存在する場合に、交通信号の状態に応じた、時空間状態行動マップを作成する。なお、交通信号の状態は、各種センサ１０によって検出される検出結果から、交通信号が青色点灯状態であるか、黄色点灯状態であるかを判定することができる。さらに、交通信号に右折矢印信号が設けられている場合には、右折矢印点灯状態であるかを判定するようにしてもよい。

　交通信号が青色点灯状態であることが検出されると、図９に示す時空間状態行動マップにおいて、青信号から枝分かれしている自車両の行動と他車両の行動の組み合わせに関して、自車両パスおよび他車両パスを定める。ここで、青信号の場合、自車両の右折動作よりも、対向車線を交差点に接近してくる他車両の走行が優先される。走行状況－報酬データには、このような走行状況も含まれている。このため、近似関数器５０によって、自車両が待機し、他車両が進行する行動の組み合わせにおける、自車両の行動に高い報酬が与えられる可能性が高くなる。ただし、他車両が交差点に進入するまでに十分な時間があるとみなせる状況では、自車両が右折のために信号する自車両の行動に高い報酬が与えられる可能性が高くなる。

　一方、交通信号が、黄色点灯状態であることが検出されると、時空間状態行動マップにおいて、黄信号から枝分かれしている自車両の行動と他車両の行動の組み合わせに関して、自車両パスおよび他車両パスを定める。ここで、黄信号の場合、対向車線を交差点に接近してくる他車両は交差点の停止線で停止し、右折を待機している自車両は、右折のために進行する可能性が高くなる。走行状況－報酬データには、このような走行状況も含まれている。このため、近似関数器５０によって、自車両が右折のために進行し、他車両が停止線で停止する行動の組み合わせにおける、自車両の行動に高い報酬が与えられる可能性が高くなる。右折矢印信号が点灯した場合には、よりその可能性が高くなる。このように、交通信号の状態を考慮することで、自車両が実際の交通環境において遭遇する場面において、自車両の行動として、より適切な行動を選択することができるようになる。

　以上、本開示の好ましい実施形態について説明したが、本開示は、上述した実施形態になんら制限されることなく、本開示の主旨を逸脱しない範囲において、種々、変形して実施することができる。

　例えば、上述した実施形態では、自動運転システム１００を、長期計画作成部２０、中期計画作成部３０、および短期計画作成部６０を含むように構成したが、これらの構成は、任意に統合されてもよい。さらに、中期計画作成部３０とインタラクティブ予測部４０も統合して構成されてもよい。

Claims

　自車両の将来の行動を評価するための車両行動評価装置であって、
　予定走路の走行に際して、自車両が取り得る複数の行動を設定する設定部（Ｓ２４０）と、
　前記自車両の周辺環境と前記自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、前記自車両が前記他車両と接触を回避できた前記自車両の状況には高い報酬を与え、前記自車両が前記他車両と接触に到った前記自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況－報酬データに基づき学習された関数器（５０）を有し、この関数器を用いて、前記設定部によって設定された前記自車両の行動に対して、前記自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて前記自車両の行動を評価する評価部（Ｓ２８０）と、を備える車両行動評価装置。
　前記シミュレーションは、前記複数の環境下において、前記自車両の行動および速度と、前記他車両の行動および速度との異なる組み合わせを含む請求項１に記載の車両行動評価装置。
　前記走行状況－報酬データは、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両と前記他車両とが接触した場合に、ペナルティとして設定される第１のコストと、前記自車両と前記他車両とが接触した場合に、その接触に到る以前のステップの前記自車両の走行状況に対して、接触に到るまでの時間が短くなるほど大きく設定される第２のコストとが算出され、前記第１および第２のコストの合計の逆数として報酬が算出されて作成されたものである請求項１または２に記載の車両行動評価装置。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記他車両を含む物体との距離が近づくほど大きく設定される第３のコストが算出され、
　前記走行状況－報酬データは、前記第３のコストも加味して報酬が算出されて作成されたものである請求項３に記載の車両行動評価装置。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が前記他車両との接触を回避するために要する時間が長くなるほど大きく設定される第４のコストが算出され、
　前記走行状況－報酬データは、前記第４のコストも加味して報酬が算出されて作成されたものである請求項３または４に記載の車両行動評価装置。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が走行すべき車線から逸脱する継続時間および／または距離が長くなるほど大きく設定される第５のコストが算出され、
　前記走行状況－報酬データは、前記第５のコストも加味して報酬が算出されて作成されたものである請求項３乃至５のいずれか１項に記載の車両行動評価装置。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両の加速度が大きくなるほど大きく設定される第６のコストが算出され、
　前記走行状況－報酬データは、前記第６のコストも加味して報酬が算出されて作成されたものである請求項３乃至６のいずれか１項に記載の車両行動評価装置。
　前記第１のコストは、その他のコストに比較して、相対的に大きく設定される請求項３乃至７のいずれか１項に記載の車両行動評価装置。
　自車両の将来の行動を評価するための車両行動評価方法であって、
　少なくとも１つのプロセッサにより実行される、
　予定走路の走行に際して、自車両が取り得る複数の行動を設定する設定ステップ（Ｓ２４０）と、
　前記自車両の周辺環境と前記自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、前記自車両が前記他車両と接触を回避できた前記自車両の状況には高い報酬を与え、前記自車両が前記他車両と接触に到った前記自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況－報酬データに基づき学習された関数器（５０）を用いて、前記設定ステップにおいて設定された前記自車両の行動に対して、前記自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて前記自車両の行動を評価する評価ステップ（Ｓ２８０）と、を備える車両行動評価方法。
　前記シミュレーションは、前記複数の環境下において、前記自車両の行動および速度と、前記他車両の行動および速度との異なる組み合わせを含む請求項９に記載の車両行動評価方法。
　前記走行状況－報酬データは、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両と前記他車両とが接触した場合に、ペナルティとして設定される第１のコストと、前記自車両と前記他車両とが接触した場合に、その接触に到る以前のステップの前記自車両の走行状況に対して、接触に到るまでの時間が短くなるほど大きく設定される第２のコストとが算出され、前記第１および第２のコストの合計の逆数として報酬が算出されて作成されたものである請求項９または１０に記載の車両行動評価方法。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記他車両を含む物体との距離が近づくほど大きく設定される第３のコストが算出され、
　前記走行状況－報酬データは、前記第３のコストも加味して報酬が算出されて作成されたものである請求項１１に記載の車両行動評価方法。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が前記他車両との接触を回避するために要する時間が長くなるほど大きく設定される第４のコストが算出され、
　前記走行状況－報酬データは、前記第４のコストも加味して報酬が算出されて作成されたものである請求項１１または１２に記載の車両行動評価方法。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が走行すべき車線から逸脱する継続時間および／または距離が長くなるほど大きく設定される第５のコストが算出され、
　前記走行状況－報酬データは、前記第５のコストも加味して報酬が算出されて作成されたものである請求項１１乃至１３のいずれか１項に記載の車両行動評価方法。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両の加速度が大きくなるほど大きく設定される第６のコストが算出され、
　前記走行状況－報酬データは、前記第６のコストも加味して報酬が算出されて作成されたものである請求項１１乃至１４のいずれか１項に記載の車両行動評価方法。
　前記第１のコストは、その他のコストに比較して、相対的に大きく設定される請求項１１乃至１５のいずれか１項に記載の車両行動評価方法。
　コンピュータ読み取り可能な非遷移記憶媒体に記憶され、命令を含むプログラムであり、前記命令は、少なくとも１つのプロセッサにより実行された場合に、少なくとも１つの前記プロセッサに、
　予定走路の走行に際して、自車両が取り得る複数の行動を設定させ（Ｓ２４０）、
　前記自車両の周辺環境と前記自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、前記自車両が前記他車両と接触を回避できた前記自車両の状況には高い報酬を与え、前記自車両が前記他車両と接触に到った前記自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況－報酬データに基づき学習された関数器（５０）を用いて、設定された前記自車両の行動に対して、前記自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて前記自車両の行動を評価させる（Ｓ２８０）ことにより、前記自車両の将来の行動を評価するように構成された車両行動評価プログラム。
　前記シミュレーションは、前記複数の環境下において、前記自車両の行動および速度と、前記他車両の行動および速度との異なる組み合わせを含む請求項１７に記載の車両行動評価プログラム。
　前記走行状況－報酬データは、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両と前記他車両とが接触した場合に、ペナルティとして設定される第１のコストと、前記自車両と前記他車両とが接触した場合に、その接触に到る以前のステップの前記自車両の走行状況に対して、接触に到るまでの時間が短くなるほど大きく設定される第２のコストとが算出され、前記第１および第２のコストの合計の逆数として報酬が算出されて作成されたものである請求項１７または１８に記載の車両行動評価プログラム。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける走行状況に関して、前記他車両を含む物体との距離が近づくほど大きく設定される第３のコストが算出され、
　前記走行状況－報酬データは、前記第３のコストも加味して報酬が算出されて作成されたものである請求項１９に記載の車両行動評価プログラム。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が前記他車両との接触を回避するために要する時間が長くなるほど大きく設定される第４のコストが算出され、
　前記走行状況－報酬データは、前記第４のコストも加味して報酬が算出されて作成されたものである請求項１９または２０に記載の車両行動評価プログラム。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が走行すべき車線から逸脱する継続時間および／または距離が長くなるほど大きく設定される第５のコストが算出され、
　前記走行状況－報酬データは、前記第５のコストも加味して報酬が算出されて作成されたものである請求項１９乃至２１のいずれか１項に記載の車両行動評価プログラム。
　さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両の加速度が大きくなるほど大きく設定される第６のコストが算出され、
　前記走行状況－報酬データは、前記第６のコストも加味して報酬が算出されて作成されたものである請求項１９乃至２２のいずれか１項に記載の車両行動評価プログラム。
　前記第１のコストは、その他のコストに比較して、相対的に大きく設定される請求項１９乃至２３のいずれか１項に記載の車両行動評価プログラム。