WO2021166449A1 - 車両行動評価装置、車両行動評価方法、および車両行動評価プログラム - Google Patents

車両行動評価装置、車両行動評価方法、および車両行動評価プログラム Download PDF

Info

Publication number
WO2021166449A1
WO2021166449A1 PCT/JP2020/048689 JP2020048689W WO2021166449A1 WO 2021166449 A1 WO2021166449 A1 WO 2021166449A1 JP 2020048689 W JP2020048689 W JP 2020048689W WO 2021166449 A1 WO2021166449 A1 WO 2021166449A1
Authority
WO
WIPO (PCT)
Prior art keywords
vehicle
reward
behavior
cost
calculated
Prior art date
Application number
PCT/JP2020/048689
Other languages
English (en)
French (fr)
Inventor
大澤 弘幸
Original Assignee
株式会社デンソー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社デンソー filed Critical 株式会社デンソー
Priority to CN202080096496.0A priority Critical patent/CN115362092A/zh
Publication of WO2021166449A1 publication Critical patent/WO2021166449A1/ja
Priority to US17/819,566 priority patent/US20220392276A1/en

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/02Registering or indicating driving, working, idle, or waiting time only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • G06Q30/0284Time or distance, e.g. usage of parking meters or taximeters
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18159Traversing an intersection
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0027Planning or execution of driving tasks using trajectory prediction for other traffic participants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • G08G1/096805Systems involving transmission of navigation instructions to the vehicle where the transmitted instructions are used to compute a route
    • G08G1/096811Systems involving transmission of navigation instructions to the vehicle where the transmitted instructions are used to compute a route where the route is computed offboard
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • G08G1/096833Systems involving transmission of navigation instructions to the vehicle where different aspects are considered when computing the route
    • G08G1/096844Systems involving transmission of navigation instructions to the vehicle where different aspects are considered when computing the route where the complete route is dynamically recomputed based on new data
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/165Anti-collision systems for passive traffic, e.g. including static obstacles, trees
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0083Setting, resetting, calibration
    • B60W2050/0088Adaptive recalibration

Definitions

  • This disclosure relates to a vehicle behavior evaluation device, a vehicle behavior evaluation method, and a vehicle behavior evaluation program.
  • Patent Document 1 describes a track evaluation device that evaluates a future track on which a vehicle will travel.
  • This track evaluation device generates a future track on which the own vehicle travels, predicts the future position of an object around the own vehicle, and predicts the future of the object at multiple points on the future track of the own vehicle.
  • the evaluation is performed based on the relative positional relationship with respect to the longitudinal direction of the road and the relative positional relationship with respect to the width direction of the road. Then, based on the evaluation result for each point, the future track of the own vehicle is evaluated.
  • the target trajectory candidate of the own vehicle and the future position of the object are obtained on the premise that the own vehicle and the object perform constant velocity motion or constant acceleration motion. Then, for each coordinate of the target track candidate of the own vehicle, the deviation distance from the center line of the recommended lane, the magnitude of the lateral fluctuation amount (that is, the angular speed), the deviation amount from the target lane, and the traveling direction and lateral direction. The evaluation value is calculated based on the distance between the direction and the object. The target trajectory candidate is evaluated by adding the evaluation results for each coordinate.
  • objects such as own vehicle and other vehicles do not always perform constant velocity motion or constant acceleration motion, and may slow down or sometimes stop depending on traffic conditions.
  • the own vehicle may encounter a situation in which traveling in the recommended lane cannot always be the target track. For example, when a parked vehicle on the traveling lane of the own vehicle encounters a situation in which the width of the road on which the vehicle can travel is narrowed, the own vehicle needs to temporarily protrude into the oncoming lane and travel. At this time, if there is another vehicle traveling in the oncoming lane, the action to be taken by the own vehicle may change according to the action of the other vehicle.
  • the own vehicle For example, if the own vehicle first starts to bypass the parked vehicle and another vehicle traveling in the oncoming lane slows down or stops, the own vehicle bypasses the parked vehicle as it is. It is desirable to continue the action and return to the original driving lane. On the other hand, when the other vehicle continues to travel in the oncoming lane to the position of the parked vehicle, it is desirable that the own vehicle slows down or stops because the other vehicle passes through the other vehicle.
  • the target trajectory candidate of the own vehicle and the future position of the object are obtained, and further, from the recommended lane.
  • the target trajectory candidates are evaluated only by the distance between them and the distance from the object. Therefore, in the above situation, it is difficult to set a target trajectory candidate that can take a desirable action and give a high evaluation to the target trajectory candidate.
  • the present disclosure has been made in view of the above points, and is a vehicle behavior evaluation device and a vehicle behavior evaluation method capable of appropriately evaluating the behavior of the own vehicle suitable for various traffic conditions faced by the own vehicle. , And to provide a vehicle behavior assessment program.
  • the vehicle behavior evaluation device of the present disclosure is for evaluating the future behavior of the own vehicle.
  • a setting unit that sets multiple actions that the vehicle can take when traveling on the planned track, Simulations are performed under multiple environments where the combination of the surrounding environment of the own vehicle, the situation of the own vehicle, and the situation of the other vehicle is different, and a high reward is given to the situation of the own vehicle in which the own vehicle can avoid contact with other vehicles.
  • the vehicle behavior evaluation method of the present disclosure is a method for evaluating the future behavior of the own vehicle.
  • Run by at least one processor Setting steps to set multiple actions that your vehicle can take when driving on the planned track, Simulations are performed under multiple environments where the combination of the surrounding environment of the own vehicle, the situation of the own vehicle, and the situation of the other vehicle is different, and a high reward is given to the situation of the own vehicle in which the own vehicle can avoid contact with other vehicles.
  • the setting step using a function device learned based on the driving situation-reward data created so as to give a lower reward to the situation of the own vehicle when the own vehicle comes into contact with another vehicle.
  • For the set behavior of the own vehicle a reward that considers the running state of other vehicles around the own vehicle is calculated, and an evaluation step for evaluating the behavior of the own vehicle based on the calculated reward is provided. It is composed of.
  • the vehicle behavior evaluation program of the present disclosure is a program stored in a computer-readable non-transition storage medium and containing instructions, and the instructions are executed by at least one processor in at least one processor.
  • Simulations are performed under multiple environments where the combination of the surrounding environment of the own vehicle, the situation of the own vehicle, and the situation of the other vehicle is different, and a high reward is given to the situation of the own vehicle in which the own vehicle can avoid contact with other vehicles.
  • the driving situation created to give a lower reward to the situation of the own vehicle when the own vehicle comes into contact with another vehicle-It was set using a function device learned based on the reward data.
  • a reward is calculated in consideration of the running state of other vehicles around the own vehicle, and the behavior of the own vehicle is evaluated based on the calculated reward.
  • the function device rewards the set future actions of the own vehicle in consideration of the running state of other vehicles. calculate.
  • the behavior of the own vehicle is evaluated based on the calculated reward.
  • the function device performs simulations in multiple environments where the combination of the surrounding environment of the own vehicle, the situation of the own vehicle, and the situation of the other vehicle is different, and the situation of the own vehicle in which the own vehicle can avoid contact with the other vehicle is determined. It was learned based on the driving situation-reward data created so as to give a high reward and give a lower reward to the situation of the own vehicle when the own vehicle comes into contact with another vehicle.
  • FIG. 1 It is a figure which shows an example of the spatiotemporal state action map which considered the driving characteristic of another vehicle.
  • the spatiotemporal state action map which considered the state of a traffic signal As a preferable example of considering the state of a traffic signal, it is a diagram showing a situation in which another vehicle traveling in the oncoming lane exists when the own vehicle is waiting for a right turn at an intersection with a signal. ..
  • the vehicle behavior evaluation device is applied to the automatic driving system of the vehicle.
  • the application example of the vehicle behavior evaluation device according to the present disclosure is not limited to the automatic driving system of the vehicle.
  • it may be applied to a system in which the behavior of the own vehicle evaluated as appropriate by the vehicle behavior evaluation device is presented to the driver of the own vehicle as a recommended behavior.
  • FIG. 1 shows the overall configuration of the automatic driving system 100 to which the vehicle behavior evaluation device according to the present embodiment is applied.
  • the automatic operation system 100 includes various sensors 10, a long-term plan creation unit 20, a medium-term plan creation unit 30, an interactive prediction unit 40, a short-term plan creation unit 60, and a path follow control unit 70.
  • the various sensors 10 include, for example, at least one of sensors such as a camera, LiDAR, and millimeter wave radar.
  • the various sensors 10 detect the surrounding environment information of the own vehicle, the own vehicle information indicating the state of the own vehicle, and the other vehicle information indicating the state of other vehicles existing around the own vehicle.
  • the various sensors 10 detect falling objects on the road, obstacles such as parked vehicles on the road, road surface markings such as guardrails, curbs, and lane markings, and stationary objects such as trees as surrounding environment information. Further, the various sensors 10 detect moving objects such as pedestrians, animals other than humans, and other vehicles as surrounding environment information. Further, the various sensors 10 detect the position, direction, speed, and acceleration of the own vehicle as the own vehicle information.
  • the jerk (change in acceleration per unit time) of the own vehicle may be detected as the own vehicle information.
  • the various sensors 10 detect the position, direction, speed, and acceleration of the other vehicle as other vehicle information. Further, as other vehicle information, jerk of another vehicle may be detected.
  • the automatic driving system 100 may acquire at least a part of the own vehicle information and other vehicle information from an external server such as a control center via communication.
  • the long-term planning unit 20 uses the road map database to travel the road from the departure point (current location) to the destination. Create a route (traveling route). If the vehicle is equipped with a navigation device, the long-term planning unit 20 is configured by the navigation device. Alternatively, the long-term plan creation unit 20 may be provided on an external server such as a management center. Then, the occupant of the vehicle may create a traveling route to the destination on the external server by transmitting information on the departure place (current location) and the destination to the external server.
  • the medium-term plan creation unit 30 sets the travel route to the destination in more detail than the long-term plan creation unit 20. Specifically, for example, the medium-term plan creation unit 30 specifies which lane the own vehicle travels in when there are a plurality of lanes in the travel route. First, the medium-term plan creation unit 30 acquires a travel route to the destination created by the long-term plan creation unit 20. Further, the medium-term plan creation unit 30 acquires road information (number of lanes, lane width, shape, etc.) around the current position of the vehicle from the long-term plan creation unit 20 (road map database). Further, the medium-term plan creation unit 30 acquires the surrounding environment information of the own vehicle, the own vehicle information, and other vehicle information detected by the various sensors 10.
  • the medium-term plan creation unit 30 identifies the position of the lane in which the own vehicle is traveling when the road on which the own vehicle travels has a plurality of lanes based on the acquired road information and the own vehicle information. In addition, when the medium-term plan creation unit 30 determines that another vehicle exists around the own vehicle based on the acquired road information and surrounding environment information, the lane in which the other vehicle is traveling (in the same direction of travel). Whether it is a lane or an oncoming lane, and in the case of multiple lanes, the position of the lane in which another vehicle is traveling) is also specified.
  • the medium-term plan creation unit 30 determines the own vehicle up to a predetermined time (for example, 5 seconds) or a predetermined distance (for example, 100 m) based on the acquired travel route, road information, surrounding environment information, and own vehicle information. Calculate the planned track on the road.
  • the predetermined time or the predetermined distance may be a constant value, or may be a variable value that changes according to the speed of the own vehicle, for example.
  • the medium-term plan creation unit 30 grasps that there are no obstacles in the lane in which the own vehicle travels and that there are no moving objects such as other vehicles around the own vehicle based on the surrounding environment information.
  • the own vehicle path indicating the planned traveling trajectory of the own vehicle may be determined without going through the interactive prediction unit 40. Since the possibility of contact with obstacles and other vehicles is low, the medium-term planning unit 30 calculates the planned track along the lane in which the own vehicle travels when the own vehicle travels along the road, and also When the own vehicle makes a right / left turn, a branch, or the like, the planned track may be calculated according to the shape of the right / left turn road or the branch road.
  • the medium-term planning unit 30 linearly predicts the behavior of the other vehicle.
  • the own vehicle path may be determined based on the prediction result.
  • the medium-term planning unit 30 may travel on the road while avoiding the obstacle based on the road information. Calculate possible planned orbits. In addition, if the travel route is to turn right or left at the previous intersection, and the vehicle is traveling in a lane different from the right turn lane or left turn lane, the medium-term planning unit 30 will move to the right turn lane. Or calculate the planned track for changing lanes to the left turn lane.
  • the medium-term plan creation unit 30 uses the position of the lane in which the other vehicle is traveling and the position of the other vehicle even if another vehicle exists around the own vehicle. Calculate the planned track of your vehicle without considering such factors. The reason is that the interactive prediction unit 40 determines the behavior of the own vehicle (own vehicle path and target speed) that does not come into contact with other vehicles based on the planned track. Therefore, when another vehicle exists around the own vehicle, the medium-term plan creation unit 30 outputs the information necessary for determining the own vehicle path that does not come into contact with the other vehicle to the interactive prediction unit 40.
  • the medium-term planning unit 30 sends the interactive prediction unit 40 to the current (and past) own vehicle information of the own vehicle, the lane position information of the own vehicle, the current (and past) and others of the other vehicle. It outputs vehicle information, lane position information of other vehicles, planned track of own vehicle, position and size of obstacles, road information, and the like.
  • the interactive prediction unit 40 sets a plurality of actions that the own vehicle can take as a function as a setting unit. Examples of the action set here include “waiting”, “slowing", “progressing”, and “turning on the blinker”. Multiple actions may only proceed at different speeds from each other. That is, the interactive prediction unit 40 may set the progress at the speed A and the progress at a speed B different from the speed A as a plurality of actions. Further, the interactive prediction unit 40 determines the own vehicle path indicating the planned travel trajectory of the own vehicle when the own vehicle executes each of the set actions. This own vehicle path is determined based on the behavior of the own vehicle and the planned trajectory of the own vehicle.
  • the own vehicle path stays at the standby point of the own vehicle, but when the own vehicle advances, the own vehicle path is determined so as to trace the planned track of the own vehicle. Further, the length of the own vehicle path per hour changes depending on whether the own vehicle travels at a certain speed or at a speed relatively lower (or higher) than the speed. Further, the trajectory of the own vehicle path based on the planned trajectory may be changed according to the speed at which the own vehicle travels. For example, when the planned track draws a curve, if the own vehicle travels at a relatively high speed, the own vehicle path so that the curvature becomes smaller than when the own vehicle travels at a relatively low speed. May be set.
  • the interactive prediction unit 40 sets a plurality of actions that other vehicles can take for each action of the own vehicle. Further, the interactive prediction unit 40 determines another vehicle path indicating the planned travel trajectory of the other vehicle when the other vehicle executes each of the set actions. The other vehicle path is determined in the same manner as the own vehicle path described above.
  • the interactive prediction unit 40 determines the above-mentioned own vehicle path and other vehicle path until a predetermined time (for example, 1 to 5 seconds) elapses.
  • a predetermined time for example, 1 to 5 seconds
  • the own vehicle path and the other vehicle path change in length and track per hour according to the behavior of the own vehicle and the other vehicle. Therefore, each combination of the own vehicle path corresponding to a plurality of actions that the own vehicle can take and the other vehicle path corresponding to the plurality of actions that the other vehicle can take with respect to the action of the own vehicle is simply. It includes not only the distance (spatial) relationship between the own vehicle and other vehicles, but also the temporal relationship.
  • the set of each combination of the own vehicle path corresponding to a plurality of actions that the own vehicle can take and the other vehicle path corresponding to the plurality of actions that the other vehicle can take with respect to the action of the own vehicle is self.
  • It is a spatiotemporal state behavior map that represents various states of a vehicle and other vehicles in time and space.
  • This spatio-temporal state behavior map includes incidental information such as the speed, acceleration, and direction of the own vehicle and incidental information such as the speed, acceleration, and direction of the other vehicle at a plurality of points of the own vehicle path and the other vehicle path. May be.
  • FIG. 2 shows an example of a spatiotemporal state behavior map.
  • FIG. 2 shows a simple example in which there are two types of actions that can be taken for both the own vehicle and other vehicles: standby and progress.
  • the interactive prediction unit 40 uses the approximation function device 50 to evaluate each combination of a plurality of actions that the own vehicle can take and a plurality of actions that another vehicle can take with respect to the actions of the own vehicle.
  • the approximate function device 50 functions as an output unit that outputs information on the possibility of contact between the own vehicle and another vehicle as an evaluation result.
  • FIG. 2 shows an example in which the information on the contact possibility between the own vehicle and another vehicle is used as the reward value, but the information on the contact possibility between the own vehicle and the other vehicle is the contact possibility between the own vehicle and the other vehicle. Alphabets and symbols may be used as long as they indicate the degree.
  • the evaluation is determined in consideration of the position, speed, and path of the own vehicle and the position, speed, and path of the other vehicle.
  • the interactive prediction unit 40 selects the behavior of the own vehicle based on the evaluation result of the approximate function device 50 as a function as a selection unit. Specifically, the behavior of the own vehicle, which is likely to prevent the own vehicle from coming into contact with another vehicle, is selected, and information indicating the behavior is output to the medium-term plan creation unit 30.
  • the interactive prediction unit 40 outputs, for example, information indicating the behavior of the own vehicle when the reward value becomes the largest to the medium-term plan creation unit 30.
  • the information indicating the behavior of the own vehicle may be one of a plurality of set actions, and in addition to the one action, the own vehicle path when executing the action and the own vehicle path.
  • the target speed at a predetermined time interval may be output to the medium-term planning unit 30.
  • the latter is preferable because it can reduce the calculation load of the short-term planning unit 60 that generates a more detailed traveling track.
  • the evaluation method using the approximate function device 50 will be described in detail later.
  • the interactive prediction unit 40 corresponds to the vehicle behavior evaluation device in the present disclosure.
  • the medium-term plan creation unit 30 and the interactive prediction unit 40 are composed of, for example, an in-vehicle ECU of the own vehicle.
  • the in-vehicle ECU is a computer mounted on a vehicle and mainly includes a microcomputer including at least one processor, a computer-readable non-transition storage medium such as RAM and ROM, an input / output interface, and a bus connecting them. It is configured as.
  • a program for executing the vehicle behavior generation process shown in FIG. 6 is stored in the non-transition storage medium provided in the in-vehicle ECU. Then, the processor provided in the in-vehicle ECU executes the program.
  • the medium-term plan creation unit 30 and the interactive prediction unit 40 may be configured by one in-vehicle ECU or by separate in-vehicle ECUs. Further, the functions of the medium-term plan creation unit 30 and the interactive prediction unit 40 may be provided on an external server that can communicate with the own vehicle and is located outside the own vehicle.
  • the medium-term plan creation unit 30 receives the information indicating the behavior of the own vehicle output by the interactive prediction unit 40, and outputs the information to the short-term plan creation unit 60.
  • the short-term plan creation unit 60 is a short-term plan (for example, 1 to 2 seconds) for actually controlling the movement of the own vehicle based on the received information indicating the behavior of the own vehicle (for example, the own vehicle path and the target speed).
  • the plan up to the later stage) is created and output to the path follow control unit 70.
  • the short-term plan creation unit 60 also receives detection signals from various sensors 10, and unexpected situations (for example, behavior of another vehicle different from the predicted time, jumping out of a moving object from a shadow, etc.) may occur. In the event of an occurrence, the short-term plan creation unit 60 can respond to unexpected situations by creating a short-term plan that causes the vehicle to stop urgently or change the direction of travel of the vehicle. It is configured.
  • the path follow control unit 70 includes a steering control unit, an engine control unit, a brake control unit, and the like, and controls the steering direction, driving force, and braking force of the vehicle in accordance with the short-term plan created by the short-term plan creation unit 60. , Control the movement of your vehicle.
  • the short-term plan creation unit 60 and the path follow control unit 70 are also composed of, for example, an in-vehicle ECU of the own vehicle.
  • the approximate function device 50 is created by the simulator 120, the reward calculation unit 130, and the approximate function device generation unit 140.
  • the simulator 120, the reward calculation unit 130, and the approximate function device generation unit 140 are provided outside the vehicle.
  • the simulator 120 has various traffic environments according to various scenarios (turning left and right, overtaking, passing by bypassing obstacles, merging, branching, etc.) showing the behavior of the own vehicle and other vehicles in various traffic environments.
  • the running tracks of the own vehicle and other vehicles are generated to simulate the running conditions of the own vehicle and other vehicles.
  • This simulated running condition of the own vehicle and the other vehicle is accompanied by a change in speed including the stop of the own vehicle and the other vehicle.
  • the simulated running situation includes the running situation of the own vehicle and the other vehicle that can avoid the contact, and the running situation of the own vehicle and the other vehicle that has reached the contact.
  • the simulator 120 outputs to the reward calculation unit 130 the running data showing the running situation of the own vehicle and the other vehicle in each step in which the running situation of the own vehicle and the other vehicle is subdivided into a plurality of steps. Specifically, the simulator 120 uses the running data in each step as the state of the own vehicle such as the position, speed, and acceleration of the own vehicle, the planned route of the own vehicle, the position of obstacles, the position, speed, and acceleration of other vehicles. Data such as the state of other vehicles and the elapsed time are output to the reward calculation unit 130.
  • the reward calculation unit 130 gives a reward to the situation of the own vehicle in the running situation of the own vehicle and another vehicle based on the received running data. Below, some examples of the reward calculation method will be described.
  • the reward calculation unit 130 calculates the first cost, which is given as a penalty when the own vehicle and another vehicle come into contact with each other. Further, when the own vehicle and another vehicle come into contact with each other, the reward calculation unit 130 sets the driving condition of the own vehicle in the step before the contact to be larger as the time until the contact is shortened. Calculate the second cost to be done. Then, the reward calculation unit 130 calculates the reward as the reciprocal of the total of the calculated first and second costs. As a result, the higher the reward is given to the driving situation in which the possibility of avoiding contact with other vehicles is high, and conversely, the lower reward is given to the driving situation in which the possibility of contact with other vehicles is high. Can be done.
  • the reward calculation unit 130 calculates a third cost, which is set larger as the distance gets closer, based on the distance between the own vehicle and an object including another vehicle, which is grasped from the travel data.
  • the reward may be calculated by taking into account the cost of (calculating the reciprocal of the total value in addition to the total value of the first and second costs). This is because it is considered that the shorter the distance between the own vehicle and the object, the higher the possibility of contact.
  • the third cost is calculated for each object.
  • the reward calculation unit 130 calculates a fourth cost that is set larger as the time (elapsed time) required for the own vehicle to avoid contact with another vehicle becomes longer, and also takes this fourth cost into consideration. (In addition to the total value of the first to third costs, the reciprocal of the total value is calculated), and the reward may be calculated. This is because, by considering the elapsed time, it is possible to give a higher reward to the driving situation (behavior of the own vehicle) that can avoid contact with another vehicle more quickly.
  • the reward calculation unit 130 calculates a fifth cost that is set to be larger as the duration and / or the distance that the own vehicle deviates from the lane in which the vehicle should travel becomes longer, and the reward is also taken into consideration in consideration of the fifth cost. May be calculated. For example, a parked vehicle in the driving lane of the own vehicle blocks a part of the driving lane, and the own vehicle needs to drive at least partially or completely in the oncoming lane in order to bypass the parked vehicle. In this case, the longer the time traveled in the oncoming lane and / or the longer the distance traveled in the oncoming lane, the higher the possibility of contact with another vehicle.
  • the reward calculation unit 130 may calculate a sixth cost that is set to be larger as the acceleration of the own vehicle increases, and may calculate the reward by taking the sixth cost into consideration. This is because it is considered that the higher the acceleration of the own vehicle, the higher the possibility of contact with other vehicles.
  • the reward given to the behavior of the own vehicle is based on other costs that reflect the possibility of contact between the own vehicle and other vehicles in addition to or instead of the first to sixth costs described above. May be calculated. Further, in the above-mentioned first to sixth costs, the first cost as a penalty when the own vehicle and another vehicle come into contact with each other is set to be relatively large as compared with the other costs. Further, the second cost given to the driving situation of the step before the contact between the own vehicle and the other vehicle is to discount the first cost at a discount rate according to the time to reach the contact. Is calculated by. Specifically, the shorter the time to contact, the smaller the discount rate. Therefore, it is possible to give a very low reward to the driving situation in which the own vehicle and another vehicle come into contact with each other and the driving situation in which the contact is reached.
  • the reward calculation unit 130 gives a reward according to the possibility of contact (or the possibility of avoiding contact) for various driving situations between the own vehicle and another vehicle, thereby driving the vehicle.
  • Situation-Create reward data The created driving status-reward data is given to the approximate function device generation unit 140.
  • the reward calculation unit 130 may give the individual driving conditions and the reward data for each of the individual driving conditions to the approximate function device generation unit 140 as they are, but the schedule is set for each planned track of the own vehicle.
  • the traveling condition included in the track and the reward data may be collectively given to the approximate function device generation unit 140.
  • the approximate function device generation unit 140 informs the approximate function device 50 of various running conditions (spatio-temporal states) and rewards between the own vehicle and another vehicle. Train a function that approximates the relationship.
  • a deep neural network can be used as the approximate function device 50, and so-called deep Q-learning can be used as a learning method.
  • the approximation function device 50 is not limited to the neural network, and for example, a support vector machine (SVM) or the like may be used.
  • SVM support vector machine
  • Such an approximate function device 50 includes a plurality of actions that the own vehicle can take and a plurality of actions that other vehicles can take with respect to the actions of the own vehicle, which are included in the above-mentioned spatiotemporal state action map. With respect to the combination, the behavior of the own vehicle can be rewarded as an evaluation based on the position, speed, and path of the own vehicle and the position, speed, and path of the other vehicle.
  • the function created in advance is mounted on the vehicle as the approximate function device 50 has been described, even if the function related to the approximate function device 50 is relearned based on the past evaluation result and the running history of the vehicle. good.
  • step S100 the long-term plan creation unit 20 uses the road map database to set the route (travel route) of the road on which the vehicle travels to reach the destination from the departure point (current location). do.
  • step S110 the medium-term plan creation unit 30 acquires the travel route to the destination set by the long-term plan creation unit 20.
  • step S120 the actions (own vehicle path, target speed) of the own vehicle evaluated as appropriate by the medium-term plan creation unit 30 and the interactive prediction unit 40 are generated.
  • This own vehicle behavior evaluation generation process will be described in detail later based on the flowchart of FIG.
  • the short-term plan creation unit 60 creates a short-term plan for actually controlling the movement of the own vehicle based on the generated behavior of the own vehicle.
  • the path follow control unit 70 controls the movement of the own vehicle by controlling the steering direction, the driving force, and the braking force of the vehicle according to the created short-term plan.
  • step S150 it is determined whether or not the own vehicle has reached the designated destination. If it has not been reached, the process from step S120 is repeated. When the destination is changed, the process is executed again from the first step S100.
  • the vehicle behavior evaluation generation process corresponds to the above-mentioned process of S120.
  • the road information around the current position of the vehicle and the surrounding environment information and the own vehicle information detected by various sensors 10 are input.
  • the shape, position, size, whether the object is a moving object or a stationary object, and the like are recognized based on the surrounding environment information.
  • step S220 it is determined whether or not another vehicle exists around the own vehicle based on the recognition result in step S210. If it is determined that another vehicle exists around the own vehicle, the process proceeds to step S230. On the other hand, if it is determined that there is no other vehicle around the own vehicle, the process proceeds to step S320.
  • the own vehicle is used to set the actions that the own vehicle can take and the actions that the other vehicle can take with respect to the actions of the own vehicle, and in each combination of the actions of the own vehicle and the actions of the other vehicle.
  • the information necessary for evaluating the behavior of is output to the interactive prediction unit 40. Specifically, information on the state of the own vehicle such as the current and past positions, directions, speeds, and accelerations of the own vehicle, information on the position of the lane in which the own vehicle is traveling, and current and past positions, directions, and speeds of other vehicles. , And other vehicle status information such as acceleration, lane position information of other vehicles, planned track of own vehicle, position and size of obstacles, road shape, number of lanes, etc. are output.
  • step S240 the interactive prediction unit 40 sets a plurality of actions that the own vehicle can take, including at least whether the own vehicle stands by or advances, based on various acquired information. Further, in step S250, the interactive prediction unit 40 determines the own vehicle path indicating the planned traveling trajectory of the own vehicle when the own vehicle executes each of the set actions.
  • step S260 the interactive prediction unit 40 also sets a plurality of actions that the other vehicle can take, including at least whether the other vehicle waits or advances, for each action of the own vehicle. Further, in step S270, the interactive prediction unit 40 determines another vehicle path indicating the planned traveling trajectory of the other vehicle when the other vehicle executes each of the set actions.
  • the interactive prediction unit 40 uses the approximate function device 50 for each combination of the plurality of actions that the own vehicle can take and the plurality of actions that the other vehicle can take with respect to the actions of the own vehicle. It is used to reward the behavior of the own vehicle based on the position, speed, and path of the own vehicle and the position, speed, and path of the other vehicle. For example, the approx. For the combination of direction, speed, acceleration and the corresponding position, direction, speed, acceleration of other vehicles at multiple points included in the other vehicle path, the reward is calculated for each point based on the learning content. do. Then, by summing the rewards at multiple points included in the own vehicle pass and the other vehicle pass, the reward is calculated for the behavior of the own vehicle in each combination of the behavior of the own vehicle and the behavior of the other vehicle. ..
  • the own vehicle travels in the oncoming lane in a situation where a parked vehicle exists in the traveling lane of the own vehicle and the own vehicle must travel around the parked vehicle.
  • the driving situation-reward data also includes such a driving situation, in which case a relatively high reward is given to the behavior of the own vehicle traveling around the parked vehicle. Therefore, in such a driving situation, in the combination of the behavior of the own vehicle and the behavior of the other vehicle, a high reward is given to the behavior of the own vehicle traveling around the parked vehicle in the behavior of the own vehicle. It will be.
  • the driving situation-reward data also includes such a driving situation, in which case the own vehicle is given a high reward for the action of waiting for the passage of another vehicle or slowing down. Therefore, in such a driving situation, a high reward is given to the behavior of the own vehicle to stand by or slow down in the behavior of the own vehicle in the combination of the behavior of the own vehicle and the behavior of the other vehicle. Become.
  • the approximate function device 50 is used for each combination of the plurality of actions that the own vehicle can take and the plurality of actions that the other vehicle can take with respect to the actions of the own vehicle. Since the reward is given to the behavior of the own vehicle, it is possible to give a high reward to the behavior of the own vehicle suitable for the actual situation.
  • step S280 when a reward is given to the action of the own vehicle in each combination of the action of the own vehicle and the action of the other vehicle, the process proceeds to step S290 and the highest reward among the given rewards is given. It is determined whether or not there is a difference of a predetermined value or more between the reward and the second highest reward. At this time, if it is determined that a difference of a predetermined value or more has occurred, the process proceeds to step S310. On the other hand, if it is determined that there is no difference of a predetermined value or more, the process proceeds to step S300.
  • set multiple actions that other vehicles can take for each action of the own vehicle, and determine the other vehicle path when the other vehicle executes each set action. Loop to the process of step S240.
  • step S310 it is determined whether or not the number of loops has reached a predetermined number of times. Then, if the number of loops has not reached the predetermined number of times, the process of step S240 is looped, but if the number of loops has reached the predetermined number of times, the process of step S310 is performed.
  • step S310 the action of the own vehicle to which the highest reward is given is selected based on the given reward. Then, the interactive prediction unit 40 outputs information (own vehicle path and target speed) regarding the behavior of the selected own vehicle to the medium-term plan creation unit 30.
  • the interactive prediction unit 40 may instruct the medium-term plan creation unit 30 to perform another action. For example, the medium-term planning unit 30 may be instructed to maintain the current speed / acceleration of the own vehicle, gradually reduce the speed, or stop the vehicle.
  • step S320 which is executed when it is determined that there is no other vehicle around the own vehicle in step S220, the medium-term plan creation unit 30 is based on the road information so as to travel along the traveling route. Determine the behavior of your vehicle. For example, when the own vehicle travels along the road, the planned track along the lane in which the own vehicle travels is calculated, and the target speed when traveling on the planned track is calculated. Further, when the own vehicle makes a right / left turn, a branch, or the like, the medium-term plan creation unit 30 calculates a planned track and a target speed according to the shape of the right / left turn road or the branch road.
  • the behavior of the own vehicle in each combination of the behavior of the own vehicle and the behavior of the other vehicle is evaluated by using the approximate function device 50. Therefore, based on the reward given to the (future) behavior of the own vehicle, it is properly evaluated whether or not the behavior of the own vehicle is suitable for the traffic situation facing the own vehicle. be able to.
  • the process performed by at least one processor for evaluating the behavior of the own vehicle corresponds to the vehicle behavior evaluation method of the present disclosure.
  • a program including an instruction for at least one processor to execute the vehicle behavior evaluation method corresponds to the vehicle behavior evaluation program of the present disclosure.
  • a parked vehicle exists in the traveling lane of the own vehicle, and the own vehicle travels in the oncoming lane in a situation where the parked vehicle must bypass the parked vehicle. He showed the situation where other vehicles were coming and explained the actions that his own vehicle and other vehicles could take. However, if there is another vehicle and the driver who drives the other vehicle is in a hurry, the behavior of the other vehicle may be different from that in the absence of such a situation. many.
  • the present embodiment is different from the first embodiment in that such driving characteristics of other vehicles are also taken into consideration.
  • the driving characteristics of other vehicles are taken into consideration in the spatio-temporal state behavior map. Specifically, from the movements of the other vehicle detected by the various sensors 10, it is determined whether the other vehicle has the driving characteristics of vigorous driving or the driving characteristics of gentle driving. At this time, since it is difficult to determine whether the vehicle has severe driving characteristics or gentle driving characteristics only by the movement of another vehicle in a short time, for example, the probability of severe driving characteristics and the gentle driving characteristics are gentle. It is preferable to calculate the probability of driving characteristics. Further, the driving characteristics of other vehicles may be classified into three or more types, for example, intense, average, and gentle.
  • the driving characteristics of another vehicle can be determined, it is sufficient to consider the combination of the behavior of the own vehicle and the behavior of the other vehicle, which is branched with respect to the driving characteristics.
  • the own vehicle path and other vehicles are related to the combination of the behavior of the own vehicle and the behavior of the other vehicle, which are branched from each driving characteristic. Determine the path.
  • the driving characteristics of the other vehicle can be considered as the behavior of the other vehicle. For example, the speed and acceleration when another vehicle with severe driving characteristics travels can be estimated to be higher than the speed and acceleration when another vehicle with gentle driving characteristics travels. Then, the reward finally given to the behavior of the own vehicle may be calculated by increasing or decreasing according to the probability of each driving characteristic.
  • FIG. 8 shows a situation in which another vehicle traveling on the main line is present near the own vehicle when the own vehicle is about to join the main line from the frontage road.
  • the other vehicle has severe driving characteristics, it is highly likely that the vehicle will continue to travel at a high speed, as indicated by the longer arrow.
  • the speed will be reduced so that the own vehicle can merge with the main line.
  • Driving conditions also includes driving conditions when the driving characteristics of other vehicles are severe and when they are gentle. Therefore, the approximation function device 50 gives a relatively high reward to the behavior of the own vehicle that reduces the speed when the driving characteristics of the other vehicle are severe, and when the driving characteristics of the other vehicle are gentle, the other vehicle There is a high possibility that a relatively high reward will be given to the behavior of the own vehicle that joins the main line in front of. In this way, by considering the driving characteristics of the other vehicle, even if the relative positional relationship between the other vehicle and the own vehicle is the same, the optimum action to be taken by the own vehicle changes.
  • the driving characteristics of the other vehicle can be taken into consideration.
  • the driving characteristics of the other vehicle may be taken into consideration in all situations where the other vehicle is present around the own vehicle.
  • the spatio-temporal state behavior map is created in consideration of the driving characteristics of other vehicles, but in the present embodiment, the spatio-temporal state behavior map is created in consideration of the state of the traffic signal. , Different from the second embodiment.
  • the state of the traffic signal is considered in the spatio-temporal state action map.
  • the state of the traffic signal can be determined from the detection results detected by the various sensors 10 whether the traffic signal is in the blue lighting state or the yellow lighting state. Further, when the right turn arrow signal is provided in the traffic signal, it may be determined whether the right turn arrow is lit.
  • the own vehicle path and others regarding the combination of the behavior of the own vehicle branching from the green light and the behavior of another vehicle. Determine the vehicle path.
  • Driving Status-The reward data also includes such driving status. Therefore, it is highly possible that the approximate function device 50 gives a high reward to the behavior of the own vehicle in the combination of the behaviors in which the own vehicle stands by and the other vehicle advances.
  • the behavior of the own vehicle that signals the own vehicle for a right turn will be highly rewarded.
  • the own vehicle path and others regarding the combination of the behavior of the own vehicle and the behavior of another vehicle branching from the yellow light in the spatio-temporal state behavior map. Determine the vehicle path.
  • Driving Status-The reward data also includes such driving status. Therefore, it is highly possible that the approximate function device 50 gives a high reward to the behavior of the own vehicle in the combination of the behaviors in which the own vehicle advances for a right turn and the other vehicle stops at the stop line. If the right turn arrow signal lights up, the possibility is higher. In this way, by considering the state of the traffic signal, it becomes possible to select a more appropriate action as the action of the own vehicle in the scene where the own vehicle encounters in the actual traffic environment.
  • the automatic operation system 100 is configured to include a long-term plan creation unit 20, a medium-term plan creation unit 30, and a short-term plan creation unit 60, but these configurations are arbitrarily integrated. May be good. Further, the medium-term plan creation unit 30 and the interactive prediction unit 40 may also be integrated and configured.

Abstract

車両行動評価装置としてのインタラクティブ予測部(40)は、近似関数器(50)を用いて、自車両が取り得る将来の行動に対して、他車両の走行状態を考慮した報酬を算出する。自車両の行動は、その算出された報酬に基づいて評価される。近似関数器(50)は、自車両の周辺環境と自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、自車両が他車両と接触を回避できた自車両の状況には高い報酬を与え、自車両が他車両と接触に到った自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況-報酬データに基づき学習されたものである。

Description

車両行動評価装置、車両行動評価方法、および車両行動評価プログラム 関連出願の相互参照
 この出願は、2020年2月17日に日本に出願された特許出願第2020-24654号を基礎としており、基礎の出願の内容を、全体的に、参照により援用している。
 本開示は、車両行動評価装置、車両行動評価方法、および車両行動評価プログラムに関する。
 例えば、特許文献1には、車両が走行する将来の軌道を評価する軌道評価装置が記載されている。この軌道評価装置は、自車両が走行する将来の軌道を生成し、自車両の周辺の物体の将来位置を予測し、自車両の将来の軌道上の複数の地点について、予測された物体の将来位置との間の、道路の長手方向に関する相対位置関係と、道路の幅方向に関する相対位置関係と、に基づいて評価を行う。そして、地点ごとの評価結果に基づいて、自車両の将来軌道を評価する。
特開2018-95149号公報
 上記の特許文献1の軌道評価装置では、自車両および物体が、等速運動あるいは等加速度運動などを行うことを前提として、自車両の目標軌道候補や物体の将来位置を求める。そして、自車両の目標軌道候補の各座標について、推奨車線の中心線との乖離距離、横方向の変動量の大きさ(すなわち、角速度)、対象車線からの逸脱量、および、進行方向と横方向とにおける物体との間隔に基づいて評価値を算出する。目標軌道候補は、座標ごとの評価結果を加算することで評価される。
 しかしながら、自車両および他車両などの物体は、常に等速運動や等加速度運動を行うわけではなく、交通状況に応じて、速度を低下させたり、ときには停止したりすることもある。また、自車両は、必ずしも推奨車線を走行することが目標軌道とはなりえない状況にも遭遇しえる。例えば、自車両の走行車線上の駐車車両によって走行可能な道路幅が狭められた状況に遭遇した場合、自車両は、一時的に対向車線にはみ出して走行する必要が生じる。この際、対向車線を走行する他車両が存在する場合、他車両の行動に応じて、自車両が取るべき行動は変化しえる。例えば、自車両が先に駐車車両を迂回する行動を開始したときに、対向車線を走行する他車両が速度を低下させたり、停止したり場合には、自車両は、そのまま駐車車両を迂回する行動を継続して、元の走行車線に戻ることが望ましい。一方、他車両がそのまま駐車車両の位置まで対向車線を進行してくる場合には、自車両は、他車両の通過をやり過ごすため、速度を低下させたり、停止したりすることが望ましい。
 特許文献1の軌道評価装置では、自車両および物体が、等速運動あるいは等加速度運動などを行うことを前提として、自車両の目標軌道候補や物体の将来位置を求めて、さらに、推奨車線からの距離や、物体との間隔でしか目標軌道候補の評価を行っていない。このため、上記のような状況において、望ましい行動を取り得る目標軌道候補を設定して、その目標軌道候補に高い評価を与えることは困難である。
 本開示は、上述した点に鑑みてなされたものであり、自車両が直面する種々の交通状況に適した自車両の行動を適正に評価することが可能な車両行動評価装置、車両行動評価方法、および車両行動評価プログラムを提供することを目的とする。
 上記目的を達成するために、本開示の車両行動評価装置は、自車両の将来の行動を評価するためのものであって、
 予定走路の走行に際して、自車両が取り得る複数の行動を設定する設定部と、
 自車両の周辺環境と自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、自車両が他車両と接触を回避できた自車両の状況には高い報酬を与え、自車両が他車両と接触に到った自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況-報酬データに基づき学習された関数器を有し、この関数器を用いて、設定部によって設定された自車両の行動に対して、自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて自車両の行動を評価する評価部と、を備えるように構成される。
 また、本開示の車両行動評価方法は、自車両の将来の行動を評価するための方法であって、
 少なくとも1つのプロセッサにより実行される、
 予定走路の走行に際して、自車両が取り得る複数の行動を設定する設定ステップと、
 自車両の周辺環境と自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、自車両が他車両と接触を回避できた自車両の状況には高い報酬を与え、自車両が他車両と接触に到った自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況-報酬データに基づき学習された関数器を用いて、設定ステップにおいて設定された自車両の行動に対して、自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて自車両の行動を評価する評価ステップと、を備えるように構成される。
 さらに、本開示の車両行動評価プログラムは、コンピュータ読み取り可能な非遷移記憶媒体に記憶され、命令を含むプログラムであり、その命令は、少なくとも1つのプロセッサにより実行された場合に、少なくとも1つのプロセッサに、
 予定走路の走行に際して、自車両が取り得る複数の行動を設定させ、
 自車両の周辺環境と自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、自車両が他車両と接触を回避できた自車両の状況には高い報酬を与え、自車両が他車両と接触に到った自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況-報酬データに基づき学習された関数器を用いて、設定された自車両の行動に対して、自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて自車両の行動を評価させるように構成される。
 上述した車両行動評価装置、車両行動評価方法、および車両行動評価プログラムによれば、関数器が、設定された自車両が取り得る将来の行動に対して、他車両の走行状態を考慮した報酬を算出する。自車両の行動は、その算出された報酬に基づいて評価される。関数器は、自車両の周辺環境と自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、自車両が他車両と接触を回避できた自車両の状況には高い報酬を与え、自車両が他車両と接触に到った自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況-報酬データに基づき学習されたものである。このため、自車両の将来の行動が、他車両との接触を回避できた自車両の走行状況に類似した走行状況を含むほど、高い報酬が付与される。従って、自車両の将来の行動に付与された報酬に基づいて、その自車両の将来の行動が、自車両が直面している交通状況に適したものであるか否かを適正に評価することが可能となる。
 なお、請求の範囲の参照番号は、本開示の理解を容易にすべく、後述する実施形態における具体的な構成との対応関係の一例を示すものにすぎず、なんら本開示の範囲を制限することを意図したものではない。
 また、上述した特徴以外の、請求の範囲の各請求項に記載した技術的特徴に関しては、後述する実施形態の説明及び添付図面から明らかになる。
実施形態に係る車両行動評価装置が適用された自動運転システムの全体構成を示す構成図である。 時空間状態行動マップの一例を示す図である。 近似関数器の作成方法の一例を説明するための図である。 図1に示す自動運転システムにおいて、車両を自動的に運転するために実行される処理を示すフローチャートである。 自車両の行動を評価して生成する自車両行動評価生成処理を示すフローチャートである。 自車両の走行車線上に駐車車両が存在し、自車両はこの駐車車両を迂回して走行しなければならない状況で、対向車線を走行してくる他車両が存在する場合に、自車両と他車両とが取り得る行動に関して説明するための図である。 他車両の運転特性を考慮した時空間状態行動マップの一例を示す図である。 他車両の運転特性を考慮することが好ましい例として、自車両が側道から本線に合流しようとしているときに、自車両の近くで本線を走行している他車両が存在する状況を示す図である。 交通信号の状態を考慮した時空間状態行動マップの一例を示す図である。 交通信号の状態を考慮することが好ましい例として、信号のある交差点で自車両が右折のために待機しているときに、対向車線を走行してくる他車両が存在する状況を示す図である。
 (第1実施形態)
 以下、本開示の実施形態について、図面を参照しつつ詳細に説明する。なお、本実施形態では、車両行動評価装置が、車両の自動運転システムに適用された例について説明する。ただし、本開示による車両行動評価装置の適用例は、車両の自動運転システムに制限されない。例えば、車両行動評価装置によって適正と評価された自車両の行動を、推奨行動として自車両の運転者に提示するシステムに適用されてもよい。
 図1には、本実施形態による車両行動評価装置が適用された自動運転システム100の全体構成が示されている。図1に示すように、自動運転システム100は、各種センサ10、長期計画作成部20、中期計画作成部30、インタラクティブ予測部40、短期計画作成部60、およびパスフォロー制御部70を備える。
 各種センサ10は、例えば、カメラ、LiDAR、ミリ波レーダ等のセンサの少なくとも1つを含む。各種センサ10は、自車両の周辺環境情報と、自車両の状態を示す自車両情報と、自車の周囲に存在する他車両の状態を示す他車両情報とを検出する。各種センサ10は、周辺環境情報として、路上の落下物や路上駐車車両などの障害物、ガードレール、縁石、走行区画線等の路面表示、および樹木等の静止物体を検出する。さらに、各種センサ10は、周辺環境情報として、歩行者、人間以外の動物、他車両等の移動物体を検出する。また、各種センサ10は、自車両情報として、自車両の位置、方向、速度、加速度を検出する。さらに自車両情報として自車両のジャーク(単位時間当たりの加速度の変化)を検出してもよい。各種センサ10は、他車両情報として、他車両の位置、方向、速度、加速度を検出する。さらに他車両情報として、他車両のジャークを検出してもよい。なお、自動運転システム100は、自車両情報および他車両情報の少なくとも一部を、管制センターなどの外部サーバから通信を介して取得してもよい。
 長期計画作成部20は、車両の乗員によって指定された出発地(現在地)および目的地に基づき、道路地図データベースを利用して、車両が出発地(現在地)から目的地まで達するために走行する道路の経路(走行経路)を作成する。この長期計画作成部20は、車両がナビゲーション装置を備えている場合、ナビゲーション装置によって構成される。あるいは、長期計画作成部20は、管理センターなどの外部サーバに設けられてもよい。そして、車両の乗員が出発地(現在地)および目的地に関する情報を外部サーバに送信することにより、外部サーバにおいて目的地までの走行経路を作成してもよい。
 中期計画作成部30は、長期計画作成部20よりも詳細に、目的地までの走行経路を設定する。具体的には、例えば、中期計画作成部30は、走行経路に車線が複数存在する場合に、自車両がどの車線を走行するのかまで特定する。まず、中期計画作成部30は、長期計画作成部20によって作成された目的地までの走行経路を取得する。また、中期計画作成部30は、車両の現在位置周辺の道路情報(車線数、車線幅、形状など)を長期計画作成部20(道路地図データベース)から取得する。さらに、中期計画作成部30は、各種センサ10によって検出された自車両の周辺環境情報、自車両情報、および他車両情報を取得する。
 中期計画作成部30は、取得した道路情報、および自車両情報に基づいて、自車両が走行する道路が複数車線を有する場合、自車両が走行している車線位置を特定する。また、中期計画作成部30は、取得した道路情報、周辺環境情報に基づいて、自車両の周囲に他車両が存在することを把握した場合、他車両が走行している車線(同じ進行方向の車線と対向車線とのいずれであるか、さらに、複数車線の場合、他車両が走行している車線位置)も特定する。
 そして、中期計画作成部30は、取得した走行経路、道路情報、周辺環境情報および自車両情報に基づいて、所定時間(例えば、5秒)または所定距離(例えば、100m)先までの自車両の道路上の予定軌道を算出する。この所定時間または所定距離は、それぞれ一定値であってもよいし、例えば自車両の速度に応じて変化する可変値であってもよい。
 例えば、中期計画作成部30は、周辺環境情報に基づいて、自車両が走行する車線上に障害物が存在せず、また、自車両の周囲に他車両などの移動物体が存在しないことを把握した場合に、インタラクティブ予測部40を介さずに、自車両の進行予定軌道を示す自車両パスを決定してもよい。障害物や他車両との接触可能性が低いので、中期計画作成部30は、自車両が道なりに走行する場合には、自車両が走行する車線に沿った予定軌道を算出し、また、自車両が右左折、分岐などを行う場合には、その右左折道路や分岐道路の形状に応じた予定軌道を算出してもよい。障害物や他車両が検出された場合であっても、当該障害物や他車両が自車両の行動に左右されないような状態の場合、中期計画作成部30は、他車両の行動を線形予測し、該予測結果に基づいて自車両パスを決定してもよい。
 一方、周辺環境情報から道路上に駐車車両などの障害物が存在することが分かると、中期計画作成部30は、道路情報に基づいて、その障害物を回避して道路上を走行することが可能な予定軌道を算出する。また、走行経路が、先の交差点で右折または左折することになっている場合に、自車両が右折レーンまたは左折レーンとは異なるレーンを走行している場合、中期計画作成部30は、右折レーンまたは左折レーンに車線変更するための予定軌道を算出する。
 なお、中期計画作成部30が予定軌道を算出する際、中期計画作成部30は、自車両の周囲に他車両が存在していても、他車両が走行している車線位置や他車両の位置などを考慮せずに、自車両の予定軌道を算出する。その理由は、インタラクティブ予測部40が、予定軌道に基づき、他車両と接触しない自車両の行動(自車両パスおよびターゲット速度)を定めるためである。従って、中期計画作成部30は、自車両の周囲に他車両が存在している場合、他車両と接触しない自車両パスを定めるために必要な情報をインタラクティブ予測部40へ出力する。具体的には、中期計画作成部30は、インタラクティブ予測部40へ、自車両の現在の(および過去の)自車両情報、自車両の車線位置情報、他車両の現在の(および過去の)他車両情報、他車両の車線位置情報、自車両の予定軌道、障害物の位置およびサイズ、道路情報などを出力する。
 インタラクティブ予測部40は、設定部としての機能として、自車両が取り得る複数の行動を設定する。ここで設定される行動として、例えば、「待機」、「徐行」、「進行」、「ウィンカー点灯」などが挙げられる。複数の行動が、互いに異なる速度での進行のみであってもよい。すなわち、インタラクティブ予測部40が、複数の行動として、速度Aでの進行と、速度Aとは異なる速度Bで進行とを設定してもよい。さらに、インタラクティブ予測部40は、設定されたそれぞれの行動を自車両が実行する際の、自車両の進行予定軌道を示す自車両パスを定める。この自車両パスは、自車両の行動と自車両の予定軌道に基づいて定められる。例えば、自車両が待機する場合には、自車両パスは自車両の待機地点に留まるが、自車両が進行する場合には、自車両の予定軌道をなぞるように自車両パスが定められる。また、自車両がある速度で走行する場合と、該速度に比べて相対的に低い(または高い)速度で走行する場合とでは、時間当たりの自車両パスの長さが変化する。さらに、自車両が進行する速度に応じて、予定軌道に基づく自車両パスの軌道を変更してもよい。例えば、予定軌道が曲線を描くときに、自車両が相対的に高い速度で進行する場合には、相対的に低い速度で進行する場合に比較して、曲率が小さくなるように、自車両パスを定めてもよい。
 インタラクティブ予測部40は、自車両のそれぞれの行動に対して、他車両が取り得る複数の行動を設定する。さらに、インタラクティブ予測部40は、設定されたそれぞれの行動を他車両が実行する際の、他車両の進行予定軌道を示す他車両パスを定める。他車両パスは、上述した自車両パスと同様に定められる。
 例えば、インタラクティブ予測部40は、所定時間(例えば、1~5秒)が経過するまでの、上述した自車両パスおよび他車両パスを定める。上述したように、自車両パスおよび他車両パスは、自車両および他車両の行動に応じて、時間あたりの長さや軌道が変化する。このため、自車両が取り得る複数の行動に対応する自車両パスと、その自車両の行動に対して他車両が取り得る複数の行動に対応する他車両パスとのそれぞれの組み合わせは、単に、自車両と他車両との距離的(空間的)な関係だけではなく、時間的な関係も含んだものとなる。従って、自車両が取り得る複数の行動に対応する自車両パスと、その自車両の行動に対して他車両が取り得る複数の行動に対応する他車両パスとのそれぞれの組み合わせの集合は、自車両と他車両との様々な状態を時間的、空間的に表す時空間状態行動マップとなる。この時空間状態行動マップには、自車両パスおよび他車両パスの複数の地点における、自車両の速度、加速度、方向などの付随情報、および他車両の速度、加速度、方向などの付随情報が含まれてもよい。
 図2は、時空間状態行動マップの一例を示している。ただし、図2が示すのは、自車両および他車両とも、取り得る行動は待機と進行の2種類としたシンプルな例である。
 インタラクティブ予測部40では、近似関数器50を用いて、自車両が取り得る複数の行動と、その自車両の行動に対して他車両が取り得る複数の行動とのそれぞれの組み合わせを評価する。ここで、近似関数器50は、評価結果として、自車両と他車両の接触可能性に関する情報を出力する出力部として機能する。図2では、自車両と他車両の接触可能性に関する情報を報酬値とした例を示しているが、自車両と他車両の接触可能性に関する情報は、自車両と他車両の接触可能性の程度を示すものであればアルファベットや記号などでもよい。当該評価は、自車両の位置、速度、および自車両パスと、他車両の位置、速度、および他車両パスを考慮して決定される。そして、インタラクティブ予測部40は、選択部としての機能として、近似関数器50の評価結果に基づいて、自車両の行動を選択する。具体的には、自車両が他車両との接触を避けることができる可能性の高い自車両の行動を選択し、その行動を示す情報を中期計画作成部30に出力する。インタラクティブ予測部40は、例えば、報酬値が最も大きくなるときの自車両の行動を示す情報を中期計画作成部30に出力する。自車両の行動を示す情報は、設定した複数の行動のうちの1つの行動であってもよいし、当該1つの行動に加えて、その行動を実行するときの自車両パスおよびその自車両パスを進行する際の所定時間間隔(例えば、1秒間隔)でのターゲット速度を中期計画作成部30に出力してもよい。後者のほうが、より詳細な走行軌道を生成する短期計画作成部60の演算負担を減らすことができるため好ましい。なお、近似関数器50を用いた評価方法については、後に詳細に説明する。また、インタラクティブ予測部40が、本開示における車両行動評価装置に相当する。
 これら中期計画作成部30とインタラクティブ予測部40とは、例えば自車両の車載ECUによって構成される。車載ECUは、車両に搭載されるコンピュータであって、少なくとも1つのプロセッサ、RAM、ROMなどのコンピュータ読み取り可能な非遷移記憶媒体、入出力インターフェイス、および、それらを接続するバスを備えるマイクロコンピュータを主体として構成される。車載ECUに備わる非遷移記憶媒体には、図6に示す車両行動生成処理を実行するためのプログラムが格納されている。そして車載ECUに備わるプロセッサが当該プログラムを実行する。なお、中期計画作成部30とインタラクティブ予測部40とは、1つの車載ECUによって構成されてもよいし、別個の車載ECUによって構成されてもよい。また、中期計画作成部30およびインタラクティブ予測部40の機能を、自車両と通信可能であり且つ自車両の外部に配置された外部サーバに設けてもよい。
 中期計画作成部30は、インタラクティブ予測部40が出力する自車両の行動を示す情報を受信し、その情報を短期計画作成部60に出力する。短期計画作成部60は、受信した自車両の行動を示す情報(例えば、自車両パスとターゲット速度)に基づいて、実際に自車両の動きを制御するための短期計画(例えば、1~2秒後までの計画)を作成し、パスフォロー制御部70に出力する。これにより、自車両の詳細な進行軌道が決定される。なお、短期計画作成部60も、各種センサ10からの検出信号を受信しており、想定外の事態(例えば、予測時とは異なる他車両の行動、物影からの移動物体の飛び出しなど)が発生した場合などには、短期計画作成部60が、自車両を緊急停止させたり、自車両の進行方向を変更させたりする短期計画を作成することによって、想定外の事態にも対応できるように構成されている。
 パスフォロー制御部70は、操舵制御部、エンジン制御部、ブレーキ制御部などを含み、車両の操舵方向、駆動力、および制動力を制御することにより、短期計画作成部60が作成した短期計画に従って、自車両の動きを制御する。短期計画作成部60とパスフォロー制御部70も、例えば自車両の車載ECUによって構成される。
 次に、インタラクティブ予測部40における、近似関数器50を用いた評価方法について説明する。最初に、図3を参照して、近似関数器50の作成方法の一例を説明する。図3に示すように、近似関数器50は、シミュレータ120、報酬算出部130、近似関数器生成部140によって作成される。シミュレータ120、報酬算出部130、近似関数器生成部140は車外に設けられている。
 シミュレータ120は、様々な交通環境における自車両と他車両の行動を示す各種のシナリオ(右左折、追い越し、障害物を迂回してのすれ違い、合流、分岐など)に応じて、様々な交通環境の下で自車両および他車両の走行軌道を生成して、自車両および他車両の走行状況をシミュレートする。このシミュレートされる自車両および他車両の走行状況は、自車両および他車両の停止を含む速度の変化を伴うものである。さらに、シミュレートされる走行状況は、接触を回避できた自車両と他車両との走行状況と、接触に到った自車両と他車両との走行状況とを含むものである。
 シミュレータ120は、自車両と他車両との走行状況を複数のステップに細分化した各ステップにおける自車両と他車両との走行状況を示す走行データを報酬算出部130に出力する。具体的には、シミュレータ120は、各ステップにおける走行データとして、自車両の位置、速度、加速度などの自車両の状態、自車両の予定経路、障害物の位置、他車両の位置、速度、加速度などの他車両の状態、経過時間などのデータを報酬算出部130に出力する。
 報酬算出部130は、受信した走行データに基づいて、自車両と他車両との走行状況における自車両の状況に報酬を付与する。以下に、報酬の算出方法のいくつかの例を説明する。報酬算出部130は、自車両と他車両とが接触した場合に、ペナルティとして与えられる、第1のコストを算出する。さらに、報酬算出部130は、自車両と他車両とが接触した場合に、その接触に到る以前のステップの自車両の走行状況に対して、接触に到るまでの時間が短くなるほど大きく設定される第2のコストを算出する。そして、報酬算出部130は、算出した第1および第2のコストの合計の逆数として報酬を算出する。これにより、他車両との接触を回避できる可能性が高い走行状況であるほど高い報酬が付与され、逆に、他車両との接触の可能性が高い走行状況であるほど低い報酬が付与されるようにすることができる。
 また、報酬算出部130は、走行データから把握される、自車両と他車両を含む物体との距離に基づいて、その距離が近づくほど大きく設定される第3のコストを算出し、この第3のコストも加味して(第1および第2のコストの合計値に加え、その合計値の逆数を算出する)、報酬を算出してもよい。自車両と物体との距離が短くなるほど、接触の可能性も高まると考えられるためである。なお、自車両の周囲に複数の物体(例えば、障害物と他車両)が存在する場合には、第3のコストは、それぞれの物体に対して算出される。
 また、報酬算出部130は、自車両が他車両との接触を回避するために要する時間(経過時間)が長くなるほど大きく設定される第4のコストを算出し、この第4のコストも加味して(第1~第3のコストの合計値に加え、その合計値の逆数を算出する)、報酬を算出してもよい。経過時間を考慮することで、より素早く他車両との接触を回避することができる走行状況(自車両の行動)に対して、より高い報酬が付与されるようにすることができるためである。
 また、報酬算出部130は、自車両が走行すべき車線から逸脱する継続時間および/または距離が長くなるほど大きく設定される第5のコストを算出し、この第5のコストも加味して、報酬を算出してもよい。例えば、自車両の走行車線上の駐車車両によって走行車線の一部が塞がれており、自車両は、駐車車両を迂回するために、少なくとも一部または完全に対向車線を走行する必要がある場合、対向車線を走行する時間が長くなるほど、および/または対向車線を走行する距離が長くなるほど、他車両と接触する可能性が高くなるためである。さらに、報酬算出部130は、自車両の加速度が大きくなるほど大きく設定される第6のコストを算出し、この第6のコストも加味して、報酬を算出してもよい。自車両の加速度が高くなるほど、他車両などとの接触の可能性が高まると考えられるためである。
 なお、自車両の行動に対して付与される報酬は、上述した第1~第6のコストに加えて、もしくは代えて、自車両と他車両との接触可能性を反映した他のコストに基づいて算出されてもよい。また、上述した第1~第6のコストにおいて、自車両と他車両とが接触したときのペナルティとしての第1のコストは、他のコストに比較して、相対的に大きく設定される。さらに、自車両と他車両との接触に到る以前のステップの走行状況に対して付与される第2のコストは、第1のコストを、接触に到る時間に応じた割引率で割り引くことにより算出される。具体的には、接触に到るまでの時間が短いほど、割引率は小さくなる。従って、自車両と他車両とが接触するような走行状況、および接触に到る走行状況に対しては、非常に低い報酬が付与されるようにすることができる。
 このようにして、報酬算出部130は、自車両と他車両との各種の走行状況に対して、接触する可能性(または、接触を回避できる可能性)に応じた報酬を与えることで、走行状況-報酬データを作成する。作成された走行状況-報酬データは、近似関数器生成部140に与えられる。なお、報酬算出部130は、個々の走行状況と、それら個々の走行状況に対する報酬データとを、そのまま、近似関数器生成部140に与えてもよいが、自車両の予定軌道ごとに、その予定軌道に含まれる走行状況と報酬データとをまとめて、近似関数器生成部140に与えてもよい。
 近似関数器生成部140は、報酬算出部130が作成した走行状況-報酬データに基づいて、近似関数器50に、自車両と他車両との様々な走行状況(時空間状態)と報酬との関係を近似する関数を学習させる。この近似関数器50として、ディープニューラルネットワークを用い、学習手法として、いわゆるディープQラーニングを用いることができる。ただし、近似関数器50は、ニューラルネットワークに制限されず、例えば、サポートベクターマシン(SVM)などを用いてもよい。このような近似関数器50は、上述した時空間状態行動マップに含まれる、自車両が取り得る複数の行動と、その自車両の行動に対して他車両が取り得る複数の行動とのそれぞれの組み合わせに関して、自車両の位置、速度、および自車両パスと、他車両の位置、速度、および他車両パスに基づいて、自車両の行動に評価としての報酬を付与することができる。なお、予め作成された関数が近似関数器50として車両に搭載される例を説明したが、近似関数器50に係る関数が、過去の評価結果や車両の走行履歴に基づいて再学習されてもよい。
 次に、図1に示す自動運転システム100において、車両を自動的に運転するために実行される処理を、図4のフローチャートを参照して説明する。
 図4のフローチャートにおいて、ステップS100では、長期計画作成部20が、道路地図データベースを利用して、車両が出発地(現在地)から目的地まで達するために走行する道路の経路(走行経路)を設定する。ステップS110では、中期計画作成部30が、長期計画作成部20によって設定された目的地までの走行経路を取得する。
 ステップS120では、中期計画作成部30およびインタラクティブ予測部40において、適正と評価された自車両の行動(自車両パス、ターゲット速度)が生成される。この自車両行動評価生成処理は、後に、図5のフローチャートに基づいて、詳細に説明される。続くステップS130では、短期計画作成部60が、生成された自車両の行動に基づいて、実際に自車両の動きを制御するための短期計画を作成する。ステップS140では、パスフォロー制御部70が、作成された短期計画に従って、車両の操舵方向、駆動力、および制動力を制御することにより、自車両の動きを制御する。
 ステップS150では、自車両が指定された目的地に到達したか否かを判定する。到達していなければ、ステップS120からの処理が繰り返される。なお、目的地が変更された場合には、再び、最初のステップS100から処理が実行される。
 次に、図5のフローチャートを参照して、中期計画作成部30およびインタラクティブ予測部40において実行される、車両行動評価生成処理について説明する。当該車両行動評価生成処理は前述のS120の工程に対応している。
 最初のステップS200では、車両の現在位置周辺の道路情報と、各種センサ10によって検出された、周辺環境情報および自車両情報とを入力する。続くステップS210では、周辺環境情報に基づいて、他車両を含む物体の形状、位置、サイズ、移動物体であるか静止物体であるか等を認識する。
 ステップS220では、ステップS210における認識結果に基づいて、自車両の周囲に他車両が存在するか否かを判定する。自車両の周囲に他車両が存在すると判定した場合、ステップS230の処理に進む。一方、自車両の周囲に他車両が存在しないと判定した場合、ステップS320の処理に進む。
 ステップS230では、自車両の取り得る行動、および自車両の行動に対して他車両が取り得る行動を設定するため、および、自車両の行動と他車両の行動とのそれぞれの組み合わせにおいて、自車両の行動を評価するために必要な情報をインタラクティブ予測部40に出力する。具体的には、現在および過去の自車両の位置、方向、速度、および加速度などの自車両状態情報、自車両が走行している車線位置情報、現在および過去の他車両の位置、方向、速度、および加速度などの他車両状態情報、他車両の車線位置情報、自車両の予定軌道、障害物の位置およびサイズ、道路形状、車線数などを含む道路情報を出力する。
 ステップS240では、インタラクティブ予測部40は、取得した各種の情報に基づいて、自車両が待機するか、進行するかを少なくとも含む自車両が取り得る複数の行動を設定する。さらに、インタラクティブ予測部40は、ステップS250において、設定されたそれぞれの行動を自車両が実行する際の、自車両の進行予定軌道を示す自車両パスを定める。
 ステップS260では、インタラクティブ予測部40は、他車両に関しても、自車両のそれぞれの行動に対して、他車両が待機するか、進行するかを少なくとも含む他車両が取り得る複数の行動を設定する。さらに、インタラクティブ予測部40は、ステップS270において、設定されたそれぞれの行動を他車両が実行する際の、他車両の進行予定軌道を示す他車両パスを定める。
 そして、インタラクティブ予測部40は、ステップS280において、自車両が取り得る複数の行動と、その自車両の行動に対して他車両が取り得る複数の行動とのそれぞれの組み合わせに関して、近似関数器50を用いて、自車両の位置、速度、および自車両パスと、他車両の位置、速度、および他車両パスに基づいて、自車両の行動に報酬を付与する。例えば、近似関数器50は、道路形状、車線数、自車両の予定軌道、障害物の位置、方向、サイズなどから把握される環境において、自車両パスに含まれる複数地点における自車両の位置、方向、速度、加速度と、それに対応する、他車両パスに含まれる複数地点における他車両の位置、方向、速度、加速度との組み合わせに対して、各地点ごとに、学習内容に基づいて報酬を算出する。そして、自車両パスおよび他車両パスに含まれる複数地点での報酬を合計することで、自車両の行動と他車両の行動とのそれぞれの組み合わせにおける、自車両の行動に対して報酬を算出する。
 例えば、図6に示すように、自車両が、自車両の走行車線上に駐車車両が存在し、自車両はこの駐車車両を迂回して走行しなければならない状況で、対向車線を走行してくる他車両が存在する場面に遭遇したとする。この場合、自車両が先に駐車車両に接近して、駐車車両を迂回する行動を開始できる場合には、対向車線を走行する他車両は、自車両が元の走行車線に戻るまで待機したり、あるいは速度を緩めたりする可能性が高い。走行状況-報酬データには、このような走行状況も含まれており、この場合、自車両が駐車車両を迂回して進行する行動に相対的に高い報酬が与えられている。従って、このような走行状況においては、自車両の行動と他車両の行動との組み合わせにおける、自車両の行動の中で、自車両が駐車車両を迂回して進行する行動に高い報酬が与えられることになる。
 一方、対向車線を走行する他車両が先に駐車車両に接近した場合には、自車両は、他車両の通過をやり過ごすため、駐車車両の近傍で待機したり、速度を緩めたりすることが必要である。走行状況-報酬データには、このような走行状況も含まれており、この場合、自車両が他車両の通過を待機したり、速度を緩めたりする行動に高い報酬が与えられている。従って、このような走行状況においては、自車両の行動と他車両の行動との組み合わせにおける自車両の行動の中で、自車両が待機する、あるいは速度を緩める行動に高い報酬が与えられることになる。
 本実施形態では、このように、自車両が取り得る複数の行動と、その自車両の行動に対して他車両が取り得る複数の行動とのそれぞれの組み合わせに関して、近似関数器50を用いて、自車両の行動に報酬を付与しているので、実際の状況に適した自車両の行動に高い報酬を付与することができる。
 再び、図5のフローチャートに戻って説明を続ける。ステップS280において、自車両の行動と他車両の行動とのそれぞれの組み合わせにおける、自車両の行動に報酬が付与されると、ステップS290に進んで、付与されたそれぞれの報酬の中で最も高い報酬と、2番目に高い報酬との間に、所定値以上の差が生じているか否かを判定する。このとき、所定値以上の差が生じていると判定されると、ステップS310の処理に進む。一方、所定値以上の差が生じていないと判定されると、ステップS300の処理に進む。
 最も高い報酬と2番目に高い報酬との間に所定値以上の差が生じていない場合、いずれの自車両の行動が最も適した行動であるかの優劣を完全には断定できないと考えられる。そのため、本実施形態では、自車両の行動と他車両の行動とのそれぞれの組み合わせに引き続いて自車両が取り得る複数の行動の設定、設定されたそれぞれの行動を自車両が実行する際の自車両パスの決定、自車両のそれぞれの行動に対して他車両が取り得る複数の行動の設定、および、設定されたそれぞれの行動を他車両が実行する際の他車両パスの決定を実行させるべく、ステップS240の処理にループさせる。ループの際には、他車両の行動や他車両パスに応じて、自車両がどのように行動したり自車両パスが受ける影響を考慮する。さらにもう一度ループする場合は、1回目のループで考慮した自車両の行動および自車両パスに応じて、他車両の行動や他車両パスが受ける影響を考慮する。このように処理をループさせることで、自車両および/または他車両が取った行動に対して、自車両および/または他車両にどのような行動変化が生じるかを高精度に予測することが可能になる。ただし、このループを無制限に許可してしまうと、ループが繰り返され、自車両の行動を決定できない虞が生じる。そのため、ステップS310では、ループ回数が所定回数に達したか否かを判定する。そして、ループ回数が所定回数に達していなければ、ステップS240の処理にループするが、ループ回数が所定回数に達している場合には、ステップS310の処理に進むように構成されている。
 ステップS310では、付与された報酬に基づいて、最も高い報酬が付与された自車両の行動を選択する。そして、インタラクティブ予測部40は、選択した自車両の行動に関する情報(自車両パスおよびターゲット速度)を、中期計画作成部30に出力する。なお、ステップS310において、報酬に基づいて自車両の行動を選択する代わりに、インタラクティブ予測部40は中期計画作成部30に他の行動を指示してもよい。例えば、現在の自車両の速度・加速度の維持、徐々に速度低減、停止のうちいずれかを中期計画作成部30に指示してもよい。
 一方、ステップS220において、自車両の周囲に他車両が存在しないと判定された場合に実行されるステップS320では、中期計画作成部30は、走行経路に沿って走行するように、道路情報に基づいて自車両の行動を決定する。例えば、自車両が道なりに走行する場合には、自車両が走行する車線に沿った予定軌道を算出し、その予定軌道を走行する際のターゲット速度を算出する。また、自車両が右左折、分岐などを行う場合には、中期計画作成部30は、その右左折道路や分岐道路の形状に応じた予定軌道およびターゲット速度を算出する。
 以上、説明したように、本実施形態の車両行動評価装置によれば、自車両の行動と他車両の行動とのそれぞれの組み合わせにおける自車両の行動について、近似関数器50を用いて評価しているので、自車両の(将来の)行動に付与された報酬に基づいて、その自車両の行動が、自車両が直面している交通状況に適したものであるか否かを適正に評価することができる。
 なお、本実施形態の車両行動評価装置において、自車両の行動を評価するために少なくとも1つのプロセッサが行う処理が本開示の車両行動評価方法に相当する。また、本実施形態の車両行動評価装置において、少なくとも1つのプロセッサが車両行動評価方法を実行するための命令を含むプログラムが、本開示の車両行動評価プログラムに相当する。
 (第2実施形態)
 次に、本開示の第2実施形態について説明する。ただし、本実施形態による車両行動評価装置は、第1実施形態の車両行動評価装置と同様に構成されるため、構成に関する説明は省略する。
 上述した第1実施形態では、例えば、図6に基づき、自車両の走行車線上に駐車車両が存在し、自車両はこの駐車車両を迂回して走行しなければならない状況で、対向車線を走行してくる他車両が存在する状況を示し、自車両と他車両とが取り得る行動に関して説明した。しかしながら、他車両が存在する場合に、その他車両を運転する運転者が急いでいる事情があったりした場合には、そのような事情がない場合と比較して、他車両の行動は異なることが多い。本実施形態では、このような他車両の運転特性も考慮する点が、第1実施形態と異なる。
 本実施形態では、図7に示すように、時空間状態行動マップにおいて、他車両の運転特性を考慮する。具体的には、各種センサ10によって検出される他車両の動きから、他車両が激しい運転を行う運転特性を有しているか、優しい運転を行う運転特性を有しているかを判定する。この際、わずかな時間における他車両の動きだけでは、激しい運転特性を有しているか、優しい運転特性を有しているかを断定することは困難であるため、例えば、激しい運転特性の確率と優しい運転特性の確率とを算出することが好ましい。さらに、他車両の運転特性として、例えば、激しい、平均的、優しいなど3種類以上に区分けしてもよい。
 他車両の運転特性について断定できる場合には、その運転特性に関して枝分かれしている、自車両の行動と他車両の行動との組み合わせを考慮するだけでもよい。ただし、他車両の運転特性に関して、それぞれの特性の確率を算出した場合には、それぞれの運転特性から枝分かれしている自車両の行動と他車両の行動との組み合わせに関して、自車両パスおよび他車両パスを定める。この際、他車両の行動として、他車両の運転特性を考慮することができる。例えば、激しい運転特性の他車両が進行する場合の速度や加速度は、優しい運転特性の他車両が進行する場合の速度や加速度よりも高く見積もることができる。そして、最終的に自車両の行動に付与する報酬は、それぞれの運転特性の確率に応じて、増減して算出すればよい。
 他車両の運転特性を考慮することが好ましい例としては、例えば、第1実施形態において図6を用いて説明した状況に加え、図8に示すような状況も該当する。図8は、自車両が側道から本線に合流しようとしているときに、自車両の近くで本線を走行している他車両が存在する状況を示している。図8に示すような状況において、他車両が激しい運転特性を有している場合、より長い矢印で示すように、高い速度で走行を継続する可能性が高い。一方、他車両が優しい運転特性を有している場合、自車両の本線合流が可能となるように、速度を低下させる可能性が高い。走行状況-報酬データには、他車両の運転特性が激しい場合と、優しい場合の走行状況も含まれている。従って、近似関数器50により、他車両の運転特性が激しい場合には、速度を低下させる自車両の行動に相対的に高い報酬が与えられ、他車両の運転特性が優しい場合には、他車両の前で本線に合流する自車両の行動に相対的に高い報酬が与えられる可能性が高くなる。このように、他車両の運転特性を考慮することで、他車両と自車両との相対的な位置関係が同じであったとしても、自車両が取るべき最適な行動は変化する。
 さらに、図8に類似する状況として、例えば、自車両が車線変更を行う必要がある場合に、その変更先の車線を他車両が走行しているとき、その他車両の運転特性を考慮することが好ましい。さらに、自車両の周囲に他車両が存在するすべての状況において、他車両の運転特性を考慮するようにしてもよい。
 (第3実施形態)
 次に、本開示の第3実施形態について説明する。ただし、本実施形態による車両行動評価装置も、第1実施形態の車両行動評価装置と同様に構成されるため、構成に関する説明は省略する。
 上述した第2実施形態では、他車両の運転特性を考慮して時空間状態行動マップを作成したが、本実施形態では、交通信号の状態を考慮して時空間状態行動マップを作成する点が、第2実施形態と異なる。
 本実施形態では、図9に示すように、時空間状態行動マップにおいて、交通信号の状態を考慮する。具体的には、図10に示すように、自車両が交差点において右折しようとしているときに、対向車線を交差点に向かって進行してくる他車両が存在する場合に、交通信号の状態に応じた、時空間状態行動マップを作成する。なお、交通信号の状態は、各種センサ10によって検出される検出結果から、交通信号が青色点灯状態であるか、黄色点灯状態であるかを判定することができる。さらに、交通信号に右折矢印信号が設けられている場合には、右折矢印点灯状態であるかを判定するようにしてもよい。
 交通信号が青色点灯状態であることが検出されると、図9に示す時空間状態行動マップにおいて、青信号から枝分かれしている自車両の行動と他車両の行動の組み合わせに関して、自車両パスおよび他車両パスを定める。ここで、青信号の場合、自車両の右折動作よりも、対向車線を交差点に接近してくる他車両の走行が優先される。走行状況-報酬データには、このような走行状況も含まれている。このため、近似関数器50によって、自車両が待機し、他車両が進行する行動の組み合わせにおける、自車両の行動に高い報酬が与えられる可能性が高くなる。ただし、他車両が交差点に進入するまでに十分な時間があるとみなせる状況では、自車両が右折のために信号する自車両の行動に高い報酬が与えられる可能性が高くなる。
 一方、交通信号が、黄色点灯状態であることが検出されると、時空間状態行動マップにおいて、黄信号から枝分かれしている自車両の行動と他車両の行動の組み合わせに関して、自車両パスおよび他車両パスを定める。ここで、黄信号の場合、対向車線を交差点に接近してくる他車両は交差点の停止線で停止し、右折を待機している自車両は、右折のために進行する可能性が高くなる。走行状況-報酬データには、このような走行状況も含まれている。このため、近似関数器50によって、自車両が右折のために進行し、他車両が停止線で停止する行動の組み合わせにおける、自車両の行動に高い報酬が与えられる可能性が高くなる。右折矢印信号が点灯した場合には、よりその可能性が高くなる。このように、交通信号の状態を考慮することで、自車両が実際の交通環境において遭遇する場面において、自車両の行動として、より適切な行動を選択することができるようになる。
 以上、本開示の好ましい実施形態について説明したが、本開示は、上述した実施形態になんら制限されることなく、本開示の主旨を逸脱しない範囲において、種々、変形して実施することができる。
 例えば、上述した実施形態では、自動運転システム100を、長期計画作成部20、中期計画作成部30、および短期計画作成部60を含むように構成したが、これらの構成は、任意に統合されてもよい。さらに、中期計画作成部30とインタラクティブ予測部40も統合して構成されてもよい。

Claims (24)

  1.  自車両の将来の行動を評価するための車両行動評価装置であって、
     予定走路の走行に際して、自車両が取り得る複数の行動を設定する設定部(S240)と、
     前記自車両の周辺環境と前記自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、前記自車両が前記他車両と接触を回避できた前記自車両の状況には高い報酬を与え、前記自車両が前記他車両と接触に到った前記自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況-報酬データに基づき学習された関数器(50)を有し、この関数器を用いて、前記設定部によって設定された前記自車両の行動に対して、前記自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて前記自車両の行動を評価する評価部(S280)と、を備える車両行動評価装置。
  2.  前記シミュレーションは、前記複数の環境下において、前記自車両の行動および速度と、前記他車両の行動および速度との異なる組み合わせを含む請求項1に記載の車両行動評価装置。
  3.  前記走行状況-報酬データは、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両と前記他車両とが接触した場合に、ペナルティとして設定される第1のコストと、前記自車両と前記他車両とが接触した場合に、その接触に到る以前のステップの前記自車両の走行状況に対して、接触に到るまでの時間が短くなるほど大きく設定される第2のコストとが算出され、前記第1および第2のコストの合計の逆数として報酬が算出されて作成されたものである請求項1または2に記載の車両行動評価装置。
  4.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記他車両を含む物体との距離が近づくほど大きく設定される第3のコストが算出され、
     前記走行状況-報酬データは、前記第3のコストも加味して報酬が算出されて作成されたものである請求項3に記載の車両行動評価装置。
  5.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が前記他車両との接触を回避するために要する時間が長くなるほど大きく設定される第4のコストが算出され、
     前記走行状況-報酬データは、前記第4のコストも加味して報酬が算出されて作成されたものである請求項3または4に記載の車両行動評価装置。
  6.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が走行すべき車線から逸脱する継続時間および/または距離が長くなるほど大きく設定される第5のコストが算出され、
     前記走行状況-報酬データは、前記第5のコストも加味して報酬が算出されて作成されたものである請求項3乃至5のいずれか1項に記載の車両行動評価装置。
  7.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両の加速度が大きくなるほど大きく設定される第6のコストが算出され、
     前記走行状況-報酬データは、前記第6のコストも加味して報酬が算出されて作成されたものである請求項3乃至6のいずれか1項に記載の車両行動評価装置。
  8.  前記第1のコストは、その他のコストに比較して、相対的に大きく設定される請求項3乃至7のいずれか1項に記載の車両行動評価装置。
  9.  自車両の将来の行動を評価するための車両行動評価方法であって、
     少なくとも1つのプロセッサにより実行される、
     予定走路の走行に際して、自車両が取り得る複数の行動を設定する設定ステップ(S240)と、
     前記自車両の周辺環境と前記自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、前記自車両が前記他車両と接触を回避できた前記自車両の状況には高い報酬を与え、前記自車両が前記他車両と接触に到った前記自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況-報酬データに基づき学習された関数器(50)を用いて、前記設定ステップにおいて設定された前記自車両の行動に対して、前記自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて前記自車両の行動を評価する評価ステップ(S280)と、を備える車両行動評価方法。
  10.  前記シミュレーションは、前記複数の環境下において、前記自車両の行動および速度と、前記他車両の行動および速度との異なる組み合わせを含む請求項9に記載の車両行動評価方法。
  11.  前記走行状況-報酬データは、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両と前記他車両とが接触した場合に、ペナルティとして設定される第1のコストと、前記自車両と前記他車両とが接触した場合に、その接触に到る以前のステップの前記自車両の走行状況に対して、接触に到るまでの時間が短くなるほど大きく設定される第2のコストとが算出され、前記第1および第2のコストの合計の逆数として報酬が算出されて作成されたものである請求項9または10に記載の車両行動評価方法。
  12.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記他車両を含む物体との距離が近づくほど大きく設定される第3のコストが算出され、
     前記走行状況-報酬データは、前記第3のコストも加味して報酬が算出されて作成されたものである請求項11に記載の車両行動評価方法。
  13.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が前記他車両との接触を回避するために要する時間が長くなるほど大きく設定される第4のコストが算出され、
     前記走行状況-報酬データは、前記第4のコストも加味して報酬が算出されて作成されたものである請求項11または12に記載の車両行動評価方法。
  14.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が走行すべき車線から逸脱する継続時間および/または距離が長くなるほど大きく設定される第5のコストが算出され、
     前記走行状況-報酬データは、前記第5のコストも加味して報酬が算出されて作成されたものである請求項11乃至13のいずれか1項に記載の車両行動評価方法。
  15.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両の加速度が大きくなるほど大きく設定される第6のコストが算出され、
     前記走行状況-報酬データは、前記第6のコストも加味して報酬が算出されて作成されたものである請求項11乃至14のいずれか1項に記載の車両行動評価方法。
  16.  前記第1のコストは、その他のコストに比較して、相対的に大きく設定される請求項11乃至15のいずれか1項に記載の車両行動評価方法。
  17.  コンピュータ読み取り可能な非遷移記憶媒体に記憶され、命令を含むプログラムであり、前記命令は、少なくとも1つのプロセッサにより実行された場合に、少なくとも1つの前記プロセッサに、
     予定走路の走行に際して、自車両が取り得る複数の行動を設定させ(S240)、
     前記自車両の周辺環境と前記自車両の状況と他車両の状況との組み合わせが異なる複数の環境下においてシミュレーションを行い、前記自車両が前記他車両と接触を回避できた前記自車両の状況には高い報酬を与え、前記自車両が前記他車両と接触に到った前記自車両の状況にはそれよりも低い報酬を与えるようにして作成された走行状況-報酬データに基づき学習された関数器(50)を用いて、設定された前記自車両の行動に対して、前記自車両の周囲の他車両の走行状態を考慮した報酬を算出し、その算出した報酬に基づいて前記自車両の行動を評価させる(S280)ことにより、前記自車両の将来の行動を評価するように構成された車両行動評価プログラム。
  18.  前記シミュレーションは、前記複数の環境下において、前記自車両の行動および速度と、前記他車両の行動および速度との異なる組み合わせを含む請求項17に記載の車両行動評価プログラム。
  19.  前記走行状況-報酬データは、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両と前記他車両とが接触した場合に、ペナルティとして設定される第1のコストと、前記自車両と前記他車両とが接触した場合に、その接触に到る以前のステップの前記自車両の走行状況に対して、接触に到るまでの時間が短くなるほど大きく設定される第2のコストとが算出され、前記第1および第2のコストの合計の逆数として報酬が算出されて作成されたものである請求項17または18に記載の車両行動評価プログラム。
  20.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける走行状況に関して、前記他車両を含む物体との距離が近づくほど大きく設定される第3のコストが算出され、
     前記走行状況-報酬データは、前記第3のコストも加味して報酬が算出されて作成されたものである請求項19に記載の車両行動評価プログラム。
  21.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が前記他車両との接触を回避するために要する時間が長くなるほど大きく設定される第4のコストが算出され、
     前記走行状況-報酬データは、前記第4のコストも加味して報酬が算出されて作成されたものである請求項19または20に記載の車両行動評価プログラム。
  22.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両が走行すべき車線から逸脱する継続時間および/または距離が長くなるほど大きく設定される第5のコストが算出され、
     前記走行状況-報酬データは、前記第5のコストも加味して報酬が算出されて作成されたものである請求項19乃至21のいずれか1項に記載の車両行動評価プログラム。
  23.  さらに、前記自車両と前記他車両との走行状況を複数のステップに細分化した各ステップにおける前記自車両の走行状況に関して、前記自車両の加速度が大きくなるほど大きく設定される第6のコストが算出され、
     前記走行状況-報酬データは、前記第6のコストも加味して報酬が算出されて作成されたものである請求項19乃至22のいずれか1項に記載の車両行動評価プログラム。
  24.  前記第1のコストは、その他のコストに比較して、相対的に大きく設定される請求項19乃至23のいずれか1項に記載の車両行動評価プログラム。
PCT/JP2020/048689 2020-02-17 2020-12-25 車両行動評価装置、車両行動評価方法、および車両行動評価プログラム WO2021166449A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202080096496.0A CN115362092A (zh) 2020-02-17 2020-12-25 车辆行动评价装置、车辆行动评价方法以及车辆行动评价程序
US17/819,566 US20220392276A1 (en) 2020-02-17 2022-08-12 Vehicle behavior evaluation device, vehicle behavior evaluation method, and vehicle behavior evaluation program product

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-024654 2020-02-17
JP2020024654A JP7347252B2 (ja) 2020-02-17 2020-02-17 車両行動評価装置、車両行動評価方法、および車両行動評価プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/819,566 Continuation US20220392276A1 (en) 2020-02-17 2022-08-12 Vehicle behavior evaluation device, vehicle behavior evaluation method, and vehicle behavior evaluation program product

Publications (1)

Publication Number Publication Date
WO2021166449A1 true WO2021166449A1 (ja) 2021-08-26

Family

ID=77390682

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/048689 WO2021166449A1 (ja) 2020-02-17 2020-12-25 車両行動評価装置、車両行動評価方法、および車両行動評価プログラム

Country Status (4)

Country Link
US (1) US20220392276A1 (ja)
JP (1) JP7347252B2 (ja)
CN (1) CN115362092A (ja)
WO (1) WO2021166449A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102647973B1 (ko) * 2021-11-29 2024-03-15 주식회사 와이즈오토모티브 자율주행차량의 충돌 회피 기능 검사 장치 및 방법
KR102625974B1 (ko) * 2021-11-29 2024-01-18 주식회사 오비고 자율주행차량의 운행 검증에 필요한 검증 시나리오를 편집하는 방법 및 이를 이용한 서버

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160129907A1 (en) * 2014-11-12 2016-05-12 Hyundai Motor Company Driving path planning apparatus and method for autonomous vehicle
JP2018139030A (ja) * 2017-02-24 2018-09-06 マツダ株式会社 車両運転支援システム及び方法
WO2018232237A1 (en) * 2017-06-16 2018-12-20 Uber Technologies, Inc. Systems and methods to obtain passenger feedback in response to autonomous vehicle driving events
WO2019106789A1 (ja) * 2017-11-30 2019-06-06 三菱電機株式会社 処理装置及び処理方法
JP2019155561A (ja) * 2018-03-15 2019-09-19 オムロン株式会社 ロボットの動作制御装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160129907A1 (en) * 2014-11-12 2016-05-12 Hyundai Motor Company Driving path planning apparatus and method for autonomous vehicle
JP2018139030A (ja) * 2017-02-24 2018-09-06 マツダ株式会社 車両運転支援システム及び方法
WO2018232237A1 (en) * 2017-06-16 2018-12-20 Uber Technologies, Inc. Systems and methods to obtain passenger feedback in response to autonomous vehicle driving events
WO2019106789A1 (ja) * 2017-11-30 2019-06-06 三菱電機株式会社 処理装置及び処理方法
JP2019155561A (ja) * 2018-03-15 2019-09-19 オムロン株式会社 ロボットの動作制御装置

Also Published As

Publication number Publication date
JP2021128716A (ja) 2021-09-02
CN115362092A (zh) 2022-11-18
JP7347252B2 (ja) 2023-09-20
US20220392276A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
Yu et al. A human-like game theory-based controller for automatic lane changing
US11034346B2 (en) Navigation at alternating merge zones
CN111497864B (zh) 利用v2x应用程序向人传递当前驾驶意图信号的方法及装置
CN111986514B (zh) 基于交通工具的数据处理方法、装置、设备以及介质
CN112292719B (zh) 使自我车辆的轨迹与运动的外来对象适配
JP7331939B2 (ja) 車載装置及び運転支援方法
JP6468261B2 (ja) 自動運転システム
US11565709B1 (en) Vehicle controller simulations
JP2017154554A (ja) 車両制御装置及び車両制御方法
US20200096355A1 (en) Driving Control Method and Driving Control Device
US20220392276A1 (en) Vehicle behavior evaluation device, vehicle behavior evaluation method, and vehicle behavior evaluation program product
WO2021070451A1 (ja) 車両制御装置、車両制御方法、自動運転装置及び自動運転方法
US11351996B2 (en) Trajectory prediction of surrounding vehicles using predefined routes
JP7048455B2 (ja) 学習装置、シミュレーションシステム、学習方法、およびプログラム
CN112180912A (zh) 用于为自动驾驶车辆规划路径的分级路径决策系统
CN113895456A (zh) 自动驾驶车辆的交叉路口行驶方法、装置、车辆及介质
CN114644016A (zh) 车辆自动驾驶决策方法、装置、车载终端和存储介质
JP6868102B2 (ja) 車両制御装置
WO2021166448A1 (ja) 車両行動生成装置、車両行動生成方法、および車両行動生成プログラム
JP2909106B2 (ja) 移動車の走行制御装置
GB2578917A (en) Vehicle control system and method
CN114763135A (zh) 一种车辆行驶控制方法、装置、电子设备及存储介质
CN115884908A (zh) 路径确认装置以及路径确认方法
CN114056328B (zh) 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统
US20230053243A1 (en) Hybrid Performance Critic for Planning Module's Parameter Tuning in Autonomous Driving Vehicles

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20920596

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20920596

Country of ref document: EP

Kind code of ref document: A1