WO2021049062A1 - 認識モデル配信システム及び認識モデルの更新方法 - Google Patents

認識モデル配信システム及び認識モデルの更新方法 Download PDF

Info

Publication number
WO2021049062A1
WO2021049062A1 PCT/JP2020/005253 JP2020005253W WO2021049062A1 WO 2021049062 A1 WO2021049062 A1 WO 2021049062A1 JP 2020005253 W JP2020005253 W JP 2020005253W WO 2021049062 A1 WO2021049062 A1 WO 2021049062A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
recognition
recognition model
dimensional
vehicle
Prior art date
Application number
PCT/JP2020/005253
Other languages
English (en)
French (fr)
Inventor
武央 西田
奥出 真理子
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US17/638,571 priority Critical patent/US20220406041A1/en
Publication of WO2021049062A1 publication Critical patent/WO2021049062A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems

Definitions

  • the present invention relates to a recognition model distribution system and a method of updating a recognition model.
  • Vehicles are equipped with cameras to detect objects such as other vehicles, pedestrians, and traffic lights.
  • machine learning technology such as deep learning may be applied.
  • machine learning technology it is necessary to have a sample that actually traveled on the road, but it is difficult to extract a sample that is necessary for learning, including harsh weather conditions such as rainy weather, backlight, and fog. Met.
  • Patent Document 1 a simulation image in which a region specified by position information (landscape based on latitude / longitude, direction, and field of view on a map) is reproduced by computer graphics is generated, and the generated simulation image is described. Recognizing and detecting a specific object from the inside using the recognition function module 204a, which is a test target or machine learning target, the learning unit 204b, with respect to the recognition function module 204a, captures an image or a virtual image taken by a camera device. It is described that by inputting a CG image, the feature points of the image that are actually difficult to shoot and reproduce are extracted, the extraction pattern is diversified, and the learning efficiency is improved. ing.
  • position information latitude / longitude, direction, and field of view on a map
  • an object of the present invention is to provide a technique for updating a recognition model so that a scene can be recognized immediately even if there is an error in recognition in an unknown scene or the like.
  • the present invention acquires a recognition model suitable for the vehicle from a plurality of recognition models in a recognition model distribution system that distributes a recognition model that recognizes the outside world to the vehicle, and is provided in the vehicle.
  • a data analysis unit that determines the recognition failure location of the traffic scene in the recognition model acquired by comparing with the data from the outside world recognition unit, reflects the recognition failure location in the recognition model, and creates a three-dimensional computer graphics image.
  • a parameter generation unit that generates parameters for generating a plurality of traffic scenes similar to the three-dimensional computer graphics image created by the data analysis unit, and a traffic flow created by the parameters generated by the parameter generation unit.
  • the teacher data required for learning the recognition model based on the three-dimensional object generation unit that executes the traffic flow simulation using the model and generates the three-dimensional traffic object and the three-dimensional traffic object generated by the three-dimensional object generation unit.
  • a teacher data generation unit that creates the above, a learning unit that executes learning of the recognition model based on the teacher data generated by the teacher data generation unit, and a recognition model suitable for the vehicle are distributed from the plurality of recognition models. It is characterized by having a recognition model distribution unit.
  • FIG. 1 is a block diagram showing a configuration according to a first embodiment of the present invention.
  • FIG. 1 shows, as an example, an example applied to learning an automatic driving recognition model in a vehicle equipped with an in-vehicle camera.
  • the recognition model distribution system of this embodiment is composed of a video generation device 1 and a recognition model generation device 2. Then, the recognition model generated by the recognition model distribution system is distributed to the vehicle.
  • the video generator 1, the recognition model generator 2, and the vehicle 3 are connected by a communication network 4, and transmit and receive necessary information when necessary via communication.
  • the image generation device 1 performs a traffic flow simulation based on preset parameters or parameters generated by the parameter generation unit 12, and in the traffic flow simulation every moment, the periphery of a specific vehicle is composed of three-dimensional objects. Then, the image when a camera simulating an in-vehicle camera is installed on the three-dimensional object of the vehicle is reproduced. Further, the image generation device 1 includes a communication interface 10, a data analysis unit 11, a parameter generation unit 12, a three-dimensional object generation unit 13, and a teacher data generation unit 14.
  • the data analysis unit 11 receives the vehicle data transmitted from the vehicle 3.
  • the data acquired from the vehicle 3 includes the sensor data of the sensor of the external world recognition unit 32 included in the vehicle, that is, the sensor data of the sensor such as a camera, LIDAR (abbreviation of Light Detection and Ranging or Laser Imaging Detection and Ranging), and sonar. It is the operation related to the running control of the vehicle, that is, the data on the operation amount of steering, the accelerator, and the brake, and the data on the position and orientation of the vehicle.
  • the data analysis unit 11 acquires a model that is the same as the recognition model of the vehicle 3 from the plurality of recognition models stored in the recognition model generation device 2, and is a three-dimensional computer that has the same recognition result.
  • the graphics image is reproduced, the difference is extracted by comparing it with the in-vehicle camera image obtained from the vehicle 3, the object existing in the difference is recognized, and the country or region where this image is affected is determined. , Add this object to the reproduced 3D computer graphics image to reconstruct the image.
  • the reconstruction in this embodiment is intended to create a three-dimensional computer graphics image by reflecting an object extracted as a difference. A country or region is intended for a driving environment.
  • the difference extracted by the data analysis unit 11 becomes a recognition failure point (error).
  • FIG. 2 is a block diagram showing a detailed configuration of the data analysis unit 11 according to the first embodiment of the present invention.
  • the data analysis unit 11 includes a recognition model acquisition unit 110, a recognition unit 111, a map database 112, an image reproduction unit 113, a difference extraction unit 114, an object recognition model 115, an object recognition unit 116, a scene reconstruction unit 117, and an area determination unit. It has 18.
  • the recognition model acquisition unit 110 acquires the same recognition model as the recognition model used in the vehicle 3 from a plurality of recognition models stored in the recognition model generation device 2.
  • the recognition unit 111 returns the recognition result for the input image.
  • the input image is an image of each frame in the actual image obtained from the vehicle-mounted camera of the vehicle 3 or an image of each frame in the three-dimensional computer graphics image generated by the image reproduction unit 113.
  • the map database 112 records map information and provides map information around it based on the position information obtained from the vehicle 3.
  • the image reproduction unit 113 generates a three-dimensional static traffic object from the map information around one of the vehicles 3 provided from the map database 112, and a three-dimensional vehicle object in the three-dimensional static traffic object according to the direction of the vehicle 3. To place. Further, the image reproduction unit 113 arranges three-dimensional traffic objects such as other vehicles and pedestrians so that the recognition result is the same as the result of recognizing the image of the in-vehicle camera obtained from the vehicle 3 by the recognition unit 111. , Reproduce the image with the camera in the three-dimensional simulation space that simulates the in-vehicle camera of the vehicle. This image is input to the recognition unit 111, and the arrangement of the three-dimensional traffic objects and the weather and sunlight in the three-dimensional simulation space are adjusted until the recognition result is close to the recognition result of the vehicle 3.
  • FIG. 3 is a diagram showing an example of reproduction in a three-dimensional computer graphics image by the image reproduction unit 113 according to the first embodiment of the present invention.
  • 113a is a frame of an image obtained from the vehicle-mounted camera (outside world recognition unit 32) of the vehicle 3.
  • the vehicle a1 and the vehicle a2 are shown in this image, and the vehicle a2 is partially hidden by a fence.
  • 113b is the result of recognizing the image 113a by the recognition unit 111.
  • the frame b1 in 113b indicates that the vehicle a1 has been recognized.
  • the frame is not shown on the vehicle a2, which means that the vehicle a2 is not recognized. That is, the vehicle a2 is a recognition failure location.
  • the image reproduction unit 113 arranges the three-dimensional traffic object so that the recognition result by the recognition unit 111 is similar to 113b. That is, the three-dimensional computer graphics image 113c in which the vehicle c1 exists is reproduced so as to obtain a recognition result such as 113d.
  • the difference extraction unit 114 compares the three-dimensional computer graphic image reproduced by the image reproduction unit 113 based on the recognition result of the recognition unit 111 with the image obtained from the in-vehicle camera (outside world recognition unit 32) of the vehicle 3. , Extract the part that becomes the difference. That is, the difference extraction unit 114 determines the recognition failure location.
  • the object recognition unit 116 uses the object recognition model registered in the object recognition model 115 for the image of the difference of each frame in the image of the vehicle 3 extracted by the difference extraction unit 114 and the image reproduced by computer graphics. Use to perform object recognition.
  • the scene reconstruction unit 117 corresponds to the vehicle-mounted camera image of a three-dimensional object corresponding to the object recognized by the object recognition unit 116 with respect to a traffic scene similar to the vehicle-mounted camera image of the vehicle 3 reproduced by the image reproduction unit 113. Place it at the desired position and reconstruct the 3D simulation space.
  • FIG. 4 is a diagram showing an operation example of the difference extraction unit 114 and the scene reconstruction unit 117 according to the first embodiment of the present invention.
  • the difference image 114a is extracted by comparing the image 113a, which is one frame of the image obtained from the in-vehicle camera of the vehicle 3, with the computer graphics image 113c reproduced by the image reproduction unit 113. From this difference image 114a, it is recognized that the vehicle is a vehicle by the object recognition model, and the vehicle c2 corresponding to the vehicle a2 is arranged and reconstructed in the arrangement of the three-dimensional traffic object in the reproduced computer graphics image 113c. .. As a result, the scene reconstruction unit 117 generates a computer graphics image after the reconstruction in which the vehicle c2 as shown in the image 117c is arranged.
  • the three-dimensional traffic object is adjusted in the three-dimensional simulation space so that the recognition results of the in-vehicle camera image and the reproduced image match, but the recognition model is a multi-layered CNN (Convolutional Neural Network, convolutional neural network).
  • CNN Convolutional Neural Network, convolutional neural network
  • the results of feature maps in the middle layer may be further compared. By this comparison, it may be possible to identify the cause of the recognition error in more detail in the in-vehicle camera image.
  • the area determination unit 118 determines the country or region where the object that cannot be recognized by the recognition model registered in the recognition model registration unit 31 of the vehicle 3 is affected, based on the object recognition result by the object recognition unit 116.
  • a country or region is intended as a driving environment. For example, when the road sign cannot be recognized, the country or region where the road sign is used is determined, and the result is output to the teacher data generation unit 14.
  • the parameter generation unit 12 generates parameters for generating teacher data for generating a plurality (many) traffic scenes similar to the three-dimensional computer graphics image reconstructed by the data analysis unit 11.
  • the parameters generated here include, for example, parameters for the area where the traffic flow simulation is executed, parameters for adjusting the vehicle speed distribution and occurrence probability, parameters for adjusting the pedestrian speed distribution and occurrence probability, and pedestrian roads. It is a parameter that adjusts the occurrence probability of an event such as jumping out to.
  • the parameter generation unit 12 of the present embodiment cannot detect that a pedestrian has jumped out in front of the preceding vehicle, and when the vehicle suddenly stops together with the preceding vehicle, the probability of occurrence of the vehicle and an event due to the jumping out of a person Can be increased to make it easier to generate similar scenes.
  • FIG. 5 is a block diagram showing a detailed configuration of the three-dimensional object generation unit 13 according to the first embodiment of the present invention.
  • the three-dimensional object generation unit 13 includes a parameter registration unit 130, a traffic flow model generation unit 131, a traffic flow simulation execution unit 132, an event management unit 133, a three-dimensional object management unit 134, and a drawing area management unit 135.
  • the parameter registration unit 130 registers the preset parameters or the parameters generated by the parameter generation unit 12 as parameters necessary for video generation.
  • the traffic flow model generation unit 131 generates a traffic flow model necessary for the traffic flow simulation based on the parameters generated by the parameter generation unit 12 and registered in the parameter registration unit 130.
  • the traffic flow model is a road network model (network information of the entire road including the length and width of the road, the type, the number of lanes, the connection relationship, whether or not the vehicle can run for each vehicle type), and the vehicle model (for each vehicle type).
  • Information such as average speed, route for each vehicle, occurrence time), pedestrian model (information such as average speed for each pedestrian type, route for each pedestrian, occurrence time, etc.), signal model (linkage between signal and intersection) It means information such as lighting time and lighting pattern), and other object models (information such as the area of buildings and parks and the position of trees).
  • the traffic flow simulation execution unit 132 executes a traffic flow micro-simulation based on the traffic flow model generated by the traffic flow model generation unit 131. That is, in each simulation step of the traffic flow simulation, all the dynamic traffic objects in the simulation space are generated, updated, and deleted. For example, when the vehicle A moving from the point 1 to the point 2 occurs at the time T1, the vehicle A is generated as a traffic object at the time T1 and other vehicles, pedestrians, etc. The position of the object of the vehicle A is updated while being affected by the signal, and when the object of the vehicle A arrives at the point 2, the object of the vehicle A is deleted.
  • the event management unit 133 manages the occurrence of events during the traffic flow simulation in the traffic flow simulation execution unit 132 based on the parameters generated by the parameter generation unit 12 and registered in the parameter registration unit 130. Events managed here include, for example, changing the weather, changing the way the sun enters according to the time, and pedestrians crossing a road without a pedestrian crossing at time T1.
  • the three-dimensional object management unit 134 manages all traffic objects in the traffic flow simulation space executed by the traffic flow simulation execution unit 132 and all traffic objects managed by the event management unit 133 as three-dimensional objects.
  • a three-dimensional road object is generated from the road model generated by the traffic flow model generation unit 131
  • a three-dimensional signal object is generated from the signal model and managed
  • a vehicle object executed by the traffic flow simulation execution unit 132 is tertiary.
  • the original vehicle object and pedestrian object are managed as a three-dimensional pedestrian object.
  • a three-dimensional road object, a three-dimensional signal object, a three-dimensional vehicle object, and a three-dimensional pedestrian object are referred to as a three-dimensional traffic object.
  • FIG. 6 is a flowchart showing a traffic flow simulation process in the three-dimensional object generation unit 13 according to the first embodiment of the present invention.
  • the three-dimensional object generation unit 13 first generates a traffic flow model based on the registered parameters in step S101.
  • step S102 a three-dimensional simulation space is constructed based on a model related to static traffic objects such as a road network model and other object models among the traffic flow models generated in step S101.
  • step S103 the traffic flow simulation is started based on the traffic flow model.
  • step S104 the time step of the traffic flow simulation is advanced.
  • step S105 it is determined whether or not an event based on the registered parameter occurs in the time step, and if it occurs, the process proceeds to step S106, and if it does not occur, the process proceeds to step S107.
  • step S106 a three-dimensional traffic object corresponding to the event is generated and placed in the three-dimensional simulation space.
  • step S107 a list of dynamic traffic objects in the traffic flow simulation is acquired.
  • step S108 the list of traffic objects acquired in the previous time step is compared with the list of traffic objects acquired in the time step.
  • step S109 as a result of comparison, it is determined whether or not a new dynamic traffic object has occurred, and if it does occur, the process proceeds to S110, and if it does not occur, the process proceeds to S111.
  • step S110 a three-dimensional traffic object corresponding to a newly generated dynamic traffic object is generated and placed in the three-dimensional simulation space.
  • step S111 as a result of comparison, it is determined whether or not the dynamic traffic object has disappeared, and if it disappears, the process proceeds to step S112, and if it does not disappear, the process proceeds to step S113.
  • step S112 the three-dimensional traffic object corresponding to the disappeared dynamic traffic object is deleted from the three-dimensional simulation space.
  • step S113 the position and orientation of the corresponding three-dimensional traffic object are updated in the three-dimensional simulation space with respect to the traffic object that has continued to exist from the previous time step.
  • step S114 it is determined whether or not the traffic flow simulation is completed, and if not, the process returns to step S104, the time step is advanced, and the above processing is repeated.
  • the traffic flow simulation in order to determine whether or not the traffic flow simulation has been completed, it is determined whether or not the preset number of simulation steps has been reached, or whether or not all the dynamic traffic objects have reached the destination. Use judgment.
  • FIG. 7 is a diagram showing an example of a traffic object managed by the traffic flow simulation execution unit 132 according to the first embodiment of the present invention and a three-dimensional traffic object managed by the three-dimensional object management unit 134.
  • 50 is a part of a two-dimensional simulation space managed by the traffic flow simulation execution unit 132
  • 51 is a vehicle object
  • 52 is a pedestrian object
  • 53 is a traffic light object
  • 54 is a building. It is an object.
  • 55 is a white line indicating a center line, a pedestrian crossing, a shoulder, etc. drawn on the road.
  • the three-dimensional object management unit 134 executes management such as creating, updating, and erasing a three-dimensional traffic object from such a two-dimensional traffic object.
  • the vehicle object 51 is a three-dimensional vehicle object 51a
  • the pedestrian object 52 is a three-dimensional pedestrian object 52a
  • the signal object 53 is a three-dimensional signal object 53a
  • the building object 54 is a three-dimensional building object 54a.
  • the three-dimensional vehicle object 51a may switch the three-dimensional object according to the vehicle type described in the vehicle model, or may randomly change the vehicle type, color, and the like for each vehicle.
  • the three-dimensional pedestrian object 52a may be a three-dimensional pedestrian object having a different age, gender, clothes, and color according to the pedestrian type described in the pedestrian model.
  • the three-dimensional signal object 53a may change the number of arrow-type signals according to the connection relationship of each road at the intersection.
  • the height of the three-dimensional building object 54a may be randomly changed, or the texture expressing the color and texture of the appearance may be changed.
  • the drawing area management unit 135 determines a point to install the camera in the three-dimensional simulation space in which the three-dimensional traffic object managed by the three-dimensional object management unit 134 is arranged. Since this embodiment is premised on being applied to automatic driving by an in-vehicle camera of an automobile, a vehicle is selected from three-dimensional vehicle objects managed by the three-dimensional object management unit 134. This selection may be arbitrarily selected by the user or may be randomly selected. Further, when the selected vehicle object is deleted due to arrival at the destination or the like, another vehicle may be automatically selected. Further, a three-dimensional vehicle object that satisfies a specific condition may be selected. The specific condition is, for example, a case where the relative speed with the vehicle in front is less than a predetermined value, a case where a pedestrian is going straight to an intersection crossing a pedestrian crossing, and the like.
  • drawing area management unit 135 determines the camera coordinates relative to the three-dimensional vehicle object 51a.
  • FIG. 8 is a diagram showing an example of the position of the camera with respect to the vehicle in the three-dimensional simulation space according to the first embodiment of the present invention.
  • the drawing area management unit 135 determines the coordinates of the camera 56 relative to the selected three-dimensional vehicle object 51a as shown in FIG. That is, the drawing area management unit 135 simulates the camera image from at least one viewpoint in the three-dimensional simulation space. By doing so, the camera moves according to the movement of the vehicle, so that the in-vehicle camera of the vehicle can be simulated.
  • the drawing area management unit 135 specifies the viewing angle of the camera installed for the selected vehicle, that is, the three-dimensional traffic object that enters the drawing area drawn as an image.
  • the teacher data generation unit 14 is specified by the drawing area management unit 135 of the three-dimensional object generation unit 13, and the image recognition unit of the recognition model generation device 2 is based on the output three-dimensional traffic object in the drawing area.
  • the generated three-dimensional computer graphic that is determined by the area determination unit 118 of the data analysis unit 11 while generating the teacher data necessary for learning the recognition model 221 stored in 22 and the correct answer data of the object to be recognized. Output the target area of the video.
  • a 3D traffic object is filled in according to the type. Generates computer graphics images and meaning information according to the filled color.
  • the teacher data generation unit 14 transmits these generated three-dimensional computer graphics images and correct answer data of the target to be recognized to the recognition model generation device 2 via the communication interface 10 and the communication network 4.
  • the recognition model generation device 2 includes a communication interface 20, a teacher data storage unit 21, an image recognition unit 22, and a recognition model distribution unit 23.
  • the communication interface 20 communicates with the video generator 1 and the vehicle 3 via the communication network 4.
  • the teacher data storage unit 21 stores the teacher data generated by the teacher data generation unit 14 of the video generation device 1.
  • the image recognition unit 22 includes a learning unit 220, a recognition model 221 and a verification unit 222, and based on the teacher data stored in the teacher data storage unit 21, the recognition model 221 is learned by the learning unit 220 and the verification unit 222. Verify.
  • FIG. 9 is a flowchart showing an operation flow of the learning unit 220 according to the first embodiment of the present invention.
  • the learning unit 220 first reads the teacher data stored in the teacher data storage unit 21 in step S201.
  • step S202 the countries or regions corresponding to the recognition model are read in order. For example, if a recognition model is registered for each country, the registered countries will be read in order. A country or region is intended for a driving environment.
  • step S203 it is determined whether or not the country or region read in step S202 and the target country or region registered as teacher data match, and if they match, the process proceeds to step S204, and if they do not match, step S206 Proceed to.
  • step S204 the recognition model of the country or region that matches the target country or region of the teacher data is read.
  • step S205 the recognition model read in step S204 is relearned using the teacher data read in step S201.
  • step S206 it is determined whether or not all the countries or regions included in the recognition model 221 have been checked whether or not they are subject to the teacher data of the teacher data storage unit 21, and if checked, the process ends and the check is performed. If not completed, the process returns to step S202, and steps S202 to S205 are repeated for unchecked countries or regions.
  • the learning unit 220 can respond to a region-specific event by re-learning the recognition model according to the target country or region of the teacher data determined by the region determination unit 118 of the data analysis unit 11.
  • the recognition model can be constructed so as to be.
  • the recognition model distribution unit 23 distributes the recognition model 221 suitable for the vehicle 3.
  • the recognition model 221 may differ depending on the country or region.
  • the recognition model distribution unit 23 distributes the recognition model according to the country or region. For example, we will deliver a recognition model with particularly high animal recognition accuracy for region-specific events such as different models for right-handed countries and left-handed countries, or a herd of crossing road animals often crossing. You may try to do it.
  • the vehicle 3 includes a communication interface 30, a recognition model registration unit 31, an outside world recognition unit 32, a vehicle control unit 33, and a vehicle data collection unit 34, in addition to general vehicle functions (not shown).
  • the vehicle has an automatic driving function, and autonomously controls the traveling of the vehicle according to the surrounding environment of the vehicle 3.
  • the communication interface 30 communicates with the video generator 1 and the recognition model generator via the communication network 4. Specifically, the vehicle data collected by the vehicle data collection unit 34 is transmitted to the image generation device 1, and the recognition model distributed by the recognition model distribution unit 23 of the recognition model generation device 2 is received.
  • the recognition model registration unit 31 registers the recognition model received from the recognition model distribution unit 23 of the recognition model generation device 2 as a vehicle recognition model.
  • the outside world recognition unit 32 recognizes the surrounding environment of the vehicle by means of devices such as LIDAR and sonar in addition to an in-vehicle camera (not shown) mounted on the vehicle.
  • the recognition by the in-vehicle camera is performed by the recognition model registered by the recognition model registration unit 31.
  • the vehicle control unit 33 controls the vehicle running functions such as acceleration / deceleration, stop, and steering of the vehicle based on the recognition result of the surrounding environment of the vehicle 3 by the outside world recognition unit 32.
  • the predetermined conditions are, for example, when the relative speed, relative acceleration, and relative distance to the preceding vehicle are equal to or less than a specific value, or when the steering angular velocity is equal to or more than a specific value. This is to detect when the distance between the vehicle and the preceding vehicle is suddenly reduced or when a pedestrian or an obstacle on the road is avoided with a sudden steering wheel.
  • the image generator according to the present embodiment is similar to the above-mentioned traffic by setting traffic flow simulation and event occurrence parameters so that multiple (many) traffic scenes similar to those in which the vehicle fails to recognize are generated.
  • traffic flow simulation and event occurrence parameters so that multiple (many) traffic scenes similar to those in which the vehicle fails to recognize are generated.
  • the recognition accuracy for the scene where the above vehicle failed to recognize. Is improved. For this reason, even if there is an error in recognition, feedback is given to an unknown event that has never been encountered so far, and multiple (many) similar scenes of the error scene are generated and learned. Therefore, such a scene can be recognized immediately.
  • this embodiment is applied to the automatic driving of a vehicle equipped with an in-vehicle camera, it can also be applied to an autonomous mobile robot or a construction machine equipped with a camera that moves in a specific area. Furthermore, it can be applied to recognition by a surveillance camera that monitors a road.
  • Example 2 of the present invention will be described.
  • teacher data is efficiently generated so as to improve the recognition accuracy of the image recognition model of the recognition model generator.
  • FIG. 10 is a block diagram showing a configuration according to a second embodiment of the present invention. Those having the same name and function as those in FIG. 1 have the same reference numerals as those in FIG. 1, and detailed description of each is omitted. Those with the same name but different internal functions will be described with new codes.
  • the video generation device 1 includes a communication interface 10, a data analysis unit 11, a parameter generation unit 12, a three-dimensional object generation unit 13, a teacher data generation unit 14, a result comparison unit 15, and an error identification unit 16.
  • the other recognition model generator 2, the vehicle 3, and the communication network 4 have the same functions as those in the first embodiment.
  • the result comparison unit 15 outputs the correct answer data of the object to be recognized, that is, the correct answer data of the object to be recognized by the verification unit 222 of the image recognition unit 22 of the recognition model generation device 2, and the three-dimensional object generation unit 13. It is determined whether or not there is a discrepancy in the recognition result for each frame of the three-dimensional computer graphic image.
  • the error identification unit 16 acquires the correct answer data and the recognition result, and the traffic object (three-dimensional object) that could not be recognized from the comparison between the correct answer data and the recognition result. ) And its position in the 3D simulation space.
  • the parameter generation unit 12 adjusts the parameters so that a plurality (many) traffic scenes similar to the recognition error specified by the error identification unit 16 are generated.
  • a plurality (many) of traffic scene images similar to the traffic scene of the image that failed to be recognized at the time of verification of the learning model are generated as teacher data, and therefore a vehicle for learning these.
  • the recognition accuracy of the recognition model can be improved before the recognition model is distributed to 3.
  • the video generator 1 and the recognition model generator 2 communicate with each other via their respective communication interfaces, but these may be executed as two programs in the same device. , These functions may be combined into one program.
  • the present invention is not limited to the above-described examples, and includes various modifications.
  • the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations.
  • it is possible to replace a part of the configuration of one embodiment with the configuration of another embodiment and it is also possible to add the configuration of another embodiment to the configuration of one embodiment.
  • each of the above configurations, functions, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit.
  • each of the above configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function.
  • Information such as programs, tables, and files that realize each function can be stored in a memory, a recording device such as a hard disk or SSD (Solid State Drive), or a recording medium such as an IC card, SD card, or DVD.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本発明は、未知のシーンなどにおける認識に誤りがあったとしても、そのシーンを早急に認識できるように認識モデルを更新する技術を提供することを目的とする。 本発明は、車両に備えられた外界認識部32からのデータに基づき、予め記憶された認識モデルの中から前記外界認識部32で認識された認識モデルに近いモデルを取得し、取得した前記モデルをコンピュータグラフィックス映像で再現するデータ分析部11を備える。データ分析部11は、再現されたコンピュータグラフィックス映像と外界認識部32のデータとを比較して差分を抽出する差分抽出部114と、差分抽出部114で抽出された差分に関する物体を認識する物体認識部116と、物体認識部116で認識された物体を反映したコンピュータグラフィックス映像に作成するシーン再構成部117とを備える。

Description

認識モデル配信システム及び認識モデルの更新方法
 本発明は、認識モデル配信システム及び認識モデルの更新方法に関する。
 現在、自動車の自動運転走行を実現するための技術開発が進められている。車両には、他の車両や歩行者、信号機などのオブジェクトを検出するために、カメラが備えられている。
 車両に備えた車載カメラ画像の画像認識技術においては、深層学習などの機械学習技術を適用する場合がある。機械学習技術を適用する際には、実際に道路を走行したサンプルが必要であるが、例えば雨天や逆光、霧などの過酷な天候条件などを含めた学習に必要なサンプルを抽出するのが困難であった。
 この問題に対して、例えば特許文献1に記載の技術がある。特許文献1には、位置情報で特定された領域(地図上の緯度・経度、方角、視野に基づく風景)をコンピュータグラフィックスで再現したシミュレーション用画像を生成すること、生成されたシミュレーション用画像の中から特定の対象物を、テスト対象又は機械学習対象である認識機能モジュール204aを用いて認識し検出すること、学習部204bは、認識機能モジュール204aに対して、カメラ装置による撮影映像又は仮想的なCG画像を入力することにより、実際には撮影が困難であり、また再現が困難である画像の特徴点を抽出させて、抽出パターンの多様化を図り、学習効率を向上させることが記載されている。
WO2018/066351
 しかしながら、特許文献1に記載の技術においては、認識機能による認識の誤りが想定されていない。例えば、道路を動物の群れが横断するような地域固有の事象や地域固有の標識、これまでに遭遇したことのない未知の事象に対して、認識に誤りがあったとしてもそれをフィードバックする機能を有しておらず、既知のシーンに対する認識性能を向上するという効果に留まるものであった。このため、認識に誤りがあった場合、例えば、交差点、高速走行を行う高速道路、児童や生徒、学生が利用する通学路での安全性を確保するには不十分であった。
 そこで、本発明の目的は、未知のシーンなどにおける認識に誤りがあったとしても、そのシーンを早急に認識できるように認識モデルを更新する技術を提供することにある。
 上記目的を達成するために本発明は、外界を認識する認識モデルを車両に配信する認識モデル配信システムにおいて、複数の認識モデルから前記車両に適した認識モデルを取得し、前記車両に備えられた外界認識部からのデータと比較して取得した前記認識モデルにおける交通シーンの認識失敗箇所を判定し、前記認識モデルに認識失敗箇所を反映して三次元コンピュータグラフィックス映像で作成するデータ分析部と、前記データ分析部で作成された前記三次元コンピュータグラフィックス映像に類似する複数の交通シーンを発生させるためのパラメータを生成するパラメータ生成部と、前記パラメータ生成部で生成したパラメータにより作成した交通流モデルを用いて交通流シミュレーションを実行し、三次元交通オブジェクトを生成する三次元オブジェクト生成部と、前記三次元オブジェクト生成部で生成した三次元交通オブジェクトに基づいて認識モデルの学習に必要な教師データを作成する教師データ生成部と、前記教師データ生成部で生成された教師データに基づいて前記認識モデルの学習を実行する学習部と、前記複数の認識モデルから前記車両に適した認識モデルを配信する認識モデル配信部と、を備えたことを特徴とする。
 本発明によれば、未知のシーンなどにおける認識に誤りがあったとしても、そのシーンを早急に認識できるように認識モデルを更新する技術を提供することができる。
 上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本発明の実施例1に係る構成を示すブロック図である。 本発明の実施例1に係るデータ分析部11の詳細構成を示すブロック図である。 本発明の実施例1に係る映像再現部113におけるよるコンピュータグラフィックス映像での再現例を示す図である。 本発明の実施例1に係る差分抽出部114及びシーン再構成部117における動作例を示す図である。 本発明の実施例1に係る三次元オブジェクト生成部13の詳細構成を示すブロック図である。 本発明の実施例1に係る三次元オブジェクト生成部13おける交通流シミュレーションの処理を示すフローチャートである。 本発明の実施例1に係る交通流シミュレーション実行部132で管理される交通オブジェクトと、三次元オブジェクト管理部134で管理される三次元交通オブジェクトの例を示す図である。 本発明の実施例1に係る三次元シミュレーション空間内での車両に対するカメラの位置の例を示す図である。 本発明の実施例1に係る学習部220の動作の流れを示すフローチャートである。 本発明の実施例2に係る構成を示すブロック図である。
 以下、本発明の実施例について、図面を用いて説明する。
 図1は、本発明の実施例1に係る構成を示すブロック図である。図1では、一例として、車載カメラを搭載した車両において自動運転の認識モデルの学習に適用した例を示している。本実施例の認識モデル配信システムは、映像生成装置1、認識モデル生成装置2から構成されている。そして、認識モデル配信システムで生成された認識モデルは、車両に配信される。
 映像生成装置1、認識モデル生成装置2、車両3は、通信ネットワーク4で接続されており、必要なときに必要な情報を通信を介して送受信する。
 映像生成装置1は、予め設定したパラメータ、またはパラメータ生成部12により生成されたパラメータに基づいて、交通流シミュレーションを実施し、時々刻々の交通流シミュレーションにおいて、特定の車両周辺を三次元オブジェクトで構成し、その車両の三次元オブジェクトに、車載カメラを模擬したカメラを設置したときの映像を再現する。また、映像生成装置1は、通信インターフェース10、データ分析部11、パラメータ生成部12、三次元オブジェクト生成部13、及び教師データ生成部14を備えている。
 データ分析部11は、車両3から送信された車両データを受信する。ここで、車両3から取得するデータは、車両が備える外界認識部32のセンサ、すなわち、カメラやLIDAR(Light Detection and RangingまたはLaser Imaging Detection and Rangingの略)、ソナーなどのセンサのセンサデータと、車両の走行制御にかかわる操作、すなわち、操舵やアクセル、ブレーキの操作量に関するデータ、さらに車両の位置及び向きに関するデータである。
 また、データ分析部11は、認識モデル生成装置2に記憶された複数の認識モデルの中から、車両3の認識モデルと同一のモデルを取得し、認識した結果と同一となるような三次元コンピュータグラフィックス映像を再現し、これを車両3から得た車載カメラ映像と比較して差分を抽出し、差分内に存在する物体を認識して、この映像が影響を受ける国または地域を判定するとともに、再現した三次元コンピュータグラフィクス映像にこの物体を追加して、映像を再構成する。本実施例における再構成とは、差分として抽出された物体を反映して三次元コンピュータグラフィックス映像を作成することを意図するものである。国または地域とは、運転環境を意図するものである。データ分析部11にて抽出された差分は、認識の失敗箇所(誤り)となる。
 次にデータ分析部11の構成について説明する。図2は、本発明の実施例1に係るデータ分析部11の詳細構成を示すブロック図である。
 データ分析部11は、認識モデル取得部110、認識部111、地図データベース112、映像再現部113、差分抽出部114、物体認識モデル115、物体認識部116、シーン再構成部117、及び地域判定部18を備えている。
 認識モデル取得部110は、車両3で用いられる認識モデルと同一の認識モデルを、認識モデル生成装置2に記憶された複数の認識モデルの中から取得する。
 認識部111は、入力された画像に対して、認識結果を返す。入力される画像は、車両3の車載カメラから得られた実映像における各フレームの画像や、映像再現部113で生成される三次元コンピュータグラフィックス映像における各フレームの画像となる。
 地図データベース112は、地図情報が記録されたものであり、車両3から得られる位置情報に基づいて、その周辺の地図情報を提供する。
 映像再現部113は、地図データベース112から提供された車両3の一周辺の地図情報から、三次元の静的な交通オブジェクトを生成し、その中に車両3の向きに合わせて三次元の車両オブジェクトを配置する。さらに、映像再現部113は、車両3から得られた車載カメラの映像を認識部111で認識した結果と同一の認識結果になるように他車両や歩行者などの三次元の交通オブジェクトを配置し、車両の車載カメラを模擬した三次元シミュレーション空間内のカメラで映像を再現する。この映像を認識部111へ入力し、認識結果が車両3の認識結果と近くなるまで三次元交通オブジェクトの配置や、三次元シミュレーション空間内の天候や日差しを調整する。
 映像再現部113の再現例について、図3を用いて説明する。図3は、本発明の実施例1に係る映像再現部113におけるよる三次元コンピュータグラフィックス映像での再現例を示す図である。
 図3において、113aは、車両3の車載カメラ(外界認識部32)から得られた映像の一コマである。この画像には、車両a1及び車両a2が映っており、車両a2は塀により一部が隠れている。113bは、画像113aを認識部111で認識した結果である。
113bにおける枠b1は、車両a1を認識したことを示している。一方で、車両a2には枠が示されておらず、車両a2を認識していないことを意味する。すなわち、車両a2は認識の失敗箇所である。この時、映像再現部113では、認識部111による認識結果が113bに類似するように三次元の交通オブジェクトを配置する。すなわち、113dのような認識結果となるように、車両c1が存在するような三次元コンピュータグラフィックス画像113cが再現される。
 図2に戻り、データ分析部11を説明する。差分抽出部114では、認識部111での認識結果に基づいて映像再現部113で再現され三次元コンピュータグラフィック画像と、車両3の車載カメラ(外界認識部32)から得られた映像とを比較し、差分となる部分を抽出する。すなわち、差分抽出部114は認識の失敗箇所を判定する。
 物体認識部116は、差分抽出部114で抽出された車両3による映像とコンピュータグラフィックスで再現された映像における各フレームの差分の画像に対して、物体認識モデル115に登録された物体認識モデルを使って物体認識を行う。
 シーン再構成部117は、映像再現部113で再現された車両3の車載カメラ映像に対する類似交通シーンに対して、物体認識部116で認識された物体に相当する三次元オブジェクトを車載カメラ映像に相当する位置へ配置し、三次元シミュレーション空間を再構成する。
 差分抽出部114及びシーン再構成部117の動作例について、図4を用いて説明する。図4は、本発明の実施例1に係る差分抽出部114及びシーン再構成部117における動作例を示す図である。
 車両3の車載カメラから得られた映像の一コマである映像113aと、映像再現部113で再現されたコンピュータグラフィックス画像113cの比較により、差分画像114aが抽出される。この差分画像114aから、物体認識モデルにより車両であることを認識し、再現されたコンピュータグラフィックス画像113cでの三次元交通オブジェクトの配置に、車両a2に相当する車両c2を配置して再構成する。その結果、シーン再構成部117では、画像117cに示すような車両c2が配置された再構成後のコンピュータグラフィックス画像が生成される。
 なお、図4では、車載カメラ映像と、再現映像の認識結果が一致するように三次元シミュレーション空間で三次元交通オブジェクトを調整しているが、認識モデルが多層のCNN(Convolutional Neural Network、畳み込みニューラルネットワーク)として実装されているとき、中間層における特徴マップの結果をさらに比較するようにしても良い。この比較により、車載カメラ映像において認識の誤りの原因箇所をより詳細に特定できる場合がある。
 地域判定部118は、物体認識部116による物体認識結果に基づいて、車両3の認識モデル登録部31に登録された認識モデルでは認識できなかった物体が影響を受ける国や地域を判定する。国や地域とは運転環境を意図している。例えば、道路標識を認識できなかった場合に、その道路標識が用いられる国や地域を判定し、その結果を教師データ生成部14に出力する。
 次に、図1に戻って映像生成装置1の続きを説明する。パラメータ生成部12は、データ分析部11により再構成された三次元コンピュータグラフィックス映像と類似する交通シーンを複数(多く)発生させるための教師データ生成のパラメータを生成する。ここで生成するパラメータは、例えば、交通流シミュレーションを実行するエリアのパラメータ、車両の速度分布や発生確率を調整するパラメータ、歩行者の速度分布や発生確率を調整するパラメータのほか、歩行者の道路への飛び出しなどのイベントの発生確率を調整するパラメータである。具体的に、本実施例のパラメータ生成部12では、先行車両の前に歩行者が飛び出したことを検出できず、先行車両とともに急停止となった時に、車両の発生確率及び人の飛び出しによるイベントの発生確率を高め、類似のシーンを生成しやすくすることができる。
 次に三次元オブジェクト生成部13の構成について説明する。図5は、本発明の実施例1に係る三次元オブジェクト生成部13の詳細構成を示すブロック図である。
 三次元オブジェクト生成部13は、パラメータ登録部130、交通流モデル生成部131、交通流シミュレーション実行部132、イベント管理部133、三次元オブジェクト管理部134、描画領域管理部135を備えている。
 パラメータ登録部130は、予め設定したパラメータ、またはパラメータ生成部12により生成されたパラメータを、映像生成に必要なパラメータとして登録する。
 交通流モデル生成部131は、パラメータ生成部12により生成され、パラメータ登録部130に登録されたパラメータに基づいて、交通流シミュレーションに必要な交通流モデルを生成する。ここで、交通流モデルとは、道路ネットワークモデル(道路の長さや幅、種別、車線数方向、接続関係、車種ごとの走行可否などを含めた道路全体のネットワーク情報)、車両モデル(車種毎の平均速度や車両毎の経路、発生時刻などの情報)、歩行者モデル(歩行者種別毎の平均速度や歩行者毎の経路、発生時刻などの情報)、信号モデル(信号と交差点との紐づけや、点灯時間、点灯パターンなどの情報)、その他オブジェクトモデル(建築物や公園の領域や、樹木の位置などの情報)を意味する。
 交通流シミュレーション実行部132は、交通流モデル生成部131で生成した交通流モデルに基づいて、交通流のミクロシミュレーションを実行する。すなわち、交通流シミュレーションの各シミュレーションステップにおける、シミュレーション空間内の全ての動的な交通オブジェクトについて、生成、更新、消去を行う。例えば、地点1から地点2へ移動する車両Aが時刻T1に発生するとき、時刻T1において地点1で車両Aを交通オブジェクトとして生成し、地点2へ到着するまでの間、他車両や歩行者、信号の影響を受けながら車両Aのオブジェクトの位置が更新され、地点2に到着すると車両Aのオブジェクトは消去される。
 イベント管理部133は、パラメータ生成部12により生成され、パラメータ登録部130に登録されたパラメータに基づいて、交通流シミュレーション実行部132における交通流シミュレーション中のイベント発生を管理する。ここで管理されるイベントは、例えば、天候を変更する、時刻に応じて日差しの入り方を変更する、時刻T1に歩行者が横断歩道のない道路を横断する、などがある。
 三次元オブジェクト管理部134は、交通流シミュレーション実行部132で実行される交通流シミュレーション空間の全ての交通オブジェクト及びイベント管理部133で管理される全ての交通オブジェクトを、三次元オブジェクトとして管理する。例えば、交通流モデル生成部131で生成された道路モデルから三次元の道路オブジェクト、信号モデルから三次元の信号オブジェクトを生成して管理し、交通流シミュレーション実行部132で実行される車両オブジェクトを三次元の車両オブジェクト、歩行者オブジェクトを三次元の歩行者オブジェクトとして管理する。本実施例の三次元オブジェクトにおいて、三次元の道路オブジェクト、三次元の信号オブジェクト、三次元の車両オブジェクト、三次元の歩行者オブジェクトを、三次元交通オブジェクトと称する。
 次に、三次元オブジェクト生成部13おける交通流シミュレーションの処理について、図6を用いて説明する。図6は、本発明の実施例1に係る三次元オブジェクト生成部13おける交通流シミュレーションの処理を示すフローチャートである。
 三次元オブジェクト生成部13では、まずステップS101において、登録されたパラメータに基づいて交通流モデルを生成する。
 ステップS102では、ステップS101で生成された交通流モデルのうち、道路ネットワークモデルやその他オブジェクトモデルなどの静的な交通オブジェクトに関するモデルに基づいて、三次元のシミュレーション空間を構築する。
 ステップS103では、交通流モデルに基づいて交通流シミュレーションを開始する。
 ステップS104では、交通流シミュレーションの時刻ステップを進める。
 ステップS105では、登録されたパラメータに基づくイベントが当該の時刻ステップで発生するか否かを判定し、発生する場合はステップS106、発生しない場合はステップS107へ進む。
 ステップS106では、イベントに対応した三次元交通オブジェクトを生成し、三次元シミュレーション空間に配置する。
 ステップS107では、交通流シミュレーションにおける動的な交通オブジェクトのリストを取得する。
 ステップS108では、前の時刻ステップで取得した交通オブジェクトのリストと、当該時刻ステップで取得した交通オブジェクトのリストを比較する。
 ステップS109では、比較の結果、動的な交通オブジェクトが新規発生したか否かを判定し、発生した場合はS110へ、発生していない場合はS111へ進む。
 ステップS110では、新規に発生した動的な交通オブジェクトに対応する三次元交通オブジェクトを生成し、三次元シミュレーション空間に配置する。
 ステップS111では、比較の結果、動的交通オブジェクトが消滅したか否かを判定し、消滅した場合はステップS112、消滅していない場合はステップS113へ進む。
 ステップS112では、消滅した動的な交通オブジェクトに対応する三次元交通オブジェクトを、三次元シミュレーション空間から削除する。
 ステップS113では、前の時刻ステップから存在が継続している交通オブジェクトに対して、対応する三次元交通オブジェクトの位置、向きを、三次元シミュレーション空間で更新する。
 ステップS114では、交通流シミュレーションが終了したか否かを判定し、終了していない場合はステップS104に戻り、時刻ステップを進めて上記の処理を繰り返す。ここで、交通流シミュレーションが終了したか否かの判定には、予め設定したシミュレーションステップ数に到達したか否かの判定か、すべての動的な交通オブジェクトが目的地に到達したか否かの判定を用いる。
 上記のフローチャートに従うことにより、本実施例では、交通流シミュレーションで実行される二次元のシミュレーション空間から三次元オブジェクトによる三次元シミュレーション空間で再現することができる。
 次に、三次元交通オブジェクトについて図7を用いて説明する。図7は、本発明の実施例1に係る交通流シミュレーション実行部132で管理される交通オブジェクトと、三次元オブジェクト管理部134で管理される三次元交通オブジェクトの例を示す図である。
 図7において、50は交通流シミュレーション実行部132で管理する二次元のシミュレーション空間の一部を切り取ったものであり、51は車両オブジェクト、52は歩行者オブジェクト、53は信号機オブジェクト、54は建築物オブジェクトである。また、55は道路に引かれたセンターラインや横断歩道、路肩などを示す白線である。
 三次元オブジェクト管理部134は、このような二次元の交通オブジェクトから、三次元の交通オブジェクトを生成・更新・消去などの管理を実行する。具体的には車両オブジェクト51は三次元車両オブジェクト51a、歩行者オブジェクト52は三次元歩行者オブジェクト52a、信号オブジェクト53は三次元信号オブジェクト53a、建築物オブジェクト54は三次元建築物オブジェクト54aのように、それぞれの二次元交通オブジェクトに対応する三次元交通オブジェクトを管理する。
 三次元車両オブジェクト51aは、車両モデルに記述された車種に応じて三次元オブジェクトを切り替えるようにしても良いし、車両毎に車種や色などをランダムに変更するようにしても良い。
 三次元歩行者オブジェクト52aは、歩行者モデルに記述された歩行者種別に応じて、年齢や性別、服装や色の異なる三次元歩行者オブジェクトにするようにしても良い。
 三次元信号オブジェクト53aは、交差点における各道路の接続関係に応じて、矢印式の信号の数を変更するようにしても良い。
 三次元建築物オブジェクト54aは、高さをランダムに変更したり、外観の色や質感を表現するテクスチャなどを変更しても良い。
 図5において、描画領域管理部135は、三次元オブジェクト管理部134で管理される三次元の交通オブジェクトが配置される三次元のシミュレーション空間内に、カメラを設置する点を決定する。本実施例では、自動車の車載カメラによる自動運転に適用することを前提としているため、車両を三次元オブジェクト管理部134にて管理される三次元車両オブジェクトから選択する。この選択は、ユーザーが任意に選択しても良いし、ランダムに選択しても良い。また、選択されていた車両オブジェクトが目的地への到達などにより削除された場合は、自動的に別の車両を選択するようにしても良い。さらに、特定の条件を満たす三次元車両オブジェクトを選択するようにしても良い。特定の条件とは、例えば、前方車両との相対速度が所定の値を下回る場合や、歩行者が横断歩道を横断中の交差点に直進している場合などである。
 また、描画領域管理部135では、三次元車両オブジェクト51aに対して相対的なカメラ座標を決定する。
 図8は、本発明の実施例1に係る三次元シミュレーション空間内での車両に対するカメラの位置の例を示す図である。
 描画領域管理部135は、車両オブジェクト選択後、図8のように選択した三次元車両オブジェクト51aに対して相対的なカメラ56の座標を決定する。
すなわち、描画領域管理部135は三次元シミュレーション空間内の少なくとも一つの視点からのカメラ映像を模擬するようにする。こうすることで、車両の移動に応じて、カメラも移動するため、車両の車載カメラを模擬することができる。
 さらに、描画領域管理部135では、選択した車両に対して設置したカメラの視野角、すなわち、映像として描画される描画領域に入る三次元交通オブジェクトを特定する。
 次に、図1に戻り、再び映像生成装置1の構成を説明する。図1において、教師データ生成部14は三次元オブジェクト生成部13の描画領域管理部135で特定され、出力された描画領域内の三次元交通オブジェクトに基づいて、認識モデル生成装置2の画像認識部22に記憶される認識モデル221の学習に必要な教師データと、認識すべき対象の正解データを生成すると共に、データ分析部11の地域判定部118で判定された、生成された三次元コンピュータグラフィックス映像の対象地域を出力する。
 例えば、映像の各フレームについて、各ピクセル単位でカテゴリ分類するセマンティックセグメンテーションを行うモデルの場合は、通常の三次元コンピュータグラフィックス映像に加えて、三次元交通オブジェクトをその種類に合わせて塗りつぶした三次元コンピュータグラフィックス映像、及び塗りつぶした色に応じた意味づけ情報を生成する。
 また、映像の各フレームについて、物体認識を行うモデルの場合は、通常の三次元コンピュータグラフィックス映像に加えて、各オブジェクトの画像上の領域およびオブジェクトの種類を示す情報を生成する。
 さらに、映像の各フレームについて、画像の意味する交通シーンなどの分類を行うモデルの場合は、通常の三次元コンピュータグラフィックス映像に加えて、三次元オブジェクトで表現されるシーンの分類を示す情報を生成する。
 教師データ生成部14は、これらの生成した三次元コンピュータグラフィックス映像及び認識すべき対象の正解データを、通信インターフェース10及び通信ネットワーク4を介して認識モデル生成装置2へ送信する。
 次に、認識モデル生成装置2の構成について説明する。図1において、認識モデル生成装置2は、通信インターフェース20、教師データ記憶部21、画像認識部22、及び認識モデル配信部23を備えている。
 通信インターフェース20は、通信ネットワーク4を介して映像生成装置1や車両3と通信する。
 教師データ記憶部21は、映像生成装置1の教師データ生成部14で生成された教師データを記憶する。
 画像認識部22は、学習部220、認識モデル221、検証部222を備え、教師データ記憶部21に記憶された教師データに基づいて、認識モデル221を学習部220で学習、及び検証部222で検証する。
 次に学習部220の動作について、図9を用いて説明する。図9は、本発明の実施例1に係る学習部220の動作の流れを示すフローチャートである。
 学習部220では、まずステップS201において、教師データ記憶部21に記憶された教師データを読み込む。
 ステップS202では、認識モデルに対応する国または地域を順に読み込む。例えば、国ごとに認識モデルが登録されている場合、登録された国を順に読み込むことになる。国または地域とは、運転環境を意図するものである。
 ステップS203では、ステップS202で読み込んだ国または地域と、教師データとして登録された対象の国または地域が一致するか否かを判定し、一致する場合はステップS204へ進み、一致しない場合はステップS206へ進む。
 ステップS204では、教師データの対象国または地域と一致する国または地域の認識モデルを読み込む。
 ステップS205では、ステップS204で読み込んだ認識モデルを、ステップS201で読み込んだ教師データを用いて再学習する。
 ステップS206では、認識モデル221が備えている全ての国または地域について、教師データ記憶部21の教師データの対象となるかをチェックしたか否かを判定し、チェック済みの場合は終了し、チェック済みでない場合はステップS202に戻り、未チェックの国または地域についてステップS202からステップS205を繰り返す。
 上記のように学習部220では、データ分析部11の地域判定部118で判定された教師データの対象国または地域に応じて、認識モデルを再学習させることにより、地域固有の事象に対応可能となるように認識モデルを構築することができる。
 認識モデル配信部23は、認識モデル221のうち車両3に適したものを配信する。
 認識モデル生成装置2において、認識モデル221は国や地域によって異なるものであってもよい。この場合、認識モデル配信部23は、国や地域に応じた認識モデルを配信する。例えば、右側通行の国と左側通行の国で異なるモデルとしたり、道路横断動物の群れが横断するようなことが多いといった地域固有の事象に対して、動物の認識精度が特に高い認識モデルを配信するようにしてもよい。
 次に、車両3にについて説明する。車両3は、図示しない一般的な自動車の機能に加え、通信インターフェース30、認識モデル登録部31、外界認識部32、車両制御部33、車両データ収集部34を備えている。なお、本実施例では、この車両は自動運転機能を有しており、車両3の周辺環境に応じて自律的に車両を走行制御する。
 通信インターフェース30は、通信ネットワーク4を介して映像生成装置1や認識モデル生成装置と通信する。具体的には、車両データ収集部34で収集した車両データを映像生成装置1へ送信したり、認識モデル生成装置2の認識モデル配信部23により配信された認識モデルを受信する。
 認識モデル登録部31は、認識モデル生成装置2の認識モデル配信部23から受信した認識モデルを、車両の認識モデルとして登録する。
 外界認識部32は、車両に搭載された図示しない車載カメラに加え、LIDARやソナーといった装置により、車両の周辺環境を認識する。車載カメラによる認識は、認識モデル登録部31で登録された認識モデルによる認識を行う。
 車両制御部33は、外界認識部32による車両3の周辺環境の認識結果に基づいて車両の加減速、停止、操舵といった車両の走行機能を制御する。
 車両データ収集部34は、予め定めた条件を満たす時に、車両制御部33による車両の走行制御の操作両情報及び外界認識部32による外界認識部のセンサ情報、すなわち、車載カメラの映像データや、LIDARの距離情報、ソナーの受信信号等のほか、車両の位置及び向きに関する情報、車体番号などの車両を特定するための情報を収集する。ここで、予め定めた条件は、例えば、先行車両との相対速度や相対加速度、相対距離が特定の値以下となったときや、操舵角速度が特定の値以上となった場合などであり、これは、先行車両との車間距離が急に詰まった場合や路上の歩行者や障害物を急ハンドルで回避した場合を検出するためである。
 本実施例による映像生成装置は、車両が認識に失敗したものと類似の複数(多く)交通シーンが生成されるように交通流シミュレーション、及びイベント発生のパラメータを設定することにより、上記類似の交通シーンが複数(多く)発生し、このシーンを三次元コンピュータグラフィックス映像で再現し、教師データとして画像認識を行うための認識モデルに学習させるため、上記の車両が認識に失敗したシーンに対する認識精度が向上する。このため、これまでに遭遇したことのない未知の事象に対して、認識に誤りがあったとしてもそれをフィードバックして、誤りのあったシーンの類似シーンを複数(多く)生成して学習させるため、このようなシーンを早急に認識できるようなる。
 なお、本実施例では車載カメラを搭載した車両の自動運転に適用しているが、特定のエリアを移動する、カメラを搭載した自律移動ロボットや建設機械にも適用できる。さらに、道路を監視する監視カメラでの認識に適用することができる。
 次に本発明の実施例2について説明する。本実施例は、認識モデル生成装置の画像認識モデルの認識精度を高めるように教師データを効率よく生成するものである。
 図10は、本発明の実施例2に係る構成を示すブロック図である。図1と同じ名称及び機能のものは、図1と同じ符号とし、個々の詳細な説明を省略する。名称が同じであっても内部の機能が異なるものについては、新たな符号とし、説明する。
 映像生成装置1は、通信インターフェース10、データ分析部11、パラメータ生成部12、三次元オブジェクト生成部13、教師データ生成部14、結果比較部15、誤り特定部16を備えている。その他の認識モデル生成装置2、車両3、通信ネットワーク4は実施例1と同じ機能を持つ。
 結果比較部15は、認識モデル生成装置2の画像認識部22における検証部222において、認識に誤りがあったもの、すなわち、認識すべき対象の正解データと、三次元オブジェクト生成部13から出力される三次元コンピュータグラフィック映像の各フレームに対する認識結果に乖離があるか否かを判定する。
 誤り特定部16は、結果比較部15で乖離があると判定されたときに、正解データ、及び認識結果を取得し、正解データと認識結果の比較から、認識できなかった交通オブジェクト(三次元オブジェクト)の種類や三次元シミュレーション空間上の位置を特定する。
 パラメータ生成部12は、誤り特定部16で特定された認識の誤りと類似する交通シーンが複数(多く)生成されるように、パラメータを調整する。
 以上の構成により、実施例2によれば、学習モデルの検証時に認識に失敗した画像の交通シーンとの類似の交通シーン映像が教師データとして複数(多く)生成されるため、これらを学習する車両3への認識モデルの配信前に認識モデルの認識精度を高めることができる。
 実施例1及び実施例2において、映像生成装置1及び認識モデル生成装置2は、それぞれの通信インターフェースを介して通信しているが、これらを同じ装置内の二つのプログラムとして実行しても良いし、これらの機能をまとめて一つのプログラムとしてもよい。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。
例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。 
1…映像生成装置、2…認識モデル生成装置、13…三次元オブジェクト生成部、14…教師データ生成部、11…データ分析部、12…パラメータ生成部、22…画像認識部、113…映像再現部、114…差分抽出部、117…シーン再構成部、131…交通流モデル生成部、132…交通流シミュレーション実行部、133…イベント管理部、134…三次元オブジェクト管理部、135…描画領域管理部

Claims (10)

  1.  外界を認識する認識モデルを車両に配信する認識モデル配信システムにおいて、
     複数の認識モデルから前記車両に適した認識モデルを取得し、前記車両に備えられた外界認識部からのデータと比較して取得した前記認識モデルにおける交通シーンの認識失敗箇所を判定し、取得した前記認識モデルに認識失敗箇所を反映して三次元コンピュータグラフィックス映像で作成するデータ分析部と、
     前記データ分析部で作成された前記三次元コンピュータグラフィックス映像に類似する複数の交通シーンを発生させるためのパラメータを生成するパラメータ生成部と、
     前記パラメータ生成部で生成したパラメータにより作成した交通流モデルを用いて交通流シミュレーションを実行し、三次元交通オブジェクトを生成する三次元オブジェクト生成部と、
     前記三次元オブジェクト生成部で生成した三次元交通オブジェクトに基づいて認識モデルの学習に必要な教師データを作成する教師データ生成部と、
     前記教師データ生成部で生成された教師データに基づいて認識モデルの学習を実行する学習部と、
     前記複数の認識モデルから前記車両に適した認識モデルを配信する認識モデル配信部と、を備えたことを特徴とする認識モデル配信システム。
  2.  請求項1において、
     前記データ分析部は、
     前記外界認識部で認識された認識モデルに近いモデルを三次元コンピュータグラフィックス映像で再現し、再現された前記三次元コンピュータグラフィックス映像と前記外界認識部のデータとを比較して差分を抽出する差分抽出部と、前記差分抽出部で抽出された差分に関する物体を認識する物体認識部と、前記物体認識部で認識された物体を前記三次元コンピュータグラフィックス映像に作成するシーン再構成部とを備えたことを特徴とする認識モデル配信システム。
  3.  請求項2において、
     前記外界認識部は少なくともカメラを備えていることを特徴とする認識モデル配信システム。
  4.  請求項3において、
     前記パラメータ生成部は、
     前記データ分析部にて作成された前記三次元コンピュータグラフィックス映像に類似する複数の交通シーンを発生させるように、交通流シミュレーションのパラメータ及びイベントのパラメータを生成することを特徴とする認識モデル配信システム。
  5.  請求項4において、
     前記三次元オブジェクト生成部は、
     交通流シミュレーションで実行される二次元の交通流シミュレーション空間から三次元オブジェクトによる三次元シミュレーション空間を再現し、前記三次元シミュレーション空間内の少なくとも一つの視点からのカメラ映像を模擬する際の三次元オブジェクト及び三次元コンピュータグラフィックス映像を生成することを特徴とする認識モデル配信システム。
  6.  請求項5において、
     前記教師データ生成部は、
     認識すべき対象の正解データを生成することを特徴とする認識モデル配信システム。
  7.  請求項6において、
     前記物体認識部で認識された物体が影響を受ける国や地域を判定する地域判定部を備えたことを特徴とする認識モデル配信システム。
  8.  請求項5乃至7の何れか1項において、
     前記三次元オブジェクト生成部は、
     前記パラメータ生成部により生成されたパラメータに基づいて、交通流シミュレーションに必要なモデルを生成する交通流モデル生成部と、
     前記交通流モデル生成部により生成された交通流モデルに基づいて交通流シミュレーションを実行する交通流シミュレーション実行部と、
    前記パラメータ生成部により生成されたパラメータに基づいて、交通流シミュレーション中のイベントの発生を管理するイベント管理部と、
     前記交通流シミュレーション実行部で実行される交通流シミュレーション空間における交通オブジェクト及び前記イベント管理部で管理される交通オブジェクトを、三次元オブジェクトとして管理する三次元オブジェクト管理部と、
     前記三次元オブジェクト管理部により管理される前記三次元オブジェクトの中から、三次元シミュレーション内の少なくとも一つの視点からのカメラ映像を模擬する際に必要な三次元オブジェクトを特定する描画領域管理部と、
    を備えたことを特徴とする認識モデル配信システム。
  9.  請求項6において、
     認識すべき前記正解データと、前記三次元オブジェクト生成部から出力される前記三次元コンピュータグラフィックス映像の認識結果に乖離があるか否かを判定する結果比較部と、
     前記結果比較部で乖離があると判定されたときに、前記正解データ及び前記認識結果を取得し、認識できなかった三次元オブジェクトの種類を特定する誤り特定部とを備えたことを特徴とする認識モデル配信システム。
  10.  車両に備えられた外界認識部からのデータに基づき、予め記憶された認識モデルの中から前記前記外界認識部で認識された認識モデルに近いモデルを取得し、取得した前記モデルをコンピュータグラフィックス映像で再現する認識モデルの更新方法であって、
     再現された前記コンピュータグラフィックス映像と前記外界認識部のデータとを比較して差分を抽出し、抽出した差分に関する物体を前記コンピュータグラフィックス映像に構成して前記認識モデルの学習を実行し、前記認識モデルを更新することを特徴とする認識モデルの更新方法。
PCT/JP2020/005253 2019-09-10 2020-02-12 認識モデル配信システム及び認識モデルの更新方法 WO2021049062A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/638,571 US20220406041A1 (en) 2019-09-10 2020-02-12 Recognition model distribution system and updating method of recognition model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019164248A JP7414434B2 (ja) 2019-09-10 2019-09-10 認識モデル配信システム及び認識モデルの更新方法
JP2019-164248 2019-09-10

Publications (1)

Publication Number Publication Date
WO2021049062A1 true WO2021049062A1 (ja) 2021-03-18

Family

ID=74861693

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/005253 WO2021049062A1 (ja) 2019-09-10 2020-02-12 認識モデル配信システム及び認識モデルの更新方法

Country Status (3)

Country Link
US (1) US20220406041A1 (ja)
JP (1) JP7414434B2 (ja)
WO (1) WO2021049062A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4350637A1 (en) * 2021-05-31 2024-04-10 Sony Semiconductor Solutions Corporation Information processing device, information processing method, and program
WO2024084552A1 (ja) * 2022-10-17 2024-04-25 日立Astemo株式会社 情報処理装置、及び情報処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157277A1 (ja) * 2015-03-27 2016-10-06 株式会社日立製作所 走行環境抽象化映像作成方法及び装置
JP2017151973A (ja) * 2016-02-23 2017-08-31 ゼロックス コーポレイションXerox Corporation 現実世界の映像分析性能を評価するための仮想世界の生成
WO2017171005A1 (ja) * 2016-04-01 2017-10-05 株式会社wise 3dグラフィック生成、人工知能の検証・学習システム、プログラム及び方法
WO2018066351A1 (ja) * 2016-10-06 2018-04-12 株式会社アドバンスド・データ・コントロールズ シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157277A1 (ja) * 2015-03-27 2016-10-06 株式会社日立製作所 走行環境抽象化映像作成方法及び装置
JP2017151973A (ja) * 2016-02-23 2017-08-31 ゼロックス コーポレイションXerox Corporation 現実世界の映像分析性能を評価するための仮想世界の生成
WO2017171005A1 (ja) * 2016-04-01 2017-10-05 株式会社wise 3dグラフィック生成、人工知能の検証・学習システム、プログラム及び方法
WO2018066351A1 (ja) * 2016-10-06 2018-04-12 株式会社アドバンスド・データ・コントロールズ シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法

Also Published As

Publication number Publication date
JP7414434B2 (ja) 2024-01-16
US20220406041A1 (en) 2022-12-22
JP2021043622A (ja) 2021-03-18

Similar Documents

Publication Publication Date Title
US11521009B2 (en) Automatically generating training data for a lidar using simulated vehicles in virtual space
US11150660B1 (en) Scenario editor and simulator
CN110103983A (zh) 用于端对端自主车辆验证的系统和方法
US11899748B2 (en) System, method, and apparatus for a neural network model for a vehicle
US20230150529A1 (en) Dynamic sensor data augmentation via deep learning loop
CN111874006A (zh) 路线规划处理方法和装置
US20220198107A1 (en) Simulations for evaluating driving behaviors of autonomous vehicles
US11628850B2 (en) System for generating generalized simulation scenarios
US20210004608A1 (en) Vehicle image generation
CN116685874A (zh) 摄像机-激光雷达融合对象检测系统和方法
US20220318464A1 (en) Machine Learning Data Augmentation for Simulation
CN111752258A (zh) 自主车辆的操作测试
US11415997B1 (en) Autonomous driving simulations based on virtual simulation log data
WO2021049062A1 (ja) 認識モデル配信システム及び認識モデルの更新方法
US20220204009A1 (en) Simulations of sensor behavior in an autonomous vehicle
CN116830164A (zh) LiDAR去相关对象检测系统与方法
CN112035951A (zh) 一种用于自动驾驶算法验证的仿真平台及仿真方法
US20230150549A1 (en) Hybrid log simulated driving
Guvenc et al. Simulation Environment for Safety Assessment of CEAV Deployment in Linden
EP4302165A1 (en) Instantiating objects in a simulated environment based on log data
US20230311932A1 (en) Merging object and background radar data for autonomous driving simulations
US20230196619A1 (en) Validation of virtual camera models
Viswanath et al. Virtual simulation platforms for automated driving: Key care-about and usage model
Patel A simulation environment with reduced reality gap for testing autonomous vehicles
Klette et al. Vision-based driver assistance systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20863291

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20863291

Country of ref document: EP

Kind code of ref document: A1