WO2022024803A1 - 学習モデルの生成方法、情報処理装置、情報処理システム - Google Patents

学習モデルの生成方法、情報処理装置、情報処理システム Download PDF

Info

Publication number
WO2022024803A1
WO2022024803A1 PCT/JP2021/026739 JP2021026739W WO2022024803A1 WO 2022024803 A1 WO2022024803 A1 WO 2022024803A1 JP 2021026739 W JP2021026739 W JP 2021026739W WO 2022024803 A1 WO2022024803 A1 WO 2022024803A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
recognition
learning model
frame
recognizer
Prior art date
Application number
PCT/JP2021/026739
Other languages
English (en)
French (fr)
Inventor
祐輝 山本
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2022540181A priority Critical patent/JPWO2022024803A1/ja
Priority to US18/005,902 priority patent/US20230289980A1/en
Publication of WO2022024803A1 publication Critical patent/WO2022024803A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Definitions

  • the present technology relates to a learning model generation method, an information processing device, and an information processing system. Regarding.
  • Patent Document 1 proposes a technique for continuously detecting the same person even in a situation where the face swings up / down / left / right or the size of the face changes for each frame.
  • This technology was made in view of such a situation, and makes it possible to improve the performance of the recognizer.
  • an object recognized by a recognition process using a recognizer to which a learning model that performs a learning process for input data is applied is reversed in time series. Tracking in the direction, the learning model is retrained using the data generated based on the result of the tracking.
  • the information processing apparatus on one aspect of the present technology tracks an object recognized by recognition processing using a recognizer in the opposite direction in chronological order, and is generated based on the tracking result.
  • a re-learning unit for re-learning the learning model of the recognizer based on the learning data for re-learning the recognizer is provided.
  • the information processing system of one aspect of the present technology includes a recognition processing unit that performs recognition processing using a recognizer to which a learning model that performs recognition processing is applied to input data, and a recognition result recognized by the recognition processing unit.
  • a recognition processing unit that performs recognition processing using a recognizer to which a learning model that performs recognition processing is applied to input data, and a recognition result recognized by the recognition processing unit.
  • an extraction unit that extracts recognition results that meet a predetermined criterion
  • a tracking unit that tracks the object in the opposite direction in chronological order, using the recognition result extracted by the extraction unit as an object.
  • a labeling unit that assigns a label to the object tracked by the tracking unit, a re-learning unit that relearns the learning model using the label assigned by the labeling unit, and the re-learning unit.
  • the learning model relearned by the unit includes an update unit that updates the recognizer of the recognition processing unit.
  • the object recognized by the recognition process using the recognizer to which the learning model that performs the recognition process is applied to the input data is reversed in time series.
  • the training model is retrained using the data that is tracked in the direction of and generated based on the results of the tracking.
  • the object recognized by the recognition process using the recognizer is tracked in the opposite direction in time series, and the recognition is generated based on the tracking result.
  • the learning model of the recognizer is retrained based on the training data for retraining the vessel.
  • recognition processing is performed using a recognizer to which a learning model that performs recognition processing is applied to input data, and among the recognized recognition results, a predetermined criterion is satisfied.
  • the recognition result is extracted, the extracted recognition result is set as the object, the object is tracked in the opposite direction in chronological order, the tracked object is labeled, and the assigned label is used.
  • the learning model is retrained, and the recognizer is updated with the retrained learning model.
  • the information processing device may be an independent device or an internal block constituting one device.
  • FIG. 1 is a block diagram showing a configuration example of a vehicle control system 11 which is an example of a mobile device control system to which the present technology is applied.
  • the vehicle control system 11 is provided in the vehicle 1 and performs processing related to driving support and automatic driving of the vehicle 1.
  • the vehicle control system 11 includes a processor 21, a communication unit 22, a map information storage unit 23, a GNSS (Global Navigation Satellite System) receiving unit 24, an external recognition sensor 25, an in-vehicle sensor 26, a vehicle sensor 27, a recording unit 28, and a driving support unit. It includes an automatic driving control unit 29, a DMS (Driver Monitoring System) 30, an HMI (Human Machine Interface) 31, and a vehicle control unit 32.
  • a processor 21 includes a processor 21, a communication unit 22, a map information storage unit 23, a GNSS (Global Navigation Satellite System) receiving unit 24, an external recognition sensor 25, an in-vehicle sensor 26, a vehicle sensor 27, a recording unit 28, and a driving support unit. It includes an automatic driving control unit 29, a DMS (Driver Monitoring System) 30, an HMI (Human Machine Interface) 31, and a vehicle control unit 32.
  • DMS Driver Monitoring System
  • HMI Human Machine Interface
  • the communication network 41 is an in-vehicle communication network compliant with any standard such as CAN (Controller Area Network), LIN (Local Interconnect Network), LAN (Local Area Network), FlexRay (registered trademark), and Ethernet (registered trademark). It is composed of buses and buses.
  • each part of the vehicle control system 11 may be directly connected by, for example, short-range wireless communication (NFC (Near Field Communication)), Bluetooth (registered trademark), or the like without going through the communication network 41.
  • NFC Near Field Communication
  • Bluetooth registered trademark
  • the description of the communication network 41 shall be omitted.
  • the processor 21 and the communication unit 22 communicate with each other via the communication network 41, it is described that the processor 21 and the communication unit 22 simply communicate with each other.
  • the processor 21 is composed of various processors such as a CPU (Central Processing Unit), an MPU (Micro Processing Unit), and an ECU (Electronic Control Unit), for example.
  • the processor 21 controls the entire vehicle control system 11.
  • the communication unit 22 communicates with various devices inside and outside the vehicle, other vehicles, servers, base stations, etc., and transmits and receives various data.
  • the communication unit 22 receives from the outside a program for updating the software for controlling the operation of the vehicle control system 11, map information, traffic information, information around the vehicle 1, and the like. ..
  • the communication unit 22 transmits information about the vehicle 1 (for example, data indicating the state of the vehicle 1, recognition result by the recognition unit 73, etc.), information around the vehicle 1, and the like to the outside.
  • the communication unit 22 performs communication corresponding to a vehicle emergency call system such as eCall.
  • the communication method of the communication unit 22 is not particularly limited. Moreover, a plurality of communication methods may be used.
  • the communication unit 22 wirelessly communicates with the equipment in the vehicle by a communication method such as wireless LAN, Bluetooth (registered trademark), NFC, WUSB (WirelessUSB).
  • a communication method such as wireless LAN, Bluetooth (registered trademark), NFC, WUSB (WirelessUSB).
  • the communication unit 22 may use USB (Universal Serial Bus), HDMI (High-Definition Multimedia Interface, registered trademark), or MHL (Mobile High-) via a connection terminal (and a cable if necessary) (not shown).
  • Wired communication is performed with the equipment in the car by a communication method such as definitionLink).
  • the device in the vehicle is, for example, a device that is not connected to the communication network 41 in the vehicle.
  • mobile devices and wearable devices possessed by passengers such as drivers, information devices brought into a vehicle and temporarily installed, and the like are assumed.
  • the communication unit 22 is a base station using a wireless communication system such as 4G (4th generation mobile communication system), 5G (5th generation mobile communication system), LTE (LongTermEvolution), DSRC (DedicatedShortRangeCommunications), etc.
  • a wireless communication system such as 4G (4th generation mobile communication system), 5G (5th generation mobile communication system), LTE (LongTermEvolution), DSRC (DedicatedShortRangeCommunications), etc.
  • a server or the like existing on an external network for example, the Internet, a cloud network, or a network peculiar to a business operator
  • the communication unit 22 uses P2P (Peer To Peer) technology to communicate with a terminal existing in the vicinity of the vehicle (for example, a pedestrian or store terminal, or an MTC (Machine Type Communication) terminal). ..
  • the communication unit 22 performs V2X communication.
  • V2X communication is, for example, vehicle-to-vehicle (Vehicle to Vehicle) communication with other vehicles, road-to-vehicle (Vehicle to Infrastructure) communication with roadside devices, and home (Vehicle to Home) communication.
  • And pedestrian-to-vehicle (Vehicle to Pedestrian) communication with terminals owned by pedestrians.
  • the communication unit 22 receives electromagnetic waves transmitted by a vehicle information and communication system (VICS (Vehicle Information and Communication System), registered trademark) such as a radio wave beacon, an optical beacon, and FM multiplex broadcasting.
  • VICS Vehicle Information and Communication System
  • the map information storage unit 23 stores a map acquired from the outside and a map created by the vehicle 1.
  • the map information storage unit 23 stores a three-dimensional high-precision map, a global map that is less accurate than the high-precision map and covers a wide area, and the like.
  • the high-precision map is, for example, a dynamic map, a point cloud map, a vector map (also referred to as an ADAS (Advanced Driver Assistance System) map), or the like.
  • the dynamic map is, for example, a map composed of four layers of dynamic information, quasi-dynamic information, quasi-static information, and static information, and is provided from an external server or the like.
  • the point cloud map is a map composed of point clouds (point cloud data).
  • a vector map is a map in which information such as lanes and signal positions is associated with a point cloud map.
  • the point cloud map and the vector map may be provided from, for example, an external server or the like, and the vehicle 1 is used as a map for matching with a local map described later based on the sensing result by the radar 52, LiDAR 53, or the like. It may be created and stored in the map information storage unit 23. Further, when a high-precision map is provided from an external server or the like, in order to reduce the communication capacity, map data of, for example, several hundred meters square, relating to the planned route on which the vehicle 1 is about to travel is acquired from the server or the like.
  • the GNSS receiving unit 24 receives the GNSS signal from the GNSS satellite and supplies it to the traveling support / automatic driving control unit 29.
  • the external recognition sensor 25 includes various sensors used for recognizing the external situation of the vehicle 1, and supplies sensor data from each sensor to each part of the vehicle control system 11.
  • the type and number of sensors included in the external recognition sensor 25 are arbitrary.
  • the external recognition sensor 25 includes a camera 51, a radar 52, a LiDAR (Light Detection and Ringing, Laser Imaging Detection and Ringing) 53, and an ultrasonic sensor 54.
  • the number of cameras 51, radar 52, LiDAR 53, and ultrasonic sensors 54 is arbitrary, and examples of sensing areas of each sensor will be described later.
  • the camera 51 for example, a camera of any shooting method such as a ToF (TimeOfFlight) camera, a stereo camera, a monocular camera, an infrared camera, etc. is used as needed.
  • ToF TimeOfFlight
  • stereo camera stereo camera
  • monocular camera stereo camera
  • infrared camera etc.
  • the external recognition sensor 25 includes an environment sensor for detecting weather, weather, brightness, and the like.
  • the environment sensor includes, for example, a raindrop sensor, a fog sensor, a sunshine sensor, a snow sensor, an illuminance sensor, and the like.
  • the external recognition sensor 25 includes a microphone used for detecting the sound around the vehicle 1 and the position of the sound source.
  • the in-vehicle sensor 26 includes various sensors for detecting information in the vehicle, and supplies sensor data from each sensor to each part of the vehicle control system 11.
  • the type and number of sensors included in the in-vehicle sensor 26 are arbitrary.
  • the in-vehicle sensor 26 includes a camera, a radar, a seating sensor, a steering wheel sensor, a microphone, a biological sensor, and the like.
  • the camera for example, a camera of any shooting method such as a ToF camera, a stereo camera, a monocular camera, and an infrared camera can be used.
  • the biosensor is provided on, for example, a seat, a steering wheel, or the like, and detects various biometric information of a occupant such as a driver.
  • the vehicle sensor 27 includes various sensors for detecting the state of the vehicle 1, and supplies sensor data from each sensor to each part of the vehicle control system 11.
  • the type and number of sensors included in the vehicle sensor 27 are arbitrary.
  • the vehicle sensor 27 includes a speed sensor, an acceleration sensor, an angular velocity sensor (gyro sensor), and an inertial measurement unit (IMU (Inertial Measurement Unit)).
  • the vehicle sensor 27 includes a steering angle sensor that detects the steering angle of the steering wheel, a yaw rate sensor, an accelerator sensor that detects the operation amount of the accelerator pedal, and a brake sensor that detects the operation amount of the brake pedal.
  • the vehicle sensor 27 includes a rotation sensor that detects the rotation speed of an engine or a motor, an air pressure sensor that detects tire air pressure, a slip ratio sensor that detects tire slip ratio, and a wheel speed that detects wheel rotation speed. Equipped with a sensor.
  • the vehicle sensor 27 includes a battery sensor that detects the remaining amount and temperature of the battery, and an impact sensor that detects an impact from the outside.
  • the recording unit 28 includes, for example, a magnetic storage device such as a ROM (ReadOnlyMemory), a RAM (RandomAccessMemory), an HDD (Hard DiscDrive), a semiconductor storage device, an optical storage device, an optical magnetic storage device, and the like. ..
  • the recording unit 28 records various programs, data, and the like used by each unit of the vehicle control system 11.
  • the recording unit 28 records a rosbag file including messages sent and received by the ROS (Robot Operating System) in which an application program related to automatic driving operates.
  • the recording unit 28 includes an EDR (Event Data Recorder) and a DSSAD (Data Storage System for Automated Driving), and records information on the vehicle 1 before and after an event such as an accident.
  • EDR Event Data Recorder
  • DSSAD Data Storage System for Automated Driving
  • the driving support / automatic driving control unit 29 controls the driving support and automatic driving of the vehicle 1.
  • the driving support / automatic driving control unit 29 includes an analysis unit 61, an action planning unit 62, and an motion control unit 63.
  • the analysis unit 61 analyzes the vehicle 1 and the surrounding conditions.
  • the analysis unit 61 includes a self-position estimation unit 71, a sensor fusion unit 72, and a recognition unit 73.
  • the self-position estimation unit 71 estimates the self-position of the vehicle 1 based on the sensor data from the external recognition sensor 25 and the high-precision map stored in the map information storage unit 23. For example, the self-position estimation unit 71 generates a local map based on the sensor data from the external recognition sensor 25, and estimates the self-position of the vehicle 1 by matching the local map with the high-precision map.
  • the position of the vehicle 1 is based on, for example, the center of the rear wheel-to-axle.
  • the local map is, for example, a three-dimensional high-precision map created by using a technology such as SLAM (Simultaneous Localization and Mapping), an occupied grid map (OccupancyGridMap), or the like.
  • the three-dimensional high-precision map is, for example, the point cloud map described above.
  • the occupied grid map is a map that divides a three-dimensional or two-dimensional space around the vehicle 1 into a grid (grid) of a predetermined size and shows the occupied state of an object in grid units.
  • the occupied state of an object is indicated by, for example, the presence or absence of an object and the probability of existence.
  • the local map is also used, for example, in the detection process and the recognition process of the external situation of the vehicle 1 by the recognition unit 73.
  • the self-position estimation unit 71 may estimate the self-position of the vehicle 1 based on the GNSS signal and the sensor data from the vehicle sensor 27.
  • the sensor fusion unit 72 performs a sensor fusion process for obtaining new information by combining a plurality of different types of sensor data (for example, image data supplied from the camera 51 and sensor data supplied from the radar 52). .. Methods for combining different types of sensor data include integration, fusion, and association.
  • the recognition unit 73 performs detection processing and recognition processing of the external situation of the vehicle 1.
  • the recognition unit 73 performs detection processing and recognition processing of the external situation of the vehicle 1 based on the information from the external recognition sensor 25, the information from the self-position estimation unit 71, the information from the sensor fusion unit 72, and the like. ..
  • the recognition unit 73 performs detection processing, recognition processing, and the like of objects around the vehicle 1.
  • the object detection process is, for example, a process of detecting the presence / absence, size, shape, position, movement, etc. of an object.
  • the object recognition process is, for example, a process of recognizing an attribute such as an object type or identifying a specific object.
  • the detection process and the recognition process are not always clearly separated and may overlap.
  • the recognition unit 73 detects an object around the vehicle 1 by performing clustering that classifies the point cloud based on sensor data such as LiDAR or radar into a point cloud. As a result, the presence / absence, size, shape, and position of an object around the vehicle 1 are detected.
  • the recognition unit 73 detects the movement of an object around the vehicle 1 by performing tracking that follows the movement of a mass of point clouds classified by clustering. As a result, the velocity and the traveling direction (movement vector) of the object around the vehicle 1 are detected.
  • the recognition unit 73 recognizes the type of an object around the vehicle 1 by performing an object recognition process such as semantic segmentation on the image data supplied from the camera 51.
  • the object to be detected or recognized is assumed to be, for example, a vehicle, a person, a bicycle, an obstacle, a structure, a road, a traffic light, a traffic sign, a road sign, or the like.
  • the recognition unit 73 recognizes the traffic rules around the vehicle 1 based on the map stored in the map information storage unit 23, the estimation result of the self-position, and the recognition result of the object around the vehicle 1. I do.
  • this processing for example, the position and state of a signal, the contents of traffic signs and road markings, the contents of traffic regulations, the lanes in which the vehicle can travel, and the like are recognized.
  • the recognition unit 73 performs recognition processing of the environment around the vehicle 1.
  • the surrounding environment to be recognized for example, weather, temperature, humidity, brightness, road surface condition, and the like are assumed.
  • the action planning unit 62 creates an action plan for the vehicle 1. For example, the action planning unit 62 creates an action plan by performing route planning and route tracking processing.
  • route planning is a process of planning a rough route from the start to the goal.
  • This route plan is called a track plan, and in the route planned by the route plan, the track generation (Local) that can proceed safely and smoothly in the vicinity of the vehicle 1 in consideration of the motion characteristics of the vehicle 1 is taken into consideration.
  • the processing of path planning is also included.
  • Route tracking is a process of planning an operation for safely and accurately traveling on a route planned by route planning within a planned time. For example, the target speed and the target angular velocity of the vehicle 1 are calculated.
  • the motion control unit 63 controls the motion of the vehicle 1 in order to realize the action plan created by the action plan unit 62.
  • the motion control unit 63 controls the steering control unit 81, the brake control unit 82, and the drive control unit 83 so that the vehicle 1 travels on the track calculated by the track plan. Take control.
  • the motion control unit 63 performs coordinated control for the purpose of realizing ADAS functions such as collision avoidance or impact mitigation, follow-up running, vehicle speed maintenance running, collision warning of own vehicle, and lane deviation warning of own vehicle.
  • the motion control unit 63 performs coordinated control for the purpose of automatic driving or the like that autonomously travels without being operated by the driver.
  • the DMS 30 performs driver authentication processing, driver status recognition processing, and the like based on sensor data from the in-vehicle sensor 26 and input data input to the HMI 31.
  • As the state of the driver to be recognized for example, physical condition, arousal degree, concentration degree, fatigue degree, line-of-sight direction, drunkenness degree, driving operation, posture and the like are assumed.
  • the DMS 30 may perform authentication processing for passengers other than the driver and recognition processing for the status of the passenger. Further, for example, the DMS 30 may perform the recognition processing of the situation inside the vehicle based on the sensor data from the sensor 26 in the vehicle. As the situation inside the vehicle to be recognized, for example, temperature, humidity, brightness, odor, etc. are assumed.
  • the HMI 31 is used for inputting various data and instructions, generates an input signal based on the input data and instructions, and supplies the input signal to each part of the vehicle control system 11.
  • the HMI 31 includes an operation device such as a touch panel, a button, a microphone, a switch, and a lever, and an operation device that can be input by a method other than manual operation by voice or gesture.
  • the HMI 31 may be, for example, a remote control device using infrared rays or other radio waves, or an externally connected device such as a mobile device or a wearable device that supports the operation of the vehicle control system 11.
  • the HMI 31 performs output control for generating and outputting visual information, auditory information, and tactile information for the passenger or the outside of the vehicle, and for controlling output contents, output timing, output method, and the like.
  • the visual information is, for example, information shown by an image such as an operation screen, a state display of the vehicle 1, a warning display, a monitor image showing a situation around the vehicle 1, or light.
  • Auditory information is, for example, information indicated by voice such as guidance, warning sounds, and warning messages.
  • the tactile information is information given to the passenger's tactile sensation by, for example, force, vibration, movement, or the like.
  • a display device As a device for outputting visual information, for example, a display device, a projector, a navigation device, an instrument panel, a CMS (Camera Monitoring System), an electronic mirror, a lamp, etc. are assumed.
  • the display device is a device that displays visual information in the occupant's field of view, such as a head-up display, a transmissive display, and a wearable device having an AR (Augmented Reality) function, in addition to a device having a normal display. You may.
  • an audio speaker for example, an audio speaker, headphones, earphones, etc. are assumed.
  • a haptics element using haptics technology or the like As a device that outputs tactile information, for example, a haptics element using haptics technology or the like is assumed.
  • the haptic element is provided on, for example, a steering wheel, a seat, or the like.
  • the vehicle control unit 32 controls each part of the vehicle 1.
  • the vehicle control unit 32 includes a steering control unit 81, a brake control unit 82, a drive control unit 83, a body system control unit 84, a light control unit 85, and a horn control unit 86.
  • the steering control unit 81 detects and controls the state of the steering system of the vehicle 1.
  • the steering system includes, for example, a steering mechanism including a steering wheel, electric power steering, and the like.
  • the steering control unit 81 includes, for example, a control unit such as an ECU that controls the steering system, an actuator that drives the steering system, and the like.
  • the brake control unit 82 detects and controls the state of the brake system of the vehicle 1.
  • the brake system includes, for example, a brake mechanism including a brake pedal and the like, ABS (Antilock Brake System) and the like.
  • the brake control unit 82 includes, for example, a control unit such as an ECU that controls the brake system, an actuator that drives the brake system, and the like.
  • the drive control unit 83 detects and controls the state of the drive system of the vehicle 1.
  • the drive system includes, for example, a drive force generator for generating a drive force of an accelerator pedal, an internal combustion engine, a drive motor, or the like, a drive force transmission mechanism for transmitting the drive force to the wheels, and the like.
  • the drive control unit 83 includes, for example, a control unit such as an ECU that controls the drive system, an actuator that drives the drive system, and the like.
  • the body system control unit 84 detects and controls the state of the body system of the vehicle 1.
  • the body system includes, for example, a keyless entry system, a smart key system, a power window device, a power seat, an air conditioner, an airbag, a seat belt, a shift lever, and the like.
  • the body system control unit 84 includes, for example, a control unit such as an ECU that controls the body system, an actuator that drives the body system, and the like.
  • the light control unit 85 detects and controls various light states of the vehicle 1. As the light to be controlled, for example, a headlight, a backlight, a fog light, a turn signal, a brake light, a projection, a bumper display, or the like is assumed.
  • the light control unit 85 includes a control unit such as an ECU that controls the light, an actuator that drives the light, and the like.
  • the horn control unit 86 detects and controls the state of the car horn of the vehicle 1.
  • the horn control unit 86 includes, for example, a control unit such as an ECU that controls the car horn, an actuator that drives the car horn, and the like.
  • FIG. 2 is a diagram showing an example of a sensing region by a camera 51, a radar 52, a LiDAR 53, and an ultrasonic sensor 54 of the external recognition sensor 25 of FIG.
  • the sensing area 101F and the sensing area 101B show an example of the sensing area of the ultrasonic sensor 54.
  • the sensing region 101F covers the periphery of the front end of the vehicle 1.
  • the sensing region 101B covers the periphery of the rear end of the vehicle 1.
  • the sensing results in the sensing area 101F and the sensing area 101B are used, for example, for parking support of the vehicle 1.
  • the sensing area 102F to the sensing area 102B show an example of the sensing area of the radar 52 for a short distance or a medium distance.
  • the sensing area 102F covers a position farther than the sensing area 101F in front of the vehicle 1.
  • the sensing region 102B covers the rear of the vehicle 1 to a position farther than the sensing region 101B.
  • the sensing area 102L covers the rear periphery of the left side surface of the vehicle 1.
  • the sensing region 102R covers the rear periphery of the right side surface of the vehicle 1.
  • the sensing result in the sensing area 102F is used, for example, for detecting a vehicle, a pedestrian, or the like existing in front of the vehicle 1.
  • the sensing result in the sensing region 102B is used, for example, for a collision prevention function behind the vehicle 1.
  • the sensing results in the sensing area 102L and the sensing area 102R are used, for example, for detecting an object in a blind spot on the side of the vehicle 1.
  • the sensing area 103F to the sensing area 103B show an example of the sensing area by the camera 51.
  • the sensing area 103F covers a position farther than the sensing area 102F in front of the vehicle 1.
  • the sensing region 103B covers the rear of the vehicle 1 to a position farther than the sensing region 102B.
  • the sensing area 103L covers the periphery of the left side surface of the vehicle 1.
  • the sensing region 103R covers the periphery of the right side surface of the vehicle 1.
  • the sensing result in the sensing area 103F is used, for example, for recognition of traffic lights and traffic signs, lane departure prevention support system, and the like.
  • the sensing result in the sensing area 103B is used, for example, for parking assistance, a surround view system, and the like.
  • the sensing results in the sensing area 103L and the sensing area 103R are used, for example, in a surround view system or the like.
  • the sensing area 104 shows an example of the sensing area of LiDAR53.
  • the sensing region 104 covers a position far from the sensing region 103F in front of the vehicle 1.
  • the sensing area 104 has a narrower range in the left-right direction than the sensing area 103F.
  • the sensing result in the sensing area 104 is used for, for example, emergency braking, collision avoidance, pedestrian detection, and the like.
  • the sensing area 105 shows an example of the sensing area of the radar 52 for a long distance.
  • the sensing region 105 covers a position farther than the sensing region 104 in front of the vehicle 1.
  • the sensing area 105 has a narrower range in the left-right direction than the sensing area 104.
  • the sensing result in the sensing region 105 is used, for example, for ACC (Adaptive Cruise Control) or the like.
  • each sensor may have various configurations other than those shown in FIG. Specifically, the ultrasonic sensor 54 may be made to sense the side of the vehicle 1, or the LiDAR 53 may be made to sense the rear of the vehicle 1.
  • FIG. 3 is a diagram showing a configuration of an embodiment of an information processing apparatus to which the present technology is applied.
  • the information processing device 110 can be used as a device that is mounted on a vehicle 1, analyzes an image captured, and recognizes a predetermined object such as a person or a car.
  • recognition is performed using a recognizer to which a learning model such as machine learning is applied, and the recognizer is updated so that false detection is reduced.
  • the information processing apparatus 110 shown in FIG. 3 includes an image acquisition unit 121, a recognition processing unit 122, an extraction unit 123, a recognition target tracking unit 124, a labeling unit 125, a relearning unit 126, and a recognizer update unit 127. There is.
  • the image acquisition unit 121 acquires image data of an image captured by an image pickup unit (not shown) that captures an image.
  • the image acquisition unit 121 acquires, for example, an image captured by the camera 51 (FIG. 1).
  • the recognition processing unit 122 analyzes the image acquired by the image acquisition unit 121 and recognizes a predetermined object such as a person or a car by using a recognizer (learning model).
  • the recognition processing unit 122 executes recognition processing using a recognizer to which a learning model that performs recognition processing is applied to input data.
  • the recognition result recognized by the information processing device 110 is semi-automatically used to assist a handle operation or a braking operation for avoiding a recognized object. It can be used for driving.
  • the recognition result from the recognition processing unit 122 of the information processing device 110 is supplied to the extraction unit 123.
  • the extraction unit 123 extracts the recognition result that satisfies the condition for updating the recognizer, which will be described later.
  • the extraction result from the extraction unit 123 is supplied to the recognition target tracking unit 124.
  • the recognition target tracking unit 124 tracks the extracted recognition result over a plurality of frames.
  • the plurality of frames are frames imaged in the opposite direction (past direction) in the time series, and the recognition target tracking unit 124 executes a process of tracking the recognition target in the direction opposite to the time series. ..
  • the tracking result by the recognition target tracking unit 124 is supplied to the labeling unit 125.
  • the labeling unit 125 assigns a label to the tracked recognition target.
  • the recognition target to which the label is attached is supplied to the re-learning unit 126.
  • the re-learning unit 126 relearns the recognizer using the recognition target to which the label is attached.
  • the new recognizer generated by the re-learning is supplied to the recognizer update unit 127.
  • the recognizer update unit 127 updates the recognizer of the recognition processing unit 122 to the recognizer relearned by the relearning unit 126.
  • the re-learning unit 126 has a function of executing learning of parameters (parameters sometimes referred to as model parameters) possessed by the recognizer of the recognition processing unit 122.
  • parameters parameters sometimes referred to as model parameters
  • various machine learning techniques using a neural network such as RNN (Recurrent Neural Network) and CNN (Convolutional Neural Network) can be used.
  • a labeled image in which labels for classifying a plurality of subjects shown in the image are created in advance is input to the recognizer.
  • the recognizer performs image recognition on a labeled image, recognizes a plurality of subjects reflected in the labeled image, and outputs a recognition result in which each subject is classified.
  • the recognition result output from the recognizer is compared with the correct label for the labeled image, and feedback is given to the recognizer so that the recognition result is closer to the correct label. In this way, learning is performed so that the recognizer (learning model) performs more accurate recognition using the correct answer label.
  • the recognition processing unit 122 can be configured to perform recognition processing.
  • the learning process shown here is an example, and this technique can be applied even when learning is performed by another learning process or a recognizer obtained by another learning process is used. ..
  • As a learning process it is also possible to apply a learning process that does not use a labeled image or a correct label to the present technology.
  • the re-learning unit 126 relearns the recognizer (learning model) by the learning process as shown in FIG.
  • the recognition result from the recognition processing unit 122 is used as a labeled image
  • the image labeled by the labeling unit 125 is used as a correct label to relearn the recognizer.
  • Re-learning is performed by using a frame imaged at a predetermined time as a reference and using several frames imaged at a time before the frame as the reference. Re-learning is performed to generate a recognizer that reduces false positives, but false positives are when a recognition target, such as an object such as a person or a car, is not detected even though it appears in the image. Or, when it is detected but it is detected as an erroneous object, for example, it may be detected as a car even though it is a person.
  • 5 to 9 are diagrams showing an example of images (frames) captured at time t1, time t2, time t3, time t4, and time t5, respectively. 5 to 9 also show a detection frame displayed for an object recognized (detected) by processing the frames F1 to F5 by the recognition processing unit 122, respectively. Time elapses in the order of time t1, time t2, time t3, time t4, and time t5, in other words, time t1 is the oldest (past) and time t5 is the newest (current time).
  • the car C11 and the car C12 are imaged on the left side of the frame F1 shown in FIG. 5, and the car C13 is imaged on the front side. Further, on the right side, a person H11 is imaged.
  • the vehicle C11, the vehicle C12, and the vehicle C13 are detected by processing the frame F1 by the recognition processing unit 122 (FIG. 3). The detected object is surrounded by a rectangular detection frame.
  • the vehicle C11 is surrounded by the detection frame BC11
  • the vehicle C12 is surrounded by the detection frame BC12
  • the vehicle C13 is surrounded by the detection frame BC13.
  • the human H11 is imaged, but the detection frame is not displayed because it is not detected.
  • semantic Segmentation Semantic Segmentation
  • instance segmentation instance segmentation
  • Panoptic segmentation Panoptic Segmentation
  • Semantic segmentation is a method of classifying all pixels on an image into classes and labeling each pixel.
  • Instance segmentation is a method of recognizing the type of an object by dividing the area for each object.
  • Panoptic segmentation is a method that combines semantic segmentation and instance segmentation, and is a method that can recognize the type of object and can label all pixels.
  • panoptic segmentation is applied, but this technique can be applied to this technique even if the above-mentioned method other than panoptic segmentation or a recognition method not exemplified here is applied. ..
  • pixels with the same label can be displayed in the same color.
  • Different objects can be displayed in different colors, for example, pixels labeled with car C11 are represented in red, pixels labeled with car C12 are represented in blue, and so on.
  • FIGS. 5 to 9 although the colors are not shown, different objects are detected as different objects and are displayed in different colors.
  • the person H11 is imaged, but the person H11 is not detected.
  • FIG. 6 is a diagram showing an example of a frame F2 imaged at a time t2 at a time after the time t1 (a time when a predetermined time has elapsed). Since the car has moved forward, the car C11 and the car C12 imaged in the frame F1 (FIG. 5) are out of the imaging range and are not imaged in the frame F2. The car C23 corresponds to the car C13 in the frame F1, is also detected in the frame 2, and is surrounded by the detection frame BC23.
  • the person H21 corresponding to the person H11 (FIG. 5) is also imaged, but is not detected.
  • the person H22 and the person H23 are newly detected, and are surrounded by the detection frame BH22 and the detection frame BH23, respectively.
  • the detection frame can be displayed in different colors and line types depending on the label.
  • FIG. 6 shows an example in which a solid line detection frame is displayed in the recognition result labeled as car, and a dotted line detection frame is displayed in the recognition result labeled as person.
  • FIG. 7 is a diagram showing an example of a frame F3 imaged at a time t3 at a time after the time t2.
  • a person H11 FIG. 5
  • a person H31 corresponding to the person H21 FIG. 6
  • a person H32 corresponding to the person H22 FIG. 6
  • Person H31 and person H32 have been detected, respectively. Since the person H31 was erroneously detected as a car, the car is labeled and the detection frame BC31 displayed at the time of the car is displayed so as to surround the person H31. Since the person H32 is correctly detected as a person, the detection frame BH32 displayed when the person is a person is displayed so as to surround the person H32.
  • FIG. 8 is a diagram showing an example of a frame F4 imaged at a time t4 at a time after the time t3.
  • a person H41 corresponding to a person H11 (FIG. 5), a person H21 (FIG. 6), and a person H31 (FIG. 7), and a person H44 are imaged. Since the person H41 and the person H44 are correctly detected as humans, the detection frame BH41 and the detection frame BH44 displayed when the person is a person are displayed, respectively.
  • FIG. 9 is a diagram showing an example of a frame F5 imaged at a time t5 at a time after the time t4.
  • the frame F5 includes a person H11 (FIG. 5), a person H21 (FIG. 6), a person H31 (FIG. 7), a person H41 corresponding to the person H41 (FIG. 8), and a person H54 corresponding to the person H44 (FIG. 9). Is being imaged. Since the person H51 and the person H54 are correctly detected as humans, the detection frame BH51 and the detection frame BH54 displayed when the person is a person are displayed, respectively.
  • FIG. 10 is a diagram showing the frame F1 and the frame F5 side by side.
  • attention is paid to the person H11 and the person H51.
  • the frame F1 the person H11 is imaged, but is not detected.
  • the frame F5 the person H51 is in a state of being imaged and detected.
  • the person H11 imaged in the frame F1 is not detected at the time of the frame F1. In other words, in the frame F1, there is an erroneous detection that the person H11 to be detected is not detected.
  • Person H11 is detected as person H51 in frame F5.
  • the person H11 is imaged as a person H21 (frame F2), a person H31 (frame F3), a person H41 (frame F4), and a person H51 (frame H5). That is, the person H11 is continuously imaged from the frames F1 to F5.
  • frame F5 frame F4
  • frame F3 frame F3
  • frame F4 frame F4
  • frame F5 frame F1
  • the person H51, the person H41, the person H31, the person H21, and the person H11 are detected (tracking) in this order. can do.
  • the person H11 can be labeled.
  • the frame F1 By performing learning using the frame F1 with this label, it is possible to detect the person H11 from an image such as the frame F1 and generate a recognizer capable of attaching the label.
  • the frame F3 (FIG. 7) there is an erroneous detection that the person H31 is detected as a car, but the frame F3 is also tracked from the frame F5 and the frame F4, so that the person H51 Since tracking is performed with the person H41 and the person H31, the person H31 is labeled as a person.
  • the person H31 is detected from an image such as the frame F3, and a recognizer capable of correctly labeling the person H31 is generated. be able to.
  • the person H51 and the person H54 are imaged.
  • the person corresponding to the person H54 is not detected in the frames F3 to F1.
  • the person corresponding to the person H54 is tracked in the past direction, so that the person corresponding to the person H54 is transferred to the frames F3 to F1.
  • learning using the frames F3 to F1 is performed, so that even in an image such as frames F3 to F1, a person It is possible to generate a recognizer that can detect a person corresponding to H54.
  • the information processing apparatus 110 executes a process related to such learning (re-learning).
  • the processing of the information processing apparatus 110 (FIG. 3) will be described with reference to the flowchart shown in FIG.
  • step S111 the image acquisition unit 121 acquires image data (frame).
  • step S112 the recognition processing unit 122 analyzes the image based on the image data acquired by the image acquisition unit 121, and executes the recognition process using the recognizer to which the learning model for performing the recognition process is applied.
  • the recognition process performed by the recognition processing unit 122 is a process using a recognizer that recognizes a predetermined object such as a person or a car. For example, as described with reference to FIG. 5, the car C11 is detected from the frame F1. However, it is a process of giving a label of a car.
  • step S113 the extraction unit 123 extracts the recognition result that satisfies the update criterion.
  • the update standard is a standard for determining whether or not the data needs to be updated by the recognizer.
  • the update criterion is a criterion for determining that re-learning is performed when there is a recognition result that satisfies the criteria described below among the recognition results.
  • the object detected by the recognition process of the recognition processing unit 122 is described as the recognition result
  • the recognition result extracted by the extraction unit 123 is described as the recognition target.
  • the recognition target is a recognition result to be tracked.
  • the update criteria will be described with reference to FIG.
  • the recognition result is extracted as a recognition target.
  • the size of the recognition result can be, for example, the area of the area surrounded by the detection frame BC11 of the vehicle C11 in the frame F1 (FIG. 5).
  • the height or width may be used instead of the area, and the height or width of the detection frame BC11 of the vehicle C11 may be used, and if the height or width is equal to or larger than a predetermined size, it may be extracted as a recognition target. ..
  • the area of the image Fx is, for example, the image size of the frame F1.
  • the first update criterion is a criterion for setting an object as a tracking target, that is, a recognition target in this case, when there is an object detected with a certain size.
  • the detection result is more reliable and the possibility of false detection is lower when the size detected as a predetermined object is smaller than when the size is small. Therefore, in order to allow re-learning to be performed with an object detected in such a highly accurate state as a recognition target, a first update criterion is provided.
  • the first update criterion may be that the value of x% differs depending on the recognition result. For example, when the recognition result is a person and the car, when the same x% value is used, the car is larger than the person. Therefore, when the recognition result is a car, the first update criterion is used. However, if the recognition result is human, it is considered difficult to meet the first update criterion. Therefore, the value of x% may be a variable value according to the label of the recognition result, and it may be determined whether or not the first update criterion is satisfied by using different x for each recognition result.
  • the recognition result is extracted as a recognition target.
  • the image Fy is one frame, and one side of the frame is, for example, the left side or the right side as shown in B of FIG.
  • the distance from the side is y% or more is, for example, the ratio when the lateral length of the frame (distance from the right side to the left side) is 100%.
  • the second update criterion is a criterion for preventing an object imaged in such a cut-out state from being a recognition target.
  • the horizontal distance (distance from the left side and the right side) has been described as an example, but the vertical distance (distance from the upper side and the lower side) may be used. References may be set for both horizontal and vertical distances. Further, as in the case of the first update standard, different y% may be used depending on the label.
  • the extraction unit 123 extracts the recognition result that satisfies the first update criterion and / and the second update criterion, and when it is extracted, sets the recognition result as the recognition target to be tracked.
  • the recognition target is set, the past several frames are set as the tracking target frames based on the frame from which the recognition target is extracted.
  • the m frames imaged up to this point are set as the frames to be processed.
  • the third update standard is to set a standard that when there is a recognition result detected continuously for m frames, the recognition result is extracted as a recognition target.
  • the fact that the object is detected over m frames means that the object is detected with high accuracy. If there is a recognition result detected in such a highly accurate state, the recognition result is extracted as a recognition target.
  • the extraction unit 123 has a storage unit (not shown) that stores a plurality of frames.
  • the recognition result satisfying the third update criterion is extracted by the extraction unit 123, as shown in FIG. 13, the n frames imaged in the past from the m frame are set as the frames to be processed.
  • FIG. 13 for example, when a recognition result satisfying the third update criterion is extracted at time T0 , it is continuous in m frames imaged during the time T0 -m before time T0. It means that there was a recognition result detected by. In such a case, the n frames captured during the time T 0-mn before the time T 0-m are set as the frames to be processed.
  • the m frame (number of frames) in the third update reference may be a fixed value or a variable value.
  • m may be set from, for example, the vehicle speed, the frame rate, the size of the recognition result, and the like. From this information, a frame whose height and width w min are the size of the recognition result may be estimated, and the number of frames until the size is reached may be set as m.
  • the vehicle speed is high, the distance traveled within a unit time will be long, and the objects that have been imaged will be replaced more often, so the number of objects that will continue to appear in multiple frames will decrease.
  • the vehicle speed is high, it may be difficult to extract the object to be recognized unless the m of the m frame is reduced.
  • the vehicle speed is slow, many objects continue to be reflected in multiple frames, and if m in the m frame is not increased, many objects to be recognized are extracted, and as a result, re-learning may be performed frequently. There is.
  • m of m frame may be set according to a vehicle speed, a frame rate, etc. as described above.
  • the size of the recognition result is a height h min and a width w min is the size when a predetermined recognition result is first imaged or detected. It is estimated how many frames before such a size is reached, in other words, how many frames before a predetermined recognition result is recognized, and the estimated number of frames is set as m. Is also good. This m can be estimated from information such as vehicle speed, frame rate, and size of recognition result.
  • the m of the m frame may be set by referring to a correspondence table that gives m to the size of the recognition target, or may be calculated by a predetermined function.
  • the fourth renewal standard is a standard that combines the above-mentioned first to third renewal standards.
  • the recognition result whose recognition result size is x% or more of the frame size and the distance from the side of the frame is y% or more is regarded as the recognition target.
  • a fourth update criterion of extraction may be provided. In this case, an object that is detected to a certain size and is likely to be imaged in a state where it is not completely cut off is extracted.
  • a fourth update criterion may be set up to extract as. In this case, an object that is detected with a certain size and is stably detected over several frames is extracted.
  • the recognition result When the recognition result whose distance from the side of the frame is y% or more is continuously detected for m frames by combining the second update standard and the third update standard, the recognition result is extracted as a recognition target.
  • a fourth update standard may be set. In this case, there is a high possibility that the image is taken in a state where it is not completely cut off, and an object that has been stably detected over several frames is extracted.
  • the size of the frame is x% or more, and the distance from the side of the frame is y% or more is continuously detected for m frames.
  • a fourth update criterion may be provided in which the recognition result is extracted as a recognition target. In this case, an object that is detected with a certain size, is imaged in a state where it is not completely cut off, and is stably detected over several frames is extracted.
  • step S113 when the extraction unit 123 executes a process of extracting a recognition result satisfying the update criterion, the determination of step S114 is performed using the process result. In step S114, it is determined whether or not there is a recognition result that satisfies the update criterion.
  • step S114 If it is determined in step S114 that there is no recognition result that satisfies the update criterion, the process is returned to step S111, and the subsequent processes are repeated.
  • step S114 determines whether there is a recognition result that satisfies the update criteria. If it is determined in step S114 that there is a recognition result that satisfies the update criteria, the process proceeds to step S115.
  • the extraction unit 123 outputs the information related to the recognition result, that is, the information related to the recognition target to the recognition target tracking unit 134.
  • the information related to the recognition target is, for example, information such as the coordinates, size, and label of the recognition target.
  • the recognition target tracking unit 124 selects the oldest frame.
  • the oldest frame differs depending on which of the first to fourth update criteria is used.
  • the frame that was the target of extraction processing in other words, recognition.
  • the frame from which the target is extracted is regarded as the oldest frame. For example, at time T 0 , when it is determined that there is a recognition result satisfying the update criterion, the frame including the recognition result is set as the oldest frame.
  • the detection is continuously performed in the m frame between the time T0 -m and the time T0, as described with reference to FIG. Since the recognition result is the recognition target, the oldest frame is the frame captured at the time T0 -m .
  • step S116 tracking is performed for the past N frames of the selected recognition target.
  • the selected recognition target is a recognition target when a plurality of recognition targets are extracted and one of them is selected and used as a tracking target.
  • the past N frame includes the oldest frame selected in step S115, and is (N-1) frames imaged earlier than the oldest frame.
  • the frame F5 shown in FIG. 9 is set as the oldest frame. Further, it is assumed that the person H51 and the person H54 are extracted from the frame F5 as recognition targets, and the person H51 is selected as the recognition target. In this case, when N of the past N frames is 5, the five frames of the frame F4, the frame F3, the frame F2, and the frame F1 including the frame F5 are regarded as the past N frames.
  • a person corresponding to the person H51 is detected in each frame of the frames F5 to F1 and labeled as a person. That is, in the case of this example, the person H51 in the frame F5, the person H41 in the frame F4, the person H31 in the frame F3, the person H21 in the frame F2, and the person H11 in the frame F1 are tracked in this order, and each is labeled as a person. ..
  • step S116 the recognition target tracking unit 124 performs tracking in the opposite direction in time series, and in step S117, a label is given by the labeling unit 125 to the tracking result. Such tracking and labeling are performed for each recognition target.
  • step S118 the re-learning unit 126 relearns the learning model of the recognizer.
  • the re-learning unit 126 learns a recognizer (learning model) using a set of an image (frame) and a label as teacher data.
  • the learning using the frame to which the label is given by the labeling unit 125 as the correct answer label can be performed. Further, the learning may be performed by another learning method using the frame to which the label is given by the label giving unit 125 as the teacher data.
  • the re-learning unit 126 may perform learning using N frames as a data set, or may perform learning using a data set having a larger number of frames than N accumulated by performing N frame processing a plurality of times. You may go.
  • the application range of this technique is not limited by the learning method here.
  • the person H31 in the frame F3 (FIG. 7), the person H31 is detected as a car, but the person H31 can be labeled as a person by performing tracking and labeling.
  • the person H31 can be labeled as a person by performing tracking and labeling.
  • the person H21 and the person H11 are not detected, but by tracking and labeling, the person H21 and the person H11 are labeled as a person. Can be attached. By performing learning using a frame with such a label, it is possible to reduce the fact that the person H21 or the person H11 cannot be detected when processing an image such as the frame F2 or the frame F1. Can generate recognizers that can.
  • the recognizer update unit 127 updates the recognizer (learning model) used in the recognition processing unit 122 with the recognizer (learning model) learned in the relearning unit 126.
  • the update may be performed by replacing the recognizer (learning model), or may replace some parameters of the learning model.
  • a mechanism for evaluating the accuracy of the generated recognizer may be provided.
  • the accuracy of the generated recognizer may be evaluated and the recognizer may be updated only when it is determined that the recognition performance is improved.
  • labeling is performed by tracking the time back in the past direction from the frame in which the detection is performed with high accuracy.
  • the recognizer is updated by learning using the labeled frame. By performing such learning, learning is performed using a frame in which a falsely detected object is correctly labeled and a frame in which an undetected object is detected and labeled. Therefore, it is possible to generate a recognizer with improved recognition accuracy.
  • the information processing device 110 in the above implementation is a case where the information processing device 110 itself is configured to include a learning device for re-learning, but the learning device may be configured to be included in another device.
  • FIG. 15 is a diagram showing a configuration of an embodiment of an information processing system.
  • the information processing system 200 includes an information processing device 211 and a server 212.
  • the information processing device 211 is, for example, a device mounted on a vehicle.
  • the server 212 is a device that exchanges data with the information processing device 211 via a predetermined network.
  • the information processing device 211 includes an image acquisition unit 221, a recognition processing unit 222, an extraction unit 223, a data transmission unit 224, a recognizer receiver unit 225, and a recognizer update unit 226.
  • the server 212 includes a data receiving unit 231, a recognition target tracking unit 232, a labeling unit 233, a re-learning unit 234, and a recognizer transmitting unit 235.
  • the image acquisition unit 221, the recognition processing unit 222, the extraction unit 223, and the recognizer update unit 226 of the information processing device 211 include the image acquisition unit 121, the recognition processing unit 122, and the extraction unit 123 of the information processing device 110 (FIG. 3). And the function corresponding to the recognizer update unit 127, respectively.
  • the recognition target tracking unit 232, the labeling unit 233, and the relearning unit 234 of the server 212 correspond to the recognition target tracking unit 124, the labeling unit 125, and the relearning unit 126 of the information processing apparatus 110 (FIG. 3), respectively. It is a function.
  • FIG. 15 is a flowchart for explaining the processing of the information processing apparatus 211. Since the processing of steps S211 to S215 is the same as the processing of steps S111 to S115 (FIG. 11), the description thereof will be omitted.
  • step S216 the image and the recognition target are transmitted to the server 212.
  • the data transmission unit 224 of the information processing apparatus 211 transmits at least the data related to the recognition target extracted by the extraction unit 223, the oldest frame, and the data of the past N frames from the oldest frame.
  • the vehicle speed, frame rate, etc. may also be transmitted as needed.
  • the server 212 performs re-learning and transmits the re-learned recognizer to the information processing device 211.
  • the recognizer receiving unit 225 of the information processing apparatus 211 receives the recognizer transmitted from the server 212, and the recognizer updating unit 226 uses the received recognizer to detect the recognizer of the recognition processing unit 222. Update.
  • FIG. 16 is a flowchart for explaining the processing of the server 212.
  • step S231 the data receiving unit 231 of the server 212 receives the image (frame) transmitted by the data transmitting unit 224 of the information processing apparatus 211 and the data to be recognized. Since steps S232 to S234 are the same as the processes of steps S116 to S118 (FIG. 11), detailed description thereof will be omitted.
  • the server 212 performs a process of tracking by tracing back the frame in the past direction performed by the information processing device 110, labeling, and relearning the recognizer.
  • the recognizer relearned in this way is transmitted from the recognizer transmission unit 245 of the server 212 to the information processing apparatus 211 in step S235.
  • the information processing device 211 and the server 212 may share the processing.
  • FIG. 17 is a diagram showing another configuration example of the information processing system.
  • the information processing system 300 shown in FIG. 17 is composed of an information processing device 311 and a server 312.
  • the information processing device 311 includes an image acquisition unit 321, a recognition processing unit 322, a data transmission unit 323, a recognizer receiver unit 324, and a recognizer update unit 325.
  • the server 312 includes a data receiving unit 331, an extracting unit 332, a recognition target tracking unit 333, a labeling unit 334, a re-learning unit 335, and a recognizer transmitting unit 336.
  • the image acquisition unit 321 and the recognition processing unit 322 of the information processing device 311 and the recognizer update unit 325 are attached to the image acquisition unit 121, the recognition processing unit 122, and the recognizer update unit 127 of the information processing device 110 (FIG. 3), respectively.
  • the extraction unit 332, the recognition target tracking unit 333, the labeling unit 334, and the re-learning unit 335 of the server 312 are the extraction unit 123, the recognition target tracking unit 124, the labeling unit 125, and the information processing device 110 (FIG. 3). This is a function corresponding to each of the re-learning units 126.
  • the configuration in which the extraction unit 223 of the information processing apparatus 211 of the information processing system 200 is provided on the server 212 side has a configuration. It is a configuration of the information processing system 300.
  • FIG. 17 is a flowchart for explaining the processing of the information processing apparatus 311. Since the processing of steps S311 and S312 is the same as the processing of steps S111 and S112 (FIG. 11), the description thereof will be omitted.
  • step S313 the data transmission unit 323 of the information processing apparatus 311 transmits an image and a recognition result to the server 312.
  • the data transmission unit 323 of the information processing apparatus 311 transmits at least data and frames related to the recognition result recognized by the recognition processing unit 322.
  • the vehicle speed, frame rate, etc. may also be transmitted as needed.
  • the image and the recognition result may be transmitted every time one frame is processed, or may be transmitted in batches of several frames.
  • the server 312 side performs re-learning and transmits the re-learned recognizer to the information processing device 311.
  • the recognizer receiving unit 324 of the information processing apparatus 311 receives the recognizer transmitted from the server 312, and the recognizer updating unit 325 uses the received recognizer to display the recognizer of the recognition processing unit 322. Update.
  • FIG. 19 is a flowchart for explaining the processing of the server 312.
  • step S331 the data receiving unit 331 of the server 312 receives the image (frame) transmitted by the data transmitting unit 323 of the information processing apparatus 311 and the data of the recognition result.
  • step S332 the extraction unit 332 extracts a recognition target that satisfies the update criterion. Since the processing of steps S332 to S337 is the same as the processing of steps S113 to S118 (FIG. 11), detailed description thereof will be omitted.
  • the server 312 performs the process of extracting the recognition target, tracking by tracing back the frame in the past direction, labeling, and relearning the recognizer, which was performed by the information processing device 110.
  • the recognizer relearned in this way is transmitted from the recognizer transmission unit 336 of the server 312 to the information processing apparatus 311 in step S338.
  • the information processing device 311 and the server 312 may share the processing.
  • the processing of the information processing device 211 (311) can be reduced.
  • the server 212 collects data from a plurality of information processing devices 211 (311) and generates a recognizer using the data from the plurality of information processing devices 211 (311) (re-learning the recognizer). It may be configured as follows. By handling a large amount of data and learning the recognizer, it is possible to make the recognizer with improved accuracy at an earlier stage.
  • the information processing device that processes the image from the camera mounted on the vehicle has been described as an example, but it can also be applied to the information processing device that processes the image from the surveillance camera.
  • the image may be a distance measurement image acquired by the ToF (Time-of-Flight) method. good.
  • the heat sensor may be used to treat the data obtained from the heat sensor as an image so that a predetermined object such as a person or a car can be recognized. This technique can be widely applied when recognizing a predetermined object by using the data obtained from the sensor.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed in the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 50 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • a CPU Central Processing Unit
  • ROM ReadOnlyMemory
  • RAM RandomAccessMemory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a storage unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the storage unit 508 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program stored in the storage unit 508 into the RAM 503 via the input / output interface 505 and the bus 504 and executes the above-mentioned series. Is processed.
  • the program executed by the computer (CPU 501) can be recorded and provided on the removable media 511 as a package media or the like, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 508 via the input / output interface 505 by mounting the removable media 511 in the drive 510. Further, the program can be received by the communication unit 509 and installed in the storage unit 508 via a wired or wireless transmission medium. In addition, the program can be installed in the ROM 502 or the storage unit 508 in advance.
  • the program executed by the computer may be a program in which processing is performed in chronological order according to the order described in the present specification, in parallel, or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • system represents the entire device composed of a plurality of devices.
  • the present technology can also have the following configurations.
  • An object recognized by recognition processing using a recognizer to which a learning model that performs recognition processing on input data is applied is tracked in the opposite direction in chronological order.
  • the recognition result satisfying a predetermined criterion is set as the object to be tracked.
  • the object captured in a plurality of frames imaged at a time before the first time is tracked.
  • the method for generating a learning model according to (1) or (2) above wherein when the object is detected in the frame as a result of the tracking, the object is labeled.
  • the learning according to the above (3) wherein the recognition result detected at a size equal to or larger than a predetermined ratio of the size of the recognition result with respect to the size of the frame is used as the object as a recognition result satisfying the predetermined criterion. How to generate a model.
  • the second time is started from the second time.
  • the learning model is the one learned by machine learning.
  • the object recognized by the recognition process using the recognizer is tracked in the opposite direction in time series, and the learning data for re-learning the recognizer is generated based on the tracking result.
  • An information processing device including a re-learning unit that relearns the learning model of the recognizer based on the above.
  • the learning data is data generated by attaching a label to the tracked object.
  • a recognition processing unit that performs recognition processing using a recognizer to which a learning model that performs recognition processing on input data is applied, and Of the recognition results recognized by the recognition processing unit, an extraction unit that extracts recognition results that satisfy a predetermined criterion, and an extraction unit.
  • a tracking unit that uses the recognition result extracted by the extraction unit as an object and tracks the object in the opposite direction in chronological order.
  • a labeling unit that assigns a label to the object tracked by the tracking unit, and a labeling unit.
  • a re-learning unit that relearns the learning model using the label assigned by the label-imparting unit, and a re-learning unit.
  • An information processing system including an update unit that updates the recognizer of the recognition processing unit in the learning model that has been relearned by the relearning unit.
  • It consists of a first device and a second device.
  • the first device includes the recognition processing unit and the updating unit.
  • the information processing system according to (18), wherein the second device receives data from a plurality of the first devices and relearns the recognizer using the plurality of data.
  • 110 information processing device 121 image acquisition unit, 122 recognition processing unit, 123 extraction unit, 124 recognition target tracking unit, 125 labeling unit, 126 re-learning unit, 127 recognizer update unit, 134 recognition target tracking unit, 200 information processing.
  • System 211 information processing device, 212 server, 213 label assigning unit, 221 image acquisition unit, 222 recognition processing unit, 223 extraction unit, 224 data transmission unit, 225 recognizer receiver unit, 226 recognizer update unit, 231 data receiver unit.
  • 232 recognition target tracking unit, 234 re-learning unit, 245 recognizer transmitter unit 300 information processing system, 311 information processing device, 312 server, 321 image acquisition unit, 322 recognition processing unit, 323 data transmission unit, 324 recognizer reception unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本技術は、誤検出が少ない認識器を構築することができるようにする学習モデルの生成方法、情報処理装置、情報処理システムに関する。 入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、前記トラッキングの結果に基づいて生成されたデータを用いて、前記学習モデルを再学習する。前記データは、時系列的に逆向きの方向に、対象物をトラッキングし、トラッキングされた対象物にラベルを付与することで生成される。本技術は、例えば所定の物体を認識する認識器を再学習する情報処理装置に適用できる。

Description

学習モデルの生成方法、情報処理装置、情報処理システム
 本技術は、学習モデルの生成方法、情報処理装置、情報処理システムに関し、例えば、認識処理に用いられる認識器の再学習に係わる処理を実行する学習モデルの生成方法、情報処理装置、情報処理システムに関する。
 人や車などの所定の物体を認識する技術について、さまざまな提案がなされている。例えば、特許文献1では、フレーム毎に顔が上下左右に振れたり、顔のサイズが変化したりする状況下においても、同一人物を検出し続ける技術についての提案がなされている。
特許第4389956号公報
 人や車などの所定の物体の認識を、予め学習された認識器を用いて行う場合、以前間違った認識を行ったケースと同様のケースが発生した場合、間違った認識を行ってしまう可能性があった。間違った認識が繰り返されないように、認識器の性能を向上させることが望まれている。
 本技術は、このような状況に鑑みてなされたものであり、認識器の性能を向上させることができるようにするものである。
 本技術の一側面の学習モデルの生成方法は、入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、前記トラッキングの結果に基づいて生成されたデータを用いて、前記学習モデルを再学習する。
 本技術の一側面の情報処理装置は、認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、前記トラッキングの結果に基づいて生成された、前記認識器を再学習するための学習データに基づいて前記認識器の学習モデルを再学習する再学習部を備える。
 本技術の一側面の情報処理システムは、入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理を行う認識処理部と、前記認識処理部により認識された認識結果のうち、所定の基準を満たす認識結果を抽出する抽出部と、前記抽出部により抽出された前記認識結果を対象物とし、前記対象物を、時系列的に逆向きの方向にトラッキングする追跡部と、前記追跡部によりトラッキングされた前記対象物にラベルを付与するラベル付与部と、前記ラベル付与部により付与されたラベルを用いて、前記学習モデルを再学習する再学習部と、前記再学習部で再学習された前記学習モデルで、前記認識処理部の前記認識器を更新する更新部とを備える。
 本技術の一側面の学習モデルの生成方法においては、入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理により認識された対象物が、時系列的に逆向きの方向にトラッキングされ、トラッキングの結果に基づいて生成されたデータが用いられて、学習モデルが再学習される。
 本技術の一側面の情報処理装置においては、認識器を用いた認識処理により認識された対象物が、時系列的に逆向きの方向にトラッキングされ、トラッキングの結果に基づいて生成された、認識器を再学習するための学習データに基づいて認識器の学習モデルが再学習される。
 本技術の一側面の情報処理システムにおいて、入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理が行われ、認識された認識結果のうち、所定の基準を満たす認識結果が抽出され、抽出された認識結果が対象物とされ、対象物が、時系列的に逆向きの方向にトラッキングされ、トラッキングされた対象物にラベルが付与され、付与されたラベルが用いられて、学習モデルが再学習され、再学習された学習モデルで、認識器が更新される。
 なお、情報処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
車両制御システムの構成例を示すブロック図である。 センシング領域の例を示す図である。 本技術を適用した情報処理装置の一実施の形態の構成例を示す図である。 学習の仕方について説明するための図である。 認識結果の一例を示す図である。 認識結果の一例を示す図である。 認識結果の一例を示す図である。 認識結果の一例を示す図である。 認識結果の一例を示す図である。 トラッキングによる検出について説明するための図である。 情報処理装置の動作について説明するためのフローチャートである。 更新基準について説明するための図である。 トラッキングの対象となるフレームについて説明するための図である。 情報処理システムの構成を示す図である。 情報処理装置の動作について説明するためのフローチャートである。 サーバの動作について説明するためのフローチャートである。 情報処理システムの構成を示す図である。 情報処理装置の動作について説明するためのフローチャートである。 サーバの動作について説明するためのフローチャートである。 パーソナルコンピュータの構成例を示す図である。
 以下に、本技術を実施するための形態(以下、実施の形態という)について説明する。
 <車両制御システムの構成例>
 図1は、本技術が適用される移動装置制御システムの一例である車両制御システム11の構成例を示すブロック図である。
 車両制御システム11は、車両1に設けられ、車両1の走行支援及び自動運転に関わる処理を行う。
 車両制御システム11は、プロセッサ21、通信部22、地図情報蓄積部23、GNSS(Global Navigation Satellite System)受信部24、外部認識センサ25、車内センサ26、車両センサ27、記録部28、走行支援・自動運転制御部29、DMS(Driver Monitoring System)30、HMI(Human Machine Interface)31、及び、車両制御部32を備える。
 プロセッサ21、通信部22、地図情報蓄積部23、GNSS受信部24、外部認識センサ25、車内センサ26、車両センサ27、記録部28、走行支援・自動運転制御部29、ドライバモニタリングシステム(DMS)30、ヒューマンマシーンインタフェース(HMI)31、及び、車両制御部32は、通信ネットワーク41を介して相互に接続されている。通信ネットワーク41は、例えば、CAN(Controller Area Network)、LIN(Local Interconnect Network)、LAN(Local Area Network)、FlexRay(登録商標)、イーサネット(登録商標)等の任意の規格に準拠した車載通信ネットワークやバス等により構成される。なお、車両制御システム11の各部は、通信ネットワーク41を介さずに、例えば、近距離無線通信(NFC(Near Field Communication))やBluetooth(登録商標)等により直接接続される場合もある。
 なお、以下、車両制御システム11の各部が、通信ネットワーク41を介して通信を行う場合、通信ネットワーク41の記載を省略するものとする。例えば、プロセッサ21と通信部22が通信ネットワーク41を介して通信を行う場合、単にプロセッサ21と通信部22とが通信を行うと記載する。
 プロセッサ21は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ECU(Electronic Control Unit)等の各種のプロセッサにより構成される。プロセッサ21は、車両制御システム11全体の制御を行う。
 通信部22は、車内及び車外の様々な機器、他の車両、サーバ、基地局等と通信を行い、各種のデータの送受信を行う。車外との通信としては、例えば、通信部22は、車両制御システム11の動作を制御するソフトウエアを更新するためのプログラム、地図情報、交通情報、車両1の周囲の情報等を外部から受信する。例えば、通信部22は、車両1に関する情報(例えば、車両1の状態を示すデータ、認識部73による認識結果等)、車両1の周囲の情報等を外部に送信する。例えば、通信部22は、eコール等の車両緊急通報システムに対応した通信を行う。
 なお、通信部22の通信方式は特に限定されない。また、複数の通信方式が用いられてもよい。
 車内との通信としては、例えば、通信部22は、無線LAN、Bluetooth(登録商標)、NFC、WUSB(Wireless USB)等の通信方式により、車内の機器と無線通信を行う。例えば、通信部22は、図示しない接続端子(及び、必要であればケーブル)を介して、USB(Universal Serial Bus)、HDMI(High-Definition Multimedia Interface、登録商標)、又は、MHL(Mobile High-definition Link)等の通信方式により、車内の機器と有線通信を行う。
 ここで、車内の機器とは、例えば、車内において通信ネットワーク41に接続されていない機器である。例えば、運転者等の搭乗者が所持するモバイル機器やウェアラブル機器、車内に持ち込まれ一時的に設置される情報機器等が想定される。
 例えば、通信部22は、4G(第4世代移動通信システム)、5G(第5世代移動通信システム)、LTE(Long Term Evolution)、DSRC(Dedicated Short Range Communications)等の無線通信方式により、基地局又はアクセスポイントを介して、外部ネットワーク(例えば、インターネット、クラウドネットワーク、又は、事業者固有のネットワーク)上に存在するサーバ等と通信を行う。
 例えば、通信部22は、P2P(Peer To Peer)技術を用いて、自車の近傍に存在する端末(例えば、歩行者若しくは店舗の端末、又は、MTC(Machine Type Communication)端末)と通信を行う。例えば、通信部22は、V2X通信を行う。V2X通信とは、例えば、他の車両との間の車車間(Vehicle to Vehicle)通信、路側器等との間の路車間(Vehicle to Infrastructure)通信、家との間(Vehicle to Home)の通信、及び、歩行者が所持する端末等との間の歩車間(Vehicle to Pedestrian)通信等である。
 例えば、通信部22は、電波ビーコン、光ビーコン、FM多重放送等の道路交通情報通信システム(VICS(Vehicle Information and Communication System)、登録商標)により送信される電磁波を受信する。
 地図情報蓄積部23は、外部から取得した地図及び車両1で作成した地図を蓄積する。例えば、地図情報蓄積部23は、3次元の高精度地図、高精度地図より精度が低く、広いエリアをカバーするグローバルマップ等を蓄積する。
 高精度地図は、例えば、ダイナミックマップ、ポイントクラウドマップ、ベクターマップ(ADAS(Advanced Driver Assistance System)マップともいう)等である。ダイナミックマップは、例えば、動的情報、準動的情報、準静的情報、静的情報の4層からなる地図であり、外部のサーバ等から提供される。ポイントクラウドマップは、ポイントクラウド(点群データ)により構成される地図である。ベクターマップは、車線や信号の位置等の情報をポイントクラウドマップに対応付けた地図である。ポイントクラウドマップ及びベクターマップは、例えば、外部のサーバ等から提供されてもよいし、レーダ52、LiDAR53等によるセンシング結果に基づいて、後述するローカルマップとのマッチングを行うための地図として車両1で作成され、地図情報蓄積部23に蓄積されてもよい。また、外部のサーバ等から高精度地図が提供される場合、通信容量を削減するため、車両1がこれから走行する計画経路に関する、例えば数百メートル四方の地図データがサーバ等から取得される。
 GNSS受信部24は、GNSS衛星からGNSS信号を受信し、走行支援・自動運転制御部29に供給する。
 外部認識センサ25は、車両1の外部の状況の認識に用いられる各種のセンサを備え、各センサからのセンサデータを車両制御システム11の各部に供給する。外部認識センサ25が備えるセンサの種類や数は任意である。
 例えば、外部認識センサ25は、カメラ51、レーダ52、LiDAR(Light Detection and Ranging、Laser Imaging Detection and Ranging)53、及び、超音波センサ54を備える。カメラ51、レーダ52、LiDAR53、及び、超音波センサ54の数は任意であり、各センサのセンシング領域の例は後述する。
 なお、カメラ51には、例えば、ToF(Time Of Flight)カメラ、ステレオカメラ、単眼カメラ、赤外線カメラ等の任意の撮影方式のカメラが、必要に応じて用いられる。
 また、例えば、外部認識センサ25は、天候、気象、明るさ等を検出するための環境センサを備える。環境センサは、例えば、雨滴センサ、霧センサ、日照センサ、雪センサ、照度センサ等を備える。
 さらに、例えば、外部認識センサ25は、車両1の周囲の音や音源の位置の検出等に用いられるマイクロフォンを備える。
 車内センサ26は、車内の情報を検出するための各種のセンサを備え、各センサからのセンサデータを車両制御システム11の各部に供給する。車内センサ26が備えるセンサの種類や数は任意である。
 例えば、車内センサ26は、カメラ、レーダ、着座センサ、ステアリングホイールセンサ、マイクロフォン、生体センサ等を備える。カメラには、例えば、ToFカメラ、ステレオカメラ、単眼カメラ、赤外線カメラ等の任意の撮影方式のカメラを用いることができる。生体センサは、例えば、シートやステアリングホイール等に設けられ、運転者等の搭乗者の各種の生体情報を検出する。
 車両センサ27は、車両1の状態を検出するための各種のセンサを備え、各センサからのセンサデータを車両制御システム11の各部に供給する。車両センサ27が備えるセンサの種類や数は任意である。
 例えば、車両センサ27は、速度センサ、加速度センサ、角速度センサ(ジャイロセンサ)、及び、慣性計測装置(IMU(Inertial Measurement Unit))を備える。例えば、車両センサ27は、ステアリングホイールの操舵角を検出する操舵角センサ、ヨーレートセンサ、アクセルペダルの操作量を検出するアクセルセンサ、及び、ブレーキペダルの操作量を検出するブレーキセンサを備える。例えば、車両センサ27は、エンジンやモータの回転数を検出する回転センサ、タイヤの空気圧を検出する空気圧センサ、タイヤのスリップ率を検出するスリップ率センサ、及び、車輪の回転速度を検出する車輪速センサを備える。例えば、車両センサ27は、バッテリの残量及び温度を検出するバッテリセンサ、及び、外部からの衝撃を検出する衝撃センサを備える。
 記録部28は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disc Drive)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイス等を備える。記録部28は、車両制御システム11の各部が用いる各種プログラムやデータ等を記録する。例えば、記録部28は、自動運転に関わるアプリケーションプログラムが動作するROS(Robot Operating System)で送受信されるメッセージを含むrosbagファイルを記録する。例えば、記録部28は、EDR(Event Data Recorder)やDSSAD(Data Storage System for Automated Driving)を備え、事故等のイベントの前後の車両1の情報を記録する。
 走行支援・自動運転制御部29は、車両1の走行支援及び自動運転の制御を行う。例えば、走行支援・自動運転制御部29は、分析部61、行動計画部62、及び、動作制御部63を備える。
 分析部61は、車両1及び周囲の状況の分析処理を行う。分析部61は、自己位置推定部71、センサフュージョン部72、及び、認識部73を備える。
 自己位置推定部71は、外部認識センサ25からのセンサデータ、及び、地図情報蓄積部23に蓄積されている高精度地図に基づいて、車両1の自己位置を推定する。例えば、自己位置推定部71は、外部認識センサ25からのセンサデータに基づいてローカルマップを生成し、ローカルマップと高精度地図とのマッチングを行うことにより、車両1の自己位置を推定する。車両1の位置は、例えば、後輪対車軸の中心が基準とされる。
 ローカルマップは、例えば、SLAM(Simultaneous Localization and Mapping)等の技術を用いて作成される3次元の高精度地図、占有格子地図(Occupancy Grid Map)等である。3次元の高精度地図は、例えば、上述したポイントクラウドマップ等である。占有格子地図は、車両1の周囲の3次元又は2次元の空間を所定の大きさのグリッド(格子)に分割し、グリッド単位で物体の占有状態を示す地図である。物体の占有状態は、例えば、物体の有無や存在確率により示される。ローカルマップは、例えば、認識部73による車両1の外部の状況の検出処理及び認識処理にも用いられる。
 なお、自己位置推定部71は、GNSS信号、及び、車両センサ27からのセンサデータに基づいて、車両1の自己位置を推定してもよい。
 センサフュージョン部72は、複数の異なる種類のセンサデータ(例えば、カメラ51から供給される画像データ、及び、レーダ52から供給されるセンサデータ)を組み合わせて、新たな情報を得るセンサフュージョン処理を行う。異なる種類のセンサデータを組合せる方法としては、統合、融合、連合等がある。
 認識部73は、車両1の外部の状況の検出処理及び認識処理を行う。
 例えば、認識部73は、外部認識センサ25からの情報、自己位置推定部71からの情報、センサフュージョン部72からの情報等に基づいて、車両1の外部の状況の検出処理及び認識処理を行う。
 具体的には、例えば、認識部73は、車両1の周囲の物体の検出処理及び認識処理等を行う。物体の検出処理とは、例えば、物体の有無、大きさ、形、位置、動き等を検出する処理である。物体の認識処理とは、例えば、物体の種類等の属性を認識したり、特定の物体を識別したりする処理である。ただし、検出処理と認識処理とは、必ずしも明確に分かれるものではなく、重複する場合がある。
 例えば、認識部73は、LiDAR又はレーダ等のセンサデータに基づくポイントクラウドを点群の塊毎に分類するクラスタリングを行うことにより、車両1の周囲の物体を検出する。これにより、車両1の周囲の物体の有無、大きさ、形状、位置が検出される。
 例えば、認識部73は、クラスタリングにより分類された点群の塊の動きを追従するトラッキングを行うことにより、車両1の周囲の物体の動きを検出する。これにより、車両1の周囲の物体の速度及び進行方向(移動ベクトル)が検出される。
 例えば、認識部73は、カメラ51から供給される画像データに対してセマンティックセグメンテーション等の物体認識処理を行うことにより、車両1の周囲の物体の種類を認識する。
 なお、検出又は認識対象となる物体としては、例えば、車両、人、自転車、障害物、構造物、道路、信号機、交通標識、道路標示等が想定される。
 例えば、認識部73は、地図情報蓄積部23に蓄積されている地図、自己位置の推定結果、及び、車両1の周囲の物体の認識結果に基づいて、車両1の周囲の交通ルールの認識処理を行う。この処理により、例えば、信号の位置及び状態、交通標識及び道路標示の内容、交通規制の内容、並びに、走行可能な車線等が認識される。
 例えば、認識部73は、車両1の周囲の環境の認識処理を行う。認識対象となる周囲の環境としては、例えば、天候、気温、湿度、明るさ、及び、路面の状態等が想定される。
 行動計画部62は、車両1の行動計画を作成する。例えば、行動計画部62は、経路計画、経路追従の処理を行うことにより、行動計画を作成する。
 なお、経路計画(Global path planning)とは、スタートからゴールまでの大まかな経路を計画する処理である。この経路計画には、軌道計画と言われ、経路計画で計画された経路において、車両1の運動特性を考慮して、車両1の近傍で安全かつ滑らかに進行することが可能な軌道生成(Local path planning)の処理も含まれる。
 経路追従とは、経路計画により計画した経路を計画された時間内で安全かつ正確に走行するための動作を計画する処理である。例えば、車両1の目標速度と目標角速度が計算される。
 動作制御部63は、行動計画部62により作成された行動計画を実現するために、車両1の動作を制御する。
 例えば、動作制御部63は、ステアリング制御部81、ブレーキ制御部82、及び、駆動制御部83を制御して、軌道計画により計算された軌道を車両1が進行するように、加減速制御及び方向制御を行う。例えば、動作制御部63は、衝突回避あるいは衝撃緩和、追従走行、車速維持走行、自車の衝突警告、自車のレーン逸脱警告等のADASの機能実現を目的とした協調制御を行う。例えば、動作制御部63は、運転者の操作によらずに自律的に走行する自動運転等を目的とした協調制御を行う。
 DMS30は、車内センサ26からのセンサデータ、及び、HMI31に入力される入力データ等に基づいて、運転者の認証処理、及び、運転者の状態の認識処理等を行う。認識対象となる運転者の状態としては、例えば、体調、覚醒度、集中度、疲労度、視線方向、酩酊度、運転操作、姿勢等が想定される。
 なお、DMS30が、運転者以外の搭乗者の認証処理、及び、当該搭乗者の状態の認識処理を行うようにしてもよい。また、例えば、DMS30が、車内センサ26からのセンサデータに基づいて、車内の状況の認識処理を行うようにしてもよい。認識対象となる車内の状況としては、例えば、気温、湿度、明るさ、臭い等が想定される。
 HMI31は、各種のデータや指示等の入力に用いられ、入力されたデータや指示等に基づいて入力信号を生成し、車両制御システム11の各部に供給する。例えば、HMI31は、タッチパネル、ボタン、マイクロフォン、スイッチ、及び、レバー等の操作デバイス、並びに、音声やジェスチャ等により手動操作以外の方法で入力可能な操作デバイス等を備える。なお、HMI31は、例えば、赤外線若しくはその他の電波を利用したリモートコントロール装置、又は、車両制御システム11の操作に対応したモバイル機器若しくはウェアラブル機器等の外部接続機器であってもよい。
 また、HMI31は、搭乗者又は車外に対する視覚情報、聴覚情報、及び、触覚情報の生成及び出力、並びに、出力内容、出力タイミング、出力方法等を制御する出力制御を行う。視覚情報は、例えば、操作画面、車両1の状態表示、警告表示、車両1の周囲の状況を示すモニタ画像等の画像や光により示される情報である。聴覚情報は、例えば、ガイダンス、警告音、警告メッセージ等の音声により示される情報である。触覚情報は、例えば、力、振動、動き等により搭乗者の触覚に与えられる情報である。
 視覚情報を出力するデバイスとしては、例えば、表示装置、プロジェクタ、ナビゲーション装置、インストルメントパネル、CMS(Camera Monitoring System)、電子ミラー、ランプ等が想定される。表示装置は、通常のディスプレイを有する装置以外にも、例えば、ヘッドアップディスプレイ、透過型ディスプレイ、AR(Augmented Reality)機能を備えるウエアラブルデバイス等の搭乗者の視界内に視覚情報を表示する装置であってもよい。
 聴覚情報を出力するデバイスとしては、例えば、オーディオスピーカ、ヘッドホン、イヤホン等が想定される。
 触覚情報を出力するデバイスとしては、例えば、ハプティクス技術を用いたハプティクス素子等が想定される。ハプティクス素子は、例えば、ステアリングホイール、シート等に設けられる。
 車両制御部32は、車両1の各部の制御を行う。車両制御部32は、ステアリング制御部81、ブレーキ制御部82、駆動制御部83、ボディ系制御部84、ライト制御部85、及び、ホーン制御部86を備える。
 ステアリング制御部81は、車両1のステアリングシステムの状態の検出及び制御等を行う。ステアリングシステムは、例えば、ステアリングホイール等を備えるステアリング機構、電動パワーステアリング等を備える。ステアリング制御部81は、例えば、ステアリングシステムの制御を行うECU等の制御ユニット、ステアリングシステムの駆動を行うアクチュエータ等を備える。
 ブレーキ制御部82は、車両1のブレーキシステムの状態の検出及び制御等を行う。ブレーキシステムは、例えば、ブレーキペダル等を含むブレーキ機構、ABS(Antilock Brake System)等を備える。ブレーキ制御部82は、例えば、ブレーキシステムの制御を行うECU等の制御ユニット、ブレーキシステムの駆動を行うアクチュエータ等を備える。
 駆動制御部83は、車両1の駆動システムの状態の検出及び制御等を行う。駆動システムは、例えば、アクセルペダル、内燃機関又は駆動用モータ等の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構等を備える。駆動制御部83は、例えば、駆動システムの制御を行うECU等の制御ユニット、駆動システムの駆動を行うアクチュエータ等を備える。
 ボディ系制御部84は、車両1のボディ系システムの状態の検出及び制御等を行う。ボディ系システムは、例えば、キーレスエントリシステム、スマートキーシステム、パワーウインドウ装置、パワーシート、空調装置、エアバッグ、シートベルト、シフトレバー等を備える。ボディ系制御部84は、例えば、ボディ系システムの制御を行うECU等の制御ユニット、ボディ系システムの駆動を行うアクチュエータ等を備える。
 ライト制御部85は、車両1の各種のライトの状態の検出及び制御等を行う。制御対象となるライトとしては、例えば、ヘッドライト、バックライト、フォグライト、ターンシグナル、ブレーキライト、プロジェクション、バンパーの表示等が想定される。ライト制御部85は、ライトの制御を行うECU等の制御ユニット、ライトの駆動を行うアクチュエータ等を備える。
 ホーン制御部86は、車両1のカーホーンの状態の検出及び制御等を行う。ホーン制御部86は、例えば、カーホーンの制御を行うECU等の制御ユニット、カーホーンの駆動を行うアクチュエータ等を備える。
 図2は、図1の外部認識センサ25のカメラ51、レーダ52、LiDAR53、及び、超音波センサ54によるセンシング領域の例を示す図である。
 センシング領域101F及びセンシング領域101Bは、超音波センサ54のセンシング領域の例を示している。センシング領域101Fは、車両1の前端周辺をカバーしている。センシング領域101Bは、車両1の後端周辺をカバーしている。
 センシング領域101F及びセンシング領域101Bにおけるセンシング結果は、例えば、車両1の駐車支援等に用いられる。
 センシング領域102F乃至センシング領域102Bは、短距離又は中距離用のレーダ52のセンシング領域の例を示している。センシング領域102Fは、車両1の前方において、センシング領域101Fより遠い位置までカバーしている。センシング領域102Bは、車両1の後方において、センシング領域101Bより遠い位置までカバーしている。センシング領域102Lは、車両1の左側面の後方の周辺をカバーしている。センシング領域102Rは、車両1の右側面の後方の周辺をカバーしている。
 センシング領域102Fにおけるセンシング結果は、例えば、車両1の前方に存在する車両や歩行者等の検出等に用いられる。センシング領域102Bにおけるセンシング結果は、例えば、車両1の後方の衝突防止機能等に用いられる。センシング領域102L及びセンシング領域102Rにおけるセンシング結果は、例えば、車両1の側方の死角における物体の検出等に用いられる。
 センシング領域103F乃至センシング領域103Bは、カメラ51によるセンシング領域の例を示している。センシング領域103Fは、車両1の前方において、センシング領域102Fより遠い位置までカバーしている。センシング領域103Bは、車両1の後方において、センシング領域102Bより遠い位置までカバーしている。センシング領域103Lは、車両1の左側面の周辺をカバーしている。センシング領域103Rは、車両1の右側面の周辺をカバーしている。
 センシング領域103Fにおけるセンシング結果は、例えば、信号機や交通標識の認識、車線逸脱防止支援システム等に用いられる。センシング領域103Bにおけるセンシング結果は、例えば、駐車支援、及び、サラウンドビューシステム等に用いられる。センシング領域103L及びセンシング領域103Rにおけるセンシング結果は、例えば、サラウンドビューシステム等に用いられる。
 センシング領域104は、LiDAR53のセンシング領域の例を示している。センシング領域104は、車両1の前方において、センシング領域103Fより遠い位置までカバーしている。一方、センシング領域104は、センシング領域103Fより左右方向の範囲が狭くなっている。
 センシング領域104におけるセンシング結果は、例えば、緊急ブレーキ、衝突回避、歩行者検出等に用いられる。
 センシング領域105は、長距離用のレーダ52のセンシング領域の例を示している。センシング領域105は、車両1の前方において、センシング領域104より遠い位置までカバーしている。一方、センシング領域105は、センシング領域104より左右方向の範囲が狭くなっている。
 センシング領域105におけるセンシング結果は、例えば、ACC(Adaptive Cruise Control)等に用いられる。
 なお、各センサのセンシング領域は、図2以外に各種の構成をとってもよい。具体的には、超音波センサ54が車両1の側方もセンシングするようにしてもよいし、LiDAR53が車両1の後方をセンシングするようにしてもよい。
 <情報処理装置の構成例>
 図3は、本技術を適用した情報処理装置の一実施の形態の構成を示す図である。情報処理装置110は、例えば車両1に車載され、撮像された画像を解析して、人や車といった所定の物体を認識する装置として用いることができる。本実施の形態における情報処理装置110は、認識処理を実行するときに、機械学習などの学習モデルが適用された認識器を用いて認識を行い、誤検出が少なくなるように、認識器を更新する機能を有する。
 図3に示した情報処理装置110は、画像取得部121、認識処理部122、抽出部123、認識対象追跡部124、ラベル付与部125、再学習部126、および認識器更新部127を備えている。
 画像取得部121は、画像を撮像する撮像部(不図示)により撮像された画像の画像データを取得する。画像取得部121は、例えば、カメラ51(図1)により撮像された画像を取得する。認識処理部122は、画像取得部121で取得された画像を解析し、人や車といった所定の物体を、認識器(学習モデル)を用いて認識する。認識処理部122は、入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理を実行する。
 情報処理装置110が、例えば車載に搭載されているような場合、情報処理装置110で認識された認識結果を、認識された物体を避けるためのハンドル操作やブレーキ操作を補助したりするための半自動運転に用いることができる。
 情報処理装置110の認識処理部122からの認識結果は、抽出部123に供給される。抽出部123は、後述する認識器の更新を行う条件が満たされている認識結果を抽出する。抽出部123からの抽出結果は、認識対象追跡部124に供給される。認識対象追跡部124は、抽出された認識結果を、複数フレームにわたって追跡する。この複数フレームは、時系列的に逆向きの方向(過去の方向)で撮像されたフレームであり、認識対象追跡部124は、時系列に逆向きの方向に認識対象を追跡する処理を実行する。
 認識対象追跡部124による追跡結果は、ラベル付与部125に供給される。ラベル付与部125は、追跡された認識対象にラベルを付与する。ラベルが付与された認識対象は、再学習部126に供給される。再学習部126は、ラベルが付与されている認識対象を用いて認識器の再学習を行う。再学習により生成された新たな認識器は、認識器更新部127に供給される。認識器更新部127は、認識処理部122の認識器を、再学習部126により再学習された認識器に更新する。
 再学習部126は、認識処理部122の認識器が有するパラメータ(モデルパラメータと称されることがあるパラメータ)の学習を実行する機能を有する。学習には、例えば、RNN(Recurrent Neural Network:再帰型ニューラルネットワーク)、CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)等のニューラルネットワークを用いた各種の機械学習技術が用いることができる。
 学習処理について、図4を参照して説明を加える。認識器には、画像に写されている複数の被写体を分類するラベルが予め作成されているラベル有り画像が入力される。例えば、認識器は、ラベル有り画像に対する画像認識を行って、そのラベル有り画像に写されている複数の被写体を認識し、それぞれの被写体を分類した認識結果を出力する。
 認識器から出力される認識結果と、ラベル有り画像についての正解ラベルとの比較が行われ、認識結果を正解ラベルに近づけるように認識器に対するフィードバックが行われる。このように、正解ラベルを用いて、認識器(の学習モデル)がより正確な認識を行うように学習が行われる。学習済みの学習モデルを用いて、認識処理部122が認識処理を行うように構成することができる。
 なおここで示した学習処理は、一例であり、他の学習処理により学習が行われたり、他の学習処理により得られた認識器が用いられたりする場合にも本技術を適用することはできる。学習処理として、ラベル有り画像や正解ラベルを用いない学習処理を、本技術に適用することも可能である。
 再学習部126は、図4に示したような学習処理により認識器(学習モデル)を再学習する。例えば、認識処理部122からの認識結果を、ラベル有り画像として用い、ラベル付与部125によりラベルが付与された画像を、正解ラベルとして用いて、認識器の再学習を行う。
 再学習は、所定の時刻に撮像されたフレームを基準として、その基準とされたフレームより前の時点で撮像されている数フレームが用いられて再学習が行われる。再学習は、誤検出が少なくなる認識器を生成するために行われるが、誤検出としては、認識対象、例えば人や車といった物体が、画像に写っているにもかかわらず検出されなかった場合や、検出はされたが誤った物体として検出された場合、例えば、人であるのに車であると検出された場合などがある。
 このような誤検出と再学習について、以下に撮像された画像例を参照しながら説明を加える。ここでは、車載カメラにより撮像された画像を処理する場合を例に挙げて説明を行う。
 図5乃至図9は、時刻t1、時刻t2、時刻t3、時刻t4、時刻t5にそれぞれ撮像された画像(フレーム)の一例を示す図である。図5乃至図9には、フレームF1乃至F5がそれぞれ認識処理部122で処理されることにより認識(検出)された物体に対して表示される検出枠も図示してある。時刻t1、時刻t2、時刻t3、時刻t4、時刻t5の順に時間が経過する、換言すれば、時刻t1が最も古く(過去)、時刻t5が最も新しい(現時点)として説明を続ける。
 図5に示したフレームF1の左側には、車C11と車C12が撮像され、前方には車C13が撮像されている。また、右側には、人H11が撮像されている。フレームF1が認識処理部122(図3)で処理されることで、車C11、車C12、および車C13が検出される。検出された物体は、四角形状の検出枠で囲まれる。
 図5では、車C11は、検出枠BC11で囲まれ、車C12は、検出枠BC12で囲まれ、車C13は、検出枠BC13で囲まれている。図5に示した例では、人H11は撮像されているが、検出されていないため、検出枠は表示されていない。
 車や人といった所定の物体を検出する方法として、セマンティックセグメンテーション(Semantic Segmentation)、インスタンスセグメンテーション(Instance Segmentation)、パノプティックセグメンテーション(Panoptic Segmentation)などを適用することができる。
 セマンティックセグメンテーションは、画像上の全てのピクセルをクラスに分類し、ピクセル毎にラベルを付ける方法である。インスタンスセグメンテーションは、物体毎の領域を分割し、物体の種類を認識する方法である。パノプティックセグメンテーションは、セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせた方法であり、物体の種類を認識することができ、全てのピクセルに対してラベルが付けを行うことができる方法である。
 ここでは、パノプティックセグメンテーションを適用しているとして説明を続けるが、本技術はパノプティックセグメンテーション以外の上記した方法や、ここでは例示していない認識方法であっても、本技術に適用できる。
 なお、パノプティックセグメンテーションにより認識を行った場合、その結果を、図5に示したような画像として表示した場合、同一ラベルが付けられたピクセルを同一色で表示することができる。例えば、車C11とのラベルが付けられたピクセルを赤色で表し、車C12とのラベルが付けられたピクセルを青色で表しといったように、異なる物体は、異なる色で表示することができる。図5乃至図9においては、色は図示していないが、異なる物体は異なる物体として検出され、それぞれ異なる色で表示されている。
 図5に示したフレームF1では、人H11が撮像されているが、人H11は検出されていないという誤検出が発生している。
 図6は、時刻t1よりも後の時刻(所定の時間が経過した時刻)の時刻t2において撮像されたフレームF2の一例を示す図である。車が前進したため、フレームF1(図5)に撮像されていた車C11と車C12は、撮像範囲外になり、フレームF2には撮像されていない状態である。車C23は、フレームF1における車C13に該当し、フレーム2においても検出され、検出枠BC23で囲まれている。
 フレームF2では、人H11(図5)に該当する人H21も撮像されているが、検出されていない状態である。フレームF2では、新たに、人H22と人H23が検出され、それぞれ検出枠BH22と検出枠BH23で囲まれている。
 検出枠は、ラベルにより異なる色や線種で表示することができる。図6では、車というラベルが付けられた認識結果には、実線の検出枠が表示され、人というラベルが付けられた認識結果には、点線の検出枠が表示される例を示している。
 図7は、時刻t2よりも後の時刻の時刻t3において撮像されたフレームF3の一例を示す図である。フレームF3には、人H11(図5)、人H21(図6)に該当する人H31と、人H22(図6)に該当する人H32が撮像されている。人H31と人H32は、それぞれ検出されている。人H31は、誤って車として検出されたため、車のラベルが付けられ、車のときに表示される検出枠BC31が人H31を囲むように表示されている。人H32は、正しく人として検出されたため、人のときに表示される検出枠BH32が人H32を囲むように表示されている。
 図8は、時刻t3よりも後の時刻の時刻t4において撮像されたフレームF4の一例を示す図である。フレームF4には、人H11(図5)、人H21(図6)、人H31(図7)に該当する人H41と、人H44が撮像されている。人H41と人H44は、それぞれ人として正しく検出されているため、人のときに表示される検出枠BH41と検出枠BH44がそれぞれ表示されている。
 図9は、時刻t4よりも後の時刻の時刻t5において撮像されたフレームF5の一例を示す図である。フレームF5には、人H11(図5)、人H21(図6)、人H31(図7)、人H41(図8)に該当する人H51と、人H44(図9)に該当する人H54が撮像されている。人H51と人H54は、それぞれ人として正しく検出されているため、人のときに表示される検出枠BH51と検出枠BH54がそれぞれ表示されている。
 このようにフレームF1乃至F5が撮像され、認識処理結果が出された場合について考える。図10は、フレームF1とフレームF5を並べて図示した図である。図10では人H11と人H51に注目する。フレームF1では、人H11は撮像されているが、検出はされていない状態である。フレームF5では、人H51は撮像され、検出されている状態である。
 フレームF1において撮像されている人H11は、フレームF1の時点では検出されていない。換言すれば、フレームF1においては、検出されるべき人H11が検出されていないという誤検出が発生している。
 人H11は、フレームF5においては、人H51として検出されている。人H11は、人H21(フレームF2)、人H31(フレームF3)、人H41(フレームF4)、および人H51(フレームH5)として撮像されている。すなわち人H11は、フレームF1からF5まで連続的に撮像されている。このようなとき、フレームF5、フレームF4、フレームF3、フレームF2、フレームF1の順で人H51をトラッキングした場合、人H51、人H41、人H31、人H21、人H11の順で検出(トラッキング)することができる。
 過去にさかのぼるトラッキングを行うことで、各フレームで人H51に該当する人に対して、ラベルを付けることができる。例えば、フレームF1において、人H11にラベルを付けることができる。このラベルを付けたフレームF1を用いた学習を行うことで、フレームF1のような画像から人H11を検出して、ラベルを付けることができる認識器を生成することができる。
 フレームF3(図7)において、人H31は、車として検出されるという誤検出が発生しているが、フレームF3に対しても、フレームF5、フレームF4からのトラッキングが行われることで、人H51、人H41、人H31とトラッキングが行われるため、人H31は、人というラベルが付けられる。人H31に対して人というラベルが付けられたフレームF3を用いた学習を行うことで、フレームF3のような画像から人H31を検出し、人という正しいラベルを付けることができる認識器を生成することができる。
 フレームF5では、人H51と人H54が撮像されている。人H54に該当する人は、フレームF3乃至F1では検出されていない。仮に、フレームF3乃至F1においても、人H54に該当する人が撮像されていた場合、人H54に該当する人を過去方向にトラッキングすることで、人H54に該当する人を、フレームF3乃至F1において検出し、ラベルを付けることができる。トラッキングの結果、フレームF3乃至F1においても、人H54に該当する人にラベルが付けられれば、そのフレームF3乃至F1を用いた学習を行うことで、フレームF3乃至F1のような画像においても、人H54に該当する人を検出できる認識器を生成することができる。
 このように、時間方向で逆向きにたどることで、検出されていなかった物体を検出したり、誤った認識が行われた物体を正しい認識で検出したりすることができる。そのような時間方向で逆向きにたどることで新たにラベル付けがされた画像を用いた学習を行うことができる。その結果、誤検出が少ない認識器(学習モデル)を生成することができる。
 <情報処理装置の処理について>
 情報処理装置110は、このような学習(再学習)に係わる処理を実行する。図11に示したフローチャートを参照し、情報処理装置110(図3)の処理について説明する。
 ステップS111において、画像取得部121は、画像データ(フレーム)を取得する。ステップS112において、認識処理部122は、画像取得部121で取得された画像データに基づく画像を解析することで、認識処理を行う学習モデルが適用された認識器を用いた認識処理を実行する。認識処理部122が行う認識処理は、人や車といった所定の物体を認識する認識器を用いた処理であり、例えば、図5を参照して説明したように、フレームF1から、車C11を検出し、車というラベルを付与する処理である。
 ステップS113において、抽出部123は、更新基準を満たす認識結果を抽出する。更新基準とは、認識器の更新が必要なデータか否かを判定する基準である。更新基準とは、認識結果のうち、以下に説明する基準を満たす認識結果があった場合、再学習を行うと判定するための基準である。
 ここでは、認識処理部122の認識処理で検出された物体を認識結果と記載し、抽出部123で抽出された認識結果を、認識対象と記載する。後述するように、認識対象は、トラッキングの対象となる認識結果である。更新基準について図12を参照して説明する。
 図12のAに示すように、第1の更新基準として、認識結果のサイズBxが、画像Fxの面積のx%以上の認識結果があった場合、その認識結果を認識対象として抽出するという基準を設ける。認識結果のサイズとは、例えば、フレームF1(図5)において、車C11の検出枠BC11で囲まれている領域の面積とすることができる。面積ではなく、高さや幅であっても良く、車C11の検出枠BC11の高さまたは幅とし、高さや幅が、所定の大きさ以上であれば、認識対象として抽出するようにしても良い。画像Fxの面積とは、例えば、フレームF1の画像サイズである。
 第1の更新基準は、ある程度の大きさで検出された物体があった場合、その物体をトラッキング対象、すなわちこの場合認識対象として設定する基準である。一般的に、所定の物体として検出されたサイズが小さい場合よりも、大きい場合の方が、検出結果に対する信頼性が高く、誤検出である可能性が低い。よって、そのような精度が高い状態で検出されている物体を、認識対象として再学習が行われるようにするために、第1の更新基準を設ける。
 なお、第1の更新基準は、認識結果により、x%の値が異なるようにしても良い。例えば、認識結果が人である場合と、車である場合とで、同じx%の値を用いた場合、車の方が人よりも大きいため、認識結果が車のときには、第1の更新基準を満たしやすいが、認識結果が人の場合には、第1の更新基準を満たしづらいと考えられる。そこで、x%の値は、認識結果のラベルにより可変値とし、認識結果毎に、異なるxを用いて第1の更新基準を満たすか否かが判定されるようにしても良い。
 図12のBに示すように第2の更新基準として、画像Fyの辺からの距離がy%以上のところまである認識結果があった場合、その認識結果を認識対象として抽出するという基準を設ける。画像Fyは、1フレームのことであり、フレームの一辺とは、例えば、図12のBに示したように、左辺や右辺のことである。辺からの距離がy%以上とは、例えば、フレームの横方向の長さ(右辺から左辺までの距離)を100%としたときの割合である。
 例えば、フレームF1(図5)を参照するに、車C11は、見切れた状態で撮像されている。このような見切れた状態で撮像されている物体は、認識対象としないようにするための基準が、第2の更新基準である。
 なお、図12のBでは、横方向の距離(左辺および右辺からの距離)を例に挙げて説明したが、縦方向の距離(上辺および下辺からの距離)であっても良い。横方向の距離と縦方向の距離の両方に基準を設けても良い。また第1の更新基準と同じく、ラベルにより、異なるy%が用いられるようにしても良い。
 第1の更新基準、または/および、第2の更新基準を満たす認識結果を、抽出部123は抽出し、抽出された場合、その認識結果を、トラッキングの対象とする認識対象として設定する。認識対象が設定された場合、その認識対象が抽出されたフレームを基準として、過去の数フレームが、トラッキング対象のフレームとして設定される。
 図13を参照するに、例えば、時刻Tにおいて、第1の更新基準、または/および、第2の更新基準を満たす認識結果が抽出された場合、時刻Tより前の時刻T0-mまでの間に撮像されたmフレームが処理対象のフレームとして設定される。
 第3の更新基準は、mフレーム連続して検出された認識結果があった場合、その認識結果を認識対象として抽出するという基準を設ける。mフレームに渡って、検出されているということは、その物体は精度が高い状態で検出されているといえる。そのような精度が高い状態で検出されている認識結果があった場合、その認識結果が認識対象として抽出される。
 第3の更新基準を満たすか否かを判定するために、抽出部123は、複数フレーム記憶する記憶部(不図示)を有する。抽出部123により、第3の更新基準を満たす認識結果を抽出された場合、図13に示したように、mフレームより過去に撮像されたnフレームが処理対象のフレームとして設定される。図13を参照するに、例えば、時刻Tにおいて第3の更新基準を満たす認識結果が抽出された場合、時刻Tより前の時刻T0-mまでの間に撮像されたmフレームに連続して検出された認識結果があったことになる。このような場合、時刻T0-mより前の時刻T0-m-nまでの間に撮像されたnフレームが、処理対象のフレームとして設定される。
 なお、第3の更新基準におけるmフレーム(フレーム数)は、固定値であっても良いし、可変値であっても良い。フレーム数を可変値とした場合、例えば、車速、フレームレート、認識結果のサイズなどから、mが設定されるようにしても良い。これらの情報から、認識結果のサイズが高さhmin、幅wminになるフレームを推定し、そのサイズになるまでのフレーム数がmとして設定されるようにしても良い。
 例えば、車速が早ければ、単位時間内に進む距離は長くなり、撮像されていた物体の入れ替わりも多くなるため、複数フレームに写り続ける物体は少なくなる。車速が早い場合、mフレームのmを小さくしないと、認識対象となる物体が抽出されづらくなる可能性がある。一方で、車速が遅い場合、複数フレームに写り続ける物体が多くなり、mフレームのmを大きくしないと、認識対象となる物体が多く抽出され、その結果、再学習が頻繁に実行される可能性がある。
 このようなことを考慮し、上記したように車速やフレームレートなどに応じて、mフレームのmが設定されるようにしても良い。
 認識結果のサイズが高さhmin、幅wminとは、所定の認識結果が、最初に撮像または検出されたときのサイズである。このようなサイズになるのは何フレーム前であるのか、換言すれば、何フレーム前に所定の認識結果が認識されたかが推定され、その推定されたフレーム数が、mとして設定されるようにしても良い。このmは、車速、フレームレート、認識結果のサイズといった情報から推定することができる。
 mフレームのmは、認識対象のサイズに対してmを与える対応表が参照されることで設定されたり、所定の関数により算出されたりするようにしても良い。
 第4の更新基準は、上記した第1乃至第3の更新基準を組み合わせた基準である。
 第1の更新基準と第2の更新基準を組み合わせ、認識結果のサイズが、フレームのサイズのx%以上であり、かつ、フレームの辺からの距離がy%以上の認識結果を、認識対象として抽出するという第4の更新基準を設けても良い。この場合、ある程度の大きさで検出され、見切れていない状態で撮像されている可能性が高い物体が抽出される。
 第1の更新基準と第3の更新基準を組み合わせ、認識結果のサイズが、フレームのサイズのx%以上の認識結果が、mフレーム連続して検出されているとき、その認識結果を、認識対象として抽出するという第4の更新基準を設けても良い。この場合、ある程度の大きさで検出され、数フレームに渡り安定して検出されている物体が抽出される。
 第2の更新基準と第3の更新基準を組み合わせ、フレームの辺からの距離がy%以上の認識結果が、mフレーム連続して検出されているとき、その認識結果を、認識対象として抽出するという第4の更新基準を設けても良い。この場合、見切れていない状態で撮像されている可能性が高く、数フレームに渡り安定して検出されている物体が抽出される。
 第1乃至第3の更新基準を組み合わせ、フレームのサイズのx%以上であり、かつ、フレームの辺からの距離がy%以上の認識結果が、mフレーム連続して検出されているとき、その認識結果を、認識対象として抽出するという第4の更新基準を設けても良い。この場合、ある程度の大きさで検出され、見切れていない状態で撮像され、数フレームに渡り安定して検出されている物体が抽出される。
 このような更新基準を設け、抽出部123(図3)は、更新基準を満たす認識結果を抽出する。ステップS113(図11)において、抽出部123により、更新基準を満たす認識結果を抽出する処理が実行されると、その処理結果を用いて、ステップS114の判定が行われる。ステップS114において、更新基準を満たす認識結果があったか否かが判定される。
 ステップS114において、更新基準を満たす認識結果はなかったと判定された場合、ステップS111に処理が戻され、それ以降の処理が繰り返される。
 一方、ステップS114において、更新基準を満たす認識結果があったと判定された場合、ステップS115に処理は進められる。抽出部123は、更新基準を満たす認識結果があった場合、その認識結果に係わる情報、すなわち認識対象に係わる情報を、認識対象追跡部134に出力する。認識対象に係わる情報とは、例えば、認識対象の座標、サイズ、ラベルなどの情報である。
 ステップS115において、認識対象追跡部124は、一番古いフレームを選択する。一番古いフレームとは、第1乃至第4の更新基準のうち、どの更新基準を用いているかにより異なる。第1または第2の更新基準、または、第4の更新基準として第1と第2の更新基準を組み合わせた基準を用いている場合、抽出の処理対象とされていたフレーム、換言すれば、認識対象が抽出されたフレームが一番古いフレームとされる。例えば、時刻Tにおいて、更新基準を満たす認識結果があったと判定された場合、その認識結果を含むフレームが一番古いフレームとして設定される。
 第3の更新基準を用いている場合、または第4の更新基準として、第1の更新基準と第3の更新基準を組み合わせた基準、第2の更新基準と第3の更新基準を組み合わせた基準、または第1乃至第3の更新基準を組み合わせた基準を用いている場合、図13を参照して説明したように、時刻T0-mから時刻T0の間のmフレームで連続して検出された認識結果が認識対象とされるため、一番古いフレームは、時刻T0-mのときに撮像されたフレームとなる。
 ステップS116において、選択された認識対象の過去Nフレームを対象としたトラッキングが行われる。選択された認識対象とは、複数の認識対象が抽出された場合、そのうちの1つを選択して、トラッキングの対象としたときの認識対象のことである。過去Nフレームとは、ステップS115において選択された一番古いフレームを含み、その一番古いフレームよりも過去に撮像された(N-1)枚のフレームのことである。
 例えば、図9に示したフレームF5が一番古いフレームとして設定されたとする。またフレームF5から認識対象として人H51と人H54が抽出され、人H51が選択された認識対象とされたとする。この場合、過去NフレームのNが5である場合、フレームF5を含め、フレームF4、フレームF3、フレームF2、およびフレームF1の5フレームが、過去Nフレームとされる。
 フレームF5からフレームF1まで、人H51が順にトラッキングされることで、フレームF5乃至F1のそれぞれのフレームで人H51に該当する人が検出され、人というラベルが付けられる。すなわち、この例の場合、フレームF5の人H51、フレームF4の人H41、フレームF3の人H31、フレームF2の人H21、フレームF1の人H11の順でトラッキングされ、それぞれ人というラベルが付与される。
 ステップS116において、認識対象追跡部124により、時系列的に逆向きの方向のトラッキングが行われ、そのトラッキングの結果に対して、ステップS117において、ラベル付与部125によりラベルが付与される。このようなトラッキングとラベルの付与は、認識対象毎に行われる。
 ステップS118において、再学習部126は認識器の学習モデルを再学習する。再学習部126は、画像(フレーム)とラベルの組を教師データとして認識器(学習モデル)を学習する。この学習の仕方は、図4を参照して説明したように、ラベル付与部125によるラベルが付与されたフレームを正解ラベルとして用いた学習が行われるようにすることができる。また、ラベル付与部125によるラベルが付与されたフレームを教師データとした他の学習の仕方により学習が行われるようにしても良い。
 再学習部126は、Nフレームをデータセットとして用いた学習を行っても良いし、Nフレームの処理が複数回行われることで蓄積されたNよりも多いフレーム数のデータセットを用いた学習を行っても良い。ここでの学習の仕方により本技術の適用範囲が限定されることはない。
 上記した例の場合、フレームF3(図7)では、人H31は車として検出されているが、トラッキングとラベル付けが行われることで、人H31に人というラベルを付けることができる。このような正確なラベルが付けられたフレームを用いた学習を行うことで、フレームF3のような画像を処理したときに、誤って人H31を車として認識してしまうようなことを低減することができる認識器を生成することができる。
 また、フレームF2(図6)や、フレームF1(図5)では、人H21や人H11は、検出されていないが、トラッキングとラベル付けが行われることで、人H21や人H11に人というラベルを付けることができる。このようなラベルが付けられたフレームを用いた学習を行うことで、フレームF2やフレームF1のような画像を処理したときに、人H21や人H11を検出できないといったようなことを低減することができる認識器を生成することができる。
 ステップS119において、認識器更新部127は、認識処理部122で用いられている認識器(の学習モデル)を、再学習部126で学習された認識器(学習モデル)で更新する。更新は、認識器(学習モデル)を置き換えることで行われても良いし、学習モデルの一部のパラメータを置き換えるようにしても良い。
 生成された認識器(学習モデル)の精度を評価する仕組みを設けても良い。生成された認識器の精度を評価し、認識性能が向上していると判定されるときだけ、認識器が更新されるようにしても良い。
 このように、精度が高い状態で検出が行われているフレームから、時間を過去の方向にさかのぼるトラッキングを行うことでラベル付けを行う。ラベル付けが行われたフレームを用いた学習を行うことで、認識器が更新される。このような学習が行われることで、誤検出されていた物体に正しいラベル付けを行ったフレームと、未検出であった物体を検出し、ラベル付けを行ったフレームとを用いた学習を行うことができるため、認識精度を高めた認識器を生成することができる。
 <情報処理システムの構成>
 上記した実施の形態において情報処理装置110が行っていた処理を、複数の装置で分担して行うようにすることもできる。
 上記した実施における情報処理装置110は、情報処理装置110自体が、再学習を行う学習装置を含む構成とされていた場合であるが、学習装置は他の装置に含まれる構成としても良い。
 ここでは、情報処理装置とサーバの2台で処理を分担して行う場合を例に挙げて説明を続ける。
 図15は、情報処理システムの一実施の形態の構成を示す図である。情報処理システム200は、情報処理装置211とサーバ212から構成される。情報処理装置211は、例えば車載される装置である。サーバ212は、情報処理装置211と、所定のネットワークを介してデータの授受を行う装置である。
 情報処理装置211は、画像取得部221、認識処理部222,抽出部223、データ送信部224、認識器受信部225、および認識器更新部226を備える。サーバ212は、データ受信部231、認識対象追跡部232、ラベル付与部233、再学習部234、および認識器送信部235を備える。
 情報処理装置211の画像取得部221、認識処理部222、抽出部223、および認識器更新部226は、情報処理装置110(図3)の画像取得部121、認識処理部122、抽出部123、および認識器更新部127にそれぞれ該当する機能である。サーバ212の認識対象追跡部232、ラベル付与部233、および再学習部234は、情報処理装置110(図3)の認識対象追跡部124、ラベル付与部125、および再学習部126にそれぞれ該当する機能である。
 <情報処理システムの処理について>
 図14に示した情報処理システム200の処理について、図15と図16に示したフローチャートを参照して説明する。情報処理システム200が行う処理は、基本的に、情報処理装置110が行う処理と同様の処理であり、情報処理装置110が行う処理については、図11に示したフローチャートを参照して既に説明したため、同様の処理については、適宜説明を省略する。
 図15は、情報処理装置211の処理について説明するためのフローチャートである。ステップS211乃至S215の処理は、ステップS111乃至S115(図11)の処理と同様のため、その説明は省略する。
 ステップS216において、画像と認識対象が、サーバ212に対して送信される。情報処理装置211のデータ送信部224は、抽出部223で抽出された認識対象に関するデータ、一番古いフレーム、および一番古いフレームから過去のNフレームのデータを、少なくとも送信する。車速やフレームレートなども必要に応じて送信されるようにしても良い。
 サーバ212は、再学習を行い、再学習後の認識器を、情報処理装置211に送信する。情報処理装置211の認識器受信部225は、ステップS217において、サーバ212から送信されてきた認識器を受信し、認識器更新部226は、受信された認識器で認識処理部222の認識器を更新する。
 図16は、サーバ212の処理について説明するためのフローチャートである。
 ステップS231において、サーバ212のデータ受信部231は、情報処理装置211のデータ送信部224が送信した画像(フレーム)と認識対象のデータを受信する。ステップS232乃至S234は、ステップS116乃至S118(図11)の処理と同様のため、その詳細な説明は省略する。
 サーバ212は、情報処理装置110が行っていた過去方向にフレームをさかのぼることによるトラッキングを行い、ラベル付けを行い、認識器の再学習を行うという処理を行う。このようにして再学習された認識器は、ステップS235において、サーバ212の認識器送信部245から、情報処理装置211に送信される。
 このように、情報処理装置211とサーバ212で処理を分担して行う構成としても良い。
 <情報処理システムの他の構成>
 図17は、情報処理システムの他の構成例を示す図である。図17に示した情報処理システム300は、情報処理装置311とサーバ312から構成されている。
 情報処理装置311は、画像取得部321、認識処理部322、データ送信部323、認識器受信部324、および認識器更新部325を備える。サーバ312は、データ受信部331、抽出部332、認識対象追跡部333、ラベル付与部334、再学習部335、および認識器送信部336を備える。
 情報処理装置311の画像取得部321、認識処理部322、および認識器更新部325は、情報処理装置110(図3)の画像取得部121、認識処理部122、および認識器更新部127にそれぞれ該当する機能である。サーバ312の抽出部332、認識対象追跡部333、ラベル付与部334、および再学習部335は、情報処理装置110(図3)の抽出部123、認識対象追跡部124、ラベル付与部125、および再学習部126にそれぞれ該当する機能である。
 図17に示した情報処理システム300と、図14に示した情報処理システム200と比較した場合、情報処理システム200の情報処理装置211の抽出部223を、サーバ212側に持たせた構成が、情報処理システム300の構成となる。
 <情報処理システムの他の処理について>
 図17に示した情報処理システム300の処理について、図18と図19に示したフローチャートを参照して説明する。情報処理システム300が行う処理は、基本的に、情報処理装置110が行う処理と同様の処理であり、情報処理装置110が行う処理については、図11に示したフローチャートを参照して既に説明したため、同様の処理については、適宜説明を省略する。
 図17は、情報処理装置311の処理について説明するためのフローチャートである。ステップS311,S312の処理は、ステップS111,S112(図11)の処理と同様のため、その説明は省略する。
 ステップS313において、情報処理装置311のデータ送信部323は、サーバ312に対して画像と認識結果を送信する。情報処理装置311のデータ送信部323は、認識処理部322で認識された認識結果に関するデータとフレームを、少なくとも送信する。車速やフレームレートなども必要に応じ送信される仕組みとしても良い。
 なお、画像や認識結果は、1フレーム処理される毎に送信されるようにしても良いし、数フレームまとめて送信されるようにしても良い。
 サーバ312側は、再学習を行い、再学習後の認識器を、情報処理装置311に送信する。情報処理装置311の認識器受信部324は、ステップS314において、サーバ312から送信されてきた認識器を受信し、認識器更新部325は、受信された認識器で認識処理部322の認識器を更新する。
 図19は、サーバ312の処理について説明するためのフローチャートである。
 ステップS331において、サーバ312のデータ受信部331は、情報処理装置311のデータ送信部323が送信した画像(フレーム)と認識結果のデータを受信する。ステップS332において、抽出部332は、更新基準を満たす認識対象を抽出する。ステップS332乃至S337の処理は、ステップS113乃至S118(図11)の処理と同様のため、その詳細な説明は省略する。
 サーバ312は、情報処理装置110が行っていた、認識対象を抽出し、過去方向にフレームをさかのぼることによるトラッキングを行い、ラベル付けを行い、認識器の再学習を行うという処理を行う。このようにして再学習された認識器は、ステップS338において、サーバ312の認識器送信部336から、情報処理装置311に送信される。
 このように、情報処理装置311とサーバ312で処理を分担して行う構成としても良い。
 情報処理システム200や情報処理システム300のように、学習処理をサーバ212(312)で行うように構成することで、情報処理装置211(311)の処理を軽減することができる。
 サーバ212(312)は、複数の情報処理装置211(311)からのデータを収集し、複数の情報処理装置211(311)からのデータを用いて、認識器を生成する(認識器を再学習する)ように構成しても良い。多くのデータを扱い、認識器の学習を行うことで、より早い段階で、精度を向上させた認識器とすることができる。
 上記した実施の形態においては、車両に車載されるカメラからの画像を処理する情報処理装置を例に挙げて説明したが、監視カメラからの画像を処理する情報処理装置などにも適用できる。
 上述した実施の形態では、カメラで撮像された画像を処理する場合を例に挙げて説明したが、画像としては、ToF(Time-of-Flight)方式で取得された測距画像であっても良い。熱センサを用いて、熱センサから得られるデータを画像として扱い、人や車といった所定の物体が認識されるようにしても良い。本技術は、センサから得られるデータを用いて、所定の物体を認識する場合に、広く適用することができる。
 本技術は、NICE(Network of Intelligent Camera Ecosystem)Allianceで規定されている仕様を適用した場合にも適用できる。
 <記録媒体について>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図50は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。コンピュータにおいて、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503は、バス504により相互に接続されている。バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、入力部506、出力部507、記憶部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォンなどよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記憶部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインタフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを、入出力インタフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インタフェース505を介して、記憶部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記憶部508にインストールすることができる。その他、プログラムは、ROM502や記憶部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 なお、本技術は以下のような構成も取ることができる。
(1)
 入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、
 前記トラッキングの結果に基づいて生成されたデータを用いて、前記学習モデルを再学習する
 学習モデルの生成方法。
(2)
 前記データは、時系列的に逆向きの方向に、前記対象物をトラッキングし、トラッキングされた前記対象物にラベルを付与することで生成される
 前記(1)に記載の学習モデルの生成方法。
(3)
 第1の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、
 前記第1の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、
 前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルを付与する
 前記(1)または(2)に記載の学習モデルの生成方法。
(4)
 前記フレームのサイズに対する前記認識結果のサイズが、所定の割合以上の大きさで検出された前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
 前記(3)に記載の学習モデルの生成方法。
(5)
 前記割合は、前記認識結果に付与されているラベルにより異なる
 前記(4)に記載の学習モデルの生成方法。
(6)
 前記フレームの辺から所定の距離以上離れた位置にある前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
 前記(3)乃至(5)のいずれかに記載の学習モデルの生成方法。
(7)
 前記第1の時刻に撮像されたフレームを含め、前記第1の時刻から、前記第1の時刻より前の第2の時刻の間に撮像されたフレームを、前記トラッキングの対象とする
 前記(3)乃至(6)のいずれかに記載の学習モデルの生成方法。
(8)
 複数フレームにわたって検出されている前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
 前記(3)乃至(6)のいずれかに記載の学習モデルの生成方法。
(9)
 前記第1の時刻から、前記第1の時刻より前の第2の時刻までに撮像されたフレームにおいて検出された前記認識結果を前記対象物とした場合、前記第2の時刻から、前記第2の時刻より前の第3の時刻までに撮像されたフレームを、前記トラッキングの対象とする
 前記(3)乃至(6)、(8)のいずれかに記載の学習モデルの生成方法。
(10)
 前記複数フレームは、車速により異なる枚数に設定される
 前記(8)に記載の学習モデルの生成方法。
(11)
 前記再学習された前記学習モデルを他の装置に送信する
 前記(1)乃至(10)のいずれかに記載の学習モデルの生成方法。
(12)
 前記学習モデルは、機械学習により学習されたものである
 前記(1)乃至(11)のいずれかに記載の学習モデルの生成方法。
(13)
 認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、前記トラッキングの結果に基づいて生成された、前記認識器を再学習するための学習データに基づいて前記認識器の学習モデルを再学習する再学習部
 を備える情報処理装置。
(14)
 前記学習データは、トラッキングされた前記対象物にラベルを付与することで生成されたデータである
 前記(13)に記載の情報処理装置。
(15)
 所定の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物として抽出する
 前記(13)または(14)に記載の情報処理装置。
(16)
 再学習された前記学習モデルで、前記認識器を更新する
 前記(13)乃至(14)のいずれかに記載の情報処理装置。
(17)
 入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理を行う認識処理部と、
 前記認識処理部により認識された認識結果のうち、所定の基準を満たす認識結果を抽出する抽出部と、
 前記抽出部により抽出された前記認識結果を対象物とし、前記対象物を、時系列的に逆向きの方向にトラッキングする追跡部と、
 前記追跡部によりトラッキングされた前記対象物にラベルを付与するラベル付与部と、
 前記ラベル付与部により付与されたラベルを用いて、前記学習モデルを再学習する再学習部と、
 前記再学習部で再学習された前記学習モデルで、前記認識処理部の前記認識器を更新する更新部と
 を備える情報処理システム。
(18)
 第1の装置と第2の装置から構成され、
 前記第1の装置は、前記認識処理部と前記更新部を備え、
 前記第2の装置は、前記抽出部、前記追跡部、前記ラベル付与部、および前記再学習部を備える
 前記(17)に記載の情報処理システム。
(19)
 前記第2の装置は、複数の前記第1の装置からのデータを受信し、複数のデータを用いて、前記認識器の再学習を行う
 前記(18)に記載の情報処理システム。
 110 情報処理装置, 121 画像取得部, 122 認識処理部, 123 抽出部, 124 認識対象追跡部, 125 ラベル付与部, 126 再学習部, 127 認識器更新部, 134 認識対象追跡部, 200 情報処理システム, 211 情報処理装置, 212 サーバ, 213 ラベル付与部, 221 画像取得部, 222 認識処理部, 223 抽出部, 224 データ送信部, 225 認識器受信部, 226 認識器更新部, 231 データ受信部, 232 認識対象追跡部, 234 再学習部, 245 認識器送信部, 300 情報処理システム, 311 情報処理装置, 312 サーバ, 321 画像取得部, 322 認識処理部, 323 データ送信部, 324 認識器受信部, 325 認識器更新部, 331 データ受信部, 332 抽出部, 333 認識対象追跡部, 334 ラベル付与部, 335 再学習部, 336 認識器送信部

Claims (19)

  1.  入力データに対して認識処理を行う学習モデルが適用されたSを用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、
     前記トラッキングの結果に基づいて生成されたデータを用いて、前記学習モデルを再学習する
     学習モデルの生成方法。
  2.  前記データは、時系列的に逆向きの方向に、前記対象物をトラッキングし、トラッキングされた前記対象物にラベルを付与することで生成される
     請求項1に記載の学習モデルの生成方法。
  3.  第1の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物とし、
     前記第1の時刻より前の時刻に撮像された複数枚のフレームに撮像されている前記対象物をトラッキングし、
     前記トラッキングの結果、フレームに前記対象物が検出された場合、その対象物に、ラベルを付与する
     請求項1に記載の学習モデルの生成方法。
  4.  前記フレームのサイズに対する前記認識結果のサイズが、所定の割合以上の大きさで検出された前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
     請求項3に記載の学習モデルの生成方法。
  5.  前記割合は、前記認識結果に付与されているラベルにより異なる
     請求項4に記載の学習モデルの生成方法。
  6.  前記フレームの辺から所定の距離以上離れた位置にある前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
     請求項3に記載の学習モデルの生成方法。
  7.  前記第1の時刻に撮像されたフレームを含め、前記第1の時刻から、前記第1の時刻より前の第2の時刻の間に撮像されたフレームを、前記トラッキングの対象とする
     請求項3に記載の学習モデルの生成方法。
  8.  複数フレームにわたって検出されている前記認識結果を、前記所定の基準を満たす認識結果として前記対象物とする
     請求項3に記載の学習モデルの生成方法。
  9.  前記第1の時刻から、前記第1の時刻より前の第2の時刻までに撮像されたフレームにおいて検出された前記認識結果を前記対象物とした場合、前記第2の時刻から、前記第2の時刻より前の第3の時刻までに撮像されたフレームを、前記トラッキングの対象とする
     請求項3に記載の学習モデルの生成方法。
  10.  前記複数フレームは、車速により異なる枚数に設定される
     請求項8に記載の学習モデルの生成方法。
  11.  前記再学習された前記学習モデルを他の装置に送信する
     請求項1に記載の学習モデルの生成方法。
  12.  前記学習モデルは、機械学習により学習されたものである
     請求項1に記載の学習モデルの生成方法。
  13.  認識器を用いた認識処理により認識された対象物を、時系列的に逆向きの方向にトラッキングし、前記トラッキングの結果に基づいて生成された、前記認識器を再学習するための学習データに基づいて前記認識器の学習モデルを再学習する再学習部
     を備える情報処理装置。
  14.  前記学習データは、トラッキングされた前記対象物にラベルを付与することで生成されたデータである
     請求項13に記載の情報処理装置。
  15.  所定の時刻に撮像されたフレームに対する認識処理による認識結果のうち、所定の基準を満たす認識結果を、前記トラッキングの対象とする前記対象物として抽出する
     請求項13に記載の情報処理装置。
  16.  再学習された前記学習モデルで、前記認識器を更新する
     請求項13に記載の情報処理装置。
  17.  入力データに対して認識処理を行う学習モデルが適用された認識器を用いた認識処理を行う認識処理部と、
     前記認識処理部により認識された認識結果のうち、所定の基準を満たす認識結果を抽出する抽出部と、
     前記抽出部により抽出された前記認識結果を対象物とし、前記対象物を、時系列的に逆向きの方向にトラッキングする追跡部と、
     前記追跡部によりトラッキングされた前記対象物にラベルを付与するラベル付与部と、
     前記ラベル付与部により付与されたラベルを用いて、前記学習モデルを再学習する再学習部と、
     前記再学習部で再学習された前記学習モデルで、前記認識処理部の前記認識器を更新する更新部と
     を備える情報処理システム。
  18.  第1の装置と第2の装置から構成され、
     前記第1の装置は、前記認識処理部と前記更新部を備え、
     前記第2の装置は、前記抽出部、前記追跡部、前記ラベル付与部、および前記再学習部を備える
     請求項17に記載の情報処理システム。
  19.  前記第2の装置は、複数の前記第1の装置からのデータを受信し、複数のデータを用いて、前記認識器の再学習を行う
     請求項18に記載の情報処理システム。
PCT/JP2021/026739 2020-07-31 2021-07-16 学習モデルの生成方法、情報処理装置、情報処理システム WO2022024803A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022540181A JPWO2022024803A1 (ja) 2020-07-31 2021-07-16
US18/005,902 US20230289980A1 (en) 2020-07-31 2021-07-16 Learning model generation method, information processing device, and information processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-129878 2020-07-31
JP2020129878 2020-07-31

Publications (1)

Publication Number Publication Date
WO2022024803A1 true WO2022024803A1 (ja) 2022-02-03

Family

ID=80036655

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/026739 WO2022024803A1 (ja) 2020-07-31 2021-07-16 学習モデルの生成方法、情報処理装置、情報処理システム

Country Status (3)

Country Link
US (1) US20230289980A1 (ja)
JP (1) JPWO2022024803A1 (ja)
WO (1) WO2022024803A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023163420A (ja) * 2022-04-28 2023-11-10 株式会社スペースリー 三次元モデル生成装置及び三次元モデル生成プログラム
JP7538300B2 (ja) 2022-07-18 2024-08-21 42ドット・インコーポレイテッド 自動運転車のオブジェクト認識率の改善方法およびその装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7411593B2 (ja) * 2021-02-10 2024-01-11 本田技研工業株式会社 運転支援装置
EP4116871A1 (en) * 2021-07-08 2023-01-11 Argo AI GmbH Method and processing unit for processing sensor data of several different sensors with an artificial neural network in a vehicle

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019152976A (ja) * 2018-03-01 2019-09-12 株式会社豊田中央研究所 画像認識制御装置、画像認識制御プログラム
US20200160550A1 (en) * 2018-11-15 2020-05-21 Denso International America, Inc. Machine learning framework for visual tracking

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019152976A (ja) * 2018-03-01 2019-09-12 株式会社豊田中央研究所 画像認識制御装置、画像認識制御プログラム
US20200160550A1 (en) * 2018-11-15 2020-05-21 Denso International America, Inc. Machine learning framework for visual tracking

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023163420A (ja) * 2022-04-28 2023-11-10 株式会社スペースリー 三次元モデル生成装置及び三次元モデル生成プログラム
JP7540671B2 (ja) 2022-04-28 2024-08-27 株式会社スペースリー 三次元モデル生成装置及び三次元モデル生成プログラム
JP7538300B2 (ja) 2022-07-18 2024-08-21 42ドット・インコーポレイテッド 自動運転車のオブジェクト認識率の改善方法およびその装置

Also Published As

Publication number Publication date
JPWO2022024803A1 (ja) 2022-02-03
US20230289980A1 (en) 2023-09-14

Similar Documents

Publication Publication Date Title
US11531354B2 (en) Image processing apparatus and image processing method
WO2022024803A1 (ja) 学習モデルの生成方法、情報処理装置、情報処理システム
JPWO2019035300A1 (ja) 車両走行制御装置、および車両走行制御方法、並びにプログラム
JPWO2019069581A1 (ja) 画像処理装置及び画像処理方法
WO2021241189A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020241303A1 (ja) 自動走行制御装置、および自動走行制御システム、並びに自動走行制御方法
CN114424265B (zh) 信号处理设备、信号处理方法、程序和移动设备
JPWO2019039281A1 (ja) 情報処理装置、情報処理方法、プログラム、及び、移動体
WO2020203241A1 (ja) 情報処理方法、プログラム、及び、情報処理装置
WO2021241260A1 (ja) 情報処理装置、および情報処理方法、情報処理システム、並びにプログラム
JPWO2020009060A1 (ja) 情報処理装置及び情報処理方法、コンピュータプログラム、並びに移動体装置
WO2019150918A1 (ja) 情報処理装置、情報処理方法、プログラム、及び移動体
US20240054793A1 (en) Information processing device, information processing method, and program
WO2022158185A1 (ja) 情報処理装置、情報処理方法、プログラムおよび移動装置
WO2023153083A1 (ja) 情報処理装置、情報処理方法、情報処理プログラム及び移動装置
WO2022004423A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2022107595A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
US20230206596A1 (en) Information processing device, information processing method, and program
US20240290108A1 (en) Information processing apparatus, information processing method, learning apparatus, learning method, and computer program
WO2023053498A1 (ja) 情報処理装置、情報処理方法、記録媒体、および車載システム
WO2021145227A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2024009829A1 (ja) 情報処理装置、情報処理方法および車両制御システム
WO2023145460A1 (ja) 振動検出システムおよび振動検出方法
WO2023149089A1 (ja) 学習装置、学習方法及び学習プログラム
US20240290204A1 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21849443

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022540181

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21849443

Country of ref document: EP

Kind code of ref document: A1