WO2023248613A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2023248613A1
WO2023248613A1 PCT/JP2023/016564 JP2023016564W WO2023248613A1 WO 2023248613 A1 WO2023248613 A1 WO 2023248613A1 JP 2023016564 W JP2023016564 W JP 2023016564W WO 2023248613 A1 WO2023248613 A1 WO 2023248613A1
Authority
WO
WIPO (PCT)
Prior art keywords
task
unit
image
information processing
processing device
Prior art date
Application number
PCT/JP2023/016564
Other languages
English (en)
French (fr)
Inventor
貴芬 田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023248613A1 publication Critical patent/WO2023248613A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program.
  • Patent Document 1 describes detecting moving objects by performing recognition processing using images from a camera mounted on a vehicle.
  • the amount of calculation for the entire recognition process can be reduced without reducing recognition accuracy. can be reduced.
  • the processing unit may generate parameters for the second task using a recognition result of the recognition target obtained by processing the first task.
  • the processing unit extracts a plurality of feature quantities from the recognition target, and performs processing of the second task using a recognition result of the recognition target obtained by the first task processing using the plurality of feature quantities. It is also possible to determine whether or not to execute the process and to generate the parameters.
  • the parameters may include a processing target area of the second task and one or more feature amounts selected from the plurality of feature amounts.
  • the first task is semantic segmentation
  • the second task includes object detection, motion detection and distance detection
  • the processing unit includes: If the object of interest does not exist in the image, only the distance detection is performed; If there is an object of interest in the image and the object of interest is not a movable object, performing the object detection and the distance detection; If there is an object of interest in the image and the object of interest is a movable object, the object detection, the movement detection, and the distance detection may be performed.
  • the parameters include a processing target area of the second task and one or more feature quantities selected from the plurality of feature quantities
  • the processing unit includes: If the object of interest does not exist in the image, the entire image is set as the processing target area, and the parameters are generated so that all of the plurality of feature amounts are used; When the object of interest exists in the image, the minimum area surrounding the object of interest is set as the processing target area, and one or more feature amounts selected from the plurality of feature amounts are used depending on the number of pixels of the object of interest.
  • the parameters may be generated.
  • the moving body is equipped with a distance measuring unit, In the distance detection, the distance may be estimated using an integration result obtained by integrating the feature amount extracted from the image and the distance feature amount obtained by the distance measuring section.
  • the processing unit performs the processing of the second task on each image acquired by each of the plurality of imaging units mounted on the moving body, using the image recognition result of the first task processing. It is also possible to determine whether or not to execute the process and to generate the parameters.
  • the imaging unit may be a stereo camera or a monocular camera.
  • the processing unit executes the second task on the image using a neural network for the second task configured using the generated parameters
  • the present invention may further include a presentation control section that controls a presentation section that provides support to the operator of the mobile body based on the recognition result of the second task.
  • the moving body is equipped with one or more selected from a display unit, a light emitting unit, and a sound output unit as the presentation unit,
  • the presentation control section may control at least one of display control of the display section, lighting control of the light emitting section, and sound output control of the sound output section.
  • the mobile body is a mobile body capable of autonomous movement
  • the processing unit executes the second task on the image using a neural network for the second task configured using the generated parameters
  • the vehicle may further include a planning unit that plans travel and actions of the mobile object based on the recognition result of the second task.
  • the recognition target is an image
  • the first task is semantic segmentation
  • the second task may include one or more selected from object detection, motion detection, distance detection, normal estimation, posture estimation, and trajectory estimation.
  • An information processing method includes processing a first task on a recognition target, and using a recognition result of the recognition target obtained by the first task processing, processing the first task and a feature amount.
  • the information processing apparatus determines whether to execute a second task with common extraction.
  • a program causes an information processing device to execute the following steps. Processing a first task on a recognition target. using the recognition result of the recognition target obtained by the first task processing to determine whether or not to execute a second task that has feature extraction in common with the first task;
  • FIG. 2 is a schematic diagram illustrating a configuration example of a processing unit of an information processing device according to each embodiment of the present technology.
  • FIG. 2 is a flow diagram showing an image recognition processing method (information processing method) in the processing section. It is a top view of a vehicle, and is a figure showing an example of a mounting position of a sensor part.
  • FIG. 2 is a schematic diagram showing a configuration example of an information processing system according to a second embodiment.
  • FIG. 3 is a flow diagram showing an image recognition processing method (information processing method) in the second and third embodiments.
  • FIG. 2 is a schematic diagram for explaining a neural network for extracting feature amounts.
  • FIG. 2 is a schematic diagram for explaining a neural network for semantic segmentation.
  • FIG. 2 is a schematic diagram for explaining a neural network for instance segmentation (object detection).
  • FIG. 2 is a schematic diagram for explaining a neural network for optical flow (motion detection). Ru.
  • FIG. 2 is a schematic diagram for explaining a neural network for distance detection.
  • FIG. 2 is a flow diagram showing an image recognition processing method (information processing method) according to each embodiment.
  • 12 is a flow diagram showing details of the second task determination process in step 4 of the flow diagram of FIG. 11.
  • FIG. FIG. 7 is a diagram for explaining a specific example of the second task determination process.
  • 12 is a flow diagram showing details of the parameter generation process in step 5 of the flow diagram of FIG. 11.
  • FIG. 3 is a diagram for explaining a specific example of parameter generation.
  • FIG. 3 is a diagram for explaining a specific example of parameter generation.
  • FIG. 2 is a diagram for explaining a configuration example of a neural network.
  • FIG. 3 is a diagram for explaining that the amount of calculation on the decoder side can be reduced by using a reconfigured neural network, taking distance detection as an example.
  • FIG. 7 is a schematic diagram showing a configuration example of an information processing system according to a third embodiment.
  • the characteristic configuration of the present technology will be mainly described.
  • an overview of image recognition processing performed on one image hereinafter sometimes referred to as input image
  • the image recognition processing in the information processing apparatuses according to each of the first, second, and third embodiments is the same.
  • driving assistance is provided to a driver who is an operator of a vehicle based on the image recognition processing result.
  • vehicle travel route planning and a vehicle action plan are performed based on the image recognition processing result.
  • Autonomous movement refers to so-called automatic driving, in which a vehicle moves autonomously without relying on driver operations.
  • driving means "moving a moving object.” Note that the configuration may be such that both the driving support described in the second embodiment and the automatic driving control described in the third embodiment are possible.
  • FIG. 1 is a schematic diagram showing a configuration example of the processing unit 3 of the information processing device 10 according to the first embodiment.
  • FIG. 2 is a flow diagram showing an example of an image processing method (information processing method) in the processing unit 3. Note that the processing section 3 of the information processing apparatus 10a according to the second embodiment and the processing section 3 of the information processing apparatus 10b according to the third embodiment, which will be described later, have the same configuration as the processing section 3 of the information processing apparatus 10.
  • a plurality of tasks (four in this embodiment) that can be executed by the information processing device 10 are classified into a first task and a second task.
  • the first task and the second task are recognition tasks, and more specifically, in this embodiment, they are image recognition tasks.
  • An image recognition task is executed on an image acquired by an imaging unit installed in a vehicle, and the results of the recognition process can be used to provide driving assistance, control automatic driving, and the like.
  • Semantic segmentation as the first task is class classification.
  • semantic segmentation each pixel of an input image is classified into which object class (category) it belongs to.
  • Distance detection uses the feature extracted by the feature extractor 37 and the LiDAR point cloud acquired by LiDAR (Light Detection and Ranging) as a distance measuring unit (described later). , the distance between the object and the vehicle (vehicle in which the imaging unit is mounted) is estimated. Details of each task process will be explained in the second embodiment described later.
  • the information processing device 10 includes an image acquisition section 30 and a processing section 3.
  • the processing unit 3 includes a feature extraction unit 31, a first task estimation unit 32, a second task determination unit 33, a parameter generation unit 34, a second task neural network configuration unit 35, and a second task estimation unit 32. It has a task estimation unit 36.
  • the feature amount extraction unit 31 extracts a plurality of common feature amounts of a plurality of tasks (first task and second task) from the input image.
  • the feature extractor 31 includes a feature extractor 37 (see, for example, FIG. 6).
  • the first task estimation unit 32 performs semantic segmentation on the input image using deep learning, and classifies objects on a pixel basis.
  • Scene features of the input image can be estimated from the semantic segmentation results (recognition results of the input image by the first task processing). For example, driving scene features (moving scene features) can be obtained from the semantic segmentation results.
  • driving scene features moving scene features
  • scene features will simply be referred to as “scene features.”
  • the second task determining unit 33 determines to execute all the second tasks of object detection, motion detection, and distance detection.
  • the parameter generation unit 34 dynamically generates parameters for the second task determined to be executed using the semantic segmentation results.
  • the parameters of the second task include a processing target image for executing the second task and a feature amount used when executing the second task.
  • the processing target image is the smallest rectangular image area including the object of interest (described later).
  • the feature amount used when executing the second task is determined according to the number of pixels of the object of interest.
  • the parameter generation unit 34 processes only the image area (image to be processed) including the object of interest, and performs partial processing according to the number of pixels of the object of interest. Generate parameters for distance detection as if processing a neural network. On the other hand, in distance detection, if the object of interest does not exist, the parameter generation unit 34 generates parameters for distance detection so that the entire input image is processed and all the feature amounts are used.
  • the parameter generation unit 34 generates parameters for the second task (S5).
  • the parameter generation step for generating parameters for the second task a is denoted as S5a.
  • the parameter generation step for generating parameters for the second task b is denoted as S5b.
  • the parameter generation step for generating parameters for the second task c is denoted as S5c.
  • the parameter generation step for generating parameters for the second task N is denoted as S5N.
  • the step of estimating the configured second task a using the neural network is denoted as S7a.
  • the step of estimating the configured second task b using the neural network is denoted as S7b.
  • the step of estimating the configured second task c using the neural network is denoted as S7c.
  • the step of estimating the configured second task N using the neural network is denoted as S7N.
  • the second tasks There may be one or more second tasks. Whether or not to execute the second task is determined based on the processing result of the first task.
  • the second tasks include object detection (instance segmentation), motion detection (optical flow), distance detection, normal estimation, pose estimation, and trajectory estimation.
  • One or more tasks selected from the following can be used.
  • three tasks are exemplified as the second task: object detection (instance segmentation), motion detection (optical flow), and distance detection.
  • the second task to be executed is determined according to the semantic segmentation result (the recognition result of the recognition target by the first task processing), and the parameters of the second task are further generated. be done. Then, a neural network for a second task is configured using the generated parameters, and an image recognition task is performed using the configured neural network.
  • the second task to be executed is determined using the semantic segmentation results, so it is possible to execute only the recognition tasks necessary for image recognition, and the overall recognition processing complexity is reduced without reducing recognition accuracy. can be reduced.
  • the vehicle 1 includes, for example, a front sensor section 2F, two front sensor sections 2Fa, a right front sensor section 2FR, a left front sensor section 2FL, a right side sensor section 2SR, a left side sensor section 2SL, A rear sensor section 2R and a rear sensor section 2Ra are mounted. Both sensor units 2 are capable of acquiring information about the surroundings of the vehicle.
  • the front sensor section 2F is arranged near the front bumper and acquires surrounding information in front of the vehicle.
  • the two front sensor sections 2Fa are arranged in front of the roof and acquire vehicle surrounding information in front of the vehicle.
  • the right front sensor unit 2FR is disposed in front of the right side of the vehicle and acquires vehicle surrounding information diagonally right in front of the vehicle.
  • the left front sensor unit 2FL is disposed in front of the left side of the vehicle and acquires vehicle surrounding information diagonally to the left of the vehicle.
  • the right side sensor section 2SR is arranged behind the right front sensor section 2FR, and acquires vehicle surrounding information on the right side of the vehicle.
  • the left side sensor section 2SL is arranged behind the left front sensor section 2FL, and acquires vehicle surrounding information on the left side of the vehicle.
  • the rear sensor section 2R is arranged near the rear bumper and acquires vehicle surrounding information behind the vehicle.
  • the rear sensor section 2Ra is arranged behind the roof and acquires vehicle surrounding information at the rear of the vehicle.
  • each of the five sensor sections ie, the front sensor section 2F, the right front sensor section 2FR, the left front sensor section 2FL, the right side sensor section 2SR, and the left side sensor section 2SL.
  • An example in which the present technology is applied to recognition processing of sensing results (images) in 20 will be given.
  • the number of sensor units 2 to which the present technology is applied is not limited to this, and may be one or more.
  • FIG. 4 is a schematic configuration diagram of the information processing system 100 according to this embodiment.
  • driving support processing is performed using recognition processing results of images acquired by a plurality of imaging units 20 mounted on the vehicle 1.
  • the information processing system 100 of this embodiment can be rephrased as a driving support system.
  • the information processing system 100 includes a plurality of sensor units 2, an information processing device 10a, a vehicle state detection unit 5, and a presentation unit 6. All of these are mounted on the vehicle 1.
  • Each sensor section 2 includes an imaging section 20 and a distance measuring section 21.
  • the imaging unit 20 acquires images, and is composed of, for example, a CMOS sensor.
  • the imaging unit 20 of this embodiment acquires images of the surroundings of the vehicle 1.
  • a monocular camera, a stereo camera, etc. can be used.
  • the distance measuring unit 21 is configured to be able to measure the distance between the vehicle 1 on which the imaging unit 20 is mounted and objects around the vehicle 1.
  • a LiDAR, a stereo camera, a millimeter wave radar, etc. can be used, and the distance measuring section 21 is configured to include one or more selected from these.
  • LiDAR is used as the distance measuring section 21.
  • the image acquired by the imaging unit 20 of the sensor unit 2 and the three-dimensional point cloud information acquired by LiDAR as the ranging unit 21 are output to the information processing device 10a.
  • each sensor section 2 the imaging section 20 and the distance measuring section 21 are typically arranged close to each other.
  • the installation positions of the camera (imaging unit) and LiDAR (ranging unit) are different, so the correspondence information between the camera coordinate system whose origin is at the camera position and the LiDAR coordinate system whose origin is at the LiDAR position is obtained in advance. and is remembered. Using this correspondence information, it is possible to perform image recognition processing related to distance detection by associating the image acquired by the camera with the three-dimensional point group acquired by LiDAR.
  • the presentation unit 6 includes a device capable of outputting and presenting visual information or auditory information to the driver of the vehicle 1.
  • the presentation unit 6 is mounted on the vehicle 1.
  • the presentation unit 6 can present information regarding driving support to the driver of the vehicle 1, such as informing the driver of vehicle surrounding information, urging caution or warning, and suggesting preferred speeds and travel routes.
  • the presentation section 6 includes, for example, a display section 60, a sound output section 61, and a light emitting section 62. Driving assistance may be performed using one or more selected from the display section 60, the sound output section 61, and the light emitting section 62. Driving support information is visually presented to the driver through display on the display unit 60 and lighting or blinking on the light emitting unit 62. Driving support information is aurally presented to the driver by audio output from the sound output unit 61.
  • Presentation of visual or auditory driving support information to the driver by the presentation unit 6 is performed using the result of image recognition processing performed by the processing unit 3 on the image acquired by the sensor unit 2.
  • Driving support information is, for example, effective information for preventing accidents when driving a vehicle.
  • Examples of driving support include an obstacle warning, a collision warning for the own vehicle, a lane departure warning for the own vehicle, a driving operation command, a speed change command, a recommendation to overtake a vehicle, a recommendation to change lanes, and notification of driving condition information. The driver can drive more safely based on the driving support information presented by the presentation unit 6.
  • the display unit 60 displays visual information within the driver's field of vision.
  • the display unit 60 includes, for example, a display device, an instrument panel, a wearable device such as a glasses-type display worn by a driver, a projector, and the like.
  • the display section 60 performs display under the control of the presentation control section 4, which will be described later.
  • the sound output unit 61 includes, for example, a speaker, an alarm, a buzzer, and the like.
  • the sound output section 61 outputs audio information, notification sound, warning sound, etc. under the control of the presentation control section 4, which will be described later.
  • the light emitting unit 62 includes, for example, a light emitting device such as a lamp.
  • the light emitting unit 62 can function, for example, as a warning light, and under the control of the presentation control unit 4 described later, the light emitting unit 62 turns on or off for the purpose of notifying the driver of various information or warning. Perform blinking.
  • Vehicle state detection section 5 detects the state of the vehicle.
  • the vehicle state detection unit 5 detects, for example, a gyro sensor, an acceleration sensor, an operation amount of an accelerator pedal, an operation amount of a brake pedal, a steering angle, an engine rotation speed, a motor rotation speed, or a rotation speed of the vehicle.
  • the system includes sensors for Vehicle information such as the speed and steering angle of the vehicle 1 detected by the vehicle state detection section 5 is output to the presentation control section 4, which will be described later.
  • the information processing device 10a has a hardware configuration necessary for a computer, such as a CPU and memory (RAM, ROM).
  • the CPU loads a program stored in the storage unit 7, which will be described later, into the RAM and executes it, thereby executing various processes including the image recognition process related to the present technology.
  • semantic segmentation (first task) is performed for each input image from the imaging section 20 of each of the plurality of sensor sections 2. Then, a task (second task) to be used in image recognition processing is determined using the semantic segmentation results, and parameters for the task are generated.
  • the information processing device 10a includes a processing section 3, an image acquisition section 30, a presentation control section 4, a storage section 7, and a situation analysis section 8.
  • the image acquisition unit 30 acquires images acquired by the imaging unit 20 of each sensor unit 2. The image is output to the processing section 3.
  • the processing unit 3 performs recognition processing on the image (input image) acquired by the image acquisition unit 30. At this time, as described in the first embodiment, the processing unit 3 uses the result of the execution of the first task performed on the input image to determine whether or not to execute the second task, and to determine whether or not to execute the second task. Generate task parameters.
  • the first task is semantic segmentation and the second task is object detection (instance segmentation), motion detection (optical flow), and distance detection is used.
  • object detection is defined as a second task a
  • motion detection is defined as a second task b
  • distance detection is defined as a second task c. This will be explained in detail below.
  • the processing unit 3 includes a feature extraction unit 31, a first task estimation unit 32, a second task determination unit 33, a parameter generation unit 34, a second task neural network configuration unit 35, and a second task estimation unit 32.
  • a task estimation unit 36 is provided.
  • the feature extraction unit 31 uses the feature extractor 37 to extract a plurality of feature quantities from the input image. Details of feature amount extraction will be described later.
  • the first task estimation unit 32 executes semantic segmentation as a first task.
  • the semantic segmentation results are output to the second task determination section 33 and the situation analysis section 8. Details of semantic segmentation will be described later.
  • the second task determining unit 33 determines whether to execute each of the second task a, the second task b, and the second task c based on the semantic segmentation result. The specific determination of the second task will be described later.
  • the parameter generation unit 34 generates parameters for executing the second task determined to be executed based on the semantic segmentation result. The generated parameters are stored in the storage unit 7. Specific parameter generation will be described later.
  • the second task neural network configuration unit 35 reads the parameters generated by the parameter generation unit 34 from the storage unit 7, and configures a neural network for the second task using the parameters.
  • the second task estimation unit 36 executes second task processing using the constructed neural network.
  • the processing result of the second task (recognition result of the input image) is output to the situation analysis section 8.
  • the second task estimation unit 36 includes a second task a estimation unit 361, a second task b estimation unit 362, and a second task c estimation unit 363.
  • the second task a estimation unit 361 performs instance segmentation and detects objects.
  • the second task b estimation unit 362 performs optical flow and detects the movement of the object.
  • the second task c estimation unit 363 executes distance detection. Details of object detection, motion detection, and distance detection will be described later.
  • Image recognition processing information processing of the present technology is applied. That is, in the processing unit 3, the processes S1 to S6 described in the first embodiment are performed on each of the input images from the plurality of sensor units 2. In image recognition processing for each of the images acquired by the plurality of sensor units 2, whether or not to execute a second task, which is another task, is determined based on the recognition processing result of the first task. Therefore, the amount of computation for the entire recognition process can be reduced without reducing recognition accuracy, and it is possible to reduce power consumption and suppress processing delays.
  • the situation analysis unit 8 receives the recognition processing result of the first task (semantic segmentation result) and the recognition processing result of the second task (one or more processing results selected from object detection result, motion detection result, and distance detection result). Based on this, the surrounding situation of the vehicle is analyzed. The analysis results are output to the presentation control section 4.
  • the presentation control unit 4 generates driving support information using the analysis result output from the situation analysis unit 8 and the state information of the vehicle 1 detected by the vehicle state detection unit 5, and performs a presentation for presenting the driving support information. 6.
  • the presentation control section 4 includes, for example, a display control section 40, an audio control section 41, and a light emission control section 42.
  • the display control unit 40 controls the display on the display unit 60.
  • the audio control unit 41 controls audio output from the sound output unit 61.
  • the light emission control unit 42 controls lighting of the light emission unit 62.
  • the storage unit 7 stores various programs and data necessary for processing in the information processing device 10a.
  • the storage unit 7 stores a program for executing a series of processes related to image recognition processing performed by the processing unit 3 of the present technology.
  • the storage unit 7 stores various parameters used in processing related to image recognition processing, logs related to vehicle travel, and the like.
  • the storage unit 7 stores a program for executing a series of processes performed by the situation analysis unit 8 and the presentation control unit 4.
  • the storage unit 7 includes, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a magnetic storage device such as an HDD (Hard Disc Drive), a semiconductor storage device, an optical storage device, a magneto-optical storage device, etc. .
  • FIG. 6 is a diagram schematically showing the configuration of image recognition processing by the processing unit 3 of the information processing device 10a, and is a schematic diagram for explaining a neural network for feature extraction.
  • a feature extractor 37 that constitutes the feature extraction unit 31 extracts a plurality of feature quantities f1 to f5 is extracted.
  • color features and edge features of the input image are extracted by the feature extractor 37 of the neural network.
  • the feature extractor 37 obtains basic feature maps b0, b1, b2, and b3 with different resolutions from the input image 9 using processing in a combination layer of a plurality of mutually different convolution operations and activation functions.
  • the basic feature maps b0 and b1 of layers closer to the input image have relatively high resolution and have detailed structural information of the image.
  • basic feature maps b2 and b3 of layers farther from the input image have relatively low resolution and have rough structural information of the image.
  • feature amounts f1 to f5 are extracted from two adjacent basic feature maps by convolution calculation.
  • the feature quantities f1 to f5 are the final feature map, and are referred to as "feature quantities" in this specification to distinguish them from the basic feature map.
  • the feature amount f1 is extracted by convolution calculation.
  • a feature amount f2 is extracted by a convolution operation.
  • a feature amount f3 is extracted by a convolution operation.
  • a feature amount f4 is extracted by a convolution operation.
  • a feature amount f5 is extracted by a convolution operation.
  • the feature quantities f1 and f2 have a relatively high resolution and have more detailed color and edge information, and the feature quantities f3 to f5 have a relatively low resolution but have a wider range of edge information.
  • the resolution of the feature amounts decreases from f1, f2, f3, f4, and f5.
  • the feature extractor 37 learns the sum of the loss functions of the four tasks of semantic segmentation, object detection (instance segmentation), motion detection (optical flow), and depth detection, and calculates the sum of the loss functions of all tasks. By minimizing the loss function, common feature quantities f1 to f5 of the four tasks are extracted.
  • the information processing device 10a can perform four task processes: semantic segmentation, object detection, motion detection, and distance detection using the extracted feature quantities f1 to f5.
  • semantic segmentation results in a semantic segmentation result 11 as an image recognition processing result.
  • the semantic segmentation result 11 is an image in which all pixels in the image are associated with labels or categories.
  • object detection instance segmentation
  • motion detection optical flow
  • an optical flow result 13 is obtained as an image recognition processing result.
  • a distance detection result 14 is obtained as an image recognition processing result.
  • FIG. 7 is a diagram schematically showing a neural network 101 for semantic segmentation.
  • the first task estimation unit 32 performs semantic segmentation using the neural network 101 for semantic segmentation (first task).
  • N classes from 1 to N are defined in advance, the probability of each pixel being in each class from 1 to N is estimated, and the class with the highest probability is taken as the estimation result for that pixel's class.
  • a class ID is assigned to each class. More specifically, the estimation is performed as follows.
  • each of the feature quantities f1 to f5 of the input image 9 output from the feature quantity extractor 37 is output to the corresponding decoder. That is, the feature amount f1 is output to the first decoder 111. The feature amount f2 is output to the second decoder 112. The feature quantity f3 is output to the third decoder 113. The feature amount f4 is output to the fourth decoder 114. The feature amount f5 is output to the fifth decoder 115.
  • a feature map for class estimation for each pixel is estimated using the convolutional neural network of each decoder.
  • the five class estimation feature maps with different resolutions estimated by each decoder are integrated by a feature aggregation unit 116. Integration is performed by concatenating pixel-by-pixel sums or five class estimation feature maps in the channel direction.
  • the class predictor unit 117 performs a convolution operation so that the number of channels of the feature map integrated by the feature integration unit 116 becomes the number of classes, and calculates the probability of each pixel being in each class 1 to N. Calculate. Among the N probability values, the class ID corresponding to the highest probability becomes the semantic segmentation result (estimation result).
  • FIG. 8 is a diagram schematically showing a neural network 102 for object detection (instance segmentation).
  • the second task a estimation unit 361 performs instance segmentation using the neural network 102 for object detection.
  • Instance segmentation a mask for each object included in the input image 9 is detected, and the type (class) of the area is also estimated. Instance segmentation allows detection of masks for each object even if multiple objects of the same class are adjacent to each other.
  • each of the feature quantities f1 to f5 of the input image 9 output from the feature quantity extractor 37 is output to the corresponding decoder. That is, the feature amount f1 is output to the first object decoder 121. The feature quantity f2 is output to the second object decoder 122. The feature amount f3 is output to the third object decoder 123. The feature quantity f4 is output to the fourth object decoder 124. The feature quantity f5 is output to the fifth object decoder 125.
  • the bounding box and bounding box class for each object are estimated using the convolutional neural network of each decoder.
  • the feature amount of the bounding box area is extracted from the feature amount (any of f1 to f5) corresponding to the bounding box, and the extracted feature amount is used for mask estimation (Mask estimation).
  • Predictor Predictor
  • the mask estimation unit 127 estimates the class of each object region from the feature amount of the bounding box region. As described above, an object detection result 12 subjected to image recognition processing is obtained from the input image 9.
  • FIG. 9 is a diagram schematically showing a neural network 103 for motion detection (optical flow).
  • the second task b estimation unit 362 performs optical flow estimation using the neural network 103 for motion detection.
  • the two input images 9a and 9b are images acquired by the same sensor unit 2, and are, for example, an image of the current frame and an image of one frame before.
  • feature quantities f1 to f5 are extracted by the feature quantity extractor 37 from each of the two input images 9a and 9b.
  • the feature quantity f5 extracted from the input image 9a and the feature quantity f5 extracted from the input image 9b are matched by a feature matching unit 136.
  • the feature amount matching unit 136 correlates the feature amounts extracted from different images.
  • the matching result is input to a fifth optical flow decoder 135.
  • the fifth optical flow decoder 135 calculates an optical flow having the same resolution as the feature quantity f5.
  • the feature quantity matching unit 136 matches the feature quantity f4 extracted from the input image 9a and the feature quantity f4 extracted from the input image 9b.
  • the matching result is output to the fourth optical flow decoder 134.
  • the optical flow is upsampled and expanded by the upsampling section 137 and is output to the fourth optical flow decoder 134 .
  • the fourth optical flow decoder 134 calculates an optical flow having the same resolution as the feature quantity f4.
  • the expanded optical flow calculated by the fifth optical flow decoder 135 is also used, so that a more accurate optical flow can be calculated.
  • the feature quantity matching unit 136 matches the feature quantity f3 extracted from the input image 9a and the feature quantity f3 extracted from the input image 9b.
  • the matching result is output to the third optical flow decoder 133.
  • the optical flow is upsampled and expanded by the upsampling unit 137 and is output to the third optical flow decoder 133 .
  • the third optical flow decoder 133 calculates an optical flow having the same resolution as the feature quantity f3.
  • the expanded optical flow calculated by the fourth optical flow decoder 134 is also used, which makes it possible to calculate a more accurate optical flow. can.
  • the feature quantity matching unit 136 matches the feature quantity f2 extracted from the input image 9a and the feature quantity f2 extracted from the input image 9b.
  • the matching result is output to the second optical flow decoder 132.
  • the optical flow is upsampled and expanded by the upsampling unit 137 and is output to the second optical flow decoder 132 .
  • the second optical flow decoder 132 calculates an optical flow with the same resolution as the feature amount f2.
  • the expanded optical flow calculated by the third optical flow decoder 133 is also used, so that more accurate optical flow can be calculated. can.
  • the feature amount matching unit 136 matches the feature amount f1 extracted from the input image 9a and the feature amount f1 extracted from the input image 9b.
  • the matching result is output to the first optical flow decoder 131.
  • the optical flow is upsampled and expanded by the upsampling section 137 and is output to the first optical flow decoder 131 .
  • the first optical flow decoder 131 calculates an optical flow having the same resolution as the feature quantity f1.
  • the expanded optical flow calculated by the second optical flow decoder 132 is also used, so that more accurate optical flow can be calculated. can. In this way, by calculating the optical flow together with the output of the optical flow decoder calculated in the previous stage, highly accurate optical flow results (motion detection results) can be obtained.
  • the optical flow result 13 is obtained from the input images 9a and 9b.
  • FIG. 10 is a diagram schematically showing a neural network 104 for distance detection.
  • the second task c estimation unit 363 performs distance estimation using the neural network 104 for distance detection (second task).
  • distance estimation depth information (distance information between the object and the vehicle) for each pixel is estimated from the input image 9.
  • the neural network 104 for distance detection extracts each of a plurality of feature quantities f1 to f5 with different resolutions extracted from the input image 9 and the LiDAR point cloud 15 acquired by the ranging unit 21. After the feature amounts are integrated, the distance for each pixel (the distance between the object and the vehicle (more specifically, the imaging unit)) is calculated by a depth decoder that is a decoder for distance estimation. This will be explained in detail below.
  • the feature amount extractor 37 extracts feature amounts f1 to f5 from the input image 9 acquired by the imaging section 20 of the sensor section 2.
  • RestNet He, Kaiming, et al. "Deep residual learning for image recognition.” Proceedings of IEEE conference on computer vision and pattern recognition . 2016.
  • LiDAR feature amount a LiDAR feature map
  • the feature amount f5 extracted from the input image 9 and the LiDAR feature amount extracted from the LiDAR point group 15 are integrated by a feature aggregation unit 146. Integration is performed on a pixel-by-pixel basis. Alternatively, the feature amounts for each pixel may be connected in the channel direction.
  • the integration result (integrated feature amount) is output to a fifth depth decoder 145.
  • the fifth depth decoder 145 calculates a distance detection result with the same resolution as the feature quantity f5.
  • the feature amount f4 extracted from the input image 9 and the LiDAR feature amount extracted from the LiDAR point group 15 are integrated by the feature integration unit 146.
  • the integration result is output to the fourth depth decoder 144.
  • the distance detection result is upsampled and expanded by the upsampling section 147 and output to the fourth depth decoder 144 .
  • the fourth depth decoder 144 calculates a distance detection result with the same resolution as the feature amount f4.
  • the expanded distance detection result calculated by the fifth depth decoder 145 is also used, so that a more accurate distance detection result can be calculated.
  • the feature amount f3 extracted from the input image 9 and the LiDAR feature amount extracted from the LiDAR point group 15 are integrated by the feature integration unit 146.
  • the integration result is output to the third depth decoder 143.
  • the distance detection result is upsampled and expanded by the upsampling section 147 and output to the third depth decoder 143 .
  • the third depth decoder 143 calculates a distance detection result with the same resolution as the feature amount f3.
  • the expanded distance detection result calculated by the fourth depth decoder 144 is also used, so that a more accurate distance detection result can be calculated.
  • the feature amount f2 extracted from the input image 9 and the LiDAR feature amount extracted from the LiDAR point group 15 are integrated by the feature integration unit 146.
  • the integration result is output to the second depth decoder 142.
  • the distance detection result is upsampled and expanded by the upsampling section 147 and output to the second depth decoder 142 .
  • the second depth decoder 142 calculates a distance detection result with the same resolution as the feature amount f2.
  • the second depth decoder 142 calculates the distance
  • the distance calculated by the third depth decoder 143 and then expanded is also used, so that a more accurate distance can be calculated.
  • the feature amount f1 extracted from the input image 9 and the LiDAR feature amount extracted from the LiDAR point group 15 are integrated by the feature integration unit 146.
  • the integration result is output to the first depth decoder 141.
  • the distance detection result is upsampled and expanded by the upsampling section 147 and output to the first depth decoder 141 .
  • the first depth decoder 141 calculates a distance detection result 14 having the same resolution as the feature amount f1.
  • the expanded distance detection result calculated by the second depth decoder 142 is also used, so that a more accurate distance detection result can be calculated. In this way, by calculating the distance detection result together with the output of the depth decoder calculated in the previous stage, it is possible to obtain a highly accurate distance detection result.
  • the distance detection result 14 is obtained from the image 9.
  • four tasks can be executed using the common feature extractor 37.
  • FIG. 11 An information processing method (image recognition processing method) in the information processing device 10a will be explained using FIG. 11. The information processing shown in FIG. 11 is performed for each image acquired by each sensor section 2.
  • the image acquisition unit 30 acquires the image 9 captured by the imaging unit 20 of the sensor unit 2 (S1).
  • the feature amount extraction unit 31 extracts a plurality of feature amounts (f1 to f5) of the image 9 (S2).
  • the first task estimation unit 32 executes a first task (semantic segmentation) using the plurality of feature amounts extracted in S2 (S3).
  • the second task determining unit 33 determines whether or not to execute the second task based on the first task result (S4). In this embodiment, the second task determining unit 33 determines whether to perform each of object detection, motion detection, and distance detection.
  • the parameter generation unit 34 generates parameters for the second task that has been decided to be executed using the semantic segmentation results (S5).
  • the second task neural network configuration unit 35 configures a neural network for the second task using the parameters generated in S5 (S6).
  • the second task estimation unit 36 uses the neural network configured in S6 to perform a second task (in this embodiment, one or more tasks selected from object detection, motion detection, and distance detection). is executed (S7).
  • FIG. 12 is a flowchart of the second task determination process of step 4 (S4) in FIG. 11, which is performed by the second task determination unit 33 of the processing unit 3.
  • S4 step 4
  • FIG. 12 a description will be given of how the second task to be executed is determined.
  • the second task determination process is performed based on the first task processing result (semantic segmentation result).
  • ID list a unique class ID list (hereinafter simply referred to as ID list) is obtained from the semantic segmentation result that includes class ID information for each pixel (S1 ).
  • S42 it is determined whether there is a class ID of the object of interest. If it is determined that there is an object of interest, the process advances to S43. If it is determined that there is no object of interest, it is determined to perform only distance detection (S44).
  • a utility pole with a class ID of 1 a traffic signal with a class ID of 2, a traffic sign with a class ID of 3, a trash can with a class ID of 4, and a pole with a class ID of 5 are objects of interest that are not movable.
  • S42 if class IDs 1 to 13 exist in the ID list, the process proceeds to S43. On the other hand, if the class IDs 1 to 13 do not exist in the ID list, the process advances to S44, and it is determined to execute only the distance detection task.
  • S43 it is determined whether there is a class ID of a movable object of interest in the ID list. If it is determined that there is, it is decided to execute three tasks: object detection, motion detection, and distance detection (S46). On the other hand, if it is determined that there is no object, it is decided to execute the two tasks of object detection and distance detection (S45).
  • the process advances to S46, and it is determined to execute three tasks: object detection, motion detection, and distance detection.
  • class IDs 5 to 13 do not exist in the ID list, the process advances to S45, and execution of the two tasks of object detection and distance detection is determined.
  • the processing result (semantic segmentation result) of the first task it is determined whether or not to execute each of the second tasks of object detection, motion detection, and distance detection.
  • FIG. 13 is a diagram for explaining a specific example of the second task determination process.
  • FIG. 13 shows how the execution or non-execution of the second task is determined according to the first task processing result for the image 9 acquired by the imaging unit 20 of each of the plurality of sensor units 2 mounted on the vehicle.
  • FIG. 13 In the second task determination process, the scene features obtained from the semantic segmentation are used to determine the second task to be executed.
  • the image 9SL acquired by the imaging unit 20 of the left side sensor unit 2SL and the image 9FL acquired by the imaging unit 20 of the left front sensor unit 2FL are both images in which the object of interest does not exist. be. Therefore, since the class ID of the object of interest is not included in the ID list obtained from the semantic segmentation results 11SL and 11FL, which are the first task estimation results for images 9SL and 9FL, respectively, only distance detection can be performed. It is determined. In this way, when there is no object of interest, only distance detection is performed, making it possible to estimate, for example, the distance between the road surface and the vehicle (vehicle in which the imaging unit is mounted). Using this estimated distance information to objects that are not obstacles, it is possible to present driving support information such as driving operation commands, speed changes, overtaking recommendations, lane change recommendations, etc. to the driver.
  • driving support information such as driving operation commands, speed changes, overtaking recommendations, lane change recommendations, etc.
  • an image 9F acquired by the imaging unit 20 of the front sensor unit 2F and an image 9FR acquired by the imaging unit 20 of the right front sensor unit 2FR are both images of a movable object of interest of the vehicle.
  • This is an image in which Therefore, since the ID list obtained from the semantic segmentation results 11F and 11FR, which are the first task estimation results for images 9F and 9FR, respectively, includes the class ID of the object of interest that can move, object detection and movement A decision is made to perform detection and distance detection tasks.
  • the movement and distance of each object (the distance between the object and the vehicle) can be estimated by performing object detection, motion detection, and distance detection.
  • driving support information such as obstacle warnings, driving operation instructions, speed changes, overtaking recommendations, lane change recommendations, etc. It becomes possible to present.
  • the image 9SR acquired by the imaging unit 20 of the right side sensor unit 2SR is an image in which a fire hydrant, which is a non-movable object of interest, is present. Therefore, since the ID list obtained from the semantic segmentation result 11SR, which is the first task estimation result for image 9SR, includes the class ID of the object of interest that is not movable, execution of object detection and distance detection is determined. Ru. In this way, when there are static objects of interest that cannot be moved, such as fire hydrants, walls, curbs, poles, etc., object detection and distance detection are performed to estimate the distances between these objects and the vehicle. be able to. Using this estimated distance information, that is, the image recognition processing results, it becomes possible to present the driver with driving support information such as obstacle warnings and driving operation instructions to avoid collisions with obstacles. .
  • FIG. 14 is a flowchart of the second task parameter generation process of step 5 (S5) in FIG. 11, which is performed by the parameter generation unit 34 of the processing unit 3.
  • FIG. 15 is a diagram for explaining a specific example of parameter generation. Hereinafter, along with FIG. 14 and using FIG. 15, a description will be given of how to generate the parameters used when executing the second task.
  • the parameter generation process is performed using the first task processing result (semantic segmentation result).
  • the parameter generation process when the parameter generation process starts, it is determined from the semantic segmentation result whether or not there is an object of interest in the image (S51). Specifically, by determining whether or not there is a class ID of the object of interest using the ID list obtained from the semantic segmentation result, it is possible to determine the presence or absence of the object of interest. If it is determined in S51 that there is no object of interest, the process advances to S53. If it is determined in S51 that there is an object of interest, the process advances to S52.
  • parameters are generated so that the entire area of the input image 9 is recognized using all the feature amounts f1 to f5.
  • the generated parameters are stored in the storage unit 7 (S58).
  • it is determined that there is no object of interest it is determined to perform only distance detection. In other words, if there is no object of interest, it is decided to perform only distance detection, and without optimizing the neural network for distance detection, the entire area of the input image 9 is Detection takes place. In other words, distance detection is performed using the reference neural network.
  • the category of the object of interest is acquired. Specifically, the category can be acquired by checking the class ID of the object of interest using the ID list. A plurality of objects may exist in the category acquisition result.
  • the category acquisition result is a class ID list of the object of interest.
  • an image area where the object of interest exists is acquired.
  • the acquired image area includes areas of each of the plurality of objects.
  • a rectangular frame (also referred to as a bounding box) surrounding the object of interest is provided, and the area of the frame where the size of the frame is the minimum (referred to as the minimum area) is set as the final image area.
  • This final image area is called a "processing target image.”
  • the processing target image is a processing target area in which the second task processing is performed.
  • parameters for the coordinates of the image to be processed are generated (S55).
  • the generated parameters are stored in the storage unit 7 (S58).
  • the coordinates of the image to be processed are expressed in the form of parameters (x1, y1, w, h).
  • the parameters (x1, y1, w, h) are calculated using the coordinates (x1, y1) of the upper left corner of the rectangular frame (bounding box) and (w, h) indicating the number of horizontal and vertical pixels of the rectangle. expressed.
  • the number of pixels for each object of interest acquired in S52 is calculated, and a minimum pixel number list is generated so as to include the minimum number of pixels for each category of the object of interest.
  • parameters representing the feature amounts used in the second task are generated (S57).
  • the generated parameters are stored in the storage unit 7 (S58).
  • the parameters of the feature amount are generated according to the table shown in FIG. 15, for example.
  • the feature quantities to be used are f1, f2, f3 when the number of pixels is T0 or less, and the feature quantities to be used are f2, f2, and f3 when the number of pixels is greater than T0 and below T1.
  • parameters are generated such that the feature amounts to be used are f3, f4, and f5.
  • the features to be used are f1, f2, f3; if the number of pixels is greater than T3 and below T4, the features to be used are f2, g3, f4, and if the number of pixels is less than T4.
  • T5 or below parameters are generated so that the feature amounts to be used are f4 and f5.
  • the features to be used are f1, f2, f3; if the number of pixels is greater than T6 and below T7; if the number of pixels is T7. If the value is larger than T8, parameters are generated so that the feature amounts to be used are f4 and f5.
  • FIG. 16(A) is a diagram showing an image 9 acquired by the imaging unit of each of the plurality of sensor units 2 mounted on the vehicle 1, a semantic segmentation result for the image 9, an object detection result, a motion detection result, and a distance detection result. It is.
  • the object detection results, motion detection results, and distance detection results are recognized using a neural network that is reconstructed and optimized using parameters generated based on the semantic segmentation results, or a reference neural network. This is the processing result.
  • FIG. 16(B) is a diagram showing an example of determining the second task to be executed and generating parameters based on the semantic segmentation result shown in FIG. 16(A).
  • the image 9SL acquired by the imaging unit 20 of the left side sensor unit 2SL is an image in which a movable object of interest exists. Therefore, as shown in FIG. 16(B), since the ID list obtained from the semantic segmentation result for image 9SL includes the class ID of the movable object of interest, all object detection, motion detection, and distance detection are performed. The execution of the second task is determined.
  • parameters [xa, ya, wa, ha] indicating the coordinates of an area A surrounded by a rectangular frame surrounding the object of interest in the diagram are generated as parameters of the image to be processed, and feature quantities f1, f2, f3 Parameters are generated so that they can be used.
  • the parameters of the feature are generated according to the number of pixels of the object of interest according to FIG. 15, and the same applies hereafter.
  • the image 9FL acquired by the imaging unit 20 of the left front sensor unit 2FL is an image in which no object of interest exists. Therefore, as shown in FIG. 16(B), since the ID list obtained from the semantic segmentation result for the image 9FL does not include the class ID of the object of interest, it is decided to perform only distance detection. Furthermore, parameters are generated so that the entire image area is the image to be processed and all feature quantities f1 to f5 are used. In FIG. 16(B), the coordinates of the processing target image in the entire image area are expressed as parameters [0, 0, w, h].
  • the image 9F acquired by the imaging unit 20 of the front sensor unit 2F is an image in which a movable object of interest exists. Therefore, as shown in FIG. 16(B), the ID list obtained from the semantic segmentation result for image 9F includes the class ID of the movable object of interest, so all object detection, motion detection, and distance detection are performed. The execution of the second task is determined.
  • parameters [xb, yb, wb, hb] indicating the coordinates of area B surrounded by a rectangular frame surrounding the object of interest in the diagram
  • parameters [xc, yc, wc, hc] are generated. Further, parameters are generated so that the feature amounts f1, f2, and f3 are used for the region B, and parameters are generated so that the feature amounts f3, f4, and f5 are used for the region C.
  • the image 9FR acquired by the imaging unit 20 of the right front sensor unit 2FR is an image in which a movable object of interest exists. Therefore, as shown in FIG. 16(B), since the ID list obtained from the semantic segmentation result for image 9FR includes the class ID of the movable object of interest, all object detection, motion detection, and distance detection are performed. The execution of the second task is determined.
  • parameters [xd, yd, wd, hd] indicating the coordinates of an area D surrounded by a rectangular frame surrounding the object of interest in the diagram are generated as parameters of the image to be processed, and feature quantities f1, f2, f3 Parameters are generated so that they can be used.
  • the image 9SR acquired by the imaging unit 20 of the right side sensor unit 2SR is an image in which a movable object of interest exists. Therefore, as shown in FIG. 16(B), since the ID list obtained from the semantic segmentation result for image 9SR includes the class ID of the movable object of interest, all object detection, motion detection, and distance detection are performed. The execution of the second task is determined.
  • parameters of the image to be processed parameters [xe, ye, we, he] indicating the coordinates of an area E surrounded by a rectangular frame surrounding the object of interest in the diagram, and parameters [xf, yf, wf, hf] are generated. Further, parameters are generated for region E to use feature amounts f1, f2, f3, and parameters are generated for region F to use feature amounts f3, f4, f5.
  • FIG. 17 is a diagram showing an example of a neural network configuration performed by the second task neural network configuration unit 35 of the processing unit 3.
  • FIG. 17 shows an example in which a neural network is configured using the determined second task and parameters shown in FIG. 16(B) in the recognition task for each input image shown in FIG. 16(A). show.
  • the estimation process of the second task determined to be executed in S33 is performed according to the size of the object of interest appearing in the input image. This can be performed with a small amount of calculation, and the estimation process can be further optimized.
  • the configuration of the neural network changes to select a decoder for each second task using the generated parameters. A specific example will be described below using FIG. 17.
  • the recognition tasks (second tasks) of object detection, motion detection processing, and distance detection are performed on the image 9SL acquired by the left side sensor unit 2SL by the second task determination process. Execution is decided.
  • the only image to be processed is area A [xa, ya, wa, ha].
  • the configuration is such that only high-resolution feature quantities f1, f2, and f3 are generated.
  • the neural network of each second task is reconfigured such that the decoders used in f1, f2, and f3 consist only of those corresponding to f1, f2, and f3.
  • object detection is reconfigured to use only the first, second and third object decoders 121-123.
  • object detection it is reconfigured to use only the first, second, and third optical flow decoders 131 to 133.
  • distance detection it is reconfigured to use only the first, second, and third depth decoders 141 to 143.
  • execution of only distance detection is determined by the second task determination process for the image 9FL acquired by the left front sensor unit 2FL.
  • the image to be processed becomes the entire region, and the neural network for distance detection is configured so that the feature quantities f1 to f5 are generated.
  • a neural network for distance detection is configured such that the decoders used for detection are configured from those corresponding to f1 to f5. More specifically, it is configured to use first to fifth depth decoders 141 to 145. In other words, no optimization is performed, and distance detection is performed using the reference neural network.
  • the only images to be processed are region B [xb, yb, wb, hb] and region C [xc, yc, wc, hc].
  • region B since only small objects located far away exist in region B, the configuration is such that only high-resolution feature quantities f1, f2, and f3 are generated.
  • the neural network of each second task is reconfigured such that the decoders used in f1, f2, and f3 consist only of those corresponding to f1, f2, and f3.
  • region C since there is a large object located nearby, the configuration is such that only feature quantities f2, f3, and f4 having low resolution but wide range of edge information are generated.
  • the neural network of each second task is reconfigured so that the decoders used in the second task are comprised only of those corresponding to f2, f3, and f4.
  • object detection is performed so that only the first, second, and third object decoders 121 to 123 are used in area B, and only second, third, and fourth object decoders 122 to 124 are used in area C. configured.
  • Motion detection is configured to use only the first, second and third optical flow decoders 131 to 133 in area B, and to use only second, third and fourth optical flow decoders 132 to 134 in area C. will be reconfigured.
  • the distance detection is configured to use only the first, second, and third depth decoders 141 to 143 in area B, and reconfigured to use only the second, third, and fourth depth decoders 142 to 144 in area C. configured.
  • the second tasks all three recognition tasks (second tasks) of object detection, motion detection processing, and distance detection are performed on the image 9SL acquired by the left side sensor unit 2SL by the second task determination process. Execution is decided. When these three second tasks are executed, the image to be processed is only the area D [xd, yd, wd, hd], as shown in FIG. In addition, since there are only small objects located far away in area D, the configuration is such that only high-resolution feature quantities f1, f2, and f3 are generated.
  • the neural network of each second task is reconfigured such that the decoders provided are comprised only of those corresponding to f1, f2, and f3.
  • object detection is reconfigured to use only the first, second and third object decoders 121-123.
  • object detection it is reconfigured to use only the first, second, and third optical flow decoders 131 to 133.
  • distance detection it is reconfigured to use only the first, second, and third depth decoders 141 to 143.
  • the neural network of each second task is reconfigured such that the decoders used in f1, f2, and f3 consist only of those corresponding to f1, f2, and f3.
  • region F since there is a large object located nearby, the configuration is such that only feature quantities f2, f3, and f4 having low resolution but edge information over a wide range are generated.
  • the neural network of each second task is reconfigured so that the decoders used in the second task are comprised only of those corresponding to f2, f3, and f4.
  • the first, second, and third object decoders 121 to 123 are used in the area E, and only the second, third, and fourth object decoders 122 to 124 are used in the area F. be done.
  • motion detection only the first, second, and third optical flow decoders 131 to 133 are used in the region E, and only the second, third, and fourth optical flow decoders 132 to 134 are used in the region F.
  • distance detection only the first, second, and third depth decoders 141 to 143 are used in the region E, and only the second, third, and fourth depth decoders 142 to 144 are used in the region F.
  • the amount of calculation can be reduced by extracting the five feature quantities f1 to f5 that can be used in common for multiple tasks.
  • the second task since it is possible to determine the second task to be executed and generate parameters according to the processing result of the first task, it is possible to optimize the neural network for the second task. This makes it possible, for example, to reduce the amount of computation on the decoder side compared to processing using a standard neural network.
  • FIG. 18(A) is a diagram showing a reference neural network 104, which has the same configuration as FIG. 10 described above.
  • FIG. 18(B) shows a neural network 104a in which it has been determined based on the semantic segmentation results that only distance detection will be performed, and the neural network 104a has been reconfigured using the generated feature quantities f1, f2, and f3 as parameters. It is a diagram.
  • the reconfigured distance detection neural network 104a uses fewer decoders than the reference neural network 104.
  • the distance detection process (second task process) is optimized, and the amount of calculations on the decoder side can be reduced.
  • neural networks can be similarly reconfigured, and by reducing the number of decoders used compared to a reference neural network, the amount of calculation on the decoder side can be reduced. Note that if there is no object of interest, task processing is performed using a reference neural network.
  • ⁇ Third embodiment> In the third embodiment, an example will be described in which the technology described in the first embodiment is applied to image recognition processing of each image acquired by each of a plurality of imaging units installed in a vehicle, and the image recognition processing results are used for automatic driving. List.
  • the second embodiment and the third embodiment differ mainly in the application destination of image recognition processing results, and other configurations are almost the same. The main differences will be explained below.
  • FIG. 19 is a schematic configuration diagram of an information processing system 200 according to this embodiment.
  • automatic driving processing is performed using recognition processing results of images acquired by a plurality of imaging units mounted on the vehicle 1.
  • the information processing system of this embodiment can be rephrased as an automatic driving system.
  • the information processing system 200 includes a plurality of sensor sections 2, an information processing device 10b, a vehicle state detection section 5, and a drive system 26. All of these are mounted on the vehicle 1.
  • Each sensor section 2 includes an imaging section 20 and a distance measuring section 21.
  • the imaging unit 20 acquires images.
  • a monocular camera, a stereo camera, etc. can be used.
  • the distance measuring unit 21 is configured to be able to measure the distance between the vehicle 1 and objects around the vehicle 1.
  • a LiDAR, a stereo camera, a millimeter wave radar, etc. can be used, and the distance measuring section 21 is configured to include one or more selected from these. In this embodiment, an example is given in which LiDAR is used as the distance measuring section 21.
  • the image acquired by the imaging unit 20 of the sensor unit 2 and the three-dimensional point cloud information acquired by LiDAR as the ranging unit 21 are output to the information processing device 10b.
  • Vehicle state detection section 5 detects the state of the vehicle.
  • the vehicle state detection unit 5 includes, for example, a gyro sensor, an acceleration sensor, an inertial measurement unit (IMU), an operation amount of an accelerator pedal, an operation amount of a brake pedal, a steering angle of a steering wheel, an engine rotation speed, a motor rotation speed, Alternatively, it is configured to include a sensor for detecting the rotational speed of the vehicle and the like.
  • Information such as the speed and steering angle of the vehicle 1 detected by the vehicle state detection section 5 is output to the planning section 24, which will be described later.
  • the drive system 26 includes various devices related to the drive system of the vehicle (self-vehicle) 1.
  • the drive system includes a drive force generator such as an internal combustion engine or a drive motor that generates drive force, a drive force transmission mechanism that transmits the drive force to the wheels, a steering mechanism that adjusts the steering angle, and a control system. It is equipped with a braking device that generates power, ABS (Antilock Brake System), ESC (Electronic Stability Control), and an electric power steering device.
  • the drive system 26 is controlled based on various control signals supplied from a drive system control section 25, which will be described later.
  • the information processing device 10b has a hardware configuration necessary for a computer, such as a CPU and memory (RAM, ROM).
  • a CPU and memory RAM, ROM
  • the CPU loads a program stored in the storage unit 27, which will be described later, into the RAM and executes it, various processes including the image recognition process related to the present technology are executed.
  • semantic segmentation (first task) is performed for each input image from the imaging section 20 of each of the plurality of sensor sections 2. Then, a task (second task) to be used in image recognition processing is determined using the semantic segmentation results, and parameters for the task are generated.
  • the information processing device 10b includes a processing section 3, an image acquisition section 30, a situation analysis section 8, a planning section 24, a drive system control section 25, and a storage section 27.
  • the image acquisition unit 30 acquires images acquired by the imaging unit 20 of each sensor unit 2. The image is output to the processing section 3.
  • the processing unit 3 performs recognition processing on the image (input image) acquired by the image acquisition unit 30. At this time, as explained in the first and second embodiments, the processing unit 3 uses the result of the execution of the first task performed on the input image to determine whether or not the second task is executed and the Generate parameters for the second task.
  • the situation analysis unit 8 receives the recognition processing result of the first task (semantic segmentation result) and the recognition processing result of the second task (one or more processing results selected from object detection result, motion detection result, and distance detection result). Based on this, the surrounding situation of the vehicle is analyzed. The analysis results are output to the planning section 24.
  • the planning unit 24 plans the route and actions of the vehicle 1 in order to safely travel the route to the destination within the specified time.
  • the planning unit 24 plans a route and actions so that when the vehicle is automatically driven, the vehicle avoids a collision or cushions the impact, follows the vehicle based on the distance between vehicles, maintains the vehicle speed, and so on.
  • the planning section 24 includes a route planning section 240 and an action planning section 241.
  • the route planning unit 240 plans a route to the destination using the map information and the state information of the vehicle 1 detected by the vehicle state detection unit 5.
  • the route planning unit 240 also uses the analysis results of the situation analysis unit 8 to change the route as appropriate.
  • the route planning section 240 outputs data indicating the planned route to the action planning section 241.
  • the action planning unit 241 plans the actions of the vehicle 1 to safely travel the route planned by the route planning unit 240 within the planned time.
  • the action planning unit 241 plans, for example, starting, stopping, traveling direction (for example, forward, backward, left turn, right turn, direction change, etc.), driving lane, driving speed, overtaking, and the like.
  • the action planning section 241 supplies data indicating the planned action of the vehicle 1 to the drive system control section 25. Further, the action planning section 241 uses the analysis results of the situation analysis section 8 to modify the action plan as appropriate.
  • object detection and distance detection are performed in the input image recognition process. Then, in accordance with distance information between the object of interest and the vehicle estimated by distance detection, the steering angle and brakes can be automatically controlled to avoid collision with the object of interest.
  • object detection, motion detection, and distance detection are performed in the input image recognition process. Then, in accordance with the motion information and distance information of the object of interest estimated by each detection, the steering angle and brakes can be automatically controlled so as not to collide with the object of interest.
  • the analysis result of the surrounding situation of the vehicle by the above-mentioned situation analysis section 8 is generated using the image recognition processing result in the processing section 3.
  • the processing unit 3 of the information processing device 10b of this embodiment can perform image recognition processing without reducing image recognition accuracy. Therefore, the analysis result of the surrounding situation of the vehicle performed using the highly accurate image recognition processing result is highly accurate information.
  • the route plan and action plan made using this highly accurate information are more suitable for the situation in which the vehicle 1 is placed, and the safety of automatic driving is further improved.
  • the processing unit 3 of the information processing device 10b of the present technology can reduce the amount of calculation for image recognition processing, processing delays are suppressed, and more accurate route plans and action plans can be realized at more accurate timing. Autonomous driving based on this technology will become possible.
  • the drive system control section 25 generates various control signals based on data indicating the behavior of the vehicle 1 planned by the action planning section 241 and supplies them to the drive system 26 .
  • the storage unit 27 stores various programs and data necessary for processing in the information processing device 10b.
  • the storage unit 27 stores a program for executing a series of processes related to image recognition processing performed by the processing unit 3 of the present technology.
  • the storage unit 27 stores logs related to various parameters used in processing related to image recognition processing, vehicle travel, and the like.
  • the storage unit 27 stores a program for executing a series of processes performed by the situation analysis unit 8, the planning unit 24, and the drive system control unit 25, respectively.
  • the storage unit 27 includes, for example, a ROM, a RAM, a magnetic storage device such as an HDD, a semiconductor storage device, an optical storage device, a magneto-optical storage device, and the like.
  • a series of information processing methods in the processing unit 3 are the same as in the second embodiment.
  • the amount of calculation can be reduced by extracting five feature quantities f1 to f5 that can be used in common for multiple tasks.
  • the second task since it is possible to determine the second task to be executed and generate parameters according to the processing result of the first task, it is possible to optimize the neural network for the second task. This makes it possible, for example, to reduce the amount of computation on the decoder side compared to processing using a standard neural network.
  • LiDAR is used as the distance measuring unit
  • a stereo camera may be used instead of LiDAR
  • image recognition processing may be performed using a three-dimensional point group obtained from a stereo image acquired by the stereo camera. may be performed.
  • semantic segmentation first task
  • a pseudo LiDAR point cloud converted from the depth map image to a point cloud can be obtained. You can also do this.
  • the imaging unit that acquires an image for performing the image recognition process of the present technology is mounted on a four-wheeled motor vehicle as a moving object, but the invention is not limited to this.
  • the moving object on which the imaging unit is mounted may be another vehicle such as a motorcycle, a cleaning robot, a toy robot, a drone, or the like.
  • the processing unit 3 that performs image recognition processing related to the present technology is installed in a vehicle (mobile object), but the invention is not limited to this, and for example, a server existing on an external network It may be. Note that, from the viewpoint of suppressing processing delays, it is preferable that the processing section is provided in the moving body on which the imaging section is mounted.
  • the present technology can also have the following configuration.
  • (1) comprising a processing unit capable of processing a plurality of tasks for a recognition target including a first task and a second task that share feature extraction;
  • the processing unit determines whether or not to execute processing of the second task, using a recognition result of the recognition target obtained by processing the first task.
  • (2) The information processing device according to (1) above,
  • the processing unit generates parameters for the second task using a recognition result of the recognition target obtained by the first task processing.
  • the processing unit configures a neural network for the second task using the generated parameters.
  • the processing unit extracts a plurality of feature quantities from the recognition target, and performs processing of the second task using a recognition result of the recognition target obtained by the first task processing using the plurality of feature quantities.
  • An information processing device that determines whether or not to execute and generates the parameters.
  • the information processing device according to (4) above The information processing apparatus, wherein the parameters include a processing target area of the second task and one or more feature amounts selected from the plurality of feature amounts.
  • the processing unit determines whether to execute the processing of the second task and generates the parameters using scene features obtained from the recognition result of the recognition target by the first task processing. Information processing device .
  • the information processing device is an image obtained by an imaging unit mounted on a moving body and capturing an image of the surroundings of the moving body
  • the scene feature is a movement scene feature of the moving body, and means whether or not an object of interest exists in the image, and whether or not the object of interest is a movable object.
  • the object of interest is an object that obstructs movement of the moving object. Information processing apparatus.
  • the information processing device includes: If the object of interest does not exist in the image, only the distance detection is performed; If there is an object of interest in the image and the object of interest is not a movable object, performing the object detection and the distance detection; An information processing apparatus that executes the object detection, the movement detection, and the distance detection when a target object exists in the image and the target object is a movable object.
  • the parameters include a processing target area of the second task and one or more feature quantities selected from the plurality of feature quantities
  • the processing unit includes: If the object of interest does not exist in the image, the entire image is set as the processing target area, and the parameters are generated so that all of the plurality of feature amounts are used; When the object of interest exists in the image, the minimum area surrounding the object of interest is set as the processing target area, and one or more feature amounts selected from the plurality of feature amounts are used depending on the number of pixels of the object of interest.
  • An information processing device that generates the parameters.
  • the information processing device is equipped with a distance measuring unit, In the distance detection, the distance is estimated using an integration result obtained by integrating the feature amount extracted from the image and the distance feature amount obtained by the distance measuring section.
  • the distance measuring unit includes one or more selected from LiDAR (Light Detection and Ranging), a stereo camera, and a millimeter wave radar. Information processing device.
  • a plurality of the imaging units are mounted on the moving body, The processing unit performs the processing of the second task on each image acquired by each of the plurality of imaging units mounted on the moving body, using the image recognition result of the first task processing.
  • An information processing device that determines whether or not to execute and generates the parameters.
  • the image capturing unit is a stereo camera or a monocular camera. Information processing device.
  • the processing unit executes the second task on the image using a neural network for the second task configured using the generated parameters,
  • the information processing apparatus further includes a presentation control section that controls a presentation section that provides support to the operator of the mobile object based on the recognition result of the second task.
  • the moving body is equipped with one or more selected from a display unit, a light emitting unit, and a sound output unit as the presentation unit,
  • the presentation control unit controls at least one of display control of the display unit, lighting control of the light emitting unit, and sound output control of the sound output unit.
  • the mobile body is a mobile body capable of autonomous movement,
  • the processing unit executes the second task on the image using a neural network for the second task configured using the generated parameters,
  • the information processing device further includes a planning unit that plans travel and actions of the mobile object based on the recognition result of the second task.
  • the information processing device is an image
  • the first task is semantic segmentation
  • the second task includes one or more selected from object detection, motion detection, distance detection, normal estimation, posture estimation, and trajectory estimation.
  • Information processing apparatus (19) Processing the first task for the recognition target, The information processing device determines whether or not to execute a second task that has feature extraction in common with the first task, using a recognition result of the recognition target obtained by the first task processing.
  • Information processing method (20) processing a first task on a recognition target; using the recognition result of the recognition target obtained by the first task processing to determine whether or not to execute a second task having common feature extraction with the first task; program to do.

Abstract

本技術に係る情報処理装置は、処理部を具備する。前記処理部は、認識対象に対して、特徴量抽出が共通する第1のタスクと第2のタスクを含む複数のタスクを処理することが可能である。前記処理部は、前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第2のタスクの処理の実行の有無を決定する。

Description

情報処理装置、情報処理方法、及びプログラム
 本技術は、情報処理装置、情報処理方法及びプログラムに関する。
 車両の運転時等の安全性を高めるため、車両に複数のカメラを搭載し、車両の周囲の情報を得ることが知られている。例えば、特許文献1には、車両に搭載したカメラの画像を用いて認識処理して移動を伴うオブジェクトを検出することが記載されている。
特開2012-123470号公報
 車両の全周囲を精度高く認識するため、車両に搭載された複数のカメラそれぞれで取得される画像に対して常に同様の認識処理を行うと、全体の演算量が大きくなるという課題があった。
 このように、認識処理の分野において、認識精度を落とすことなく演算量を削減することが可能な技術が求められている。
 以上のような事情に鑑み、本技術の目的は、認識精度を落とすことなく演算量を削減することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、処理部を具備する。
 前記処理部は、認識対象に対して、特徴量抽出が共通する第1のタスクと第2のタスクを含む複数のタスクを処理することが可能である。
 前記処理部は、前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第2のタスクの処理の実行の有無を決定する。
 このような構成によれば、第1のタスク処理による認識結果に基づいて第2のタスクの処理の実行の有無が決定されるため、認識精度を落とすことなく、全体の認識処理の演算量を削減することができる。
 前記処理部は、前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第2のタスクのパラメータを生成してもよい。
 前記処理部は、生成した前記パラメータを用いて前記第2のタスクのニューラルネットワークを構成してもよい。
 前記処理部は、前記認識対象から複数の特徴量を抽出し、前記複数の特徴量を用いた前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第2のタスクの処理の実行の有無の決定及び前記パラメータの生成を行ってもよい。
 前記パラメータは、前記第2のタスクの処理対象領域と、前記複数の特徴量から選択される1以上の特徴量を含んでもよい。
 前記処理部は、前記第1のタスク処理による前記認識対象の認識結果から得られるシーン特徴を用いて、前記第2のタスクの処理の実行の有無の決定及び前記パラメータの生成を行ってもよい。
 前記認識対象は、移動体に搭載され前記移動体の周囲を撮像する撮像部で取得される画像であり、
 前記シーン特徴は、前記移動体の移動シーン特徴であり、前記画像内に注目オブジェクトが存在するか否か、及び、前記注目オブジェクトが動き可能なオブジェクトであるか否かを意味してもよい。
 前記注目オブジェクトは、前記移動体の移動の支障となるオブジェクトであってもよい。
 前記第1のタスクは、セマンティックセグメンテーションであり、
 前記第2のタスクは、オブジェクト検出、動き検出及び距離検出を含み、
 前記処理部は、
  前記画像に注目オブジェクトが存在しない場合、前記距離検出のみを実行し、
  前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトでない場合、前記オブジェクト検出及び前記距離検出を実行し、
  前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトである場合、前記オブジェクト検出、前記動き検出及び前記距離検出を実行してもよい。
 前記パラメータは、前記第2のタスクの処理対象領域と、前記複数の特徴量から選択される1以上の特徴量を含み、
 前記処理部は、
  前記画像に注目オブジェクトが存在しない場合、画像全域を前記処理対象領域とし、前記複数の特徴量全てを用いるように、前記パラメータを生成し、
  前記画像に注目オブジェクトが存在する場合、注目オブジェクトを囲む最小領域を前記処理対象領域とし、注目オブジェクトの画素数に応じて前記複数の特徴量から選択される1以上の特徴量を用いるように、前記パラメータを生成してもよい。
 前記移動体には測距部が搭載され、
 前記距離検出では、前記画像から抽出された特徴量と前記測距部により得られる距離特徴量とを統合した統合結果を用いて距離が推定されてもよい。
 前記測距部は、LiDAR(Light Detection and Ranging)、ステレオカメラ及びミリ波レーダから選択される1以上を含んでもよい。
 前記撮像部は、前記移動体に複数搭載され、
 前記処理部は、前記移動体に搭載される複数の撮像部それぞれで取得される各画像に対して、前記第1のタスク処理による画像の認識結果を用いて、前記第2のタスクの処理の実行の有無の決定及び前記パラメータの生成を行ってもよい。
 前記撮像部は、ステレオカメラ又は単眼カメラであってもよい。
 前記処理部は、生成した前記パラメータを用いて構成した前記第2のタスクのニューラルネットワークを用いて前記画像に対して前記第2のタスクを実行し、
 前記第2のタスクの認識結果に基づいて、前記移動体の操作者に対する支援を行う提示部を制御する提示制御部を更に具備してもよい。
 前記移動体には、前記提示部として、表示部、発光部及び音出力部から選択される1以上が搭載され、
 前記提示制御部は、前記表示部の表示制御、前記発光部の点灯制御及び前記音出力部の音出力制御の少なくとも1つを制御してもよい。
 前記移動体は、自律移動可能な移動体であり、
 前記処理部は、生成した前記パラメータを用いて構成した前記第2のタスクのニューラルネットワークを用いて前記画像に対して前記第2のタスクを実行し、
 前記第2のタスクの認識結果に基づいて、前記移動体の走行及び行動を計画する計画部を更に具備してもよい。
 前記認識対象は画像であり、
 前記第1のタスクは、セマンティックセグメンテーションであり、
 前記第2のタスクは、オブジェクト検出、動き検出、距離検出、法線推定、姿勢推定及び軌道推定から選択される1以上を含んでもよい。
 本技術の一形態に係る情報処理方法は、認識対象に対して第1のタスクを処理し、前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第1のタスクと特徴量抽出が共通する第2のタスクを実行するか否かを決定することを情報処理装置が実行する。
 本技術の一形態に係るプログラムは、以下のステップを、情報処理装置に実行させる。
 認識対象に対して第1のタスクを処理するステップ。
 前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第1のタスクと特徴量抽出が共通する第2のタスクを実行するか否かを決定するステップ。
本技術の各実施形態に係る情報処理装置の処理部の構成例を示す模式図である。 上記処理部での画像認識処理方法(情報処理方法)を示すフロー図である。 車両の上面図であり、センサ部の搭載位置例を示す図である。 第2実施形態に係わる情報処理システムの構成例を示す模式図である。 第2及び第3実施形態における画像認識処理方法(情報処理方法)を示すフロー図である。 特徴量抽出のニューラルネットワークを説明するための模式図である。 セマンティックセグメンテーションのニューラルネットワークを説明するための模式図である。 インスタンスセグメンテーション(オブジェクト検出)のニューラルネットワークを説明するための模式図である。 オプティカルフロー(動き検出)のニューラルネットワークを説明するための模式図である。る。 距離検出のニューラルネットワークを説明するための模式図である。 各実施形態に係わる画像認識処理方法(情報処理方法)を示すフロー図である。 図11のフロー図のステップ4の第2のタスク決定処理の詳細を示すフロー図である。 第2のタスク決定処理の具体例を説明するための図である。 図11のフロー図のステップ5のパラメータ生成処理の詳細を示すフロー図である。 パラメータ生成の具体例を説明するための図である。 パラメータ生成の具体例を説明するための図である。 ニューラルネットワークの構成例を説明するための図である。 距離検出を例にあげ、再構成されたニューラルネットワークによって、デコーダ側の演算量が削減できることを説明するための図である。 第3実施形態に係わる情報処理システムの構成例を示す模式図である。
 以下、本技術に係る各実施形態を、図面を参照しながら説明する。以下の説明において、同様の構成については同様の符号を付し、既出の構成については説明を省略する場合がある。また、情報処理方法の説明において、同様のステップについては同様のステップ番号を付し、既出のステップについては説明を省略する場合がある。
 本技術では、認識対象に対して特徴量抽出が共通する複数の異なるタスクを処理することが可能な情報処理装置による認識対象の認識処理において、1つのタスクで得られる認識結果に基づいて、残りの他のタスクの実行の有無が決定される。このような構成とすることで、認識精度を落とすことなく、演算量を削減することができる。
 以下の説明では、認識対象が画像(カメラ画像)である例を挙げる。後述する第1~第3実施形態では、移動体としての自動四輪車(以下、単に「車両」ということがある。)に搭載される撮像部で取得される画像の認識処理に本技術を適用する例を挙げる。画像には車両の周囲情報(車外情報)が含まれており、該画像から車両の走行シーン(移動シーン)を推定することができる。
 第1実施形態では、本技術の特徴的な構成を中心に説明する。第1実施形態では、1つの画像(以下、入力画像ということがある。)に対して行われる画像認識処理の概要を説明する。
 第2及び第3実施形態では、複数の撮像部が車両に搭載されて車両の全周囲をセンシングする場合を例にあげ、複数の撮像部それぞれで取得される画像の認識処理に本技術が適用される例をあげる。本技術を適用した画像認識処理については、第2実施形態で、より具体的に説明する。
 尚、第1、第2及び第3実施形態それぞれに係わる情報処理装置での画像認識処理は同じである。第2実施形態では、画像認識処理結果を基に、車両の操作者であるドライバへの運転支援が行われる例を挙げる。第3実施形態では、車両が自律移動可能である例をあげ、画像認識処理結果を基に、車両の走行ルート計画、車両の行動計画が行われる例を挙げる。自律移動は、ドライバの操作に拠らずに自律的に移動する、いわゆる自動運転のことである。典型的には、車両では、手動運転と自動運転とがドライバによって切り替え可能となっている。「運転」とは、「移動体の移動」である。
 尚、第2実施形態で説明する運転支援及び第3実施形態で説明する自動運転制御の双方が可能な構成であってもよい。
 以下の説明において、「右」、「左」は、車両に乗車したドライバからみた「右」、「左」をいい、「前」とは車両の進行方向を示し、「後」とは進行方向とは反対の方向を示す。
<第1実施形態>
 図1は、第1実施形態に係わる情報処理装置10の処理部3の構成例を示す模式図である。図2は、処理部3での画像処理方法(情報処理方法)例を示すフロー図である。尚、後述する第2実施形態に係わる情報処理装置10aの処理部3及び第3実施形態に係わる情報処理装置10bの処理部3は、情報処理装置10の処理部3と同様の構成である。
[情報処理装置]
 情報処理装置10は、1つの画像に対して画像認識処理に関する複数のタスクを実行することができる。該画像は、認識対象であり、車両に搭載される撮像部によって取得される。以下、認識対象の画像を「入力画像」ということがある。本実施形態の情報処理装置10では、1つの入力画像に対して、特徴量抽出が共通する複数のタスクを同時に処理することが可能となっている。つまり、情報処理装置10では、同じ特徴量抽出器(Feature Extractor)により抽出された複数の特徴量を用いて、複数の異なるタスク処理を行うことができる。以下、特徴量抽出器には符号37を付す。詳細については第2実施形態で説明する。
 尚、図2では、タスク数をNとしている。
 本実施形態及び後述する第2及び第3実施形態では、認識タスクとして、セマンティックセグメンテーションによるクラス分類、インスタンスセグメンテーションによるオブジェクト検出、オプティカルフローによる動き検出及び距離検出の4つのタスクを処理する例をあげる。
 情報処理装置10により実行可能な複数のタスク(本実施形態では4つ)は、第1のタスクと第2のタスクとに分類される。第1のタスク及び第2のタスクは、認識タスクであり、より詳細には、本実施形態においては画像認識タスクである。車両に搭載される撮像部で取得される画像に対して画像認識タスクを実行し、その認識処理結果を用いて、運転支援提示や自動運転制御等を行うことができる。
 セマンティックセグメンテーション(クラス分類)は、第1のタスクである。インスタンスセグメンテーション(オブジェクト検出)、オプティカルフロー(動き検出)及び距離検出は、第2のタスクである。
 第1のタスクとしてのセマンティックセグメンテーションは、クラス分類である。セマンティックセグメンテーションでは、入力画像の画素それぞれが、どのオブジェクトクラス(カテゴリー)に属するかに分類される。
 第2のタスクとしてのインスタンスセグメンテーションは、オブジェクト検出(インスタンス検出ともいう。)である。インスタンスセグメンテーションでは、入力画像中のオブジェクトが検出される。以下の説明では、主に「オブジェクト検出」と称する。
 第2のタスクとしてのオプティカルフローは、動き検出である。オプティカルフローでは、入力画像内のオブジェクトの動きが検出される。具体的には、オプティカルフローでは、時間的に連続した2枚の入力画像フレーム間における注目オブジェクトの動きが推定される。以下の説明では、主に「動き検出」と称する。
 第2のタスクとしての距離検出では、特徴量抽出器37で抽出された特徴量と、測距部(後述する)としてのLiDAR(Light Detection and Ranging)により取得されるLiDAR点群とを用いて、オブジェクトと車両(撮像部が搭載される車両)との距離が推定される。
 各タスク処理の詳細については、後述する第2実施形態で説明する。
 情報処理装置10の処理部3による画像認識処理では、セマンティックセグメンテーション(第1のタスク)で得られる認識結果に基づいて、残りの他のタスク(第2のタスク)である、オブジェクト検出(インスタンスセグメンテーション)、動き検出(オプティカルフロー)及び距離検出それぞれの実行の有無が決定される。このような構成とすることで、演算量を削減することができる。具体例については第2実施形態で説明する。
 図1に示すように、情報処理装置10は、画像取得部30と、処理部3と、を有する。処理部3は、特徴量抽出部31と、第1のタスク推定部32と、第2のタスク決定部33と、パラメータ生成部34と、第2のタスクニューラルネットワーク構成部35と、第2のタスク推定部36と、を有する。
 画像取得部30は、撮像部で取得された画像(入力画像)を取得する。
 特徴量抽出部31は、入力画像から、複数のタスク(第1のタスク及び第2のタスク)の共通の特徴量を複数抽出する。特徴量抽出部31は、特徴量抽出器37(例えば図6等参照)から構成される。
 第1のタスク推定部32は、入力画像に対して深層学習を用いてセマンティックセグメンテーションを行い、画素単位でオブジェクトのクラス分類を行う。
 セマンティックセグメンテーション結果(第1のタスク処理による入力画像の認識結果)から入力画像のシーン特徴を推定することができる。例えば、セマンティックセグメンテーション結果から、運転シーン特徴(移動シーン特徴)が得られる。以下、「運転シーン特徴」を単に「シーン特徴」という。
 シーン特徴は、運転の支障となるオブジェクトの存在があるか否か、該オブジェクトが動き可能なオブジェクトであるか否かを示す。以下、「運転の支障となるオブジェクト」を「注目オブジェクト」ということがある。
 運転の支障となるオブジェクトとは、例えば自動四輪車、自動二輪車、自転車、電車といった車両、電柱、交通信号機、ごみ箱、ポール、ヒト、動物等である。一方、運転の支障とならないオブジェクトとは、例えば、路面、空等である。
 運転の支障となるオブジェクトは、更に、動き可能なオブジェクトと、動き不可能なオブジェクト(所謂、静止体)に分類され得る。動き可能のオブジェクトとは、例えば車両、ヒト、動物等である。
 第2のタスク決定部33は、セマンティックセグメンテーション結果に基づいて、第2のタスクである、オブジェクト検出、動き検出及び距離検出それぞれを実行するか否かを決定する。第2のタスク決定部33は、セマンティックセグメンテーション結果から得られるシーン特徴に基づいて、自動運転や運転支援などに必要な情報を取得するために必要な画像認識処理結果を得るために、実行する第2のタスクを決定する。
 第2のタスク決定部33は、入力画像内に注目オブジェクト(運転の支障となるオブジェクト)が何も存在していない場合、オブジェクト検出及び動き検出は実行せず、距離検出のみを実行することを決定する。
 第2のタスク決定部33は、入力画像内に注目オブジェクトは存在するが、動き可能なオブジェクトは存在しない場合、動き検出は実行せず、オブジェクト検出及び距離検出のみを実行することを決定する。
 第2のタスク決定部33は、動き可能な注目オブジェクトが存在する場合、オブジェクト検出、動き検出及び距離検出の全ての第2のタスクを実行することを決定する。
 このように、セマンティックセグメンテーション結果から得られるシーン特徴に応じて、必要な画像認識処理結果が得られるように、実行する第2のタスク(画像認識タスク)が決定されるため、認識精度を落とすことなく、認識処理の演算量を削減することができる。
 パラメータ生成部34は、セマンティックセグメンテーション結果を用いて、実行すると決定した第2のタスクのパラメータを動的に生成する。第2のタスクのパラメータとしては、第2のタスクを実行する処理対象画像と、第2のタスク実行時に用いる特徴量とがある。処理対象画像は注目オブジェクトを含む最小の矩形の画像領域である(後述する)。第2のタスク実行時に用いる特徴量は、注目オブジェクトの画素数に応じて決定される。
 セマンティックセグメンテーション結果から、注目オブジェクトのカテゴリ、注目オブジェクトが存在する画像領域を把握することができる。
 パラメータ生成部34は、オブジェクト検出において、セマンティックセグメンテーション結果を用いて、注目オブジェクトが存在する画像領域の画素数及びオブジェクトカテゴリに対応する部分的なニューラルネットワークを処理するように、オブジェクト検出のパラメータを生成する。
 パラメータ生成部34は、距離検出において、注目オブジェクトが存在する場合は、該注目オブジェクトを含む画像領域(処理対象画像)だけを処理するように、かつ、注目オブジェクトの画素数に応じた部分的なニューラルネットワークを処理するように、距離検出のパラメータを生成する。
 一方、パラメータ生成部34は、距離検出において、注目オブジェクトが存在しない場合は、入力画像全体を処理するように、かつ、特徴量全てを用いるように、距離検出のパラメータを生成する。
 パラメータ生成部34は、動き検出において、動き可能な注目オブジェクトが存在する場合は、該動き可能な注目オブジェクトを含む画像領域(処理対象画像)だけを処理するように、かつ、注目オブジェクトの画素数に応じた部分的なニューラルネットワークを処理するように、動き検出のパラメータを生成する。
 第2のタスクニューラルネットワーク構成部35は、パラメータ生成部34で生成されたパラメータを用いて、第2のタスクであるオブジェクト検出、動き検出及び距離検出それぞれのニューラルネットワークを構成する。
 また、第2のタスクニューラルネットワーク構成部35は、パラメータ生成部34により、パラメータとして全ての特徴量f1~f5が生成された場合、基準のニューラルネットワークを、第2のタスク処理に用いるニューラルネットワークとする。実施形態において、「基準のニューラルネットワーク」とは、後述する図7~図9それぞれに示す、全ての特徴量f1~f5を用いるように構成されるニューラルネットワークを指す。
 第2のタスク推定部36は、構成されたオブジェクト検出のニューラルネットワークを用いて、オブジェクト検出(インスタンスセグメンテーション)を実行する。
 第2のタスク推定部36は、構成された距離検出のニューラルネットワークを用いて、距離検出を実行し、距離を推定する。
 第2のタスク推定部36は、構成された動き検出のニューラルネットワークを用いて、動き検出(オプティカルフロー)を実行し、オブジェクトの動きを推定する。
 情報処理装置10は、例えばCPU(Central processing unit)やメモリ(RAM,ROM)等のコンピュータに必要なハードウェア構成を有する。情報処理装置10では、CPUが図示しない記憶部に記憶されているプログラムをRAMにロードして実行することにより、種々の処理が実行される。記憶部には本実施形態に係わる画像認識処理を実行するためのプログラムが記憶されている。
[情報処理方法(画像認識処理方法)]
 図2を用いて、本実施形態の情報処理装置10の処理部3で行われる情報処理方法(画像認識処理方法)を説明する。図2では、互いに異なる複数の第2のタスクを、第2のタスクa、第2のタスクb、第2のタスクc・・・第2のタスクNと示している。Nは、第2のタスク数に対応する。例えば、図2において、第2のタスクaはオブジェクト検出(インスタンスセグメンテーション)を示し、第2のタスクbは動き検出(オプティカルフロー)を示し、第2のタスクcは距離検出を示すものとする。尚、第2のタスクの数は特に限定されず、1以上であればよい。
 図2に示すように、処理部3に画像が入力されると、特徴量抽出部31により入力画像の特徴量が複数抽出される(S2)。
 次に、第1のタスク推定部32により、S2で抽出された複数の特徴量を用いて第1のタスク(本実施形態ではセマンティックセグメンテーション)が実行される(S3)。セマンティックセグメンテーション結果(第1のタスク処理結果)は、第2のタスク決定部33へ出力される。セマンティックセグメンテーション結果を用いて、入力画像のシーン特徴を推定することができる。
 次に、第2のタスク決定部33により、セマンティックセグメンテーション結果を用いて、第2のタスクa、b、c~Nそれぞれを実行するか否かが決定される(S4)。本実施形態では、第2のタスク決定部33により、オブジェクト検出、動き検出及び距離検出それぞれを実行するか否かが決定される。その他の第2のタスクがある場合は、その第2のタスクの実行の有無も決定される。
 次に、パラメータ生成部34により、第2のタスクのパラメータが生成される(S5)。
 図2では、第2のタスクa(オブジェクト検出)のパラメータを生成するパラメータ生成のステップをS5aと表す。第2のタスクb(動き検出)のパラメータを生成するパラメータ生成のステップをS5bと表す。第2のタスクc(距離検出)のパラメータを生成するパラメータ生成のステップをS5cと表す。第2のタスクNのパラメータを生成するパラメータ生成のステップをS5Nと表す。これらS5a、S5b、S5c・・・S5Nというように、区別する必要がない場合はS5とする。
 本実施形態では、図2に示すように、セマンティックセグメンテーション結果を用いて、第2のタスクaのパラメータが生成される(S5a)。セマンティックセグメンテーション結果を用いて、第2のタスクbのパラメータが生成される(S5b)。セマンティックセグメンテーション結果を用いて、第2のタスクcのパラメータが生成される(S5c)。セマンティックセグメンテーション結果を用いて、第2のタスクNのパラメータが生成される(S5N)。
 次に、第2のタスクニューラルネットワーク構成部35により、S5で生成されたパラメータを用いて第2のタスクのニューラルネットワークが構成される(S6)。
 ここで構成されるニューラルネットワークは、基準のニューラルネットワーク、又は、一部の特徴量のみが用いられるように再構成されたニューラルネットワークである。
 図2では、第2のタスクaのニューラルネットワークを構成するステップをS6aと表す。第2のタスクbのニューラルネットワークを構成するステップをS6bと表す。第2のタスクcのニューラルネットワークを構成するステップをS6cと表す。第2のタスクNのニューラルネットワークを構成するステップをS6Nと表す。これらS6a、S6b、S6c・・・S6Nというように、区別する必要がない場合はS6とする。
 本実施形態では、図2に示すように、S5aで生成されたパラメータを用いて第2のタスクaのニューラルネットワークが構成される(S6a)。S5bで生成されたパラメータを用いて第2のタスクbのニューラルネットワークが構成される(S6b)。S5cで生成されたパラメータを用いて第2のタスクcのニューラルネットワークが構成される(S6c)。S5Nで生成されたパラメータを用いて第2のタスクbのニューラルネットワークが構成される(S6N)。
 次に、第2のタスク推定部36により、S6で構成されたニューラルネットワークを用いて、第2のタスクが実行される(S7)。
 図2では、構成された第2のタスクaのニューラルネットワークを用いた推定のステップをS7aと表す。構成された第2のタスクbのニューラルネットワークを用いた推定のステップをS7bと表す。構成された第2のタスクcのニューラルネットワークを用いた推定のステップをS7cと表す。構成された第2のタスクNのニューラルネットワークを用いた推定のステップをS7Nと表す。これらS7a、S7b、S7c・・・S7Nというように、区別する必要がない場合はS7とする。
 本実施形態では、図2に示すように、構成された第2のタスクa(オブジェクト検出)のニューラルネットワークを用いて、インスタンスセグメンテーションが実行され(S7a)、オブジェクト検出結果(第2のタスクaの認識処理結果)が出力される。
 構成された第2のタスクb(動き検出)のニューラルネットワークを用いて、オプティカルフローが実行され(S7b)、動き検出結果(第2のタスクbの認識処理結果)が出力される。
 構成された第2のタスクc(距離検出)のニューラルネットワークを用いて、距離検出が実行され(S7c)、距離検出結果(第2のタスクcの認識処理結果)が出力される。
 出力された認識処理結果(セマンティックセグメンテーション結果、オブジェクト検出結果、動き検出結果、距離検出結果)を用いることで、運転支援(第2実施形態で詳細を説明する。)、自動運転(第3実施形態で詳細を説明する。)を、消費電力を低減しつつ、精度の高いものとすることが可能となる。
 本実施形態、後述の第2及び第3実施形態においては、処理部が4つのタスク処理を実行する例をあげるが、タスク数は4つに限定されず、2以上あればよく、1つの第1のタスクと1以上の第2のタスクを含んでいればよい。
 第1のタスクの処理結果は、他の第2のタスクの実行の有無を決定するために用いられる。第1のタスクは、他の第2のタスクの実行の有無を決定するための必須のタスクである。画像認識処理において、第1のタスクとして、典型的には、セマンティックセグメンテーションが用いられる。
 第2のタスクは1以上あればよい。第2のタスクの実行の有無は、第1のタスクの処理結果に基づいて決定される。本技術を用いた画像処理において、第2のタスクとして、オブジェクト検出(インスタンスセグメンテーション)、動き検出(オプティカルフロー)、距離検出、法線(Normal)推定、姿勢(Pose)推定、軌道(Trajectory)推定等から選択される1以上のタスクを用いることができる。
 第1~第3実施形態においては、第2のタスクとして、オブジェクト検出(インスタンスセグメンテーション)、動き検出(オプティカルフロー)及び距離検出の3つのタスクを例に挙げる。
 以上のように、本技術では、セマンティックセグメンテーション結果(第1のタスク処理による認識対象の認識結果)に応じて、実行する第2のタスクが決定され、更に、該第2のタスクのパラメータが生成される。そして、生成されたパラメータを用いて、第2のタスクのニューラルネットワークが構成され、構成されたニューラルネットワークを用いて画像認識タスクが行われる。
 本技術では、セマンティックセグメンテーション結果を用いて実行する第2のタスクが決定されるため、画像認識に必要な認識タスクのみを実行することができ、認識精度を落とすことなく全体の認識処理の演算量を削減することができる。
 更に、本技術では、ニューラルネットワークが、セマンティックセグメンテーション結果を用いて生成されたパラメータを用いて構成されることで、シーン特徴に応じて部分的なネットワークだけを処理することが可能となり、より一層、高い認識精度を維持しつつも認識処理の演算量を削減することができる。
 これにより、消費電力の低減が可能となるとともに処理遅延が抑制され、認識精度の高いリアルタイムの認識処理結果を得ることができる。そして、このような認識処理結果を用いることで、的確なタイミングで精度の高い運転支援や自動運転制御が可能となる。
 また、本技術は、後述する第2及び第3実施形態のように、複数の画像それぞれをリアルタイムに画像認識処理するシステムにおいて、演算量削減に非常に効果的である。
 例えば、車両に複数の撮像部が搭載され、車両の周囲情報を広範囲で取得する全周囲センシングステムでは、各撮像部で取得される画像それぞれに対して4つの認識タスクが常に実行されると、演算量が莫大になってしまう。しかしながら、各撮像部で取得される画像それぞれに対して本技術の画像認識処理方法(情報処理方法)を適用することで、高い認識精度を維持しつつ全体の認識処理の演算量を削減することができる。これにより、全周囲センシングステムのような複数の画像それぞれをリアルタイムに画像認識処理する必要がある形態において、消費電力の低減が可能となるとともに処理遅延が抑制され、的確なタイミングで精度の高い運転支援や自動運転制御が可能となる。
<第2実施形態>
 第2実施形態では、第1実施形態で説明した技術を、車両に搭載される複数の撮像部それぞれが取得する各画像の画像認識処理に適用し、画像認識処理結果を運転支援に用いる例を挙げる。
[車両例]
 図3は、車両の上面図であり、車両に搭載される複数のセンサ部2の位置例を示す。詳細については後述するが、各センサ部2は、撮像部20と、測距部21と、を有する。尚、図3に示すセンサ部2の位置は一例であり、これに限定されない。また、これら複数のセンサ部2を区別して説明する必要がない場合は、センサ部2という。
 図3に示すように、車両1には、例えば、前方センサ部2F、2つの前方センサ部2Fa、右前方センサ部2FR、左前方センサ部2FL、右側方センサ部2SR、左側方センサ部2SL、後方センサ部2R及び後方センサ部2Raが搭載される。いずれのセンサ部2も車両の周囲情報を取得することが可能である。
 前方センサ部2Fは、フロントバンパー付近に配置され、車両前方の周囲情報を取得する。
 2つの前方センサ部2Faは、ルーフ前方に配置され、車両前方の車両周囲情報を取得する。
 右前方センサ部2FRは、車両の右側方部の前方に配置され、車両の右斜め前方の車両周囲情報を取得する。
 左前方センサ部2FLは、車両の左側方部の前方に配置され、車両の左斜め前方の車両周囲情報を取得する。
 右側方センサ部2SRは、右前方センサ部2FRよりも後方に配置され、車両の右横の車両周囲情報を取得する。
 左側方センサ部2SLは、左前方センサ部2FLよりも後方に配置され、車両の左横の車両周囲情報を取得する。
 後方センサ部2Rは、リアバンパー付近に配置され、車両後方の車両周囲情報を取得する。
 後方センサ部2Raは、ルーフ後方に配置され、車両後方の車両周囲情報を取得する。
 第2及び第3実施形態では、便宜的に、前方センサ部2F、右前方センサ部2FR、左前方センサ部2FL、右側方センサ部2SR及び左側方センサ部2SLの5つのセンサ部それぞれの撮像部20でのセンシング結果(画像)の認識処理に本技術を適用する例をあげる。尚、本技術を適用するセンサ部2の数はこれに限定されず、1以上あればよい。
[情報処理システム]
 図4は、本実施形態に係わる情報処理システム100の概略構成図である。情報処理システム100では、車両1に搭載される複数の撮像部20の取得画像の認識処理結果を用いた運転支援処理が行われる。本実施形態の情報処理システム100は運転支援システムと言い換えることができる。
 図4に示すように、情報処理システム100は、複数のセンサ部2と、情報処理装置10aと、車両状態検出部5と、提示部6と、を有する。これらはいずれも車両1に搭載される。
(センサ部)
 各センサ部2は、撮像部20と、測距部21と、を含む。
 撮像部20は、画像を取得するものであり、例えばCMOSセンサにより構成される。本実施形態の撮像部20は、車両1の周囲の画像を取得する。撮像部20には、単眼カメラ、ステレオカメラ等を用いることができる。
 測距部21は、撮像部20が搭載される車両1と車両1の周囲にあるオブジェクトとの間の距離を測定可能に構成される。測距部21としては、LiDAR、ステレオカメラ、ミリ波レーダ等を用いることができ、測距部21は、これらから選択される1以上を含んで構成される。本実施形態では、測距部21として、LiDARを用いる例を挙げる。
 センサ部2の撮像部20で取得される画像及び測距部21としてのLiDARで取得される三次元の点群情報は、情報処理装置10aへ出力される。
 尚、各センサ部2において、典型的には、撮像部20と測距部21は近接して配置される。一般的に、カメラ(撮像部)とLiDAR(測距部)の設置位置は異なるため、カメラ位置を原点とするカメラ座標系と、LiDAR位置を原点とするLiDAR座標系との対応情報が予め取得され、記憶されている。この対応情報を用いて、カメラで取得される画像と、LiDARで取得される3次元点群とを対応づけて、距離検出に係わる画像認識処理をすることができる。
(提示部)
 提示部6は、車両1のドライバに対して、視覚情報又は聴覚情報を出力し提示することが可能な装置を備える。提示部6は車両1に搭載される。提示部6は、車両1のドライバに対して、車両周囲情報の報知、注意や警告を促す、好ましい速度や走行ルートの提案といった運転支援に関する情報を提示することができる。
 提示部6は、例えば、表示部60と、音出力部61と、発光部62と、を含む。表示部60、音出力部61及び発光部62から選択される1以上を用いて、運転支援が行われてもよい。表示部60での表示や発光部62での点灯や点滅により運転支援情報がドライバに視覚提示される。音出力部61での音声出力により運転支援情報がドライバに聴覚提示される。
 提示部6によるドライバに対する視覚的又は聴覚的な運転支援情報の提示は、センサ部2で取得された画像の処理部3での画像認識処理結果を用いて行われる。
 運転支援情報は、例えば、車両の運転時における事故などを未然に防ぐための有効な情報である。運転支援の一例として、障害物警告、自車両の衝突警告、自車両の車線逸脱警告、運転操作命令、速度変更命令、車両追い越し推奨、車線変更推奨、走行条件情報の報知等がある。ドライバは、提示部6から提示される運転支援情報を基に、より安全な運転をすることができる。
 表示部60は、ドライバの視野内に視覚情報を表示する。表示部60は、例えば、表示装置、インストルメントパネル、ドライバが装着する眼鏡型ディスプレイ等のウェアラブルデバイス、プロジェクタ等を備える。表示部60は、後述する提示制御部4の制御のもと表示を行う。
 音出力部61は、例えば、スピーカ、アラーム、ブザー等を備える。音出力部61は、後述する提示制御部4の制御のもと、音声情報、通知音、警告音等の出力を行う。
 発光部62は、例えば、ランプ等の発光装置を備える。発光部62は例えば警告灯として機能することができ、発光部62は、後述する提示制御部4の制御のもと、ドライバへの各種の情報の通知や警告等を目的とする光の点灯または点滅を行う。
(車両状態検出部)
 車両状態検出部5は、車両の状態を検出する。車両状態検出部5は、例えば、ジャイロセンサ、加速度センサ、及び、アクセルペダルの操作量、ブレーキペダルの操作量、操舵角、エンジン回転数、モータ回転数、若しくは、車両の回転速度等を検出するためのセンサなどを含んで構成される。車両状態検出部5で検出された車両1の速度、操舵角等の車両情報は、後述する提示制御部4へ出力される。
(情報処理装置)
 情報処理装置10aは、例えばCPUやメモリ(RAM,ROM)等のコンピュータに必要なハードウェア構成を有する。情報処理装置10aでは、CPUが後述する記憶部7に記憶されているプログラムをRAMにロードして実行することにより、本技術に係わる画像認識処理を含む種々の処理が実行される。
 情報処理装置10aでは、複数のセンサ部2それぞれの撮像部20からの入力画像毎に、セマンティックセグメンテーション(第1のタスク)が行なわれる。そして、セマンティックセグメンテーション結果を用いて、画像認識処理に用いるタスク(第2のタスク)が決定され、該タスクのパラメータが生成される。
 情報処理装置10aは、処理部3と、画像取得部30と、提示制御部4と、記憶部7と、状況分析部8と、を備える。
((画像取得部))
 画像取得部30は、各センサ部2の撮像部20で取得された画像を取得する。画像は、処理部3へ出力される。
((処理部))
 処理部3は、画像取得部30で取得された画像(入力画像)の認識処理を行う。この際、第1実施形態で説明したように、処理部3は、入力画像に対して行った第1のタスクの実行の結果を用いて、第2のタスクの実行の有無の決定及び第2のタスクのパラメータの生成を行う。
 本実施形態においても、第1実施形態と同様に、第1のタスクがセマンティックセグメンテーションであり、第2のタスクが、オブジェクト検出(インスタンスセグメンテーション)、動き検出(オプティカルフロー)及び距離検出である例を説明する。図4において、これら第2のタスクを区別するために、オブジェクト検出を第2のタスクa、動き検出を第2のタスクb、距離検出を第2のタスクcとする。
 以下、詳細に説明する。
 処理部3は、特徴量抽出部31と、第1のタスク推定部32と、第2のタスク決定部33と、パラメータ生成部34と、第2のタスクニューラルネットワーク構成部35と、第2のタスク推定部36と、を備える。
 特徴量抽出部31は、特徴量抽出器37により入力画像の特徴量を複数抽出する。特徴量抽出の詳細については後述する。
 第1のタスク推定部32は、第1のタスクとしてのセマンティックセグメンテーションを実行する。セマンティックセグメンテーション結果は第2のタスク決定部33及び状況分析部8へ出力される。セマンティックセグメンテーションの詳細については後述する。
 第2のタスク決定部33は、セマンティックセグメンテーション結果を基に、第2のタスクa、第2のタスクb及び第2のタスクcそれぞれについて実行するか否かを決定する。具体的な第2のタスク決定については後述する。
 パラメータ生成部34は、セマンティックセグメンテーション結果を基に、実行すると決定された第2のタスクを実行する際のパラメータを生成する。生成されたパラメータは記憶部7に保存される。具体的なパラメータ生成については後述する。
 第2のタスクニューラルネットワーク構成部35は、パラメータ生成部34で生成されたパラメータを記憶部7から読み出し、該パラメータを用いて第2のタスクのニューラルネットワークを構成する。
 第2のタスク推定部36は、構成されたニューラルネットワークを用いて第2のタスク処理を実行する。第2のタスクの処理結果(入力画像の認識結果)は、状況分析部8へ出力される。
 第2のタスク推定部36は、第2のタスクa推定部361と、第2のタスクb推定部362と、第2のタスクc推定部363と、を有する。第2のタスクa推定部361は、インスタンスセグメンテーションを行い、オブジェクトを検出する。第2のタスクb推定部362は、オプティカルフローを行い、オブジェクトの動きを検出する。第2のタスクc推定部363は、距離検出を実行する。オブジェクト検出、動き検出及び距離検出の詳細については後述する。
 図5は、処理部3で行われる、第2及び第3実施形態における車両1に搭載される複数のセンサ部2それぞれで取得される画像の画像認識処理例を示す概略フロー図である。
 図5に示すように、前方センサ部2F、右前方センサ部2FR、左前方センサ部2FL、右側方センサ部2SR及び左側方センサ部2SLの5つのセンサ部それぞれで取得される画像に対して、本技術の画像認識処理(情報処理)が適用される。つまり、処理部3では、第1の実施形態で説明したS1~S6の処理が、複数のセンサ部2からの入力画像それぞれに対して行われる。
 複数のセンサ部2で取得された画像それぞれの画像認識処理において、第1のタスクの認識処理結果に基づいて、他のタスクである第2のタスクの実行の有無が決定される。このため、認識精度を落とすことなく全体の認識処理の演算量を削減することができ、消費電力の低減及び処理遅延の抑制が可能となる。
((状況分析部))
 状況分析部8は、第1のタスクの認識処理結果(セマンティックセグメンテーション結果)、第2のタスクの認識処理結果(オブジェクト検出結果、動き検出結果及び距離検出結果から選択される1以上の処理結果)に基づいて、車両の周囲状況の分析処理を行う。分析結果は提示制御部4へ出力される。
((提示制御部))
 提示制御部4は、状況分析部8から出力された分析結果及び車両状態検出部5で検出された車両1の状態情報を用いて、運転支援情報を生成し、該運転支援情報を提示する提示部6を制御する。
 提示制御部4は、例えば、表示制御部40と、音声制御部41と、発光制御部42と、を備える。
 表示制御部40は、表示部60での表示を制御する。
 音声制御部41は、音出力部61での音声出力を制御する
 発光制御部42は、発光部62の点灯を制御する。
 上述の状況分析部8による分析結果は、処理部3での画像認識処理結果を用いて生成されるものである。上述の通り、処理部3では、演算量を削減しつつも高い認識精度を維持した画像認識処理が可能であるため、精度の高い画像認識処理結果を用いて行われる車両の周囲状況の分析結果は精度の高い情報である。そして、このような精度の高い情報を用いて生成される運転支援情報は、車両1が置かれている状況に適した情報であり、ドライバは、運転支援情報を利用してより安全な運転をすることができる。
 そのうえ、本技術の情報処理装置10aの処理部3では、画像認識処理の演算量を削減することができるため、処理遅延が抑制され、より的確なタイミングで的確な運転支援情報の提示が可能となる。
((記憶部))
 記憶部7は、情報処理装置10aでの処理に必要な各種プログラムやデータを記憶する。例えば、記憶部7は、本技術の処理部3で行われる画像認識処理に係る一連の処理を実行するためのプログラムを記憶する。例えば、記憶部7は、画像認識処理に係る処理で用いる各種パラメータや車両の走行等に関するログ等を記憶する。例えば、記憶部7は、状況分析部8や提示制御部4で行われる一連の処理を実行するためのプログラムを記憶する。
 記憶部7は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disc Drive)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイス等を備える。
[特徴量抽出]
 特徴量抽出部31による特徴量抽出について説明する。
 図6は、情報処理装置10aの処理部3による画像認識処理の構成を模式的に示す図であり、特徴量抽出のニューラルネットワークを説明するための模式図である。
 図6に示すように、センサ部2で取得された入力画像9から、特徴量抽出部31を構成する特徴量抽出器(Feature Extractor)37により、4つのタスクに共通する複数の特徴量f1~f5が抽出される。4つのタスクの共通特徴量として、入力画像の色特徴、エッジ特徴が、ニューラルネットワークの特徴量抽出器37によって抽出される。
 特徴量抽出器37により、入力画像9から、互いに異なる複数の畳み込み演算と活性化関数との組み合わせレイヤでの処理を用いて、解像度が異なる基本特徴マップb0、b1、b2、b3が得られる。
 入力画像により近いレイヤの基本特徴マップであるb0、b1は、相対的に解像度が高く、画像の細かい構造情報を有する。一方、入力画像からより遠いレイヤの基本特徴マップであるb2、b3は、相対的に解像度が低く、画像の大まかな構造情報を有する。
 更に、隣接する2つの基本特徴マップから、畳み込み演算で、特徴量f1~f5を抽出する。該特徴量f1~f5は、最終的な特徴マップであり、基本特徴マップと区別して、本明細書では「特徴量」という。
 例えば、基本特徴マップb0とb1を用いて、畳み込み演算で特徴量f1を抽出する。基本特徴マップb2と特徴量f1を用いて、畳み込み演算で特徴量f2を抽出する。基本特徴マップb3と特徴量f2を用いて、畳み込み演算で特徴量f3を抽出する。特徴量f3を用いて、畳み込み演算で特徴量f4を抽出する。特徴量f4を用いて、畳み込み演算で特徴量f5を抽出する。
 特徴量f1、f2は、相対的に解像度が高く、より詳細な色、エッジ情報を有し、特徴量f3~f5は、相対的に解像度が低いが、より広い範囲のエッジ情報を有する。特徴量は、f1、f2、f3、f4、f5といくにしたがって、解像度が低くなっていく。
 特徴量抽出器37では、セマンティックセグメンテーション、オブジェクト検出(インスタンスセグメンテーション)、動き検出(オプティカルフロー(Optical flow))及び距離(depth)検出の4つのタスクの損失関数の和を学習し、全てのタスクの損失関数を最小化することで、4つのタスクの共通の特徴量f1~f5を抽出する。
 情報処理装置10aでは、抽出した特徴量f1~f5を用いて、セマンティックセグメンテーション、オブジェクト検出、動き検出及び距離検出の4つのタスク処理が実行可能となっている。
 図6に示すように、セマンティックセグメンテーションにより、画像認識処理結果としてセマンティックセグメンテーション結果11が得られる。セマンティックセグメンテーション結果11は、画像内の全画素にラベル又はカテゴリを関連づけた画像である。
 オブジェクト検出(インスタンスセグメンテーション)により、画像認識処理結果としてオブジェクト検出結果12が得られる。
 動き検出(オプティカルフロー)により、画像認識処理結果としてオプティカルフロー結果13が得られる。
 距離検出により、画像認識処理結果として距離検出結果14が得られる。
[セマンティックセグメンテーション(クラス分類)]
 図7は、セマンティックセグメンテーションのニューラルネットワーク101を模式的に示す図である。第1のタスク推定部32は、セマンティックセグメンテーション(第1のタスク)用のニューラルネットワーク101を用いて、セマンティックセグメンテーションを行う。
 第1のタスク推定部32は、セマンティックセグメンテーションを行い、入力画像9を、路面、歩道、空、歩行者、車両、サイクリスト、建物、縁石、植物、ガードレール、電柱、標識、交通信号機、動物、ごみ箱、ポール等の領域に、画素単位で分割する。
 セマンティックセグメンテーションでは、事前に1~NのN個のクラスを定義し、画素毎に各クラス1~Nとなる確率を推定し、最も確率が高いクラスを、その画素のクラスの推定結果とする。各クラスにはクラスIDが付与されている。より詳細には、推定は次のように行われる。
 図7に示すように、特徴量抽出器37から出力された入力画像9の特徴量f1~f5それぞれが、対応するデコーダに出力される。つまり、特徴量f1は、第1デコーダ111に出力される。特徴量f2は、第2デコーダ112に出力される。特徴量f3は、第3デコーダ113に出力される。特徴量f4は、第4デコーダ114に出力される。特徴量f5は、第5デコーダ115に出力される。
 次に、各デコーダの畳み込みニューラルネットワークを用いて、画素毎のクラス推定用特徴マップが推定される。
 次に、各デコーダで推定された、解像度が異なる5つのクラス推定用特徴マップは、特徴統合(Feature Aggregation)部116によって統合される。統合は、画素毎の和又は5つのクラス推定用特徴マップをチャンネル方向で連結することで行われる。
 次に、クラス予測(Class predictor)部117により、特徴統合部116で統合された特徴マップのチャンネル数がクラス数のNとなるように畳み込み演算で、画素毎に各クラス1~Nとなる確率を算出する。N個の確率値のうち、最も高い確率に対応するクラスIDが、セマンティックセグメンテーション結果(推定結果)となる。
 このように、入力画像9中の全ての画素のクラスIDが推定され、セマンティックセグメンテーション結果11が得られる。
[オブジェクト検出(インスタンスセグメンテーション)]
 図8は、オブジェクト検出(インスタンスセグメンテーション)のニューラルネットワーク102を模式的に示す図である。第2のタスクa推定部361は、オブジェクト検出用のニューラルネットワーク102を用いて、インスタンスセグメンテーションを行う。
 インスタンスセグメンテーションでは、入力画像9に含まれるオブジェクト毎のマスクが検出され、その領域の種類(クラス)も推測される。インスタンスセグメンテーションでは、同一クラスの複数オブジェクトが隣接していても、オブジェクト毎のマスクを検出することができる。
 図8に示すように、特徴量抽出器37から出力された入力画像9の特徴量f1~f5それぞれは、対応するデコーダへ出力される。つまり、特徴量f1は、第1オブジェクトデコーダ121へ出力される。特徴量f2は、第2オブジェクトデコーダ122へ出力される。特徴量f3は、第3オブジェクトデコーダ123へ出力される。特徴量f4は、第4オブジェクトデコーダ124へ出力される。特徴量f5は、第5オブジェクトデコーダ125へ出力される。
 次に、各デコーダの畳み込みニューラルネットワークを用いて、オブジェクト毎のバウンディングボックス及びバウンディングボックスのクラスが推定される。
 次に、各デコーダで推定されたバウンディングボックスの位置から、バウンディングボックスに対応する特徴量(f1~f5のいずれか)からバウンディングボックス領域の特徴量を切り出して、切り出した特徴量をマスク推定(Mask Predictor)部127に出力する。
 次に、マスク推定部127により、バウンディングボックス領域の特徴量から、オブジェクト領域毎のクラスが推定される。
 以上により、入力画像9から、画像認識処理されたオブジェクト検出結果12が得られる。
[動き検出(オプティカルフロー)]
 図9は、動き検出(オプティカルフロー)のニューラルネットワーク103を模式的に示す図である。第2のタスクb推定部362は、動き検出用のニューラルネットワーク103を用いて、オプティカルフロー推定を行う。
 図9に示すように、オプティカルフローでは、2枚の入力画像9a、9b間の画素毎の移動量が計算される。2枚の入力画像9a、9bは、同じセンサ部2で取得された画像であり、例えば、現在のフレームの画像と1フレーム前の画像である。
 図9に示すように、2枚の入力画像9a、9bそれぞれから、特徴量抽出器37により、特徴量f1~f5が抽出される。
 次に、入力画像9aから抽出した特徴量f5と入力画像9bから抽出した特徴量f5とが、特徴量マッチング(feature matching)部136により、マッチングされる。特徴量マッチング部136では、異なる画像でそれぞれ抽出した特徴量の対応付けが行われる。マッチング結果は、第5オプティカルフローデコーダ(optical flow decoder)135に入力される。第5オプティカルフローデコーダ135により、特徴量f5と同じ解像度のオプティカルフローが算出される。
 次に、入力画像9aから抽出した特徴量f4と入力画像9bから抽出した特徴量f4とが、特徴量マッチング部136により、マッチングされる。マッチング結果は、第4オプティカルフローデコーダ134へ出力される。更に、第5オプティカルフローデコーダ135により算出された後、アップサンプリング部137によりアップサンプリングされて拡大されたオプティカルフローが、第4オプティカルフローデコーダ134へ出力される。そして、第4オプティカルフローデコーダ134により、特徴量f4と同じ解像度のオプティカルフローが算出される。ここで、第4オプティカルフローデコーダ134によるオプティカルフロー算出に際し、第5オプティカルフローデコーダ135により算出された後、拡大されたオプティカルフローも用いられることで、より正確なオプティカルフローを算出することができる。
 次に、入力画像9aから抽出した特徴量f3と入力画像9bから抽出した特徴量f3とが、特徴量マッチング部136により、マッチングされる。マッチング結果は、第3オプティカルフローデコーダ133へ出力される。更に、第4オプティカルフローデコーダ134により算出された後、アップサンプリング部137によりアップサンプリングされて拡大されたオプティカルフローが、第3オプティカルフローデコーダ133へ出力される。そして、第3オプティカルフローデコーダ133により、特徴量f3と同じ解像度のオプティカルフローが算出される。上記と同様に、第3オプティカルフローデコーダ133によるオプティカルフロー算出に際し、第4オプティカルフローデコーダ134により算出された後、拡大されたオプティカルフローも用いられることで、より正確なオプティカルフローを算出することができる。
 次に、入力画像9aから抽出した特徴量f2と入力画像9bから抽出した特徴量f2とが、特徴量マッチング部136により、マッチングされる。マッチング結果は、第2オプティカルフローデコーダ132へ出力される。更に、第3オプティカルフローデコーダ133により算出された後、アップサンプリング部137によりアップサンプリングされて拡大されたオプティカルフローが、第2オプティカルフローデコーダ132へ出力される。そして、第2オプティカルフローデコーダ132により、特徴量f2と同じ解像度のオプティカルフローが算出される。上記と同様に、第2オプティカルフローデコーダ132によるオプティカルフロー算出に際し、第3オプティカルフローデコーダ133により算出された後、拡大されたオプティカルフローも用いられることで、より正確なオプティカルフローを算出することができる。
 次に、入力画像9aから抽出した特徴量f1と入力画像9bから抽出した特徴量f1とが、特徴量マッチング部136により、マッチングされる。マッチング結果は、第1オプティカルフローデコーダ131へ出力される。更に、第2オプティカルフローデコーダ132により算出された後、アップサンプリング部137によりアップサンプリングされて拡大されたオプティカルフローが、第1オプティカルフローデコーダ131へ出力される。そして、第1オプティカルフローデコーダ131により、特徴量f1と同じ解像度のオプティカルフローが算出される。上記と同様に、第1オプティカルフローデコーダ131によるオプティカルフロー算出に際し、第2オプティカルフローデコーダ132により算出された後、拡大されたオプティカルフローも用いられることで、より正確なオプティカルフローを算出することができる。このように、前段で算出されたオプティカルフローデコータの出力と合わせてオプティカルフローが算出されることで、精度の高いオプティカルフロー結果(動き検出結果)を得ることができる。
 以上により、入力画像9a及び9bから、オプティカルフロー結果13が得られる。
[距離検出]
 図10は、距離検出のニューラルネットワーク104を模式的に示す図である。第2のタスクc推定部363は、距離検出(第2のタスク)用のニューラルネットワーク104を用いて、距離推定を行う。距離推定では、入力画像9から画素毎の奥行(デプス)情報(オブジェクトと車両との距離情報)を推定する。
 図10に示すように、距離検出用のニューラルネットワーク104では、入力画像9から抽出された解像度の異なる複数の特徴量f1~f5それぞれと、測距部21で取得されたLiDAR点群15から抽出された特徴量とが統合された後、距離推定のデコーダであるデプスデコーダにより画素毎の距離(オブジェクトと車両(より詳細には撮像部)との距離)が算出される。以下、詳細に説明する。
 図10に示すように、特徴量抽出器37により、センサ部2の撮像部20で取得された入力画像9から、特徴量f1~f5が抽出される。また、同じセンサ部2の測距部21で取得されたLiDAR点群15に対し、RestNet(He, Kaiming, et al. "Deep residual learning for image recognition. "Proceedings of IEEE conference on computer vision and pattern recognition. 2016.)16を用いて、LiDARの特徴マップ(以下、LiDARの特徴量という。)が抽出される。
 次に、入力画像9から抽出した特徴量f5と、LiDAR点群15から抽出したLiDARの特徴量とが、特徴統合(Feature Aggregation)部146によって統合される。統合は、画素毎の和で行われる。もしくは、画素毎の特徴量をチャンネル方向で連結しても良い。統合結果(統合特徴量)は、第5デプスデコーダ(depth decoder)145へ出力される。第5デプスデコーダ145により、特徴量f5と同じ解像度の距離検出結果が算出される。
 次に、入力画像9から抽出した特徴量f4と、LiDAR点群15から抽出したLiDARの特徴量とが、特徴統合部146により統合される。統合結果は、第4デプスデコーダ144へ出力される。更に、第5デプスデコーダ145により算出された後、アップサンプリング部147によりアップサンプリングされて拡大された距離検出結果が、第4デプスデコーダ144へ出力される。そして、第4デプスデコーダ144により、特徴量f4と同じ解像度の距離検出結果が算出される。ここで、第4デプスデコーダ144による距離算出に際し、第5デプスデコーダ145により算出された後、拡大された距離検出結果も用いられることで、より正確な距離検出結果を算出することができる。
 次に、入力画像9から抽出した特徴量f3と、LiDAR点群15から抽出したLiDARの特徴量とが、特徴統合部146により統合される。統合結果は、第3デプスデコーダ143へ出力される。更に、第4デプスデコーダ144により算出された後、アップサンプリング部147によりアップサンプリングされて拡大された距離検出結果が、第3デプスデコーダ143へ出力される。そして、第3デプスデコーダ143により、特徴量f3と同じ解像度の距離検出結果が算出される。ここで、第3デプスデコーダ143による距離算出に際し、第4デプスデコーダ144により算出された後、拡大された距離検出結果も用いられることで、より正確な距離検出結果を算出することができる。
 次に、入力画像9から抽出した特徴量f2と、LiDAR点群15から抽出したLiDARの特徴量とが、特徴統合部146により統合される。統合結果は、第2デプスデコーダ142へ出力される。更に、第3デプスデコーダ143により算出された後、アップサンプリング部147によりアップサンプリングされて拡大された距離検出結果が、第2デプスデコーダ142へ出力される。そして、第2デプスデコーダ142により、特徴量f2と同じ解像度の距離検出結果が算出される。ここで、第2デプスデコーダ142による距離算出に際し、第3デプスデコーダ143により算出された後、拡大された距離も用いられることで、より正確な距離を算出することができる。
 次に、入力画像9から抽出した特徴量f1と、LiDAR点群15から抽出したLiDARの特徴量とが、特徴統合部146により統合される。統合結果は、第1デプスデコーダ141へ出力される。更に、第2デプスデコーダ142により算出された後、アップサンプリング部147によりアップサンプリングされて拡大された距離検出結果が、第1デプスデコーダ141へ出力される。そして、第1デプスデコーダ141により、特徴量f1と同じ解像度の距離検出結果14が算出される。ここで、第1デプスデコーダ141による距離算出に際し、第2デプスデコーダ142により算出された後、拡大された距離検出結果も用いられることで、より正確な距離検出結果を算出することができる。このように、前段で算出されたデプスデコータの出力と合わせて距離検出結果が算出されることで、精度の高い距離検出結果を得ることができる。
 以上により、画像9から、距離検出結果14が得られる。
 以上のように、情報処理装置10aの処理部3では、4つのタスク(セマンティックセグメンテーション、オブジェクト検出、動き検出、距離検出)は、共通の特徴量抽出器37を用いて実行可能となっている。
[情報処理方法(画像認識処理方法)]
 情報処理装置10aにおける情報処理方法(画像認識処理方法)について図11を用いて説明する。図11に示す情報処理は、各センサ部2で取得される画像それぞれに対して行われる。
 画像取得部30により、センサ部2の撮像部20で撮像された画像9が取得される(S1)。
 次に、特徴量抽出部31により、画像9の特徴量が複数(f1~f5)抽出される(S2)。
 次に、第1のタスク推定部32により、S2で抽出された複数の特徴量を用いて第1のタスク(セマンティックセグメンテーション)が実行される(S3)。
 次に、第2のタスク決定部33により、第1のタスク結果に基づいて、第2のタスクを実行するか否かが決定される(S4)。本実施形態では、第2のタスク決定部33により、オブジェクト検出、動き検出及び距離検出それぞれを実行するか否かが決定される。
 次に、パラメータ生成部34により、実行が決定された第2のタスクのパラメータが、セマンティックセグメンテーション結果を用いて、生成される(S5)。
 次に、第2のタスクニューラルネットワーク構成部35により、S5で生成されたパラメータを用いて第2のタスクのニューラルネットワークが構成される(S6)。
 次に、第2のタスク推定部36により、S6で構成されたニューラルネットワークを用いて、第2のタスク(本実施形態では、オブジェクト検出、動き検出及び距離検出から選択される1以上のタスク)が実行される(S7)。
[第2のタスクの決定]
 図12は、処理部3の第2のタスク決定部33で行われる、図11のステップ4(S4)の第2のタスク決定処理のフロー図である。以下、図12を用いて、実行する第2のタスクをどのように決定するかを説明する。第2のタスク決定処理は、第1のタスク処理結果(セマンティックセグメンテーション結果)に基づいて行われる。
 図12に示すように、第2のタスク決定処理が開始すると、画素毎のクラスID情報が含まれるセマンティックセグメンテーション結果から、ユニーククラスIDリスト(以下、単にIDリストという。)が取得される(S1)。
 次に、IDリストを用いて、注目オブジェクトのクラスIDがあるかが判定される(S42)。注目オブジェクトがあると判定されると、S43に進む。注目オブジェクトがないと判定されると、距離検出のみ実行することが決定される(S44)。
 ここで、一例として、電柱、交通信号機、交通標識、ごみ箱、ポール、車両(自動四輪車)、ヒト、動物、自転車、バイク(自動二輪車)、電車、バス、トラックそれぞれに事前に付与されるクラスIDを1~13とする。これらのオブジェクトは、注目オブジェクト(運転に支障となるオブジェクト)である。このうち、クラスIDが6である車両、クラスIDが7であるヒト、クラスIDが8である動物、クラスIDが9である自転車、クラスIDが10であるバイク、クラスIDが11である電車、クラスIDが12であるバス、クラスIDが13であるトラックは、動き可能な注目オブジェクトである。一方、クラスIDが1の電柱、クラスIDが2の交通信号機、クラスIDが3の交通標識、クラスIDが4のごみ箱、クラスIDが5であるポールは、動き可能でない注目オブジェクトである。
 例えば、S42において、IDリスト中に1~13のクラスIDが存在する場合、S43に進む。一方、IDリスト中に1~13のクラスIDが存在しない場合、S44に進み、距離検出のタスクのみ実行することが決定される。
 S43において、IDリスト中に、動き可能な注目オブジェクトのクラスIDがあるか否かが判定される。
 あると判定されると、オブジェクト検出、動き検出及び距離検出の3つのタスクの実行が決定される(S46)。
 一方、ないと判定されると、オブジェクト検出及び距離検出の2つのタスクの実行が決定される(S45)。
 例えば、上述の例では、IDリスト中に5~13のクラスIDが存在する場合、S46に進み、オブジェクト検出、動き検出及び距離検出の3つのタスクの実行が決定される。
 一方、IDリスト中に5~13のクラスIDが存在しない場合、S45に進み、オブジェクト検出及び距離検出の2つのタスクの実行が決定される。
 このように、本実施形態では、第1のタスクの処理結果(セマンティックセグメンテーション結果)に基づき、第2のタスクであるオブジェクト検出、動き検出及び距離検出それぞれの実行の有無が決定される。
 次に、図13を用いて、第2のタスク決定処理の具体例について説明する。
 図13は、第2のタスク決定処理の具体例を説明するための図である。図13は、車両に搭載される複数のセンサ部2それぞれの撮像部20で取得された画像9に対する第1のタスク処理結果に応じて、どのように第2のタスクの実行の有無が決定されるかを説明するための図である。第2のタスク決定処理では、セマンティックセグメンテーションから得られるシーン特徴を用いて、実行する第2のタスクを決定する。
 図13に示す例では、左側方センサ部2SLの撮像部20で取得される画像9SLと、左前方センサ部2FLの撮像部20で取得される画像9FLは、いずれも注目オブジェクトが存在しない画像である。
 このため、画像9SL及び9FLそれぞれに対する第1のタスク推定結果であるセマンティックセグメンテーション結果11SL及び11FLそれぞれから取得されるIDリストには、注目オブジェクトのクラスIDが含まれないので、距離検出のみの実行が決定される。
 このように、注目オブジェクトが存在しない場合、距離検出のみが実行されることで、例えば路面と車両(撮像部が搭載される車両)との距離を推定することができる。この推定された障害物とならないオブジェクトとの距離情報を用いて、ドライバに対して、運転操作命令、速度変更、車両追い越し推奨、車線変更推奨等の運転支援情報を提示することが可能となる。
 図13に示す例では、前方センサ部2Fの撮像部20で取得される画像9Fと、右前方センサ部2FRの撮像部20で取得される画像9FRは、いずれも動き可能な注目オブジェクトである車両が存在する画像である。
 このため、画像9F及び9FRそれぞれに対する第1のタスク推定結果であるセマンティックセグメンテーション結果11F及び11FRそれぞれから取得されるIDリストには、動き可能な注目オブジェクトのクラスIDが含まれるので、オブジェクト検出、動き検出、距離検出のタスクの実行が決定される。
 このように、動き可能な注目オブジェクトが存在する場合、オブジェクト検出、動き検出及び距離検出が実行されることで、各オブジェクトの動き及び距離(オブジェクトと車両との距離)を推定することができる。この推定された各オブジェクトの動き情報及び距離情報、つまり画像認識処理結果を用いて、ドライバに対して、障害物警告、運転操作命令、速度変更、車両追い越し推奨、車線変更推奨等の運転支援情報を提示することが可能となる。
 図13に示す例では、右側方センサ部2SRの撮像部20で取得される画像9SRは、動き可能でない注目オブジェクトである消火栓が存在する画像である。
 このため、画像9SRに対する第1のタスク推定結果であるセマンティックセグメンテーション結果11SRから取得されるIDリストには、動き可能でない注目オブジェクトのクラスIDが含まれるので、オブジェクト検出及び距離検出の実行が決定される。
 このように、消火栓、壁、縁石、ポール等の、動き可能でない静止的な注目オブジェクトが存在する場合、オブジェクト検出及び距離検出が実行されることで、これらのオブジェクトと車両との距離を推定することができる。この推定された距離情報、つまり画像認識処理結果を用いて、ドライバに対して、障害物警告、障害物との衝突を避けるための運転操作命令等の運転支援情報を提示することが可能となる。
 ここで、車両に複数の撮像部が搭載され、車両の周囲情報を広範囲で取得する全周囲センシングシステムでは、例えば1つの入力画像に対して4つのタスクが常に実行されると、演算量が莫大になって処理遅延が生じやすく、リアルタイムな画像認識処理及び該画像認識結果に基づく運転支援が困難となってしまう。
 これに対し、本実施形態では、各撮像部で取得される画像それぞれに対して本技術の画像処理方法(情報処理方法)を適用することで、例えば、図13に示す前方センサ部や右前方センサ部で取得された画像のように、動き可能な障害物となるオブジェクトが存在する場合にのみ、3つの第2のタスク全てを実行し、その他の場合では2つ又は1つの第2のタスクのみを実行することで、画像認識処理の演算量の削減及び処理遅延の抑制が可能となる。
[第2のタスクのパラメータ生成]
 図14は、処理部3のパラメータ生成部34で行われる、図11のステップ5(S5)の第2のタスクパラメータ生成処理のフロー図である。
 図15は、パラメータ生成の具体例を説明するための図である。
 以下、図14に沿って、図15を用いながら、第2のタスクの実行時に用いるパラメータをどのように生成するかを説明する。パラメータ生成処理は、第1のタスク処理結果(セマンティックセグメンテーション結果)を用いて行われる。
 図14に示すように、パラメータ生成処理が開始すると、セマンティックセグメンテーション結果から画像内に注目オブジェクトがあるか否かが判定される(S51)。詳細には、セマンティックセグメンテーション結果から取得されるIDリストを用いて、注目オブジェクトのクラスIDがあるか否かを判定することで、注目オブジェクトの有無を判定することができる。
 S51で注目オブジェクトがないと判定されると、S53に進む。
 S51で注目オブジェクトがあると判定されると、S52に進む。
 S53において、入力画像9の全領域を、全ての特徴量f1~f5を利用して認識処理するように、パラメータが生成される。生成されたパラメータは、記憶部7に保存される(S58)。
 上述の第2のタスク決定処理で説明したように、注目オブジェクトがないと判定された場合は、距離検出のみの実行が決定される。つまり、注目オブジェクトがない場合は、距離検出だけの実行が決定され、距離検出のニューラルネットワークに対して最適化を行わず、入力画像9の全領域を全ての特徴量f1~f5を用いて距離検出が行われる。換言すると、基準のニューラルネットワークを用いて距離検出が行われることになる。
 S52において、注目オブジェクトのカテゴリが取得される。詳細には、IDリストを用いて注目オブジェクトのクラスIDを確認することで、カテゴリを取得することができる。カテゴリの取得結果には、複数のオブジェクトが存在していてもよい。カテゴリの取得結果は、注目オブジェクトのクラスIDリストである。
 次に、S54及びS56に進む。
 S54において、注目オブジェクトが存在する画像領域が取得される。取得される画像領域は、複数のオブジェクトそれぞれの領域を含む。注目オブジェクトを囲む矩形の枠(バウンディングボックスともいう。)を設け、枠の大きさが最小となったときの枠の領域(最小領域という。)を、最終的な画像領域とする。この最終的な画像領域を「処理対象画像」という。処理対象画像は、第2のタスク処理を行う処理対象領域である。
 次に、処理対象画像の座標のパラメータが生成される(S55)。生成されたパラメータは、記憶部7に保存される(S58)。
 処理対象画像の座標は、パラメータ(x1、y1、w、h)という形で表される。パラメータ(x1、y1、w、h)は、矩形の枠(バウンディングボックス)の左上角の座標(x1、y1)と、矩形の横と縦の画素数を示す(w、h)とを用いて表される。
 S56において、S52で取得される注目オブジェクト毎の画素数が算出され、注目オブジェクトのカテゴリ毎の最少画素数が含まれるように最少画素数リストが生成される。
 次に、注目オブジェクトの最少画素数リストを用いて、第2のタスクに利用する特徴量を表すパラメータが生成される(S57)。生成されたパラメータは、記憶部7に保存される(S58)。
 パラメータ生成は、例えば図15に示す表に従い、特徴量のパラメータを生成する。
 図15に示す例では、オブジェクトカテゴリが自動四輪車の場合、画素数がT0以下では利用する特徴量がf1、f2、f3、画素数がT0より大きくT1以下では利用する特徴量がf2、g3、f4、画素数がT1より大きくT2以下では利用する特徴量がf3、f4、f5となるようにパラメータが生成される。
 オブジェクトカテゴリが歩行者の場合、画素数がT3以下では利用する特徴量がf1、f2、f3、画素数がT3より大きくT4以下では利用する特徴量がf2、g3、f4、画素数がT4より大きくT5以下では利用する特徴量がf4、f5となるようにパラメータが生成される。
 注目オブジェクトのカテゴリがサイクリストの場合、画素数がT6以下では利用する特徴量がf1、f2、f3、画素数がT6より大きくT7以下では利用する特徴量がf2、g3、f4、画素数がT7より大きくT8以下では利用する特徴量がf4、f5となるようにパラメータが生成される。
 次に、図16を用いて、パラメータ生成の具体例について説明する。
 図16(A)は、車両1に搭載される複数のセンサ部2それぞれの撮像部で取得された画像9、画像9に対するセマンティックセグメンテーション結果、オブジェクト検出結果、動き検出結果、距離検出結果を示す図である。図2において、オブジェクト検出結果、動き検出結果及び距離検出結果は、セマンティックセグメンテーション結果に基づいて生成されたパラメータにて再構成されて最適化されたニューラルネットワーク、或いは、基準のニューラルネットワークを用いた認識処理結果である。
 図16(B)は、図16(A)に示すセマンティックセグメンテーション結果に基づく実行する第2のタスクの決定及びパラメータ生成の例を示す図である。
 図16(A)に示す例では、左側方センサ部2SLの撮像部20で取得される画像9SLは、動き可能な注目オブジェクトが存在する画像である。
 このため、図16(B)に示すように、画像9SLに対するセマンティックセグメンテーション結果から取得されるIDリストには動き可能な注目オブジェクトのクラスIDが含まれるので、オブジェクト検出、動き検出及び距離検出の全ての第2のタスクの実行が決定される。また、処理対象画像のパラメータとして、図上、注目オブジェクトを囲む矩形の枠で囲まれた領域Aの座標を示すパラメータ[xa、ya、wa、ha]が生成され、特徴量f1、f2、f3が利用されるようにパラメータが生成される。特徴量のパラメータ生成は、上述したように、図15に従って、注目オブジェクトの画素数に応じて生成され、以下同様である。
 図16(A)に示す例では、左前方センサ部2FLの撮像部20で取得される画像9FLは、注目オブジェクトが存在しない画像である。
 このため、図16(B)に示すように、画像9FLに対するセマンティックセグメンテーション結果から取得されるIDリストには注目オブジェクトのクラスIDが含まれないので、距離検出のみの実行が決定される。また、画像全域を処理対象画像とし、全ての特徴量f1~f5が利用されるように、パラメータが生成される。図16(B)では、画像全域の処理対象画像の座標をパラメータ[0、0、w、h]と表現している。
 図16(A)に示す例では、前方センサ部2Fの撮像部20で取得される画像9Fは、動き可能な注目オブジェクトが存在する画像である。
 このため、図16(B)に示すように、画像9Fに対するセマンティックセグメンテーション結果から取得されるIDリストには動き可能な注目オブジェクトのクラスIDが含まれるので、オブジェクト検出、動き検出及び距離検出の全ての第2のタスクの実行が決定される。また、処理対象画像のパラメータとして、図上、注目オブジェクトを囲む矩形の枠で囲まれた領域Bの座標を示すパラメータ[xb、yb、wb、hb]と領域Cの座標を示すパラメータ[xc、yc、wc、hc]が生成される。また、領域Bに対して特徴量f1、f2、f3が利用されるようにパラメータが生成され、領域Cに対して特徴量f3、f4、f5を利用するようにパラメータが生成される。
 図16(A)に示す例では、右前方センサ部2FRの撮像部20で取得される画像9FRは、動き可能な注目オブジェクトが存在する画像である。
 このため、図16(B)に示すように、画像9FRに対するセマンティックセグメンテーション結果から取得されるIDリストには動き可能な注目オブジェクトのクラスIDが含まれるので、オブジェクト検出、動き検出及び距離検出の全ての第2のタスクの実行が決定される。また、処理対象画像のパラメータとして、図上、注目オブジェクトを囲む矩形の枠で囲まれた領域Dの座標を示すパラメータ[xd、yd、wd、hd]が生成され、特徴量f1、f2、f3が利用されるようにパラメータが生成される。
 図16(A)に示す例では、右側方センサ部2SRの撮像部20で取得される画像9SRは、動き可能な注目オブジェクトが存在する画像である。
 このため、図16(B)に示すように、画像9SRに対するセマンティックセグメンテーション結果から取得されるIDリストには動き可能な注目オブジェクトのクラスIDが含まれるので、オブジェクト検出、動き検出及び距離検出の全ての第2のタスクの実行が決定される。また、処理対象画像のパラメータとして、図上、注目オブジェクトを囲む矩形の枠で囲まれた領域Eの座標を示すパラメータ[xe、ye、we、he]と領域Fの座標を示すパラメータ[xf、yf、wf、hf]が生成される。また、領域Eに対して特徴量f1、f2、f3を利用するようにパラメータが生成され、領域Fに対して特徴量f3、f4、f5を利用するようにパラメータが生成される。
[第2のタスクのニューラルネットワーク構成]
 図17は、処理部3の第2のタスクニューラルネットワーク構成部35で行われるニューラルネットワーク構成の一例を示す図である。
 図17は、図16(A)で示した各入力画像に対する認識タスクにおいて、図16(B)に示す、実行決定された第2のタスク及びパラメータを用いて、ニューラルネットワークが構成される一例を示す。
 生成されたパラメータを用いて第2のタスクのニューラルネットワークを再構成することにより、S33で実行が決定された第2のタスクの推定処理を、入力画像に映る注目オブジェクトの大きさに応じて、少ない演算量で行うことができ、推定処理をより最適化することができる。ニューラルネットワークの構成では、生成されたパラメータを用いて、各第2のタスクのデコーダを選択するように構成が変化する。
 以下、図17を用いて具体例について説明する。
 左側方センサ部2SLで取得される画像9SLに対して、上述したように、第2のタスク決定処理によりオブジェクト検出、動き検出処理及び距離検出の3つ全ての認識タスク(第2のタスク)の実行が決定される。
 これらの3つの第2のタスクの実行に際し、図17に示すように、処理対象画像は領域A[xa、ya、wa、ha]だけとなる。また、領域Aには、遠方に位置する小さなオブジェクトしか存在しないため、高い解像度の特徴量f1、f2及びf3だけが生成されるように構成され、更に、これに伴い、第2のタスクの処理で用いられるデコーダが、f1、f2及びf3に対応するものだけから構成されるように、各第2のタスクのニューラルネットワークが再構成される。より詳細には、オブジェクト検出では、第1、第2及び第3オブジェクトデコーダ121~123だけを用いるように再構成される。動き検出では、第1、第2及び第3オプティカルフローデコーダ131~133だけを用いるように再構成される。距離検出では、第1、第2及び第3デプスデコーダ141~143だけを用いるように再構成される。
 左前方センサ部2FLで取得される画像9FLに対して、上述したように、第2のタスク決定処理により距離検出のみの実行が決定される。該距離検出の実行に際し、図17に示すように、処理対象画像は全領域となり、特徴量f1~f5が生成されるように、距離検出のニューラルネットワークが構成され、更に、これに伴い、距離検出で用いられるデコーダが、f1~f5に対応するものから構成されるように、距離検出のニューラルネットワークが構成される。より詳細には、第1~第5デプスデコーダ141~145を用いるように構成される。つまり、最適化は行われず、基準のニューラルネットワークを用いて距離検出が行われることになる。
 前方センサ部2Fで取得される画像9Fに対して、上述したように、第2のタスク決定処理によりオブジェクト検出、動き検出処理及び距離検出の3つ全ての認識タスク(第2のタスク)の実行が決定される。
 これらの3つの第2のタスクの実行に際し、図17に示すように、処理対象画像は領域B[xb、yb、wb、hb]及び領域C[xc、yc、wc、hc]だけとなる。
 領域Bにおいては、領域Bには遠方に位置する小さなオブジェクトしか存在しないため、高い解像度の特徴量f1、f2及びf3だけが生成されるように構成され、更に、これに伴い、第2のタスクで用いられるデコーダが、f1、f2及びf3に対応するものだけから構成されるように、各第2のタスクのニューラルネットワークは再構成される。
 一方、領域Cにおいては、領域Cには近くに位置する大きなオブジェクトが存在するため、解像度は低いが広い範囲のエッジ情報を持つ特徴量f2、f3、f4だけが生成されるように構成され、更に、これに伴い、第2のタスクで用いられるデコーダが、f2、f3及びf4に対応するものだけから構成されるように、各第2のタスクのニューラルネットワークは再構成される。
 詳細には、オブジェクト検出では、領域Bにおいて第1、第2及び第3オブジェクトデコーダ121~123だけを用い、領域Cにおいて第2、第3及び第4オブジェクトデコーダ122~124だけを用いるように再構成される。動き検出では、領域Bにおいて第1、第2及び第3オプティカルフローデコーダ131~133だけを用いるように構成され、領域Cにおいて第2、第3及び第4オプティカルフローデコーダ132~134だけを用いるように再構成される。距離検出では、領域Bにおいて第1、第2及び第3デプスデコーダ141~143だけを用いるように構成され、領域Cにおいて第2、第3及び第4デプスデコーダ142~144だけを用いるように再構成される。
 左側方センサ部2SLで取得される画像9SLに対して、上述したように、第2のタスク決定処理によりオブジェクト検出、動き検出処理及び距離検出の3つ全ての認識タスク(第2のタスク)の実行が決定される。
 これらの3つの第2のタスクの実行に際し、図17に示すように、処理対象画像は領域D[xd、yd、wd、hd]だけとなる。また、領域Dには、遠方に位置する小さなオブジェクトしか存在しないため、高い解像度の特徴量f1、f2及びf3だけが生成されるように構成され、更に、これに伴い、第2のタスクで用いられるデコーダが、f1、f2及びf3に対応するものだけから構成されるように、各第2のタスクのニューラルネットワークは再構成される。より詳細には、オブジェクト検出では、第1、第2及び第3オブジェクトデコーダ121~123だけを用いるように再構成される。動き検出では、第1、第2及び第3オプティカルフローデコーダ131~133だけを用いるように再構成される。距離検出では、第1、第2及び第3デプスデコーダ141~143だけを用いるように再構成される。
 右側方センサ部2SRで取得される画像9SRに対して、上述したように、第2のタスク決定処理によりオブジェクト検出、動き検出処理及び距離検出の3つ全ての認識タスク(第2のタスク)の実行が決定される。
 これらの3つの第2のタスクの実行に際し、図17に示すように、処理対象画像は領域E[xe、ye、we、he]及び領域F[xf、yf、wf、hf]だけとなる。
 領域Eにおいては、領域Eには遠方に位置する小さなオブジェクトしか存在しないため、高い解像度の特徴量f1、f2及びf3だけが生成されるように構成され、更に、これに伴い、第2のタスクで用いられるデコーダが、f1、f2及びf3に対応するものだけから構成されるように、各第2のタスクのニューラルネットワークは再構成される。
 一方、領域Fにおいては、領域Fには近くに位置する大きなオブジェクトが存在するため、解像度は低いが広い範囲のエッジ情報を持つ特徴量f2、f3、f4だけが生成されるように構成され、更に、これに伴い、第2のタスクで用いられるデコーダが、f2、f3及びf4に対応するものだけから構成されるように、各第2のタスクのニューラルネットワークは再構成される。
 詳細には、オブジェクト検出では、領域Eにおいて第1、第2及び第3オブジェクトデコーダ121~123だけを用い、領域Fにおいて第2、第3及び第4オブジェクトデコーダ122~124だけを用いるように構成される。動き検出では、領域Eにおいて第1、第2及び第3オプティカルフローデコーダ131~133だけ用い、領域Fにおいて第2、第3及び第4オプティカルフローデコーダ132~134だけを用いるように構成される。距離検出では、領域Eにおいて第1、第2及び第3デプスデコーダ141~143だけを用い、領域Fにおいて第2、第3及び第4デプスデコーダ142~144だけを用いるように構成される。
 以上のように、本技術では、複数のタスクで共通して用いることができる5つの特徴量f1~f5を抽出することで演算量を削減することができる。加えて、第1のタスクの処理結果に応じて実行する第2のタスクを決定しパラメータを生成することが可能となっているため、第2のタスクのニューラルネットワークを最適化することができる。これにより、例えばデコーダ側の演算量を、基準のニューラルネットワークでの処理よりも削減することが可能となる。
 図18を参照して、距離検出を例にあげ、デコーダ側の演算量を削減できることの説明をする。
 ここでは、図16で示した左側方センサ部2SLで取得された、動き可能な注目オブジェクトが存在する画像9SLに対して行なわれる距離検出を例にあげる。
 図18(A)は基準のニューラルネットワーク104を示す図であり、上述の図10と同様の構成である。
 図18(B)は、セマンティックセグメンテーション結果に基づいて、距離検出のみが実行されることが決定され、パラメータとして生成された特徴量f1、f2及びf3を用いて再構成されたニューラルネットワーク104aを示す図である。
 図18(A)及び(B)に示すように、再構成された距離検出のニューラルネットワーク104aでは、用いるデコーダの数が基準のニューラルネットワーク104と比べて少なくなっている。これにより、距離検出処理(第2のタスク処理)が最適化され、デコーダ側の演算量を削減することができる。
 また、オブジェクト検出及び動き検出においても、同様にニューラルネットワークを再構成することができ、基準のニューラルネットワークと比べて用いるデコーダの数を削減することでデコーダ側の演算量を削減することができる。
 尚、注目オブジェクトが存在しない場合は、基準のニューラルネットワークを用いてタスク処理が行われる。
 以上のように、本技術では、セマンティックセグメンテーション結果に基づくシーン特徴に応じて必要な認識タスク(第2のタスク)のみが処理される。更に、セマンティックセグメンテーション結果を用いてパラメータが生成され、該パラメータを用いて第2のタスクのニューラルネットワークが最適化される。これにより、精度の高い画像認識処理を実現しつつ、画像認識処理の演算量を削減することができ、消費電力の低減及び処理遅延の抑制が可能となる。その結果、車両の周囲センシングシステムの演算量を削減しつつ、高精度な画像認識処理結果に基づく適切かつリアルタイムな運転支援情報の提示が可能となる。
<第3実施形態>
 第3実施形態では、第1実施形態で説明した技術を、車両に搭載される複数の撮像部それぞれが取得する各画像の画像認識処理に適用し、画像認識処理結果を自動運転に用いる例を挙げる。第2実施形態と第3実施形態とは、画像認識処理結果の適用先が主に異なり、その他の構成はほぼ同様である。以下、主に異なる点について説明する。
[情報処理システム]
 図19は、本実施形態に係わる情報処理システム200の概略構成図である。情報処理システム200では、上記車両1に搭載される複数の撮像部の取得画像の認識処理結果を用いた自動運転処理が行われる。本実施形態の情報処理システムは自動運転システムと言い換えることができる。
 図19に示すように、情報処理システム200は、複数のセンサ部2と、情報処理装置10bと、車両状態検出部5と、駆動系システム26と、を有する。これらはいずれも車両1に搭載される。
(センサ部)
 各センサ部2は、撮像部20と、測距部21と、を含む。
 撮像部20は、画像を取得する。撮像部20には、単眼カメラ、ステレオカメラ等を用いることができる。
 測距部21は、車両1と車両1の周囲にあるオブジェクトとの間の距離を測定可能に構成されている。測距部21としては、LiDAR、ステレオカメラ、ミリ波レーダ等を用いることができ、測距部21は、これらから選択される1以上を含んで構成される。本実施形態では、測距部21として、LiDARを用いる例を挙げる。
 センサ部2の撮像部20で取得される画像及び測距部21としてのLiDARで取得される三次元の点群情報は、情報処理装置10bへ出力される。
(車両状態検出部)
 車両状態検出部5は、車両の状態を検出する。車両状態検出部5は、例えば、ジャイロセンサ、加速度センサ、慣性計測装置(IMU)、及び、アクセルペダルの操作量、ブレーキペダルの操作量、ステアリングホイールの操舵角、エンジン回転数、モータ回転数、若しくは、車両の回転速度等を検出するためのセンサ等を含んで構成される。車両状態検出部5で検出された車両1の速度、操舵角等の情報は、後述する計画部24へ出力される。
(駆動系システム)
 駆動系システム26は、車両(自車両)1の駆動系に係わる各種の装置を備える。例えば、駆動系システムは、内燃機関又は駆動用モータ等の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、舵角を調節するステアリング機構、制動力を発生させる制動装置、ABS(Antilock Brake System)、ESC(Electronic Stability Control)、並びに、電動パワーステアリング装置等を備える。
 駆動系システム26は、後述する駆動系制御部25から供給された各種の制御信号に基づいて、制御される。
(情報処理装置)
 情報処理装置10bは、例えばCPUやメモリ(RAM,ROM)等のコンピュータに必要なハードウェア構成を有する。CPUが後述する記憶部27に記憶されているプログラムをRAMにロードして実行することにより、本技術に係わる画像認識処理を含む種々の処理が実行される。
 情報処理装置10bでは、複数のセンサ部2それぞれの撮像部20からの入力画像毎に、セマンティックセグメンテーション(第1のタスク)が行なわれる。そして、セマンティックセグメンテーション結果を用いて、画像認識処理に用いるタスク(第2のタスク)が決定され、該タスクのパラメータが生成される。
 情報処理装置10bは、処理部3と、画像取得部30と、状況分析部8と、計画部24と、駆動系制御部25と、記憶部27と、を備える。
((画像取得部))
 画像取得部30は、各センサ部2の撮像部20で取得された画像を取得する。画像は、処理部3へ出力される。
((処理部))
 処理部3は、画像取得部30で取得された画像(入力画像)の認識処理を行う。この際、第1及び第2実施形態で説明したように、処理部3は、入力画像に対して行った第1のタスクの実行の結果を用いて、第2のタスクの実行の有無及び第2のタスクのパラメータの生成を行う。
((状況分析部))
 状況分析部8は、第1のタスクの認識処理結果(セマンティックセグメンテーション結果)、第2のタスクの認識処理結果(オブジェクト検出結果、動き検出結果及び距離検出結果から選択される1以上の処理結果)に基づいて、車両の周囲状況の分析処理を行う。分析結果は計画部24へ出力される。
((計画部))
 計画部24は、目的地までのルートを時間内で安全に走行するための車両1のルート及び行動を計画する。計画部24では、自動運転による車両走行時において、自車両の衝突回避或いは衝撃緩和、車間距離に基づく追従走行、車速維持走行等が行われるように、ルート及び行動が計画される。
 計画部24は、ルート計画部240と、行動計画部241と、を有する。
 ルート計画部240は、マップ情報及び車両状態検出部5で検出された車両1の状態情報等を用いて、目的地までのルートを計画する。また、ルート計画部240は、状況分析部8の分析結果を用いて、適宜ルートを変更する。ルート計画部240は、計画したルートを示すデータを行動計画部241へ出力する。
 行動計画部241は、ルート計画部240により計画されたルートを計画された時間内で安全に走行するための車両1の行動を計画する。行動計画部241は、例えば、発進、停止、進行方向(例えば、前進、後退、左折、右折、方向転換等)、走行車線、走行速度、及び、追い越し等の計画を行う。行動計画部241は、計画した車両1の行動を示すデータを駆動系制御部25に供給する。また、行動計画部241は、状況分析部8の分析結果を用いて、適宜行動計画を変更する。
 例えば、入力画像に動き可能でない注目オブジェクトのみが存在すると認識されると、入力画像の認識処理においてオブジェクト検出及び距離検出が行われる。そして、距離検出によって推定される注目オブジェクトと車両との距離情報に応じて、該注目オブジェクトと衝突しないように、操舵角やブレーキを自動的に制御することができる。
 一方、入力画像に動き可能な注目オブジェクトが存在すると認識されると、入力画像の認識処理において、オブジェクト検出、動き検出及び距離検出が行われる。そして、各検出によって推定される注目オブジェクトの動き情報及び距離情報に応じて、該注目オブジェクトと衝突しないように、操舵角やブレーキを自動的に制御することができる。
 このように、本実施形態に係わる画像認識処理では、動き可能でない注目オブジェクトのみが存在する場合は、動き検出は行われないため、認識精度を落とすことなく画像認識処理の演算量の削減が可能となる。そして、画像認識結果を用いて、自動操舵機能及び自動ブレーキ機能を実現することができる。
 上述の状況分析部8による車両の周囲状況の分析結果は、処理部3での画像認識処理結果を用いて生成されるものである。本実施形態の情報処理装置10bの処理部3では、画像認識精度を落とすことがなく、画像認識処理を行うことができる。したがって、精度の高い画像認識処理結果を用いて行われる車両の周囲状況の分析結果は精度の高い情報である。そして、この精度の高い情報を用いて行われるルート計画及び行動計画は、車両1が置かれている状況により適したものとなっており、自動運転の安全性がより向上する。
 そのうえ、本技術の情報処理装置10bの処理部3では、画像認識処理の演算量を削減することができるため、処理遅延が抑制され、より的確なタイミングで、より的確なルート計画及び行動計画に基づく自動運転が可能となる。
((駆動系制御部))
 駆動系制御部25は、行動計画部241で計画された車両1の行動を示すデータに基づいて、各種の制御信号を生成し、駆動系システム26に供給する。
((記憶部))
 記憶部27は、情報処理装置10bでの処理に必要な各種プログラムやデータを記憶する。例えば、記憶部27は、本技術の処理部3で行われる画像認識処理に係る一連の処理を実行するためのプログラムを記憶する。例えば、記憶部27は、画像認識処理に係る処理で用いる各種パラメータや車両の走行等に関するログを記憶する。例えば、記憶部27は、状況分析部8、計画部24及び駆動系制御部25それぞれで行われる一連の処理を実行するためのプログラムを記憶する。
 記憶部27は、例えば、ROM、RAM、HDD等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイス等を備える。
 処理部3における一連の情報処理方法は第2実施形態と同様である。
 本実施形態においても、第1及び第2実施形態と同様に、複数のタスクで共通して用いることができる5つの特徴量f1~f5を抽出することで演算量を削減することができる。加えて、第1のタスクの処理結果に応じて実行する第2のタスクを決定しパラメータを生成することが可能となっているため、第2のタスクのニューラルネットワークを最適化することができる。これにより、例えばデコーダ側の演算量を、基準のニューラルネットワークでの処理よりも削減することが可能となる。
 このような構成とすることで、精度の高い画像認識処理を実現しつつ、画像認識処理に係わる演算量の削減が可能となる。これにより、消費電力の低減が可能となるとともに処理遅延の抑制が可能となり、画像認識処理結果に基づいて行われる自動運転(自律走行)制御を的確かつリアルタイムに行うことができる。
<その他>
 以上、本発明の実施形態について説明したが、本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
 上述の実施形態では、測距部としてLiDARを用いる例をあげたが、例えばLiDARに替えてステレオカメラを用い、ステレオカメラで取得されたステレオ画像から得られる3次元点群を用いて画像認識処理が行われてもよい。この構成では、セマンティックセグメンテーション(第1のタスク)結果を用いることで、ステレオ視差推定の演算を削減することができ、演算量を削減することができる。
 或いは、ステレオカメラで取得されたステレオ画像から深度マップを予測し、次に、各画素をLiDAR座標に投影することで、深度マップ画像から点群に変換された疑似的なLiDAR点群を得るようにしてもよい。
 上述の実施形態では、本技術の画像認識処理を行う画像を取得する撮像部が、移動体としての自動四輪車に搭載される例をあげたが、これに限定されない。撮像部が搭載される移動体は、自動二輪車両等の他の車両、お掃除ロボット、玩具型ロボット、ドローン等であってもよい。
 また、上述の実施形態では、本技術に係わる画像認識処理を行う処理部3が車両(移動体)に搭載される例をあげたが、これに限定されず、例えば外部ネットワーク上に存在するサーバであってもよい。尚、処理遅延を抑制する観点からは、撮像部が搭載される移動体に処理部が設けられることが好ましい。
 本技術は、以下の構成をとることもできる。
(1)
 認識対象に対して、特徴量抽出が共通する第1のタスクと第2のタスクを含む複数のタスクを処理可能な処理部を具備し、
 前記処理部は、前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第2のタスクの処理の実行の有無を決定する
 情報処理装置。
(2)
 上記(1)に記載の情報処理装置であって、
 前記処理部は、前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第2のタスクのパラメータを生成する
 情報処理装置。
(3)
 上記(2)に記載の情報処理装置であって、
 前記処理部は、生成した前記パラメータを用いて前記第2のタスクのニューラルネットワークを構成する
 情報処理装置。
(4)
 上記(2)又は(3)に記載の情報処理装置であって、
 前記処理部は、前記認識対象から複数の特徴量を抽出し、前記複数の特徴量を用いた前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第2のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
 情報処理装置。
(5)
 上記(4)に記載の情報処理装置であって、
 前記パラメータは、前記第2のタスクの処理対象領域と、前記複数の特徴量から選択される1以上の特徴量を含む
 情報処理装置。
(6)
 上記(2)~(5)のうちいずれか1つに記載の情報処理装置であって、
 前記処理部は、前記第1のタスク処理による前記認識対象の認識結果から得られるシーン特徴を用いて、前記第2のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
 情報処理装置。
(7)
 上記(6)に記載の情報処理装置であって、
 前記認識対象は、移動体に搭載され前記移動体の周囲を撮像する撮像部で取得される画像であり、
 前記シーン特徴は、前記移動体の移動シーン特徴であり、前記画像内に注目オブジェクトが存在するか否か、及び、前記注目オブジェクトが動き可能なオブジェクトであるか否かを意味する
 情報処理装置。
(8)
 上記(7)に記載の情報処理装置であって、
 前記注目オブジェクトは、前記移動体の移動の支障となるオブジェクトである
 情報処理装置。
(9)
 上記(7)又は(8)に記載の情報処理装置であって、
 前記第1のタスクは、セマンティックセグメンテーションであり、
 前記第2のタスクは、オブジェクト検出、動き検出及び距離検出を含み、
 前記処理部は、
  前記画像に注目オブジェクトが存在しない場合、前記距離検出のみを実行し、
  前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトでない場合、前記オブジェクト検出及び前記距離検出を実行し、
  前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトである場合、前記オブジェクト検出、前記動き検出及び前記距離検出を実行する
 情報処理装置。
(10)
 上記(9)に記載の情報処理装置であって、
 前記パラメータは、前記第2のタスクの処理対象領域と、前記複数の特徴量から選択される1以上の特徴量を含み、
 前記処理部は、
  前記画像に注目オブジェクトが存在しない場合、画像全域を前記処理対象領域とし、前記複数の特徴量全てを用いるように、前記パラメータを生成し、
  前記画像に注目オブジェクトが存在する場合、注目オブジェクトを囲む最小領域を前記処理対象領域とし、注目オブジェクトの画素数に応じて前記複数の特徴量から選択される1以上の特徴量を用いるように、前記パラメータを生成する
 情報処理装置。
(11)
 上記(9)又は(10)に記載の情報処理装置であって、
 前記移動体には測距部が搭載され、
 前記距離検出では、前記画像から抽出された特徴量と前記測距部により得られる距離特徴量とを統合した統合結果を用いて距離が推定される
 情報処理装置。
(12)
 上記(11)に記載の情報処理装置であって、
 前記測距部は、LiDAR(Light Detection and Ranging)、ステレオカメラ及びミリ波レーダから選択される1以上を含む
 情報処理装置。
(13)
 上記(7)~(12)のいずれか1つに記載の情報処理装置であって、
 前記撮像部は、前記移動体に複数搭載され、
 前記処理部は、前記移動体に搭載される複数の撮像部それぞれで取得される各画像に対して、前記第1のタスク処理による画像の認識結果を用いて、前記第2のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
 情報処理装置。
(14)
 上記(7)~(13)のいずれか1つに記載の情報処理装置であって、
 前記撮像部は、ステレオカメラ又は単眼カメラである
 情報処理装置。
(15)
 上記(7)~(14)のいずれか1つに記載の情報処理装置であって、
 前記処理部は、生成した前記パラメータを用いて構成した前記第2のタスクのニューラルネットワークを用いて前記画像に対して前記第2のタスクを実行し、
 前記第2のタスクの認識結果に基づいて、前記移動体の操作者に対する支援を行う提示部を制御する提示制御部を更に具備する
 情報処理装置。
(16)
 上記(15)に記載の情報処理装置であって、
 前記移動体には、前記提示部として、表示部、発光部及び音出力部から選択される1以上が搭載され、
 前記提示制御部は、前記表示部の表示制御、前記発光部の点灯制御及び前記音出力部の音出力制御の少なくとも1つを制御する
 情報処理装置。
(17)
 上記(7)~(16)のいずれか1つに記載の情報処理装置であって、
 前記移動体は、自律移動可能な移動体であり、
 前記処理部は、生成した前記パラメータを用いて構成した前記第2のタスクのニューラルネットワークを用いて前記画像に対して前記第2のタスクを実行し、
 前記第2のタスクの認識結果に基づいて、前記移動体の走行及び行動を計画する計画部を更に具備する
 情報処理装置。
(18)
 上記(1)~(17)のいずれか1つに記載の情報処理装置であって、
 前記認識対象は画像であり、
 前記第1のタスクは、セマンティックセグメンテーションであり、
 前記第2のタスクは、オブジェクト検出、動き検出、距離検出、法線推定、姿勢推定及び軌道推定から選択される1以上を含む
 情報処理装置。
(19)
 認識対象に対して第1のタスクを処理し、
 前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第1のタスクと特徴量抽出が共通する第2のタスクを実行するか否かを決定する
 ことを情報処理装置が実行する情報処理方法。
(20)
 認識対象に対して第1のタスクを処理するステップと、
 前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第1のタスクと特徴量抽出が共通する第2のタスクを実行するか否かを決定するステップと
 を情報処理装置に実行させるプログラム。
 1…車両(移動体)
 3…処理部
 4…提示制御部
  40…表示制御部
  41…音声制御部
  42…発光制御部
 6…提示部
  60…表示部
  61…音出力部
  62…発光部
 9…画像、入力画像(認識対象)
 10、10a、10b…情報処理装置
 20…カメラ(撮像部)
 21…LiDAR(測距部)
 24…計画部
 102…オブジェクト検出のニューラルネットワーク(第2のタスクのニューラルネットワーク)
 103…動き検出のニューラルネットワーク(第2のタスクのニューラルネットワーク)
 104、104a…距離検出のニューラルネットワーク(第2のタスクのニューラルネットワーク)

Claims (20)

  1.  認識対象に対して、特徴量抽出が共通する第1のタスクと第2のタスクを含む複数のタスクを処理可能な処理部を具備し、
     前記処理部は、前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第2のタスクの処理の実行の有無を決定する
     情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記処理部は、前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第2のタスクのパラメータを生成する
     情報処理装置。
  3.  請求項2に記載の情報処理装置であって、
     前記処理部は、生成した前記パラメータを用いて前記第2のタスクのニューラルネットワークを構成する
     情報処理装置。
  4.  請求項2に記載の情報処理装置であって、
     前記処理部は、前記認識対象から複数の特徴量を抽出し、前記複数の特徴量を用いた前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第2のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
     情報処理装置。
  5.  請求項4に記載の情報処理装置であって、
     前記パラメータは、前記第2のタスクの処理対象領域と、前記複数の特徴量から選択される1以上の特徴量を含む
     情報処理装置。
  6.  請求項2に記載の情報処理装置であって、
     前記処理部は、前記第1のタスク処理による前記認識対象の認識結果から得られるシーン特徴を用いて、前記第2のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
     情報処理装置。
  7.  請求項6に記載の情報処理装置であって、
     前記認識対象は、移動体に搭載され前記移動体の周囲を撮像する撮像部で取得される画像であり、
     前記シーン特徴は、前記移動体の移動シーン特徴であり、前記画像内に注目オブジェクトが存在するか否か、及び、前記注目オブジェクトが動き可能なオブジェクトであるか否かを意味する
     情報処理装置。
  8.  請求項7に記載の情報処理装置であって、
     前記注目オブジェクトは、前記移動体の移動の支障となるオブジェクトである
     情報処理装置。
  9.  請求項7に記載の情報処理装置であって、
     前記第1のタスクは、セマンティックセグメンテーションであり、
     前記第2のタスクは、オブジェクト検出、動き検出及び距離検出を含み、
     前記処理部は、
      前記画像に注目オブジェクトが存在しない場合、前記距離検出のみを実行し、
      前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトでない場合、前記オブジェクト検出及び前記距離検出を実行し、
      前記画像に注目オブジェクトが存在し、かつ当該注目オブジェクトが動き可能なオブジェクトである場合、前記オブジェクト検出、前記動き検出及び前記距離検出を実行する
     情報処理装置。
  10.  請求項9に記載の情報処理装置であって、
     前記パラメータは、前記第2のタスクの処理対象領域と、前記複数の特徴量から選択される1以上の特徴量を含み、
     前記処理部は、
      前記画像に注目オブジェクトが存在しない場合、画像全域を前記処理対象領域とし、前記複数の特徴量全てを用いるように、前記パラメータを生成し、
      前記画像に注目オブジェクトが存在する場合、注目オブジェクトを囲む最小領域を前記処理対象領域とし、注目オブジェクトの画素数に応じて前記複数の特徴量から選択される1以上の特徴量を用いるように、前記パラメータを生成する
     情報処理装置。
  11.  請求項9に記載の情報処理装置であって、
     前記移動体には測距部が搭載され、
     前記距離検出では、前記画像から抽出された特徴量と前記測距部により得られる距離特徴量とを統合した統合結果を用いて距離が推定される
     情報処理装置。
  12.  請求項11に記載の情報処理装置であって、
     前記測距部は、LiDAR(Light Detection and Ranging)、ステレオカメラ及びミリ波レーダから選択される1以上を含む
     情報処理装置。
  13.  請求項7に記載の情報処理装置であって、
     前記撮像部は、前記移動体に複数搭載され、
     前記処理部は、前記移動体に搭載される複数の撮像部それぞれで取得される各画像に対して、前記第1のタスク処理による画像の認識結果を用いて、前記第2のタスクの処理の実行の有無の決定及び前記パラメータの生成を行う
     情報処理装置。
  14.  請求項7に記載の情報処理装置であって、
     前記撮像部は、ステレオカメラ又は単眼カメラである
     情報処理装置。
  15.  請求項7に記載の情報処理装置であって、
     前記処理部は、生成した前記パラメータを用いて構成した前記第2のタスクのニューラルネットワークを用いて前記画像に対して前記第2のタスクを実行し、
     前記第2のタスクの認識結果に基づいて、前記移動体の操作者に対する支援を行う提示部を制御する提示制御部を更に具備する
     情報処理装置。
  16.  請求項15に記載の情報処理装置であって、
     前記移動体には、前記提示部として、表示部、発光部及び音出力部から選択される1以上が搭載され、
     前記提示制御部は、前記表示部の表示制御、前記発光部の点灯制御及び前記音出力部の音出力制御の少なくとも1つを制御する
     情報処理装置。
  17.  請求項7に記載の情報処理装置であって、
     前記移動体は、自律移動可能な移動体であり、
     前記処理部は、生成した前記パラメータを用いて構成した前記第2のタスクのニューラルネットワークを用いて前記画像に対して前記第2のタスクを実行し、
     前記第2のタスクの認識結果に基づいて、前記移動体の走行及び行動を計画する計画部を更に具備する
     情報処理装置。
  18.  請求項1記載の情報処理装置であって、
     前記認識対象は画像であり、
     前記第1のタスクは、セマンティックセグメンテーションであり、
     前記第2のタスクは、オブジェクト検出、動き検出、距離検出、法線推定、姿勢推定及び軌道推定から選択される1以上を含む
     情報処理装置。
  19.  認識対象に対して第1のタスクを処理し、
     前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第1のタスクと特徴量抽出が共通する第2のタスクを実行するか否かを決定する
     ことを情報処理装置が実行する情報処理方法。
  20.  認識対象に対して第1のタスクを処理するステップと、
     前記第1のタスク処理による前記認識対象の認識結果を用いて、前記第1のタスクと特徴量抽出が共通する第2のタスクを実行するか否かを決定するステップと
     を情報処理装置に実行させるプログラム。
PCT/JP2023/016564 2022-06-20 2023-04-27 情報処理装置、情報処理方法、及びプログラム WO2023248613A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-098872 2022-06-20
JP2022098872 2022-06-20

Publications (1)

Publication Number Publication Date
WO2023248613A1 true WO2023248613A1 (ja) 2023-12-28

Family

ID=89379639

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/016564 WO2023248613A1 (ja) 2022-06-20 2023-04-27 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023248613A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017142760A (ja) * 2016-02-12 2017-08-17 日立オートモティブシステムズ株式会社 移動体の周囲環境認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017142760A (ja) * 2016-02-12 2017-08-17 日立オートモティブシステムズ株式会社 移動体の周囲環境認識装置

Similar Documents

Publication Publication Date Title
KR101963422B1 (ko) 자율 주행 가능 차량용 충돌-회피 시스템
US10489686B2 (en) Object detection for an autonomous vehicle
JP7188394B2 (ja) 画像処理装置及び画像処理方法
US9568611B2 (en) Detecting objects obstructing a driver's view of a road
US8976040B2 (en) Intelligent driver assist system based on multimodal sensor fusion
JP7027737B2 (ja) 画像処理装置、および画像処理方法、並びにプログラム
JP2020053046A (ja) 交通情報を表示するための運転者支援システム及び方法
JP7382327B2 (ja) 情報処理装置、移動体、情報処理方法及びプログラム
EP3825958B1 (en) A new way to generate tight 2d bounding boxes for autonomous driving labeling
WO2021241189A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020116206A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2022138123A1 (en) Available parking space identification device, available parking space identification method, and program
WO2021060018A1 (ja) 信号処理装置、信号処理方法、プログラム、及び、移動装置
CN113841100A (zh) 自主行驶控制设备、自主行驶控制系统和自主行驶控制方法
WO2023248613A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2022153896A1 (ja) 撮像装置、画像処理方法及び画像処理プログラム
WO2022004423A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
Siddiqui et al. Object/Obstacles detection system for self-driving cars
JP2022161066A (ja) 表示制御システム、表示制御方法及びプログラム
US20190337455A1 (en) Mobile Body Surroundings Display Method and Mobile Body Surroundings Display Apparatus
CN115996869A (zh) 信息处理装置、信息处理方法、信息处理系统和程序
CN114829195A (zh) 车辆
WO2023007785A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2023090001A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2022014327A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23826802

Country of ref document: EP

Kind code of ref document: A1