WO2023021755A1 - 情報処理装置、情報処理システム、モデル及びモデルの生成方法 - Google Patents

情報処理装置、情報処理システム、モデル及びモデルの生成方法 Download PDF

Info

Publication number
WO2023021755A1
WO2023021755A1 PCT/JP2022/010155 JP2022010155W WO2023021755A1 WO 2023021755 A1 WO2023021755 A1 WO 2023021755A1 JP 2022010155 W JP2022010155 W JP 2022010155W WO 2023021755 A1 WO2023021755 A1 WO 2023021755A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
unit
information processing
feature points
images
Prior art date
Application number
PCT/JP2022/010155
Other languages
English (en)
French (fr)
Inventor
圭 大石
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2023542203A priority Critical patent/JPWO2023021755A1/ja
Priority to CN202280055900.9A priority patent/CN117836818A/zh
Publication of WO2023021755A1 publication Critical patent/WO2023021755A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to an information processing device, an information processing system, a model, and a model generation method.
  • the present disclosure proposes an information processing device, an information processing system, a model, and a method of generating a model, which can accurately perform feature point matching between images obtained from different types of sensors.
  • a learning device that acquires feature points and feature amounts common to a plurality of images and generates a model for matching the common feature points
  • the learning device includes a first imaging one of a first image acquired from a unit and a second image acquired from a second imaging unit, and an image acquired from a different imaging unit from the one image and projected
  • An information processing apparatus is provided in which a projected image is input as a pair of input data.
  • a first imaging unit, a second imaging unit, and an information processing device are included, and the information processing device acquires feature points and feature amounts common to a plurality of images.
  • a learning device for generating a model for matching the common feature points wherein the learning device includes a first image acquired from the first imaging unit and a first image acquired from the second imaging unit
  • An information processing system in which one of the acquired second images and a projected image acquired by an imaging unit different from the one image and projected are input as a pair of input data. provided.
  • a model that causes a computer to function so as to acquire feature points and feature amounts common to a plurality of images and match the common feature points, the model obtained from the first imaging unit one image of the obtained first image and the second image obtained from the second imaging unit, and a projected image obtained and projected from an imaging unit different from the one image are provided as a pair of input data by machine learning.
  • a model generation method for acquiring feature points and feature amounts common to a plurality of images and causing a computer to function to generate a model for matching the common feature points
  • a model generation method is provided for generating the model by performing machine learning on an acquired and projected projection image as a pair of input data.
  • FIG. 1 is an explanatory diagram illustrating a configuration example of an information processing system 10 according to an embodiment of the present disclosure
  • FIG. 1 is a block diagram (Part 1) showing an example of a configuration of an information processing device 300 according to an embodiment of the present disclosure
  • FIG. 1 is a flowchart (Part 1) illustrating an example of an information processing method according to an embodiment of the present disclosure
  • 2 is a flowchart (part 2) illustrating an example of an information processing method according to an embodiment of the present disclosure
  • FIG. 2 is an explanatory diagram for explaining the background leading to the creation of the embodiment of the present disclosure
  • FIG. 3 is a flowchart (part 3) illustrating an example of an information processing method according to an embodiment of the present disclosure
  • FIG. 4 is an explanatory diagram illustrating an example of input data according to the embodiment of the present disclosure
  • FIG. 2 is a block diagram (part 2) showing an example of the configuration of the information processing device 300 according to the embodiment of the present disclosure
  • FIG. FIG. 4 is an explanatory diagram illustrating an example of mask generation according to an embodiment of the present disclosure
  • 3 is a block diagram (part 3) showing an example of the configuration of the information processing device 300 according to the embodiment of the present disclosure
  • FIG. FIG. 4 is an explanatory diagram (part 1) illustrating an example of correct label generation according to the embodiment of the present disclosure
  • FIG. 2 is an explanatory diagram (part 2) illustrating an example of correct label generation according to the embodiment of the present disclosure
  • FIG. 4 is a block diagram (part 4) showing an example of the configuration of the information processing device 300 according to the embodiment of the present disclosure
  • 3 is a block diagram showing an example configuration of a learning unit 370 according to an embodiment of the present disclosure
  • FIG. FIG. 3 is an explanatory diagram (part 1) illustrating an example of learning according to the embodiment of the present disclosure
  • FIG. 2 is an explanatory diagram (part 2) illustrating an example of learning according to an embodiment of the present disclosure
  • 3 is a hardware configuration diagram showing an example of a computer that implements the functions of the information processing apparatus 300.
  • FIG. 1 is a block diagram showing a configuration example of a vehicle control system
  • FIG. FIG. 4 is a diagram showing an example of a sensing area;
  • the feature points refer to locations where features such as the shape of the subject are shown, such as the center point, branch points, intersections, and end points on the outline of the subject in the image, and their coordinate information.
  • the feature quantity is information such as the shape, orientation, and spread of the feature point, which can indicate the feature of the feature point in numerical form.
  • FIG. 1 is an explanatory diagram illustrating a configuration example of an information processing system 10 according to this embodiment.
  • an information processing system 10 includes a LiDAR (Light Detection and Ranging) (first imaging unit) 100, a camera (second imaging unit), and an information processing device 300. , which are communicatively connected to each other via a network.
  • the communication method used in the network can be wired or wireless (e.g., WiFi (registered trademark), Bluetooth (registered trademark), etc.). It is desirable to use a communication scheme that can be maintained.
  • the LiDAR 100, the camera, and the information processing device 300 may be connected to a network via a base station (for example, a mobile phone base station, a wireless LAN (Local Area Network) access point, etc.) not shown. good.
  • a base station for example, a mobile phone base station, a wireless LAN (Local Area Network) access point, etc.
  • the LiDAR 100 can measure the distance (relative coordinates) to the subject and identify the shape of the subject by irradiating the subject with laser light while scanning and observing the scattered and reflected light. .
  • an image of reflected light acquired by the LiDAR 100 is called a reflection intensity image (first image).
  • a ToF (Time of Flight) sensor (not shown) may be used instead of the LiDAR 100.
  • the ToF sensor also measures the distance to the subject and identifies the shape of the subject by irradiating the subject with pulsed light and observing the return time of the light reflected by the subject. .
  • the camera 200 is an image sensor capable of detecting light emitted from a subject and outputting an image signal in order to obtain an image of the subject based on the light emitted from the subject.
  • the camera 200 comprises an RGB image sensor, and more specifically, color photography in which a plurality of pixels capable of detecting blue light, green light, and red light, which are visible light, are arranged according to the Bayer array. It is a possible image sensor.
  • the visible light image acquired by the camera 200 is called a visible light image (second image).
  • a monochrome image sensor may be used instead of the RGB image sensor.
  • the information processing device 300 is configured by, for example, a computer.
  • the information processing device 300 processes images acquired by the LiDAR 100 and the camera 200, and outputs images obtained by the processing to other devices. Further, the information processing apparatus 300 can align (calibrate) the LiDAR 100 and the camera 200 . Details of the information processing apparatus 300 will be described later.
  • the information processing device 300 may be composed of a plurality of devices, and is not particularly limited.
  • FIG. 1 shows the information processing system 10 according to the present embodiment as including one LiDAR 100 and one camera 200
  • the present embodiment is not limited to this.
  • the information processing system 10 according to this embodiment may include multiple LiDARs 100 and cameras 200 .
  • the information processing system 10 according to the present embodiment may include, for example, another image sensor that observes light of a specific wavelength and generates an image, and is not particularly limited.
  • FIG. 2 is a block diagram showing an example of the configuration of the information processing device 300 according to this embodiment.
  • the function of the information processing apparatus 300 for aligning the LiDAR 100 and the camera 200 will be mainly described.
  • the information processing device 300 is configured by, for example, a computer. Specifically, as shown in FIG.
  • the information processing apparatus 300 includes a reflection intensity image acquisition unit 302, a visible light image acquisition unit 304, a reflection intensity image processing unit 306, a visible light image processing unit 308, and a characteristic It mainly has a point acquisition unit 310 , a position information acquisition unit 312 and a calibration unit 314 . Details of each functional unit of the information processing apparatus 300 will be described below in order.
  • the reflection intensity image acquisition unit 302 acquires reflection intensity image data from the LiDAR 100 and outputs the data to the reflection intensity image processing unit 306, which will be described later.
  • the visible light image acquisition unit 304 acquires visible light image data from the camera 200, and outputs the data to the visible light image processing unit 308, which will be described later.
  • the reflection intensity image processing unit 306 cuts out an image from the reflection intensity image data from the reflection intensity image acquisition unit 302 so as to have a predetermined position (viewpoint), a predetermined size, and a predetermined viewing angle (FOV), A reflection intensity image is generated as input data. Furthermore, the reflection intensity image processing unit 306 outputs the generated reflection intensity image to the feature point acquiring unit 310, which will be described later. At this time, the reflection intensity image processing unit 306 may perform optical distortion in the image, brightness adjustment (gain adjustment), and contrast adjustment (gamma adjustment).
  • the visible light image processing unit 308 cuts out an image from the visible light image data from the visible light image acquisition unit 304 so as to have a predetermined position (viewpoint), a predetermined size, and a predetermined viewing angle (FOV), Generate a visible light image as input data. Furthermore, the visible light image processing unit 308 outputs the generated visible light image to the feature point acquisition unit 310, which will be described later. At this time, the visible light image processing unit 308 may perform optical distortion in the image, brightness adjustment (gain adjustment), and contrast adjustment (gamma adjustment).
  • the feature point acquiring unit 310 acquires feature points and feature amounts in a plurality of images using a model according to the present embodiment, which will be described later, and based on the acquired feature points and feature amounts, the feature point acquisition unit 310 acquires a front end common to the plurality of images.
  • Feature point matching can be performed.
  • the feature point acquisition unit 310 can also perform feature point matching between a reflection intensity image and a visible light image, furthermore, between a plurality of reflection intensity images, Alternatively, feature point matching can be performed between a plurality of visible light images.
  • the feature point acquisition unit 310 outputs information of the matched feature points (coordinate information in the image, etc.) to the calibration unit 314, which will be described later.
  • the norm is calculated as the feature amount of each feature point, and the feature points with the smallest distance to each other are matched between a plurality of images. The details of model generation according to this embodiment will be described later.
  • the position information acquisition unit 312 acquires the distance to the subject and the relative position coordinates of the subject based on the time it takes for the irradiated light to be reflected by the subject and returned, detected by the LiDAR 100 . can be output to the processing unit 314 . Note that, in the present embodiment, the LiDAR 100 may calculate the distance and the like.
  • the calibration unit 314 can calibrate (correct) the spatial difference (positional relationship) and optical difference between the LiDAR 100 and the camera 200 .
  • the calibration unit 314 based on the difference between the positions where the LiDAR 100 and the camera 200 are arranged (parallax, distance to the subject), the difference in angle of view and the lens aberration between the LiDAR 100 and the camera 200, External parameters (positional parameters) and/or internal parameters (optical parameters) of the LiDAR 100 and the camera 200 are corrected so as to eliminate differences (deviations) in position information in images output from the LiDAR 100 and the camera 200.
  • the calibration unit 314 uses the position information (coordinate information in the global coordinate system or the relative coordinate system) obtained by the position information acquisition unit 312 described above for the feature points matched by the feature point acquisition unit 310 described above. , corrections can be made.
  • the configuration of the information processing device 300 is not limited to that shown in FIG. 2, and may further include, for example, functional blocks (not shown).
  • FIGS. 3 and 4 are flowcharts illustrating an example of an information processing method according to this embodiment.
  • the information processing method according to this embodiment can mainly include a plurality of steps from step S100 to step S400. The details of each of these steps according to the present embodiment will be sequentially described below.
  • the information processing device 300 collects one or more visible light images from the camera 200 (step S100). Next, the information processing device 300 acquires one or more reflection intensity images from the LiDAR (step S200).
  • the information processing apparatus 300 acquires feature points and feature amounts in the visible light image and the reflection intensity image collected in steps S100 and S200 described above, and based on the acquired feature points and feature amounts, the visible light image and the reflection intensity image are obtained. Feature points common to the intensity image are matched (step S300). Further, the information processing device 300 calibrates (corrects) the spatial difference (positional relationship) and optical difference between the LiDAR 100 and the camera 200 (step S400). At this time, the information processing apparatus 300 can perform correction using position information (coordinate information in the global coordinate system or the relative coordinate system) of the matched feature points.
  • step S300 in FIG. 3 can mainly include a plurality of steps from step S301 to step S303 shown in FIG. The details of each of these steps will be described below.
  • the information processing apparatus 300 acquires feature points and feature amounts from the visible light image collected in step S100 using a model according to this embodiment, which will be described later (step S301). Next, the information processing apparatus 300 acquires feature points and feature amounts from the reflection intensity image collected in step S200 using the model (step S302).
  • the information processing apparatus 300 performs feature point matching between the reflection intensity image and the visible light image based on the feature points and feature amounts acquired in steps S301 and S302 described above (step S303). For example, the information processing apparatus 300 calculates a norm as a feature amount of each feature point, and matches feature points having the smallest distance between images as a common feature point.
  • FIGS. 3 and 4 are examples of information processing according to this embodiment, and the information processing according to this embodiment is not limited to this.
  • FIG. 5 is an explanatory diagram for explaining the background leading to the creation of this embodiment.
  • Such a technique includes performing feature point matching between images acquired by the LiDAR 100 and the camera 200 .
  • SIFT Scale-Invariant Feature Transform
  • DoG Differences of Gaussian
  • LoG Laplacian of Gaussian
  • a feature point is detected from the difference between , and a 128-dimensional gradient vector obtained from pixel information around the feature point is described as a feature amount.
  • SIFT can describe feature values robustly against image rotation, scale changes, lighting changes, etc. for detected feature points, so it is used for image matching such as image mosaics and object recognition/detection. be able to.
  • SIFT is a handcrafted method that consists of a rule-based algorithm considered by humans, and is complicated.
  • Superpoint Self-supervised interest point detection and description
  • DNN deep neural network
  • feature points are learned using correct labels (teacher data), and feature amounts are learned so that similar vectors are calculated between pixels corresponding in position between a pair of images.
  • Algorithms models can be generated that match common feature points between multiple images.
  • a plurality of images (specifically, a reflection intensity image and a visible light image) obtained from different types of sensors acquire common feature points and feature amounts.
  • a model (algorithm) for matching common feature points is generated by a deep neural network (DNN).
  • the DNN performs machine learning using not only a large amount of reflection intensity images and visible light images but also images obtained by projecting these images as input data.
  • FIG. 6 is a flowchart illustrating an example of an information processing method according to this embodiment.
  • the information processing method according to this embodiment can mainly include a plurality of steps from step S500 to step S900. The details of each of these steps according to the present embodiment will be sequentially described below.
  • the information processing device 300 collects one or more visible light images 500 from the camera 200 (step S500).
  • the information processing device 300 acquires one or more reflection intensity images 400 from LiDAR (step S600).
  • the information processing apparatus 300 uses the visible light image 500 and the reflection intensity image 400 from the same viewpoint collected in steps S500 and S600 to generate a pair as input data (step S700).
  • the information processing device 300 generates a common correct label (teacher data) for the visible light image 500 and the reflection intensity image 400 (step S800).
  • the information processing device 300 performs machine learning while randomly projecting the visible light image 500 and the reflection intensity image 400 (step S900).
  • FIG. 7 is an explanatory diagram illustrating an example of input data according to this embodiment.
  • step S700 a pair of the reflection intensity image 404 and the visible light image 504, which serve as input data, is generated.
  • FIG. image 502 is used.
  • the information processing device 300 extracts images from the reflection intensity panoramic image 402 and the visible light panoramic image 502 so that they have the same position (same viewpoint), the same size, and the same viewing angle (FOV). cut out. At this time, the information processing apparatus 300 may correct optical distortion or the like in the image. By doing so, the information processing apparatus 300 can generate the input data 704 consisting of a pair of the reflection intensity image 404 and the visible light image 504 . According to the present embodiment, a large number of pairs of the reflection intensity image 404 and the visible light image 504 with little deviation can be easily generated by cropping the panoramic image to generate the input data. .
  • a mask image 602 including a mask that covers the noise portion of the reflected intensity panoramic image 402 and the visible light panoramic image 502 is generated.
  • the generated mask image 602 is cut out at the same position (same viewpoint), the same size, and the same field of view (FOV), so that the reflection included in the input data 704 can be obtained.
  • a mask image 604 is generated that is paired with the intensity image 404 and the visible light image 504 . According to the present embodiment, by using such a mask to exclude inconsistent parts from the target of machine learning, the accuracy and efficiency of machine learning can be further improved.
  • FIG. 8 is a block diagram showing an example of the configuration of the information processing apparatus 300 according to this embodiment
  • FIG. 9 is an explanatory diagram explaining an example of mask generation according to this embodiment.
  • the information processing device 300 includes a reflection intensity image acquisition unit 322, a visible light image acquisition unit 324, a reflection intensity image processing unit (image processing unit) 326, and a visible light image processing unit. It mainly has a section (image processing section) 328 , a mask generation section (mask section) 330 and an input data generation section 332 . Details of each functional unit of the information processing apparatus 300 will be described below in sequence.
  • the reflection intensity image acquisition unit 322 acquires the data of the reflection intensity panoramic image (first wide-area image) 402 from the LiDAR 100, and outputs the data to the reflection intensity image processing unit 326 and the mask generation unit 330, which will be described later.
  • the visible light image acquisition unit 324 acquires data of a visible light panorama image (second wide-area image) 502 from the camera 200, and outputs the data to the visible light image processing unit 328 and the mask generation unit 330, which will be described later.
  • the reflection intensity image processing unit 326 cuts out the image from the reflection intensity panorama image 402 from the reflection intensity image acquisition unit 322 so as to have a predetermined position (viewpoint), a predetermined size, and a predetermined viewing angle (FOV). , to generate a reflection intensity image 404 as input data 704 . Furthermore, the reflection intensity image processing unit 326 outputs the generated reflection intensity image 404 to the input data generation unit 332, which will be described later.
  • the reflection intensity image processing unit 326 may also perform optical distortion in the image, brightness adjustment (gain adjustment), and contrast adjustment (gamma adjustment).
  • the visible light image processing unit 328 cuts out the image from the visible light panorama image 502 from the visible light image acquisition unit 324 so as to have a predetermined position (viewpoint), a predetermined size, and a predetermined viewing angle (FOV). , produces a visible light image 504 that becomes the input data 704 . Furthermore, the visible light image processing unit 328 outputs the generated visible light image 504 to the input data generation unit 332, which will be described later.
  • the visible light image processing unit 328 may also perform optical distortion in the image, brightness adjustment (gain adjustment), and contrast adjustment (gamma adjustment).
  • the mask image 602 is automatically generated by a convolutional neural network (CNN).
  • CNN convolutional neural network
  • the mask generation unit 330 is composed of a CNN or the like, and uses the aligned (aligned) reflected intensity panoramic image 402 and the visible light panoramic image 502 as input data to mask Generate image 602 .
  • the mask generation unit 330 cuts out an image from the generated mask image 602 so as to have a predetermined position (viewpoint), a predetermined size, and a predetermined viewing angle (FOV), and the mask image becomes the input data 704. 604 and outputs it to the input data generation unit 332, which will be described later.
  • the CNN 330 captures the subject as a cluster of one box, expresses the subject with the positional coordinates of the center point of the box and its image feature amount, and recognizes the subject, such as "Objects as Points".
  • a mask image 602 can be generated using an object detection algorithm. Thus, in this embodiment, it is possible to automatically generate a mask for excluding inconsistent locations from machine learning targets.
  • the input data generation unit 332 outputs from the reflection intensity image processing unit 326, the visible light image processing unit 328, and the mask generation unit 330 described above, the same position (same viewpoint), the same size, and the same viewing angle (FOV)
  • the reflection intensity image 404, the visible light image 504, and the mask image 604 are used as one group (pair) of input data 704, and the functional unit described later (specifically, the reflection intensity image acquisition unit 342 shown in FIGS. 10 and 13 , 362 and visible light image acquisition units 344 and 364).
  • the mask image 604 does not have to be included in the input data group when the reflection intensity image 404 and the visible light image 504 do not contain noise.
  • the functional blocks of the information processing apparatus 300 related to the stage of generating the input data 704 in model generation are not limited to the configuration shown in FIG.
  • FIG. 10 is a block diagram showing an example of the configuration of the information processing device 300 according to this embodiment.
  • the functions related to the generation stage of the correct label (teaching data) will be mainly described.
  • the information processing apparatus 300 includes a reflection intensity image acquisition unit 342, a visible light image acquisition unit 344, a reflection intensity image projection unit 346, a visible light image projection unit 348, a correct It mainly has a label generator (teaching data generator) 350 . Details of each functional unit of the information processing apparatus 300 will be described below in order.
  • the reflection intensity image acquisition unit 342 acquires the reflection intensity image 404 and the mask image 604 from the input data generation unit 332 in FIG. 8, and outputs them to the reflection intensity image projection unit 346 described later. Note that, in the present embodiment, the reflection intensity image acquisition unit 342 does not need to acquire and output the mask image 604 when noise is not present in the reflection intensity image 404 .
  • the visible light image acquisition unit 344 acquires the visible light image 504 and the mask image 604 from the input data generation unit 332 in FIG. 8, and outputs them to the visible light image projection unit 358 described later. Note that, in the present embodiment, the visible light image acquisition unit 344 does not need to acquire and output the mask image 604 when noise is not present in the visible light image 504 .
  • the reflection intensity image projection unit 346 projects the acquired reflection intensity image 404 (mask image 604 if necessary) by randomly rotating it or shifting the viewpoint left, right, up, down, or obliquely.
  • the reflection intensity image projection unit 346 can perform projection using a homography matrix H that is randomly given. Then, the reflection intensity image projection unit 346 outputs the projection reflection intensity image (first projection image) obtained by the projection, together with the reflection intensity image 404, to the correct label generation unit 350 described later.
  • the visible light image projection unit 348 projects the acquired visible light image 504 (or the mask image 604 if necessary) by randomly rotating it or shifting the viewpoint horizontally, vertically, or obliquely.
  • the visible light image projection unit 348 can perform projection using a homography matrix H that is randomly given. Then, the visible light image projection unit 348 outputs the projected visible light image (second projected image) obtained by the projection, together with the visible light image 504, to the correct label generation unit 350 described later.
  • the correct label generation unit 350 generates a correct label (teacher data) used by the learning unit 370 (see FIG. 13), which will be described later.
  • the correct label generation unit 350 uses the projected reflection intensity image and the reflection intensity image 404 and the projected visible light image and the visible light image 504 to detect feature points of the reflection intensity image 404 and the visible light image 504, Furthermore, a likelihood map of each feature point (a plot of each feature point and the likelihood of the feature point) is obtained.
  • the correct label generation unit 350 generates a correct label for the reflection intensity image and a correct label for the visible light image by integrating the likelihood maps.
  • the correct label generator 350 can be composed of, for example, an encoder (not shown) that dimensionally compresses input data and a detector (not shown) that detects feature points.
  • the functional blocks of the information processing apparatus 300 that are related to the correct label generation stage in model generation are not limited to the configuration shown in FIG. 10 .
  • 11 and 12 are explanatory diagrams illustrating an example of correct label generation according to this embodiment.
  • the correct label generation unit 350 performs machine learning in advance using a CG (Computer Graphics) image 700 prepared in advance to generate the correct label 800, as shown in FIG. Then, the information processing apparatus 300 compares the generated correct label 800 with the correct label 900 including the feature points of the CG image 700 manually generated in advance, and calculates the difference (detector loss) in the correct label generation unit 350. and perform reinforcement learning to reduce the difference.
  • CG Computer Graphics
  • the correct label generation unit 350 adds random projections to each of the reflection intensity image and the visible light image, and performs machine learning using the projected images to robustly points can be detected. Specifically, in the present embodiment, the correct label generation unit 350 adds random projections to each of the reflection intensity image and the visible light image, and detects feature points from the projected images as well. Get the probability (likelihood) that a point will be detected.
  • a correct label common to the reflection intensity image and the visible light image is generated by integrating the likelihood maps in which the likelihood of each feature point of the reflection intensity image and the visible light image is mapped. do. Then, in the present embodiment, by using such correct labels common to the reflection intensity image and the visible light image in the learning stage described later, feature points are robustly detected from both the reflection intensity image and the visible light image. It is possible to obtain a model (algorithm) that can
  • the correct label generation unit 350 that has performed machine learning using the CG image 700 generates feature points and corresponding feature points based on the reflection intensity image 406 and the projected reflection intensity image 410 .
  • a likelihood map 802 consisting of the likelihoods of the points is generated.
  • the correct label generation unit 350 generates a likelihood map 802 including feature points and likelihoods of the feature points.
  • the correct label generation unit 350 generates a correct label 904 for the reflection intensity image and a correct label 904 for the visible light image by integrating the two likelihood maps.
  • the correct label generation unit 350 can obtain the final correct label 904 by repeating the above-described machine learning using the generated correct label 904 .
  • the generation of the correct label 904 in this embodiment is similar to the technique described in Non-Patent Document 1 described above, but features common to reflected intensity images and visible light images obtained from different sensors (different domains) It is different in that the correct label 904 can be generated so that the point can be detected robustly even if the appearance (viewpoint) changes.
  • model generation by learning a model (algorithm) for robustly executing common feature points and feature point matching between reflected intensity images and visible light images obtained from different sensors (different domains) even if the appearance (viewpoint) changes ) is generated by machine learning.
  • FIG. 13 is a block diagram showing an example of the configuration of the information processing device 300 according to the embodiment of the present disclosure
  • FIG. 14 is a block diagram showing an example of the configuration of the learning section 370 according to the present embodiment.
  • the function of the information processing apparatus 300 to generate a model through learning will be mainly described.
  • the information processing device 300 includes a reflection intensity image acquisition unit 362, a visible light image acquisition unit 364, a reflection intensity image projection unit 366, a visible light image projection unit 368, a learning It mainly has a part (learning device) 370 . Details of each functional unit of the information processing apparatus 300 will be described below in sequence.
  • the reflection intensity image acquisition unit 362 acquires the reflection intensity image 404 and the mask image 604 from the input data generation unit 332 in FIG. 8, and outputs them to the reflection intensity image projection unit 366 described later. Note that, in the present embodiment, the reflection intensity image acquisition unit 362 does not need to acquire and output the mask image 604 when noise is not present in the reflection intensity image 404 .
  • the visible light image acquisition unit 364 acquires the visible light image 504 and the mask image 604 from the input data generation unit 332 in FIG. 8, and outputs them to the visible light image projection unit 368 described later. Note that, in the present embodiment, the visible light image acquisition unit 364 does not need to acquire and output the mask image 604 when noise is not present in the visible light image 504 .
  • a reflection intensity image projection unit 366 projects the acquired reflection intensity image 404 (mask image 604 as necessary). For example, the reflection intensity image projection unit 366 can perform projection using a homography matrix H that is randomly given. Then, the reflection intensity image projection unit 366 outputs the projection reflection intensity image (first projection image) 410 obtained by projection together with the reflection intensity image 404 to the learning unit 370 which will be described later.
  • a visible light image projection unit 368 projects the acquired visible light image 504 (mask image 604 as necessary).
  • the visible light image projection unit 368 can perform projection using a homography matrix H that is randomly given. Then, the visible light image projection unit 368 outputs the projected visible light image (second projected image) 510 obtained by projection, together with the visible light image 504, to the learning unit 370 described later.
  • the learning unit 370 acquires feature points and feature amounts from the reflected intensity image 404 and the visible light image 504, and generates a model (algorithm) for matching common feature points. Specifically, for example, the learning unit 370 has a pair of input data 704 of the reflected intensity image 404 and the projected visible light image 510 and/or a pair of input data 704 of the visible light image 504 and the projected reflected intensity image 410. is entered. Alternatively, for example, a pair of input data 704 of the visible light image 504 and the projected visible light image 510 and a pair of input data 704 of the visible light image 504 and the projected reflection intensity image 410 may be input to the learning unit 370. good.
  • a pair of input data 704 of the reflection intensity image 404 and the projected reflection intensity image 410 and a pair of input data 704 of the reflection intensity image 404 and the projected visible light image 510 may be input to the learning unit 370.
  • the learning unit 370 stores a pair of input data 704 of the visible light image 504 and the projected reflected intensity image 410, a pair of input data of the reflected intensity image 404 and the projected visible light image 510, the visible light image 504 and the projected visible light image.
  • a pair of input data 704 of 510 input data 704, a pair of input data 704 of the reflected intensity image 404 and the projected reflected intensity image 410 may be input.
  • a pair of input data is input that includes two images from different types of sensors.
  • the learning unit 370 performs matching of feature points common to the reflected intensity image and the visible light image obtained from different types of sensors, even if the appearance changes.
  • a model can be generated to run robustly.
  • the learning unit 370 includes an encoder unit 372 that dimensionally compresses (e.g., 1/8) the pair of input data 704, and extracts feature points (
  • a descriptor unit (feature acquisition unit) that acquires (describes) a feature from a pair of 376. Then, the learning unit 370 matches feature points common to images derived from different sensors based on feature amounts, and compares the feature points and feature amounts obtained from each image with the correct label (teacher data) 804. Machine learning is performed by feeding back the comparison result to the learning unit 370 .
  • the functional blocks of the information processing apparatus 300 related to the model generation stage are not limited to the configurations shown in FIGS. 13 and 14 .
  • FIG. 15 is an explanatory diagram illustrating an example of learning according to this embodiment.
  • the learning unit 370 has a pair of input data 704 of the reflected intensity image 404 and the projected visible light image 510 and/or a pair of input data 704 of the visible light image 504 and the projected reflected intensity image 410. is entered.
  • a pair of input data 704 of the visible light image 504 and the projected visible light image 510 and a pair of input data 704 of the visible light image 504 and the projected reflection intensity image 410 may be input to the learning unit 370. good.
  • a pair of input data 704 of the reflection intensity image 404 and the projected reflection intensity image 410 and a pair of input data 704 of the reflection intensity image 404 and the projected visible light image 510 may be input to the learning unit 370. good. Further, the learning unit 370 stores a pair of input data 704 of the visible light image 504 and the projected reflected intensity image 410, a pair of input data of the reflected intensity image 404 and the projected visible light image 510, the visible light image 504 and the projected visible light image. A pair of input data 704 of 510 input data 704, a pair of input data 704 of the reflected intensity image 404 and the projected reflected intensity image 410 may be input.
  • a pair of input data 710a of the reflected intensity image 406 and the projected visible light image 510 and a pair of input data 710b of the visible light image 506 and the projected reflected intensity image 410 are input.
  • a learning unit 370 including two sets of an encoder unit 372, a detector unit 374, and a descriptor unit 376 with the same weighting etc. is prepared, and a feature Get points and features.
  • the result data 810a and 810b from the feature points acquired by each detector unit 374 are compared with the above-described correct label 804, and the difference between the two is the loss (detector loss) Lp. calculate.
  • each learning unit 370 matches and compares feature points based on the result data 812 consisting of feature amounts acquired from each descriptor unit 376, thereby obtaining a loss which is the difference between the two. (Descriptor loss) Calculate Ld .
  • the final loss value is L can be represented by the following formula (1) using a constant ⁇ .
  • Equation (1) Y is the correct label 804 of the feature point, and s is the pixel correspondence between the two images.
  • the loss (detector loss) Lp of the detector unit 374 is calculated by cross entropy with the correct label 804, and can be expressed by the following formula (2). It is assumed that the projected image is projected by a homography matrix H that is given randomly.
  • the loss (descriptor loss) Ld of the descriptor part 376 uses the hinge loss, the feature amount d hw (d hw is an element of the set D) of each pixel of the input image, and the projection image of the input image.
  • the feature amount d' hw (d' hw is an element of the set D') it can be expressed by the following formula (3). Note that in Equation (3), the positive margin is m p , the negative margin is m n , and ⁇ d is a constant that balances correct matching and incorrect matching.
  • the correspondence (matching) s is defined by Equation (4) below.
  • p hw is the pixel position on the image corresponding to the feature amount by the descriptor section 376 .
  • Hphw is the pixel position warped by the homography matrix H. Furthermore, since the feature amount by the descriptor part 376 is compressed to 1/8 with respect to the input image, it is assumed that the corresponding pixels are regarded as corresponding pixels when the distance between the corresponding pixels is within 8 pix.
  • the learning unit 370 calculates the final loss L and feeds back so as to minimize L, so that the reflection intensity image obtained from different sensors (different domains) and the visible It is possible to generate a model (algorithm) that can robustly execute feature points common to optical images and feature point matching even if the appearance (viewpoint) changes.
  • FIG. 16 is an explanatory diagram illustrating an example of learning according to this embodiment.
  • the Shared Encoder (E s ) shown in FIG. 17 has the same function as the encoder section 372 described above. Furthermore, in this embodiment, a Private Encoder (Ep) (first encoder unit) for images derived from reflection intensity images and a Private Encoder (Ep) (second encoder unit) for images derived from visible light images are used. encoder part) and Furthermore, in this embodiment, a Shared Decoder is prepared which takes as input data the sum of the outputs of the Shared Encoder and the Private Encoder.
  • a pair of input data 712a of the reflected intensity image 406 and the projected visible light image 510 and a pair of input data 712b of the visible light image 506 and the projected reflected intensity image 410 are input.
  • the final loss value L in this example consists of the sum of five loss functions (L p , L d , L r , L f , L s ).
  • L p and L d are the same as in the first embodiment described above.
  • the loss L r is the output image I consisting of the output (E s (I)) of the Shared Encoder and the output (E p (I)) of the Private Encoder and the input image, and compares them to make them the same.
  • Reconstruction loss A loss L f is a difference loss that makes the output of the Private Encoder (E p (I)) different from the output of the Shared Encoder (E s (I)).
  • the loss Ls is a similarity loss that makes it impossible to know whether the output of the Shared Encoder is the visible light image or the reflected intensity image.
  • the final loss value L is expressed by the following equation (5) using five loss functions (L p , L d , L r , L f , L s ) and constants ⁇ , ⁇ , ⁇ . can be defined as
  • the Reconstruction loss Lr is defined by Equation (6) below such that the output of the Shared Decoder matches the input image.
  • Equation (6) k is the number of pixels in the input image, and 1 k is a vector with 1 element and length k.
  • the part represented by the norm means the value obtained by squaring the L2 norm.
  • the difference loss L f is defined by Equation (7) below to make the output of the Private Encoder (E p (I)) and the output of the Shared Encoder (E s (I)) different.
  • the place expressed by the norm means the value obtained by squaring the Frobenius norm.
  • the similarity loss L s is a loss for learning to confuse the output of the Shared Encoder so that it cannot be determined whether the output is the visible light image or the reflected intensity image.
  • a Gradient Reversal Layer (GRL) is used to maximize the confusion.
  • GRL has the same output for a function, but its gradient direction is reversed. Therefore, GRL is defined by Equation (8) below.
  • the output E p (I) of the Shared Encoder is input to the domain classifier Z(Q(E p (I); ⁇ z ) ⁇ d (where the caret is attached to d) to determine whether it is a visible light image or a reflection Determine whether it is an intensity image.At this time, ⁇ z is a parameter of the domain classifier Z, and d (d is a caret) is an element of the set ⁇ 0, 1 ⁇ .At the time of learning, GRL , ⁇ z attempts to improve the discriminating ability of the domain classifier Z, whereas the reversal of the gradient causes the parameters of Shared Encode to be learned to reduce the discriminating ability of the domain classifier.
  • the similarity loss Ls is defined by Equation (9) below.
  • the learning unit 370 calculates the final loss L and feeds back so as to minimize L, so that the reflection intensity image obtained from different sensors (different domains) and the visible It is possible to generate a model (algorithm) that can robustly execute feature points common to optical images and feature point matching even if the appearance (viewpoint) changes.
  • the difference between the positions where the LiDAR 100 and the camera 200 are arranged (parallax, the distance to the subject), the difference in the angle of view and the lens aberration between the LiDAR 100 and the camera 200
  • the extrinsic parameters (positional parameters) and/or the intrinsic parameters (optical parameters) of the LiDAR 100 and the camera 200 are eliminated so as to eliminate the difference (deviation) in the positional information in the images output from the LiDAR 100 and the camera 200. can be corrected with high accuracy.
  • the feature point matching by the model (algorithm) obtained by this embodiment is not limited to being used for calibration (alignment) of a plurality of sensors. It is also possible to apply it to a technique of newly generating an image positioned between two images by computer graphics).
  • the present embodiment is not limited to application to the combination of the LiDAR 100 and the camera 200.
  • it can be applied to combinations of other image sensors that observe light of a specific wavelength and generate images. can do. That is, the present embodiment is not particularly limited and can be applied to different types of sensors.
  • FIG. 17 is a hardware configuration diagram showing an example of a computer that implements the functions of the information processing apparatus 300.
  • the computer 1000 has a CPU 1100 , a RAM 1200 , a ROM (Read Only Memory) 1300 , a HDD (Hard Disk Drive) 1400 , a communication interface 1500 and an input/output interface 1600 .
  • Each part of computer 1000 is connected by bus 1050 .
  • the CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400 and controls each section. For example, the CPU 1100 loads programs stored in the ROM 1300 or HDD 1400 into the RAM 1200 and executes processes corresponding to various programs.
  • the ROM 1300 stores a boot program such as BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, and programs dependent on the hardware of the computer 1000.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by the CPU 1100 and data used by such programs.
  • the HDD 1400 is a recording medium that records the ranging program according to the present disclosure, which is an example of the program data 1450 .
  • a communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device via the communication interface 1500, and transmits data generated by the CPU 1100 to another device.
  • the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000 .
  • the CPU 1100 receives data from input devices such as a keyboard and mouse via the input/output interface 1600 .
  • the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input/output interface 1600 .
  • the input/output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • Media include, for example, optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, semiconductor memories, etc. is.
  • optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk)
  • magneto-optical recording media such as MO (Magneto-Optical disk)
  • tape media magnetic recording media
  • magnetic recording media semiconductor memories, etc. is.
  • the CPU 1100 of the computer 1000 implements the functions of the learning unit 370 and the like by executing programs and models loaded on the RAM 1200. do.
  • the HDD 1400 stores programs and the like according to the embodiment of the present disclosure.
  • CPU 1100 reads and executes program data 1450 from HDD 1400 , as another example, these programs may be obtained from another device via external network 1550 .
  • the information processing apparatus 300 may be applied to a system consisting of a plurality of devices, such as cloud computing, on the premise of connection to a network (or communication between devices). good.
  • FIG. 18 is a block diagram showing a configuration example of a vehicle control system 11, which is an example of a mobile device control system to which the present technology is applied.
  • the vehicle control system 11 is provided in the vehicle 1 and performs processing related to driving support and automatic driving of the vehicle 1.
  • the vehicle control system 11 includes a vehicle control ECU (Electronic Control Unit) 21, a communication unit 22, a map information accumulation unit 23, a position information acquisition unit 24, an external recognition sensor 25, an in-vehicle sensor 26, a vehicle sensor 27, a storage unit 28, a travel It has a support/automatic driving control unit 29 , a DMS (Driver Monitoring System) 30 , an HMI (Human Machine Interface) 31 , and a vehicle control unit 32 .
  • Vehicle control ECU 21, communication unit 22, map information storage unit 23, position information acquisition unit 24, external recognition sensor 25, in-vehicle sensor 26, vehicle sensor 27, storage unit 28, driving support/automatic driving control unit 29, driver monitoring system ( DMS) 30 , human machine interface (HMI) 31 , and vehicle control unit 32 are connected via a communication network 41 so as to be able to communicate with each other.
  • the communication network 41 is, for example, a CAN (Controller Area Network), LIN (Local Interconnect Network), LAN (Local Area Network), FlexRay (registered trademark), Ethernet (registered trademark), and other digital two-way communication standards. It is composed of a communication network, a bus, and the like.
  • the communication network 41 may be used properly depending on the type of data to be transmitted.
  • CAN may be applied to data related to vehicle control
  • Ethernet may be applied to large-capacity data.
  • each unit of the vehicle control system 11 communicates without the communication network 41, for example, near field communication (NFC (Near Field Communication)) or Bluetooth (registered trademark), which is assumed to be relatively short-distance communication. They may be directly connected using communications.
  • NFC Near Field Communication
  • Bluetooth registered trademark
  • the vehicle control ECU 21 is composed of various processors such as a CPU (Central Processing Unit) and an MPU (Micro Processing Unit).
  • the vehicle control ECU 21 can control the functions of the entire vehicle control system 11 or a part of the functions.
  • the communication unit 22 can communicate with various devices inside and outside the vehicle, other vehicles, servers, base stations, etc., and transmit and receive various data. At this time, the communication unit 22 may perform communication using a plurality of communication methods.
  • the communication unit 22 uses a wireless communication method such as 5G (5th generation mobile communication system), LTE (Long Term Evolution), DSRC (Dedicated Short Range Communications), etc., via a base station or access point, on an external network can communicate with a server (hereinafter referred to as an external server) located in the
  • the external network with which the communication unit 22 communicates is, for example, the Internet, a cloud network, or a provider's own network.
  • the communication method that the communication unit 22 performs with the external network is not particularly limited as long as it is a wireless communication method that enables digital two-way communication at a communication speed of a predetermined value or more and a distance of a predetermined value or more.
  • the communication unit 22 can communicate with a terminal existing in the vicinity of the own vehicle using P2P (Peer To Peer) technology.
  • Terminals in the vicinity of one's own vehicle are, for example, terminals worn by pedestrians, bicycles, and other moving objects that move at relatively low speeds, terminals installed at fixed locations in stores, etc., or MTC (Machine Type Communication) terminal.
  • the communication unit 22 can also perform V2X communication.
  • V2X communication includes, for example, vehicle-to-vehicle communication with other vehicles, vehicle-to-infrastructure communication with roadside equipment, etc., and vehicle-to-home communication , and communication between the vehicle and others, such as vehicle-to-pedestrian communication with a terminal or the like possessed by a pedestrian.
  • the communication unit 22 can receive from the outside a program for updating the software that controls the operation of the vehicle control system 11 (Over The Air). Furthermore, the communication unit 22 can receive map information, traffic information, information around the vehicle 1, and the like from the outside. Further, for example, the communication unit 22 can transmit information about the vehicle 1, information about the surroundings of the vehicle 1, and the like to the outside. The information about the vehicle 1 that the communication unit 22 transmits to the outside includes, for example, data indicating the state of the vehicle 1, recognition results by the recognition unit 73, and the like. Furthermore, for example, the communication unit 22 can also perform communication corresponding to a vehicle emergency call system such as e-call.
  • a vehicle emergency call system such as e-call.
  • the communication unit 22 can also receive electromagnetic waves transmitted by a vehicle information and communication system (VICS (registered trademark)) such as radio beacons, optical beacons, and FM multiplex broadcasting.
  • VICS vehicle information and communication system
  • the communication unit 22 can communicate with each device in the vehicle using, for example, wireless communication.
  • the communication unit 22 communicates wirelessly with in-vehicle devices using a communication method such as wireless LAN, Bluetooth (registered trademark), NFC, and WUSB (Wireless USB) that enables digital two-way communication at a communication speed above a predetermined level. can communicate.
  • the communication unit 22 can also communicate with each device in the vehicle using wired communication.
  • the communication unit 22 can communicate with each device in the vehicle by wired communication via a cable connected to a connection terminal (not shown).
  • the communication unit 22 performs digital two-way communication at a predetermined communication speed or higher by wired communication, such as USB (Universal Serial Bus), HDMI (High-Definition Multimedia Interface) (registered trademark), and MHL (Mobile High-Definition Link). can communicate with each device in the vehicle.
  • wired communication such as USB (Universal Serial Bus), HDMI (High-Definition Multimedia Interface) (registered trademark), and MHL (Mobile High-Definition Link).
  • equipment in the vehicle refers to equipment that is not connected to the communication network 41 in the vehicle, for example.
  • in-vehicle devices include mobile devices and wearable devices possessed by passengers such as drivers, information devices that are brought into the vehicle and temporarily installed, and the like.
  • the map information accumulation unit 23 can accumulate one or both of a map obtained from the outside and a map created by the vehicle 1. For example, the map information accumulation unit 23 accumulates a three-dimensional high-precision map, a global map covering a wide area, and the like, which is lower in accuracy than the high-precision map.
  • High-precision maps are, for example, dynamic maps, point cloud maps, vector maps, etc.
  • the dynamic map is, for example, a map consisting of four layers of dynamic information, quasi-dynamic information, quasi-static information, and static information, and is provided to the vehicle 1 from an external server or the like.
  • a point cloud map is a map composed of a point cloud (point cloud data).
  • a vector map is a map adapted to ADAS (Advanced Driver Assistance System) and AD (Autonomous Driving) by associating traffic information such as lane and traffic signal positions with a point cloud map.
  • the point cloud map and the vector map may be provided from an external server or the like, and based on the sensing results of the camera 51, radar 52, LiDAR 53, etc., as a map for matching with a local map described later. It may be created by the vehicle 1 and stored in the map information storage unit 23 . Further, when a high-precision map is provided from an external server or the like, in order to reduce the communication capacity, map data of, for example, several hundred meters square, regarding the planned route that the vehicle 1 will travel from now on, is acquired from the external server or the like. .
  • the location information acquisition unit 24 can receive GNSS signals from GNSS (Global Navigation Satellite System) satellites and acquire location information of the vehicle 1 .
  • the acquired position information is supplied to the driving support/automatic driving control unit 29 .
  • the location information acquisition unit 24 is not limited to the method using GNSS signals, and may acquire location information using beacons, for example.
  • the external recognition sensor 25 has various sensors used to recognize the situation outside the vehicle 1 and can supply sensor data from each sensor to each part of the vehicle control system 11 .
  • the types and number of sensors included in the external recognition sensor 25 are not particularly limited.
  • the external recognition sensor 25 has a camera 51 , a radar 52 , a LiDAR (Light Detection and Ranging, Laser Imaging Detection and Ranging) 53 , and an ultrasonic sensor 54 .
  • the configuration is not limited to this, and the external recognition sensor 25 may have one or more sensors among the camera 51 , radar 52 , LiDAR 53 , and ultrasonic sensor 54 .
  • the numbers of cameras 51 , radars 52 , LiDARs 53 , and ultrasonic sensors 54 are not particularly limited as long as they are realistically installable in the vehicle 1 .
  • the type of sensor provided in the external recognition sensor 25 is not limited to this example, and the external recognition sensor 25 may have other types of sensors. An example of the sensing area of each sensor included in the external recognition sensor 25 will be described later.
  • the imaging method of the camera 51 is not particularly limited.
  • cameras of various shooting methods such as a ToF (Time of Flight) camera, a stereo camera, a monocular camera, and an infrared camera, which are shooting methods capable of distance measurement, can be applied to the camera 51 as necessary.
  • the camera 51 is not limited to this, and may simply acquire a photographed image regardless of distance measurement.
  • the external recognition sensor 25 can have an environment sensor for detecting the environment for the vehicle 1 .
  • the environment sensor is a sensor for detecting the environment such as weather, climate, brightness, etc., and can include various sensors such as raindrop sensors, fog sensors, sunshine sensors, snow sensors, and illuminance sensors.
  • the external recognition sensor 25 has a microphone used for detecting sounds around the vehicle 1 and the position of the sound source.
  • the in-vehicle sensor 26 has various sensors for detecting information inside the vehicle, and can supply sensor data from each sensor to each part of the vehicle control system 11 .
  • the types and number of various sensors included in the in-vehicle sensor 26 are not particularly limited as long as they are the types and number that can be realistically installed in the vehicle 1 .
  • the in-vehicle sensor 26 can have one or more sensors among cameras, radar, seating sensors, steering wheel sensors, microphones, and biosensors.
  • the camera provided in the in-vehicle sensor 26 for example, cameras of various shooting methods capable of distance measurement, such as a ToF camera, a stereo camera, a monocular camera, and an infrared camera, can be used.
  • the camera included in the in-vehicle sensor 26 is not limited to this, and may simply acquire a photographed image regardless of distance measurement.
  • the biosensors included in the in-vehicle sensor 26 are provided, for example, on a seat, a steering wheel, or the like, and detect various biometric information of a passenger such as a driver.
  • the vehicle sensor 27 has various sensors for detecting the state of the vehicle 1 and can supply sensor data from each sensor to each part of the vehicle control system 11 .
  • the types and number of various sensors included in the vehicle sensor 27 are not particularly limited as long as the types and number are practically installable in the vehicle 1 .
  • the vehicle sensor 27 can have a speed sensor, an acceleration sensor, an angular velocity sensor (gyro sensor), and an inertial measurement unit (IMU (Inertial Measurement Unit)) integrating them.
  • the vehicle sensor 27 has a steering angle sensor that detects the steering angle of the steering wheel, a yaw rate sensor, an accelerator sensor that detects the amount of operation of the accelerator pedal, and a brake sensor that detects the amount of operation of the brake pedal.
  • the vehicle sensor 27 includes a rotation sensor that detects the number of rotations of an engine or a motor, an air pressure sensor that detects tire air pressure, a slip rate sensor that detects a tire slip rate, and a wheel speed sensor that detects the rotational speed of a wheel. have a sensor.
  • the vehicle sensor 27 has a battery sensor that detects the remaining battery level and temperature, and an impact sensor that detects external impact.
  • the storage unit 28 includes at least one of a nonvolatile storage medium and a volatile storage medium, and can store data and programs.
  • the storage unit 28 is used, for example, as EEPROM (Electrically Erasable Programmable Read Only Memory) and RAM (Random Access Memory), and as a storage medium, magnetic storage devices such as HDD (Hard Disc Drive), semiconductor storage devices, optical storage devices, And a magneto-optical storage device can be applied.
  • the storage unit 28 stores various programs and data used by each unit of the vehicle control system 11 .
  • the storage unit 28 has an EDR (Event Data Recorder) and a DSSAD (Data Storage System for Automated Driving), and stores information of the vehicle 1 before and after an event such as an accident and information acquired by the in-vehicle sensor 26. .
  • EDR Event Data Recorder
  • DSSAD Data Storage System for Automated Driving
  • the driving support/automatic driving control unit 29 can control driving support and automatic driving of the vehicle 1 .
  • the driving support/automatic driving control unit 29 has an analysis unit 61 , an action planning unit 62 , and an operation control unit 63 .
  • the analysis unit 61 can analyze the vehicle 1 and its surroundings.
  • the analysis unit 61 has a self-position estimation unit 71 , a sensor fusion unit 72 and a recognition unit 73 .
  • the self-position estimation unit 71 can estimate the self-position of the vehicle 1 based on the sensor data from the external recognition sensor 25 and the high-precision map accumulated in the map information accumulation unit 23. For example, the self-position estimation unit 71 generates a local map based on sensor data from the external recognition sensor 25, and estimates the self-position of the vehicle 1 by matching the local map and the high-precision map.
  • the position of the vehicle 1 can be based on, for example, the rear wheel-to-axle center.
  • a local map is, for example, a three-dimensional high-precision map created using techniques such as SLAM (Simultaneous Localization and Mapping), an occupancy grid map, or the like.
  • the three-dimensional high-precision map is, for example, the point cloud map described above.
  • the occupancy grid map is a map that divides the three-dimensional or two-dimensional space around the vehicle 1 into grids (lattice) of a predetermined size and shows the occupancy state of objects in grid units.
  • the occupancy state of an object is indicated, for example, by the presence or absence of the object and the existence probability.
  • the local map is also used, for example, by the recognizing unit 73 for detection processing and recognition processing of the situation outside the vehicle 1 .
  • the self-position estimation unit 71 may estimate the self-position of the vehicle 1 based on the position information acquired by the position information acquisition unit 24 and the sensor data from the vehicle sensor 27.
  • the sensor fusion unit 72 combines a plurality of different types of sensor data (for example, image data supplied from the camera 51 and sensor data supplied from the radar 52) to perform sensor fusion processing to obtain new information. be able to. Methods for combining different types of sensor data may include integration, fusion, federation, and the like.
  • the recognition unit 73 can execute a detection process for detecting the situation outside the vehicle 1 and a recognition process for recognizing the situation outside the vehicle 1 .
  • the recognition unit 73 performs detection processing and recognition processing of the situation outside the vehicle 1 based on information from the external recognition sensor 25, information from the self-position estimation unit 71, information from the sensor fusion unit 72, and the like. .
  • the recognition unit 73 performs detection processing and recognition processing of objects around the vehicle 1 .
  • Object detection processing is, for example, processing for detecting the presence or absence, size, shape, position, movement, and the like of an object.
  • Object recognition processing is, for example, processing for recognizing an attribute such as the type of an object or identifying a specific object.
  • the detection process and the recognition process are not always clearly separated, and may overlap.
  • the recognition unit 73 detects objects around the vehicle 1 by clustering the point cloud based on sensor data from the radar 52 or the LiDAR 53 or the like for each cluster of point groups. As a result, presence/absence, size, shape, and position of objects around the vehicle 1 are detected.
  • the recognizing unit 73 detects the movement of objects around the vehicle 1 by performing tracking that follows the movement of the cluster of points classified by clustering. As a result, the speed and traveling direction (movement vector) of the object around the vehicle 1 are detected.
  • the recognition unit 73 detects or recognizes vehicles, people, bicycles, obstacles, structures, roads, traffic lights, traffic signs, road markings, etc. based on image data supplied from the camera 51 . Further, the recognition unit 73 may recognize types of objects around the vehicle 1 by performing recognition processing such as semantic segmentation.
  • the recognition unit 73 based on the map accumulated in the map information accumulation unit 23, the estimation result of the self-position by the self-position estimation unit 71, and the recognition result of the object around the vehicle 1 by the recognition unit 73, Recognition processing of traffic rules around the vehicle 1 can be performed. Through this processing, the recognition unit 73 can recognize the position and state of traffic lights, the content of traffic signs and road markings, the content of traffic restrictions, the lanes in which the vehicle can travel, and the like.
  • the recognition unit 73 can perform recognition processing of the environment around the vehicle 1 .
  • the surrounding environment to be recognized by the recognition unit 73 includes the weather, temperature, humidity, brightness, road surface conditions, and the like.
  • the action plan section 62 creates an action plan for the vehicle 1.
  • the action planning unit 62 can create an action plan by performing route planning and route following processing.
  • trajectory planning is the process of planning a rough route from the start to the goal. This route planning is called trajectory planning, and in the planned route, trajectory generation (local path planning) that can proceed safely and smoothly in the vicinity of the vehicle 1 in consideration of the motion characteristics of the vehicle 1. It also includes the processing to be performed.
  • Route following is the process of planning actions to safely and accurately travel the route planned by route planning within the planned time.
  • the action planning unit 62 can, for example, calculate the target speed and the target angular speed of the vehicle 1 based on the result of this route following processing.
  • the motion control unit 63 can control the motion of the vehicle 1 in order to implement the action plan created by the action planning unit 62.
  • the operation control unit 63 controls a steering control unit 81, a brake control unit 82, and a drive control unit 83 included in the vehicle control unit 32, which will be described later, so that the vehicle 1 can control the trajectory calculated by the trajectory plan. Acceleration/deceleration control and direction control are performed so as to advance.
  • the operation control unit 63 performs cooperative control aimed at realizing ADAS functions such as collision avoidance or shock mitigation, follow-up driving, vehicle speed maintenance driving, collision warning of own vehicle, and lane deviation warning of own vehicle.
  • the operation control unit 63 performs cooperative control aimed at automatic driving in which the vehicle autonomously travels without depending on the operation of the driver.
  • the DMS 30 can perform driver authentication processing, driver state recognition processing, etc., based on sensor data from the in-vehicle sensor 26 and input data input to the HMI 31, which will be described later.
  • As the state of the driver to be recognized for example, physical condition, wakefulness, concentration, fatigue, gaze direction, drunkenness, driving operation, posture, etc. are assumed.
  • the DMS 30 may perform authentication processing for passengers other than the driver and processing for recognizing the state of the passenger. Further, for example, the DMS 30 may perform recognition processing of the situation inside the vehicle based on the sensor data from the sensor 26 inside the vehicle. Conditions inside the vehicle to be recognized include temperature, humidity, brightness, smell, and the like, for example.
  • the HMI 31 can input various data, instructions, etc., and present various data to the driver.
  • the HMI 31 has an input device for human input of data.
  • the HMI 31 generates an input signal based on data, instructions, etc. input from an input device, and supplies the input signal to each section of the vehicle control system 11 .
  • the HMI 31 has operating elements such as a touch panel, buttons, switches, and levers as input devices.
  • the HMI 31 is not limited to this, and may further have an input device capable of inputting information by a method other than manual operation using voice, gestures, or the like.
  • the HMI 31 may use, as an input device, a remote control device using infrared rays or radio waves, or an external connection device such as a mobile device or wearable device corresponding to the operation of the vehicle control system 11 .
  • the presentation of data by HMI31 will be briefly explained.
  • the HMI 31 generates visual information, auditory information, and tactile information for the passenger or outside the vehicle.
  • the HMI 31 performs output control for controlling the output, output content, output timing, output method, and the like of each generated information.
  • the HMI 31 generates and outputs visual information such as an operation screen, a status display of the vehicle 1, a warning display, an image such as a monitor image showing the situation around the vehicle 1, and information indicated by light.
  • the HMI 31 also generates and outputs information indicated by sounds such as voice guidance, warning sounds, warning messages, etc., as auditory information.
  • the HMI 31 generates and outputs, as tactile information, information given to the passenger's tactile sense by force, vibration, movement, or the like.
  • a display device that presents visual information by displaying an image by itself or a projector device that presents visual information by projecting an image can be applied.
  • the display device displays visual information within the passenger's field of view, such as a head-up display, a transmissive display, or a wearable device with an AR (Augmented Reality) function. It may be a device.
  • the HMI 31 can also use a display device provided in the vehicle 1, such as a navigation device, an instrument panel, a CMS (Camera Monitoring System), an electronic mirror, a lamp, etc., as an output device for outputting visual information.
  • Audio speakers, headphones, and earphones can be applied as output devices for the HMI 31 to output auditory information.
  • a haptic element using haptic technology can be applied as an output device for the HMI 31 to output tactile information.
  • a haptic element is provided at a portion of the vehicle 1 that is in contact with a passenger, such as a steering wheel or a seat.
  • the vehicle control unit 32 can control each unit of the vehicle 1.
  • the vehicle control unit 32 has a steering control unit 81 , a brake control unit 82 , a drive control unit 83 , a body system control unit 84 , a light control unit 85 and a horn control unit 86 .
  • the steering control unit 81 can detect and control the state of the steering system of the vehicle 1 .
  • the steering system has, for example, a steering mechanism including a steering wheel, an electric power steering, and the like.
  • the steering control unit 81 has, for example, a steering ECU that controls the steering system, an actuator that drives the steering system, and the like.
  • the brake control unit 82 can detect and control the state of the brake system of the vehicle 1 .
  • the brake system has, for example, a brake mechanism including a brake pedal, an ABS (Antilock Brake System), a regenerative brake mechanism, and the like.
  • the brake control unit 82 has, for example, a brake ECU that controls the brake system, an actuator that drives the brake system, and the like.
  • the drive control unit 83 can detect and control the state of the drive system of the vehicle 1 .
  • the drive system includes, for example, an accelerator pedal, a driving force generator for generating driving force such as an internal combustion engine or a driving motor, and a driving force transmission mechanism for transmitting the driving force to the wheels.
  • the drive control unit 83 has, for example, a drive ECU that controls the drive system, an actuator that drives the drive system, and the like.
  • the body system control unit 84 can detect and control the state of the body system of the vehicle 1 .
  • the body system includes, for example, a keyless entry system, smart key system, power window device, power seat, air conditioner, air bag, seat belt, shift lever, and the like.
  • the body system control unit 84 has, for example, a body system ECU that controls the body system, an actuator that drives the body system, and the like.
  • the light control unit 85 can detect and control the states of various lights of the vehicle 1 .
  • Lights to be controlled include, for example, headlights, backlights, fog lights, turn signals, brake lights, projections, bumper displays, and the like.
  • the light control unit 85 includes a light ECU for controlling lights, an actuator for driving lights, and the like.
  • the horn control unit 86 can detect and control the state of the car horn of the vehicle 1 .
  • the horn control unit 86 has, for example, a horn ECU for controlling the car horn, an actuator for driving the car horn, and the like.
  • FIG. 19 is a diagram showing an example of sensing areas by the camera 51, the radar 52, the LiDAR 53, the ultrasonic sensor 54, etc. of the external recognition sensor 25 in FIG. 19 schematically shows the vehicle 1 viewed from above, the left end side is the front end (front) side of the vehicle 1, and the right end side is the rear end (rear) side of the vehicle 1.
  • a sensing area 101F and a sensing area 101B are examples of sensing areas of the ultrasonic sensor 54.
  • FIG. The sensing area 101 ⁇ /b>F covers the periphery of the front end of the vehicle 1 with a plurality of ultrasonic sensors 54 .
  • the sensing area 101B covers the periphery of the rear end of the vehicle 1 with a plurality of ultrasonic sensors 54 .
  • the sensing results in the sensing area 101F and the sensing area 101B are used, for example, for parking assistance of the vehicle 1 and the like.
  • Sensing areas 102F to 102B show examples of sensing areas of the radar 52 for short or medium range.
  • the sensing area 102F covers the front of the vehicle 1 to a position farther than the sensing area 101F.
  • the sensing area 102B covers the rear of the vehicle 1 to a position farther than the sensing area 101B.
  • the sensing area 102L covers the rear periphery of the left side surface of the vehicle 1 .
  • the sensing area 102R covers the rear periphery of the right side surface of the vehicle 1 .
  • the sensing result in the sensing area 102F is used, for example, to detect vehicles, pedestrians, etc. existing in front of the vehicle 1.
  • the sensing result in the sensing area 102B is used for the rear collision prevention function of the vehicle 1, for example.
  • the sensing results in the sensing area 102L and the sensing area 102R are used, for example, to detect an object in a blind spot on the side of the vehicle 1, or the like.
  • Sensing areas 103F to 103B show examples of sensing areas by the camera 51 .
  • the sensing area 103F covers the front of the vehicle 1 to a position farther than the sensing area 102F.
  • the sensing area 103B covers the rear of the vehicle 1 to a position farther than the sensing area 102B.
  • the sensing area 103L covers the periphery of the left side surface of the vehicle 1 .
  • the sensing area 103R covers the periphery of the right side surface of the vehicle 1 .
  • the sensing results in the sensing area 103F can be used, for example, for recognition of traffic lights and traffic signs, lane departure prevention support systems, and automatic headlight control systems.
  • a sensing result in the sensing area 103B can be used for parking assistance and a surround view system, for example.
  • Sensing results in the sensing area 103L and the sensing area 103R can be used, for example, in a surround view system.
  • the sensing area 104 shows an example of the sensing area of the LiDAR53.
  • the sensing area 104 covers the front of the vehicle 1 to a position farther than the sensing area 103F.
  • the sensing area 104 has a narrower lateral range than the sensing area 103F.
  • the sensing results in the sensing area 104 are used, for example, to detect objects such as surrounding vehicles.
  • a sensing area 105 shows an example of a sensing area of the long-range radar 52 .
  • the sensing area 105 covers the front of the vehicle 1 to a position farther than the sensing area 104 .
  • the sensing area 105 has a narrower lateral range than the sensing area 104 .
  • the sensing results in the sensing area 105 are used, for example, for ACC (Adaptive Cruise Control), emergency braking, and collision avoidance.
  • ACC Adaptive Cruise Control
  • emergency braking emergency braking
  • collision avoidance collision avoidance
  • the sensing regions of the cameras 51, the radar 52, the LiDAR 53, and the ultrasonic sensors 54 included in the external recognition sensor 25 may have various configurations other than those shown in FIG. Specifically, the ultrasonic sensor 54 may also sense the sides of the vehicle 1 , and the LiDAR 53 may sense the rear of the vehicle 1 . Moreover, the installation position of each sensor is not limited to each example mentioned above. Also, the number of each sensor may be one or plural.
  • the technology of the present disclosure can be applied to, for example, the camera 51, the LiDAR 53, and the like.
  • the technology of the present disclosure to the sensor fusion unit 72 that processes data from the camera 51 and the LiDAR 53 of the vehicle control system 11, it is possible to calibrate the internal parameters or external parameters of the camera 51 and the LiDAR 53. Become.
  • the above-described embodiment of the present disclosure includes, for example, a program (model) for causing a computer to function as an information processing apparatus according to the present embodiment, and a non-temporary tangible medium on which the program (model) is recorded. sell. Further, in the embodiment of the present disclosure, the program (model) may be distributed via communication lines (including wireless communication) such as the Internet.
  • each step in the processing of the embodiment of the present disclosure described above does not necessarily have to be processed in the described order.
  • each step may be processed in an appropriately changed order.
  • each step may be partially processed in parallel or individually instead of being processed in chronological order.
  • the processing method of each step does not necessarily have to be processed in accordance with the described method, for example, it may be processed by other functional units in other methods. .
  • the configuration described as one device may be divided and configured as a plurality of devices.
  • the configurations described above as a plurality of devices may be collectively configured as a single device.
  • part of the configuration of one device may be included in the configuration of another device as long as the configuration and operation of the system as a whole are substantially the same.
  • the system means a set of a plurality of components (apparatuses, modules (parts), etc.), and it does not matter whether or not all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules within a single housing, are both understood as a system. be done.
  • a learning device that acquires feature points and feature amounts common to a plurality of images and generates a model for matching the common feature points
  • the learning device includes one image of a first image acquired from a first imaging unit and a second image acquired from a second imaging unit, and an image different from the one image.
  • a projection image obtained from the unit and projected is input as a pair of input data, Information processing equipment.
  • the learning device includes another pair of input data consisting of the first image and the first projection image, and another pair of input data consisting of the second image and the second projection image.
  • the learner is an encoder unit that dimensionally compresses the pair of input data; a detector unit that detects the feature points from the pair of compressed input data; a feature quantity acquisition unit that acquires the feature quantity from the pair of compressed input data;
  • the information processing apparatus according to any one of (2) to (4) above, including (6)
  • the learner is comparing the feature points output from the detector unit with the feature points of teacher data, Comparing a plurality of the feature values from the pair of input data output from the feature value acquisition unit;
  • the encoder section a first encoder unit to which the first image and the first projected image are input; a second encoder unit to which the second image and the second projected image are input; including, The information processing apparatus according to (6) above.
  • (8) further comprising a teacher data generation unit that generates the teacher data, The training data generation unit obtaining a likelihood map of the feature points from the first and second images and the first and second projected images; merging the likelihood maps; The information processing apparatus according to (6) or (7) above.
  • the learning by cutting out the first wide-area image acquired from the first imaging unit and the second wide-area image acquired from the second imaging unit so that they are images from the same viewpoint. Further comprising an image processing unit that generates an image for input to the device, The information processing apparatus according to any one of (1) to (9) above. (11) (10) above, further comprising a mask unit comprising a convolutional neural network that generates a mask of noise in the wide-area images based on the first wide-area image and the second wide-area image whose alignment has been adjusted. The information processing device described. (12) Any one of (1) to (11) above, further comprising a feature point extraction unit that obtains feature points and feature amounts in the plurality of images using the model, and performs matching of the common feature points.
  • the information processing device according to . (13) (12) above, wherein the feature point extraction unit acquires feature points and feature amounts in the first and second images newly acquired from the different imaging units, and performs matching of the common feature points; The information processing device described. (14) The feature point extracting unit acquires feature points and feature amounts in the plurality of newly acquired first images or the plurality of second images, and performs matching of the common feature points. ). (15) calibration of parameters relating to the first and second imaging units based on a positional relationship between a first imaging unit that acquires the first image and a second imaging unit that acquires the second image; It is further equipped with a calibration unit that performs The calibration unit performs calibration using the position information of the matched feature points.
  • the information processing apparatus according to any one of (12) to (14) above.
  • the first imaging unit consists of a LiDAR or ToF sensor
  • the second imaging unit is composed of an image sensor
  • the information processing apparatus according to any one of (1) to (15) above.
  • the information processing device is A learning device that acquires feature points and feature amounts common to a plurality of images and generates a model for matching the common feature points, One of a first image acquired from the first imaging unit and a second image acquired from the second imaging unit, and the one image in the learning device Projection images acquired from different imaging units and projected are input as a pair of input data, Information processing system.
  • a model that causes a computer to function so as to acquire feature points and feature amounts common to a plurality of images and match the common feature points, an information processing device configured to capture one image of a first image acquired from a first imaging unit and a second image acquired from a second imaging unit and an imaging unit different from the one image; Obtained from and obtained by machine learning a projected image as a pair of input data, model.
  • a method of generating a model for acquiring feature points and feature amounts common to a plurality of images and generating a model for matching the common feature points comprising: an information processing device configured to capture one image of a first image acquired from a first imaging unit and a second image acquired from a second imaging unit and an imaging unit different from the one image; Generating the model by machine learning the projected image obtained from and projected as a pair of input data, How the model is generated.
  • Vehicle 10 Information Processing System 11 Vehicle Control System 21

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器(370)を備え、前記学習器には、第1の撮像部から取得された第1の画像、及び、第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、情報処理装置を提供する。

Description

情報処理装置、情報処理システム、モデル及びモデルの生成方法
 本開示は、情報処理装置、情報処理システム、モデル及びモデルの生成方法に関する。
 近い将来、自動運転技術を利用した移動体(例えば、自動走行車)や高度な知的ロボットが日常的に使用されると考えられ、当該移動体やロボットには、周囲の環境を撮像する複数のセンサが搭載されることが想定される。このような背景から、複数のセンサから得られたセンシングデータを利用するセンサフュージョン技術の1つとして、これら複数のセンサの情報を正確に、且つ、容易に位置合わせするための技術がさらに求められている。
Daniel DeTone、Tomasz Malisiewicz、Andrew Rabinovich、SuperPoint:Self-Supervised Interest Point Detection and Description、Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR)Workshops、2018、pp.224-236
 しかしながら、複数のセンサの情報を正確に、且つ、容易に位置合わせするための従来技術においては、同一の種のセンサから得られる画像間での特徴点マッチングを行うことを前提にしている。従って、従来技術では、種類が異なるセンサから得られる画像間での特徴点マッチングを精度よく行うことが難しかった。
 そこで、本開示では、種類の異なるセンサから得られる画像間での特徴点マッチングを精度よく行うことができる、情報処理装置、情報処理システム、モデル及びモデルの生成方法を提案する。
 本開示によれば、複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、前記学習器には、第1の撮像部から取得された第1の画像、及び、第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、情報処理装置が提供される。
 また、本開示によれば、第1の撮像部と、第2の撮像部と、情報処理装置と、を含み、前記情報処理装置は、複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、前記学習器には、前記第1の撮像部から取得された第1の画像、及び、前記第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、情報処理システムが提供される。
 また、本開示によれば、複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするように、コンピュータを機能させるモデルであって、第1の撮像部から取得された第1の画像、及び、第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより得らえる、モデルが提供される。
 さらに、本開示によれば、複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成するように、コンピュータを機能させるためのモデルの生成方法であって、第1の撮像部から取得された第1の画像、及び、第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより、前記モデルを生成する、モデルの生成方法が提供される。
本開示の実施形態に係る情報処理システム10の構成例を説明する説明図である。 本開示の実施形態に係る情報処理装置300の構成の一例を示すブロック図(その1)である。 本開示の実施形態に係る情報処理方法の一例を説明するフローチャート(その1)である。 本開示の実施形態に係る情報処理方法の一例を説明するフローチャート(その2)である。 本開示の実施形態を創作するに至る背景を説明する説明図である。 本開示の実施形態に係る情報処理方法の一例を説明するフローチャート(その3)である。 本開示の実施形態に係る入力データの一例を説明する説明図である。 本開示の実施形態に係る情報処理装置300の構成の一例を示すブロック図(その2)である。 本開示の実施形態に係るマスクの生成の一例を説明する説明図である。 本開示の実施形態に係る情報処理装置300の構成の一例を示すブロック図(その3)である。 本開示の実施形態に係る正解ラベルの生成の一例を説明する説明図(その1)である。 本開示の実施形態に係る正解ラベルの生成の一例を説明する説明図(その2)である。 本開示の実施形態に係る情報処理装置300の構成の一例を示すブロック図(その4)である。 本開示の実施形態に係る学習部370の構成の一例を示すブロック図である。 本開示の実施形態に係る学習の一例を説明する説明図(その1)である。 本開示の実施形態に係る学習の一例を説明する説明図(その2)である。 情報処理装置300の機能を実現するコンピュータの一例を示すハードウェア構成図である。 車両制御システムの構成例を示すブロック図である。 センシング領域の例を示す図である。
 以下に、添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。また、本明細書及び図面において、実質的に同一又は類似の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、実質的に同一又は類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
 なお、以下の説明においては、特徴点とは、画像内の被写体の中心点、分岐点、交差点及び輪郭上の端点等、被写体の形状等の特徴が示されている個所及びその座標情報のことをいう。さらに、特徴量とは、上記特徴点の特徴を数値化して示すことができる、例えば、特徴点の、形状、向き及び広がり等の情報のことをいう。
 なお、説明は以下の順序で行うものとする。
1. 本開示の実施形態を創作するに至る背景
   1.1 情報処理システムの概要
   1.2 情報処理装置の詳細構成
   1.3 情報処理方法
   1.4 背景
2. 実施形態
   2.1 情報処理方法
   2.2 入力データの生成
   2.3 正解ラベルの生成
   2.4 学習
3. まとめ
4. ハードウェア構成について
5. 応用例
6. 補足
 <<1. 本開示の実施形態を創作するに至る背景>>
 まずは、本開示の実施形態を説明する前に、本発明者が本開示の実施形態を創作するに至る背景について説明する。
 先に説明したように、近い将来、自動運転技術を利用した移動体(例えば、自動走行車)や高度な知的ロボットが日常的に使用されると考えられ、当該移動体やロボットには、周囲の環境を撮像する複数のセンサが搭載されることが想定される。このような背景から、複数のセンサから得られたセンシングデータを利用するセンサフュージョン技術の1つとして、これら複数の異なる種類のセンサを正確に、且つ、容易に位置合わせするための技術がさらに求められている。まずは、このような技術が用いられることとなる情報処理システムの概要を説明する。
 <1.1 情報処理システムの概要>
 まずは、本開示の実施形態に係る情報処理システム10の概略について、図1を参照して説明する。図1は、本実施形態に係る情報処理システム10の構成例を説明する説明図である。
 図1に示すように、本実施形態に係る情報処理システム10は、LiDAR(Light Detection and Ranging)(第1の撮像部)100と、カメラ(第2の撮像部)と、情報処理装置300とを含み、これらは互いにネットワークを介して通信可能に接続される。詳細には、当該ネットワークで用いられる通信方式は、有線又は無線(例えば、WiFi(登録商標)、Bluetooth(登録商標)等)を問わず任意の方式を適用することができるが、安定した動作を維持することができる通信方式を用いることが望ましい。なお、LiDAR100と、カメラと、情報処理装置300とは、図示しない基地局等(例えば、携帯電話機の基地局、無線LAN(Local Area Network)のアクセスポイント等)を介してネットワークに接続されてもよい。以下、本実施形態に係る情報処理システム10に含まれる各装置の概要について順次説明する。
 (LiDAR100)
 LiDAR100は、レーザー光を、走査しながら被写体に照射してその散乱や反射光を観測することで、被写体までの距離(相対座標)を計測したり、被写体の形状を特定したりすることができる。本明細書においては、LiDAR100で取得した反射光による画像を、反射強度画像(第1の画像)と呼ぶ。なお、本開示の実施形態においては、LiDAR100の代わりに、ToF(Time of Flight)センサ(図示省略)を用いてもよい。ToFセンサも、パルス光を被写体に照射して、当該被写体によって反射された光の戻り時間等を観測することで、被写体までの距離を計測したり、被写体の形状を特定したりすることができる。
 (カメラ200)
 カメラ200は、被写体からの放射光に基づく、被写体の画像を取得するために、被写体からの放射光を検出し、画像信号を出力することができるイメージセンサである。詳細には、カメラ200は、RGBイメージセンサからなり、具体的には、可視光である、青色光、緑色光、赤色光をそれぞれ検出することができる複数の画素がBayer配列に従って配列するカラー撮影可能なイメージセンサである。本明細書においては、カメラ200で取得した可視光による画像を、可視光画像(第2の画像)と呼ぶ。なお、本実施形態においては、RGBイメージセンサの代わりに、単色(モノクローム)のイメージセンサを用いてもよい。
 (情報処理装置300)
 情報処理装置300は、例えば、コンピュータ等により構成される。情報処理装置300は、例えば、LiDAR100やカメラ200で取得した画像を処理したり、当該処理により得られた画像等を他のデバイスに出力したりする。また、情報処理装置300は、LiDAR100やカメラ200の位置合わせ(キャリブレーション)を行ったりすることができる。なお、情報処理装置300の詳細については後述する。
 なお、本実施形態においては、情報処理装置300は、複数の装置から構成されていてもよく、特に限定されるものではない。
 なお、図1においては、本実施形態に係る情報処理システム10は、1つのLiDAR100及びカメラ200を含むものとして示されているが、本実施形態においてはこれに限定されるものではない。例えば、本実施形態に係る情報処理システム10は、複数のLiDAR100及びカメラ200を含んでもよい。さらに、本実施形態に係る情報処理システム10は、例えば、特定の波長の光を観測して画像を生成する他のイメージセンサを含んでもよく、特に限定されるものではない。
 <1.2 情報処理装置の詳細構成>
 次に、本実施形態に係る情報処理装置300の詳細構成について、図2を参照して説明する。図2は、本実施形態に係る情報処理装置300の構成の一例を示すブロック図である。ここでは、情報処理装置300の、LiDAR100やカメラ200の位置合わせを行う機能を中心に説明する。先に説明したように、情報処理装置300は、例えばコンピュータ等により構成される。詳細には、図2に示すように、情報処理装置300は、反射強度画像取得部302と、可視光画像取得部304と、反射強度画像処理部306と、可視光画像処理部308と、特徴点取得部310と、位置情報取得部312と、キャリブレーション部314とを主に有する。以下に、情報処理装置300の各機能部の詳細について順次説明する。
 (反射強度画像取得部302)
 反射強度画像取得部302は、LiDAR100からの反射強度画像のデータを取得し、後述する反射強度画像処理部306へ出力する。
 (可視光画像取得部304)
 可視光画像取得部304は、カメラ200からの可視光画像のデータを取得し、後述する可視光画像処理部308へ出力する。
 (反射強度画像処理部306)
 反射強度画像処理部306は、反射強度画像取得部302からの反射強度画像データから、所定の位置(視点)、所定のサイズ、且つ、所定の視野角(FOV)となるように画像を切り取り、入力データとなる反射強度画像を生成する。さらに、反射強度画像処理部306は、生成した反射強度画像を後述する特徴点取得部310へ出力する。この際、反射強度画像処理部306は、画像中の光学的な歪みや、明るさ調整(ゲイン調整)やコントラスト調整(ガンマ調整)を行ってもよい。
 (可視光画像処理部308)
 可視光画像処理部308は、可視光画像取得部304からの可視光画像データから、所定の位置(視点)、所定のサイズ、且つ、所定の視野角(FOV)となるように画像を切り取り、入力データとなる可視光画像を生成する。さらに、可視光画像処理部308は、生成した可視光画像を後述する特徴点取得部310へ出力する。この際、可視光画像処理部308は、画像中の光学的な歪みや、明るさ調整(ゲイン調整)やコントラスト調整(ガンマ調整)を行ってもよい。
 (特徴点取得部310)
 特徴点取得部310は、後述する本実施形態に係るモデルを用いて、複数の画像における特徴点及び特徴量を取得し、取得した特徴点及び特徴量に基づき、複数の画像間に共通する前特徴点のマッチングを行うことができる。例えば、以下に説明する本実施形態においては、特徴点取得部310は、反射強度画像と可視光画像との間で特徴点のマッチングを行うこともでき、さらには、複数の反射強度画像間、又は、複数の可視光画像間でも特徴点のマッチングを行うことができる。ただし、ここでは、LiDAR100とカメラ200とを位置合わせする場合での使用について説明しているため、可視光画像と反射強度画像との間に共通する特徴点のマッチングについてのみ説明する。そして、特徴点取得部310は、マッチングされた特徴点(画像内の座標情報等)の情報を、後述するキャリブレーション部314に出力する。例えば、本実施形態におけるマッチングにおいては、各特徴点の特徴量として、ノルムを算出し、複数の画像間で互いに距離が最小となる特徴点をマッチングする。なお、本実施形態に係るモデルの生成の詳細については、後述する。
 (位置情報取得部312)
 位置情報取得部312は、LiDAR100によって検出された、照射した光が被写体によって反射され戻ってくる時間に基づき、被写体までの距離や被写体の相対位置座標を取得し、取得した距離等を後述するキャリブレーション部314に出力することができる。なお、本実施形態においては、上記距離等の算出は、LiDAR100で行われてもよい。
 (キャリブレーション部314)
 キャリブレーション部314は、LiDAR100とカメラ200との間の空間的差異(位置関係)及び光学的な差異をキャリブレーション(補正)することができる。例えば、キャリブレーション部314は、LiDAR100とカメラ200とが配置された位置の間の差(視差、被写体までの距離)や、LiDAR100とカメラ200との、画角の違いやレンズ収差に基づいて、LiDAR100とカメラ200とから出力される画像における位置情報の差分(ずれ)をなくすように、LiDAR100とカメラ200との外部パラメータ(位置パラメータ)、及び/又は、内部パラメータ(光学的パラメータ)を補正する。この際、キャリブレーション部314は、上述した特徴点取得部310でマッチングされた特徴点の、上述した位置情報取得部312による位置情報(グローバル座標系又は相対座標系での座標情報)を用いて、補正を行うことができる。
 なお、本実施形態においては、情報処理装置300の構成は、図2に示されるものに限定されるものではなく、例えば、図示しない機能ブロック等がさらに含まれていてもよい。
 <1.3 情報処理方法>
 次に、図3及び図4を参照して、本開示の実施形態に係る情報処理方法について説明する。ここでは、情報処理装置300によって実行される、LiDAR100やカメラ200の位置合わせを行う処理について説明する。図3及び図4は、本実施形態に係る情報処理方法の一例を説明するフローチャートである。
 詳細には、図3に示すように、本実施形態に係る情報処理方法は、ステップS100からステップS400までの複数のステップを主に含むことができる。以下に、本実施形態に係るこれら各ステップの詳細について順次説明する。
 まずは、情報処理装置300は、カメラ200から1つ又は複数の可視光画像を収集する(ステップS100)。次に、情報処理装置300は、LiDARから1つ又は複数の反射強度画像を収集する(ステップS200)。
 そして、情報処理装置300は、上述したステップS100及びステップS200で収集した可視光画像及び反射強度画像における特徴点及び特徴量を取得し、取得した特徴点及び特徴量に基づき、可視光画像と反射強度画像との間に共通する特徴点のマッチングを行う(ステップS300)。さらに、情報処理装置300は、LiDAR100とカメラ200との間の空間的差異(位置関係)及び光学的な差異をキャリブレーション(補正)する(ステップS400)。この際、情報処理装置300は、マッチングされた特徴点の位置情報(グローバル座標系又は相対座標系での座標情報)を用いて、補正することができる。
 さらに、詳細には、図3のステップS300は、図4に示すステップS301からステップS303までの複数のステップを主に含むことができる。以下に、これら各ステップの詳細について順次説明する。
 まずは、情報処理装置300は、後述する本実施形態に係るモデルを用いて、ステップS100で収集した可視光画像から、特徴点及び特徴量を取得する(ステップS301)。次に、情報処理装置300は、上記モデルを用いて、ステップS200で収集した反射強度画像から、特徴点及び特徴量を取得する(ステップS302)。
 情報処理装置300は、上述したステップS301及びステップS302で取得した特徴点及び特徴量に基づき、反射強度画像と可視光画像との間で特徴点のマッチングを行う(ステップS303)。例えば、情報処理装置300は、各特徴点の特徴量として、ノルムを算出し、画像間で互いに距離が最小となる特徴点を共通する特徴点としてマッチングする。
 なお、図3及び図4に示すフローは、本実施形態に係る情報処理の一例であり、本実施形態に係る情報処理は、これに限定されるものではない。
 <1.4 背景>
 次に、図5を参照して、本発明者が本開示の実施形態を創作するに至る背景について説明する。図5は、本実施形態を創作するに至る背景を説明する説明図である。
 先に説明したように、複数のセンサから得られたセンシングデータを利用するセンサフュージョン技術の1つとして、これら複数のセンサを正確に、且つ、容易に位置合わせするための技術がさらに求められている。このような技術として、LiDAR100とカメラ200とで取得された画像間で特徴点マッチングを行うことが挙げられる。
 例えば、Scale-Invariant Feature Transform(SIFT)は、特徴点検出及び特徴量記述のアルゴリズムの1つあり、Laplacian of Gaussian(LoG)を近似したDifferences of Gaussian(DoG)を用いて畳み込んだ平滑化画像の差分から特徴点を検出し、その周辺の画素情報から得られる128次元の勾配ベクトルを特徴量として記述する。SIFTでは、検出した特徴点に対して、画像の回転・スケール変化・照明変化等に対してロバストに特徴量を記述することができるため、イメージモザイク等の画像のマッチングや物体認識・検出に用いることができる。しかしながら、SIFTは、人間が考えるルールベースのアルゴリズムからなるハンドクラフト的な手法であり、煩雑である。
 「Superpoint:Self-supervised interest point detection and description」は、特徴点検出及び特徴量記述を行う、機械学習を利利用したアルゴリズムの1つである。Superpointにおいては、ある画像に対し、そのままの画像とランダムな射影を加えた画像とからなるペアを入力データとしてディープニューラルネットワーク(DNN)に入力する。そして、Superpointでは、特徴点に関しては正解ラベル(教師データ)によって学習し、特徴量に関してはペアの画像間において位置が対応する画素間で似たベクトルが算出されるように学習を行うことで、複数の画像間の共通する特徴点をマッチングするアルゴリズム(モデル)を生成することができる。
 こうした従来技術は、同一の種類のセンサから得られる画像間での特徴点マッチングを行うことを前提にしており、拡大・縮小、回転などの射影に対してはロバストな特徴を持つ。しかしながら、従来技術は、LiDAR100とカメラ200といった異なるセンサ(異なるドメイン)から得られる画像間での特徴点マッチングでは、図5に示されるように、反射強度画像400と可視光画像500とでマッチングする特徴点(図中丸で示される)が精度よく検出できなかったり、反射強度画像400と可視光画像500との間で共通する特徴点をマッチングできなかったりと、その精度が落ちる。
 そこで、本発明者は、このような状況を鑑みて、以下に説明する本開示の実施形態を創作するに至った。本発明者が創作した本開示の実施形態においては、異なる種類のセンサから得られた複数の画像(具体的には、反射強度画像と可視光画像と)に共通する特徴点及び特徴量を取得し、共通する特徴点をマッチングするためのモデル(アルゴリズム)を、ディープニューラルネットワーク(DNN)により生成する。その際、DNNは、大量の反射強度画像及び可視光画像だけでなく、これら画像を射影した画像を、入力データとして用いて機械学習する。このような本開示の実施形態によれば、異なる種類のセンサから得られた画像であっても、精度よく、且つ、容易に、特徴点のマッチングを可能にするモデル(アルゴリズム)を得ることができる。以下、本発明者が創作した本開示の実施形態の詳細を説明する。
 <<2. 実施形態>>
 <2.1 情報処理方法>
 まずは、異なるセンサから得られた反射強度画像400と可視光画像500とから特徴点及び特徴量を取得し、共通する特徴点をマッチングするためのモデル(アルゴリズム)を生成する、大まかな処理の流れを説明する。なお、ここでは、上述した情報処理装置300がモデルを生成するものとして説明するが、本実施形態においては、情報処理装置300とは異なる情報処理装置(図示省略)で行われてもよく、特に限定されるものではない。
 図6を参照して、本開示の実施形態に係る情報処理方法であって、モデルを生成するための処理方法について説明する。図6は、本実施形態に係る情報処理方法の一例を説明するフローチャートである。詳細には、図6に示すように、本実施形態に係る情報処理方法は、ステップS500からステップS900までの複数のステップを主に含むことができる。以下に、本実施形態に係るこれら各ステップの詳細について順次説明する。
 まずは、情報処理装置300は、カメラ200から1つ又は複数の可視光画像500を収集する(ステップS500)。次に、情報処理装置300は、LiDARから1つ又は複数の反射強度画像400を収集する(ステップS600)。
 そして、情報処理装置300は、上述したステップS500及びステップS600で収集した、同一視点の可視光画像500と反射強度画像400とを用いて、入力データとなるペアを生成する(ステップS700)。
 次に、情報処理装置300は、可視光画像500と反射強度画像400とで共通する正解ラベル(教師データ)を生成する(ステップS800)。
 さらに、情報処理装置300は、可視光画像500と反射強度画像400とをランダムに射影させながら機械学習を行う(ステップS900)。
 以下、ステップS700からステップS900の、入力データの生成、正解ラベルの生成、学習の各ステップの詳細について、順次説明する。
 <2.2 入力データの生成>
 図7を参照して、本実施形態の入力データの生成の詳細について説明する。図7は、本実施形態に係る入力データの一例を説明する説明図である。本実施形態においては、先に説明したように、ステップS700にて、入力データとなる反射強度画像404と可視光画像504とのペアを生成する。この際、本実施形態においては、図7に示すように、LiDAR100とカメラ200とから、広域の画像である反射強度パノラマ画像(第1の広域画像)402と可視光パノラマ画像(第2の広域画像)502とを使用する。
 詳細には、情報処理装置300は、これら反射強度パノラマ画像402及び可視光パノラマ画像502のそれぞれから、同一位置(同一視点)、同一サイズ、且つ、同一視野角(FOV)となるように画像を切り取る。この際、情報処理装置300は、画像中の光学的な歪み等を補正してもよい。このようにすることで、情報処理装置300は、反射強度画像404と可視光画像504とのペアからなる入力データ704を生成することができる。本実施形態によれば、パノラマ画像から切り取ることで、入力データを生成することにより、ずれの少ない反射強度画像404と可視光画像504とのペアを大量に、且つ、容易に生成することができる。
 反射強度パノラマ画像402及び可視光パノラマ画像502中に、動く被写体によるノイズ(図中では、車両の像)や、反射強度パノラマ画像402と可視光パノラマ画像502との取得時間差による整合性が欠如している個所であるノイズ等が存在することがある。そこで、本実施形態においては、このようなノイズを機械学習の対象にしないようにするために、反射強度パノラマ画像402及び可視光パノラマ画像502のノイズ部分を覆うマスクを含むマスク画像602を生成する。そして、本実施形態においては、生成したマスク画像602から、同一位置(同一視点)、同一サイズ、且つ、同一視野角(FOV)となるように画像を切り取ることにより、入力データ704に含まれる反射強度画像404及び可視光画像504と対となる、マスク画像604を生成する。本実施形態によれば、このようなマスクを用いて、整合性の欠如した個所を機械学習の対象から外すことにより、機械学習の精度や効率をより向上させることができる。
 次に、本実施形態に係る情報処理装置300の詳細構成について、図8及び図9を参照して説明する。図8は、本実施形態に係る情報処理装置300の構成の一例を示すブロック図であり、図9は、本実施形態に係るマスクの生成の一例を説明する説明図である。ここでは、情報処理装置300の、モデルの生成のうち、入力データの生成段階に関わる機能を中心に説明する。詳細には、図8に示すように、情報処理装置300は、反射強度画像取得部322と、可視光画像取得部324と、反射強度画像処理部(画像処理部)326と、可視光画像処理部(画像処理部)328と、マスク生成部(マスク部)330と、入力データ生成部332とを主に有する。以下に、情報処理装置300の各機能部の詳細について順次説明する。
 (反射強度画像取得部322)
 反射強度画像取得部322は、LiDAR100からの反射強度パノラマ画像(第1の広域画像)402のデータを取得し、後述する反射強度画像処理部326及びマスク生成部330へ出力する。
 (可視光画像取得部324)
 可視光画像取得部324は、カメラ200からの可視光パノラマ画像(第2の広域画像)502のデータを取得し、後述する可視光画像処理部328及びマスク生成部330へ出力する。
 (反射強度画像処理部326)
 反射強度画像処理部326は、反射強度画像取得部322からの反射強度パノラマ画像402から、所定の位置(視点)、所定のサイズ、且つ、所定の視野角(FOV)となるように画像を切り取り、入力データ704となる反射強度画像404を生成する。さらに、反射強度画像処理部326は、生成した反射強度画像404を後述する入力データ生成部332へ出力する。また、反射強度画像処理部326は、画像中の光学的な歪みや、明るさ調整(ゲイン調整)やコントラスト調整(ガンマ調整)を行ってもよい。
 (可視光画像処理部328)
 可視光画像処理部328は、可視光画像取得部324からの可視光パノラマ画像502から、所定の位置(視点)、所定のサイズ、且つ、所定の視野角(FOV)となるように画像を切り取り、入力データ704となる可視光画像504を生成する。さらに、可視光画像処理部328は、生成した可視光画像504を後述する入力データ生成部332へ出力する。また、可視光画像処理部328は、画像中の光学的な歪みや、明るさ調整(ゲイン調整)やコントラスト調整(ガンマ調整)を行ってもよい。
 (マスク生成部330)
 本実施形態においては、上記マスク画像602の生成は、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)によって、自動的に行う。このようにすることで、本実施形態によれば、容易に、且つ、大量に、マスク画像602、604を生成し、ひいては入力データ704を生成することができる。詳細には、マスク生成部330は、図9に示すように、CNN等からなり、位置合わせされた(アライメントが調整された)反射強度パノラマ画像402及び可視光パノラマ画像502を入力データとして、マスク画像602を生成する。さらに、マスク生成部330は、生成したマスク画像602から、所定の位置(視点)、所定のサイズ、且つ、所定の視野角(FOV)となるように画像を切り取り、入力データ704となるマスク画像604を生成し、後述する入力データ生成部332へ出力する。例えば、CNN330は、例えば、被写体を1つのBOXの塊と捉え、当該BOXの中心点の位置座標とその画像特徴量とで被写体を表現し、被写体認識を行うような「Objects as Points」等の被写体検出アルゴリズムを使用することで、マスク画像602を生成することができる。このように、本実施形態においては、整合性の欠如した個所を機械学習の対象から外すためのマスクを自動的に生成することができる。
 (入力データ生成部332)
 入力データ生成部332は、上述した反射強度画像処理部326、可視光画像処理部328及びマスク生成部330から出力された、同一位置(同一視点)、同一サイズ、且つ、同一視野角(FOV)の反射強度画像404、可視光画像504及びマスク画像604を1つのグループ(ペア)の入力データ704として、後述する機能部(詳細には、図10及び図13に示される反射強度画像取得部342、362及び可視光画像取得部344、364)へ出力する。なお、本実施形態においては、反射強度画像404及び可視光画像504に、ノイズが存在しない場合には、マスク画像604は、入力データのグループに含まれていなくてもよい。
 なお、本実施形態においては、情報処理装置300の、モデルの生成のうち、入力データ704の生成段階に関わる機能のブロックについては、図8に示されるような構成に限定されるものではない。
 <2.3 正解ラベルの生成>
 次に、本実施形態の正解ラベル(教師データ)の生成の詳細について説明する。1つの画像には、特徴点が数10個から数100個存在する。従って、機械学習のための正解ラベルを生成する際には、正解ラベルとなる特徴点を手動で1つずつ検出することは現実的ではない。そこで、本実施形態においては、DNN等を用いて自動的に正解ラベルを生成する。
 まずは、本実施形態に係る情報処理装置300の詳細構成について、図10を参照して説明する。図10は、本実施形態に係る情報処理装置300の構成の一例を示すブロック図である。ここでは、情報処理装置300の、モデルの生成のうち、正解ラベル(教師データ)の生成段階に関わる機能を中心に説明する。詳細には、図10に示すように、情報処理装置300は、反射強度画像取得部342と、可視光画像取得部344と、反射強度画像射影部346と、可視光画像射影部348と、正解ラベル生成部(教師データ生成部)350とを主に有する。以下に、情報処理装置300の各機能部の詳細について順次説明する。
 (反射強度画像取得部342)
 反射強度画像取得部342は、図8の入力データ生成部332から、反射強度画像404とマスク画像604とを取得し、後述する反射強度画像射影部346へ出力する。なお、本実施形態においては、反射強度画像取得部342は、反射強度画像404にノイズが存在しない場合には、マスク画像604を取得及び出力しなくてもよい。
 (可視光画像取得部344)
 可視光画像取得部344は、図8の入力データ生成部332から、可視光画像504とマスク画像604とを取得し、後述する可視光画像射影部358へ出力する。なお、本実施形態においては、可視光画像取得部344は、可視光画像504にノイズが存在しない場合には、マスク画像604を取得及び出力しなくてもよい。
 (反射強度画像射影部346)
 反射強度画像射影部346は、取得した反射強度画像404(必要に応じてマスク画像604)を、ランダムに回転させたり、左右、上下、斜めに視点ずらしたりすることで、射影を行う。例えば、反射強度画像射影部346は、ランダムに与えるホモグラフィ行列Hによって射影を行うことができる。そして、反射強度画像射影部346は、射影によって得らえた射影反射強度画像(第1の射影画像)を、反射強度画像404とともに後述する正解ラベル生成部350へ出力する。
 (可視光画像射影部348)
 可視光画像射影部348は、取得した可視光画像504(必要に応じてマスク画像604)を、ランダムに回転させたり、左右、上下、斜めに視点ずらしたりすることで、射影を行う。例えば、可視光画像射影部348は、ランダムに与えるホモグラフィ行列Hによって射影を行うことができる。そして、可視光画像射影部348は、射影によって得らえた射影可視光画像(第2の射影画像)を、可視光画像504とともに後述する正解ラベル生成部350へ出力する。
 (正解ラベル生成部350)
 正解ラベル生成部350は、後述する学習部370(図13 参照)で使用する正解ラベル(教師データ)を生成する。例えば、正解ラベル生成部350は、射影反射強度画像及び反射強度画像404と、射影可視光画像及び可視光画像504とを用いて、反射強度画像404及び可視光画像504の特徴点を検出し、さらに、各特徴点の尤度マップ(各特徴点と、当該特徴点の確からしさとプロットしたもの)を取得する。さらに、正解ラベル生成部350は、各尤度マップを統合することにより、反射強度画像のための正解ラベルと、可視光画像のための正解ラベルとを生成する。なお、本実施形態においては、正解ラベル生成部350は、例えば、入力されたデータを次元圧縮するエンコーダ(図示省略)と、特徴点を検出するディテクター(図示省略)とから構成することができる。
 なお、本実施形態においては、情報処理装置300の、モデルの生成のうち、正解ラベルの生成段階に関わる機能のブロックについては、図10に示されるような構成に限定されるものではない。
 次に、図11及び図12を参照して、本実施形態に係る正解ラベルの生成の詳細について説明する。図11及び図12は、本実施形態に係る正解ラベルの生成の一例を説明する説明図である。
 本実施形態においては、正解ラベル生成部350は、図11に示すように、事前に準備したCG(Computer Graphics)画像700を用いて事前に機械学習を行い、正解ラベル800を生成する。そして、情報処理装置300は、生成した正解ラベル800と、事前に手動によって生成されたCG画像700の特徴点を含む正解ラベル900とを比較し、その差分(ディテクターロス)を正解ラベル生成部350にフィードバックして、差分を小さくするように強化学習を行う。
 しかしながら、このように得られたアルゴリズム(モデル)(正解ラベル生成部350)では、CG画像700と実際に使用する実画像(反射強度画像、可視光画像)との間には隔たりが存在するため、見え方(視点位置)が変化した画像に対して、ロバストに特徴点を検出することが難しい(例えば、検出すべき特徴点が検出できない)。そこで、本実施形態においては、正解ラベル生成部350は、反射強度画像及び可視光画像のそれぞれに対してランダムな射影を加え、射影された画像を用いて機械学習を行うことで、ロバストに特徴点を検出することができるようになる。詳細には、本実施形態においては、正解ラベル生成部350は、反射強度画像及び可視光画像のそれぞれに対してランダムな射影を加え、射影された画像からも特徴点を検出することにより、特徴点が検出される確率(尤度)を取得する。次に、本実施形態においては、反射強度画像及び可視光画像の各特徴点の尤度がマッピングされた尤度マップを統合することにより、反射強度画像及び可視光画像に共通する正解ラベルを生成する。そして、本実施形態においては、このような反射強度画像及び可視光画像に共通する正解ラベルを後述する学習段階で用いることで、反射強度画像及び可視光画像に両方から特徴点をロバストに検出することが可能なモデル(アルゴリズム)を得ることができる。
 より具体的には、図12に示されるように、CG画像700による機械学習を行った正解ラベル生成部350は、反射強度画像406と射影反射強度画像410とに基づいて、特徴点と当該特徴点の尤度からなる尤度マップ802を生成する。次に、正解ラベル生成部350は、可視光画像506と射影可視光画像510とに基づいて、特徴点と当該特徴点の尤度からなる尤度マップ802を生成する。さらに、正解ラベル生成部350は、2つの尤度マップを統合することにより、反射強度画像のための正解ラベル904と、可視光画像のための正解ラベル904とを生成する。加えて、正解ラベル生成部350は、生成した正解ラベル904を用いて、上述の機械学習を繰り返すことにより、最終的な正解ラベル904を得ることができる。なお、本実施形態における正解ラベル904の生成は、上述した非特許文献1に記載の技術と似ているが、異なるセンサ(異なるドメイン)から得られる反射強度画像と可視光画像とで共通する特徴点を、見え方(視点)が変化してもロバストに検出することができるための正解ラベル904を生成することができる点で異なる。
 <2.4 学習>
 次に、本実施形態に係る学習によるモデルの生成の詳細について説明する。ここでは、異なるセンサ(異なるドメイン)から得られる反射強度画像と可視光画像とで共通する特徴点や特徴点マッチングを、見え方(視点)が変化してもロバストに実行するためのモデル(アルゴリズム)を機械学習で生成する。
 まずは、本実施形態に係る情報処理装置300の詳細構成について、図13及び図14を参照して説明する。図13は、本開示の実施形態に係る情報処理装置300の構成の一例を示すブロック図であり、図14は、本実施形態に係る学習部370の構成の一例を示すブロック図である。ここでは、情報処理装置300の、学習によってモデルの生成を行う機能を中心に説明する。詳細には、図13に示すように、情報処理装置300は、反射強度画像取得部362と、可視光画像取得部364と、反射強度画像射影部366と、可視光画像射影部368と、学習部(学習器)370とを主に有する。以下に、情報処理装置300の各機能部の詳細について順次説明する。
 (反射強度画像取得部362)
 反射強度画像取得部362は、図8の入力データ生成部332から、反射強度画像404とマスク画像604とを取得し、後述する反射強度画像射影部366へ出力する。なお、本実施形態においては、反射強度画像取得部362は、反射強度画像404にノイズが存在しない場合には、マスク画像604を取得及び出力しなくてもよい。
 (可視光画像取得部364)
 可視光画像取得部364は、図8の入力データ生成部332から、可視光画像504とマスク画像604とを取得し、後述する可視光画像射影部368へ出力する。なお、本実施形態においては、可視光画像取得部364は、可視光画像504にノイズが存在しない場合には、マスク画像604を取得及び出力しなくてもよい。
 (反射強度画像射影部366)
 反射強度画像射影部366は、取得した反射強度画像404(必要に応じてマスク画像604)の射影を行う。例えば、反射強度画像射影部366は、ランダムに与えるホモグラフィ行列Hによって射影を行うことができる。そして、反射強度画像射影部366は、射影によって得らえた射影反射強度画像(第1の射影画像)410を、反射強度画像404とともに後述する学習部370へ出力する。
 (可視光画像射影部368)
 可視光画像射影部368は、取得した可視光画像504(必要に応じてマスク画像604)の射影を行う。例えば、可視光画像射影部368は、ランダムに与えるホモグラフィ行列Hによって射影を行うことができる。そして、可視光画像射影部368は、射影によって得らえた射影可視光画像(第2の射影画像)510を、可視光画像504とともに後述する学習部370へ出力する。
 (学習部370)
 学習部370は、反射強度画像404及び可視光画像504から特徴点及び特徴量を取得し、共通する特徴点をマッチングするためのモデル(アルゴリズム)を生成する。詳細には、例えば、学習部370には、反射強度画像404及び射影可視光画像510の入力データ704のペア、及び/又は、可視光画像504及び射影反射強度画像410の入力データ704のペアが入力される。もしくは、例えば、学習部370には、可視光画像504及び射影可視光画像510の入力データ704のペア、及び、可視光画像504及び射影反射強度画像410の入力データ704のペアが入力されてもよい。もしくは、例えば学習部370には、反射強度画像404及び射影反射強度画像410の入力データ704のペア、及び、反射強度画像404及び射影可視光画像510の入力データ704のペアが入力されてもよい。さらに、学習部370には、可視光画像504及び射影反射強度画像410の入力データ704のペア、反射強度画像404と射影可視光画像510の入力データのペア、可視光画像504及び射影可視光画像510の入力データ704の入力データ704のペア、反射強度画像404及び射影反射強度画像410の入力データ704のペアが入力されてもよい。すなわち、本実施形態においては、種類の異なるセンサに由来する2つの画像を含む入力データのペアが入力される。そして、学習部370は、入力データを用いて機械学習を行うことにより、種類の異なるセンサから得られる反射強度画像と可視光画像とで共通する特徴点のマッチングを、見え方が変化してもロバストに実行するためのモデルを生成することができる。
 より詳細には、学習部370は、図14に示すように、入力データ704のペアを次元圧縮(例えば、1/8)するエンコーダ部372と、圧縮された入力データ704のペアから特徴点(画像内の被写体の中心点、分岐点、交差点及び輪郭上の端点等、被写体の形状等の特徴が示されている個所及びその座標情報)を検出するディテクター部374と、圧縮された入力データ704のペアから特徴量(上記特徴点の特徴を数値化して示すことができる、例えば、特徴点の、形状、向き及び広がり等の情報)を取得(記述)するディスクリプター部(特徴量取得部)376とを有する。そして、学習部370は、異なるセンサに由来する画像の共通する特徴点を、特徴量に基づきマッチングしたり、各画像から取得された特徴点及び特徴量と正解ラベル(教師データ)804とを比較し、比較結果を学習部370にフィードバックしたりすることにより、機械学習を行う。
 なお、本実施形態においては、情報処理装置300の、モデルの生成段階に関わる機能のブロックについては、図13及び図14に示されるような構成に限定されるものではない。
 (実施例1)
 次に、図15を参照して、学習部370の具体的な機械学習の実施例を説明する。図15は、本実施形態に係る学習の一例を説明する説明図である。
 この例では、例えば、学習部370には、反射強度画像404及び射影可視光画像510の入力データ704のペア、及び/又は、可視光画像504及び射影反射強度画像410の入力データ704のペアが入力される。もしくは、例えば、学習部370には、可視光画像504及び射影可視光画像510の入力データ704のペア、及び、可視光画像504及び射影反射強度画像410の入力データ704のペアが入力されてもよい。もしくは、例えば、学習部370には、反射強度画像404及び射影反射強度画像410の入力データ704のペア、及び、反射強度画像404及び射影可視光画像510の入力データ704のペアが入力されてもよい。さらに、学習部370には、可視光画像504及び射影反射強度画像410の入力データ704のペア、反射強度画像404と射影可視光画像510の入力データのペア、可視光画像504及び射影可視光画像510の入力データ704の入力データ704のペア、反射強度画像404及び射影反射強度画像410の入力データ704のペアが入力されてもよい。
 より具体的には、図15に示す例では、反射強度画像406及び射影可視光画像510の入力データ710aのペアと、可視光画像506及び射影反射強度画像410の入力データ710bのペアとが入力されるものとする。
 そして、本実施例では、重みづけ等が同一である、エンコーダ部372、ディテクター部374及びディスクリプター部376からなる組を2つ含む学習部370を準備し、入力データ710a、710bのペアから特徴点及び特徴量を取得する。詳細には、学習部370においては、各ディテクター部374により取得された特徴点からな結果データ810a、810bを上述の正解ラベル804と比較し、両者の差分である損失(ディテクターロス)Lを算出する。さらに、本実施例においては、各学習部370は、各ディスクリプター部376から取得された特徴量からなる結果データ812に基づき、特徴点をマッチングし、比較することで、両者の差分である損失(ディスクリプターロス)Lを算出する。
 ここで、ペアである画像と射影画像とからの特徴点の尤度マップをそれぞれχ、χ´とし、画像と射影画像とからの特徴量D、D´とした場合、最終的な損失の値Lは、定数λを用いて以下の数式(1)により示すことができる。
Figure JPOXMLDOC01-appb-M000001
 なお、数式(1)においては、Yは、特徴点の正解ラベル804、sは2つの画像間の画素の対応関係を示す。
 また、ディテクター部374の損失(ディテクターロス)Lは、正解ラベル804とのクロスエントロピーによって計算され、以下の数式(2)により示すことができる。なお、射影画像は、ランダムに与えるホモグラフィ行列Hによって射影されるものとする。
Figure JPOXMLDOC01-appb-M000002
 また、ディスクリプター部376の損失(ディスクリプターロス)Lは、ヒンジロスを使用し、入力画像の各画素の特徴量dhw(dhwは集合Dの元)と、当該入力画像の射影画像の特徴量d´hw(d´hwは集合D´の元)とによって、以下の数式(3)により示すことができる。なお、数式(3)では、ポジティブマージンをm、ネガティブマージンをmとし、λは、は正対応と誤対応のバランスをとる定数である。この時、対応関係(マッチング)sは、以下の数式(4)により定義される。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 なお、phwは、ディスクリプター部376による特徴量に対応する画像上の画素位置である。また、Hphwは、ホモグラフィ行列Hによってワープさせた画素位置である。さらに、ディスクリプター部376による特徴量は入力画像に対し1/8に圧縮されていることから、対応する画素の距離が8pix以内の場合に対応している画素とみなすものとしている。
 以上のように、学習部370は、最終的な損失Lを算出し、Lを最小にするようにフィードバックすることにより、最終的には、異なるセンサ(異なるドメイン)から得られる反射強度画像と可視光画像とで共通する特徴点や特徴点マッチングを、見え方(視点)が変化してもロバストに実行することができるモデル(アルゴリズム)を生成することができる。
 (実施例2)
 さらに、図16を参照して、学習部370の具体的な機械学習の他の実施例を説明する。図16は、本実施形態に係る学習の一例を説明する説明図である。
 本実施例においては、図17に示すShared Encoder(E)は、上述のエンコーダ部372と同様の機能をもつ。さらに、本実施例においては、反射強度画像に由来する画像のためのPrivate Encoder(Ep)(第1のエンコーダ部)と、可視光画像に由来する画像のためのPrivate Encoder(Ep)(第2のエンコーダ部)とを準備する。さらに、本実施例では上記Shared EncoderとPrivate Encoderの出力を加算したものを入力データとするShared Decoderを準備する。
 より具体的には、図16に示す例では、反射強度画像406及び射影可視光画像510の入力データ712aのペアと、可視光画像506及び射影反射強度画像410の入力データ712bのペアとが入力されるものとする。
 この実施例における最終的な損失の値Lは、5つの損失関数(L、L、L、L、L)の合計からなる。5つの損失関数のうち、L、Lについては、上述した実施例1と同様である。また、損失Lは、Shared Encoderの出力(E(I))とPrivate Encoderの出力(E(I))からなる出力画像Iと入力画像とを比較し、互いを同じにするためのReconstruction 損失である。また、損失Lは、Private Encoderの出力(E(I))とShared Encoderの出力(E(I))とを異なるものとするDifference 損失である。さらに、損失Lは、Shared Encoderの出力が可視光画像と反射強度画像のどちらの出力かわからないようにするSimilarity 損失である。
 そして、最終的な損失の値Lは、5つの損失関数(L、L、L、L、L)と定数α、β、γとを用いて以下の数式(5)のように定義することができる。
Figure JPOXMLDOC01-appb-M000005
 Reconstruction 損失Lは、Shared Decoderの出力が入力画像と一致するように、以下の数式(6)により定義される。
Figure JPOXMLDOC01-appb-M000006
 数式(6)においては、kは、入力画像の画素数、1は、要素が1、長さがkのベクトルである。数式(6)中、ノルムで表現された箇所は、L2ノルムを2乗した値を意味する。
 Difference 損失Lは、Private Encoderの出力(E(I))とShared Encoderの出力(E(I))とを異なるものとするように、以下の数式(7)により定義される。
Figure JPOXMLDOC01-appb-M000007
 数式(7)においては、ノルムで表現された箇所は、フロベニウスノルムを2乗した値を意味する。
 Similarity 損失Lは、Shared Encoderの出力が可視光画像と反射強度画像のどちらの出力かわからないように、混同させるよう学習するための損失である。本実施例においては、上記混同を最大化するためGradient Reversal Layer(GRL)を使用する。GRLは、ある関数に対して出力は同じであるが、その勾配方向が反転する。従って、GRLは、下記の数式(8)により定義される。
Figure JPOXMLDOC01-appb-M000008
 Shared Encoderの出力E(I)は、ドメイン識別器Z(Q(E(I);θ)→d(dにはキャレットが付されている)に入力され、可視光画像なのか反射強度画像なのか判別する。この時、θは、ドメイン識別器Zのパラメータ、d(dにはキャレットが付されている)は、集合{0、1}の元である。学習時、GRLによって、θがドメイン識別器Zの識別能力を向上させようとするのに対し、勾配の反転によって、Shared Encodeのパラメータは、ドメイン識別器の識別能力が低下するように学習される。そのため、Similarity 損失Lsは、下記の数式(9)により定義される。
Figure JPOXMLDOC01-appb-M000009
 以上のように、学習部370は、最終的な損失Lを算出し、Lを最小にするようにフィードバックすることにより、最終的には、異なるセンサ(異なるドメイン)から得られる反射強度画像と可視光画像とで共通する特徴点や特徴点マッチングを、見え方(視点)が変化してもロバストに実行することができるモデル(アルゴリズム)を生成することができる。
 <<3. まとめ>>
 以上のように、本開示の実施形態によれば、種類の異なるセンサ(ドメイン)から得られる画像間での特徴点マッチングを精度よく行うことができる。その結果、本実施形態によれば、これら複数のセンサの情報を正確に、且つ、容易に位置合わせすることが可能となる。詳細には、本実施形態によれば、LiDAR100とカメラ200とが配置された位置の間の差(視差、被写体までの距離)や、LiDAR100とカメラ200との、画角の違いやレンズ収差に基づいて、LiDAR100とカメラ200とから出力される画像における位置情報の差分(ずれ)をなくすように、LiDAR100とカメラ200との外部パラメータ(位置パラメータ)、及び/又は、内部パラメータ(光学的パラメータ)を精度よく補正することができる。なお、本実施形態により得られるモデル(アルゴリズム)による特徴点のマッチングは、複数のセンサのキャリブレーション(位置合わせ)に利用されることに限定されるものではなく、モーフィング(時系列的に連続する2つの画像の間に位置する画像をコンピューターグラフィクスによって新たに生成する技術)等に適用することも可能である。
 また、本実施形態は、LiDAR100とカメラ200との組み合わせに適用することに限定されるものではなく、例えば、特定の波長の光を観測して画像を生成する他のイメージセンサの組み合わせにも適用することができる。すなわち、本実施形態は、異なる種類のセンサであれば、特に限定されるものではなく、適用することができる。
 <<4. ハードウェア構成について>>
 上述してきた各実施形態に係る情報処理装置300は、例えば、LiDAR100及びカメラ200とネットワークによって接続された、図17に示すような構成のコンピュータ1000によって実現されてもよい。図17は、情報処理装置300の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インタフェース1500、及び入出力インタフェース1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る測距プログラムを記録する記録媒体である。
 通信インタフェース1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインタフェースである。例えば、CPU1100は、通信インタフェース1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インタフェース1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインタフェースである。例えば、CPU1100は、入出力インタフェース1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インタフェース1600を介して、ディスプレイやスピーカやプリンタ等の出力デバイスにデータを送信する。また、入出力インタフェース1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が本開示の実施形態に係る情報処理装置300として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムやモデルを実行することにより、学習部370等の機能を実現する。また、HDD1400には、本開示の実施形態に係るプログラム等が格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 また、本実施形態に係る情報処理装置300は、例えばクラウドコンピューティング等のように、ネットワークへの接続(または各装置間の通信)を前提とした、複数の装置からなるシステムに適用されてもよい。
 <<5. 応用例>>
 図18を参照して、本開示で提案した技術が適用され得る移動装置制御システムの一例について説明する。図18は、本技術が適用される移動装置制御システムの一例である車両制御システム11の構成例を示すブロック図である。
 車両制御システム11は、車両1に設けられ、車両1の走行支援及び自動運転に関わる処理を行う。
 車両制御システム11は、車両制御ECU(Electronic Control Unit)21、通信部22、地図情報蓄積部23、位置情報取得部24、外部認識センサ25、車内センサ26、車両センサ27、記憶部28、走行支援・自動運転制御部29、DMS(Driver Monitoring System)30、HMI(Human Machine Interface)31、及び、車両制御部32を有する。
 車両制御ECU21、通信部22、地図情報蓄積部23、位置情報取得部24、外部認識センサ25、車内センサ26、車両センサ27、記憶部28、走行支援・自動運転制御部29、ドライバモニタリングシステム(DMS)30、ヒューマンマシーンインタフェース(HMI)31、及び、車両制御部32は、通信ネットワーク41を介して相互に通信可能に接続されている。通信ネットワーク41は、例えば、CAN(Controller Area Network)、LIN(Local Interconnect Network)、LAN(Local Area Network)、FlexRay(登録商標)、イーサネット(登録商標)といったデジタル双方向通信の規格に準拠した車載通信ネットワークやバス等により構成される。通信ネットワーク41は、伝送されるデータの種類によって使い分けられてもよい。例えば、車両制御に関するデータに対してCANが適用され、大容量データに対してイーサネットが適用されるようにしてもよい。なお、車両制御システム11の各部は、通信ネットワーク41を介さずに、例えば、近距離無線通信(NFC(Near Field Communication))やBluetooth(登録商標)といった比較的近距離での通信を想定した無線通信を用いて直接的に接続されてもよい。
 なお、以下、車両制御システム11の各部が、通信ネットワーク41を介して通信を行う場合、通信ネットワーク41の記載を省略するものとする。例えば、車両制御ECU21と通信部22が通信ネットワーク41を介して通信を行う場合、単に車両制御ECU21と通信部22とが通信を行うと記載する。
 車両制御ECU21は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)といった各種のプロセッサにより構成される。車両制御ECU21は、車両制御システム11全体又は一部の機能の制御を行うことができる。
 通信部22は、車内及び車外の様々な機器、他の車両、サーバ、基地局等と通信を行い、各種のデータの送受信を行うことができる。このとき、通信部22は、複数の通信方式を用いて通信を行ってもよい。
 ここで、通信部22が実行可能な車外との通信について概略的に説明する。通信部22は、例えば、5G(第5世代移動通信システム)、LTE(Long Term Evolution)、DSRC(Dedicated Short Range Communications)等の無線通信方式により、基地局又はアクセスポイントを介して、外部ネットワーク上に存在するサーバ(以下、外部のサーバと呼ぶ)等と通信を行うことができる。通信部22が通信を行う外部ネットワークは、例えば、インターネット、クラウドネットワーク、又は、事業者固有のネットワーク等である。通信部22が外部ネットワークに対して行う通信方式は、所定以上の通信速度、且つ、所定以上の距離間でデジタル双方向通信が可能な無線通信方式であれば、特に限定されるものではない。
 また、例えば、通信部22は、P2P(Peer To Peer)技術を用いて、自車の近傍に存在する端末と通信を行うことができる。自車の近傍に存在する端末は、例えば、歩行者や自転車等の比較的低速で移動する移動体が装着する端末、店舗等に位置が固定されて設置される端末、又は、MTC(Machine Type Communication)端末を挙げることができる。さらに、通信部22は、V2X通信を行うこともできる。V2X通信とは、例えば、他の車両との間の車車間(Vehicle to Vehicle)通信、路側器等との間の路車間(Vehicle to Infrastructure)通信、家との間(Vehicle to Home)の通信、及び、歩行者が所持する端末等との間の歩車間(Vehicle to Pedestrian)通信等の、自車と他との通信のことをいう。
 通信部22は、例えば、車両制御システム11の動作を制御するソフトウエアを更新するためのプログラムを外部から受信することができる(Over The Air)。さらに、通信部22は、地図情報、交通情報、車両1の周囲の情報等を外部から受信することができる。また、例えば、通信部22は、車両1に関する情報や、車両1の周囲の情報等を外部に送信することができる。通信部22が外部に送信する車両1に関する情報としては、例えば、車両1の状態を示すデータ、認識部73による認識結果等を挙げることができる。さらに、例えば、通信部22は、eコール等の車両緊急通報システムに対応した通信を行うこともできる。
 例えば、通信部22は、電波ビーコン、光ビーコン、FM多重放送等の道路交通情報通信システム(VICS(Vehicle Information and Communication System)(登録商標))により送信される電磁波を受信することもできる。
 さらに、通信部22が実行可能な車内との通信について、概略的に説明する。通信部22は、例えば無線通信を用いて、車内の各機器と通信を行うことができる。通信部22は、例えば、無線LAN、Bluetooth(登録商標)、NFC、WUSB(Wireless USB)といった、無線通信により所定以上の通信速度でデジタル双方向通信が可能な通信方式により、車内の機器と無線通信を行うことができる。これに限らず、通信部22は、有線通信を用いて車内の各機器と通信を行うこともできる。例えば、通信部22は、図示しない接続端子に接続されるケーブルを介した有線通信により、車内の各機器と通信を行うことができる。通信部22は、例えば、USB(Universal Serial Bus)、HDMI(High-Definition Multimedia Interface)(登録商標)、MHL(Mobile High-definition Link)といった、有線通信により所定以上の通信速度でデジタル双方向通信が可能な通信方式により、車内の各機器と通信を行うことができる。
 ここで、車内の機器とは、例えば、車内において通信ネットワーク41に接続されていない機器を指す。車内の機器としては、例えば、運転者等の搭乗者が所持するモバイル機器やウェアラブル機器、車内に持ち込まれ一時的に設置される情報機器等が想定される。
 地図情報蓄積部23は、外部から取得した地図及び車両1で作成した地図の一方又は両方を蓄積することができる。例えば、地図情報蓄積部23は、3次元の高精度地図、高精度地図より精度が低く、広いエリアをカバーするグローバルマップ等を蓄積する。
 高精度地図は、例えば、ダイナミックマップ、ポイントクラウドマップ、ベクターマップ等である。ダイナミックマップは、例えば、動的情報、準動的情報、準静的情報、静的情報の4層からなる地図であり、外部のサーバ等から車両1に提供される。ポイントクラウドマップは、ポイントクラウド(点群データ)により構成される地図である。ベクターマップは、例えば、車線や信号機の位置といった交通情報等をポイントクラウドマップに対応付け、ADAS(Advanced Driver Assistance System)やAD(Autonomous Driving)に適合させた地図である。
 ポイントクラウドマップ及びベクターマップは、例えば、外部のサーバ等から提供されてもよいし、カメラ51、レーダ52、LiDAR53等によるセンシング結果に基づいて、後述するローカルマップとのマッチングを行うための地図として車両1で作成され、地図情報蓄積部23に蓄積されてもよい。また、外部のサーバ等から高精度地図が提供される場合、通信容量を削減するため、車両1がこれから走行する計画経路に関する、例えば数百メートル四方の地図データが外部のサーバ等から取得される。
 位置情報取得部24は、GNSS(Global Navigation Satellite System)衛星からGNSS信号を受信し、車両1の位置情報を取得することができる。取得した位置情報は、走行支援・自動運転制御部29に供給される。なお、位置情報取得部24は、GNSS信号を用いた方式に限定されず、例えば、ビーコンを用いて位置情報を取得してもよい。
 外部認識センサ25は、車両1の外部の状況の認識に用いられる各種のセンサを有し、各センサからのセンサデータを車両制御システム11の各部に供給することができる。外部認識センサ25が有するセンサの種類や数は、特に限定されるものではない。
 例えば、外部認識センサ25は、カメラ51、レーダ52、LiDAR(Light Detection and Ranging、Laser Imaging Detection and Ranging)53、及び、超音波センサ54を有する。これに限らず、外部認識センサ25は、カメラ51、レーダ52、LiDAR53、及び、超音波センサ54のうち1種類以上のセンサを有する構成であってもよい。カメラ51、レーダ52、LiDAR53、及び、超音波センサ54の数は、現実的に車両1に設置可能な数であれば特に限定されない。また、外部認識センサ25が備えるセンサの種類は、この例に限定されず、外部認識センサ25は、他の種類のセンサを有してもよい。外部認識センサ25が有する各センサのセンシング領域の例については、後述する。
 なお、カメラ51の撮影方式は、特に限定されない。例えば、測距が可能な撮影方式であるToF(Time of Flight)カメラ、ステレオカメラ、単眼カメラ、赤外線カメラといった各種の撮影方式のカメラを、必要に応じてカメラ51に適用することができる。これに限らず、カメラ51は、測距に関わらずに、単に撮影画像を取得するためのものであってもよい。
 また、例えば、外部認識センサ25は、車両1に対する環境を検出するための環境センサを有することができる。環境センサは、天候、気象、明るさ等の環境を検出するためのセンサであって、例えば、雨滴センサ、霧センサ、日照センサ、雪センサ、照度センサ等の各種センサを含むことができる。
 さらに、例えば、外部認識センサ25は、車両1の周囲の音や音源の位置の検出等に用いられるマイクロフォンを有する。
 車内センサ26は、車内の情報を検出するための各種のセンサを有し、各センサからのセンサデータを車両制御システム11の各部に供給することができる。車内センサ26が備える各種センサの種類や数は、現実的に車両1に設置可能な種類や数であれば特に限定されない。
 例えば、車内センサ26は、カメラ、レーダ、着座センサ、ステアリングホイールセンサ、マイクロフォン、生体センサのうち1種類以上のセンサを有することができる。車内センサ26が備えるカメラとしては、例えば、ToFカメラ、ステレオカメラ、単眼カメラ、赤外線カメラといった、測距可能な各種の撮影方式のカメラを用いることができる。これに限らず、車内センサ26が備えるカメラは、測距に関わらずに、単に撮影画像を取得するためのものであってもよい。車内センサ26が備える生体センサは、例えば、シートやステアリングホイール等に設けられ、運転者等の搭乗者の各種の生体情報を検出する。
 車両センサ27は、車両1の状態を検出するための各種のセンサを有し、各センサからのセンサデータを車両制御システム11の各部に供給することができる。車両センサ27が備える各種センサの種類や数は、現実的に車両1に設置可能な種類や数であれば特に限定されない。
 例えば、車両センサ27は、速度センサ、加速度センサ、角速度センサ(ジャイロセンサ)、及び、それらを統合した慣性計測装置(IMU(Inertial Measurement Unit))を有することができる。例えば、車両センサ27は、ステアリングホイールの操舵角を検出する操舵角センサ、ヨーレートセンサ、アクセルペダルの操作量を検出するアクセルセンサ、及び、ブレーキペダルの操作量を検出するブレーキセンサを有する。例えば、車両センサ27は、エンジンやモータの回転数を検出する回転センサ、タイヤの空気圧を検出する空気圧センサ、タイヤのスリップ率を検出するスリップ率センサ、及び、車輪の回転速度を検出する車輪速センサを有する。例えば、車両センサ27は、バッテリの残量及び温度を検出するバッテリセンサ、並びに、外部からの衝撃を検出する衝撃センサを有する。
 記憶部28は、不揮発性の記憶媒体及び揮発性の記憶媒体のうち少なくとも一方を含み、データやプログラムを記憶することができる。記憶部28は、例えばEEPROM(Electrically Erasable Programmable Read Only Memory)及びRAM(Random Access Memory)として用いられ、記憶媒体としては、HDD(Hard Disc Drive)といった磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイスを適用することができる。記憶部28は、車両制御システム11の各部が用いる各種プログラムやデータを記憶する。例えば、記憶部28は、EDR(Event Data Recorder)やDSSAD(Data Storage System for Automated Driving)を有し、事故等のイベントの前後の車両1の情報や車内センサ26によって取得された情報を記憶する。
 走行支援・自動運転制御部29は、車両1の走行支援及び自動運転の制御を行うことができる。例えば、走行支援・自動運転制御部29は、分析部61、行動計画部62、及び、動作制御部63を有する。
 分析部61は、車両1及び周囲の状況の分析処理を行うことができる。分析部61は、自己位置推定部71、センサフュージョン部72、及び、認識部73を有する。
 自己位置推定部71は、外部認識センサ25からのセンサデータ、及び、地図情報蓄積部23に蓄積されている高精度地図に基づいて、車両1の自己位置を推定することができる。例えば、自己位置推定部71は、外部認識センサ25からのセンサデータに基づいてローカルマップを生成し、ローカルマップと高精度地図とのマッチングを行うことにより、車両1の自己位置を推定する。車両1の位置は、例えば、後輪対車軸の中心を基準とすることができる。
 ローカルマップは、例えば、SLAM(Simultaneous Localization and Mapping)等の技術を用いて作成される3次元の高精度地図、占有格子地図(Occupancy Grid Map)等である。3次元の高精度地図は、例えば、上述したポイントクラウドマップ等である。占有格子地図は、車両1の周囲の3次元又は2次元の空間を所定の大きさのグリッド(格子)に分割し、グリッド単位で物体の占有状態を示す地図である。物体の占有状態は、例えば、物体の有無や存在確率により示される。ローカルマップは、例えば、認識部73による車両1の外部の状況の検出処理及び認識処理にも用いられる。
 なお、自己位置推定部71は、位置情報取得部24により取得される位置情報、及び、車両センサ27からのセンサデータに基づいて、車両1の自己位置を推定してもよい。
 センサフュージョン部72は、複数の異なる種類のセンサデータ(例えば、カメラ51から供給される画像データ、及び、レーダ52から供給されるセンサデータ)を組み合わせて、新たな情報を得るセンサフュージョン処理を行うことができる。異なる種類のセンサデータを組合せる方法としては、統合、融合、連合等を挙げることができる。
 認識部73は、車両1の外部の状況の検出を行う検出処理、及び、車両1の外部の状況の認識を行う認識処理を実行することができる。
 例えば、認識部73は、外部認識センサ25からの情報、自己位置推定部71からの情報、センサフュージョン部72からの情報等に基づいて、車両1の外部の状況の検出処理及び認識処理を行う。
 具体的には、例えば、認識部73は、車両1の周囲の物体の検出処理及び認識処理等を行う。物体の検出処理とは、例えば、物体の有無、大きさ、形、位置、動き等を検出する処理である。物体の認識処理とは、例えば、物体の種類等の属性を認識したり、特定の物体を識別したりする処理である。ただし、検出処理と認識処理とは、必ずしも明確に分かれるものではなく、重複することがある。
 例えば、認識部73は、レーダ52又はLiDAR53等によるセンサデータに基づくポイントクラウドを点群の塊毎に分類するクラスタリングを行うことにより、車両1の周囲の物体を検出する。これにより、車両1の周囲の物体の有無、大きさ、形状、位置が検出される。
 例えば、認識部73は、クラスタリングにより分類された点群の塊の動きを追従するトラッキングを行うことにより、車両1の周囲の物体の動きを検出する。これにより、車両1の周囲の物体の速度及び進行方向(移動ベクトル)が検出される。
 例えば、認識部73は、カメラ51から供給される画像データに基づいて、車両、人、自転車、障害物、構造物、道路、信号機、交通標識、道路標示等を検出又は認識する。また、認識部73は、セマンティックセグメンテーション等の認識処理を行うことにより、車両1の周囲の物体の種類を認識してもよい。
 例えば、認識部73は、地図情報蓄積部23に蓄積されている地図、自己位置推定部71による自己位置の推定結果、及び、認識部73による車両1の周囲の物体の認識結果に基づいて、車両1の周囲の交通ルールの認識処理を行うことができる。認識部73は、この処理により、信号機の位置及び状態、交通標識及び道路標示の内容、交通規制の内容、並びに、走行可能な車線等を認識することができる。
 例えば、認識部73は、車両1の周囲の環境の認識処理を行うことができる。認識部73が認識対象とする周囲の環境としては、天候、気温、湿度、明るさ、及び、路面の状態等が想定される。
 行動計画部62は、車両1の行動計画を作成する。例えば、行動計画部62は、経路計画、経路追従の処理を行うことにより、行動計画を作成することができる。
 なお、経路計画(Global path planning)とは、スタートからゴールまでの大まかな経路を計画する処理である。この経路計画には、軌道計画と言われ、計画した経路において、車両1の運動特性を考慮して、車両1の近傍で安全かつ滑らかに進行することが可能な軌道生成(Local path planning)を行う処理も含まれる。
 経路追従とは、経路計画により計画された経路を計画された時間内で安全かつ正確に走行するための動作を計画する処理である。行動計画部62は、例えば、この経路追従の処理の結果に基づき、車両1の目標速度と目標角速度を計算することができる。
 動作制御部63は、行動計画部62により作成された行動計画を実現するために、車両1の動作を制御することができる。
 例えば、動作制御部63は、後述する車両制御部32に含まれる、ステアリング制御部81、ブレーキ制御部82、及び、駆動制御部83を制御して、軌道計画により計算された軌道を車両1が進行するように、加減速制御及び方向制御を行う。例えば、動作制御部63は、衝突回避又は衝撃緩和、追従走行、車速維持走行、自車の衝突警告、自車のレーン逸脱警告等のADASの機能実現を目的とした協調制御を行う。例えば、動作制御部63は、運転者の操作によらずに自律的に走行する自動運転等を目的とした協調制御を行う。
 DMS30は、車内センサ26からのセンサデータ、及び、後述するHMI31に入力される入力データ等に基づいて、運転者の認証処理、及び、運転者の状態の認識処理等を行うことができる。認識対象となる運転者の状態としては、例えば、体調、覚醒度、集中度、疲労度、視線方向、酩酊度、運転操作、姿勢等が想定される。
 なお、DMS30が、運転者以外の搭乗者の認証処理、及び、当該搭乗者の状態の認識処理を行うようにしてもよい。また、例えば、DMS30が、車内センサ26からのセンサデータに基づいて、車内の状況の認識処理を行うようにしてもよい。認識対象となる車内の状況としては、例えば、気温、湿度、明るさ、臭い等が想定される。
 HMI31は、各種のデータや指示等の入力と、各種のデータの運転者等への提示を行うことができる。
 HMI31によるデータの入力について、概略的に説明する。HMI31は、人がデータを入力するための入力デバイスを有する。HMI31は、入力デバイスにより入力されたデータや指示等に基づいて入力信号を生成し、車両制御システム11の各部に供給する。HMI31は、入力デバイスとして、例えばタッチパネル、ボタン、スイッチ、及び、レバーといった操作子を有する。これに限らず、HMI31は、音声やジェスチャ等により手動操作以外の方法で情報を入力可能な入力デバイスをさらに有してもよい。さらに、HMI31は、例えば、赤外線又は電波を利用したリモートコントロール装置や、車両制御システム11の操作に対応したモバイル機器又はウェアラブル機器等の外部接続機器を入力デバイスとして用いてもよい。
 HMI31によるデータの提示について、概略的に説明する。HMI31は、搭乗者又は車外に対する視覚情報、聴覚情報、及び、触覚情報の生成を行う。また、HMI31は、生成された各情報の出力、出力内容、出力タイミング及び出力方法等を制御する出力制御を行う。HMI31は、視覚情報として、例えば、操作画面、車両1の状態表示、警告表示、車両1の周囲の状況を示すモニタ画像等の画像や光により示される情報を生成及び出力する。また、HMI31は、聴覚情報として、例えば、音声ガイダンス、警告音、警告メッセージ等の音により示される情報を生成及び出力する。さらに、HMI31は、触覚情報として、例えば、力、振動、動き等により搭乗者の触覚に与えられる情報を生成及び出力する。
 HMI31が視覚情報を出力する出力デバイスとしては、例えば、自身が画像を表示することで視覚情報を提示する表示装置や、画像を投影することで視覚情報を提示するプロジェクタ装置を適用することができる。なお、表示装置は、通常のディスプレイを有する表示装置以外にも、例えば、ヘッドアップディスプレイ、透過型ディスプレイ、AR(Augmented Reality)機能を備えるウエアラブルデバイスといった、搭乗者の視界内に視覚情報を表示する装置であってもよい。また、HMI31は、車両1に設けられるナビゲーション装置、インストルメントパネル、CMS(Camera Monitoring System)、電子ミラー、ランプ等が有する表示デバイスを、視覚情報を出力する出力デバイスとして用いることも可能である。
 HMI31が聴覚情報を出力する出力デバイスとしては、例えば、オーディオスピーカ、ヘッドホン、イヤホンを適用することができる。
 HMI31が触覚情報を出力する出力デバイスとしては、例えば、ハプティクス技術を用いたハプティクス素子を適用することができる。ハプティクス素子は、例えば、ステアリングホイール、シートといった、車両1の搭乗者が接触する部分に設けられる。
 車両制御部32は、車両1の各部の制御を行うことができる。車両制御部32は、ステアリング制御部81、ブレーキ制御部82、駆動制御部83、ボディ系制御部84、ライト制御部85、及び、ホーン制御部86を有する。
 ステアリング制御部81は、車両1のステアリングシステムの状態の検出及び制御等を行うことができる。ステアリングシステムは、例えば、ステアリングホイール等を含むステアリング機構、電動パワーステアリング等を有する。ステアリング制御部81は、例えば、ステアリングシステムの制御を行うステアリングECU、ステアリングシステムの駆動を行うアクチュエータ等を有する。
 ブレーキ制御部82は、車両1のブレーキシステムの状態の検出及び制御等を行うことができる。ブレーキシステムは、例えば、ブレーキペダル等を含むブレーキ機構、ABS(Antilock Brake System)、回生ブレーキ機構等を有する。ブレーキ制御部82は、例えば、ブレーキシステムの制御を行うブレーキECU、ブレーキシステムの駆動を行うアクチュエータ等を有する。
 駆動制御部83は、車両1の駆動システムの状態の検出及び制御等を行うことができる。駆動システムは、例えば、アクセルペダル、内燃機関又は駆動用モータ等の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構等を有する。駆動制御部83は、例えば、駆動システムの制御を行う駆動ECU、駆動システムの駆動を行うアクチュエータ等を有する。
 ボディ系制御部84は、車両1のボディ系システムの状態の検出及び制御等を行うことができる。ボディ系システムは、例えば、キーレスエントリシステム、スマートキーシステム、パワーウインドウ装置、パワーシート、空調装置、エアバッグ、シートベルト、シフトレバー等を有する。ボディ系制御部84は、例えば、ボディ系システムの制御を行うボディ系ECU、ボディ系システムの駆動を行うアクチュエータ等を有する。
 ライト制御部85は、車両1の各種のライトの状態の検出及び制御等を行うことができる。制御対象となるライトとしては、例えば、ヘッドライト、バックライト、フォグライト、ターンシグナル、ブレーキライト、プロジェクション、バンパーの表示等が想定される。ライト制御部85は、ライトの制御を行うライトECU、ライトの駆動を行うアクチュエータ等を有する。
 ホーン制御部86は、車両1のカーホーンの状態の検出及び制御等を行うことができる。ホーン制御部86は、例えば、カーホーンの制御を行うホーンECU、カーホーンの駆動を行うアクチュエータ等を有する。
 図19は、図18の外部認識センサ25のカメラ51、レーダ52、LiDAR53、及び、超音波センサ54等によるセンシング領域の例を示す図である。なお、図19において、車両1を上面から見た様子が模式的に示され、左端側が車両1の前端(フロント)側であり、右端側が車両1の後端(リア)側となっている。
 センシング領域101F及びセンシング領域101Bは、超音波センサ54のセンシング領域の例を示している。センシング領域101Fは、複数の超音波センサ54によって車両1の前端周辺をカバーしている。センシング領域101Bは、複数の超音波センサ54によって車両1の後端周辺をカバーしている。
 センシング領域101F及びセンシング領域101Bにおけるセンシング結果は、例えば、車両1の駐車支援等に用いられる。
 センシング領域102F乃至センシング領域102Bは、短距離又は中距離用のレーダ52のセンシング領域の例を示している。センシング領域102Fは、車両1の前方において、センシング領域101Fより遠い位置までカバーしている。センシング領域102Bは、車両1の後方において、センシング領域101Bより遠い位置までカバーしている。センシング領域102Lは、車両1の左側面の後方の周辺をカバーしている。センシング領域102Rは、車両1の右側面の後方の周辺をカバーしている。
 センシング領域102Fにおけるセンシング結果は、例えば、車両1の前方に存在する車両や歩行者等の検出等に用いられる。センシング領域102Bにおけるセンシング結果は、例えば、車両1の後方の衝突防止機能等に用いられる。センシング領域102L及びセンシング領域102Rにおけるセンシング結果は、例えば、車両1の側方の死角における物体の検出等に用いられる。
 センシング領域103F乃至センシング領域103Bは、カメラ51によるセンシング領域の例を示している。センシング領域103Fは、車両1の前方において、センシング領域102Fより遠い位置までカバーしている。センシング領域103Bは、車両1の後方において、センシング領域102Bより遠い位置までカバーしている。センシング領域103Lは、車両1の左側面の周辺をカバーしている。センシング領域103Rは、車両1の右側面の周辺をカバーしている。
 センシング領域103Fにおけるセンシング結果は、例えば、信号機や交通標識の認識、車線逸脱防止支援システム、自動ヘッドライト制御システムに用いることができる。センシング領域103Bにおけるセンシング結果は、例えば、駐車支援、及び、サラウンドビューシステムに用いることができる。センシング領域103L及びセンシング領域103Rにおけるセンシング結果は、例えば、サラウンドビューシステムに用いることができる。
 センシング領域104は、LiDAR53のセンシング領域の例を示している。センシング領域104は、車両1の前方において、センシング領域103Fより遠い位置までカバーしている。一方、センシング領域104は、センシング領域103Fより左右方向の範囲が狭くなっている。
 センシング領域104におけるセンシング結果は、例えば、周辺車両等の物体検出に用いられる。
 センシング領域105は、長距離用のレーダ52のセンシング領域の例を示している。センシング領域105は、車両1の前方において、センシング領域104より遠い位置までカバーしている。一方、センシング領域105は、センシング領域104より左右方向の範囲が狭くなっている。
 センシング領域105におけるセンシング結果は、例えば、ACC(Adaptive Cruise Control)、緊急ブレーキ、衝突回避等に用いられる。
 なお、外部認識センサ25が含むカメラ51、レーダ52、LiDAR53、及び、超音波センサ54の各センサのセンシング領域は、図19以外に各種の構成をとってもよい。具体的には、超音波センサ54が車両1の側方もセンシングするようにしてもよいし、LiDAR53が車両1の後方をセンシングするようにしてもよい。また、各センサの設置位置は、上述した各例に限定されない。また、各センサの数は、1つでもよいし、複数であってもよい。
 本開示の技術は、例えば、カメラ51やLiDAR53等に適用することができる。例えば、本開示の技術を車両制御システム11のカメラ51及びLiDAR53からのデータを処理するセンサフュージョン部72に適用することにより、カメラ51及びLiDAR53の内部パラメータ又は外部パラメータをキャリブレーションすることが可能となる。
 <<6. 補足>>
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 なお、上述した本開示の実施形態は、例えば、コンピュータを本実施形態に係る情報処理装置として機能させるためのプログラム(モデル)、及びプログラム(モデル)が記録された一時的でない有形の媒体を含みうる。また、本開示の実施形態においては、プログラム(モデル)をインターネット等の通信回線(無線通信も含む)を介して頒布してもよい。
 また、上述した本開示の実施形態の処理における各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。さらに、本開示の実施形態においては、各ステップの処理方法についても、必ずしも記載された方法に沿って処理されなくてもよく、例えば、他の機能部によって他の方法で処理されていてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、本開示の実施形態においては、例えば、1つの装置として説明した構成を分割し、複数の装置として構成するようにしてもよい。逆に、以上において複数の装置として説明した構成をまとめて1つの装置として構成されるようにしてもよい。また、各装置の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置の構成の一部を他の装置の構成に含めるようにしてもよい。なお、上記システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。従って、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムとして把握される。
 なお、本技術は以下のような構成も取ることができる。
(1)
 複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、
 前記学習器には、第1の撮像部から取得された第1の画像、及び、第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、
 情報処理装置。
(2)
 前記射影画像は、前記第1の画像を射影して得られる第1の射影画像、又は、前記第2の画像を射影して得られる第2の射影画像である、上記(1)に記載の情報処理装置。
(3)
 前記学習器には、複数の前記一対の入力データが入力される、上記(2)に記載の情報処理装置。
(4)
 前記学習器には、前記第1の画像と前記第1の射影画像とからなる他の一対の入力データ、及び、前記第2の画像と前記第2の射影画像とからなる他の一対の入力データのうちの少なくとも1つがさらに入力される、上記(3)に記載の情報処理装置。
(5)
 前記学習器は、
 前記一対の入力データを次元圧縮するエンコーダ部と、
 圧縮された前記一対の入力データから前記特徴点を検出するディテクター部と、
 前記圧縮された前記一対の入力データから前記特徴量を取得する特徴量取得部と、
 を含む、上記(2)~(4)のいずれか1つに記載の情報処理装置。
(6)
 前記学習器は、
 前記ディテクター部から出力された前記特徴点と、教師データの前記特徴点と比較し、
 前記特徴量取得部から出力された、前記一対の入力データからの複数の前記特徴量を比較する、
 上記(5)に記載の情報処理装置。
(7)
 前記エンコーダ部は、
 前記第1の画像及び前記第1の射影画像が入力される第1のエンコーダ部と、
 前記第2の画像及び前記第2の射影画像が入力される第2のエンコーダ部と、
 を含む、
 上記(6)に記載の情報処理装置。
(8)
 前記教師データを生成する教師データ生成部をさらに備え、
 前記教師データ生成部は、
 前記第1及び第2の画像と前記第1及び第2の射影画像とから前記特徴点の尤度マップを取得し、
 前記尤度マップを統合する、
 上記(6)又は(7)に記載の情報処理装置。
(9)
 前記教師データ生成部は、事前にCG画像を用いた機械学習を行う、上記(8)に記載の情報処理装置。
(10)
 前記第1の撮像部から取得された第1の広域画像と、前記第2の撮像部から取得された第2の広域画像とを、同一視点からの画像となるように切り取ることにより、前記学習器に入力するための画像を生成する画像処理部をさらに備える、
 上記(1)~(9)のいずれか1つに記載の情報処理装置。
(11)
 アライメントが調整された前記第1の広域画像と前記第2の広域画像とに基づき、これら広域画像内のノイズのマスクを生成する、畳み込みニューラルネットワークからなるマスク部をさらに備える、上記(10)に記載の情報処理装置。
(12)
 前記モデルを用いて、前記複数の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う特徴点抽出部をさらに備える、上記(1)~(11)のいずれか1つに記載の情報処理装置。
(13)
 前記特徴点抽出部は、異なる前記撮像部から新たに取得された前記第1及び第2の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う、上記(12)に記載の情報処理装置。
(14)
 前記特徴点抽出部は、新たに取得された複数の前記第1の画像又は複数の前記第2の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う、上記(12)に記載の情報処理装置。
(15)
 前記第1の画像を取得する第1の撮像部と、前記第2の画像を取得する第2の撮像部との位置関係に基づき、前記第1及び第2の撮像部に関するパラメータのキャリブレーションを行うキャリブレーション部をさらに備え、
 前記キャリブレーション部は、マッチングされた前記特徴点の位置情報を用いて、キャリブレーションを行う、
 上記(12)~(14)のいずれか1つ記載の情報処理装置。
(16)
 前記第1の撮像部は、LiDAR又はToFセンサからなり、
 前記第2の撮像部は、イメージセンサからなる、
 上記(1)~(15)のいずれか1つに記載の情報処理装置。
(17)
 第1の撮像部と、第2の撮像部と、情報処理装置と、を含み、
 前記情報処理装置は、
 複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、
 前記学習器には、前記第1の撮像部から取得された第1の画像、及び、前記第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、
 情報処理システム。
(18)
 複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするように、コンピュータを機能させるモデルであって、
 情報処理装置が、第1の撮像部から取得された第1の画像、及び、第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより得られる、
 モデル。
(19)
 複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成するように、コンピュータを機能させるためのモデルの生成方法であって、
 情報処理装置が、第1の撮像部から取得された第1の画像、及び、第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより、前記モデルを生成する、
 モデルの生成方法。
  1  車両
  10  情報処理システム
  11  車両制御システム
  21  車両制御ECU(Electronic Control Unit)
  22  通信部
  23  地図情報蓄積部
  24  位置情報取得部
  25  外部認識センサ
  26  車内センサ
  27  車両センサ
  28  記憶部
  29  走行支援・自動運転制御部
  30  ドライバモニタリングシステム(DMS)
  31  ヒューマンマシーンインタフェース(HMI)
  32  車両制御部
  41  通信ネットワーク
  51、200  カメラ
  52  レーダ
  53、100  LiDAR
  54  超音波センサ
  61  分析部
  62  行動計画部
  63  動作制御部
  71  自己位置推定部
  72  センサフュージョン部
  73  認識部
  81  ステアリング制御部
  82  ブレーキ制御部
  83  駆動制御部
  84  ボディ系制御部
  85  ライト制御部
  86  ホーン制御部
  300  情報処理装置
  302、322、342、362  反射強度画像取得部
  304、324、344、364  可視光画像取得部
  306、326  反射強度画像処理部
  308、328  可視光画像処理部
  310  特徴点取得部
  312  位置情報取得部
  314  キャリブレーション部
  330  マスク生成部
  332  入力データ生成部
  346、366  反射強度画像射影部
  348、368  可視光画像射影部
  350  正解ラベル生成部
  370  学習部
  372  エンコーダ部
  374  ディテクター部
  376  ディスクリプター部
  400、404、406  反射強度画像
  402  反射強度パノラマ画像
  410  射影反射強度画像
  500、504、506  可視光画像
  502  可視光パノラマ画像
  510  射影可視光画像
  602、604  マスク画像
  700  CG画像
  704、710a、710b、712a、712b  入力データ
  800、900、904  正解ラベル
  802  尤度マップ
  810a、810b、812  結果データ

Claims (19)

  1.  複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、
     前記学習器には、第1の撮像部から取得された第1の画像、及び、第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、
     情報処理装置。
  2.  前記射影画像は、前記第1の画像を射影して得られる第1の射影画像、又は、前記第2の画像を射影して得られる第2の射影画像である、請求項1に記載の情報処理装置。
  3.  前記学習器には、複数の前記一対の入力データが入力される、請求項2に記載の情報処理装置。
  4.  前記学習器には、前記第1の画像と前記第1の射影画像とからなる他の一対の入力データ、及び、前記第2の画像と前記第2の射影画像とからなる他の一対の入力データのうちの少なくとも1つがさらに入力される、請求項3に記載の情報処理装置。
  5.  前記学習器は、
     前記一対の入力データを次元圧縮するエンコーダ部と、
     圧縮された前記一対の入力データから前記特徴点を検出するディテクター部と、
     前記圧縮された前記一対の入力データから前記特徴量を取得する特徴量取得部と、
     を含む、請求項2に記載の情報処理装置。
  6.  前記学習器は、
     前記ディテクター部から出力された前記特徴点と、教師データの前記特徴点と比較し、
     前記特徴量取得部から出力された、前記一対の入力データからの複数の前記特徴量を比較する、
     請求項5に記載の情報処理装置。
  7.  前記エンコーダ部は、
     前記第1の画像及び前記第1の射影画像が入力される第1のエンコーダ部と、
     前記第2の画像及び前記第2の射影画像が入力される第2のエンコーダ部と、
     を含む、
     請求項6に記載の情報処理装置。
  8.  前記教師データを生成する教師データ生成部をさらに備え、
     前記教師データ生成部は、
     前記第1及び第2の画像と前記第1及び第2の射影画像とから前記特徴点の尤度マップを取得し、
     前記尤度マップを統合する、
     請求項6に記載の情報処理装置。
  9.  前記教師データ生成部は、事前にCG画像を用いた機械学習を行う、請求項8に記載の情報処理装置。
  10.  前記第1の撮像部から取得された第1の広域画像と、前記第2の撮像部から取得された第2の広域画像とを、同一視点からの画像となるように切り取ることにより、前記学習器に入力するための画像を生成する画像処理部をさらに備える、
     請求項1に記載の情報処理装置。
  11.  アライメントが調整された前記第1の広域画像と前記第2の広域画像とに基づき、これら広域画像内のノイズのマスクを生成する、畳み込みニューラルネットワークからなるマスク部をさらに備える、請求項10に記載の情報処理装置。
  12.  前記モデルを用いて、前記複数の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う特徴点抽出部をさらに備える、請求項1に記載の情報処理装置。
  13.  前記特徴点抽出部は、異なる前記撮像部から新たに取得された前記第1及び第2の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う、請求項12に記載の情報処理装置。
  14.  前記特徴点抽出部は、新たに取得された複数の前記第1の画像又は複数の前記第2の画像における特徴点及び特徴量を取得し、共通する前記特徴点のマッチングを行う、請求項12に記載の情報処理装置。
  15.  前記第1の画像を取得する第1の撮像部と、前記第2の画像を取得する第2の撮像部との位置関係に基づき、前記第1及び第2の撮像部に関するパラメータのキャリブレーションを行うキャリブレーション部をさらに備え、
     前記キャリブレーション部は、マッチングされた前記特徴点の位置情報を用いて、キャリブレーションを行う、
     請求項12に記載の情報処理装置。
  16.  前記第1の撮像部は、LiDAR又はToFセンサからなり、
     前記第2の撮像部は、イメージセンサからなる、
     請求項1に記載の情報処理装置。
  17.  第1の撮像部と、第2の撮像部と、情報処理装置と、を含み、
     前記情報処理装置は、
     複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成する学習器を備え、
     前記学習器には、前記第1の撮像部から取得された第1の画像、及び、前記第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とが、一対の入力データとして入力される、
     情報処理システム。
  18.  複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするように、コンピュータを機能させるモデルであって、
     情報処理装置が、第1の撮像部から取得された第1の画像、及び、第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより得られる、
     モデル。
  19.  複数の画像に共通する特徴点及び特徴量を取得し、共通する前記特徴点をマッチングするためのモデルを生成するように、コンピュータを機能させるためのモデルの生成方法であって、
     情報処理装置が、第1の撮像部から取得された第1の画像、及び、第2の撮像部から取得された第2の画像のうちの一方の画像と、当該一方の画像と異なる撮像部から取得され、且つ、射影された射影画像とを、一対の入力データとして機械学習することにより、前記モデルを生成する、
     モデルの生成方法。
PCT/JP2022/010155 2021-08-20 2022-03-09 情報処理装置、情報処理システム、モデル及びモデルの生成方法 WO2023021755A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023542203A JPWO2023021755A1 (ja) 2021-08-20 2022-03-09
CN202280055900.9A CN117836818A (zh) 2021-08-20 2022-03-09 信息处理装置、信息处理系统、模型以及模型的生成方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-134974 2021-08-20
JP2021134974 2021-08-20

Publications (1)

Publication Number Publication Date
WO2023021755A1 true WO2023021755A1 (ja) 2023-02-23

Family

ID=85240373

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/010155 WO2023021755A1 (ja) 2021-08-20 2022-03-09 情報処理装置、情報処理システム、モデル及びモデルの生成方法

Country Status (3)

Country Link
JP (1) JPWO2023021755A1 (ja)
CN (1) CN117836818A (ja)
WO (1) WO2023021755A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317507A (ja) * 2003-04-04 2004-11-11 Omron Corp 監視装置の軸調整方法
JP2021503131A (ja) * 2017-11-14 2021-02-04 マジック リープ, インコーポレイテッドMagic Leap,Inc. ホモグラフィ適合を介した完全畳み込み着目点検出および記述

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317507A (ja) * 2003-04-04 2004-11-11 Omron Corp 監視装置の軸調整方法
JP2021503131A (ja) * 2017-11-14 2021-02-04 マジック リープ, インコーポレイテッドMagic Leap,Inc. ホモグラフィ適合を介した完全畳み込み着目点検出および記述

Also Published As

Publication number Publication date
CN117836818A (zh) 2024-04-05
JPWO2023021755A1 (ja) 2023-02-23

Similar Documents

Publication Publication Date Title
JP7320001B2 (ja) 情報処理装置、情報処理方法、プログラム、移動体制御装置、及び、移動体
JP2019045892A (ja) 情報処理装置、情報処理方法、プログラム、及び、移動体
JP7143857B2 (ja) 情報処理装置、情報処理方法、プログラム、及び、移動体
WO2019077999A1 (ja) 撮像装置、画像処理装置、及び、画像処理方法
WO2019188391A1 (ja) 制御装置、制御方法、並びにプログラム
WO2021241189A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020116194A1 (ja) 情報処理装置、情報処理方法、プログラム、移動体制御装置、及び、移動体
WO2022075133A1 (ja) 撮像装置、情報処理装置、撮像システム及び撮像方法
EP4160526A1 (en) Information processing device, information processing method, information processing system, and program
WO2023153083A1 (ja) 情報処理装置、情報処理方法、情報処理プログラム及び移動装置
WO2022004423A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2022024803A1 (ja) 学習モデルの生成方法、情報処理装置、情報処理システム
WO2023021755A1 (ja) 情報処理装置、情報処理システム、モデル及びモデルの生成方法
CN116710971A (zh) 物体识别方法和飞行时间物体识别电路
CN115996869A (zh) 信息处理装置、信息处理方法、信息处理系统和程序
WO2023090001A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2024024471A1 (ja) 情報処理装置、情報処理方法、及び、情報処理システム
WO2023054090A1 (ja) 認識処理装置、認識処理方法、および認識処理システム
WO2023162497A1 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
WO2023149089A1 (ja) 学習装置、学習方法及び学習プログラム
WO2023047666A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP7487178B2 (ja) 情報処理方法、プログラム、及び、情報処理装置
WO2023053718A1 (ja) 情報処理装置及び情報処理方法、学習装置及び学習方法、並びにコンピュータプログラム
WO2022085479A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2024062976A1 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22858080

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023542203

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202280055900.9

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE