WO2022201804A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2022201804A1
WO2022201804A1 PCT/JP2022/001919 JP2022001919W WO2022201804A1 WO 2022201804 A1 WO2022201804 A1 WO 2022201804A1 JP 2022001919 W JP2022001919 W JP 2022001919W WO 2022201804 A1 WO2022201804 A1 WO 2022201804A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
depth
sensor
view
processing
Prior art date
Application number
PCT/JP2022/001919
Other languages
English (en)
French (fr)
Inventor
英史 山田
達治 芦谷
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Priority to CN202280022433.XA priority Critical patent/CN117099129A/zh
Priority to JP2023508694A priority patent/JPWO2022201804A1/ja
Publication of WO2022201804A1 publication Critical patent/WO2022201804A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program, and more particularly to an information processing device, an information processing method, and a program capable of correcting correction target pixels due to the field of view of a sensor.
  • Patent Document 1 discloses detecting defective pixels in the depth measurement data, defining depth correction for the detected defective pixels, and performing depth correction for the depth measurement data of the detected defective pixels. Techniques to be applied are disclosed.
  • the depth images to be processed include pixels to be corrected such as defective pixels due to the fields of view of the sensors. Therefore, it is required to correct the pixels to be corrected due to the field of view of the sensor.
  • the present disclosure has been made in view of such circumstances, and is intended to be able to correct pixels to be corrected due to the field of view of the sensor.
  • the information processing device is a first image in which the object acquired by the first sensor is represented by depth information, and the object acquired by the second sensor is represented by depth information. At least a part of a second image, a third image obtained from the first image and the second image is processed using a learned model learned by machine learning, and included in any of the images
  • the information processing apparatus includes a processing unit that corrects a correction target pixel.
  • the information processing method and program of the first aspect of the present disclosure are the information processing method and program corresponding to the information processing apparatus of the first aspect of the present disclosure described above.
  • the first image showing the depth information of the object acquired by the first sensor, the depth information acquired by the second sensor, A second image showing an object with depth information, and at least a part of a third image obtained from the first image and the second image are processed using a trained model learned by machine learning. Correction target pixels included in any of the images are corrected.
  • An information processing apparatus provides a machine-learning machine learning technique for at least a part of an image showing an object with depth information acquired by a sensor having a first light source and a second light source.
  • a processing unit that performs processing using a finished model, wherein the first light source and the second light source are arranged such that light irradiation areas overlap; and the processing unit processes the irradiation area in the image. is specified as a pixel correction position, and the depth information of the pixel correction position is corrected using the learned model.
  • the information processing method and program of the second aspect of the present disclosure are the information processing method and program corresponding to the information processing apparatus of the second aspect of the present disclosure described above.
  • an object acquired by a sensor having a first light source and a second light source arranged so that light irradiation regions overlap is processed using a learned model learned by machine learning on at least a part of the image showing the depth information, and a position corresponding to the overlapping portion of the irradiation area in the image is specified as a pixel correction position.
  • the depth information of the pixel correction position is corrected using the learned model.
  • the information processing devices of the first and second aspects of the present disclosure may be independent devices, or may be internal blocks forming one device.
  • FIG. 10 is a diagram showing a configuration example of a learning device and an inference unit when supervised learning is used; 4 is a flowchart for explaining the flow of correction processing; It is a figure explaining correction
  • FIG. 10 is a diagram illustrating correction of an overlapping portion of the fields of view of two depth sensors having different fields of view;
  • FIG. 10 is a diagram illustrating correction of overlapping portions of irradiation regions of a plurality of light sources of one depth sensor;
  • FIG. 4 is a diagram showing a first example of another configuration of a distance measuring device to which the present disclosure is applied;
  • FIG. 10 is a diagram showing a second example of another configuration of a distance measuring device to which the present disclosure is applied;
  • FIG. 11 is a diagram showing a third example of another configuration of a distance measuring device to which the present disclosure is applied;
  • FIG. 11 is a diagram showing a fourth example of another configuration of a distance measuring device to which the present disclosure is applied;
  • It is a figure which shows the structural example of the system containing the apparatus which performs AI processing.
  • It is a block diagram which shows the structural example of an electronic device.
  • 3 is a block diagram showing a configuration example of an edge server or a cloud server;
  • FIG. It is a block diagram which shows the structural example of an optical sensor.
  • 4 is a block diagram showing a configuration example of a processing unit;
  • FIG. FIG. 2 is a diagram showing the flow of data between multiple devices;
  • FIG. 1 is a diagram showing a configuration example of a distance measuring device to which the present disclosure is applied.
  • the distance measuring device 10 includes a depth sensor 11-1, a depth sensor 11-2, a distance calculation section 12-1, a distance calculation section 12-2, a stitching processing section 13, and a distance correction section 14. be.
  • the depth sensor 11-1 and the depth sensor 11-2 are arranged so as to have an overlapping field of view (FoV).
  • the depth sensor 11-1 is a range sensor such as a ToF sensor.
  • a ToF sensor measures the time it takes for light emitted from a light source to be reflected by an object and received by a light-receiving element (light-receiving part), and calculates the distance based on the known speed of light.
  • the ToF sensor may be of either the dToF (direct Time of Flight) method or the iToF (indirect Time of Flight) method.
  • the depth sensor 11-1 a structured light sensor, a LiDAR (Light Detection and Ranging) sensor, a stereo camera, or the like may be used.
  • the depth sensor 11-1 measures an object and supplies RAW data obtained as a result to the distance measurement calculation section 12-1.
  • the distance measurement calculation unit 12-1 performs distance measurement calculation using the RAW data supplied from the depth sensor 11-1 based on the distance measurement calibration parameters, and converts the resulting distance data related to the distance to the object. It is supplied to the stitching processing section 13 .
  • the distance calculation unit 12-1 may be provided inside the depth sensor 11-1.
  • the depth sensor 11-2 is a distance measuring sensor such as a ToF sensor.
  • the depth sensor 11-2 measures an object, and supplies RAW data obtained as a result to the distance measurement calculation section 12-2.
  • the distance measurement calculation unit 12-2 performs distance measurement calculation using the RAW data supplied from the depth sensor 11-2 based on the distance measurement calibration parameters, and converts the resulting distance data regarding the distance to the object. It is supplied to the stitching processing section 13 .
  • the distance calculation unit 12-2 may be provided inside the depth sensor 11-2.
  • Ranging calibration parameters include, for example, parameters related to offset, cyclic error, distortion, temperature correction, and the like.
  • the distance measurement calculation unit 12-1 and the distance measurement operation unit 12-2 can appropriately use necessary parameters among the distance measurement calibration parameters.
  • the stitching processing unit 13 is supplied with the distance data from the distance calculation unit 12-1 and the distance data from the distance calculation unit 12-2.
  • the stitching processing unit 13 performs a combining process of combining distance data based on the internal/external calibration parameters, and supplies the resultant combined distance data to the distance correction unit 14 .
  • a wide-angle depth image is generated by concatenating the depth images of .
  • a depth image is an image in which an object is represented by depth information.
  • a wide-angle depth image is a depth image that has a wider angle than a single depth image by connecting a plurality of depth images.
  • the internal/external calibration parameters include parameters related to lens distortion used for internal calibration and parameters related to camera posture used for external calibration.
  • the stitching processing unit 13 can appropriately use necessary parameters among the internal/external calibration parameters.
  • the distance correction unit 14 performs correction processing for correcting the combined distance data supplied from the stitching processing unit 13 based on the overlapping portion information, and outputs the corrected combined distance data obtained as a result.
  • Overlap information includes information such as a map of overlapping pixels.
  • the distance correction unit 14 can appropriately use necessary information among the information included in the overlapping portion information. Data such as a point cloud is output as the combined distance data after correction.
  • the distance correction unit 14 When performing correction processing, the distance correction unit 14 performs processing using a learned model (learning model) learned by machine learning on at least a part of the combined distance data, and corrects the combined distance data. For example, the distance correction unit 14 performs processing on a wide-angle depth image with a defect using a learned model (learning model) learned by machine learning, thereby generating a wide-angle depth image in which the defect has been corrected. be.
  • a learned model learned by machine learning
  • two depth sensors are arranged so as to have an overlap in the field of view (FoV), and an object is measured.
  • FoV field of view
  • the overlap of the fields of view of the depth sensor 11-1 and the depth sensor 11-2 has the following effects, for example.
  • the light-receiving element (light-receiving part) in the depth sensor has a light-receivable range, but if light is emitted from the depth sensors 11-1 and 11-2 at the same time, the range may be exceeded and saturated.
  • FIG. 2 shows the overlapping portion of the field of view of depth sensor 11-2 with respect to the field of view of depth sensor 11-1.
  • the field of view FoV 1 of the depth sensor 11-1 is indicated by a one-dot chain line
  • the field of view FoV 2 of the depth sensor 11-2 is indicated by a two-dot chain line
  • the overlapping portion O of the field of view FoV 2 with respect to the field of view FoV 1 is indicated by a dot pattern. is shown.
  • the depth sensor 11-1 and the depth sensor 11-2 are irradiated with light from the respective light sources of the depth sensors 11-1 and 11-2, and the edge of the depth image obtained from each depth sensor is deteriorated. As mentioned above, there are various effects on the image.
  • the technology according to the present disclosure corrects a wide-angle depth image that includes defects due to overlapping portions of the fields of view, so that a defect-free wide-angle depth image can be obtained.
  • processing using a learned model (learning model) learned by machine learning is performed on at least a part of the wide-angle depth image.
  • FIG. 3 shows a configuration example of a learning device that performs processing during learning and an inference unit that performs processing during inference when supervised learning is used.
  • the upper part shows the learning device 200 that performs processing during learning
  • the lower part shows the inference unit 111 that performs processing during inference.
  • the inference unit 111 is included in the distance correction unit 14 in FIG.
  • the learning device 200 has a learning model 221.
  • the learning model 221 receives as input a wide-angle depth image with a defective depth value and pixel position information (defective pixel position information) indicating the position of the defective pixel, and outputs a wide-angle depth image (NN: Neural Network). It is a model that performs machine learning by
  • a wide-angle depth image with a defective depth value and pixel position information (defective pixel position information) indicating the position of the defective pixel are used as learning data.
  • pixel position information defective pixel position information
  • a defect-corrected wide-angle depth image is a wide-angle depth image corrected for defects caused by overlapping portions of the fields of view of the two depth sensors.
  • a neural network for example, a DNN (Deep Neural Network), an autoencoder, or the like can be used.
  • the learning model 221 learned by machine learning in this way can be used as a learned model at the time of inference.
  • the inference unit 111 has a learning model 121.
  • the learning model 121 corresponds to the learning model 221 that has been learned by machine learning at the time of learning.
  • the learning model 121 outputs a defect-corrected wide-angle depth image by performing inference with input of a wide-angle depth image with a defective depth value and defective pixel position information.
  • the wide-angle depth image with defective depth values is a wide-angle depth image generated by connecting two depth images as measurement data from two depth sensors, the depth sensor 11-1 and the depth sensor 11-2. .
  • the wide-angle depth image defect is due to the overlap of the fields of view of the two depth sensors.
  • the defective pixel position information is information about the position of the defective pixel specified from the wide-angle depth image.
  • the learning model 221 learns to output information about pixel positions whose defects have been corrected. and defective pixel position information as an input, and output information about the pixel position for which the defect has been corrected.
  • the learning model that has been learned by unsupervised learning is used at the time of inference, and inference is performed with a wide-angle depth image with a defect in the depth value as an input, and a wide-angle depth image with the defect corrected is output. can do.
  • step S101 the stitching processing unit 13 connects two depth images to generate a wide-angle depth image.
  • step S102 the distance correction unit 14 determines whether all D pixels included in the wide-angle depth image have been processed.
  • pixels included in the wide-angle depth image are called D pixels.
  • step S102 If it is determined in step S102 that all D pixels have not been processed, the process proceeds to step S103.
  • step S103 the distance correction unit 14 acquires the depth value and the pixel position (x, y) for the D pixel to be processed.
  • step S104 the distance correction unit 14 determines whether the acquired depth value of the D pixel to be processed is a valid depth value.
  • step S104 If it is determined in step S104 that the depth value of the D pixel to be processed is not a valid depth value, the process proceeds to step S105.
  • step S105 the distance correction unit 14 acquires the pixel position (x, y) of the D pixel whose depth value is invalid as the pixel correction position (x, y).
  • step S105 When the process of step S105 ends, the process returns to step S102. Further, when it is determined in step S104 that the depth value of the D pixel to be processed is a valid depth value, the process of step S105 is skipped and the process returns to step S102.
  • step S106 the processing proceeds to step S106. That is, when all D pixels are processed, in the wide-angle depth image, the pixel position (x, y) of the D pixel whose depth value is not normal due to the overlapped portion of the fields of view of the two depth sensors is the pixel correction position ( x, y).
  • step S106 the distance correction unit 14 determines whether there is a depth value that requires correction in the wide-angle depth image.
  • step S106 If it is determined in step S106 that there is a depth value that requires correction in the wide-angle depth image, the process proceeds to step S107.
  • step S107 by repeating the processing of steps S102 to S105, when the pixel correction position (x, y) of the D pixel whose depth value is not normal is specified, it is determined that there is a depth value that needs correction. .
  • step S107 the distance correction unit 14 generates pixel correction position information based on the pixel correction position (x, y) of the D pixel whose depth value is not normal.
  • This pixel correction position information is information (coordinates (x, y)) for specifying the pixel position, assuming that the D pixel that requires correction of the depth value is a pixel (defective pixel) that needs to be corrected. contains.
  • step S108 the inference unit 111 (FIG. 3) of the distance correction unit 14 uses the learning model 121 to input the wide-angle depth image with the defect in the depth value and the pixel correction position information, perform inference, and correct the defect. produces a wide-angle depth image of
  • the learning model 121 is a learned model that has been trained by a neural network by inputting a wide-angle depth image with a defective depth value and defective pixel position information during learning, and outputs a wide-angle depth image with defects corrected. be able to.
  • a wide-angle depth image whose defect has been corrected is output by performing inference using a wide-angle depth image with a defect in the depth value as an input.
  • Other trained models such as learning models may be used.
  • step S108 ends, the series of processes ends. Further, when it is determined in step S106 that there is no depth value requiring correction in the wide-angle depth image, a wide-angle depth image without defects (perfect wide-angle depth image) is generated and there is no need to correct it. The processing of S107 and S108 is skipped, and the series of processing ends.
  • the pixel position (pixel correction position) of the D pixel where the depth value is not normal in the wide-angle depth image that includes a defect in the depth value due to the overlapping portion of the fields of view of the two depth sensors is identified.
  • a wide-angle depth image including defects is corrected by inputting a certain wide-angle depth image and pixel correction position information and performing inference using the learning model 121 .
  • the region including the defect corresponding to the overlapping portion of the fields of view of the two depth sensors is corrected.
  • FIG. 5 shows the gap between the field of view of the depth sensor 11-1 and the field of view of the depth sensor 11-2.
  • the field of view FoV 1 of the depth sensor 11-1 is indicated by a one-dot chain line
  • the field of view FoV 2 of the depth sensor 11-2 is indicated by a two-dot chain line
  • the gap portion G between the field of view FoV 1 and the field of view FoV 2 is indicated by dots. shown in the pattern.
  • a wide-angle depth image including defects in depth values due to the gap G between the fields of view of the two depth sensors is generated.
  • a wide-angle depth image including defects due to such gaps in the field of view is corrected to obtain a defect-free wide-angle depth image.
  • processing using a learned model (learning model) learned by machine learning is performed on at least a part of the wide-angle depth image.
  • the same process as the correction process shown in FIG. 4 is performed. That is, in the correction process shown in FIG. 4, as the pixel correction position (x, y), the pixel position (x, y) of the D pixel whose depth value is not normal due to the overlapping portion of the fields of view of the two depth sensors is specified. However, here, the pixel position (x, y) of the D pixel to which the depth value is not assigned due to the gap between the fields of view of the two depth sensors is specified.
  • a wide-angle depth image with a defective depth value and pixel correction position information are input and inference is performed using a learning model to correct the wide-angle depth image including the defect.
  • the learning model used here outputs a wide-angle depth image corrected for depth value defects caused by gaps in the field of view by learning with input of wide-angle depth images with defective depth values and pixel correction position information.
  • This trained model is trained to, for example, analogize a region corresponding to a gap from a plurality of depth images with different fields of view.
  • the light source is set so that the overlap does not exceed the limit for the purpose of eye safety. If there is a gap between the fields of view of the two depth sensors, such narrowing of the light source is not necessary, and dark illumination of some areas can be avoided.
  • FIG. 6 shows an overlapping portion between the field of view of the depth sensor 11-1 on the wide-angle side and the field of view of the depth sensor 11-2 on the telephoto side.
  • the field of view FoV 1 of the depth sensor 11-1 on the wide-angle side is indicated by a dashed line
  • the field of view FoV 2 of the depth sensor 11-2 on the telephoto side is indicated by a two-dotted line
  • the field of view FoV 2 overlaps the field of view FoV 1 .
  • the portion O is indicated by a pattern of dots.
  • a depth image containing defects in depth values due to the overlapping portion O of the fields of view of the two depth sensors is generated.
  • the technique according to the present disclosure corrects a depth image including a defect due to such an overlapping portion of the field of view of the depth sensor so as to obtain a depth image with no defect.
  • a learned model learned by machine learning
  • a depth image with a defective depth value and pixel correction position information are input, and a depth image in which the defective depth value due to the overlapping portion of the field of view has been corrected is output.
  • a trained model can be used.
  • the depth sensor 11-1 and the depth sensor 11-2 have different fields of view such as wide-angle and telephoto and are arranged so that their fields of view overlap each other, it is possible to generate a defect-free depth image.
  • a part of the depth image obtained by combining the depth images from each depth sensor is corrected using a learning model to generate a depth image with no defects.
  • the depth ranging range (ranging from the near side to the far side as viewed from the device) can be expanded.
  • the depth image may contain defects due to overlapping portions of the light irradiation regions. is assumed.
  • FIG. 7 shows an overlapping portion between the light irradiation region of the light source LS1 and the light irradiation region of the light source LS2 when two light sources, the light source LS1 and the light source LS2, are provided for one depth sensor 11.
  • the light L1 emitted from the light source LS1 is indicated by a one -dot chain line
  • the light L2 emitted from the light source LS2 is indicated by a two -dot chain line
  • the overlapping portion O of the irradiation regions of the light source LS1 and the light source LS2 is shown. It is indicated by a dot pattern.
  • the area illuminated by light from the light source is, so to speak, an area corresponding to the field of view of the light source.
  • FIG. 7 it can be said that the field of view of the light source LS1 and the field of view of the light source LS2 overlap.
  • the technology according to the present disclosure corrects a depth image including defects due to such overlapping portions of the irradiation regions of the light sources, so that a depth image without defects is obtained.
  • processing using a learned model (learning model) learned by machine learning is performed on at least a part of the depth image in the same manner as described above.
  • step S102 for one depth image (wide-angle depth image) acquired by one depth sensor 11 without performing the connection processing in step S101, the processing after step S102 may be performed.
  • the learning model used in the inference processing in step S108 corrects the depth value defect caused by the overlap of the irradiation area of the light source by learning with the input of the depth image with the defective depth value and the pixel correction position information. It is possible to use a trained model that outputs a depth image of .
  • the distance correction unit 14 uses the learning model 121 to perform correction processing on the wide-angle depth image as the combined distance data. In at least part of the processing including the distance correction processing, processing using a learned model (learning model) learned by machine learning can be performed.
  • FIG. 8 shows a configuration example in which correction processing is performed on two depth images using a learning model.
  • the range finder 20 has a distance correction section 21-1, a distance correction section 21-2, a distance correction section 21-2, a and a stitching processing unit 22 are provided. 8, parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted.
  • the distance correction unit 21-1 performs correction processing for correcting the distance data supplied from the distance measurement calculation unit 12-1 based on the overlapping portion information, and the corrected distance data obtained as a result is applied to the stitching processing unit 22. supply to That is, when correcting the depth image as distance data (correcting the overlapping portion), the distance correction unit 21-1 uses a learning model to make inferences by inputting a depth image with a defective depth value and pixel correction position information. to generate a defect-corrected depth image.
  • the distance correction unit 21-2 performs correction processing for correcting the distance data supplied from the distance measurement calculation unit 12-2 based on the overlapping portion information, and applies the corrected distance data obtained as a result to the stitching processing unit 22. supply to Similar to the distance correction unit 21-1, the distance correction unit 21-2 uses the learning model to generate a depth image whose defects have been corrected.
  • the stitching processing unit 22 is supplied with the corrected distance data from the distance correction unit 21-1 and the corrected distance data from the distance correction unit 21-2.
  • the stitching processing unit 22 performs a combining process of combining the corrected distance data based on the internal/external calibration parameters, and outputs the combined distance data obtained as a result. That is, the stitching processing unit 22 performs a process of connecting two corrected depth images supplied as post-correction distance data to generate a defect-free wide-angle depth image.
  • the processing after step S102 may be performed on each of the two depth images without performing the connection processing in step S101.
  • the learning model used in the inference processing in step S108 is a model that has been learned by repeating learning with input of a depth image with a defective depth value and pixel correction position information at the time of learning. It is possible to output a depth image in which defects in depth values caused by gaps or the like have been corrected. Then, a wide-angle depth image is generated by combining the two corrected depth images.
  • FIG. 9 shows a configuration in which distance correction processing and stitching processing are integrally performed using a learning model.
  • the distance measuring device 30 is provided with a distance correction/stitching processing section 31 instead of the stitching processing section 13 and the distance correction section 14 compared to the range finding apparatus 10 of FIG.
  • parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted.
  • the distance correction/stitching processing unit 31 is supplied with the distance data from the distance calculation unit 12-1 and the distance data from the distance calculation unit 12-2. Based on the overlapping portion information and the internal/external calibration parameters, the distance correction/stitching processing unit 31 performs processing for generating defect-corrected combined distance data from the two pieces of distance data. output the combined distance data.
  • the learning model when generating a corrected wide-angle depth image as the post-combination distance data, the learning model is used to perform inference with two depth images as input. Generate a wide-angle depth image.
  • the learning model used for this inference processing is, for example, a trained model that has been repeatedly trained using depth images with defective depth values as input during learning. It is possible to output a wide-angle depth image in which defects in depth values have been corrected.
  • FIG. 10 shows a configuration in which the learning model is used to integrally perform distance measurement calculation processing, distance correction processing, and stitching processing.
  • a distance measuring device 40 replaces the distance calculating section 12-1, the ranging calculating section 12-2, the stitching processing section 13, and the distance correcting section 14 in comparison with the distance measuring apparatus 10 of FIG. , a distance measurement/distance correction/stitching processing unit 41 is provided. 10, parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted.
  • the RAW data from the depth sensor 11-1 and the RAW data from the depth sensor 11-2 are supplied to the distance measurement calculation/distance correction/stitching processing unit 41.
  • a distance measurement calculation/distance correction/stitching processing unit 41 calculates distances after combining, in which defects are corrected, from two RAW data based on distance measurement calibration parameters, overlapping portion information, and internal/external calibration parameters.
  • a process for generating data is performed, and the post-combination distance data obtained as a result is output.
  • the learning model when generating a corrected wide-angle depth image as post-combination distance data, the learning model is used to perform inference using two RAW data as inputs. to generate a corrected wide-angle depth image.
  • the learning model used for this inference process is, for example, a trained model that has been repeatedly trained using RAW data containing defects as input during learning, and the depth value due to overlapped parts and gaps in the field of view. A wide-angle depth image with defects corrected can be output.
  • FIG. 11 shows a configuration example for synchronizing the light source and the light receiving element when the depth sensor includes the light source.
  • the distance measuring device 50 is newly added with a timing control section 51 compared to the distance measuring device 10 of FIG.
  • the light source is illustrated as a light source 52-1.
  • light source 52-2 within depth sensor 11-2 is shown.
  • parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted.
  • the timing control unit 51 generates control signals and supplies them to the depth sensor 11-1 and the depth sensor 11-2, respectively.
  • the light source 52-1 that irradiates the object S with light and the light receiving element that receives the light reflected from the object S operate synchronously.
  • the light source 52-2 that irradiates the object S with light and the light receiving element that receives the light reflected from the object S operate synchronously.
  • the image defect caused by the overlap of the field of view of the depth sensor is corrected using a learned model (learning model) learned by machine learning.
  • An image with fewer defects can be generated by combining techniques for suppressing the deterioration of .
  • the modulation patterns of the light sources are controlled so as not to overlap in order to avoid interference.
  • control is performed so that measurement (imaging) patterns such as dual frequency do not overlap in terms of time.
  • the method of suppressing image deterioration due to overlapping fields of view described here can be used not only in combination with correction using a learning model at the time of inference, but also independently. Even when the method of suppressing image degradation due to overlapping fields of view is used alone, it is possible to suppress degradation of images due to overlapping fields of view, and to generate images with fewer defects.
  • depth images acquired by the depth sensor 11-1, depth images acquired by the depth sensor 11-2, and images obtained from these depth images is processed using a learned model learned by machine learning, and pixels included in one of the images to be corrected (e.g., defective pixels with defective depth values) can be corrected.
  • the depth sensor 11-1 and the depth sensor 11-2 are arranged so as to have a predetermined relationship, such as when the fields of view are arranged so as to overlap or when the fields of view are arranged so as not to overlap.
  • a wide-angle depth image with corrected defects can be obtained, so it can be used, for example, in the following use cases.
  • the corrected wide-angle depth image can be used for progress management by building measurement and terrain measurement at construction sites and construction sites.
  • a corrected wide-angle depth image can be used as a rough sketch for a CG (Computer Graphics) modeling environment in games, movies, and the like.
  • the corrected wide-angle depth image can be used to realize the safety sensing function of the surroundings and the self-position estimation function for automatic driving.
  • the distance measuring device 10 described above includes processing units (stitching processing unit 13, distance correction unit 14, etc.) that process depth images acquired by a plurality of sensors (depth sensor 11-1, depth sensor 11-2, etc.). It can be regarded as an information processing device having The distance measuring devices 20 to 50 can also be regarded as information processing devices in the same way. Also, in the distance measuring device 10, the case of having two depth sensors, the depth sensor 11-1 and the depth sensor 11-2, has been shown, but the technology according to the present disclosure can also be applied to the case where three or more depth sensors are provided. can be applied. Further, FIG. 7 shows the case where two light sources, the light source LS1 and the light source LS2, are provided for one depth sensor 11, but the technology according to the present disclosure is similarly applied when three or more light sources are provided. can be applied.
  • FIG. 12 shows a configuration example of a system including a device that performs AI processing.
  • the electronic device 20001 is a mobile terminal such as a smart phone, tablet terminal, or mobile phone.
  • the electronic device 20001 corresponds to the distance measuring device 10 (information processing device) in FIG. 1, and has an optical sensor 20011 corresponding to the depth sensors 11-1 and 11-2 (FIG. 1).
  • a photosensor is a sensor (image sensor) that converts light into electrical signals.
  • the electronic device 20001 can connect to a network 20040 such as the Internet via a core network 20030 by connecting to a base station 20020 installed at a predetermined location by wireless communication corresponding to a predetermined communication method.
  • An edge server 20002 for realizing mobile edge computing (MEC) is provided at a position closer to the mobile terminal such as between the base station 20020 and the core network 20030.
  • a cloud server 20003 is connected to the network 20040 .
  • the edge server 20002 and the cloud server 20003 are capable of performing various types of processing depending on the application. Note that the edge server 20002 may be provided within the core network 20030 .
  • AI processing is performed by the electronic device 20001, the edge server 20002, the cloud server 20003, or the optical sensor 20011.
  • AI processing is to process the technology according to the present disclosure using AI such as machine learning.
  • AI processing includes learning processing and inference processing.
  • a learning process is a process of generating a learning model.
  • the learning process also includes a re-learning process, which will be described later.
  • Inference processing is processing for performing inference using a learning model.
  • a processor such as a CPU (Central Processing Unit) executes a program, or dedicated hardware such as a processor specialized for a specific application is used. AI processing is realized by using it.
  • a GPU Graphics Processing Unit
  • a processor specialized for a specific application can be used as a processor specialized for a specific application.
  • FIG. 13 shows a configuration example of the electronic device 20001.
  • the electronic device 20001 includes a CPU 20101 that controls the operation of each unit and various types of processing, a GPU 20102 that specializes in image processing and parallel processing, a main memory 20103 such as a DRAM (Dynamic Random Access Memory), and an auxiliary memory such as a flash memory. It has a memory 20104 .
  • a CPU 20101 that controls the operation of each unit and various types of processing
  • a GPU 20102 that specializes in image processing and parallel processing
  • main memory 20103 such as a DRAM (Dynamic Random Access Memory)
  • auxiliary memory such as a flash memory. It has a memory 20104 .
  • the auxiliary memory 20104 records programs for AI processing and data such as various parameters.
  • the CPU 20101 loads the programs and parameters recorded in the auxiliary memory 20104 into the main memory 20103 and executes the programs.
  • the CPU 20101 and GPU 20102 expand the programs and parameters recorded in the auxiliary memory 20104 into the main memory 20103 and execute the programs. This allows the GPU 20102 to be used as a GPGPU (General-Purpose computing on Graphics Processing Units).
  • GPGPU General-Purpose computing on Graphics Processing Units
  • the CPU 20101 and GPU 20102 may be configured as an SoC (System on a Chip).
  • SoC System on a Chip
  • the GPU 20102 may not be provided.
  • the electronic device 20001 also includes an optical sensor 20011 to which the technology according to the present disclosure is applied, an operation unit 20105 such as a physical button or touch panel, a sensor 20106 including at least one sensor, and information such as images and text. It has a display 20107 for display, a speaker 20108 for outputting sound, a communication I/F 20109 such as a communication module compatible with a predetermined communication method, and a bus 20110 for connecting them.
  • an optical sensor 20011 to which the technology according to the present disclosure is applied
  • an operation unit 20105 such as a physical button or touch panel
  • a sensor 20106 including at least one sensor
  • information such as images and text.
  • It has a display 20107 for display, a speaker 20108 for outputting sound, a communication I/F 20109 such as a communication module compatible with a predetermined communication method, and a bus 20110 for connecting them.
  • the sensor 20106 has at least one or more of various sensors such as an optical sensor (image sensor), sound sensor (microphone), vibration sensor, acceleration sensor, angular velocity sensor, pressure sensor, odor sensor, and biosensor.
  • data image data acquired from the optical sensor 20011 and data acquired from at least one or more of the sensors 20106 can be used.
  • the optical sensor 20011 may correspond to the depth sensor 11-1 (FIG. 1)
  • the sensor 20106 may correspond to the depth sensor 11-2 (FIG. 1).
  • Data obtained from two or more optical sensors by sensor fusion technology or data obtained by integrally processing them may be used in AI processing.
  • the two or more photosensors may be a combination of the photosensors 20011 and 20106, or the photosensor 20011 may include a plurality of photosensors.
  • optical sensors include RGB visible light sensors, distance sensors such as ToF (Time of Flight), polarization sensors, event-based sensors, sensors that acquire IR images, and sensors that can acquire multiple wavelengths. .
  • AI processing can be performed by processors such as the CPU 20101 and GPU 20102.
  • the processor of the electronic device 20001 performs inference processing, the processing can be started quickly after image data is acquired by the optical sensor 20011; therefore, the processing can be performed at high speed. Therefore, in the electronic device 20001, when inference processing is used for an application or the like that requires information to be transmitted with a short delay time, the user can operate without discomfort due to delay.
  • the processor of the electronic device 20001 performs AI processing, compared to the case of using a server such as the cloud server 20003, there is no need to use a communication line or a computer device for the server, and the processing is realized at low cost. can do.
  • the edge server 20002 has a CPU 20201 that controls the operation of each unit and performs various types of processing, and a GPU 20202 that specializes in image processing and parallel processing.
  • the edge server 20002 further has a main memory 20203 such as a DRAM, an auxiliary memory 20204 such as a HDD (Hard Disk Drive) or an SSD (Solid State Drive), and a communication I/F 20205 such as a NIC (Network Interface Card). They are connected to bus 20206 .
  • the auxiliary memory 20204 records programs for AI processing and data such as various parameters.
  • the CPU 20201 loads the programs and parameters recorded in the auxiliary memory 20204 into the main memory 20203 and executes the programs.
  • the CPU 20201 and the GPU 20202 can use the GPU 20202 as a GPGPU by deploying programs and parameters recorded in the auxiliary memory 20204 in the main memory 20203 and executing the programs.
  • the GPU 20202 may not be provided when the CPU 20201 executes the AI processing program.
  • AI processing can be performed by processors such as the CPU 20201 and GPU 20202.
  • processors such as the CPU 20201 and GPU 20202.
  • the edge server 20002 has higher processing capabilities such as computation speed than the electronic device 20001 and the optical sensor 20011, and thus can be configured for general purposes. Therefore, when the processor of the edge server 20002 performs AI processing, it can perform AI processing as long as it can receive data regardless of differences in specifications and performance of the electronic device 20001 and optical sensor 20011 .
  • the edge server 20002 performs AI processing, the processing load on the electronic device 20001 and the optical sensor 20011 can be reduced.
  • the configuration of the cloud server 20003 is the same as the configuration of the edge server 20002, so the explanation is omitted.
  • AI processing can be performed by processors such as the CPU 20201 and GPU 20202. Since the cloud server 20003 has higher processing capability such as calculation speed than the electronic device 20001 and the optical sensor 20011, it can be configured for general purposes. Therefore, when the processor of the cloud server 20003 performs AI processing, AI processing can be performed regardless of differences in specifications and performance of the electronic device 20001 and the optical sensor 20011 . Further, when it is difficult for the processor of the electronic device 20001 or the optical sensor 20011 to perform AI processing with high load, the processor of the cloud server 20003 performs the AI processing with high load, and the processing result is transferred to the electronic device 20001. Or it can be fed back to the processor of the photosensor 20011 .
  • FIG. 15 shows a configuration example of the optical sensor 20011.
  • the optical sensor 20011 can be configured as a one-chip semiconductor device having a laminated structure in which a plurality of substrates are laminated, for example.
  • the optical sensor 20011 is configured by stacking two substrates, a substrate 20301 and a substrate 20302 .
  • the configuration of the optical sensor 20011 is not limited to a laminated structure, and for example, a substrate including an imaging unit may include a processor such as a CPU or DSP (Digital Signal Processor) that performs AI processing.
  • a processor such as a CPU or DSP (Digital Signal Processor) that performs AI processing.
  • An imaging unit 20321 configured by arranging a plurality of pixels two-dimensionally is mounted on the upper substrate 20301 .
  • the lower substrate 20302 includes an imaging processing unit 20322 that performs processing related to image pickup by the imaging unit 20321, an output I/F 20323 that outputs the picked-up image and signal processing results to the outside, and an image pickup unit 20321.
  • An imaging control unit 20324 for controlling is mounted.
  • An imaging block 20311 is configured by the imaging unit 20321 , the imaging processing unit 20322 , the output I/F 20323 and the imaging control unit 20324 .
  • the lower substrate 20302 includes a CPU 20331 that controls each part and various processes, a DSP 20332 that performs signal processing using captured images and information from the outside, and SRAM (Static Random Access Memory) and DRAM (Dynamic Random Access Memory).
  • a memory 20333 such as a memory
  • a communication I/F 20334 for exchanging necessary information with the outside are installed.
  • a signal processing block 20312 is configured by the CPU 20331 , the DSP 20332 , the memory 20333 and the communication I/F 20334 .
  • AI processing can be performed by at least one processor of the CPU 20331 and the DSP 20332 .
  • the signal processing block 20312 for AI processing can be mounted on the lower substrate 20302 in the laminated structure in which a plurality of substrates are laminated.
  • the image data acquired by the imaging block 20311 for imaging mounted on the upper substrate 20301 is processed by the signal processing block 20312 for AI processing mounted on the lower substrate 20302.
  • a series of processes may be performed within a semiconductor device.
  • AI processing can be performed by a processor such as the CPU 20331.
  • the processor of the optical sensor 20011 performs AI processing such as inference processing
  • AI processing such as inference processing
  • the processor of the optical sensor 20011 can perform AI processing such as inference processing using image data at high speed.
  • inference processing is used for applications that require real-time performance
  • real-time performance can be sufficiently ensured.
  • ensuring real-time property means that information can be transmitted with a short delay time.
  • the processor of the optical sensor 20011 performs AI processing, the processor of the electronic device 20001 passes various kinds of metadata, thereby reducing processing and power consumption.
  • FIG. 16 shows a configuration example of the processing unit 20401.
  • the processor of the electronic device 20001, the edge server 20002, the cloud server 20003, or the optical sensor 20011 functions as a processing unit 20401 by executing various processes according to a program. Note that a plurality of processors included in the same or different devices may function as the processing unit 20401 .
  • the processing unit 20401 has an AI processing unit 20411.
  • the AI processing unit 20411 performs AI processing.
  • the AI processing unit 20411 has a learning unit 20421 and an inference unit 20422 .
  • the learning unit 20421 performs learning processing to generate a learning model.
  • a machine-learned learning model is generated by performing machine learning for correcting the correction target pixels included in the image data.
  • the learning unit 20421 may perform re-learning processing to update the generated learning model.
  • generation and updating of the learning model are explained separately, but since it can be said that the learning model is generated by updating the learning model, the meaning of updating the learning model is included in the generation of the learning model. shall be included.
  • the generated learning model is recorded in a storage medium such as a main memory or an auxiliary memory of the electronic device 20001, the edge server 20002, the cloud server 20003, or the optical sensor 20011, so that the inference performed by the inference unit 20422 Newly available for processing.
  • the electronic device 20001, the edge server 20002, the cloud server 20003, the optical sensor 20011, or the like that performs inference processing based on the learning model can be generated.
  • the generated learning model is recorded in a storage medium or electronic device independent of the electronic device 20001, edge server 20002, cloud server 20003, optical sensor 20011, or the like, and provided for use in other devices. good too.
  • the creation of the electronic device 20001, the edge server 20002, the cloud server 20003, or the optical sensor 20011 means not only recording a new learning model in the storage medium at the time of manufacture, but also It shall also include updating the generated learning model.
  • the inference unit 20422 performs inference processing using the learning model.
  • the learning model is used to identify correction target pixels included in image data and to correct the identified correction target pixels.
  • a pixel to be corrected is a pixel to be corrected that satisfies a predetermined condition among a plurality of pixels in an image corresponding to image data.
  • Neural networks and deep learning can be used as machine learning methods.
  • a neural network is a model imitating a human brain neural circuit, and consists of three types of layers: an input layer, an intermediate layer (hidden layer), and an output layer.
  • Deep learning is a model using a multi-layered neural network, which repeats characteristic learning in each layer and can learn complex patterns hidden in a large amount of data.
  • Supervised learning can be used as a problem setting for machine learning. For example, supervised learning learns features based on given labeled teacher data. This makes it possible to derive labels for unknown data.
  • image data actually acquired by an optical sensor, acquired image data that is collectively managed, a data set generated by a simulator, or the like can be used.
  • unsupervised learning a large amount of unlabeled learning data is analyzed to extract feature amounts, and clustering or the like is performed based on the extracted feature amounts. This makes it possible to analyze trends and make predictions based on vast amounts of unknown data.
  • Semi-supervised learning is a mixture of supervised learning and unsupervised learning. This is a method of repeating learning while calculating . Reinforcement learning deals with the problem of observing the current state of an agent in an environment and deciding what action to take.
  • the processor of the electronic device 20001, the edge server 20002, the cloud server 20003, or the optical sensor 20011 functions as the AI processing unit 20411, and AI processing is performed by one or more of these devices.
  • the AI processing unit 20411 only needs to have at least one of the learning unit 20421 and the inference unit 20422. That is, the processor of each device may of course execute both the learning process and the inference process, or may execute either one of the learning process and the inference process. For example, when the processor of the electronic device 20001 performs both inference processing and learning processing, it has the learning unit 20421 and the inference unit 20422. Just do it.
  • each device may execute all processing related to learning processing or inference processing, or after executing part of the processing in the processor of each device, the remaining processing may be executed by the processor of another device. good too. Further, each device may have a common processor for executing each function of AI processing such as learning processing and inference processing, or may have individual processors for each function.
  • AI processing may be performed by devices other than the devices described above.
  • the AI processing can be performed by another electronic device to which the electronic device 20001 can be connected by wireless communication or the like.
  • the electronic device 20001 is a smart phone
  • other electronic devices that perform AI processing include other smart phones, tablet terminals, mobile phones, PCs (Personal Computers), game machines, television receivers, Devices such as wearable terminals, digital still cameras, and digital video cameras can be used.
  • AI processing such as inference processing can be applied to configurations using sensors mounted on moving bodies such as automobiles and sensors used in telemedicine devices, but the delay time is short in those environments. is required.
  • AI processing is not performed by the processor of the cloud server 20003 via the network 20040, but by the processor of a local device (for example, the electronic device 20001 as an in-vehicle device or a medical device). This can shorten the delay time.
  • the processor of the local device such as the electronic device 20001 or the optical sensor 20011
  • AI processing can be performed in a more appropriate environment.
  • the electronic device 20001 is not limited to mobile terminals such as smartphones, but may be electronic devices such as PCs, game machines, television receivers, wearable terminals, digital still cameras, digital video cameras, in-vehicle devices, and medical devices. . Further, the electronic device 20001 may be connected to the network 20040 by wireless communication or wired communication corresponding to a predetermined communication method such as wireless LAN (Local Area Network) or wired LAN.
  • AI processing is not limited to processors such as CPUs and GPUs of each device, and quantum computers, neuromorphic computers, and the like may be used.
  • FIG. 17 shows the flow of data between multiple devices.
  • Electronic devices 20001-1 to 20001-N are possessed by each user, for example, and can be connected to a network 20040 such as the Internet via a base station (not shown) or the like.
  • a learning device 20501 is connected to the electronic device 20001 - 1 at the time of manufacture, and a learning model provided by the learning device 20501 can be recorded in the auxiliary memory 20104 .
  • Learning device 20501 generates a learning model using the data set generated by simulator 20502 as learning data, and provides it to electronic device 20001-1.
  • the learning data is not limited to the data set provided by the simulator 20502, and may be image data actually acquired by an optical sensor, acquired image data that is aggregated and managed, or the like.
  • the electronic devices 20001-2 to 20001-N can also record learning models at the stage of manufacture in the same manner as the electronic device 20001-1.
  • the electronic devices 20001-1 to 20001-N will be referred to as the electronic device 20001 when there is no need to distinguish between them.
  • a learning model generation server 20503 In addition to the electronic device 20001, a learning model generation server 20503, a learning model providing server 20504, a data providing server 20505, and an application server 20506 are connected to the network 20040, and data can be exchanged with each other.
  • Each server may be provided as a cloud server.
  • the learning model generation server 20503 has the same configuration as the cloud server 20003, and can perform learning processing using a processor such as a CPU.
  • the learning model generation server 20503 uses learning data to generate a learning model.
  • the illustrated configuration exemplifies the case where the electronic device 20001 records the learning model at the time of manufacture, but the learning model may be provided from the learning model generation server 20503 .
  • Learning model generation server 20503 transmits the generated learning model to electronic device 20001 via network 20040 .
  • the electronic device 20001 receives the learning model transmitted from the learning model generation server 20503 and records it in the auxiliary memory 20104 . As a result, electronic device 20001 having the learning model is generated.
  • the electronic device 20001 if the learning model is not recorded at the time of manufacture, the electronic device 20001 records a new learning model by newly recording the learning model from the learning model generation server 20503. is generated. In addition, in the electronic device 20001, when the learning model is already recorded at the stage of manufacture, the recorded learning model is updated to the learning model from the learning model generation server 20503, thereby generating the updated learning model. A recorded electronic device 20001 is generated. Electronic device 20001 can perform inference processing using a learning model that is appropriately updated.
  • the learning model is not limited to being directly provided from the learning model generation server 20503 to the electronic device 20001, but may be provided via the network 20040 by the learning model provision server 20504 that aggregates and manages various learning models.
  • the learning model providing server 20504 may provide a learning model not only to the electronic device 20001 but also to another device, thereby generating another device having the learning model.
  • the learning model may be provided by being recorded in a removable memory card such as a flash memory.
  • the electronic device 20001 can read and record the learning model from the memory card inserted in the slot. As a result, even when the electronic device 20001 is used in a harsh environment, does not have a communication function, or has a communication function but the amount of information that can be transmitted is small, it is possible to perform learning. model can be obtained.
  • the electronic device 20001 can provide data such as image data, corrected data, and metadata to other devices via the network 20040.
  • the electronic device 20001 transmits data such as image data and corrected data to the learning model generation server 20503 via the network 20040 .
  • the learning model generation server 20503 can use data such as image data and corrected data collected from one or more electronic devices 20001 as learning data to generate a learning model. Accuracy of the learning process can be improved by using more learning data.
  • Data such as image data and corrected data are not limited to being provided directly from the electronic device 20001 to the learning model generation server 20503, but may be provided by the data providing server 20505 that aggregates and manages various data.
  • the data providing server 20505 may collect data not only from the electronic device 20001 but also from other devices, and may provide data not only from the learning model generation server 20503 but also from other devices.
  • the learning model generation server 20503 performs relearning processing by adding data such as image data and corrected data provided from the electronic device 20001 or the data providing server 20505 to the learning data of the already generated learning model. You can update the model. The updated learning model can be provided to electronic device 20001 .
  • processing can be performed regardless of differences in specifications and performance of the electronic devices 20001 .
  • the electronic device 20001 when the user performs a correction operation on the corrected data or metadata (for example, when the user inputs correct information), the feedback data regarding the correction process is used in the relearning process. may be used. For example, by transmitting feedback data from the electronic device 20001 to the learning model generation server 20503, the learning model generation server 20503 performs re-learning processing using the feedback data from the electronic device 20001, and updates the learning model. can be done. Note that the electronic device 20001 may use an application provided by the application server 20506 when the user performs a correction operation.
  • the re-learning process may be performed by the electronic device 20001.
  • the learning model when the learning model is updated by performing re-learning processing using image data and feedback data, the learning model can be improved within the device.
  • electronic device 20001 with the updated learning model is generated.
  • the electronic device 20001 may transmit the updated learning model obtained by the re-learning process to the learning model providing server 20504 so that the other electronic device 20001 is provided with the updated learning model.
  • the updated learning model can be shared among the plurality of electronic devices 20001 .
  • the electronic device 20001 may transmit the difference information of the re-learned learning model (difference information regarding the learning model before update and the learning model after update) to the learning model generation server 20503 as update information.
  • the learning model generation server 20503 can generate an improved learning model based on the update information from the electronic device 20001 and provide it to other electronic devices 20001 . By exchanging such difference information, privacy can be protected and communication costs can be reduced as compared with the case where all information is exchanged.
  • the optical sensor 20011 mounted on the electronic device 20001 may perform the re-learning process similarly to the electronic device 20001 .
  • the application server 20506 is a server capable of providing various applications via the network 20040. Applications provide predetermined functions using data such as learning models, corrected data, and metadata. Electronic device 20001 can implement a predetermined function by executing an application downloaded from application server 20506 via network 20040 . Alternatively, the application server 20506 can acquire data from the electronic device 20001 via an API (Application Programming Interface), for example, and execute an application on the application server 20506, thereby realizing a predetermined function.
  • API Application Programming Interface
  • data such as learning models, image data, and corrected data are exchanged and distributed between devices, and various services using these data are provided.
  • data such as learning models, image data, and corrected data are exchanged and distributed between devices, and various services using these data are provided.
  • a service of providing a learning model via the learning model providing server 20504 and a service of providing data such as image data and corrected data via the data providing server 20505 can be provided.
  • a service that provides applications via the application server 20506 can be provided.
  • image data acquired from the optical sensor 20011 of the electronic device 20001 may be input to the learning model provided by the learning model providing server 20504, and corrected data obtained as output may be provided.
  • a device such as an electronic device in which the learning model provided by the learning model providing server 20504 is installed may be generated and provided.
  • a storage medium in which these data are recorded and an electronic device equipped with the storage medium are generated.
  • the storage medium may be a magnetic disk, an optical disk, a magneto-optical disk, a non-volatile memory such as a semiconductor memory, or a volatile memory such as an SRAM or a DRAM.
  • the present disclosure can be configured as follows.
  • the first sensor and the second sensor are arranged so that their fields of view overlap,
  • the processing unit is When generating the third image by connecting the first image and the second image, specifying a position corresponding to the overlapping portion of the field of view in the third image as a pixel correction position.
  • the information processing apparatus according to (1), wherein the depth information of the pixel correction position is corrected using the learned model.
  • the learned model outputs the third image in which defects in depth information due to the overlapping portion of the field of view are corrected by learning with the defective third image and the pixel correction position as inputs. It is a model that has become
  • the processing unit uses the learned model to perform inference with the third image having a defect in depth information due to the overlapping portion of the field of view and the pixel correction position as input, thereby correcting the defect.
  • the information processing apparatus according to (2) which generates the third image.
  • the first sensor and the second sensor are arranged so that their fields of view overlap
  • the processing unit is When generating the third image by connecting the first image and the second image, a position corresponding to the overlapping portion of the field of view in the first image and the second image is Identify as a pixel correction position,
  • the information processing apparatus according to (1), wherein the depth information of the pixel correction position is corrected using the learned model.
  • the learned model corrects the depth information defect due to the overlapping portion of the field of view by learning with the defective first image or the second image and the pixel correction position as input.
  • the processing unit is Using the learned model, the defect is corrected by performing inference with the input of the first image or the second image having a defect in depth information due to the overlapping portion of the field of view and the pixel correction position.
  • the first sensor and the second sensor are arranged so that their fields of view do not overlap,
  • the processing unit is When generating the third image by connecting the first image and the second image, a position corresponding to the gap portion of the field of view in the third image is specified as a pixel correction position.
  • the information processing apparatus wherein the depth information of the pixel correction position is corrected using the learned model.
  • the learned model outputs the third image in which defects in depth information due to gaps in the field of view are corrected by learning with the defective third image and the pixel correction position as inputs. It is a model that has become
  • the processing unit uses the learned model to perform inference with the third image having a defect in depth information due to a gap in the field of view and the pixel correction position as input, thereby correcting the defect.
  • the information processing apparatus according to (6), which generates the third image.
  • the first sensor and the second sensor are sensors having different fields of view, and are arranged so that their fields of view overlap
  • the processing unit is When generating the third image by connecting the first image and the second image, specifying a position corresponding to the overlapping portion of the field of view in the third image as a pixel correction position.
  • the information processing apparatus according to (1), wherein the depth information of the pixel correction position is corrected using the learned model.
  • the learned model outputs the third image in which defects in depth information due to the overlapping portion of the field of view are corrected by learning with the defective third image and the pixel correction position as inputs.
  • the processing unit uses the learned model to perform inference with the third image having a defect in depth information due to the overlapping portion of the field of view and the pixel correction position as input, thereby correcting the defect.
  • the information processing apparatus according to (8) which generates the third image.
  • the first sensor has a field of view corresponding to a wide angle
  • the information processing device A first image showing an object acquired by a first sensor with depth information, a second image showing an object acquired by a second sensor with depth information, the first image and the second image An information processing method for performing processing using a learned model learned by machine learning on at least a part of a third image obtained from two images, and correcting correction target pixels included in one of the images.
  • the computer A first image showing an object acquired by a first sensor with depth information, a second image showing an object acquired by a second sensor with depth information, the first image and the second image a processing unit that performs processing using a learned model learned by machine learning on at least a part of a third image obtained from the second image, and corrects correction target pixels included in one of the images;
  • a program that acts as a device.
  • a processing unit that performs processing using a trained model learned by machine learning on at least a part of an image showing depth information of an object acquired by a sensor having a first light source and a second light source, The first light source and the second light source are arranged so that light irradiation areas overlap, The processing unit is identifying a position corresponding to the overlapping portion of the irradiation area in the image as a pixel correction position; An information processing apparatus that corrects depth information of the pixel correction position using the learned model.
  • the learned model is a model that outputs the image in which the depth information defect due to the overlapping portion of the irradiation area is corrected by learning with the image having the defect and the pixel correction position as input.
  • the processing unit uses the learned model to perform inference with the image having a defect in depth information due to the overlapped portion of the irradiation area and the pixel correction position as input, thereby correcting the defect in the image.
  • the information processing apparatus according to (13) above.
  • the information processing device A trained model trained by machine learning on at least a part of an image showing depth information of an object acquired by a sensor having a first light source and a second light source arranged so that light irradiation regions overlap. and perform processing using identifying a position corresponding to the overlapping portion of the irradiation area in the image as a pixel correction position; An information processing method for correcting depth information of the pixel correction position using the learned model.
  • a processing unit that performs processing using The processing unit is identifying a position corresponding to the overlapping portion of the irradiation area in the image as a pixel correction position;

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、センサの視野に起因した補正対象画素を補正することができるようにする情報処理装置、情報処理方法、及びプログラムに関する。 第1のセンサにより取得された対象物を深度情報で示した第1の画像、第2のセンサにより取得された対象物を深度情報で示した第2の画像、第1の画像と第2の画像から得られる第3の画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、いずれかの画像に含まれる補正対象画素を補正する処理部を備える情報処理装置が提供される。本開示は、例えば、複数のデプスセンサを有する機器に適用することができる。

Description

情報処理装置、情報処理方法、及びプログラム
 本開示は、情報処理装置、情報処理方法、及びプログラムに関し、特に、センサの視野に起因した補正対象画素を補正することができるようにした情報処理装置、情報処理方法、及びプログラムに関する。
 複数のデプスセンサにより得られたデプス画像を連結して、より広角なデプス画像を生成する技術がある。
 特許文献1には、深度マップの品質を向上させるために、深度測定データ内の欠陥画素を検出し、検出した欠陥画素の深度修正を定義し、検出した欠陥画素の深度測定データに深度修正を適用する技術が開示されている。
特表2014-524016号公報
 複数のデプスセンサを、視野が所定の関係を有するように配置して様々なデプス画像を生成するに際して、処理対象となるデプス画像に、センサの視野に起因して欠陥画素等の補正対象画素が含まれる場合があり、センサの視野に起因した補正対象画素を補正することが求められる。
 本開示はこのような状況に鑑みてなされたものであり、センサの視野に起因した補正対象画素を補正することができるようにするものである。
 本開示の第1の側面の情報処理装置は、第1のセンサにより取得された対象物を深度情報で示した第1の画像、第2のセンサにより取得された対象物を深度情報で示した第2の画像、前記第1の画像と前記第2の画像から得られる第3の画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、いずれかの画像に含まれる補正対象画素を補正する処理部を備える情報処理装置である。
 本開示の第1の側面の情報処理方法、及びプログラムは、上述した本開示の第1の側面の情報処理装置に対応する情報処理方法、及びプログラムである。
 本開示の第1の側面の情報処理装置、情報処理方法、及びプログラムにおいては、第1のセンサにより取得された対象物を深度情報で示した第1の画像、第2のセンサにより取得された対象物を深度情報で示した第2の画像、前記第1の画像と前記第2の画像から得られる第3の画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理が行われ、いずれかの画像に含まれる補正対象画素が補正される。
 本開示の第2の側面の情報処理装置は、第1の光源と第2の光源を有するセンサにより取得された対象物を深度情報で示した画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行う処理部を備え、前記第1の光源と前記第2の光源は、光の照射領域が重なるように配置されており、前記処理部は、前記画像における前記照射領域の重複部分に対応した位置を、画素補正位置として特定し、前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する情報処理装置である。
 本開示の第2の側面の情報処理方法、及びプログラムは、上述した本開示の第2の側面の情報処理装置に対応する情報処理方法、及びプログラムである。
 本開示の第2の側面の情報処理装置、情報処理方法、及びプログラムにおいては、光の照射領域が重なるように配置された第1の光源と第2の光源を有するセンサにより取得された対象物を深度情報で示した画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理が行われ、前記画像における前記照射領域の重複部分に対応した位置が、画素補正位置として特定され、前記学習済みモデルを用いて、前記画素補正位置の深度情報が補正される。
 なお、本開示の第1の側面及び第2の側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
本開示を適用した測距装置の構成例を示す図である。 2つのデプスセンサの視野の重複部分の補正について説明する図である。 教師あり学習を用いた場合における学習装置と推論部の構成例を示す図である。 補正処理の流れを説明するフローチャートである。 2つのデプスセンサの視野の隙間部分の補正について説明する図である。 視野が異なる2つのデプスセンサの視野の重複部分の補正について説明する図である。 1つのデプスセンサが有する複数の光源の照射領域の重複部分の補正について説明する図である。 本開示を適用した測距装置の他の構成の第1の例を示す図である。 本開示を適用した測距装置の他の構成の第2の例を示す図である。 本開示を適用した測距装置の他の構成の第3の例を示す図である。 本開示を適用した測距装置の他の構成の第4の例を示す図である。 AI処理を行う装置を含むシステムの構成例を示す図である。 電子機器の構成例を示すブロック図である。 エッジサーバ又はクラウドサーバの構成例を示すブロック図である。 光センサの構成例を示すブロック図である。 処理部の構成例を示すブロック図である。 複数の装置間でのデータの流れを示す図である。
<1.本開示の実施の形態>
(装置の構成例)
 図1は、本開示を適用した測距装置の構成例を示す図である。
 図1において、測距装置10は、デプスセンサ11-1、デプスセンサ11-2、測距演算部12-1、測距演算部12-2、スティッチング処理部13、及び距離補正部14から構成される。測距装置10において、デプスセンサ11-1とデプスセンサ11-2は、視野(FoV:Fields of View)に重なりを持つように配置される。
 デプスセンサ11-1は、ToFセンサなどの測距センサである。例えば、ToFセンサでは、光源から照射された光が対象物で反射して受光素子(受光部)で受光するまでの時間を計測し、既知である光の速度を元に距離を算出する。ToFセンサは、dToF(direct Time of Flight)方式とiToF(indirect Time of Flight)方式のいずれの方式であってもよい。
 なお、デプスセンサ11-1としては、ストラクチャライト方式のセンサ、LiDAR(Light Detection and Ranging)方式のセンサ、ステレオカメラなどを用いてもよい。デプスセンサ11-1は、対象物を測定し、その結果得られるRAWデータを測距演算部12-1に供給する。
 測距演算部12-1は、測距キャリブレーションパラメータに基づいて、デプスセンサ11-1から供給されるRAWデータを用いた測距演算を行い、その結果得られる対象物までの距離に関する距離データをスティッチング処理部13に供給する。測距演算部12-1は、デプスセンサ11-1内に設けられてもよい。
 デプスセンサ11-2は、ToFセンサなどの測距センサである。デプスセンサ11-2は、対象物を測定し、その結果得られるRAWデータを測距演算部12-2に供給する。
 測距演算部12-2は、測距キャリブレーションパラメータに基づいて、デプスセンサ11-2から供給されるRAWデータを用いた測距演算を行い、その結果得られる対象物までの距離に関する距離データをスティッチング処理部13に供給する。測距演算部12-2は、デプスセンサ11-2内に設けられてもよい。
 測距キャリブレーションパラメータは、例えば、オフセット、サイクリックエラー、ディストーション、温度補正などに関するパラメータを含む。測距演算部12-1と測距演算部12-2では、測距キャリブレーションパラメータのうち、必要なパラメータを適宜用いることができる。
 スティッチング処理部13には、測距演算部12-1からの距離データと、測距演算部12-2からの距離データが供給される。スティッチング処理部13は、内部・外部キャリブレーションパラメータに基づいて、距離データを結合する結合処理を行い、その結果得られる結合後距離データを、距離補正部14に供給する。
 例えば、スティッチング処理部13では、距離データとして、各デプスセンサの信号から得られたデプス画像がそれぞれ供給され、それらのデプス画像を連結する処理が行われることで、結合後距離データとして、2枚のデプス画像を連結した広角デプス画像が生成される。デプス画像は、対象物を深度情報で示した画像である。広角デプス画像は、複数枚のデプス画像を連結することで、1枚のデプス画像と比べてより広角となったデプス画像である。
 内部・外部キャリブレーションパラメータは、内部キャリブレーションに用いられるレンズ歪みなどに関するパラメータと、外部キャリブレーションに用いられるカメラ姿勢などに関するパラメータとを含む。スティッチング処理部13では、内部・外部キャリブレーションパラメータのうち、必要なパラメータを適宜用いることができる。
 距離補正部14は、重複部情報に基づいて、スティッチング処理部13から供給される結合後距離データを補正する補正処理を行い、その結果得られる補正後の結合後距離データを出力する。重複部情報は、重複する画素のマップなどの情報を含む。距離補正部14では、重複部情報に含まれる情報のうち、必要な情報を適宜用いることができる。補正後の結合後距離データとしては、ポイントクラウド等のデータが出力される。
 距離補正部14は、補正処理を行うに際して、結合後距離データの少なくとも一部に機械学習により学習された学習済みモデル(学習モデル)を用いた処理を行い、結合後距離データを補正する。例えば、距離補正部14では、欠陥がある広角デプス画像に対し、機械学習により学習された学習済みモデル(学習モデル)を用いた処理を行うことで、欠陥を補正済みの広角デプス画像が生成される。
 以上のように構成される測距装置10においては、デプスセンサ11-1とデプスセンサ11-2の2つのデプスセンサを、視野(FoV)に重なりを持つように配置して、対象物を測定することで得られる2枚のデプス画像を連結することで、より広角なデプス画像を生成することができる。
 このとき、デプスセンサ11-1とデプスセンサ11-2の視野の重なり部分により、例えば、次のような影響がある。
 すなわち、一方のデプスセンサの光源からの光に対し、他方のデプスセンサの光源からの光が入ってしまうことで、光源の相互干渉が発生して悪影響を及ぼす可能性がある。これは、光源が複数になることで、マルチパスのパターンが増えることに起因している。また、視野の重なり部分に対応した各デプス画像の領域、つまり、画像端は、レンズの歪みやその補正が不十分なことで劣化する可能性が高い。
 デプスセンサ11-1とデプスセンサ11-2のそれぞれの光源により光が照射されるため、視野の重なり部分では、二重の露光によってデプス値が異常な値になってしまう。さらに、一方のデプスセンサの光源から光を照射していたが、途中から、他方のデプスセンサの光源からも光が照射されてしまうと、コンフィデンス値が異常な値になってしまう。デプスセンサ内の受光素子(受光部)には受光可能なレンジがあるが、デプスセンサ11-1とデプスセンサ11-2から同時に光が照射されると、そのレンジを超えて飽和してしまう恐れがある。
 図2は、デプスセンサ11-1の視野に対するデプスセンサ11-2の視野の重複部分を示している。図2においては、デプスセンサ11-1の視野FoVを一点鎖線で示し、デプスセンサ11-2の視野FoVを二点鎖線で示すとともに、視野FoVに対する視野FoVの重複部分Oをドットの模様で示している。
 この重複部分Oでは、デプスセンサ11-1とデプスセンサ11-2の2つのデプスセンサの光源のそれぞれから光が照射されることや、各デプスセンサから得られるデプス画像の画像端が劣化することなどにより、デプス画像に対する様々な影響があることは先に述べた通りである。
 そこで、本開示に係る技術では、このような視野の重複部分に起因して欠陥を含む広角デプス画像を補正して、欠陥のない広角デプス画像が得られるようにする。欠陥がある広角デプス画像を補正するに際しては、広角デプス画像の少なくとも一部に機械学習により学習された学習済みモデル(学習モデル)を用いた処理が行われる。
(学習モデルを用いた処理)
 図1の距離補正部14では、欠陥を含む広角デプス画像の少なくとも一部に学習済みモデル(学習モデル)を用いた処理が行われる。図3は、教師あり学習を用いた場合における学習時の処理を行う学習装置と、推論時の処理を行う推論部の構成例を示している。
 図3においては、上段に、学習時の処理を行う学習装置200を示し、下段に、推論時の処理を行う推論部111が示されている。推論部111は、図1の距離補正部14に含まれる。
 図3において、学習装置200は、学習モデル221を有する。学習モデル221は、デプス値に欠陥がある広角デプス画像とその欠陥画素の位置を示した画素位置情報(欠陥画素位置情報)を入力とし、広角デプス画像を出力するニューラルネットワーク(NN:Neural Network)による機械学習を行うモデルである。
 例えば、学習モデル221では、デプス値に欠陥がある広角デプス画像と、欠陥画素の位置を示した画素位置情報(欠陥画素位置情報)を学習データとし、欠陥画素位置(を含む領域)の補正に関する情報を教師データとした学習を繰り返すことで、その出力として欠陥を補正済みの広角デプス画像を出力することができるようになる。例えば、欠陥を補正済みの広角デプス画像は、2つのデプスセンサの視野の重複部分に起因した欠陥が補正された広角デプス画像である。ニューラルネットワークとしては、例えば、DNN(Deep Neural Network)やオートエンコーダなどを用いることができる。
 このようにして学習時に機械学習により学習した学習モデル221を、学習済みモデルとして推論時に用いることができる。
 図3において、推論部111は、学習モデル121を有する。学習モデル121は、学習時に機械学習により学習することで学習済みとなった学習モデル221に対応している。
 学習モデル121は、デプス値に欠陥がある広角デプス画像と欠陥画素位置情報を入力とした推論を行うことで、欠陥を補正済みの広角デプス画像を出力する。ここで、デプス値に欠陥がある広角デプス画像は、デプスセンサ11-1とデプスセンサ11-2の2つのデプスセンサによる測定データとしての2枚のデプス画像を連結することで生成された広角デプス画像である。つまり、広角デプス画像の欠陥は、2つのデプスセンサの視野の重複部分に起因している。また、欠陥画素位置情報は、広角デプス画像から特定される欠陥画素の位置に関する情報である。
 なお、教師あり学習として、他の機械学習を行ってもよい。例えば、学習時において、学習モデル221の出力として欠陥を補正済みの画素位置に関する情報が出力されるように学習することで、推論時において、学習モデル121では、デプス値に欠陥がある広角デプス画像と欠陥画素位置情報を入力とした推論を行い、欠陥を補正済みの画素位置に関する情報を出力するようにしてもよい。
 また、教師なし学習により、学習モデルを生成しても構わない。例えば、欠陥がない広角デプス画像を入力としてニューラルネットワークにより機械学習を行う学習モデルを用いて、当該学習モデルが、欠陥がある広角デプス画像を知らずに教師なし学習を繰り返すことで、その出力として、欠陥が消えている広角デプス画像を出力するようになる。このようにして教師なし学習により学習済みとなった学習モデルを推論時に用いて、デプス値に欠陥がある広角デプス画像を入力とした推論を行うことで、欠陥を補正済みの広角デプス画像を出力することができる。
(補正処理)
 次に、図4のフローチャートを参照して、距離補正部14における補正処理の流れを説明する。
 ステップS101において、スティッチング処理部13は、2枚のデプス画像を連結して、広角デプス画像を生成する。
 ステップS102において、距離補正部14は、広角デプス画像に含まれる全てのD画素を処理したかどうかを判定する。ここでは、広角デプス画像に含まれる画素をD画素と呼んでいる。
 ステップS102において、全てのD画素を処理していないと判定された場合、処理はステップS103に進められる。ステップS103において、距離補正部14は、処理対象のD画素についてデプス値と画素位置(x, y)を取得する。
 ステップS104において、距離補正部14は、取得した処理対象のD画素のデプス値が有効なデプス値であるかどうかを判定する。
 ステップS104において、処理対象のD画素のデプス値が有効なデプス値ではないと判定された場合、処理はステップS105に進められる。ステップS105において、距離補正部14は、デプス値が有効でないD画素の画素位置(x, y)を、画素補正位置(x, y)として取得する。
 ステップS105の処理が終了すると、処理はステップS102に戻る。また、ステップS104において、処理対象のD画素のデプス値が有効なデプス値であると判定された場合には、ステップS105の処理はスキップされ、処理はステップS102に戻る。
 上述した処理が繰り返されて、ステップS102において、全てのD画素を処理したと判定された場合、処理はステップS106に進められる。すなわち、全てのD画素を処理したときに、広角デプス画像において、2つのデプスセンサの視野の重複部分に起因してデプス値が正常でないD画素の画素位置(x, y)が、画素補正位置(x, y)として全て特定される。
 ステップS106において、距離補正部14は、広角デプス画像にて補正が必要なデプス値があるかどうかを判定する。
 ステップS106において、広角デプス画像にて補正が必要なデプス値があると判定された場合、処理はステップS107に進められる。ここでは、ステップS102乃至S105の処理が繰り返されることで、デプス値が正常でないD画素の画素補正位置(x, y)が特定されているとき、補正が必要なデプス値があると判定される。
 ステップS107において、距離補正部14は、デプス値が正常でないD画素の画素補正位置(x, y)に基づいて、画素補正位置情報を生成する。この画素補正位置情報は、デプス値の補正が必要なD画素を、補正する必要がある画素(欠陥画素)であるとして、その画素位置を特定するための情報(座標(x, y))を含んでいる。
 ステップS108において、距離補正部14の推論部111(図3)は、学習モデル121を用いて、デプス値に欠陥がある広角デプス画像と画素補正位置情報を入力として推論を行い、欠陥を補正済みの広角デプス画像を生成する。学習モデル121は、学習時に、デプス値に欠陥がある広角デプス画像と欠陥画素位置情報を入力としてニューラルネットワークによる学習を行った学習済みモデルであって、欠陥を補正済みの広角デプス画像を出力することができる。
 なお、ここでは、学習モデル121(図3)を用いた場合を示したが、デプス値に欠陥がある広角デプス画像を入力とした推論を行うことで欠陥を補正済みの広角デプス画像を出力する学習モデルなどの他の学習済みモデルを用いても構わない。
 ステップS108の処理が終了すると、一連の処理は終了する。また、ステップS106において、広角デプス画像にて補正が必要なデプス値がないと判定された場合、欠陥がない広角デプス画像(完全な広角デプス画像)が生成されて補正する必要がないため、ステップS107,S108の処理がスキップされ、一連の処理は終了する。
 以上、補正処理の流れを説明した。この補正処理では、2つのデプスセンサの視野の重複部分に起因してデプス値に欠陥を含む広角デプス画像におけるデプス値が正常でないD画素の画素位置(画素補正位置)が特定され、デプス値に欠陥がある広角デプス画像と画素補正位置情報を入力として学習モデル121を用いた推論が行われることで、欠陥を含む広角デプス画像が補正される。これにより、2枚のデプス画像を連結した広角デプス画像において、2つのデプスセンサの視野の重複部分に対応する欠陥を含む領域が補正される。
(隙間部分の補正)
 上述した説明では、2つのデプスセンサの視野が重複している場合にその重複部分に対応する領域を含む広角デプス画像を補正する場合を示したが、デプスセンサ11-1とデプスセンサ11-2とで視野が重なりを持たない(視野が離れている)場合に、各デプスセンサから得られる2枚のデプス画像の隙間部分に対応する領域を補正するようにしてもよい。
 図5は、デプスセンサ11-1の視野とデプスセンサ11-2の視野との隙間部分を示している。図5においては、デプスセンサ11-1の視野FoVを一点鎖線で示し、デプスセンサ11-2の視野FoVを二点鎖線で示すとともに、視野FoVと視野FoVとの隙間部分Gをドットの模様で示している。
 この場合において、各デプスセンサから得られる2枚のデプス画像を結合して広角デプス画像を生成した場合、2つのデプスセンサの視野の隙間部分Gに起因してデプス値に欠陥を含む広角デプス画像が生成されることになる。そこで、本開示に係る技術では、このような視野の隙間部分に起因して欠陥を含む広角デプス画像を補正して、欠陥のない広角デプス画像が得られるようにする。ここで、欠陥がある広角デプス画像を補正するに際しては、広角デプス画像の少なくとも一部に機械学習により学習された学習済みモデル(学習モデル)を用いた処理が行われる。
 ここでの補正処理としては、図4に示した補正処理と同様の処理が行われる。すなわち、図4に示した補正処理では、画素補正位置(x, y)として、2つのデプスセンサの視野の重複部分に起因してデプス値が正常でないD画素の画素位置(x, y)が特定される場合を説明したが、ここでは、2つのデプスセンサの視野の隙間部分に起因してデプス値が割り当てられていないD画素の画素位置(x, y)が特定される。
 そして、デプス値に欠陥がある広角デプス画像と画素補正位置情報を入力として学習モデルを用いた推論が行われることで、欠陥を含む広角デプス画像が補正される。これにより、欠陥を含む広角デプス画像において、2つのデプスセンサの視野の隙間部分に対応する領域が補正される。ここで用いられる学習モデルは、デプス値に欠陥がある広角デプス画像と画素補正位置情報を入力とした学習によって、視野の隙間部分に起因したデプス値の欠陥を補正済みの広角デプス画像を出力するようになった学習済みモデルであって、例えば、視野の異なる複数のデプス画像から隙間部分に対応した領域を類推するように学習されている。
 このように、デプスセンサ11-1とデプスセンサ11-2とで視野が重なりを持たない場合でも、欠陥がない広角デプス画像(連結部分が補間された広角デプス画像)を生成することができる。また、2つのデプスセンサの視野が重なりを持たないことから、各デプスセンサでは、受光素子が受光可能なレンジを超えて飽和することを避けることができる。さらに、2つのデプスセンサの視野に重複部分がある場合には、アイセーフの目的で、重複部分にて限度を超えないように光源を設定するため、重複部分以外の領域が暗く照らされてしまうが、2つのデプスセンサの視野に隙間部分がある場合には、そのような光源を絞ることは不要であり、一部の領域が暗く照らされることを回避することができる。
(異なる視野の重複部分の補正)
 上述した説明では、2つのデプスセンサの視野が際(境目の領域)で重複している場合を示したが、広角と望遠などの異なる視野を有する2つのデプスセンサの視野が重なるように配置される場合に、それらのデプスセンサの視野の重複部分に起因して欠陥を含むデプス画像を補正するようにしてもよい。
 図6は、広角側のデプスセンサ11-1の視野と、望遠側のデプスセンサ11-2の視野との重複部分を示している。図6においては、広角側のデプスセンサ11-1の視野FoVを一点鎖線で示し、望遠側のデプスセンサ11-2の視野FoVを二点鎖線で示すとともに、視野FoVに対する視野FoVの重複部分Oをドットの模様で示している。
 この場合において、各デプスセンサから得られる2枚のデプス画像を結合してデプス画像を新たに生成した場合、2つのデプスセンサの視野の重複部分Oに起因してデプス値に欠陥を含むデプス画像が生成される可能性がある。つまり、重複部分Oでは、各デプスセンサの光源により二重に露光がなされることで、デプス値が異常な値となる恐れがある。そこで、本開示に係る技術では、このようなデプスセンサの視野の重複部分に起因して欠陥を含むデプス画像を補正して、欠陥がないデプス画像が得られるようにする。
 ここで、デプス値に欠陥があるデプス画像を補正するに際しては、上述した説明と同様にして、デプス画像の少なくとも一部に機械学習により学習された学習済みモデル(学習モデル)を用いた処理が行われる。ここでは、学習モデルとして、デプス値に欠陥があるデプス画像と画素補正位置情報を入力とした学習によって、視野の重複部分に起因したデプス値の欠陥を補正済みのデプス画像を出力するようになった学習済みモデルを用いることができる。
 このように、デプスセンサ11-1とデプスセンサ11-2とが、広角と望遠などの異なる視野を有してそれらの視野が重なるように配置された場合でも、欠陥がないデプス画像を生成することができる。例えば、広角と望遠に対応したデプスセンサを組み合わせた場合に、各デプスセンサからのデプス画像を結合して得られるデプス画像の一部に学習モデルを用いた補正処理を行い、欠陥がないデプス画像を生成することで、デプス測距範囲(装置から見て手前から奥に向かう方向の測距範囲)を拡大させることができる。
(複数の光源を有する場合の重複部分の補正)
 1つのデプスセンサが複数の光源を有して、複数の光源による光の照射領域が重なるように配置される場合にも、光源の照射領域の重複部分に起因してデプス画像が欠陥を含むことが想定される。
 図7は、1つのデプスセンサ11に対し、光源LS1と光源LS2の2つの光源が設けられる場合に、光源LS1による光の照射領域と光源LS2による光の照射領域との重複部分を示している。図7においては、光源LS1から照射される光Lを一点鎖線で示し、光源LS2から照射される光Lを二点鎖線で示すとともに、光源LS1と光源LS2の照射領域の重複部分Oをドットの模様で示している。光源による光の照射領域は、いわば光源の視野に対応した領域であり、図7では、光源LS1の視野と光源LS2の視野とが重複しているとも言える。
 この場合において、デプスセンサ11がデプス画像を生成するとき、2つの光源の照射領域の重複部分Oに起因してデプス値に欠陥を含むデプス画像が生成される可能性がある。そこで、本開示に係る技術では、このような光源の照射領域の重複部分に起因して欠陥を含むデプス画像を補正して、欠陥がないデプス画像が得られるようにする。ここで、欠陥があるデプス画像を補正するに際しては、上述した説明と同様にして、デプス画像の少なくとも一部に機械学習により学習された学習済みモデル(学習モデル)を用いた処理が行われる。
 ここで、図4のフローチャートの処理に当てはめて、具体的に説明すれば、ステップS101の連結処理を行わずに、1つのデプスセンサ11により取得された1枚のデプス画像(広角デプス画像)に対して、ステップS102以降の処理を行えばよい。ただし、ステップS108の推論処理で用いられる学習モデルは、デプス値に欠陥があるデプス画像と画素補正位置情報を入力とした学習によって、光源の照射領域の重なりに起因したデプス値の欠陥を補正済みのデプス画像を出力するようになった学習済みモデルを用いることができる。
<2.変形例>
(他の構成例)
 図1に示した構成では、距離補正部14が、学習モデル121を用いて、結合後距離データとしての広角デプス画像に対する補正処理を行う構成を示したが、測距演算処理、スティッチング処理、及び距離補正処理を含む処理の少なくとも一部の処理で、機械学習により学習された学習済みモデル(学習モデル)を用いた処理を行うことができる。
(A)第1の構成例
 図8は、2枚のデプス画像に対し、学習モデルを用いて補正処理を行う場合の構成例を示している。
 図8において、測距装置20は、図1の測距装置10と比べて、スティッチング処理部13、及び距離補正部14の代わりに、距離補正部21-1、距離補正部21-2、及びスティッチング処理部22が設けられている。なお、図8において、図1と対応する箇所には同一の符号を付してあり、その説明は省略する。
 距離補正部21-1は、重複部情報に基づいて、測距演算部12-1から供給される距離データを補正する補正処理を行い、その結果得られる補正後距離データをスティッチング処理部22に供給する。すなわち、距離補正部21-1では、距離データとしてのデプス画像を補正(重なり部分を補正)するに際して、学習モデルを用いて、デプス値に欠陥があるデプス画像と画素補正位置情報を入力として推論を行い、欠陥を補正済みのデプス画像を生成する。
 距離補正部21-2は、重複部情報に基づいて、測距演算部12-2から供給される距離データを補正する補正処理を行い、その結果得られる補正後距離データをスティッチング処理部22に供給する。距離補正部21-2では、距離補正部21-1と同様に、学習モデルを用いて、欠陥を補正済みのデプス画像が生成される。
 スティッチング処理部22には、距離補正部21-1からの補正後距離データと、距離補正部21-2からの補正後距離データが供給される。スティッチング処理部22は、内部・外部キャリブレーションパラメータに基づいて、補正後距離データを結合する結合処理を行い、その結果得られる結合後距離データを出力する。すなわち、スティッチング処理部22では、補正後距離データとして供給される2枚の補正済みのデプス画像を連結する処理が行われ、欠陥がない広角デプス画像が生成される。
 距離補正部21-1と距離補正部21-2により行われる補正処理を、上述した図4のフローチャートの処理に当てはめれば、次のようになる。すなわち、ステップS101の連結処理を行わずに、2枚のデプス画像のそれぞれに対して、ステップS102以降の処理を行えばよい。ただし、ステップS108の推論処理で用いられる学習モデルは、学習時に、デプス値に欠陥があるデプス画像と画素補正位置情報を入力とした学習を繰り返した学習済みのモデルであり、視野の重複部分や隙間部分等に起因したデプス値の欠陥を補正済みのデプス画像を出力することができる。そして、補正済みの2枚のデプス画像を結合して広角デプス画像が生成される。
(B)第2の構成例
 図9は、学習モデルを用いて、距離補正処理とスティッチング処理を一体的に行う場合の構成を示している。
 図9において、測距装置30は、図1の測距装置10と比べて、スティッチング処理部13、及び距離補正部14の代わりに、距離補正・スティッチング処理部31が設けられている。なお、図9において、図1と対応する箇所には同一の符号を付してあり、その説明は省略する。
 距離補正・スティッチング処理部31には、測距演算部12-1からの距離データと、測距演算部12-2からの距離データが供給される。距離補正・スティッチング処理部31は、重複部情報及び内部・外部キャリブレーションパラメータに基づいて、2つの距離データから、欠陥が補正された結合後の距離データを生成する処理を行い、その結果得られる結合後距離データを出力する。
 すなわち、距離補正・スティッチング処理部31では、結合後距離データとしての補正済みの広角デプス画像を生成するに際し、学習モデルを用いて、2枚のデプス画像を入力として推論を行うことで、補正済みの広角デプス画像を生成する。この推論処理に用いられる学習モデルは、例えば、学習時に、デプス値に欠陥があるデプス画像などを入力とした学習を繰り返した学習済みのモデルであり、視野の重複部分や隙間部分等に起因したデプス値の欠陥を補正済みの広角デプス画像を出力することができる。
(C)第3の構成例
 図10は、学習モデルを用いて、測距演算処理と距離補正処理とスティッチング処理を一体的に行う場合の構成を示している。
 図10において、測距装置40は、図1の測距装置10と比べて、測距演算部12-1、測距演算部12-2、スティッチング処理部13、及び距離補正部14の代わりに、測距演算・距離補正・スティッチング処理部41が設けられている。なお、図10において、図1と対応する箇所には同一の符号を付してあり、その説明は省略する。
 測距演算・距離補正・スティッチング処理部41には、デプスセンサ11-1からのRAWデータと、デプスセンサ11-2からのRAWデータが供給される。測距演算・距離補正・スティッチング処理部41は、測距キャリブレーションパラメータ、重複部情報、及び内部・外部キャリブレーションパラメータに基づいて、2つのRAWデータから、欠陥が補正された結合後の距離データを生成する処理を行い、その結果得られる結合後距離データを出力する。
 すなわち、測距演算・距離補正・スティッチング処理部41では、結合後距離データとしての補正済みの広角デプス画像を生成するに際し、学習モデルを用いて、2つのRAWデータを入力として推論を行うことで、補正済みの広角デプス画像を生成する。この推論処理に用いられる学習モデルは、例えば、学習時に、欠陥を含むRAWデータなどを入力とした学習を繰り返した学習済みのモデルであり、視野の重複部分や隙間部分等に起因したデプス値の欠陥を補正済みの広角デプス画像を出力することができる。
(さらに他の構成例)
 図11は、デプスセンサが光源を含む場合に、光源と受光素子の同期を行う場合の構成例を示している。
 図11において、測距装置50は、図1の測距装置10と比べて、タイミング制御部51が新たに追加されている。また、デプスセンサ11-1内の光源と受光素子のうち、光源を光源52-1として図示している。同様に、デプスセンサ11-2内の光源52-2を図示している。なお、図11において、図1と対応する箇所には同一の符号を付してあり、その説明は省略する。
 タイミング制御部51は、制御信号を生成し、デプスセンサ11-1とデプスセンサ11-2にそれぞれ供給する。デプスセンサ11-1では、タイミング制御部51からの制御信号に従い、対象物Sに光を照射する光源52-1と、対象物Sから反射した光を受光する受光素子とが同期して動作する。デプスセンサ11-2では、タイミング制御部51からの制御信号に従い、対象物Sに光を照射する光源52-2と、対象物Sから反射した光を受光する受光素子とが同期して動作する。
(視野の重なりによる劣化を抑制する手法)
 上述した説明では、デプスセンサの視野の重なりに起因する画像の欠陥を、機械学習により学習された学習済みのモデル(学習モデル)を用いて補正したが、例えば、下記に示した視野の重なりによる画像の劣化を抑制する手法を組み合わせることで、より欠陥の少ない画像を生成することができる。
 すなわち、視野の重なりによる画像の劣化を抑制する手法としては、デプスセンサ11-1とデプスセンサ11-2における光源とバンドパスフィルタの波長を異ならせる手法がある。また、デプスセンサ11-1とデプスセンサ11-2における光源をドットパターンとする手法を用いることで、視野が重複する確率を減らすことができる。さらに、RAWフレーム撮影レベルのデッドタイム(Dead Time)を利用して、デプスセンサ11-1とデプスセンサ11-2とで交互に同期した測定(撮影)を行う手法がある。このように交互に同期した測定を行うことで、時間的に視野を重複しないようにすることができる。
 また、デプスセンサ11-1の光源とデプスセンサ11-2の光源との間で変調パターンや変調周波数などを変えて測定(撮影)を行う手法がある。光源間で変調パターンを変えて測定を行う場合には、干渉を回避するために、光源の変調パターンを同期して重複しないように制御する。光源間で変調周波数を変えて測定を行う場合には、デュアル周波数(Dual Frequency)などの測定(撮影)パターンが時間的に重複しないように制御する。さらに、デプスセンサ11-1とデプスセンサ11-2において、光源と受光素子の間で露光タイミングをシフトして測定(撮影)を行う手法がある。このように露光タイミングをシフトして測定を行うことで、時間的に視野を重複しないようにすることができる。
 なお、ここで述べた視野の重なりによる画像の劣化を抑制する手法は、推論時における学習モデルを用いた補正と組み合わせるだけでなく、単独で用いても構わない。視野の重なりによる画像の劣化を抑制する手法を単独で用いた場合でも、視野の重なりによる画像の劣化を抑制することができ、より欠陥の少ない画像を生成することができる。
 以上のように、本開示に係る技術では、デプスセンサ11-1により取得されたデプス画像、デプスセンサ11-2により取得されたデプス画像、及びそれらのデプス画像から得られる画像(例えば2枚のデプス画像を連結した広角デプス画像)の少なくとも一部に機械学習により学習された学習済みのモデルを用いた処理を行い、いずれかの画像に含まれる補正対象画素(例えばデプス値に欠陥がある欠陥画素)を補正することができる。これにより、デプスセンサ11-1とデプスセンサ11-2が、視野が重なるように配置された場合や、視野が重ならないように配置された場合などの所定の関係を有するように配置された場合であっても、それらの視野に起因した補正対象画素を補正することができる。
 これにより、欠陥が補正された広角デプス画像が得られるため、例えば、次のユースケースで利用することができる。すなわち、建設現場や工事現場における建物計測や地形計測による進捗管理などで、補正済みの広角デプス画像を利用することができる。あるいは、ゲームや映画などでのCG(Computer Graphics)モデリング環境の下絵として、補正済みの広角デプス画像を利用することができる。さらには、自動車や建設機械等の移動体について、周囲の安全センシング機能や、自動運転のための自己位置推定機能を実現するために、補正済みの広角デプス画像を利用することができる。
 なお、上述した測距装置10は、複数のセンサ(デプスセンサ11-1やデプスセンサ11-2など)により取得されたデプス画像を処理する処理部(スティッチング処理部13や距離補正部14など)を有する情報処理装置であると捉えることができる。測距装置20乃至測距装置50についても同様に情報処理装置として捉えることができる。また、測距装置10においては、デプスセンサ11-1とデプスセンサ11-2の2つのデプスセンサを有する場合を示したが、3つ以上のデプスセンサを設けた場合にも同様に、本開示に係る技術を適用することができる。また、図7では、1つのデプスセンサ11に対して光源LS1と光源LS2の2つの光源を設けた場合を示したが、3つ以上の光源を設けた場合にも同様に、本開示に係る技術を適用することができる。
(拡張例)
 図12は、AI処理を行う装置を含むシステムの構成例を示している。
 電子機器20001は、スマートフォン、タブレット型端末、携帯電話機等のモバイル端末である。電子機器20001は、例えば、図1の測距装置10(情報処理装置)に対応しており、デプスセンサ11-1,11-2(図1)に対応した光センサ20011を有する。光センサは、光を電気信号に変換するセンサ(画像センサ)である。電子機器20001は、所定の通信方式に対応した無線通信によって所定の場所に設置された基地局20020に接続することで、コアネットワーク20030を介して、インターネット等のネットワーク20040に接続することができる。
 基地局20020とコアネットワーク20030の間などのモバイル端末により近い位置には、モバイルエッジコンピューティング(MEC:Mobile Edge Computing)を実現するためのエッジサーバ20002が設けられる。ネットワーク20040には、クラウドサーバ20003が接続される。エッジサーバ20002とクラウドサーバ20003は、用途に応じた各種の処理を行うことができる。なお、エッジサーバ20002は、コアネットワーク20030内に設けられてもよい。
 電子機器20001、エッジサーバ20002、クラウドサーバ20003、又は光センサ20011により、AI処理が行われる。AI処理は、本開示に係る技術を、機械学習等のAIを利用して処理するものである。AI処理は、学習処理と推論処理を含む。学習処理は、学習モデルを生成する処理である。また、学習処理には、後述する再学習処理も含まれる。推論処理は、学習モデルを用いた推論を行う処理である。
 電子機器20001、エッジサーバ20002、クラウドサーバ20003、又は光センサ20011においては、CPU(Central Processing Unit)等のプロセッサがプログラムを実行したり、あるいは特定用途に特化したプロセッサ等の専用のハードウエアを用いたりすることで、AI処理が実現される。例えば、特定用途に特化したプロセッサとしては、GPU(Graphics Processing Unit)を用いることができる。
 図13は、電子機器20001の構成例を示している。電子機器20001は、各部の動作の制御や各種の処理を行うCPU20101と、画像処理や並列処理に特化したGPU20102と、DRAM(Dynamic Random Access Memory)等のメインメモリ20103と、フラッシュメモリ等の補助メモリ20104を有する。
 補助メモリ20104は、AI処理用のプログラムや各種パラメータ等のデータを記録している。CPU20101は、補助メモリ20104に記録されたプログラムやパラメータをメインメモリ20103に展開してプログラムを実行する。あるいは、CPU20101とGPU20102は、補助メモリ20104に記録されたプログラムやパラメータをメインメモリ20103に展開してプログラムを実行する。これにより、GPU20102を、GPGPU(General-Purpose computing on Graphics Processing Units)として用いることができる。
 なお、CPU20101やGPU20102は、SoC(System on a Chip)として構成されてもよい。CPU20101がAI処理用のプログラムを実行する場合には、GPU20102を設けなくてもよい。
 電子機器20001はまた、本開示に係る技術を適用した光センサ20011と、物理的なボタンやタッチパネル等の操作部20105と、少なくとも1以上のセンサを含むセンサ20106と、画像やテキスト等の情報を表示するディスプレイ20107と、音を出力するスピーカ20108と、所定の通信方式に対応した通信モジュール等の通信I/F20109と、それらを接続するバス20110を有する。
 センサ20106は、光センサ(画像センサ)、音センサ(マイクロフォン)、振動センサ、加速度センサ、角速度センサ、圧力センサ、匂いセンサ、生体センサ等の各種のセンサを少なくとも1以上有している。AI処理では、光センサ20011から取得したデータ(画像データ)とともに、センサ20106の少なくとも1以上のセンサから取得したデータを用いることができる。なお、光センサ20011が、デプスセンサ11-1(図1)に対応し、センサ20106が、デプスセンサ11-2(図1)に対応しているとしてもよい。
 なお、センサフュージョンの技術によって2以上の光センサから取得したデータやそれらを統合的に処理して得られるデータが、AI処理で用いられてもよい。2以上の光センサとしては、光センサ20011とセンサ20106内の光センサの組み合わせでもよいし、あるいは光センサ20011内に複数の光センサが含まれていてもよい。例えば、光センサには、RGBの可視光センサ、ToF(Time of Flight)等の測距センサ、偏光センサ、イベントベースのセンサ、IR像を取得するセンサ、多波長取得可能なセンサなどが含まれる。
 電子機器20001においては、CPU20101やGPU20102等のプロセッサによってAI処理を行うことができる。電子機器20001のプロセッサが推論処理を行う場合には、光センサ20011で画像データを取得した後に時間を要さずに処理を開始することができるため、高速に処理を行うことができる。そのため、電子機器20001では、短い遅延時間で情報を伝達することが求められるアプリケーションなどの用途に推論処理が用いられた際に、ユーザは遅延による違和感なく操作を行うことができる。また、電子機器20001のプロセッサがAI処理を行う場合、クラウドサーバ20003等のサーバを利用する場合と比べて、通信回線やサーバ用のコンピュータ機器などを利用する必要がなく、低コストで処理を実現することができる。
 図14は、エッジサーバ20002の構成例を示している。エッジサーバ20002は、各部の動作の制御や各種の処理を行うCPU20201と、画像処理や並列処理に特化したGPU20202を有する。エッジサーバ20002はさらに、DRAM等のメインメモリ20203と、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の補助メモリ20204と、NIC(Network Interface Card)等の通信I/F20205を有し、それらがバス20206に接続される。
 補助メモリ20204は、AI処理用のプログラムや各種パラメータ等のデータを記録している。CPU20201は、補助メモリ20204に記録されたプログラムやパラメータをメインメモリ20203に展開してプログラムを実行する。あるいは、CPU20201とGPU20202は、補助メモリ20204に記録されたプログラムやパラメータをメインメモリ20203に展開してプログラムを実行することで、GPU20202をGPGPUとして用いることができる。なお、CPU20201がAI処理用のプログラムを実行する場合には、GPU20202を設けなくてもよい。
 エッジサーバ20002においては、CPU20201やGPU20202等のプロセッサによってAI処理を行うことができる。エッジサーバ20002のプロセッサがAI処理を行う場合、エッジサーバ20002はクラウドサーバ20003と比べて、電子機器20001と近い位置に設けられるため、処理の低遅延化を実現することができる。また、エッジサーバ20002は、電子機器20001や光センサ20011に比べて、演算速度などの処理能力が高いため、汎用的に構成することができる。そのため、エッジサーバ20002のプロセッサがAI処理を行う場合、電子機器20001や光センサ20011の仕様や性能の違いに依らず、データを受信できればAI処理を行うことができる。エッジサーバ20002でAI処理を行う場合には、電子機器20001や光センサ20011における処理の負荷を軽減することができる。
 クラウドサーバ20003の構成は、エッジサーバ20002の構成と同様であるため、説明は省略する。
 クラウドサーバ20003においては、CPU20201やGPU20202等のプロセッサによってAI処理を行うことができる。クラウドサーバ20003は、電子機器20001や光センサ20011に比べて、演算速度などの処理能力が高いため、汎用的に構成することができる。そのため、クラウドサーバ20003のプロセッサがAI処理を行う場合、電子機器20001や光センサ20011の仕様や性能の違いに依らず、AI処理を行うことができる。また、電子機器20001又は光センサ20011のプロセッサで負荷の高いAI処理を行うことが困難である場合には、その負荷の高いAI処理をクラウドサーバ20003のプロセッサが行い、その処理結果を電子機器20001又は光センサ20011のプロセッサにフィードバックすることができる。
 図15は、光センサ20011の構成例を示している。光センサ20011は、例えば複数の基板が積層された積層構造を有する1チップの半導体装置として構成することができる。光センサ20011は、基板20301と基板20302の2枚の基板が積層されて構成される。なお、光センサ20011の構成としては積層構造に限らず、例えば、撮像部を含む基板が、CPUやDSP(Digital Signal Processor)等のAI処理を行うプロセッサを含んでいてもよい。
 上層の基板20301には、複数の画素が2次元に並んで構成される撮像部20321が搭載されている。下層の基板20302には、撮像部20321での画像の撮像に関する処理を行う撮像処理部20322と、撮像画像や信号処理結果を外部に出力する出力I/F20323と、撮像部20321での画像の撮像を制御する撮像制御部20324が搭載されている。撮像部20321、撮像処理部20322、出力I/F20323、及び撮像制御部20324により撮像ブロック20311が構成される。
 下層の基板20302には、各部の制御や各種の処理を行うCPU20331と、撮像画像や外部からの情報等を用いた信号処理を行うDSP20332と、SRAM(Static Random Access Memory)やDRAM(Dynamic Random Access Memory)等のメモリ20333と、外部と必要な情報のやり取りを行う通信I/F20334が搭載されている。CPU20331、DSP20332、メモリ20333、及び通信I/F20334により信号処理ブロック20312が構成される。CPU20331及びDSP20332の少なくとも1つのプロセッサによってAI処理を行うことができる。
 このように、複数の基板が積層された積層構造における下層の基板20302に、AI処理用の信号処理ブロック20312を搭載することができる。これにより、上層の基板20301に搭載される撮像用の撮像ブロック20311で取得される画像データが、下層の基板20302に搭載されたAI処理用の信号処理ブロック20312で処理されるため、1チップの半導体装置内で一連の処理を行うことができる。
 光センサ20011においては、CPU20331等のプロセッサによってAI処理を行うことができる。光センサ20011のプロセッサが推論処理等のAI処理を行う場合、1チップの半導体装置内で一連の処理が行われるため、センサ外部に情報が漏れないことから情報の秘匿性を高めることができる。また、画像データ等のデータを他の装置に送信する必要がないため、光センサ20011のプロセッサでは、画像データを用いた推論処理等のAI処理を高速に行うことができる。例えば、リアルタイム性が求められるアプリケーションなどの用途に推論処理が用いられた際に、リアルタイム性を十分に確保することができる。ここで、リアルタイム性を確保するということは、短い遅延時間で情報を伝達できることを指す。さらに、光センサ20011のプロセッサがAI処理を行うに際して、電子機器20001のプロセッサにより各種のメタデータを渡すことで、処理を削減して低消費電力化を図ることができる。
 図16は、処理部20401の構成例を示している。電子機器20001、エッジサーバ20002、クラウドサーバ20003、又は光センサ20011のプロセッサがプログラムに従った各種の処理を実行することで、処理部20401として機能する。なお、同一の又は異なる装置が有する複数のプロセッサを処理部20401として機能させてもよい。
 処理部20401は、AI処理部20411を有する。AI処理部20411は、AI処理を行う。AI処理部20411は、学習部20421と推論部20422を有する。
 学習部20421は、学習モデルを生成する学習処理を行う。学習処理では、画像データに含まれる補正対象画素を補正するための機械学習を行った機械学習済みの学習モデルが生成される。また、学習部20421は、生成済みの学習モデルを更新する再学習処理を行ってもよい。以下の説明では、学習モデルの生成と更新を区別して説明するが、学習モデルを更新することで、学習モデルを生成しているとも言えるため、学習モデルの生成には、学習モデルの更新の意味が含まれるものとする。
 また、生成された学習モデルは、電子機器20001、エッジサーバ20002、クラウドサーバ20003、又は光センサ20011などが有するメインメモリ又は補助メモリなどの記憶媒体に記録されることで、推論部20422が行う推論処理において新たに利用可能となる。これにより、当該学習モデルに基づく推論処理を行う電子機器20001、エッジサーバ20002、クラウドサーバ20003、又は光センサ20011などを生成することができる。さらに、生成された学習モデルは、電子機器20001、エッジサーバ20002、クラウドサーバ20003、又は光センサ20011などとは独立した記憶媒体又は電子機器に記録され、他の装置で使用するために提供されてもよい。なお、これらの電子機器20001、エッジサーバ20002、クラウドサーバ20003、又は光センサ20011などの生成とは、製造時において、それらの記憶媒体に新たに学習モデルを記録することだけでなく、既に記録されている生成済学習モデルを更新することも含まれるものとする。
 推論部20422は、学習モデルを用いた推論処理を行う。推論処理では、学習モデルを用いて、画像データに含まれる補正対象画素を特定したり、特定した補正対象画素を補正したりする処理が行われる。補正対象画素は、画像データに応じた画像内の複数個の画素のうち、所定の条件を満たした補正対象となる画素である。
 機械学習の手法としては、ニューラルネットワークやディープラーニングなどを用いることができる。ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層(隠れ層)、出力層の3種類の層からなる。ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。
 機械学習の問題設定としては、教師あり学習を用いることができる。例えば、教師あり学習は、与えられたラベル付きの教師データに基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。学習データは、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データ、シミュレータにより生成されたデータセットなどを用いることができる。
 なお、教師あり学習に限らず、教師なし学習、半教師あり学習、強化学習などを用いてもよい。教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリング等を行う。これにより、膨大な未知のデータに基づいて傾向の分析や予測を行うことが可能となる。半教師あり学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な学習データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。
 このように、電子機器20001、エッジサーバ20002、クラウドサーバ20003、又は光センサ20011のプロセッサがAI処理部20411として機能することで、それらの装置のいずれか又は複数の装置でAI処理が行われる。
 AI処理部20411は、学習部20421及び推論部20422のうち少なくとも一方を有していればよい。すなわち、各装置のプロセッサは、学習処理と推論処理の両方の処理を実行することは勿論、学習処理と推論処理のうちの一方の処理を実行するようにしてもよい。例えば、電子機器20001のプロセッサが推論処理と学習処理の両方を行う場合には、学習部20421と推論部20422を有するが、推論処理のみを行う場合には、推論部20422のみを有していればよい。
 各装置のプロセッサは、学習処理又は推論処理に関する全ての処理を実行してもよいし、一部の処理を各装置のプロセッサで実行した後に、残りの処理を他の装置のプロセッサで実行してもよい。また、各装置においては、学習処理や推論処理などのAI処理の各々の機能を実行するための共通のプロセッサを有してもよいし、機能ごとに個別にプロセッサを有してもよい。
 なお、上述した装置以外の他の装置によりAI処理が行われてもよい。例えば、電子機器20001が無線通信などにより接続可能な他の電子機器によって、AI処理を行うことができる。具体的には、電子機器20001がスマートフォンである場合に、AI処理を行う他の電子機器としては、他のスマートフォン、タブレット型端末、携帯電話機、PC(Personal Computer)、ゲーム機、テレビ受像機、ウェアラブル端末、デジタルスチルカメラ、デジタルビデオカメラなどの装置とすることができる。
 また、自動車等の移動体に搭載されるセンサや、遠隔医療機器に用いられるセンサなどを用いた構成においても、推論処理等のAI処理を適用可能であるが、それらの環境では遅延時間が短いことが求められる。このような環境においては、ネットワーク20040を介してクラウドサーバ20003のプロセッサでAI処理を行うのではなく、ローカル側の装置(例えば車載機器や医療機器としての電子機器20001)のプロセッサでAI処理を行うことで遅延時間を短くすることができる。さらに、インターネット等のネットワーク20040に接続する環境がない場合や、高速な接続を行うことができない環境で利用する装置の場合にも、例えば電子機器20001や光センサ20011等のローカル側の装置のプロセッサでAI処理を行うことで、より適切な環境でAI処理を行うことができる。
 なお、上述した構成は一例であって、他の構成を採用しても構わない。例えば、電子機器20001は、スマートフォン等のモバイル端末に限らず、PC、ゲーム機、テレビ受像機、ウェアラブル端末、デジタルスチルカメラ、デジタルビデオカメラなどの電子機器、車載機器、医療機器であってもよい。また、電子機器20001は、無線LAN(Local Area Network)や有線LANなどの所定の通信方式に対応した無線通信又は有線通信によってネットワーク20040に接続してもよい。AI処理は、各装置のCPUやGPU等のプロセッサに限らず、量子コンピュータやニューロモーフィック・コンピュータなどを利用しても構わない。
 ところで、学習モデルや画像データ、補正済みデータ等のデータは、単一の装置内で用いられることは勿論、複数の装置の間でやり取りされ、それらの装置内で用いられてもよい。図17は、複数の装置間でのデータの流れを示している。
 電子機器20001-1乃至20001-N(Nは1以上の整数)は、例えばユーザごとに所持され、それぞれ基地局(不図示)等を介してインターネット等のネットワーク20040に接続可能である。製造時において、電子機器20001-1には、学習装置20501が接続され、学習装置20501により提供される学習モデルを補助メモリ20104に記録することができる。学習装置20501は、シミュレータ20502により生成されたデータセットを学習データとして用いて学習モデルを生成し、電子機器20001-1に提供する。なお、学習データは、シミュレータ20502から提供されるデータセットに限らず、実際に光センサにより取得された画像データや、集約して管理されている取得済みの画像データなどを用いても構わない。
 図示は省略しているが、電子機器20001-2乃至20001-Nについても、電子機器20001-1と同様に、製造時の段階で学習モデルを記録することができる。以下、電子機器20001-1乃至20001-Nをそれぞれ区別する必要がない場合には、電子機器20001と呼ぶ。
 ネットワーク20040には、電子機器20001のほかに、学習モデル生成サーバ20503、学習モデル提供サーバ20504、データ提供サーバ20505、及びアプリサーバ20506が接続され、相互にデータをやり取りすることができる。各サーバは、クラウドサーバとして設けることができる。
 学習モデル生成サーバ20503は、クラウドサーバ20003と同様の構成を有し、CPU等のプロセッサによって学習処理を行うことができる。学習モデル生成サーバ20503は、学習データを用いて学習モデルを生成する。図示した構成では、製造時に電子機器20001が学習モデルを記録する場合を例示しているが、学習モデルは、学習モデル生成サーバ20503から提供されてもよい。学習モデル生成サーバ20503は、生成した学習モデルを、ネットワーク20040を介して電子機器20001に送信する。電子機器20001は、学習モデル生成サーバ20503から送信されてくる学習モデルを受信し、補助メモリ20104に記録する。これにより、その学習モデルを備える電子機器20001が生成される。
 すなわち、電子機器20001では、製造時の段階で学習モデルを記録していない場合には、学習モデル生成サーバ20503からの学習モデルを新規で記録することで、新たな学習モデルを記録した電子機器20001が生成される。また、電子機器20001では、製造時の段階で学習モデルを既に記録している場合、記録済みの学習モデルを、学習モデル生成サーバ20503からの学習モデルに更新することで、更新済みの学習モデルを記録した電子機器20001が生成される。電子機器20001では、適宜更新される学習モデルを用いて推論処理を行うことができる。
 学習モデルは、学習モデル生成サーバ20503から電子機器20001に直接提供するに限らず、各種の学習モデルを集約して管理する学習モデル提供サーバ20504がネットワーク20040を介して提供してもよい。学習モデル提供サーバ20504は、電子機器20001に限らず、他の装置に学習モデルを提供することで、その学習モデルを備える他の装置を生成しても構わない。また、学習モデルは、フラッシュメモリ等の着脱可能なメモリカードに記録して提供しても構わない。電子機器20001では、スロットに装着されたメモリカードから学習モデルを読み出して記録することができる。これにより、電子機器20001では、過酷環境下で使用される場合や、通信機能を有していない場合、通信機能を有しているが伝送可能な情報量が少ない場合などであっても、学習モデルを取得することができる。
 電子機器20001は、画像データや補正済みデータ、メタデータなどのデータを、ネットワーク20040を介して他の装置に提供することができる。例えば、電子機器20001は、画像データや補正済みデータ等のデータを、ネットワーク20040を介して学習モデル生成サーバ20503に送信する。これにより、学習モデル生成サーバ20503では、1又は複数の電子機器20001から収集された画像データや補正済みデータ等のデータを学習データとして用い、学習モデルを生成することができる。より多くの学習データを用いることで、学習処理の精度を上げることができる。
 画像データや補正済みデータ等のデータは、電子機器20001から学習モデル生成サーバ20503に直接提供するに限らず、各種のデータを集約して管理するデータ提供サーバ20505が提供してもよい。データ提供サーバ20505は、電子機器20001に限らず他の装置からデータを収集してもよいし、学習モデル生成サーバ20503に限らず他の装置にデータを提供しても構わない。
 学習モデル生成サーバ20503は、既に生成された学習モデルに対し、電子機器20001又はデータ提供サーバ20505から提供された画像データや補正済みデータ等のデータを学習データに追加した再学習処理を行い、学習モデルを更新してもよい。更新された学習モデルは、電子機器20001に提供することができる。学習モデル生成サーバ20503において、学習処理又は再学習処理を行う場合、電子機器20001の仕様や性能の違いに依らず、処理を行うことができる。
 また、電子機器20001において、補正済みデータやメタデータに対してユーザが修正の操作を行った場合(例えばユーザが正しい情報を入力した場合)に、その修正処理に関するフィードバックデータが、再学習処理に用いられてもよい。例えば、電子機器20001からのフィードバックデータを学習モデル生成サーバ20503に送信することで、学習モデル生成サーバ20503では、電子機器20001からのフィードバックデータを用いた再学習処理を行い、学習モデルを更新することができる。なお、電子機器20001では、ユーザによる修正の操作が行われる際に、アプリサーバ20506により提供されるアプリケーションが利用されてもよい。
 再学習処理は、電子機器20001が行ってもよい。電子機器20001において、画像データやフィードバックデータを用いた再学習処理を行って学習モデルを更新する場合、装置内で学習モデルの改善を行うことができる。これにより、その更新された学習モデルを備える電子機器20001が生成される。また、電子機器20001は、再学習処理で得られる更新後の学習モデルを学習モデル提供サーバ20504に送信して、他の電子機器20001に提供されるようにしてもよい。これにより、複数の電子機器20001の間で、更新後の学習モデルを共有することができる。
 あるいは、電子機器20001は、再学習された学習モデルの差分情報(更新前の学習モデルと更新後の学習モデルに関する差分情報)を、アップデート情報として、学習モデル生成サーバ20503に送信してもよい。学習モデル生成サーバ20503では、電子機器20001からのアップデート情報に基づき改善された学習モデルを生成して、他の電子機器20001に提供することができる。このような差分情報をやり取りすることで、全ての情報をやり取りする場合と比べてプライバシを保護することができ、また通信コストを削減することができる。なお、電子機器20001と同様に、電子機器20001に搭載された光センサ20011が再学習処理を行ってもよい。
 アプリサーバ20506は、ネットワーク20040を介して各種のアプリケーションを提供可能なサーバである。アプリケーションは、学習モデルや補正済みデータ、メタデータ等のデータを用いた所定の機能を提供する。電子機器20001は、ネットワーク20040を介してアプリサーバ20506からダウンロードしたアプリケーションを実行することで、所定の機能を実現することができる。あるいは、アプリサーバ20506は、例えばAPI(Application Programming Interface)などを介して電子機器20001からデータを取得し、アプリサーバ20506上でアプリケーションを実行することで、所定の機能を実現することもできる。
 このように、本技術を適用した装置を含むシステムでは、各装置の間で、学習モデル、画像データ、補正済みデータ等のデータがやり取りされて流通し、それらのデータを用いた様々なサービスを提供することが可能となる。例えば、学習モデル提供サーバ20504を介した学習モデルを提供するサービスや、データ提供サーバ20505を介した画像データや補正済みデータ等のデータを提供するサービスを提供することができる。また、アプリサーバ20506を介したアプリケーションを提供するサービスを提供することができる。
 あるいは、学習モデル提供サーバ20504により提供される学習モデルに、電子機器20001の光センサ20011から取得した画像データを入力して、その出力として得られる補正済みデータが提供されてもよい。また、学習モデル提供サーバ20504により提供される学習モデルを実装した電子機器などの装置を生成して提供してもよい。さらに、学習モデルや補正済みデータ、メタデータ等のデータを読み出し可能な記憶媒体に記録することで、それらのデータが記録された記憶媒体や、当該記憶媒体を搭載した電子機器などの装置を生成して提供してもよい。当該記憶媒体は、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどの不揮発性メモリでもよいし、SRAMやDRAMなどの揮発性メモリでもよい。
 なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 また、本開示は、以下のような構成をとることができる。
(1)
 第1のセンサにより取得された対象物を深度情報で示した第1の画像、第2のセンサにより取得された対象物を深度情報で示した第2の画像、前記第1の画像と前記第2の画像から得られる第3の画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、いずれかの画像に含まれる補正対象画素を補正する
 処理部を備える
 情報処理装置。
(2)
 前記第1のセンサと前記第2のセンサは、視野が重なるように配置されており、
 前記処理部は、
  前記第1の画像と前記第2の画像とを連結して前記第3の画像を生成する際に、前記第3の画像における前記視野の重複部分に対応した位置を、画素補正位置として特定し、
  前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
 前記(1)に記載の情報処理装置。
(3)
 前記学習済みモデルは、欠陥がある前記第3の画像と前記画素補正位置を入力とした学習によって、前記視野の重複部分による深度情報の欠陥が補正された前記第3の画像を出力するようになったモデルであり、
 前記処理部は、前記学習済みモデルを用いて、前記視野の重複部分により深度情報に欠陥がある前記第3の画像と前記画素補正位置を入力とした推論を行うことで、欠陥を補正済みの前記第3の画像を生成する
 前記(2)に記載の情報処理装置。
(4)
 前記第1のセンサと前記第2のセンサは、視野が重なるように配置されており、
 前記処理部は、
  前記第1の画像と前記第2の画像とを連結して前記第3の画像を生成する際に、前記第1の画像と前記第2の画像における前記視野の重複部分に対応した位置を、画素補正位置として特定し、
  前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
 前記(1)に記載の情報処理装置。
(5)
 前記学習済みモデルは、欠陥がある前記第1の画像又は前記第2の画像と前記画素補正位置を入力とした学習によって、前記視野の重複部分による深度情報の欠陥が補正された前記第1の画像又は前記第2の画像を出力するようになったモデルであり、
 前記処理部は、
  前記学習済みモデルを用いて、前記視野の重複部分により深度情報に欠陥がある前記第1の画像又は前記第2の画像と前記画素補正位置を入力とした推論を行うことで、欠陥を補正済みの前記第1の画像又は前記第2の画像を生成し、
  前記第1の画像と前記第2の画像とを連結して前記第3の画像を生成する
 前記(4)に記載の情報処理装置。
(6)
 前記第1のセンサと前記第2のセンサは、視野が重ならないように配置されており、
 前記処理部は、
  前記第1の画像と前記第2の画像とを連結して前記第3の画像を生成する際に、前記第3の画像における前記視野の隙間部分に対応した位置を、画素補正位置として特定し、
  前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
 前記(1)に記載の情報処理装置。
(7)
 前記学習済みモデルは、欠陥がある前記第3の画像と前記画素補正位置を入力とした学習によって、前記視野の隙間部分による深度情報の欠陥が補正された前記第3の画像を出力するようになったモデルであり、
 前記処理部は、前記学習済みモデルを用いて、前記視野の隙間部分により深度情報に欠陥がある前記第3の画像と前記画素補正位置を入力とした推論を行うことで、欠陥を補正済みの前記第3の画像を生成する
 前記(6)に記載の情報処理装置。
(8)
 前記第1のセンサと前記第2のセンサは、異なる視野を有するセンサであって、互いの視野が重なるように配置されており、
 前記処理部は、
  前記第1の画像と前記第2の画像とを連結して前記第3の画像を生成する際に、前記第3の画像における前記視野の重複部分に対応した位置を、画素補正位置として特定し、
  前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
 前記(1)に記載の情報処理装置。
(9)
 前記学習済みモデルは、欠陥がある前記第3の画像と前記画素補正位置を入力とした学習によって、前記視野の重複部分による深度情報の欠陥が補正された前記第3の画像を出力するようになったモデルであり、
 前記処理部は、前記学習済みモデルを用いて、前記視野の重複部分により深度情報に欠陥がある前記第3の画像と前記画素補正位置を入力とした推論を行うことで、欠陥を補正済みの前記第3の画像を生成する
 前記(8)に記載の情報処理装置。
(10)
 前記第1のセンサは、広角に対応した視野を有し、
 前記第2のセンサは、望遠に対応した視野を有する
 前記(8)又は(9)に記載の情報処理装置。
(11)
 情報処理装置が、
 第1のセンサにより取得された対象物を深度情報で示した第1の画像、第2のセンサにより取得された対象物を深度情報で示した第2の画像、前記第1の画像と前記第2の画像から得られる第3の画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、いずれかの画像に含まれる補正対象画素を補正する
 情報処理方法。
(12)
 コンピュータを、
 第1のセンサにより取得された対象物を深度情報で示した第1の画像、第2のセンサにより取得された対象物を深度情報で示した第2の画像、前記第1の画像と前記第2の画像から得られる第3の画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、いずれかの画像に含まれる補正対象画素を補正する
 処理部を備える
 情報処理装置として機能させるプログラム。
(13)
 第1の光源と第2の光源を有するセンサにより取得された対象物を深度情報で示した画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行う処理部を備え、
 前記第1の光源と前記第2の光源は、光の照射領域が重なるように配置されており、
 前記処理部は、
  前記画像における前記照射領域の重複部分に対応した位置を、画素補正位置として特定し、
  前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
 情報処理装置。
(14)
 前記学習済みモデルは、欠陥がある前記画像と前記画素補正位置を入力とした学習によって、前記照射領域の重複部分による深度情報の欠陥が補正された前記画像を出力するようになったモデルであり、
 前記処理部は、前記学習済みモデルを用いて、前記照射領域の重複部分により深度情報に欠陥がある前記画像と前記画素補正位置を入力とした推論を行うことで、欠陥を補正済みの前記画像を生成する
 前記(13)に記載の情報処理装置。
(15)
 情報処理装置が、
 光の照射領域が重なるように配置された第1の光源と第2の光源を有するセンサにより取得された対象物を深度情報で示した画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、
 前記画像における前記照射領域の重複部分に対応した位置を、画素補正位置として特定し、
 前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
 情報処理方法。
(16)
 コンピュータを、
 光の照射領域が重なるように配置された第1の光源と第2の光源を有するセンサにより取得された対象物を深度情報で示した画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行う処理部を備え、
 前記処理部は、
  前記画像における前記照射領域の重複部分に対応した位置を、画素補正位置として特定し、
  前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
 情報処理装置として機能させるプログラム。
 10,20,30,40,50 測距装置, 11,11-1,11-2 デプスセンサ, 12-1,12-2 測距演算部, 13 スティッチング処理部, 14 距離補正部, 20 学習装置, 21-1,21-2 距離補正部, 22 スティッチング処理部, 31 距離補正・スティッチング処理部, 41 測距演算・距離補正・スティッチング処理部, 51 タイミング制御部, 52-1,52-2 光源, 111 推論部, 121 学習モデル, 200 学習装置, 221 学習モデル

Claims (16)

  1.  第1のセンサにより取得された対象物を深度情報で示した第1の画像、第2のセンサにより取得された対象物を深度情報で示した第2の画像、前記第1の画像と前記第2の画像から得られる第3の画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、いずれかの画像に含まれる補正対象画素を補正する
     処理部を備える
     情報処理装置。
  2.  前記第1のセンサと前記第2のセンサは、視野が重なるように配置されており、
     前記処理部は、
      前記第1の画像と前記第2の画像とを連結して前記第3の画像を生成する際に、前記第3の画像における前記視野の重複部分に対応した位置を、画素補正位置として特定し、
      前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
     請求項1に記載の情報処理装置。
  3.  前記学習済みモデルは、欠陥がある前記第3の画像と前記画素補正位置を入力とした学習によって、前記視野の重複部分による深度情報の欠陥が補正された前記第3の画像を出力するようになったモデルであり、
     前記処理部は、前記学習済みモデルを用いて、前記視野の重複部分により深度情報に欠陥がある前記第3の画像と前記画素補正位置を入力とした推論を行うことで、欠陥を補正済みの前記第3の画像を生成する
     請求項2に記載の情報処理装置。
  4.  前記第1のセンサと前記第2のセンサは、視野が重なるように配置されており、
     前記処理部は、
      前記第1の画像と前記第2の画像とを連結して前記第3の画像を生成する際に、前記第1の画像と前記第2の画像における前記視野の重複部分に対応した位置を、画素補正位置として特定し、
      前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
     請求項1に記載の情報処理装置。
  5.  前記学習済みモデルは、欠陥がある前記第1の画像又は前記第2の画像と前記画素補正位置を入力とした学習によって、前記視野の重複部分による深度情報の欠陥が補正された前記第1の画像又は前記第2の画像を出力するようになったモデルであり、
     前記処理部は、
      前記学習済みモデルを用いて、前記視野の重複部分により深度情報に欠陥がある前記第1の画像又は前記第2の画像と前記画素補正位置を入力とした推論を行うことで、欠陥を補正済みの前記第1の画像又は前記第2の画像を生成し、
      前記第1の画像と前記第2の画像とを連結して前記第3の画像を生成する
     請求項4に記載の情報処理装置。
  6.  前記第1のセンサと前記第2のセンサは、視野が重ならないように配置されており、
     前記処理部は、
      前記第1の画像と前記第2の画像とを連結して前記第3の画像を生成する際に、前記第3の画像における前記視野の隙間部分に対応した位置を、画素補正位置として特定し、
      前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
     請求項1に記載の情報処理装置。
  7.  前記学習済みモデルは、欠陥がある前記第3の画像と前記画素補正位置を入力とした学習によって、前記視野の隙間部分による深度情報の欠陥が補正された前記第3の画像を出力するようになったモデルであり、
     前記処理部は、前記学習済みモデルを用いて、前記視野の隙間部分により深度情報に欠陥がある前記第3の画像と前記画素補正位置を入力とした推論を行うことで、欠陥を補正済みの前記第3の画像を生成する
     請求項6に記載の情報処理装置。
  8.  前記第1のセンサと前記第2のセンサは、異なる視野を有するセンサであって、互いの視野が重なるように配置されており、
     前記処理部は、
      前記第1の画像と前記第2の画像とを連結して前記第3の画像を生成する際に、前記第3の画像における前記視野の重複部分に対応した位置を、画素補正位置として特定し、
      前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
     請求項1に記載の情報処理装置。
  9.  前記学習済みモデルは、欠陥がある前記第3の画像と前記画素補正位置を入力とした学習によって、前記視野の重複部分による深度情報の欠陥が補正された前記第3の画像を出力するようになったモデルであり、
     前記処理部は、前記学習済みモデルを用いて、前記視野の重複部分により深度情報に欠陥がある前記第3の画像と前記画素補正位置を入力とした推論を行うことで、欠陥を補正済みの前記第3の画像を生成する
     請求項8に記載の情報処理装置。
  10.  前記第1のセンサは、広角に対応した視野を有し、
     前記第2のセンサは、望遠に対応した視野を有する
     請求項8に記載の情報処理装置。
  11.  情報処理装置が、
     第1のセンサにより取得された対象物を深度情報で示した第1の画像、第2のセンサにより取得された対象物を深度情報で示した第2の画像、前記第1の画像と前記第2の画像から得られる第3の画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、いずれかの画像に含まれる補正対象画素を補正する
     情報処理方法。
  12.  コンピュータを、
     第1のセンサにより取得された対象物を深度情報で示した第1の画像、第2のセンサにより取得された対象物を深度情報で示した第2の画像、前記第1の画像と前記第2の画像から得られる第3の画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、いずれかの画像に含まれる補正対象画素を補正する
     処理部を備える
     情報処理装置として機能させるプログラム。
  13.  第1の光源と第2の光源を有するセンサにより取得された対象物を深度情報で示した画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行う処理部を備え、
     前記第1の光源と前記第2の光源は、光の照射領域が重なるように配置されており、
     前記処理部は、
      前記画像における前記照射領域の重複部分に対応した位置を、画素補正位置として特定し、
      前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
     情報処理装置。
  14.  前記学習済みモデルは、欠陥がある前記画像と前記画素補正位置を入力とした学習によって、前記照射領域の重複部分による深度情報の欠陥が補正された前記画像を出力するようになったモデルであり、
     前記処理部は、前記学習済みモデルを用いて、前記照射領域の重複部分により深度情報に欠陥がある前記画像と前記画素補正位置を入力とした推論を行うことで、欠陥を補正済みの前記画像を生成する
     請求項13に記載の情報処理装置。
  15.  情報処理装置が、
     光の照射領域が重なるように配置された第1の光源と第2の光源を有するセンサにより取得された対象物を深度情報で示した画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行い、
     前記画像における前記照射領域の重複部分に対応した位置を、画素補正位置として特定し、
     前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
     情報処理方法。
  16.  コンピュータを、
     光の照射領域が重なるように配置された第1の光源と第2の光源を有するセンサにより取得された対象物を深度情報で示した画像の少なくとも一部に機械学習により学習された学習済みモデルを用いた処理を行う処理部を備え、
     前記処理部は、
      前記画像における前記照射領域の重複部分に対応した位置を、画素補正位置として特定し、
      前記学習済みモデルを用いて、前記画素補正位置の深度情報を補正する
     情報処理装置として機能させるプログラム。
PCT/JP2022/001919 2021-03-25 2022-01-20 情報処理装置、情報処理方法、及びプログラム WO2022201804A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202280022433.XA CN117099129A (zh) 2021-03-25 2022-01-20 信息处理装置、信息处理方法和程序
JP2023508694A JPWO2022201804A1 (ja) 2021-03-25 2022-01-20

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021051918 2021-03-25
JP2021-051918 2021-03-25

Publications (1)

Publication Number Publication Date
WO2022201804A1 true WO2022201804A1 (ja) 2022-09-29

Family

ID=83395361

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/001919 WO2022201804A1 (ja) 2021-03-25 2022-01-20 情報処理装置、情報処理方法、及びプログラム

Country Status (3)

Country Link
JP (1) JPWO2022201804A1 (ja)
CN (1) CN117099129A (ja)
WO (1) WO2022201804A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014524016A (ja) * 2011-06-24 2014-09-18 ソフトキネティック ソフトウェア 深度測定の品質の向上
WO2020041178A1 (en) * 2018-08-20 2020-02-27 Waymo Llc Camera assessment techniques for autonomous vehicles
JP6656549B1 (ja) * 2019-06-11 2020-03-04 株式会社Mujin 第1のカメラによって生成された第1の画像を第2のカメラによって生成された第2の画像に基づいて更新する方法及び処理システム
JP2020153799A (ja) * 2019-03-20 2020-09-24 ソニーセミコンダクタソリューションズ株式会社 測距装置および測距方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014524016A (ja) * 2011-06-24 2014-09-18 ソフトキネティック ソフトウェア 深度測定の品質の向上
WO2020041178A1 (en) * 2018-08-20 2020-02-27 Waymo Llc Camera assessment techniques for autonomous vehicles
JP2020153799A (ja) * 2019-03-20 2020-09-24 ソニーセミコンダクタソリューションズ株式会社 測距装置および測距方法
JP6656549B1 (ja) * 2019-06-11 2020-03-04 株式会社Mujin 第1のカメラによって生成された第1の画像を第2のカメラによって生成された第2の画像に基づいて更新する方法及び処理システム

Also Published As

Publication number Publication date
CN117099129A (zh) 2023-11-21
JPWO2022201804A1 (ja) 2022-09-29

Similar Documents

Publication Publication Date Title
US10453220B1 (en) Machine-trained network for misalignment-insensitive depth perception
US11024046B2 (en) Systems and methods for depth estimation using generative models
US10755425B2 (en) Automatic tuning of image signal processors using reference images in image processing environments
US11663691B2 (en) Method and apparatus for restoring image
CN103026171A (zh) 图像处理装置及图像处理方法
US20210312233A1 (en) Learning method, storage medium, and image processing device
WO2022201803A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN113327318B (zh) 图像显示方法、装置、电子设备和计算机可读介质
JP2020181240A (ja) データ生成装置、データ生成方法およびプログラム
WO2021193391A1 (ja) データ生成方法、学習方法及び推定方法
JP2017204699A (ja) 撮像装置、および撮像方法
JP2017068577A (ja) 演算装置、方法及びプログラム
US10438330B2 (en) Method and device for compensating dead pixels of image, and non-transitory computer-readable storage medium
WO2022201804A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20200164508A1 (en) System and Method for Probabilistic Multi-Robot Positioning
JP2021089493A (ja) 情報処理装置およびその学習方法
JP2020204880A (ja) 学習方法、プログラム及び画像処理装置
US11847784B2 (en) Image processing apparatus, head-mounted display, and method for acquiring space information
WO2021187365A1 (ja) データ生成方法、学習方法、推定方法、データ生成装置及びプログラム
US20240161254A1 (en) Information processing apparatus, information processing method, and program
WO2022201973A1 (ja) 情報処理システム及び学習モデルの生成方法
US20240029308A1 (en) Apparatus and method for performing color transformation on raw sensor images
US20240144506A1 (en) Information processing device
WO2022009821A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US20240071041A1 (en) Apparatus and method for mapping raw images between different camera sensors under arbitrary illuminations

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22774607

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023508694

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18551076

Country of ref document: US

Ref document number: 202280022433.X

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22774607

Country of ref document: EP

Kind code of ref document: A1