WO2021192682A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2021192682A1
WO2021192682A1 PCT/JP2021/004911 JP2021004911W WO2021192682A1 WO 2021192682 A1 WO2021192682 A1 WO 2021192682A1 JP 2021004911 W JP2021004911 W JP 2021004911W WO 2021192682 A1 WO2021192682 A1 WO 2021192682A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
difference
unit
information processing
difference image
Prior art date
Application number
PCT/JP2021/004911
Other languages
English (en)
French (fr)
Inventor
昭寿 一色
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Priority to JP2022509375A priority Critical patent/JPWO2021192682A1/ja
Publication of WO2021192682A1 publication Critical patent/WO2021192682A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • This disclosure relates to information processing devices, information processing methods and programs.
  • Patent Document 1 describes a technique for detecting an object reflected in an image by inputting an image in which difference information indicating changed pixels with respect to a background image is combined into a recognizer using a neural network. Is disclosed.
  • An object of the present disclosure is to provide an information processing device, an information processing method, and a program capable of further improving the detection accuracy of an object.
  • the information processing apparatus includes a detection unit that detects an object in an image by using a trained model that inputs an image and a difference image indicating a change in an object contained in the image, and learns the image.
  • the completed model includes an extraction layer for extracting the feature amount of the image, an extraction result of the extraction layer, and a detection layer for detecting an object in the image based on the difference image.
  • the information processing method includes detecting an object in an image by using a trained model in which an image and a difference image showing a change of an object included in the image are input, and has been trained.
  • the model includes an extraction layer that extracts the feature amount of the image, an extraction result of the extraction layer, and a detection layer that detects an object in the image based on the difference image.
  • the program according to one aspect of the present disclosure is a program for operating a computer, and uses a trained model in which an image and a difference image showing a change of an object included in the image are input, in an image.
  • the process of detecting an object is executed by a computer, and the trained model detects an object in the image based on the extraction layer for extracting the feature amount of the image, the extraction result of the extraction layer, and the difference image. Includes detection layer and.
  • the input is a data format in which the input image and the difference information are combined (for example, the combination of the RGB image and the 1-bit information expressing the difference)
  • the data including the difference information is indispensable even when learning the neural net.
  • difference information is required for all of the wide variety of data, that is, continuous frames are required, restrictions on the training data are required. Is strong, and it takes a lot of effort to prepare learning data.
  • an information processing device an information processing method, and a program capable of improving the detection accuracy are provided. That is, one aspect of the present disclosure is recognition for the purpose of detecting objects such as people and objects using images taken at a wide angle with as low a resolution as possible for the purpose of reducing power consumption and calculation cost. In order to perform processing and recognition processing on the sensor module with light weight and accuracy, it is possible to improve the accuracy by using the information of the difference image in the time direction as additional information for the recognizer that detects the object from the conventional still image. The purpose.
  • the objects to be detected may appear very small in the image or may be distorted due to wide-angle shooting. It's difficult to recognize. Also, scenes where the contrast between the object and the background is small, scenes where the subject is difficult to detect with machine learning-based algorithms due to their unique posture, and the recognizer is simplified to make it executable on the sensor module. In some cases, the accuracy may not be sufficiently obtained only by the conventional still image recognition process.
  • the feature map calculated based on the difference image is superimposed on the layer after the feature extraction of the recognizer by four rules, etc., and the result is input to the object recognition layer to obtain a still image. It is possible to add motion information of moving objects, which cannot be obtained only by the processing of.
  • the number of input dimensions of the recognizer does not change depending on the presence or absence of the difference, and learning using a normal 1-channel image (Gray) or 3-channel image (RGB, YUV, etc.) as it is is possible, so that conventional recognition is possible. It is possible to use the vessel, and there is no need to prepare special training data.
  • the neural network instead of simply inputting the presence or absence of the difference into the neural network, it is input after evaluating whether the difference area has a shape or color that seems to be the target object based on a certain model, so the detection accuracy for the difference area is determined. Can be enhanced.
  • the image pickup device is an electronic device such as a camera, and is also an information processing device that processes the acquired image data as a signal.
  • the imaging device is not limited to such electronic devices.
  • FIG. 1 is a block diagram showing a configuration example of an imaging device.
  • the image pickup apparatus 2 includes an image pickup block 20 and a signal processing block 30.
  • the imaging block 20 and the signal processing block 30 are connected by connecting lines CL1 to CL3.
  • the image pickup block 20 generates image data by executing an image pickup operation.
  • the image pickup block 20 includes an image pickup unit 21, an image pickup processing unit 22, an output control unit 23, an output I / F 24, and an image pickup control unit 25.
  • the imaging unit 21 includes a plurality of pixels arranged in two dimensions. When light from an optical system (not shown) is incident on the imaging unit 21, photoelectric conversion is performed on each pixel, and an analog pixel signal corresponding to the incident light is output.
  • the image pickup processing unit 22 drives the image pickup unit 21. Further, the imaging processing unit 22 converts the analog pixel signal from the imaging unit 21 into a digital pixel signal, and outputs the digitally converted pixel signal for one frame as the captured image 40.
  • the captured image 40 is sent to the output control unit 23 and also sent to the signal processing block 30 via the connection line CL2.
  • the captured image 40 may be one frame in the moving image.
  • the output control unit 23 outputs the captured image 40 from the image pickup processing unit 22 and / or the signal processing result 60 (described later) from the signal processing block 30 to the outside via the output I / F 24.
  • the output I / F 24 is an I / F that outputs the captured image 40 and the signal processing result 60 to the outside.
  • a relatively high-speed I / F such as MIPI (Mobile Industry Processor Interface) may be adopted.
  • the image pickup control unit 25 includes a communication I / F 26 and a register group 27.
  • the communication I / F 26 exchanges necessary information such as information to be read / written from the register group 27 with the outside of the image pickup apparatus 2.
  • a first communication I / F such as a serial communication I / F such as I2C (Inter-Integrated Circuit) may be adopted.
  • the register group 27 stores information related to imaging by the imaging unit 21 and various other information.
  • the image pickup control unit 25 controls the image pickup processing unit 22 according to the image pickup information stored in the register group 27, thereby controlling the image pickup by the image pickup unit 21.
  • the image pickup control unit 25 is connected to the CPU 31 of the signal processing block 30 via the connection line CL1.
  • the reading and writing of information to the register group 27 may be performed by the CPU 31.
  • the signal processing block 30 performs predetermined signal processing using the captured image 40 or the like obtained by the imaging block 20.
  • the signal processing block 30 includes a CPU (Central Processing Unit) 31, a DSP (Digital Signal Processor), a memory 33, a communication I / F 34, an image compression unit 35, an input I / F 36, and a difference generation unit 37.
  • the components of these signal processing blocks 30 are connected to each other via a bus, and information is exchanged as needed.
  • the CPU 31 functions as an imaging information calculation unit that calculates imaging information by using the signal processing result 60 obtained by the signal processing in the DSP 32 by executing the program.
  • the CPU 31 feeds back the calculated imaging information to the register group 27 of the imaging control unit 25 via the connection line CL1 and stores it.
  • the DSP 32 By executing the program stored in the memory 33, the DSP 32 receives information received from the outside by the captured image 40 and the input I / F 36 supplied from the imaging processing unit 22 to the signal processing block 30 via the connection line CL2. Signal processing is performed using.
  • the memory 33 is composed of SRAM (Static Random Access Memory), DRAM (Dynamic RAM), etc., and stores programs and the like necessary for processing the signal processing block 30.
  • the programs required for the operation of the image pickup apparatus 2, the learned model 330 and the information processing program 335, which will be described later, are also stored in the memory 33.
  • the communication I / F 34 is, for example, a second communication I / F such as a serial communication I / F such as SPI (Serial Peripheral Interface), and requires a program or the like executed by the CPU 31 or DSP 32 with the outside. Exchange information.
  • a second communication I / F such as a serial communication I / F such as SPI (Serial Peripheral Interface)
  • SPI Serial Peripheral Interface
  • the image compression unit 35 is supplied with the captured image 40 from the image processing unit 22 via the connection line CL2.
  • the image compression unit 35 performs a compression process for compressing the captured image 40, and generates a compressed image having a smaller amount of data than the captured image 40.
  • the generated compressed image is supplied to the bus.
  • An uncompressed image that is not compressed by the image compression unit 35 may be supplied to the bus.
  • both the compressed image and the uncompressed image are referred to as a captured image 40.
  • the input I / F 36 is an I / F that receives information from the outside.
  • the input I / F 36 receives, for example, the output of the external sensor (external sensor output) from the external sensor, supplies it to the memory 33 via the bus, and stores it.
  • the difference generation unit 37 is a generation unit that generates the difference image 50.
  • the difference image 50 is an image showing changes in the objects included in the captured image 40.
  • the method for generating the difference image 50 is not particularly limited.
  • the difference image 50 may be generated from the captured image 40, and in this case, a background subtraction method, a simple difference method, or the like may be used. As described above, when the captured image 40 is one frame, a background image is acquired from another image, or a simple difference image with another image (simple difference image between frames, etc.) is acquired. Because it can be done.
  • the difference image 50 may be generated based on information other than the captured image 40, which will be described later with reference to FIG.
  • the difference image 50 may be generated by the CPU 31 or the DSP 32.
  • the difference generation unit 37 in FIG. 1 is omitted, and the output (image captured image 40) of the image pickup processing unit 22 is input to the CPU 31 or DSP 32 via the bus.
  • FIG. 2 is a perspective view showing an outline of the appearance configuration example of the image pickup apparatus 2 of FIG.
  • the image pickup device 2 can be configured as a one-chip semiconductor device having a laminated structure in which a plurality of dies are laminated.
  • the image pickup device 2 is configured by stacking two dies, dies 51 and 52.
  • an imaging unit 21 is mounted on the upper die 51, and an imaging processing unit 22 to an imaging control unit 25, and a CPU 31 to a difference generation unit 37 are mounted on the lower die 52.
  • the upper die 51 and the lower die 52 are, for example, a Cu wiring exposed on the lower surface side of the die 51 by forming a through hole that penetrates the die 51 and reaches the die 52, and the die 52. It is electrically connected by performing Cu-Cu bonding that directly connects to the Cu wiring exposed on the upper surface side of the above.
  • a column parallel AD method or an area AD method can be adopted as a method for AD conversion of the image signal output by the image pickup unit 21 in the image pickup processing unit 22.
  • an ADC AD Converter
  • the ADC in each row is in charge of AD conversion of the pixel signals of the pixels in that row.
  • AD conversion of the image signal of the pixels of each column in one row is performed in parallel.
  • a part of the imaging processing unit 22 that performs AD conversion of the column-parallel AD method may be mounted on the upper die 51.
  • the pixels constituting the imaging unit 21 are divided into a plurality of blocks, and an ADC is provided for each block. Then, the ADC of each block is in charge of the AD conversion of the pixel signals of the pixels of the block, so that the AD conversion of the image signals of the pixels of the plurality of blocks is performed in parallel.
  • the AD conversion (reading and AD conversion) of the image signal can be performed only on the necessary pixels among the pixels constituting the imaging unit 21 with the block as the minimum unit.
  • the image pickup device 2 can be composed of one die.
  • two dies 51 and 52 are laminated to form a one-chip image pickup device 2, but the one-chip image pickup device 2 is configured by stacking three or more dies. can do.
  • the memory 33 of FIG. 2 can be mounted on another die.
  • an imaging device in which sensor chips, memory chips, and DSP chip chips are connected in parallel by a plurality of bumps (hereinafter, also referred to as bump-connected imaging devices), imaging of one chip configured in a laminated structure is performed. Compared with the device 2, the thickness is greatly increased, and the device is enlarged.
  • the bump connection imaging device it may be difficult to secure a sufficient rate for outputting the captured image from the imaging processing unit 22 to the output control unit 23 due to signal deterioration or the like at the bump connecting portion. could be.
  • the image pickup device 2 having a laminated structure, it is possible to prevent the above-mentioned increase in size of the device and the inability to secure a sufficient rate as the rate between the image pickup processing unit 22 and the output control unit 23. be able to.
  • the image pickup device 2 having a laminated structure it is possible to realize that the image pickup device that outputs the information required by the user can be configured in a small size.
  • the imaging device 2 can output the captured image.
  • the imaging device 2 When the information required by the user is obtained by signal processing using the captured image, the imaging device 2 performs the signal processing in the DSP 32 to process the signal as the information required by the user. The result can be obtained and output.
  • the signal processing performed by the image pickup apparatus 2 that is, the signal processing of the DSP 32, for example, a recognition process for recognizing a predetermined recognition target from the captured image can be adopted.
  • the image pickup device 2 can receive the output of a distance sensor such as a ToF (Time of Flight) sensor arranged so as to have a predetermined positional relationship with the image pickup device 2 at the input I / F 36.
  • a distance sensor such as a ToF (Time of Flight) sensor arranged so as to have a predetermined positional relationship with the image pickup device 2 at the input I / F 36.
  • the signal processing of the DSP 32 for example, the output of the distance sensor and the imaging such as the processing of removing the noise of the distance image obtained from the output of the distance sensor received at the input I / F36 by using the captured image. Fusion processing that integrates with the image to obtain an accurate distance can be adopted.
  • the image pickup device 2 can receive an image output by an image sensor arranged so as to have a predetermined positional relationship with the image pickup device 2 at the input I / F 36.
  • a self-position estimation process (SLAM (Simultaneously Localization and Mapping)) using the image received by the input I / F 36 and the captured image as a stereo image can be adopted. ..
  • SLAM Simultaneously Localization and Mapping
  • the captured image 40 acquired by the imaging block 20 is processed by the signal processing block 30, and the signal processing result 60, which is the processing result, is processed by an external element of the imaging device 2 (described later). It can be output to (including the figure AP etc.).
  • the processing of the signal processing block 30 in the present embodiment includes the object detection processing in the captured image 40.
  • the object detection process is executed by the DSP 32 and the difference generation unit 37. An example of such a form will be described below.
  • FIG. 3 is a diagram showing an example of a functional block of DSP 32.
  • the DSP 32 includes an input unit 321, an evaluation unit 322, a detection unit 323, and an output unit 324.
  • the captured image 40 and the difference image 50 are input to the input unit 321.
  • the input unit 321 acquires the captured image 40 from the imaging block 20 via the bus (FIG. 1). Further, the input unit 321 acquires the difference image 50 from the difference generation unit 37 via the bus.
  • the evaluation unit 322 evaluates the difference image 50.
  • the evaluation of the difference image 50 is performed using, for example, template matching.
  • template matching matching is performed between each template image generated in advance and the difference image 50.
  • the template image may be an image showing the shape of the motion portion of various expected objects.
  • Matching is established when the difference image 50 and the template image are determined to be the same or similar. The determination of similarity may be made based on the degree of similarity calculated by using the mutual correlation coefficient of both images. Matching may be based on shape or color.
  • the difference image 50 for which matching is established is evaluated as a difference feature amount and sent to the detection unit 323.
  • the evaluation unit 322 may execute a binarize process (differential binarize) on the difference image 50.
  • the template image is also a binarized image in the same manner, and matching with a silhouette shape is performed.
  • a morphology process, an inversion process, a probability distribution process, a noise reduction process, and the like may be executed.
  • the detection unit 323 detects an object in the captured image 40.
  • the detection unit 323 detects an object in the captured image 40 by using the trained model 330 (FIG. 1) that inputs the captured image 40 and the difference image 50 input to the input unit 321.
  • the trained model 330 is a trained model generated in advance using training data so as to detect an object in the captured image 40 based on the captured image 40 and the difference image 50. Further details of the trained model 330 will be described later with reference to FIG.
  • the output unit 324 outputs the detection result of the detection unit 323.
  • the detection result includes, for example, information on the captured image 40 and the objects detected in the captured image 40.
  • the detection result is output as a signal processing result 60 (or a part thereof).
  • FIG. 4 is a diagram showing an example of object detection processing by the difference generation unit 37 and the DSP 32.
  • the trained model 330 is a CNN (Convolutional Neural Network) and includes an extraction layer (Feature-extractor) 331 and a detection layer (Object-detection) 333.
  • the connection portion between the extraction layer 331 and the detection layer 333 is conceptually shown as a node 332.
  • FIG. 4 illustrates, as three consecutive time-series images, a captured image 401, a captured image 402, and a captured image 403 captured in order.
  • the extraction layer 331 of the trained model 330 extracts the feature amount of the captured image 403 from the captured image 403.
  • the feature amount extracted by the extraction layer 331 is sent to the node 332.
  • the difference generation unit 37 generates the difference image 50 by using the captured image 401, the captured image 402, and the captured image 403.
  • the difference image 50 is an image showing the difference between the captured image 403 and other images (captured image 401 and captured image 402).
  • the evaluation unit 322 evaluates the difference image 50 generated by the difference generation unit 37.
  • the evaluation result (difference feature amount) of the evaluation unit 322 is sent to the node 332.
  • the detection layer 333 is included in the captured image 403 based on the extraction result of the extraction layer 331 sent to the node 332 (feature amount of the captured image 403) and the evaluation result of the evaluation unit 322 (difference feature amount of the captured image 403). Detect the object.
  • the differential feature amount of the captured image 403 may be concatenation with the feature amount of the captured image 403 as a new channel and input to the detection layer 333.
  • the difference feature amount of the captured image 403 may be input to the detection layer 333 after being incorporated into the feature amount of the captured image 403 by arithmetic processing (four rules or the like) for the feature amount of the captured image 403.
  • the size of the differential feature map of the captured image 403 may be adjusted to match the size of the feature map of the captured image 403.
  • the CNN in which the extraction layer and the detection layer are clearly separated has been described here as an example, it is not always necessary to use the CNN in which the extraction layer and the detection layer are separated.
  • the above-mentioned difference feature amount may be combined in an intermediate layer, or may be incorporated by arbitrary arithmetic processing (four arithmetic operations, etc.).
  • FIG. 5 is a flowchart showing an example of generation of trained model 330. The processing of this flowchart is executed, for example, by a person skilled in the art using a device such as a computer as needed.
  • step S1 prepare training data.
  • An example of training data is teacher data in which object information that can be detected (want to be recognized) and a label are associated with each other.
  • the object information includes an image of the object and a difference image.
  • the label is information for identifying an object in the image.
  • step S2 the parameters of the trained model are trained. Specifically, the parameters of the trained model 330 are trained using the training data prepared in step S1 above. If the trained model 330 is a CNN for image recognition, the parameter is a coefficient of the CNN.
  • the training data may be a plurality of training data consisting of different combinations of teacher data, in which case a plurality of parameters optimized for each corresponding training data are obtained.
  • step S3 confirm the performance of the trained model 330. For example, using the verification or evaluation data, the accuracy of object detection by the trained model 330 is confirmed. When a plurality of parameters are obtained in the previous step S2, the detection performance of the trained model 330 composed of each parameter is confirmed.
  • step S4 save the parameter with the best performance. That is, in the previous step S3, the detection performance of each of the trained model 330 composed of each parameter is compared, and the parameter having the best performance is saved as the parameter of the trained model 330.
  • step S4 After the processing of step S4 is completed, the processing of the flowchart ends.
  • FIG. 6 is a flowchart showing an example of template image generation. The processing of this flowchart is executed, for example, by a person skilled in the art using a device such as a computer as needed.
  • step S11 a difference image is acquired. For example, prepare time-series images for various assumed objects and acquire difference images from those time-series images.
  • step S12 the binarization process is executed on the difference image acquired in the previous step S11.
  • morphology processing, inversion processing, probability distribution processing, noise reduction processing, and the like may be executed.
  • a template image is created using the image for which the binarization process was executed in the previous step S12. If there are a plurality of images for the same part of the same object, a template image may be generated using those statistical values (average value, etc.).
  • step S13 After the process of step S13 is completed, the process of the flowchart ends.
  • FIG. 7 is a flowchart showing an example of detection processing.
  • the detection process is performed by the DSP 32 executing the information processing program 335 (FIG. 1) stored in the memory 33.
  • step S21 the input image is acquired. That is, the captured image 40 is input to the input unit 321.
  • step S21 After the process of step S21 is completed, the processes of steps S22 to S25 and the process of step S26 are executed in parallel.
  • step S22 a difference image is acquired. That is, the difference image 50 is input to the input unit 321.
  • step S23 the binarization process is executed. That is, the evaluation unit 322 binarizes the difference image 50 input in the previous step S22.
  • a morphology process, an inversion process, a probability distribution process, a noise reduction process, and the like may be executed.
  • step S24 matching with the template is performed. That is, the evaluation unit 322 matches the difference image 50 for which the binarization process is executed in the previous step S23 with the template image created as described above with reference to FIG.
  • the difference image 50 for which matching is established is obtained as an evaluation result (difference feature amount).
  • step S25 the size of the difference feature amount map is adjusted. Specifically, the detection unit 323 adjusts the map size of the difference image 50 obtained as the evaluation result (difference feature amount) in the previous step S24 so as to match the map size of the captured image 40. After the process of step S25 is completed, the process proceeds to step S27.
  • step S26 the feature amount is extracted. Specifically, the extraction layer 331 of the trained model 330 extracts the feature amount of the captured image 40 acquired in the previous step S31. After the process of step S26 is completed, the process proceeds to step S27.
  • step S27 the feature map is merged. Specifically, the detection unit 323 combines the difference feature amount map adjusted in the previous step S25 with the feature amount map acquired in the previous step S26.
  • step S28 the object is detected.
  • the detection layer 333 uses the captured image 40 acquired in the previous step S21 and the feature amount map merged in the previous step S27 (that is, the feature amount and the difference feature amount of the captured image 40). The object in the captured image 40 is detected.
  • step S28 After the processing in step S28 is completed, the processing of the flowchart ends.
  • FIG. 8 is a block diagram showing a configuration example of an imaging device according to the modification.
  • the image pickup device 2A shown in FIG. 8 is different from the image pickup device 2 (FIG. 1) in that it includes a difference generation unit 37A1 and a difference generation unit 37A2 instead of the difference generation unit 37.
  • the difference generation unit 37A2 may be omitted.
  • the difference generation unit 37A1 is, for example, a DVS (Dynamic Vision Sensor), and detects a change (for example, luminance difference information) in the image pickup target of the image pickup unit 21, that is, the captured image 40.
  • the detection result of the difference generation unit 37A1 is also one aspect of the difference image 50.
  • the difference image 50 is supplied to the signal processing block 30 via the input I / F 36.
  • the difference image 50 may be supplied directly to the bus from the input I / F 36, or may be supplied to the bus via the difference generation unit 37A2 if there is a difference generation unit 37A2.
  • the difference generation unit 37A2 removes noise caused by a flicker component, a dark current, or the like in the difference image 50 output from the difference generation unit 37A1, for example.
  • the difference image 50 can also be generated by using the difference generation unit 37A1.
  • the difference generation unit 37A1 which is a DVS
  • the difference image 50 is immediately obtained, so that the process of generating the difference image 50 from the captured image 40 as in the difference generation unit 37 (FIG. 1) can be omitted. Further, it is not necessary to hold a time-series image (captured image information of a plurality of frames) for generating the difference image 50.
  • FIG. 9 is a block diagram showing a configuration example of an imaging device according to another modified example.
  • the image pickup device 2B shown in FIG. 9 is different from the image pickup device 2 (FIG. 1) in that the image pickup block 20B and the signal processing block 30B are provided in place of the image pickup block 20 and the signal processing block 30.
  • the image pickup apparatus 2B includes a difference generation unit 37 in the image pickup control unit 25B of the image pickup block 20B instead of the signal processing block 30B.
  • the difference generation unit 37 generates the difference image 50 by using the image pickup image 40 sent to the image pickup control unit 25B.
  • the generated difference image 50 is sent to the CPU 31 and thus to the DSP 32 via the connection line CL1.
  • the object detection process in the captured image 40 is executed in the imaging device.
  • all the processing is performed in the imaging device, and only the result is sent to the subsequent stage, that is, to the outside of the imaging device (including the application processor (AP), etc.), so that the processing load in the subsequent stage is reduced.
  • AP application processor
  • NPU Neurological network Processing Unit
  • FIG. 10 is a diagram showing an example of a schematic configuration of an imaging device according to such a modified example.
  • the learned model 330C and the information processing program 335C stored in the memory 33C execute the extraction by the extraction layer 331 and the evaluation by the evaluation unit 322 described above in the imaging apparatus 2C.
  • the extraction result by the extraction layer 331, the evaluation result by the evaluation unit 322, and the like are sent to the application processor 70C as the signal processing result 60 via the output I / F24.
  • the image pickup apparatus 2C includes a configuration corresponding to the detection layer 333 in the application processor 70C.
  • the application processor 70C is configured by using, for example, a CPU (Central Processing Unit) or the like, and executes an operating system, various application software, or the like.
  • the application processor 70C may be equipped with functions such as a GPU (Graphics Processing Unit) and a baseband processor.
  • the application processor 70C executes various processes as necessary for image data and machine learning results, executes display to the user, and externally via a predetermined network 80. It sends to the cloud server 90 of.
  • the destination of image data and machine learning results is not limited to the cloud server 90, and has a communication function such as a server that operates independently, a file server that stores various data, and a communication terminal such as a mobile phone. It may be various information processing devices (systems).
  • the application processor 70C can perform recognition processing according to various use cases by using the feature amount, so that the versatility is enhanced.
  • FIG. 11 is a diagram showing a schematic configuration of an imaging device according to such a modified example.
  • the image pickup apparatus 2D shown in FIG. 11 is different from the image pickup apparatus 2 (FIG. 1) in that the signal processing block 30D is provided instead of the signal processing block 30.
  • the signal processing block 30D does not include the difference generation unit 37, nor does it have the trained model 330 and the information processing program 335 (FIG. 1) in the memory 33D.
  • the image pickup apparatus 2D includes a configuration corresponding to the difference generation unit 37, the trained model 330, and the information processing program 335 in the application processor 70D.
  • the image pickup apparatus 2D all the object recognition processes are executed by the application processor 70D.
  • a dedicated imaging device (or DSP) configured to execute the object detection process is not required, and the object detection process can be realized by combining a general-purpose imaging device and an application processor.
  • the image pickup apparatus 2 includes a detection unit 323.
  • the detection unit 323 detects an object in the captured image 40 by using the trained model 330 that inputs the captured image 40 and the difference image 50 showing the change of the object included in the captured image 40.
  • the trained model 330 includes an extraction layer 331 and a detection layer 333.
  • the extraction layer 331 extracts the feature amount of the captured image 40.
  • the detection layer 333 detects an object in the captured image 40 based on the extraction result of the input unit 321 and the difference image 50.
  • the object in the captured image 40 is detected based on not only the feature amount of the captured image 40 but also the difference image 50. Therefore, it is possible to improve the detection accuracy of the object.
  • the imaging device 2 may further include an evaluation unit 322.
  • the evaluation unit 322 evaluates the difference image 50.
  • the detection layer 333 may detect an object in the captured image 40 based on the extraction result of the extraction layer 331 and the evaluation result of the evaluation unit 322. By using the evaluation result of the difference image 50 in this way, the detection accuracy of the object can be improved.
  • the evaluation unit 322 may evaluate the shape of the difference image 50. By using the evaluation result of the shape of the difference image 50, the detection accuracy of the object can be improved.
  • the evaluation unit 322 may evaluate the color of the difference image 50. By using the color evaluation result of the difference image 50, the object detection accuracy can be improved.
  • the evaluation unit 322 may evaluate the difference image 50 by performing template matching. For example, by evaluating the difference image 50 in this way, the detection accuracy of the object can be improved.
  • the image pickup device 2 may further include a difference generation unit 37.
  • the difference generation unit 37 is a generation unit that generates the difference image 50. As a result, the difference image 50 can be generated in the image pickup apparatus 2.
  • the difference generation unit 37 may generate the difference image 50 by using the background subtraction method. For example, in this way, the difference image 50 can be generated.
  • the difference generation unit 37 may generate the difference image 50 by using the simple difference method. For example, in this way, the difference image 50 can be generated.
  • the difference generation unit 37 may be a DVS (Dynamic Vision Sensor). By immediately obtaining the difference image 50 by DVS, it is possible to omit the process of generating the difference image 50 from the captured image 40, for example. Further, it is possible to eliminate the need to hold a time-series image (captured information of a plurality of frames) for generating the difference image 50.
  • DVS Dynamic Vision Sensor
  • the image pickup device 2 may further include an image pickup block 20.
  • the image pickup block 20 is an image pickup unit that acquires an image pickup image 40. As a result, the captured image 40 can be acquired by the imaging device 2.
  • the information processing method shown in FIG. 7 is also an aspect of the present disclosure. That is, the information processing method detects the object in the captured image 40 by using the trained model 330 that inputs the captured image 40 and the difference image 50 indicating the change of the object included in the captured image 40. Step S28) is included.
  • the trained model 330 includes an extraction layer 331 that extracts the feature amount of the captured image 40, an extraction result of the extraction layer 331, and a detection layer 333 that detects an object in the captured image 40 based on the difference image 50. including. Even with such an information processing method, it is possible to improve the object detection accuracy as in the information processing apparatus described above.
  • the information processing program 335 shown in FIG. 1 is also an aspect of the present disclosure. That is, the information processing program 335 is a program for operating the computer. As illustrated in FIG. 7, the program detects an object in the captured image 40 using a trained model 330 that inputs a captured image 40 and a difference image 50 showing changes in the objects contained in the captured image 40. The computer is made to execute the step (step S28).
  • the trained model 330 includes an extraction layer 331 that extracts the feature amount of the captured image 40, an extraction result of the extraction layer 331, and a detection layer 333 that detects an object in the captured image 40 based on the difference image 50. including. Even with such a program, it is possible to improve the object detection accuracy as in the information processing apparatus described above.
  • the technology according to the present disclosure can be applied to various products.
  • the technology according to the present disclosure is realized as a device mounted on a moving body of any kind such as an automobile, an electric vehicle, a hybrid electric vehicle, a motorcycle, a bicycle, a personal mobility, an airplane, a drone, a ship, and a robot. You may.
  • FIG. 12 is a block diagram showing a schematic configuration example of a vehicle control system, which is an example of a mobile control system to which the technique according to the present disclosure can be applied.
  • the vehicle control system 12000 includes a plurality of electronic control units connected via the communication network 12001.
  • the vehicle control system 12000 includes a drive system control unit 12010, a body system control unit 12020, an outside information detection unit 12030, an in-vehicle information detection unit 12040, and an integrated control unit 12050.
  • a microcomputer 12051, an audio image output unit 12052, and an in-vehicle network I / F (Interface) 12053 are shown as a functional configuration of the integrated control unit 12050.
  • the drive system control unit 12010 controls the operation of the device related to the drive system of the vehicle according to various programs.
  • the drive system control unit 12010 provides a driving force generator for generating the driving force of the vehicle such as an internal combustion engine or a driving motor, a driving force transmission mechanism for transmitting the driving force to the wheels, and a steering angle of the vehicle. It functions as a control device such as a steering mechanism for adjusting and a braking device for generating a braking force of a vehicle.
  • the body system control unit 12020 controls the operation of various devices mounted on the vehicle body according to various programs.
  • the body system control unit 12020 functions as a keyless entry system, a smart key system, a power window device, or a control device for various lamps such as a head lamp, a back lamp, a brake lamp, a winker, or a fog lamp.
  • the body system control unit 12020 may be input with radio waves transmitted from a portable device that substitutes for the key or signals of various switches.
  • the body system control unit 12020 receives inputs of these radio waves or signals and controls a vehicle door lock device, a power window device, a lamp, and the like.
  • the vehicle outside information detection unit 12030 detects information outside the vehicle equipped with the vehicle control system 12000.
  • the imaging unit 12031 is connected to the vehicle exterior information detection unit 12030.
  • the vehicle outside information detection unit 12030 causes the image pickup unit 12031 to capture an image of the outside of the vehicle and receives the captured image.
  • the vehicle exterior information detection unit 12030 may perform object detection processing or distance detection processing such as a person, a vehicle, an obstacle, a sign, or a character on the road surface based on the received image.
  • the imaging unit 12031 is an optical sensor that receives light and outputs an electric signal according to the amount of the light received.
  • the image pickup unit 12031 can output an electric signal as an image or can output it as distance measurement information. Further, the light received by the imaging unit 12031 may be visible light or invisible light such as infrared light.
  • the in-vehicle information detection unit 12040 detects the in-vehicle information.
  • a driver state detection unit 12041 that detects the driver's state is connected to the in-vehicle information detection unit 12040.
  • the driver state detection unit 12041 includes, for example, a camera that images the driver, and the in-vehicle information detection unit 12040 determines the degree of fatigue or concentration of the driver based on the detection information input from the driver state detection unit 12041. It may be calculated, or it may be determined whether the driver is dozing.
  • the microcomputer 12051 calculates the control target value of the driving force generator, the steering mechanism, or the braking device based on the information inside and outside the vehicle acquired by the outside information detection unit 12030 or the inside information detection unit 12040, and the drive system control unit.
  • a control command can be output to 12010.
  • the microcomputer 12051 realizes ADAS (Advanced Driver Assistance System) functions including vehicle collision avoidance or impact mitigation, follow-up driving based on inter-vehicle distance, vehicle speed maintenance driving, vehicle collision warning, vehicle lane deviation warning, and the like. It is possible to perform cooperative control for the purpose of.
  • ADAS Advanced Driver Assistance System
  • the microcomputer 12051 controls the driving force generator, the steering mechanism, the braking device, and the like based on the information around the vehicle acquired by the vehicle exterior information detection unit 12030 or the vehicle interior information detection unit 12040, so that the driver can control the vehicle. It is possible to perform coordinated control for the purpose of automatic driving, etc., which runs autonomously without depending on the operation.
  • the microcomputer 12051 can output a control command to the body system control unit 12030 based on the information outside the vehicle acquired by the vehicle exterior information detection unit 12030.
  • the microcomputer 12051 controls the headlamps according to the position of the preceding vehicle or the oncoming vehicle detected by the external information detection unit 12030, and performs coordinated control for the purpose of anti-glare such as switching the high beam to the low beam. It can be carried out.
  • the audio image output unit 12052 transmits the output signal of at least one of the audio and the image to the output device capable of visually or audibly notifying the passenger or the outside of the vehicle of the information.
  • an audio speaker 12061, a display unit 12062, and an instrument panel 12063 are exemplified as output devices.
  • the display unit 12062 may include, for example, at least one of an onboard display and a heads-up display.
  • FIG. 13 is a diagram showing an example of the installation position of the imaging unit 12031.
  • the imaging unit 12031 includes imaging units 12101, 12102, 12103, 12104, and 12105.
  • the imaging units 12101, 12102, 12103, 12104, 12105 are provided at positions such as, for example, the front nose, side mirrors, rear bumpers, back doors, and the upper part of the windshield in the vehicle interior of the vehicle 12100.
  • the image pickup unit 12101 provided on the front nose and the image pickup section 12105 provided on the upper part of the windshield in the vehicle interior mainly acquire an image in front of the vehicle 12100.
  • the imaging units 12102 and 12103 provided in the side mirrors mainly acquire images of the side of the vehicle 12100.
  • the imaging unit 12104 provided on the rear bumper or the back door mainly acquires an image of the rear of the vehicle 12100.
  • the imaging unit 12105 provided on the upper part of the windshield in the vehicle interior is mainly used for detecting a preceding vehicle, a pedestrian, an obstacle, a traffic light, a traffic sign, a lane, or the like.
  • FIG. 13 shows an example of the photographing range of the imaging units 12101 to 12104.
  • the imaging range 12111 indicates the imaging range of the imaging unit 12101 provided on the front nose
  • the imaging ranges 12112 and 12113 indicate the imaging ranges of the imaging units 12102 and 12103 provided on the side mirrors, respectively
  • the imaging range 12114 indicates the imaging range of the imaging units 12102 and 12103.
  • the imaging range of the imaging unit 12104 provided on the rear bumper or the back door is shown. For example, by superimposing the image data captured by the imaging units 12101 to 12104, a bird's-eye view image of the vehicle 12100 as viewed from above can be obtained.
  • At least one of the imaging units 12101 to 12104 may have a function of acquiring distance information.
  • at least one of the image pickup units 12101 to 12104 may be a stereo camera composed of a plurality of image pickup elements, or an image pickup element having pixels for phase difference detection.
  • the microcomputer 12051 has a distance to each three-dimensional object within the imaging range 12111 to 12114 based on the distance information obtained from the imaging units 12101 to 12104, and a temporal change of this distance (relative velocity with respect to the vehicle 12100). By obtaining can. Further, the microcomputer 12051 can set an inter-vehicle distance to be secured in front of the preceding vehicle in advance, and can perform automatic braking control (including follow-up stop control), automatic acceleration control (including follow-up start control), and the like. In this way, it is possible to perform coordinated control for the purpose of automatic driving or the like in which the vehicle travels autonomously without depending on the operation of the driver.
  • automatic braking control including follow-up stop control
  • automatic acceleration control including follow-up start control
  • the microcomputer 12051 converts three-dimensional object data related to a three-dimensional object into two-wheeled vehicles, ordinary vehicles, large vehicles, pedestrians, electric poles, and other three-dimensional objects based on the distance information obtained from the imaging units 12101 to 12104. It can be classified and extracted and used for automatic avoidance of obstacles. For example, the microcomputer 12051 distinguishes obstacles around the vehicle 12100 into obstacles that can be seen by the driver of the vehicle 12100 and obstacles that are difficult to see. Then, the microcomputer 12051 determines the collision risk indicating the risk of collision with each obstacle, and when the collision risk is equal to or higher than the set value and there is a possibility of collision, the microcomputer 12051 is used via the audio speaker 12061 or the display unit 12062. By outputting an alarm to the driver and performing forced deceleration and avoidance steering via the drive system control unit 12010, driving support for collision avoidance can be provided.
  • At least one of the imaging units 12101 to 12104 may be an infrared camera that detects infrared rays.
  • the microcomputer 12051 can recognize a pedestrian by determining whether or not a pedestrian is present in the captured image of the imaging units 12101 to 12104.
  • pedestrian recognition includes, for example, a procedure for extracting feature points in an image captured by an imaging unit 12101 to 12104 as an infrared camera, and pattern matching processing for a series of feature points indicating the outline of an object to determine whether or not the pedestrian is a pedestrian. It is done by the procedure to determine.
  • the audio image output unit 12052 When the microcomputer 12051 determines that a pedestrian is present in the captured images of the imaging units 12101 to 12104 and recognizes the pedestrian, the audio image output unit 12052 outputs a square contour line for emphasizing the recognized pedestrian.
  • the display unit 12062 is controlled so as to superimpose and display. Further, the audio image output unit 12052 may control the display unit 12062 so as to display an icon or the like indicating a pedestrian at a desired position.
  • the above is an example of a vehicle control system to which the technology according to the present disclosure can be applied.
  • the technique according to the present disclosure can be applied to the imaging unit 12031 among the configurations described above.
  • By applying the technique according to the present disclosure to the image pickup unit 12031 it is possible to obtain a captured image that is easier to see, and thus it is possible to reduce driver fatigue.
  • a detection unit for detecting the object in the image is provided by using a trained model in which an image and a difference image showing a change of an object included in the image are input.
  • the trained model is An extraction layer for extracting the feature amount of the image and A detection layer that detects the object in the image based on the extraction result of the extraction layer and the difference image, and including, Information processing device.
  • An evaluation unit for evaluating the difference image is further provided. The detection layer detects an object in the image based on the extraction result of the extraction layer and the evaluation result of the evaluation unit.
  • the information processing device according to (1).
  • the evaluation unit evaluates the shape of the difference image.
  • the evaluation unit evaluates the color of the difference image.
  • the information processing device according to (2) or (3). (5) The evaluation unit evaluates the difference image by performing template matching. The information processing device according to any one of (2) to (4). (6) A generation unit for generating the difference image is further provided. The information processing device according to any one of (1) to (5). (7) The generator generates the difference image using the background subtraction method. The information processing device according to (6). (8) The generation unit generates the difference image using a simple difference method. The information processing device according to (6). (9) The generator is a DVS (Dynamic Vision Sensor). The information processing device according to (6). (10) An image pickup unit for acquiring the image is further provided. The information processing device according to any one of (1) to (9).
  • (11) Includes detecting the object in the image using a trained model that inputs an image and a difference image showing changes in the objects contained in the image.
  • the trained model is An extraction layer for extracting the feature amount of the image and A detection layer that detects the object in the image based on the extraction result of the extraction layer and the difference image, and including, Information processing method.
  • (12) A program to make a computer work A step of detecting the object in the image by using a trained model in which an image and a difference image showing a change of an object included in the image are input.
  • the trained model is An extraction layer that extracts the features of the image and A detection layer that detects the object in the image based on the extraction result of the extraction layer and the difference image, and including, program.
  • Imaging device 20 Imaging block 21 Imaging unit 22 Imaging processing unit 23 Output control unit 24 Output I / F 25 Imaging control unit 26 Communication I / F 27 Register group 30 Signal processing block 31 CPU 32 DSP 33 Memory 34 Communication I / F 35 Image compression unit 36 Input I / F 37 Difference generator 40 Captured image 50 Difference image 51 Die 52 Die 60 Signal processing result 70 Application processor 80 Network 90 Cloud server 330 Learned model 331 Extraction layer 332 Node 333 Information processing program

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

情報処理装置(2)は、画像(40)と画像(40)に含まれるオブジェクトの変化を示す差分画像(50)とを入力とする学習済みモデル(330)を用いて、画像(40)中のオブジェクトを検出する検出部(323)を備え、学習済みモデル(330)は、画像(40)の特徴量を抽出する抽出レイヤ(331)と、抽出レイヤ(331)の抽出結果、及び、差分画像(50)に基づいて、画像(40)中のオブジェクトを検出する検出レイヤ(333)と、を含む。

Description

情報処理装置、情報処理方法及びプログラム
 本開示は、情報処理装置、情報処理方法及びプログラムに関する。
 近年、画像認識により画角内に映り込んだオブジェクトを検出する技術が急速に発達してきている。例えば、特許文献1には、背景画像に対して変化した画素を示す差分情報が結合された画像を、ニューラルネットワークを用いた認識器に入力することで、画像に映り込んだオブジェクトを検出する技術が開示されている。
特開2017-191501号公報
 しかしながら、上記従来技術では、背景画像に対して変化した画素であるか否かを示す1ビットの情報のみが画像に結合され、色や形状などのその他の情報が利用されていないため、オブジェクトの検出精度を十分に向上することができていなかった。
 本開示は、オブジェクトの検出精度をより向上することが可能な情報処理装置、情報処理方法及びプログラムを提供することを目的とする。
 本開示の一側面に係る情報処理装置は、画像と画像に含まれるオブジェクトの変化を示す差分画像とを入力とする学習済みモデルを用いて、画像中のオブジェクトを検出する検出部を備え、学習済みモデルは、画像の特徴量を抽出する抽出レイヤと、抽出レイヤの抽出結果、及び、差分画像に基づいて、画像中のオブジェクトを検出する検出レイヤと、を含む。
 本開示の一側面に係る情報処理方法は、画像と画像に含まれるオブジェクトの変化を示す差分画像とを入力とする学習済みモデルを用いて、画像中のオブジェクトを検出することを含み、学習済みモデルは、画像の特徴量を抽出する抽出レイヤと、抽出レイヤの抽出結果、及び、差分画像に基づいて、画像中のオブジェクトを検出する検出レイヤと、を含む。
 本開示の一側面に係るプログラムは、コンピュータを機能させるためのプログラムであって、画像と画像に含まれるオブジェクトの変化を示す差分画像とを入力とする学習済みモデルとを用いて、画像中のオブジェクトを検出する工程と、をコンピュータに実行させ、学習済みモデルは、画像の特徴量を抽出する抽出レイヤと、抽出レイヤの抽出結果、及び、差分画像に基づいて、画像中のオブジェクトを検出する検出レイヤと、を含む。
実施形態に係る撮像装置の概略構成の例を示す図である。 撮像装置の外観構成例の概要を示す斜視図である。 DSPの機能ブロックの例を示す図である。 オブジェクト検出処理の例を示す図である。 学習済みモデルの生成の例を示すフローチャートである。 テンプレート画像の生成の例を示すフローチャートである。 オブジェクト検出処理の例を示すフローチャートである。 変形例に係る撮像装置の概略構成の例を示す図である。 変形例に係る撮像装置の概略構成の例を示す図である。 変形例に係る撮像装置の概略構成の例を示す図である。 変形例に係る撮像装置の概略構成の例を示す図である。 車両制御システムの概略的な構成の一例を示すブロック図である。 車外情報検出部及び撮像部の設置位置の一例を示す説明図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 以下に示す項目順序に従って本開示を説明する。
  1. はじめに
  2. 実施形態
   2.1 撮像装置の構成例
   2.2 撮像装置の外観構成例の概要
   2.3 DSPの機能ブロックの例
   2.4 オブジェクト検出処理の例
   2.5 学習済みモデルの手法の例
   2.6 テンプレート画像の生成の例
   2.7 検出処理の例
  3. 変形例
  4. 効果
  5. 移動体への応用例
1. はじめに
 上述のように、従来技術では、背景画像に対して変化した画素であるか否かを示す1ビットの情報のみが画像に結合され、色や形状などのその他の情報がオブジェクト検出に利用されていないため、差分領域の発生の仕方に強く影響を受けた検出結果となる可能性があり、オブジェクトの検出精度を十分に向上することができていなかった。
 また、ニューラルネットワークの生成のために、画像及び差分情報を入力とした学習用データが必要になり、準備に労力がかかる。すなわち、入力画像と差分情報とを結合したデータ形式(例えば、RGB画像と差分を表現する1ビットの情報との結合)を入力としているため、ニューラルネット学習時にも差分情報を含むデータが必須となる。ニューラルネットの汎化性能を高めるためには多種多様のデータを用いて学習する必要があるが、多種多様なデータすべてについて差分情報が必要、すなわち連続したフレームが必要となるため、学習データに対する制約が強く、学習用データの準備に労力がかかる。
 本開示の一側面によれば、検出精度を向上することが可能な情報処理装置、情報処理方法及びプログラムが提供される。すなわち、本開示の一側面は、消費電力・計算コストを低減させることを目的に、できるだけ低解像度でかつ広角を撮影した画像を用いて人や物体などのオブジェクト検出を行うことを目的とした認識処理や、センサモジュール上で軽量かつ精度良く認識処理を行うために従来の静止画からオブジェクトを検出する認識器に、時間方向の差分画像の情報を付加情報として利用することで精度向上させることを目的とする。
 例えば、低解像度・広角のシーンでは、検出すべき対象(人等)は、画像の中に非常に小さく写っていたり、広角撮影のために歪んでいたりする可能性があり、それらを一様に認識することは難しい。また、対象と背景のコントラストが小さいシーン、対象者が特異な姿勢のために機械学習ベースのアルゴリズムだけでは検出が難しいシーン、センサモジュール上で実行可能にするために認識器を簡易なものにしている場合など、従来の静止画認識処理だけでは精度が十分に得られないことがある。
 こうした課題に対し、認識器の特徴量抽出後のレイヤに対して差分画像をもとに計算した特徴量マップを四則演算などにより重ね合わせ、その結果を物体認識レイヤに入力することで、静止画の処理だけでは得られない、動体の動き情報を加味することが可能となる。
 この手法では、差分の有無により認識器の入力次元数は変わらず、通常の1チャネル画像(Gray)や3チャネル画像(RGBもしくはYUV等)をそのまま用いた学習が可能であるため、従来の認識器の使い方が可能となり、学習データも特別なものを準備する必要がない。
 また、単なる差分の有無をニューラルネットに入力するのではなく、あるモデルに基づいて差分領域が対象物体らしい形状や色等であるかどうかを評価してから入力するため、差分領域に対する検出精度を高められる。
 さらに、学習時においては、必ずしも差分情報を必要としないため、学習データセットの準備に特別の用意を必要としない。
2. 実施形態
2.1 撮像装置の構成例
 以下、本開示の一実施形態に係る撮像装置について説明する。以下の実施形態では、撮像装置は、カメラなどの電子機器であって、取得された画像データを信号処理する情報処理装置でもある。ただし、撮像装置はそのような電子機器に限定されない。
 図1は、撮像装置の構成例を示すブロック図である。撮像装置2は、撮像ブロック20及び信号処理ブロック30を含む。撮像ブロック20及び信号処理ブロック30は、接続線CL1~CL3によって接続される。
 撮像ブロック20は、撮像動作を実行することで画像データを生成する。撮像ブロック20は、撮像部21、撮像処理部22、出力制御部23、出力I/F24及び撮像制御部25を含む。
 撮像部21は、二次元に配置された複数の画素を含む。撮像部21に光学系(不図示)からの光が入射すると、各画素で光電変換が行われ、入射光に対応するアナログの画素信号が出力される。
 撮像処理部22は、撮像部21を駆動する。また、撮像処理部22は、撮像部21からのアナログの画素信号をディジタルの画素信号に変換し、ディジタルに変換された1フレーム分の画素信号を撮像画像40として出力する。撮像画像40は、出力制御部23に送られるとともに、接続線CL2を介して信号処理ブロック30に送られる。撮像画像40は、動画像における1つのフレームであってよい。
 出力制御部23は、撮像処理部22からの撮像画像40及び/又は信号処理ブロック30からの信号処理結果60(後述)を、出力I/F24を介して外部に出力する。
 出力I/F24は、撮像画像40及び信号処理結果60を外部に出力するI/Fである。出力I/F24として、例えばMIPI(Mobile Industry Processor Interface)等の比較的高速なI/F等が採用されてよい。
 撮像制御部25は、通信I/F26及びレジスタ群27を含む。通信I/F26は、撮像装置2の外部との間で、レジスタ群27に読み書きする情報等の必要な情報のやり取りを行う。通信I/F26として、例えばI2C(Inter-Integrated Circuit)等のシリアル通信I/F等の第1の通信I/Fが採用されてよい。レジスタ群27は、撮像部21による撮像に関する情報、その他の各種情報を記憶する。
 撮像制御部25は、レジスタ群27に記憶された撮像情報に従って、撮像処理部22を制御し、これにより、撮像部21での画像の撮像を制御する。撮像制御部25は、接続線CL1を介して、信号処理ブロック30のCPU31と接続されている。レジスタ群27に対する情報の読み書きは、CPU31によって行われてよい。
 信号処理ブロック30は、撮像ブロック20で得られた撮像画像40等を用いて、所定の信号処理を行う。信号処理ブロック30は、CPU(Central Processing Unit)31、DSP(Digital Signal Processor)、メモリ33、通信I/F34、画像圧縮部35、入力I/F36及び差分生成部37を含む。これらの信号処理ブロック30の構成要素は、相互にバスを介して接続され、必要に応じて情報のやり取りを行う。
 CPU31は、プログラムを実行することにより、DSP32での信号処理により得られる信号処理結果60を用いて、撮像情報を算出する撮像情報算出部として機能する。CPU31は、算出した撮像情報を、接続線CL1を介して、撮像制御部25のレジスタ群27にフィードバックして記憶させる。
 DSP32は、メモリ33に記憶されたプログラムを実行することで、撮像処理部22から、接続線CL2を介して、信号処理ブロック30に供給される撮像画像40、入力I/F36が外部から受け取る情報を用いた信号処理を行う。
 メモリ33は、SRAM(Static Random Access Memory)、DRAM(Dynamic RAM)等で構成され、信号処理ブロック30の処理上必要なプログラム等を記憶する。撮像装置2の動作に必要なプログラム、後述の学習済みモデル330及び情報処理プログラム335も、メモリ33に記憶される。
 通信I/F34は、例えば、SPI(Serial Peripheral Interface)等のシリアル通信I/F等の第2の通信I/Fであり、外部との間で、CPU31、DSP32が実行するプログラム等の必要な情報のやりとりを行う。
 画像圧縮部35には、撮像処理部22から接続線CL2を介して、撮像画像40が供給される。画像圧縮部35は、撮像画像40を圧縮する圧縮処理を行い、その撮像画像40よりもデータ量が少ない圧縮画像を生成する。生成された圧縮画像は、バスに供給される。なお、画像圧縮部35によって圧縮されない非圧縮画像がバスに供給されてもよい。以下、とくに説明がある場合を除き、圧縮画像及び非圧縮画像をいずれも撮像画像40と称する。
 入力I/F36は、外部から情報を受け取るI/Fである。入力I/F36は、例えば、外部のセンサから、その外部のセンサの出力(外部センサ出力)を受け取り、バスを介して、メモリ33に供給して記憶させる。
 差分生成部37は、差分画像50を生成する生成部である。差分画像50は、撮像画像40に含まれるオブジェクトの変化を示す画像である。差分画像50の生成手法は特に限定されない。差分画像50は撮像画像40から生成されてよく、この場合、背景差分法、単純差分法等が用いられてよい。先に説明したように撮像画像40が一つのフレームの場合、他の画像から背景画像を取得したり、他の画像との単純差分画像(フレーム間の単純差分画像等)を取得したりすることができるからである。
 なお、撮像画像40以外の情報に基づいて差分画像50が生成されてよく、これについては後に図8を参照して改めて説明する。
 また、差分画像50は、CPU31又はDSP32において生成されてもよい。その場合、図1における差分生成部37が省略され、撮像処理部22の出力(撮像画像40)がバスを介してCPU31又はDSP32に入力される。
2.2 撮像装置の外観構成例の概要
 図2は、図1の撮像装置2の外観構成例の概要を示す斜視図である。
 撮像装置2は、例えば、図2に示すように、複数のダイが積層された積層構造を有する1チップの半導体装置として構成することができる。
 図2では、撮像装置2は、ダイ51及び52の2枚のダイが積層されて構成される。
 図2において、上側のダイ51には、撮像部21が搭載され、下側のダイ52には、撮像処理部22ないし撮像制御部25、及び、CPU31ないし差分生成部37が搭載されている。
 上側のダイ51と下側のダイ52とは、例えば、ダイ51を貫き、ダイ52にまで到達する貫通孔を形成することにより、又は、ダイ51の下面側に露出したCu配線と、ダイ52の上面側に露出したCu配線とを直接接続するCu-Cu接合を行うこと等により、電気的に接続される。
 ここで、撮像処理部22において、撮像部21が出力する画像信号のAD変換を行う方式としては、例えば、列並列AD方式やエリアAD方式を採用することができる。
 列並列AD方式では、例えば、撮像部21を構成する画素の列に対してADC(AD Converter)が設けられ、各列のADCが、その列の画素の画素信号のAD変換を担当することで、1行の各列の画素の画像信号のAD変換が並列に行われる。列並列AD方式を採用する場合には、その列並列AD方式のAD変換を行う撮像処理部22の一部が、上側のダイ51に搭載されることがある。
 エリアAD方式では、撮像部21を構成する画素が、複数のブロックに区分され、各ブロックに対して、ADCが設けられる。そして、各ブロックのADCが、そのブロックの画素の画素信号のAD変換を担当することで、複数のブロックの画素の画像信号のAD変換が並列に行われる。エリアAD方式では、ブロックを最小単位として、撮像部21を構成する画素のうちの必要な画素についてだけ、画像信号のAD変換(読み出し及びAD変換)を行うことができる。
 なお、撮像装置2の面積が大になることが許容されるのであれば、撮像装置2は、1枚のダイで構成することができる。
 また、図2では、2枚のダイ51及び52を積層して、1チップの撮像装置2を構成することとしたが、1チップの撮像装置2は、3枚以上のダイを積層して構成することができる。例えば、3枚のダイを積層して、1チップの撮像装置2を構成する場合には、図2のメモリ33を、別のダイに搭載することができる。
 ここで、センサチップ、メモリチップ、及び、DSPチップのチップどうしを、複数のバンプで並列に接続した撮像装置(以下、バンプ接続撮像装置ともいう)では、積層構造に構成された1チップの撮像装置2に比較して、厚みが大きく増加し、装置が大型化する。
 さらに、バンプ接続撮像装置では、バンプの接続部分での信号劣化等により、撮像処理部22から出力制御部23に撮像画像を出力するレートとして、十分なレートを確保することが困難になることがあり得る。
 積層構造の撮像装置2によれば、以上のような装置の大型化や、撮像処理部22と出力制御部23との間のレートとして、十分なレートを確保することができなくなることを防止することができる。
 したがって、積層構造の撮像装置2によれば、ユーザが必要とする情報を出力する撮像装置を小型に構成することを実現することができる。
 ユーザが必要とする情報が、撮像画像である場合には、撮像装置2は、撮像画像を出力することができる。
 また、ユーザが必要とする情報が、撮像画像を用いた信号処理により得られる場合には、撮像装置2は、DSP32において、その信号処理を行うことにより、ユーザが必要とする情報としての信号処理結果を得て出力することができる。
 撮像装置2で行われる信号処理、すなわち、DSP32の信号処理としては、例えば、撮像画像から、所定の認識対象を認識する認識処理を採用することができる。
 また、例えば、撮像装置2は、その撮像装置2と所定の位置関係になるように配置されたToF(Time of Flight)センサ等の距離センサの出力を、入力I/F36で受け取ることができる。この場合、DSP32の信号処理としては、例えば、入力I/F36で受け取った距離センサの出力から得られる距離画像のノイズを、撮像画像を用いて除去する処理のような、距離センサの出力と撮像画像とを統合して、精度の良い距離を求めるフュージョン処理を採用することができる。
 さらに、例えば、撮像装置2は、その撮像装置2と所定の位置関係になるように配置されたイメージセンサが出力する画像を、入力I/F36で受け取ることができる。この場合、DSP32の信号処理としては、例えば、入力I/F36で受け取った画像と、撮像画像とをステレオ画像として用いた自己位置推定処理(SLAM(Simultaneously Localization and Mapping))を採用することができる。
 以上の構成を備える撮像装置2では、撮像ブロック20によって取得された撮像画像40を信号処理ブロック30で処理し、また、その処理結果である信号処理結果60を撮像装置2の外部の要素(後述の図AP等を含む)に出力することができる。本実施形態における信号処理ブロック30の処理は、撮像画像40中のオブジェクト検出処理を含む。一実施形態において、オブジェクト検出処理は、DSP32及び差分生成部37によって実行される。以下では、そのような形態の例を説明する。
2.3 DSPの機能ブロックの例
 図3は、DSP32の機能ブロックの例を示す図である。DSP32は、入力部321と、評価部322と、検出部323と、出力部324とを含む。
 入力部321には、撮像画像40及び差分画像50が入力される。入力部321は、バス(図1)を介して、撮像ブロック20からの撮像画像40を取得する。また、入力部321は、バスを介して、差分生成部37からの差分画像50を取得する。
 評価部322は、差分画像50を評価する。差分画像50の評価は、例えばテンプレートマッチングを用いて行われる。テンプレートマッチングでは、予め生成された各テンプレート画像と、差分画像50とのマッチングが行われる。テンプレート画像は、想定されるさまざまなオブジェクトの動作部分の形状を示す画像であってよい。マッチングは、差分画像50とテンプレート画像とが同一又は類似と判断される場合に成立する。類似の判断は、両画像の相互相関係数などを使用して算出される類似度に基づいて行われてよい。マッチングは、形状に基づいて行われてよいし、色に基づいて行われてもよい。マッチングが成立した差分画像50は、差分特徴量として評価され、検出部323に送られる。
 差分画像50の評価に先だって、評価部322は、差分画像50に対して2値化処理(differential binarize)を実行してよい。この場合は、テンプレート画像も同様に2値化処理された画像であり、シルエット形状でのマッチングが行われることになる。2値化処理の他に、モルフォロジー処理、反転処理、確率分布処理、ノイズ低減処理等が実行されてよい。
 検出部323は、撮像画像40中のオブジェクトを検出する。検出部323は、入力部321に入力された撮像画像40と差分画像50とを入力とする学習済みモデル330(図1)を用いて、撮像画像40中のオブジェクトを検出する。学習済みモデル330は、撮像画像40及び差分画像50に基づいて撮像画像40中のオブジェクトを検出するように、訓練データを用いて予め生成された学習済みモデルである。学習済みモデル330のさらなる詳細については、後に図4を参照して説明する。
 出力部324は、検出部323の検出結果を出力する。検出結果は、例えば、撮像画像40及び撮像画像40中に検出されたオブジェクトの情報を含む。検出結果は、信号処理結果60(あるいはその一部)として出力される。
2.4 オブジェクト検出処理の例
 図4は、差分生成部37及びDSP32によるオブジェクト検出処理の例を示す図である。この例では、学習済みモデル330は、CNN(Convolutional Neural Network)であり、抽出レイヤ(Feature-extractor)331と、検出レイヤ(Object-detection)333とを含む。図において、抽出レイヤ331と検出レイヤ333との接続部分を、ノード332と称して概念的に示す。図4には、連続する3つの時系列画像として、順に撮像された撮像画像401、撮像画像402及び撮像画像403が例示される。
 学習済みモデル330の抽出レイヤ331は、撮像画像403から、撮像画像403の特徴量を抽出する。抽出レイヤ331によって抽出された特徴量は、ノード332に送られる。
 一方で、差分生成部37は、撮像画像401、撮像画像402及び撮像画像403を用いて、差分画像50を生成する。差分画像50は、撮像画像403における、他の画像(撮像画像401及び撮像画像402)との差分を示す画像である。評価部322は、差分生成部37によって生成された差分画像50を評価する。評価部322の評価結果(差分特徴量)は、ノード332に送られる。
 検出レイヤ333は、ノード332に送られた抽出レイヤ331の抽出結果(撮像画像403の特徴量)、及び、評価部322の評価結果(撮像画像403の差分特徴量)から、撮像画像403中のオブジェクトを検出する。ここで、撮像画像403の差分特徴量は、新規チャネルとして撮像画像403の特徴量と結合され(concatenation)、検出レイヤ333に入力されてよい。あるいは、撮像画像403の差分特徴量は、撮像画像403の特徴量に対する演算処理(四則演算等)によって撮像画像403の特徴量に組み込まれたうえで、検出レイヤ333に入力されてもよい。いずれの場合も、撮像画像403の差分特徴量マップのサイズが、撮像画像403の特徴量マップのサイズに適合するように調整されてよい。なお、ここでは抽出レイヤと検出レイヤとが明確にわかれたCNNを例に説明したが、かならずしも抽出レイヤと検出レイヤとがわかれたCNNを用いる必要はない。例えば、1つの機能ブロックから実現されるCNNにおいて、中間レイヤに上記の差分特徴量が結合、あるいは任意の演算処理(四則演算等)によって組み込まれてもよい。
2.5 学習済みモデルの生成の例
 図5は、学習済みモデル330の生成の例を示すフローチャートである。このフローチャートの処理は、例えば当業者によって、必要に応じてコンピュータ等の装置を用いて、実行される。
 ステップS1において、訓練データを準備する。訓練データの例は、検出の対象となりうる(認識したい)オブジェクト情報と、ラベルとを対応づけた教師データである。オブジェクト情報は、オブジェクトの画像及び差分画像を含む。ラベルは、画像中のオブジェクトを特定するための情報である。
 ステップS2において、学習済みモデルのパラメータの学習を行う。具体的に、先のステップS1で準備した訓練データを用いて、学習済みモデル330のパラメータの学習を行う。学習済みモデル330が画像認識用のCNNの場合、パラメータは、CNNの係数である。訓練データは、異なる組み合わせの教師データからなる複数の訓練データであってよく、この場合、各々が対応する訓練データについて最適化された複数のパラメータが得られる。
 ステップS3において、学習済みモデル330の性能を確認する。例えば、検証用あるいは評価用のデータを用いて、学習済みモデル330によるオブジェクトの検出精度を確認する。先のステップS2において複数のパラメータが得られた場合には、各パラメータで構成された学習済みモデル330の検出性能をそれぞれ確認する。
 ステップS4において、最も性能の良かったパラメータを保存する。すなわち、先のステップS3において、各パラメータで構成された学習済みモデル330のそれぞれの検出性能を比較し、最も性能の良いパラメータを、学習済みモデル330のパラメータとして保存する。
 ステップS4の処理が完了した後、フローチャートの処理は終了する。
2.6 テンプレート画像の生成の例
 図6は、テンプレート画像の生成の例を示すフローチャートである。このフローチャートの処理は、例えば当業者によって、必要に応じてコンピュータ等の装置を用いて、実行される。
 ステップS11において、差分画像を取得する。例えば、想定されるさまざまなオブジェクトに関する時系列画像を準備し、それらの時系列画像から差分画像を取得する。
 ステップS12において、先のステップS11において取得した差分画像に対して、2値化処理を実行する。この他に、モルフォロジー処理、反転処理、確率分布処理、ノイズ低減処理等を実行してもよい。
 ステップS13において、先のステップS12で2値化処理を実行した画像を用いて、テンプレート画像を作成する。なお、同じオブジェクトの同じ部分についての複数の画像が存在する場合には、それらの統計値(平均値など)を用いてテンプレート画像を生成してもよい。
 ステップS13の処理が完了した後、フローチャートの処理は終了する。
2.7 検出処理の例
 図7は、検出処理の例を示すフローチャートである。検出処理は、DSP32がメモリ33に記憶された情報処理プログラム335(図1)を実行することによって行われる。
 ステップS21において、入力画像を取得する。すなわち、撮像画像40が、入力部321に入力される。
 ステップS21の処理が完了した後は、ステップS22~S25の処理と、ステップS26の処理とが並列に実行される。
 ステップS22において、差分画像を取得する。すなわち、差分画像50が、入力部321に入力される。
 ステップS23において、2値化処理を実行する。すなわち、評価部322が、先のステップS22で入力された差分画像50を2値化する。2値化処理の他に、モルフォロジー処理、反転処理、確率分布処理、ノイズ低減処理等が実行されてもよい。
 ステップS24において、テンプレートとのマッチングを行う。すなわち、評価部322が、先のステップS23において2値化処理が実行された差分画像50と、先に図6を参照して説明したように作成されたテンプレート画像とのマッチングを行う。マッチングが成立した差分画像50が、評価結果(差分特徴量)として得られる。
 ステップS25において、差分特徴量マップのサイズを調整する。具体的に、検出部323が、先のステップS24において評価結果(差分特徴量)として得られた差分画像50のマップサイズを、撮像画像40のマップサイズに適合するよう調整する。ステップS25の処理の完了後、ステップS27に処理が進められる。
 ステップS26において、特徴量を抽出する。具体的に、学習済みモデル330の抽出レイヤ331が、先のステップS31で取得された撮像画像40の特徴量を抽出する。ステップS26の処理の完了後、ステップS27に処理が進められる。
 ステップS27において、特徴量マップをマージする。具体的に、検出部323が、先のステップS25で調整された差分特徴量マップと、先のステップS26で取得された特徴量マップとを結合する。
 ステップS28において、オブジェクトを検出する。具体的に、検出レイヤ333が、先のステップS21で取得された撮像画像40と、先のステップS27でマージされた特徴量マップ(すなわち、撮像画像40の特徴量及び差分特徴量)とを用いて、撮像画像40中のオブジェクトを検出する。
 ステップS28の処理の完了後、フローチャートの処理は終了する。
 以上、本開示の実施形態について説明したが、本開示の実施形態は上述の例に限定されない。
3. 変形例
 図8は、変形例に係る撮像装置の構成例を示すブロック図である。図8に示す撮像装置2Aは、撮像装置2(図1)と比較して、差分生成部37に代えて、差分生成部37A1及び差分生成部37A2を備える点において相違する。ただし、差分生成部37A2は省略されてもよい。
 差分生成部37A1は、例えば、DVS(Dynamic Vision Sensor)であり、撮像部21の撮像対象、すなわち撮像画像40における変化(例えば輝度差分情報)を検出する。このような差分生成部37A1の検出結果も、差分画像50の一態様である。差分画像50は、入力I/F36を介して信号処理ブロック30に供給される。差分画像50は、入力I/F36から直接的にバスに供給されてもよいし、差分生成部37A2がある場合には差分生成部37A2を介してバスに供給されてもよい。
 差分生成部37A2は、例えば、差分生成部37A1から出力された差分画像50におけるフリッカ成分や暗電流等に起因したノイズを除去する。
 このように、差分生成部37A1を用いることによっても、差分画像50を生成することができる。DVSである差分生成部37A1によれば、ただちに差分画像50が得られるので、差分生成部37(図1)のように撮像画像40から差分画像50を生成する処理が省略できる。また、差分画像50を生成するための時系列画像(複数フレームの撮像情報)を保持する必要もない。
 図9は、別の変形例に係る撮像装置の構成例を示すブロック図である。図9に示す撮像装置2Bは、撮像装置2(図1)と比較して、撮像ブロック20及び信号処理ブロック30に代えて、撮像ブロック20B及び信号処理ブロック30Bを備える点において相違する。具体的に、撮像装置2Bは、信号処理ブロック30Bではなく、撮像ブロック20Bの撮像制御部25B内に差分生成部37を備える。差分生成部37は撮像制御部25Bに送られる撮像画像40を用いて差分画像50を生成する。生成された差分画像50は、接続線CL1を介して、CPU31ひいてはDSP32に送られる。
 上記実施形態では、撮像画像40中のオブジェクト検出処理が、撮像装置内で実行される例について説明した。この場合、撮像装置においてすべての処理を行い、その結果のみを後段、すなわち撮像装置の外部(アプリケーションプロセッサ(Application Processor:AP)等を含む)に送ることで、後段での処理負荷が軽くなるというメリットがある。送られる情報量が少ないので、低速IFで良く、また、AP側でISPを起動する必要がなく、NPU(Neural network Processing Unit)などに直接入力できるというメリットもある。ただし、オブジェクト検出処理の一部が撮像装置2の外部で実行されてもよい。
 例えば、学習済みモデルの一部が撮像装置の外部(後段)に設けられた構成とすることもできる。図10は、そのような変形例に係る撮像装置の概略構成の例を示す図である。図10に示す撮像装置2Cでは、メモリ33Cに記憶された学習済みモデル330C及び情報処理プログラム335Cによって、先に説明した抽出レイヤ331による抽出及び評価部322による評価が、撮像装置2C内で実行される。抽出レイヤ331による抽出結果及び評価部322による評価結果等は、信号処理結果60として、出力I/F24を介して、アプリケーションプロセッサ70Cに送られる。撮像装置2Cは、検出レイヤ333に相当する構成を、アプリケーションプロセッサ70C内に備えている。アプリケーションプロセッサ70Cは、例えば、CPU(Central Processing Unit)等を用いて構成され、オペレーティングシステムや各種アプリケーションソフトウエア等を実行する。このアプリケーションプロセッサ70Cには、GPU(Graphics Processing Unit)やベースバンドプロセッサなどの機能が搭載されていてもよい。アプリケーションプロセッサ70Cは、撮像画像中のオブジェクト検出の他、画像データや機械学習結果に対し必要に応じた種々処理を実行したり、ユーザへの表示を実行したり、所定のネットワーク80を介して外部のクラウドサーバ90へ送信したりする。
 なお、ネットワーク80には、例えば、インターネットや、有線LAN(Local Area Network)又は無線LANや、移動体通信網や、Bluetooth(登録商標)など、種々のネットワークを適用することができる。また、画像データや機械学習結果の送信先は、クラウドサーバ90に限定されず、単一で動作するサーバや、各種データを保管するファイルサーバや、携帯電話機等の通信端末など、通信機能を有する種々の情報処理装置(システム)であってよい。
 撮像装置2Cの構成によれば、アプリケーションプロセッサ70Cにおいて特徴量を使って各種ユースケースに合わせた認識処理ができるので、汎用性が高まる。
 また、例えば、すべてのオブジェクト認識処理が撮像装置2の後段で実行されてよい。図11は、そのような変形例に係る撮像装置の概略構成を示す図である。図11に示す撮像装置2Dは、撮像装置2(図1)と比較して、信号処理ブロック30に代えて信号処理ブロック30Dを備える点において相違する。信号処理ブロック30Dは、差分生成部37を備えておらず、また、メモリ33D内に学習済みモデル330及び情報処理プログラム335(図1)を有してもいない。撮像装置2Dは、差分生成部37、学習済みモデル330及び情報処理プログラム335に対応する構成を、アプリケーションプロセッサ70D内に備えている。すなわち撮像装置2Dにおいては、すべてのオブジェクト認識処理がアプリケーションプロセッサ70Dで実行される。この場合、オブジェクト検出処理を実行するように構成された専用の撮像装置(あるいはDSP)は不要であり、汎用の撮像装置とアプリケーションプロセッサとを組み合わせることによって、オブジェクト検出処理が実現できる。
4. 効果
 以上説明した撮像装置(情報処理装置の一態様)は、例えば次のように特定される。すなわち、図1~図4に例示するように、撮像装置2は、検出部323を備える。検出部323は、撮像画像40と撮像画像40に含まれるオブジェクトの変化を示す差分画像50とを入力とする学習済みモデル330を用いて、撮像画像40中のオブジェクトを検出する。学習済みモデル330は、抽出レイヤ331と、検出レイヤ333とを含む。抽出レイヤ331は、撮像画像40の特徴量を抽出する。検出レイヤ333は、入力部321の抽出結果、及び、差分画像50に基づいて、撮像画像40中のオブジェクトを検出する。
 上記撮像装置2によれば、撮像画像40の特徴量だけでなく、差分画像50にも基づいて、撮像画像40中のオブジェクトが検出される。したがって、オブジェクトの検出精度を向上させることが可能になる。
 図4に例示されるように、撮像装置2は、評価部322をさらに備えてよい。評価部322は、差分画像50を評価する。検出レイヤ333は抽出レイヤ331の抽出結果、及び、評価部322の評価結果に基づいて、撮像画像40中のオブジェクトを検出してよい。このように差分画像50の評価結果を用いることにより、オブジェクトの検出精度を向上させることができる。
 評価部322は、差分画像50の形状を評価してよい。差分画像50の形状の評価結果を用いることにより、オブジェクトの検出精度を向上させることができる。
 評価部322は、差分画像50の色を評価してよい。差分画像50の色の評価結果を用いることにより、オブジェクトの検出精度を向上させることができる。
 評価部322は、テンプレートマッチングを行うことにより、差分画像50を評価してよい。例えばこのように差分画像50を評価することによって、オブジェクトの検出精度を向上させることができる。
 撮像装置2は、差分生成部37をさらに備えてよい。差分生成部37は、差分画像50を生成する生成部である。これにより、撮像装置2において差分画像50を生成することができる。
 差分生成部37は、背景差分法を用いて差分画像50を生成してよい。例えばこのようにして、差分画像50を生成することができる。
 差分生成部37は、単純差分法を用いて差分画像50を生成してよい。例えばこのようにして、差分画像50を生成することができる。
 差分生成部37は、DVS(Dynamic Vision Sensor)であってよい。DVSによってただちに差分画像50を得ることで、例えば撮像画像40から差分画像50を生成する処理を省略することができる。また、差分画像50を生成するための時系列画像(複数フレームの撮像情報)の保持を不要とすることができる。
 撮像装置2は、撮像ブロック20をさらに備えてよい。撮像ブロック20は、撮像画像40を取得する撮像部である。これにより、撮像装置2において撮像画像40を取得することができる。
 例えば図7に示す情報処理方法も、本開示の一態様である。すなわち、情報処理方法は、撮像画像40と撮像画像40に含まれるオブジェクトの変化を示す差分画像50とを入力とする学習済みモデル330を用いて、撮像画像40中の前記オブジェクトを検出すること(ステップS28)を含む。学習済みモデル330は、撮像画像40の特徴量を抽出する抽出レイヤ331と、抽出レイヤ331の抽出結果、及び、差分画像50に基づいて、撮像画像40中のオブジェクトを検出する検出レイヤ333と、を含む。このような情報処理方法によっても、これまで説明した情報処理装置と同様に、オブジェクトの検出精度を向上させることが可能になる。
 例えば図1に示す情報処理プログラム335も、本開示の一態様である。すなわち、情報処理プログラム335は、コンピュータを機能させるためのプログラムである。図7に例示するように、プログラムは、撮像画像40と撮像画像40に含まれるオブジェクトの変化を示す差分画像50とを入力する学習済みモデル330とを用いて、撮像画像40中のオブジェクトを検出する工程(ステップS28)を、コンピュータに実行させる。学習済みモデル330は、撮像画像40の特徴量を抽出する抽出レイヤ331と、抽出レイヤ331の抽出結果、及び、差分画像50に基づいて、撮像画像40中のオブジェクトを検出する検出レイヤ333と、を含む。このようなプログラムによっても、これまで説明した情報処理装置と同様に、オブジェクトの検出精度を向上させることが可能になる。
5. 移動体への応用例
 本開示に係る技術(本技術)は、様々な製品へ応用することができる。例えば、本開示に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット等のいずれかの種類の移動体に搭載される装置として実現されてもよい。
 図12は、本開示に係る技術が適用され得る移動体制御システムの一例である車両制御システムの概略的な構成例を示すブロック図である。
 車両制御システム12000は、通信ネットワーク12001を介して接続された複数の電子制御ユニットを備える。図12に示した例では、車両制御システム12000は、駆動系制御ユニット12010、ボディ系制御ユニット12020、車外情報検出ユニット12030、車内情報検出ユニット12040、及び統合制御ユニット12050を備える。また、統合制御ユニット12050の機能構成として、マイクロコンピュータ12051、音声画像出力部12052、及び車載ネットワークI/F(Interface)12053が図示されている。
 駆動系制御ユニット12010は、各種プログラムにしたがって車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット12010は、内燃機関又は駆動用モータ等の車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、及び、車両の制動力を発生させる制動装置等の制御装置として機能する。
 ボディ系制御ユニット12020は、各種プログラムにしたがって車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット12020は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカー又はフォグランプ等の各種ランプの制御装置として機能する。この場合、ボディ系制御ユニット12020には、鍵を代替する携帯機から発信される電波又は各種スイッチの信号が入力され得る。ボディ系制御ユニット12020は、これらの電波又は信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプ等を制御する。
 車外情報検出ユニット12030は、車両制御システム12000を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット12030には、撮像部12031が接続される。車外情報検出ユニット12030は、撮像部12031に車外の画像を撮像させるとともに、撮像された画像を受信する。車外情報検出ユニット12030は、受信した画像に基づいて、人、車、障害物、標識又は路面上の文字等の物体検出処理又は距離検出処理を行ってもよい。
 撮像部12031は、光を受光し、その光の受光量に応じた電気信号を出力する光センサである。撮像部12031は、電気信号を画像として出力することもできるし、測距の情報として出力することもできる。また、撮像部12031が受光する光は、可視光であっても良いし、赤外線等の非可視光であっても良い。
 車内情報検出ユニット12040は、車内の情報を検出する。車内情報検出ユニット12040には、例えば、運転者の状態を検出する運転者状態検出部12041が接続される。運転者状態検出部12041は、例えば運転者を撮像するカメラを含み、車内情報検出ユニット12040は、運転者状態検出部12041から入力される検出情報に基づいて、運転者の疲労度合い又は集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。
 マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構又は制動装置の制御目標値を演算し、駆動系制御ユニット12010に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車両の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、又は車両のレーン逸脱警告等を含むADAS(Advanced Driver Assistance System)の機能実現を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構又は制動装置等を制御することにより、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030で取得される車外の情報に基づいて、ボディ系制御ユニット12030に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車外情報検出ユニット12030で検知した先行車又は対向車の位置に応じてヘッドランプを制御し、ハイビームをロービームに切り替える等の防眩を図ることを目的とした協調制御を行うことができる。
 音声画像出力部12052は、車両の搭乗者又は車外に対して、視覚的又は聴覚的に情報を通知することが可能な出力装置へ音声及び画像のうちの少なくとも一方の出力信号を送信する。図12の例では、出力装置として、オーディオスピーカ12061、表示部12062及びインストルメントパネル12063が例示されている。表示部12062は、例えば、オンボードディスプレイ及びヘッドアップディスプレイの少なくとも一つを含んでいてもよい。
 図13は、撮像部12031の設置位置の例を示す図である。
 図13では、撮像部12031として、撮像部12101、12102、12103、12104、12105を有する。
 撮像部12101、12102、12103、12104、12105は、例えば、車両12100のフロントノーズ、サイドミラー、リアバンパ、バックドア及び車室内のフロントガラスの上部等の位置に設けられる。フロントノーズに備えられる撮像部12101及び車室内のフロントガラスの上部に備えられる撮像部12105は、主として車両12100の前方の画像を取得する。サイドミラーに備えられる撮像部12102、12103は、主として車両12100の側方の画像を取得する。リアバンパ又はバックドアに備えられる撮像部12104は、主として車両12100の後方の画像を取得する。車室内のフロントガラスの上部に備えられる撮像部12105は、主として先行車両又は、歩行者、障害物、信号機、交通標識又は車線等の検出に用いられる。
 なお、図13には、撮像部12101ないし12104の撮影範囲の一例が示されている。撮像範囲12111は、フロントノーズに設けられた撮像部12101の撮像範囲を示し、撮像範囲12112,12113は、それぞれサイドミラーに設けられた撮像部12102,12103の撮像範囲を示し、撮像範囲12114は、リアバンパ又はバックドアに設けられた撮像部12104の撮像範囲を示す。例えば、撮像部12101ないし12104で撮像された画像データが重ね合わせられることにより、車両12100を上方から見た俯瞰画像が得られる。
 撮像部12101ないし12104の少なくとも1つは、距離情報を取得する機能を有していてもよい。例えば、撮像部12101ないし12104の少なくとも1つは、複数の撮像素子からなるステレオカメラであってもよいし、位相差検出用の画素を有する撮像素子であってもよい。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を基に、撮像範囲12111ないし12114内における各立体物までの距離と、この距離の時間的変化(車両12100に対する相対速度)を求めることにより、特に車両12100の進行路上にある最も近い立体物で、車両12100と略同じ方向に所定の速度(例えば、0km/h以上)で走行する立体物を先行車として抽出することができる。さらに、マイクロコンピュータ12051は、先行車の手前に予め確保すべき車間距離を設定し、自動ブレーキ制御(追従停止制御も含む)や自動加速制御(追従発進制御も含む)等を行うことができる。このように運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を元に、立体物に関する立体物データを、2輪車、普通車両、大型車両、歩行者、電柱等その他の立体物に分類して抽出し、障害物の自動回避に用いることができる。例えば、マイクロコンピュータ12051は、車両12100の周辺の障害物を、車両12100のドライバが視認可能な障害物と視認困難な障害物とに識別する。そして、マイクロコンピュータ12051は、各障害物との衝突の危険度を示す衝突リスクを判断し、衝突リスクが設定値以上で衝突可能性がある状況であるときには、オーディオスピーカ12061や表示部12062を介してドライバに警報を出力することや、駆動系制御ユニット12010を介して強制減速や回避操舵を行うことで、衝突回避のための運転支援を行うことができる。
 撮像部12101ないし12104の少なくとも1つは、赤外線を検出する赤外線カメラであってもよい。例えば、マイクロコンピュータ12051は、撮像部12101ないし12104の撮像画像中に歩行者が存在するか否かを判定することで歩行者を認識することができる。かかる歩行者の認識は、例えば赤外線カメラとしての撮像部12101ないし12104の撮像画像における特徴点を抽出する手順と、物体の輪郭を示す一連の特徴点にパターンマッチング処理を行って歩行者か否かを判別する手順によって行われる。マイクロコンピュータ12051が、撮像部12101ないし12104の撮像画像中に歩行者が存在すると判定し、歩行者を認識すると、音声画像出力部12052は、当該認識された歩行者に強調のための方形輪郭線を重畳表示するように、表示部12062を制御する。また、音声画像出力部12052は、歩行者を示すアイコン等を所望の位置に表示するように表示部12062を制御してもよい。
 以上、本開示に係る技術が適用され得る車両制御システムの一例について説明した。本開示に係る技術は、以上説明した構成のうち、撮像部12031に適用され得る。撮像部12031に本開示に係る技術を適用することにより、より見やすい撮像画像を得ることができるため、ドライバの疲労を軽減することが可能になる。
 なお、本開示に記載された効果は、あくまで例示であって、開示された内容に限定されない。他の効果があってもよい。
 以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 画像と前記画像に含まれるオブジェクトの変化を示す差分画像とを入力とする学習済みモデルを用いて、前記画像中の前記オブジェクトを検出する検出部を備え、
 前記学習済みモデルは、
  前記画像の特徴量を抽出する抽出レイヤと、
  前記抽出レイヤの抽出結果、及び、前記差分画像に基づいて、前記画像中の前記オブジェクトを検出する検出レイヤと、
 を含む、
 情報処理装置。
(2)
 前記差分画像を評価する評価部をさらに備え、
 前記検出レイヤは、前記抽出レイヤの抽出結果、及び、前記評価部の評価結果に基づいて、前記画像中のオブジェクトを検出する、
 (1)に記載の情報処理装置。
(3)
 前記評価部は、前記差分画像の形状を評価する、
 (2)に記載の情報処理装置。
(4)
 前記評価部は、前記差分画像の色を評価する、
 (2)又は(3)に記載の情報処理装置。
(5)
 前記評価部は、テンプレートマッチングを行うことにより、前記差分画像を評価する、
 (2)~(4)のいずれかに記載の情報処理装置。
(6)
 前記差分画像を生成する生成部をさらに備える、
 (1)~(5)のいずれかに記載の情報処理装置。
(7)
 前記生成部は、背景差分法を用いて前記差分画像を生成する、
 (6)に記載の情報処理装置。
(8)
 前記生成部は、単純差分法を用いて前記差分画像を生成する、
 (6)に記載の情報処理装置。
(9)
 前記生成部は、DVS(Dynamic Vision Sensor)である、
 (6)に記載の情報処理装置。
(10)
 前記画像を取得する撮像部をさらに備える、
 (1)~(9)のいずれかに記載の情報処理装置。
(11)
 画像と前記画像に含まれるオブジェクトの変化を示す差分画像とを入力とする学習済みモデルを用いて、前記画像中の前記オブジェクトを検出することを含み、
 前記学習済みモデルは、
  前記画像の特徴量を抽出する抽出レイヤと、
  前記抽出レイヤの抽出結果、及び、差分画像に基づいて、前記画像中の前記オブジェクトを検出する検出レイヤと、
 を含む、
 情報処理方法。
(12)
 コンピュータを機能させるためのプログラムであって、
 画像と前記画像に含まれるオブジェクトの変化を示す差分画像とを入力とする学習済みモデルとを用いて、前記画像中の前記オブジェクトを検出する工程、
 を前記コンピュータに実行させ、
 前記学習済みモデルは、
  画像の特徴量を抽出する抽出レイヤと、
  前記抽出レイヤの抽出結果、及び、差分画像に基づいて、前記画像中の前記オブジェクトを検出する検出レイヤと、
 を含む、
 プログラム。
  2 撮像装置
 20 撮像ブロック
 21 撮像部
 22 撮像処理部
 23 出力制御部
 24 出力I/F
 25 撮像制御部
 26 通信I/F
 27 レジスタ群
 30 信号処理ブロック
 31 CPU
 32 DSP
 33 メモリ
 34 通信I/F
 35 画像圧縮部
 36 入力I/F
 37 差分生成部
 40 撮像画像
 50 差分画像
 51 ダイ
 52 ダイ
 60 信号処理結果
 70 アプリケーションプロセッサ
 80 ネットワーク
 90 クラウドサーバ
330 学習済みモデル
331 抽出レイヤ
332 ノード
333 検出レイヤ
335 情報処理プログラム

Claims (12)

  1.  画像と前記画像に含まれるオブジェクトの変化を示す差分画像とを入力とする学習済みモデルを用いて、前記画像中の前記オブジェクトを検出する検出部を備え、
     前記学習済みモデルは、
      前記画像の特徴量を抽出する抽出レイヤと、
      前記抽出レイヤの抽出結果、及び、前記差分画像に基づいて、前記画像中の前記オブジェクトを検出する検出レイヤと、
     を含む、
     情報処理装置。
  2.  前記差分画像を評価する評価部をさらに備え、
     前記検出レイヤは、前記抽出レイヤの抽出結果、及び、前記評価部の評価結果に基づいて、前記画像中のオブジェクトを検出する、
     請求項1に記載の情報処理装置。
  3.  前記評価部は、前記差分画像の形状を評価する、
     請求項2に記載の情報処理装置。
  4.  前記評価部は、前記差分画像の色を評価する、
     請求項2に記載の情報処理装置。
  5.  前記評価部は、テンプレートマッチングを行うことにより、前記差分画像を評価する、
     請求項2に記載の情報処理装置。
  6.  前記差分画像を生成する生成部をさらに備える、
     請求項1に記載の情報処理装置。
  7.  前記生成部は、背景差分法を用いて前記差分画像を生成する、
     請求項6に記載の情報処理装置。
  8.  前記生成部は、単純差分法を用いて前記差分画像を生成する、
     請求項6に記載の情報処理装置。
  9.  前記生成部は、DVS(Dynamic Vision Sensor)である、
     請求項6に記載の情報処理装置。
  10.  前記画像を取得する撮像部をさらに備える、
     請求項1に記載の情報処理装置。
  11.  画像と前記画像に含まれるオブジェクトの変化を示す差分画像とを入力とする学習済みモデルを用いて、前記画像中の前記オブジェクトを検出することを含み、
     前記学習済みモデルは、
      前記画像の特徴量を抽出する抽出レイヤと、
      前記抽出レイヤの抽出結果、及び、差分画像に基づいて、前記画像中の前記オブジェクトを検出する検出レイヤと、
     を含む、
     情報処理方法。
  12.  コンピュータを機能させるためのプログラムであって、
     画像と前記画像に含まれるオブジェクトの変化を示す差分画像とを入力とする学習済みモデルとを用いて、前記画像中の前記オブジェクトを検出する工程、
     を前記コンピュータに実行させ、
     前記学習済みモデルは、
      画像の特徴量を抽出する抽出レイヤと、
      前記抽出レイヤの抽出結果、及び、差分画像に基づいて、前記画像中の前記オブジェクトを検出する検出レイヤと、
     を含む、
     プログラム。
PCT/JP2021/004911 2020-03-24 2021-02-10 情報処理装置、情報処理方法及びプログラム WO2021192682A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022509375A JPWO2021192682A1 (ja) 2020-03-24 2021-02-10

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020052646 2020-03-24
JP2020-052646 2020-03-24

Publications (1)

Publication Number Publication Date
WO2021192682A1 true WO2021192682A1 (ja) 2021-09-30

Family

ID=77891409

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/004911 WO2021192682A1 (ja) 2020-03-24 2021-02-10 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2021192682A1 (ja)
WO (1) WO2021192682A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004191112A (ja) * 2002-12-10 2004-07-08 Ricoh Co Ltd 欠陥検査方法
CN103235928A (zh) * 2013-01-08 2013-08-07 沈阳理工大学 一种具有监督机制的步态识别方法
JP2017191501A (ja) * 2016-04-14 2017-10-19 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004191112A (ja) * 2002-12-10 2004-07-08 Ricoh Co Ltd 欠陥検査方法
CN103235928A (zh) * 2013-01-08 2013-08-07 沈阳理工大学 一种具有监督机制的步态识别方法
JP2017191501A (ja) * 2016-04-14 2017-10-19 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JPWO2021192682A1 (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
JP7014218B2 (ja) 画像処理装置、および画像処理方法、並びにプログラム
WO2020230660A1 (ja) 画像認識装置、固体撮像装置、および画像認識方法
WO2018180509A1 (ja) 画像処理装置、および画像処理方法
WO2020110537A1 (ja) 固体撮像素子、および、撮像装置
JP2020136958A (ja) イベント信号検出センサ及び制御方法
WO2021085128A1 (ja) 測距装置、測定方法、および、測距システム
WO2021117350A1 (ja) 固体撮像素子、および、撮像装置
WO2017175492A1 (ja) 画像処理装置、画像処理方法、コンピュータプログラム及び電子機器
WO2021131953A1 (ja) 情報処理装置、情報処理システム、情報処理プログラムおよび情報処理方法
WO2017195459A1 (ja) 撮像装置、および撮像方法
WO2021241360A1 (ja) 検出装置、検出システム及び検出方法
WO2020246264A1 (ja) 測距センサ、信号処理方法、および、測距モジュール
WO2020209079A1 (ja) 測距センサ、信号処理方法、および、測距モジュール
WO2021192682A1 (ja) 情報処理装置、情報処理方法及びプログラム
WO2021177085A1 (ja) 情報処理装置及び情報処理方法
CN113853639A (zh) 外部环境识别装置
WO2020230635A1 (ja) 撮像装置および撮像方法
WO2021182190A1 (ja) 撮像装置、撮像システム及び撮像方法
WO2021065500A1 (ja) 測距センサ、信号処理方法、および、測距モジュール
CN113170067A (zh) 摄像装置、摄像系统和故障检测方法
US20220351505A1 (en) Information processing device, information processing method, and information processing program
CN209949233U (zh) 摄像装置及摄像系统
WO2021246107A1 (ja) 固体撮像装置、固体撮像装置の制御方法および移動体
WO2021215314A1 (ja) 測距装置
US20240177485A1 (en) Sensor device and semiconductor device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21777045

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022509375

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21777045

Country of ref document: EP

Kind code of ref document: A1