WO2020241336A1 - 画像認識装置および画像認識方法 - Google Patents

画像認識装置および画像認識方法 Download PDF

Info

Publication number
WO2020241336A1
WO2020241336A1 PCT/JP2020/019587 JP2020019587W WO2020241336A1 WO 2020241336 A1 WO2020241336 A1 WO 2020241336A1 JP 2020019587 W JP2020019587 W JP 2020019587W WO 2020241336 A1 WO2020241336 A1 WO 2020241336A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
subject
unit
recognition
pixel
Prior art date
Application number
PCT/JP2020/019587
Other languages
English (en)
French (fr)
Inventor
和幸 奥池
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Priority to CN202080038430.6A priority Critical patent/CN113875217A/zh
Priority to US17/603,138 priority patent/US20220201183A1/en
Priority to KR1020217037346A priority patent/KR20220016056A/ko
Priority to DE112020002567.5T priority patent/DE112020002567T5/de
Publication of WO2020241336A1 publication Critical patent/WO2020241336A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/73Circuitry for compensating brightness variation in the scene by influencing the exposure time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/143Sensing or illuminating at different wavelengths
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/10Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths
    • H04N23/12Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from different wavelengths with one sensor only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/741Circuitry for compensating brightness variation in the scene by increasing the dynamic range of the image compared to the dynamic range of the electronic image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/84Camera processing pipelines; Components thereof for processing colour signals
    • H04N23/843Demosaicing, e.g. interpolating colour pixel values
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/10Circuitry of solid-state image sensors [SSIS]; Control thereof for transforming different wavelengths into image signals
    • H04N25/11Arrangement of colour filter arrays [CFA]; Filter mosaics
    • H04N25/13Arrangement of colour filter arrays [CFA]; Filter mosaics characterised by the spectral characteristics of the filter elements
    • H04N25/131Arrangement of colour filter arrays [CFA]; Filter mosaics characterised by the spectral characteristics of the filter elements including elements passing infrared wavelengths
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/10Circuitry of solid-state image sensors [SSIS]; Control thereof for transforming different wavelengths into image signals
    • H04N25/11Arrangement of colour filter arrays [CFA]; Filter mosaics
    • H04N25/13Arrangement of colour filter arrays [CFA]; Filter mosaics characterised by the spectral characteristics of the filter elements
    • H04N25/135Arrangement of colour filter arrays [CFA]; Filter mosaics characterised by the spectral characteristics of the filter elements based on four or more different wavelength filter elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/50Control of the SSIS exposure
    • H04N25/57Control of the dynamic range
    • H04N25/58Control of the dynamic range involving two or more exposures
    • H04N25/581Control of the dynamic range involving two or more exposures acquired simultaneously
    • H04N25/585Control of the dynamic range involving two or more exposures acquired simultaneously with pixels having different sensitivities within the sensor, e.g. fast or slow pixels or pixels having different sizes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/30Transforming light or analogous information into electric information
    • H04N5/33Transforming infrared radiation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • G01S17/8943D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar

Definitions

  • an imaging device that recognizes a subject from an HDR image, including an HDR imaging mode that generates an HDR (High Dynamic Range) image by capturing and synthesizing a plurality of images with different sensitivities in one frame period (for example, Patent Documents). 1).
  • an HDR imaging mode that generates an HDR (High Dynamic Range) image by capturing and synthesizing a plurality of images with different sensitivities in one frame period
  • an imaging device that generates an HDR image by synthesizing an image captured by using an imaging pixel that receives visible light and an imaging pixel that receives infrared light, and recognizes a subject from the HDR image. ..
  • the image recognition device has an imaging unit and a recognition unit.
  • the image pickup unit uses an image pickup pixel that receives visible light and an image pickup pixel that receives infrared light, and images a plurality of images at the same exposure timing in one frame period to generate image data.
  • the recognition unit recognizes the subject from each of the image data.
  • an image recognition method that receives visible light and an image pickup pixel that receives infrared light are used, and a plurality of images are imaged at the same exposure timing in one frame period to generate image data. , Recognize the subject from each of the image data.
  • Imaging at the same exposure timing here means, for example, that the exposure of a plurality of pixels is started at different timings and ended at the same timing to capture an image.
  • the pixel array used for capturing HDR (High Dynamic Range) images is used to capture a plurality of images.
  • FIG. 1 is an explanatory diagram showing a pixel array according to the present disclosure.
  • the pixel array A1 used for capturing an HDR image includes an image pickup pixel R that receives red light, an image pickup pixel Gr and Gb that receives green light, and an image pickup pixel B that receives blue light. Are arranged in Bayer.
  • the image pickup pixel Gr is an image pickup pixel provided in a row in which the image pickup pixel R is arranged and receives green light.
  • the image pickup pixel Gb is an image pickup pixel that is provided in a row in which the image pickup pixel B is arranged and receives green light.
  • the image pickup pixels R, Gr, Gb, and B each include three image pickup elements arranged in an L shape and having the same light receiving area.
  • the image pickup element L is a long-time exposure element having a longer exposure time than the image pickup elements M and S.
  • the image pickup element S is a short-time exposure element having a shorter exposure time than the image pickup elements L and M.
  • the image sensor M is a medium-time exposure element having a longer exposure time than the image sensor S and a shorter exposure time than the image sensor L.
  • the pixel array A1 includes an image pickup element IR as an image pickup pixel that receives infrared light at a position surrounded on three sides by the image pickup elements L, M, and S arranged in an L shape that receives light of the same color. ..
  • the image sensor L Since the image sensor L has a long exposure time, it is possible to obtain a sufficient amount of light received even when the surroundings are dark. As a result, the image sensor L may be a high-sensitivity image (hereinafter, a long-exposure image) in which the image of the subject is clearly captured even if the subject has too low brightness and is blacked out in a normal exposure time. ) Can be imaged.
  • a high-sensitivity image hereinafter, a long-exposure image
  • the image sensor S Since the image sensor S has a short exposure time, it does not saturate even when the surroundings are bright. As a result, the image sensor S may be a low-sensitivity image (hereinafter, referred to as a short-exposure image) in which the image of the subject is clearly captured even if the subject has too high brightness and is overexposed in a normal exposure time. ) Can be imaged.
  • the image sensor M can capture a medium-sensitivity image (hereinafter, may be referred to as a medium-time exposure image) with an exposure time similar to that of a general digital camera.
  • the image pickup element IR receives infrared light, for example, an image of a pedestrian or vehicle in the dark, which is difficult to see with the naked eye, a pedestrian who is difficult to see with the headlight or spotlight of the vehicle, or an object which is difficult to see with smoke or fog. It is possible to take an IR (Infrared Ray) image that clearly shows the image.
  • the image sensor IR can also detect the thermal information of the subject.
  • the HDR image is generated by HDR compositing the above-mentioned high-sensitivity image, intermediate-degree image, low-sensitivity image, and IR image. Therefore, the HDR image is an image in which images of all subjects such as dark subjects, bright subjects, and subjects that are difficult to see with the naked eye are clearly captured.
  • a high-sensitivity image, a medium-sensitivity image, or a low-sensitivity image is captured by the image pickup elements L, M, and S having the same light-receiving area by different exposure times.
  • the pixel array A1 captures a high-sensitivity image, a medium-sensitivity image, or a low-sensitivity image even if the exposure time is the same by making the light transmittance of the color filter laminated on each imaging pixel different. Can be done.
  • the image pickup pixel having a higher light transmittance of the color filter than usual becomes a high-sensitivity image pickup pixel
  • the image pickup pixel having a normal light transmittance of the color filter becomes a medium-sensitivity image pickup pixel
  • An imaging pixel having a light rate lower than usual is a low-sensitivity imaging pixel.
  • a method of making the exposure start time different As a method of making the exposure start time different, a method of making the exposure start time the same and making the exposure end time different, a method of making the exposure start time different and making the exposure end time the same, and a method of making the exposure start time and the end time different are all different. High-sensitivity images, medium-sensitivity images, or low-sensitivity images can also be captured using the time method.
  • the high-sensitivity image and the low-sensitivity image can be captured at the same time by the pixel array A1, it is possible to capture the HDR image by HDR-combining both images. Further, by making the light receiving areas of the imaging pixels different, it is possible to make the imaging pixels having the same translucency and exposure time of the color filter function as high-sensitivity imaging pixels or low-sensitivity imaging pixels.
  • DNN Deep Neural Network
  • DNN is a multi-layered algorithm modeled on a human brain neural network (neural network) designed by machine learning to recognize the characteristics (patterns) of a subject from image data.
  • FIG. 2A is an explanatory diagram showing an example of using a general DNN.
  • signals R, G, B image data of the HDR image
  • FIG. 2B is an explanatory diagram showing an example of using DNN according to the present disclosure.
  • the long-time exposure signals R, Gr, Gb, B image data of a high-sensitivity image
  • the exposure signals R, Gr, Gb, and B image data of a medium-sensitivity image
  • the short-time exposure signals R, Gr, Gb, B image data of a low-sensitivity image
  • the infrared light signals IRr, IRgr, IRgb output from the image sensor IR , IRb image data of IR image
  • the DNN outputs the recognition result of recognizing the subject from the high-sensitivity image, the medium-sensitivity image, the low-sensitivity image and the IR image.
  • the DNN recognizes the subject from the high-sensitivity image, the medium-sensitivity image, the low-sensitivity image, and the IR image that do not include the artifact, it is possible to output a highly accurate recognition result of the subject without being affected by the artifact. it can.
  • the image recognition method uses an image pickup pixel that receives visible light and an image pickup pixel that receives infrared light, and images are taken at a plurality of exposure times in one frame period, and all of these are used. Since the subject is recognized, the recognition accuracy of the subject can be improved.
  • FIG. 3 is a diagram showing a configuration example of the image recognition system according to the present disclosure.
  • the image recognition system 100 according to the present disclosure includes an image sensor 1 which is an example of an image recognition device, and an application processor (hereinafter referred to as AP2).
  • AP2 application processor
  • the image sensor 1 includes an imaging unit 10, a signal processing unit 13, a recognition unit 14, a data transmission determination unit 15, a selector (hereinafter referred to as SEL16), and a transmission unit 17.
  • the imaging unit 10 includes a pixel array A1 and an A / D (Analog / Digital) conversion unit 12.
  • the pixel array A1 captures high-sensitivity images, medium-sensitivity images, low-sensitivity images, and IR images by the image sensors L, M, S, and IR. Then, the pixel array A1 outputs an analog pixel signal according to the amount of received light from the image pickup elements L, M, S, and IR to the A / D conversion unit 12.
  • the image data and the image data of infrared light are generated and output to the signal processing unit 13.
  • the signal processing unit 13 includes a microcomputer having a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and various circuits.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the signal processing unit 13 refers to the image data of the high-sensitivity image, the image data of the medium-sensitivity, the image data of the low-sensitivity image, and the image data of the infrared light input from the A / D conversion unit 12. Each performs predetermined signal processing. Then, the signal processing unit 13 transmits the image data of the high-sensitivity image after the signal processing, the image data of the medium-sensitivity, the image data of the low-sensitivity image, and the image data of the infrared light to the recognition unit 14 and the SEL16. Output.
  • the signal processing unit 13 adjusts the digital gain of the image data, and then adjusts the white balance gain. After that, the signal processing unit 13 performs demosaic on the image data, finally performs gamma correction, and outputs the image data after the gamma correction.
  • the image data of the high-sensitivity image, the medium-sensitivity image, and the low-sensitivity image before demosaic are four types of pixel signals R, Gr, Gb, and B, respectively, but the image data after demosaic is three types of pixels.
  • the signals are R, G, and B.
  • the image data of the IR image before demosaic is four kinds of pixel signals IRr, IRgr, IRgb, and IRb, but the image data after demosaic is one kind of image signal IR.
  • the recognition unit 14 includes a microcomputer having a CPU, ROM, RAM, and various circuits.
  • the recognition unit 14 has an object recognition unit 31 that functions by executing an object recognition program stored in the ROM by the CPU using the RAM as a work area, and an object recognition data storage unit 32 provided in the RAM or the ROM. And.
  • the object recognition data storage unit 32 stores DNNs for each type of object to be recognized.
  • the object recognition unit 31 reads the DNN corresponding to the type of the set recognition target from the object recognition data storage unit 32, inputs the image data to the DNN, and outputs the recognition result of the subject output from the DNN to the data transmission determination unit. Output to 15, and output the recognition result metadata to SEL16.
  • 5A and 5B are explanatory views of the processing executed by the recognition unit according to the present disclosure.
  • the recognition unit 14 first normalizes the size and input value of the input image data according to the size and input value for DNN, and inputs the normalized image data to the DNN. Performs object recognition. Then, the recognition unit 14 outputs the recognition result of the subject output from the DNN to the data transmission determination unit 15, and outputs the metadata of the recognition result to the SEL 16.
  • the recognition unit 14 includes long-time exposure signals R, G, B, medium-time exposure signals R, G, B, short-time exposure signals R, G, B, and infrared rays.
  • the optical signal IR is input to the DNN.
  • the recognition unit 14 can improve the recognition accuracy of the subject by recognizing the subject from each of the high-sensitivity image, the medium-sensitivity image, the low-sensitivity image, and the IR image without artifacts.
  • the data transmission determination unit 15 outputs a control signal to the SEL 16 for switching the data to be output from the SEL 16 according to the recognition result input from the recognition unit 14.
  • the data transmission determination unit 15 outputs a control signal to the SEL 16 to output the image data and the metadata indicating the recognition result to the transmission unit 17.
  • the data transmission determination unit 15 outputs a control signal to the SEL 16 to output information (no data) indicating that fact to the transmission unit 17.
  • the SEL 16 outputs either a set of image data and metadata or no data to the transmission unit 17 according to the control signal input from the data transmission determination unit 15.
  • the transmission unit 17 is a communication I / F (interface) that performs data communication with the AP2, and transmits either a set of image data and metadata input from the SEL16 or no data to the AP2.
  • the image sensor 1 transmits the image data to the AP2 only when the subject is recognized, and does not transmit the image data to the AP2 when the subject is not recognized, so that the image data can be transmitted.
  • the required power consumption can be reduced.
  • the AP2 includes a microcomputer having a CPU, ROM, RAM, etc. that executes various application programs according to the application of the image recognition system 100, and various circuits.
  • the AP2 includes a receiving unit 21, an authentication unit 22, and an authentication data storage unit 23.
  • the authentication data storage unit 23 stores an authentication program for authenticating the subject recognized by the image sensor 1, an authentication image data, and the like.
  • the receiving unit 21 is a communication I / F that performs data communication with the image sensor 1.
  • the receiving unit 21 receives either a set of image data and metadata or no data from the image sensor 1 and outputs it to the authentication unit 22.
  • the authentication unit 22 is not activated when no data is input from the receiving unit 21, but is activated when a set of image data and metadata is input.
  • the authentication unit 22 is activated, the authentication program is read from the authentication data storage unit 23 and executed, and the subject recognized by the image sensor 1 is authenticated.
  • the authentication unit 22 collates the image data with the image data for authentication of the person and identifies who the recognized person is. Perform processing, etc.
  • the authentication unit 22 is based on the image data of the high-sensitivity image, the medium-sensitivity image, the low-sensitivity image, and the IR image which are not affected by the artifact recognized by the image sensor 1 as the subject with high accuracy. Identify a person. As a result, the authentication unit 22 can accurately identify who the recognized person is.
  • the above embodiment is an example, and various modifications are possible. Next, a modified example according to the embodiment according to the present disclosure will be described.
  • FIG. 6 is an explanatory diagram showing a modified example of the processing executed by the signal processing unit according to the present disclosure.
  • FIG. 7 is an explanatory diagram showing a modified example of the use example of DNN according to the present disclosure.
  • the signal processing unit performs shading correction, color mixing correction, digital gain adjustment, white balance gain adjustment, and gamma correction on the input image data, and after signal processing,
  • the image data is output to the recognition unit 14 and the SEL 16.
  • the signal processing unit can omit demosaic from the signal processing shown in FIG.
  • the recognition unit 14 recognizes the subject from the image data on which the demosaic is not executed.
  • the image data of the high-sensitivity image, the medium-sensitivity image, and the low-sensitivity image from which demosaication is not executed are four types of pixel signals R, Gr, Gb, and B.
  • the image data of the IR image in which demosaication is not executed is the pixel signals IRr, IRgr, IRgb, and IRb.
  • the recognition unit 14 includes long-time exposure signals R, Gr, Gb, B, medium-time exposure signals R, Gr, Gb, B, short-time exposure signals R, Gr, Gb, B, and infrared rays.
  • the optical signals IRr, IRgr, IRgb, and IR are input to the DNN (see FIG. 2B).
  • the recognition unit 14 increases the processing amount because the number of input channels of the DNN increases, but the image data of the high-sensitivity image, the medium-sensitivity image, the low-sensitivity image, and the IR image are individually input to the DNN. , The subject can be recognized with high accuracy without being affected by the artifact.
  • the signal processing unit itself can be omitted.
  • the recognition unit 14 includes long-time exposure signals R, Gr, Gb, B, medium-time exposure signals R, Gr, Gb, B, and short-time exposure signals R, Gr, Gb, B.
  • the infrared light signals IRr, IRgr, IRgb, and IR are input to the DNN. Therefore, although the processing amount of the recognition unit 14 increases, the processing amount of the image sensor 1 as a whole is significantly reduced because the signal processing is not performed.
  • the data transmission determination unit 15 outputs the recognition result metadata and the image data to the SEL 16 each time when the subject is recognized, but outputs the recognition result metadata and the image data from the SEL 16 according to the remaining battery level. You may select the data to be made.
  • the data transmission determination unit 15 when the subject is recognized by the recognition unit 14, the data transmission determination unit 15 outputs metadata and image data from the SEL 16 in the normal mode in which the remaining battery level is equal to or higher than the predetermined remaining amount. Further, the data transmission determination unit 15 outputs only the metadata from the SEL 16 in the low power consumption mode in which the remaining amount of the battery is less than the predetermined remaining amount. As a result, the data transmission determination unit 15 can suppress the power consumption of the image sensor 1 to a low level when the remaining battery level is insufficient.
  • FIG. 7 is an explanatory diagram showing a modified example of the DNN used by the recognition unit according to the present disclosure.
  • the recognition unit 14 recognizes the subject using one DNN, but as shown in FIG. 7, two DNNs can also be used.
  • the long-exposure image, the medium-time exposure image, and the short-time exposure image have colors, but the IR image does not have colors. Therefore, the characteristics of the subject in the image are different between the long-exposure image, the medium-time exposure image, and the short-exposure image and the IR image.
  • the recognition unit recognizes the subject by using the first DNN and the second DNN.
  • the first DNN is a learning model specialized in recognizing a subject from a long-exposure image, a medium-time exposure image, and a short-exposure image.
  • the second DNN is a machine-learned learning model that specializes in recognizing a subject from an IR image.
  • the recognition unit inputs the long-time exposure signals R, G, B, the medium-time exposure signals R, G, B, and the short-time exposure signals R, G, B to the first DNN to obtain a long-exposure image.
  • the subject is recognized from the medium-time exposure image and the short-time exposure image.
  • the recognition unit inputs an infrared light signal to the second DNN and recognizes the subject from the IR image. As a result, the recognition unit can further improve the recognition accuracy of the subject.
  • FIG. 8 is an explanatory diagram showing a first modification of the pixel array according to the present disclosure.
  • FIG. 9 is an explanatory diagram showing a second modification of the pixel array according to the present disclosure.
  • FIG. 10 is an explanatory diagram showing an example of using DNN when the second modification of the pixel array according to the present disclosure is adopted.
  • FIG. 11 is an explanatory diagram showing a third modification of the pixel array according to the present disclosure.
  • the pixel array A2 according to the first modification includes a ToF (Time of Flight) sensor instead of the image sensor IR shown in FIG.
  • the image sensor 1 includes a light emitting unit that irradiates infrared light toward the subject.
  • the ToF sensor is a sensor that measures the distance to the subject based on the time from the irradiation of infrared light to the reception of infrared light reflected by the subject.
  • the image sensor 1 can measure the distance to the subject in addition to recognizing the subject.
  • the pixel array A3 includes an image pickup pixel R that receives red light, an image pickup pixel G that receives green light, and an image pickup pixel B that receives blue light. It includes an imaging pixel IR that receives infrared light.
  • the image pickup pixel R includes an image pickup element RL for long-time exposure and an image pickup element RS for short-time exposure.
  • the image pickup pixel G includes an image pickup element GL for long-time exposure and an image pickup element GS for short-time exposure.
  • the image pickup pixel B includes an image pickup element BL for long-time exposure and an image pickup element BS for short-time exposure.
  • each of the image pickup pixels R, G, and B includes two image pickup elements RL, RS, GL, GS, BL, and BS, respectively.
  • the pixel array A3 has the same exposure time of all the image pickup elements RL, RS, GL, GS, BL, and BS included in each image pickup pixel R, G, and B, and is received by the left and right image pickup elements. It is used for autofocus that automatically adjusts the focus based on the phase difference of the light.
  • the image pickup elements RL, GL, and BL are controlled by individually controlling the exposure times of the image pickup elements RL, RS, GL, GS, BL, and BS included in the image pickup pixels R, G, and B of the pixel array A3.
  • the long-exposure pixels and the image sensors RS, GS, and BS function as short-exposure pixels.
  • the pixel array A3 can capture a long-exposure image and a short-exposure image. Further, since the pixel array A3 includes the image sensor IR, it is possible to capture the IR image at the same time as the long exposure image and the short exposure image.
  • the recognition unit 14 When the pixel array A3 is adopted, the recognition unit 14 has a long exposure signal output from the image pickup pixels RL, GL, and BL, and a short exposure time output from the image pickup pixels RS, GS, and BS, as shown in FIG. The signal and the infrared light signal output from the image sensor IR are input to the DNN. As a result, the recognition unit 14 can recognize the subject with high accuracy from each of the long-exposure image, the short-exposure image, and the IR image.
  • the pixel array A4 receives the pair of image pickup elements R, R, and green light that receive red light, similarly to the pixel array A3 shown in FIG. It includes a pair of image pickup elements G, G, and image pickup elements B, B that receive blue light. Further, the pixel array A4 includes a pair of image pickup elements IR and IR that receive infrared light. Each of the image pickup elements R, G, B, and IR includes two photoelectric conversion elements PD.
  • a pixel array A4 for example, of the four photoelectric conversion elements PD included in the pair of image pickup elements R and R, one is exposed for a long time, two are exposed for a medium time, and the remaining one is exposed for a short time. .. Further, in the pixel array A4, one of the four photoelectric conversion elements PD included in the pair of image pickup elements G and G is exposed for a long time, two are exposed for a medium time, and the remaining one is exposed for a short time.
  • the pixel array A4 for example, of the four photoelectric conversion elements PD included in the pair of image pickup elements B and B, one is exposed for a long time, two are exposed for a medium time, and the remaining one is exposed for a short time. Let me. As a result, the pixel array A4 can capture a long-exposure image, a medium-time exposure image, and a short-time exposure image.
  • the pixel array A4 can capture an IR image by exposing the image pickup elements IR and IR.
  • the recognition unit 14 is affected by an artifact by inputting image data of a long-exposure image, a medium-time exposure image, a short-time exposure image, and an IR image into the DNN. It is possible to recognize the subject with high accuracy.
  • the technology according to the present disclosure can be applied to various products.
  • the technology according to the present disclosure is realized as a device mounted on a moving body of any kind such as an automobile, an electric vehicle, a hybrid electric vehicle, a motorcycle, a bicycle, a personal mobility, an airplane, a drone, a ship, and a robot. You may.
  • FIG. 12 is a block diagram showing a schematic configuration example of a vehicle control system, which is an example of a mobile control system to which the technique according to the present disclosure can be applied.
  • the vehicle control system 12000 includes a plurality of electronic control units connected via the communication network 12001.
  • the vehicle control system 12000 includes a drive system control unit 12010, a body system control unit 12020, an outside information detection unit 12030, an in-vehicle information detection unit 12040, and an integrated control unit 12050.
  • a microcomputer 12051, an audio image output unit 12052, and an in-vehicle network I / F (interface) 12053 are shown as a functional configuration of the integrated control unit 12050.
  • the drive system control unit 12010 controls the operation of the device related to the drive system of the vehicle according to various programs.
  • the drive system control unit 12010 provides a driving force generator for generating the driving force of the vehicle such as an internal combustion engine or a driving motor, a driving force transmission mechanism for transmitting the driving force to the wheels, and a steering angle of the vehicle. It functions as a control device such as a steering mechanism for adjusting and a braking device for generating braking force of the vehicle.
  • the body system control unit 12020 controls the operation of various devices mounted on the vehicle body according to various programs.
  • the body system control unit 12020 functions as a keyless entry system, a smart key system, a power window device, or a control device for various lamps such as headlamps, back lamps, brake lamps, winkers, and fog lamps.
  • the body system control unit 12020 may be input with radio waves transmitted from a portable device that substitutes for the key or signals of various switches.
  • the body system control unit 12020 receives inputs of these radio waves or signals and controls a vehicle door lock device, a power window device, a lamp, and the like.
  • the vehicle outside information detection unit 12030 detects information outside the vehicle equipped with the vehicle control system 12000.
  • the image pickup unit 12031 is connected to the vehicle exterior information detection unit 12030.
  • the vehicle outside information detection unit 12030 causes the image pickup unit 12031 to capture an image of the outside of the vehicle and receives the captured image.
  • the vehicle exterior information detection unit 12030 may perform object detection processing or distance detection processing such as a person, a vehicle, an obstacle, a sign, or characters on the road surface based on the received image.
  • the image pickup unit 12031 is an optical sensor that receives light and outputs an electric signal according to the amount of the light received.
  • the imaging unit 12031 can output an electric signal as an image or can output it as distance measurement information. Further, the light received by the imaging unit 12031 may be visible light or invisible light such as infrared light.
  • the in-vehicle information detection unit 12040 detects the in-vehicle information.
  • a driver state detection unit 12041 that detects the driver's state is connected to the in-vehicle information detection unit 12040.
  • the driver state detection unit 12041 includes, for example, a camera that images the driver, and the in-vehicle information detection unit 12040 determines the degree of fatigue or concentration of the driver based on the detection information input from the driver state detection unit 12041. It may be calculated, or it may be determined whether the driver is dozing.
  • the microcomputer 12051 calculates the control target value of the driving force generator, the steering mechanism, or the braking device based on the information inside and outside the vehicle acquired by the vehicle exterior information detection unit 12030 or the vehicle interior information detection unit 12040, and the drive system control unit.
  • a control command can be output to 12010.
  • the microcomputer 12051 realizes ADAS (Advanced Driver Assistance System) functions including vehicle collision avoidance or impact mitigation, follow-up driving based on inter-vehicle distance, vehicle speed maintenance driving, vehicle collision warning, vehicle lane deviation warning, and the like. It is possible to perform cooperative control for the purpose of.
  • ADAS Advanced Driver Assistance System
  • the microcomputer 12051 controls the driving force generator, the steering mechanism, the braking device, and the like based on the information around the vehicle acquired by the vehicle exterior information detection unit 12030 or the vehicle interior information detection unit 12040. It is possible to perform coordinated control for the purpose of automatic driving, etc., which runs autonomously without depending on the operation.
  • the microcomputer 12051 can output a control command to the body system control unit 12020 based on the information outside the vehicle acquired by the vehicle exterior information detection unit 12030.
  • the microcomputer 12051 controls the headlamps according to the position of the preceding vehicle or the oncoming vehicle detected by the external information detection unit 12030, and performs cooperative control for the purpose of antiglare such as switching the high beam to the low beam. It can be carried out.
  • the audio image output unit 12052 transmits the output signal of at least one of the audio and the image to the output device capable of visually or audibly notifying the passenger or the outside of the vehicle of the information.
  • an audio speaker 12061, a display unit 12062, and an instrument panel 12063 are exemplified as output devices.
  • the display unit 12062 may include, for example, at least one of an onboard display and a heads-up display.
  • FIG. 13 is a diagram showing an example of the installation position of the imaging unit 12031.
  • the vehicle 12100 has image pickup units 12101, 12102, 12103, 12104, 12105 as the image pickup unit 12031.
  • the imaging units 12101, 12102, 12103, 12104, 12105 are provided at positions such as the front nose, side mirrors, rear bumpers, back doors, and the upper part of the windshield in the vehicle interior of the vehicle 12100, for example.
  • the imaging unit 12101 provided on the front nose and the imaging unit 12105 provided on the upper part of the windshield in the vehicle interior mainly acquire an image in front of the vehicle 12100.
  • the imaging units 12102 and 12103 provided in the side mirrors mainly acquire images of the side of the vehicle 12100.
  • the imaging unit 12104 provided on the rear bumper or the back door mainly acquires an image of the rear of the vehicle 12100.
  • the images in front acquired by the imaging units 12101 and 12105 are mainly used for detecting a preceding vehicle, a pedestrian, an obstacle, a traffic light, a traffic sign, a lane, or the like.
  • FIG. 13 shows an example of the photographing range of the imaging units 12101 to 12104.
  • the imaging range 12111 indicates the imaging range of the imaging unit 12101 provided on the front nose
  • the imaging ranges 12112 and 12113 indicate the imaging ranges of the imaging units 12102 and 12103 provided on the side mirrors, respectively
  • the imaging range 12114 indicates the imaging range of the imaging units 12102 and 12103.
  • the imaging range of the imaging unit 12104 provided on the rear bumper or the back door is shown. For example, by superimposing the image data captured by the imaging units 12101 to 12104, a bird's-eye view image of the vehicle 12100 as viewed from above can be obtained.
  • At least one of the imaging units 12101 to 12104 may have a function of acquiring distance information.
  • at least one of the image pickup units 12101 to 12104 may be a stereo camera composed of a plurality of image pickup elements, or may be an image pickup element having pixels for phase difference detection.
  • the microcomputer 12051 can set an inter-vehicle distance to be secured in front of the preceding vehicle in advance, and can perform automatic braking control (including follow-up stop control), automatic acceleration control (including follow-up start control), and the like. In this way, it is possible to perform coordinated control for the purpose of automatic driving or the like in which the vehicle travels autonomously without depending on the operation of the driver.
  • the microcomputer 12051 converts three-dimensional object data related to a three-dimensional object into two-wheeled vehicles, ordinary vehicles, large vehicles, pedestrians, utility poles, and other three-dimensional objects based on the distance information obtained from the imaging units 12101 to 12104. It can be classified and extracted and used for automatic avoidance of obstacles. For example, the microcomputer 12051 distinguishes obstacles around the vehicle 12100 into obstacles that can be seen by the driver of the vehicle 12100 and obstacles that are difficult to see. Then, the microcomputer 12051 determines the collision risk indicating the risk of collision with each obstacle, and when the collision risk is equal to or higher than the set value and there is a possibility of collision, the microcomputer 12051 via the audio speaker 12061 or the display unit 12062. By outputting an alarm to the driver and performing forced deceleration and avoidance steering via the drive system control unit 12010, driving support for collision avoidance can be provided.
  • At least one of the imaging units 12101 to 12104 may be an infrared camera that detects infrared rays.
  • the microcomputer 12051 can recognize a pedestrian by determining whether or not a pedestrian is present in the captured image of the imaging units 12101 to 12104.
  • pedestrian recognition includes, for example, a procedure for extracting feature points in an image captured by an imaging unit 12101 to 12104 as an infrared camera, and pattern matching processing for a series of feature points indicating the outline of an object to determine whether or not the pedestrian is a pedestrian. It is done by the procedure to determine.
  • the audio image output unit 12052 When the microcomputer 12051 determines that a pedestrian is present in the captured images of the imaging units 12101 to 12104 and recognizes the pedestrian, the audio image output unit 12052 outputs a square contour line for emphasizing the recognized pedestrian.
  • the display unit 12062 is controlled so as to superimpose and display. Further, the audio image output unit 12052 may control the display unit 12062 so as to display an icon or the like indicating a pedestrian at a desired position.
  • the above is an example of a vehicle control system to which the technology according to the present disclosure can be applied.
  • the technique according to the present disclosure can be applied to, for example, the vehicle exterior information detection unit 12030, the imaging unit 12031, the vehicle interior information detection unit 12040, the driver state detection unit 12041, and the like among the configurations described above.
  • the image recognition device 1 of FIG. 1 can be applied to the in-vehicle information detection unit 12040 and the driver state detection unit 12041.
  • the image sensor 1 which is an example of the image recognition device, has an image pickup unit 10 and a recognition unit 14.
  • the image pickup unit 10 uses the image pickup pixels R, Gr, Gb, and B that receive visible light and the image pickup pixels IR that receive infrared light, and images a plurality of images at the same exposure timing in one frame period. Generate image data.
  • the recognition unit recognizes the subject from each of the image data. As a result, the image sensor 1 can improve the recognition accuracy of the subject by eliminating the influence of the artifact.
  • the imaging unit 10 is a pixel array A1 in which a plurality of imaging pixels R, Gr, Gb, B having the same light receiving area and different exposure times and imaging pixels IR receiving infrared light are arranged in two dimensions. Has.
  • the image sensor 1 can recognize the subject with high accuracy without being affected by the artifact by recognizing the subject from each of the image data and the IR image having different exposure times.
  • the pixel array A1 includes an image sensor L which is an example of a long-exposure image pickup pixel that receives visible light, an image sensor M which is an example of a medium-time exposure image pickup pixel, and an image sensor which is an example of a short-time exposure image pickup pixel.
  • the image sensor 1 recognizes the subject from each of the long-exposure image, the medium-time exposure image, and the short-exposure image, so that the image sensor 1 can recognize the subject with high accuracy without being affected by the artifact. it can.
  • the pixel array A3 is composed of two image pickup elements RL, RS, GL, GS, BL, and BS, each of which has a different exposure time.
  • the image sensor 1 can capture a long-exposure image and a short-exposure image by using the phase difference pixels for autofocus.
  • the pixel array A4 is composed of two image pickup elements R, R, G, G, B, and B for each pixel.
  • Each of the image pickup elements R, G, and B includes two photoelectric conversion elements PD having different exposure times.
  • the image sensor 1 can capture a long-exposure image, a medium-time exposure image, and a short-time exposure image by controlling the exposure time of each photoelectric conversion element PD.
  • the recognition unit 14 outputs the recognition result and image data of the subject to AP2, which is an example of the device in the subsequent stage, when the subject is recognized, and outputs information indicating that fact to AP2 when the subject is not recognized. To do. As a result, the image sensor 1 does not output image data when it does not recognize the subject, so that power consumption can be reduced.
  • the recognition unit 14 outputs the recognition result of the subject and the image data to the AP2 when the remaining amount of the battery is equal to or more than the predetermined remaining amount, and outputs the image data to the AP2 when the remaining amount is less than the predetermined remaining amount. Outputs the recognition result of the subject without. As a result, when the remaining battery level is less than the predetermined remaining amount, the image sensor 1 does not output the image data even if it recognizes the subject, so that the power consumption can be reduced.
  • the recognition unit 14 recognizes the subject from the image data on which the demosaic processing has been executed. As a result, when the image sensor 1 recognizes the subject using the DNN, the processing load can be reduced by reducing the number of input channels of the DNN.
  • the recognition unit 14 recognizes the subject from the image data on which the demosaic processing is not executed.
  • the image sensor 1 recognizes the subject with high accuracy from the image data of the high-sensitivity image, the medium-sensitivity image, the low-sensitivity image, and the IR image, although the processing amount increases when the subject is recognized by using the DNN. can do.
  • the recognition unit 14 recognizes the subject from the image data input from the image pickup unit 10. As a result, when the image sensor 1 recognizes the subject using the DNN, the processing amount increases, but the processing amount of the image sensor 1 as a whole can be significantly reduced because the signal processing is not performed.
  • the imaging pixel that receives infrared light is a ToF (Time of Flight) sensor.
  • ToF Time of Flight
  • the image sensor 1 can measure the distance to the subject in addition to recognizing the subject.
  • the image recognition method uses an image pickup pixel that receives visible light and an image pickup pixel that receives infrared light, and images a plurality of images at the same exposure timing in one frame period to generate image data. Recognize the subject from each of the image data. According to such an image recognition method, the recognition accuracy of the subject can be improved by eliminating the influence of the artifact.
  • the present technology can also have the following configurations.
  • An imaging unit that uses an imaging pixel that receives visible light and an imaging pixel that receives infrared light to image a plurality of images at the same exposure timing in one frame period to generate image data.
  • An image recognition device having a recognition unit that recognizes a subject from each of the image data.
  • the imaging unit The image recognition device according to (1), further comprising a pixel array in which a plurality of the imaging pixels having the same light receiving area and different exposure times and the imaging pixels that receive infrared light are arranged in two dimensions.
  • the pixel array is The image recognition device according to (2) above, which has a long-exposure image pickup pixel, a medium-time exposure image pickup pixel, and a short-time exposure image pickup pixel that receives visible light.
  • the pixel array is The image recognition device according to (2) above, wherein each pixel is composed of two photoelectric conversion elements having different exposure times.
  • the pixel array is Each pixel is composed of two image sensors. Each of the image sensors The image recognition device according to (2) above, which includes two photoelectric conversion elements having different exposure times.
  • the recognition unit When the subject is recognized, the recognition result of the subject and the image data are output to the subsequent device, and when the subject is not recognized, information indicating that fact is output to the subsequent device (1) to The image recognition device according to any one of (5).
  • the recognition unit When the remaining amount of the battery is equal to or more than the predetermined remaining amount, the recognition result of the subject and the image data are output to the subsequent device, and when the remaining amount is less than the predetermined remaining amount, the image data is output to the subsequent device.
  • the image recognition device according to (6) above which outputs the recognition result of the subject without doing so.
  • the recognition unit The image recognition device according to any one of (1) to (7), which recognizes the subject from the image data on which demosaic processing has been executed.
  • the recognition unit The image recognition device according to any one of (1) to (8), which recognizes the subject from the image data on which demosaic processing is not executed.
  • the recognition unit The image recognition device according to any one of (1) to (8), which recognizes the subject from the image data input from the image pickup unit.
  • the imaging pixel that receives the infrared light is The image recognition device according to any one of (1) to (10) above, which is a ToF (Time of Flight) sensor.
  • (12) Using an image pickup pixel that receives visible light and an image pickup pixel that receives infrared light, a plurality of images are imaged at the same exposure timing in one frame period to generate image data.
  • Image recognition system 100 Image recognition system 1 Image sensor 10 Imaging unit A1, A2, A3, A4 Pixel array 12 A / D conversion unit 13 Signal processing unit 14 Recognition unit 15 Data transmission judgment unit 16 SEL 17 Transmitter 2 AP 21 Receiver 22 Authentication unit 23 Authentication data storage unit 31 Object recognition unit 32 Object recognition data storage unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Studio Devices (AREA)
  • Transforming Light Signals Into Electric Signals (AREA)

Abstract

被写体の認識精度を向上させることができる画像認識装置および画像認識方法を提供する。本開示に係る画像認識装置(イメージセンサ1)は、撮像部(10)と、認識部(14)とを有する。撮像部(10)は、可視光を受光する撮像画素(R,Gr,Gb,B)と、赤外光を受光する撮像画素(IR)とを使用し、1フレーム期間に複数の画像を同一露光タイミングで撮像して画像データを生成する。認識部(14)は、画像データのそれぞれから被写体を認識する。

Description

画像認識装置および画像認識方法
 本開示は、画像認識装置および画像認識方法に関する。
 1フレーム期間に感度が異なる複数の画像を撮像して合成することによりHDR(High Dynamic Range)画像を生成するHDR撮像モードを備え、HDR画像から被写体を認識する撮像装置がある(例えば、特許文献1参照)。
 また、可視光を受光する撮像画素と、赤外光を受光する撮像画素とを使用して撮像した画像を合成することにより、HDR画像を生成し、HDR画像から被写体を認識する撮像装置もある。
特開2014-103643号公報
 しかしながら、上記の従来技術では、被写体の認識精度が低下することがある。そこで、本開示では、被写体の認識精度を向上させることができる画像認識装置および画像認識方法を提案する。
 本開示に係る画像認識装置は、撮像部と、認識部とを有する。撮像部は、可視光を受光する撮像画素と、赤外光を受光する撮像画素とを使用し、1フレーム期間に複数の画像を同一露光タイミングで撮像して画像データを生成する。認識部は、前記画像データのそれぞれから被写体を認識する。
本開示に係る画素アレイを示す説明図である。 一般的なDNNの使用例を示す説明図である。 本開示に係るDNNの使用例を示す説明図である。 本開示に係る画像認識システムの構成例を示す図である。 本開示に係る信号処理部が実行する処理の説明図である。 本開示に係る認識部が実行する処理の説明図である。 本開示に係る認識部が実行する処理の説明図である。 本開示に係る信号処理部が実行する処理の変形例を示す説明図である。 本開示に係る認識部が使用するDNNの変形例を示す説明図である。 本開示に係る画素アレイの第1変形例を示す説明図である。 本開示に係る画素アレイの第2変形例を示す説明図である。 本開示に係る画素アレイの第2変形例を採用した場合のDNNの使用例を示す説明図である。 本開示に係る画素アレイの第3変形例を示す説明図である。 車両制御システムの概略的な構成の一例を示すブロック図である。 車外情報検出部及び撮像部の設置位置の一例を示す説明図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
[1.画像認識方法の概要]
 まず、本開示に係る画像認識方法の概要について説明する。本開示に係る画像認識方法では、可視光を受光する撮像画素と、赤外光を受光する撮像画素を使用し、1フレーム期間に複数の画像を同一露光タイミングで撮像して画像データを生成し、画像データのそれぞれから被写体を認識する。ここでの同一露光タイミングで撮像するとは、例えば、複数の画素の露光を別々のタイミングで開始させ、同一のタイミングで終了させて画像を撮像することを意味する。
 複数の画像の撮像には、HDR(High Dynamic Range)画像の撮像に使用される画素アレイを使用する。図1は、本開示に係る画素アレイを示す説明図である。例えば、図1に示すように、HDR画像の撮像に使用される画素アレイA1は、赤色光を受光する撮像画素R、緑色光を受光する撮像画素Gr、Gb、青色光を受光する撮像画素Bがベイヤ配列されている。
 なお、撮像画素Grは、撮像画素Rが配置される列に設けられて緑色光を受光する撮像画素である。撮像画素Gbは、撮像画素Bが配置される列に設けられて緑色光を受光する撮像画素である。
 撮像画素R、Gr、Gb、Bは、それぞれ、L字状に配置される受光面積が同一の3個の撮像素子を備える。撮像素子Lは、撮像素子M、Sに比べて露光時間が長い長時間露光素子である。撮像素子Sは、撮像素子L、Mに比べて露光時間が短い短時間露光素子である。
 撮像素子Mは、撮像素子Sよりも露光時間が長く、撮像素子Lよりも露光時間が短い中時間露光素子である。また、画素アレイA1は、同色の光を受光するL字状に配置された撮像素子L、M、Sによって三方が囲まれる位置に、赤外光を受光する撮像画素となる撮像素子IRを備える。
 撮像素子Lは、露光時間が長いので、周囲が暗い場合であっても十分な受光量を得ることができる。これにより、撮像素子Lは、輝度が低すぎて通常の露光時間では黒つぶれするような被写体であっても、被写体の像がきれいに写った高感度画像(以下、長時間露光画像という場合がある)を撮像することができる。
 撮像素子Sは、露光時間が短いので、周囲が明るい場合であっても飽和することがない。これにより、撮像素子Sは、輝度が高すぎて通常の露光時間では白飛びするような被写体であっても、被写体の像がきれいに写った低感度画像(以下、短時間露光画像という場合がある)を撮像することができる。なお、撮像素子Mは、一般的なデジタルカメラと同様の露光時間で中感度画像(以下、中時間露光画像という場合がある)を撮像することができる。
 撮像素子IRは、赤外光を受光するので、例えば、肉眼では見え難い暗闇での歩行者や車両、車両のヘッドライトやスポットライトで見え難い歩行者、煙や霧で見え難い物体等の像がきれいに写ったIR(Infrared Ray)画像を撮像することができる。また、撮像素子IRは、被写体の熱情報を検知することもできる。
 HDR画像は、上記した高感度画像、中間度画像、低感度画像、およびIR画像をHDR合成することによって生成される。このため、HDR画像は、暗い被写体、明るい被写体、および肉眼ではみえ難い被写体等の全ての被写体の像がきれいに写った画像となる。
 なお、図1に示す画素アレイA1では、露光時間を異ならせることで、受光面積が同一の撮像素子L、M、Sによって高感度画像、中感度画像、または低感度画像を撮像するが、これは一例である。例えば、画素アレイA1は、各撮像画素に積層されるカラーフィルタの透光率を異ならせることで、露光時間を同一にしても、高感度画像、中感度画像、または低感度画像を撮像することができる。
 この場合、画素アレイA1では、カラーフィルタの透光率が通常よりも高い撮像画素が高感度撮像画素となり、カラーフィルタの透光率が通常の撮像画素が中感度撮像画素となり、カラーフィルタの透光率が通常よりも低い撮像画素が低感度撮像画素となる。
 なお、露光開始時間を異ならせる方法として、露光開始時間を同一にし露光終了時間を異ならせる方法、露光開始時間を異ならせ露光終了時間を同一にする方法、露光開始時間と終了時間のいずれも異なる時間にする方法を用いても、高感度画像、中感度画像、または低感度画像を撮像することができる。
 かかる画素アレイA1によっても、同時に高感度画像および低感度画像を撮像することができるので、両画像をHDR合成することにより、HDR画像を撮像することが可能である。また、撮像画素の受光面積を異ならせることで、カラーフィルタの透光性および露光時間が同一の撮像画素を高感度撮像画素または低感度撮像画素として機能させることもできる。
 ここで、画像データから被写体を認識する方法の一例として、DNN(Deep Neural Network)を用いる画像認識方法がある。DNNは、画像データから被写体の特徴(パターン)を認識するように機械学習によって設計された人間の脳神経回路(ニューラルネットワーク)をモデルとした多階層構造のアルゴリズムである。
 図2Aは、一般的なDNNの使用例を示す説明図である。例えば、HDR画像から被写体を認識する場合、図2Aに示すように、HDR合成後のHDR画像における赤R、緑G、青Bの各画素の信号R、G、B(HDR画像の画像データ)をDNNへ入力すると、DNNから被写体の認識結果が出力される。
 しかしながら、HDR画像には、HDR合成が行われたことで、実際には存在しないアーチファクトが写り込むことがある。このため、HDR画像における各画素の信号R、G、BをDNNへ入力すると、アーチファクトの弊害によって、DNNによる被写体の認識精度が低下することがある。
 そこで、本開示では、HDR合成前の高感度画像、中感度画像、低感度画像、およびIR画像のそれぞれから被写体を認識することで、アーチファクトの影響を排除し、被写体の認識精度を向上させる。図2Bは、本開示に係るDNNの使用例を示す説明図である。
 図2Bに示すように、本開示では、例えば、撮像素子Lから出力される長時間露光信号R、Gr、Gb、B(高感度画像の画像データ)と、撮像素子Mから出力される中時間露光信号R、Gr、Gb、B(中感度画像の画像データ)とをDNNへ入力する。さらに、本開示では、撮像素子Sから出力される短時間露光信号R、Gr、Gb、B(低感度画像の画像データ)と、撮像素子IRから出力される赤外光信号IRr、IRgr、IRgb、IRb(IR画像の画像データ)をDNNへ入力する。
 これにより、DNNは、高感度画像、中感度画像、低感度画像とIR画像から被写体を認識した認識結果とを出力する。
 このとき、DNNは、アーチファクトを含まない高感度画像、中感度画像、低感度画像およびIR画像から被写体を認識するので、アーチファクトの影響を受けることなく高精度な被写体の認識結果を出力することができる。
 このように、本開示に係る画像認識方法は、可視光を受光する撮像画素と、赤外光を受光する撮像画素を使用し、1フレーム期間に複数の露光時間で撮像し、これら全てを用いて被写体を認識するので被写体の認識精度を向上させることができる。
[2.画像認識システムの構成]
 次に、図3を参照し、本開示に係る画像認識システムの構成について説明する。図3は、本開示に係る画像認識システムの構成例を示す図である。図3に示すように、本開示に係る画像認識システム100は、画像認識装置の一例であるイメージセンサ1と、アプリケーションプロセッサ(以下、AP2と記載する)とを有する。
 イメージセンサ1は、撮像部10と、信号処理部13と、認識部14と、データ送信判断部15と、セレクタ(以下、SEL16と記載する)と、送信部17とを備える。撮像部10は、画素アレイA1と、A/D(Analog/Digital)変換部12とを備える。
 画素アレイA1は、撮像素子L、M、S、IRによって、高感度画像、中感度画像、低感度画像、およびIR画像を撮像する。そして、画素アレイA1は、撮像素子L、M、S、IRからA/D変換部12へ受光量に応じたアナログの画素信号を出力する。
 A/D変換部12は、画素アレイA1から入力されるアナログの画素信号をデジタルの画素信号にA/D変換して高感度画の画像データと、中感度の画像データと、低感度画像の画像データと、赤外光の画像データとを生成し、信号処理部13へ出力する。
 信号処理部13は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを有するマイクロコンピュータや各種の回路を含む。
 信号処理部13は、A/D変換部12から入力される高感度画の画像データと、中感度の画像データと、低感度画像の画像データと、赤外光の画像データとに対して、それぞれ所定の信号処理を実行する。そして、信号処理部13は、信号処理後の高感度画の画像データと、中感度の画像データと、低感度画像の画像データと、赤外光の画像データとを認識部14と、SEL16へ出力する。
 ここで、図4を参照し、信号処理部13が実行する処理の流れについて説明する。図4は、本開示に係る信号処理部が実行する処理の説明図である。図4に示すように、信号処理部13は、入力される画像データに対して、まず、シェーディング補正を行い、続いて、混色補正を行う。
 その後、信号処理部13は、画像データに対してデジタルゲイン調整を行い、続いて、ホワイトバランスゲイン調整を行う。その後、信号処理部13は、画像データに対してデモザイクを行った後、最後にガンマ補正を行い、ガンマ補正後の画像データを出力する。
 なお、デモザイクでは、高感度画像、中感度画像、低感度画像、およびIR画像の各画素の色を周囲の画素の色によって補完する処理を行う。このため、デモザイク前の高感度画像、中感度画像、低感度画像の画像データは、それぞれ4種類の画素信号R、Gr、Gb、Bとなるが、デモザイク後の画像データは、3種類の画素信号R、G、Bとなる。また、デモザイク前のIR画像の画像データは、4種類の画素信号IRr、IRgr、IRgb、IRbとなるが、デモザイク後の画像データは、1種類の画像信号IRとなる。
 図3へ戻り、認識部14は、CPU、ROM、RAMなどを有するマイクロコンピュータや各種の回路を含む。認識部14は、CPUがROMに記憶された物体認識プログラムを、RAMを作業領域として使用して実行することにより機能する物体認識部31と、RAMまたはROMに設けられる物体認識用データ記憶部32とを備える。物体認識用データ記憶部32には、認識対象となる物体の種類毎にDNNが記憶されている。
 物体認識部31は、設定される認識対象の種類に応じたDNNを物体認識用データ記憶部32から読出し、画像データをDNNへ入力してDNNから出力される被写体の認識結果をデータ送信判断部15へ出力し、認識結果のメタデータをSEL16へ出力する。
 ここで、図5Aよび図5Bを参照し、認識部14が行う処理の流れについて説明する。図5Aおよび図5Bは、本開示に係る認識部が実行する処理の説明図である。図5Aに示すように、認識部14は、まず、入力される画像データのサイズおよび入力値をDNN用のサイズおよび入力値に合わせて正規化し、正規化後の画像データをDNNへ入力して物体認識を行う。そして、認識部14は、DNNから出力される被写体の認識結果をデータ送信判断部15へ出力し、認識結果のメタデータをSEL16へ出力する。
 このとき、図5Bに示すように、認識部14は、長時間露光信号R、G、Bと、中時間露光信号R、G、Bと、短時間露光信号R、G、Bと、赤外光信号IRとをDNNへ入力する。これにより、認識部14は、アーチファクトのない高感度画像、中感度画像、低感度画像、およびIR画像のそれぞれから被写体を認識することで、被写体の認識精度を向上させることができる。
 図3へ戻り、データ送信判断部15は、認識部14から入力される認識結果に応じてSEL16から出力させるデータを切替える制御信号をSEL16へ出力する。データ送信判断部15は、認識部14によって被写体が認識された場合には、画像データと、認識結果を示すメタデータとを送信部17へ出力させる制御信号をSEL16へ出力する。
 また、データ送信判断部15は、認識部14によって被写体が認識されなかった場合、その旨を示す情報(ノーデータ)を送信部17へ出力させる制御信号をSEL16へ出力する。SEL16は、データ送信判断部15から入力される制御信号に応じて、画像データおよびメタデータのセット、または、ノーデータのいずれかを送信部17へ出力する。
 送信部17は、AP2との間でデータ通信を行う通信I/F(インターフェース)であり、SEL16から入力される画像データおよびメタデータのセット、または、ノーデータのいずれかをAP2へ送信する。
 このように、イメージセンサ1は、被写体を認識した場合に限って画像データをAP2へ送信し、被写体を認識しない場合には、画像データをAP2へ送信することがないため、画像データの送信に要する消費電力を低減することができる。
 AP2は、画像認識システム100の用途に応じた各種アプリケーションプログラムを実行するCPU、ROM、RAMなどを有するマイクロコンピュータや各種の回路を含む。AP2は、受信部21と、認証部22と、認証用データ記憶部23とを備える。
 認証用データ記憶部23には、イメージセンサ1によって認識された被写体を認証するための認証用プログラムおよび認証用画像データ等が記憶されている。受信部21は、イメージセンサ1との間でデータ通信を行う通信I/Fである。受信部21は、イメージセンサ1から画像データおよびメタデータのセット、または、ノーデータのいずれかを受信して認証部22へ出力する。
 認証部22は、受信部21からノーデータが入力される場合には起動せず、画像データおよびメタデータのセットが入力された場合に起動する。認証部22は、起動すると認証用データ記憶部23から認証用プログラムを読み出して実行し、イメージセンサ1によって認識された被写体を認証する。
 例えば、認証部22は、被写体が人であることを示すメタデータと画像データのセットが入力される場合、画像データと人の認証用画像データとを照合し、認識された人が誰かを特定する処理等を行う。
 このとき、認証部22は、イメージセンサ1によって被写体が人であると高精度に認識されたアーチファクトの影響がない高感度画像、中感度画像、低感度画像、およびIR画像の画像データに基づいて人を特定する。これにより、認証部22は、認識された人が誰かを的確に特定することができる。なお、上記した実施形態は、一例であり、種々の変形が可能である。次に本開示に係る実施形態に係る変形例について説明する。
[3.信号処理部が実行する処理の変形例]
 図6は、本開示に係る信号処理部が実行する処理の変形例を示す説明図である。図7は、本開示に係るDNNの使用例の変形例を示す説明図である。
 図6に示すように、変形例に係る信号処理部は、入力される画像データに対して、シェーディング補正、混色補正、デジタルゲイン調整、ホワイトバランスゲイン調整、およびガンマ補正を行い、信号処理後の画像データを認識部14と、SEL16とに出力する。
 このように、信号処理部は、図4に示した信号処理からデモザイクを省略することができる。この場合、認識部14は、デモザイクが実行されない画像データから被写体を認識する。前述したように、デモザイクが実行されない高感度画像、中感度画像、および低感度画像の画像データは、4種類の画素信号R、Gr、Gb、Bとなる。また、デモザイクが実行されないIR画像の画像データは、画素信号IRr、IRgr、IRgb、IRbとなる。
 このため、認識部14は、長時間露光信号R、Gr、Gb、Bと、中時間露光信号R、Gr、Gb、Bと、短時間露光信号R、Gr、Gb、Bとと、赤外光信号IRr、IRgr、IRgb、IRをDNNへ入力する(図2B参照)。かかる場合、認識部14は、DNNの入力チャンネル数が増えるので処理量が増すが、DNNには、高感度画像、中感度画像、低感度画像、IR画像の画像データが個別に入力されるので、アーチファクトの影響を受けることなく被写体を高精度に認識することができる。
 なお、他の変形例では、信号処理部自体を省略することもできる。かかる場合にも同様に、認識部14は、長時間露光信号R、Gr、Gb、Bと、中時間露光信号R、Gr、Gb、Bと、短時間露光信号R、Gr、Gb、Bとと、赤外光信号IRr、IRgr、IRgb、IRをDNNへ入力する。このため、認識部14は、処理量が増すが、信号処理を行わない分、イメージセンサ1全体としての処理量が大幅に低減される。
 なお、上記した実施形態では、データ送信判断部15は、被写体を認識した場合に、毎回、認識結果のメタデータと画像データとをSEL16に出力させたが、バッテリ残量に応じてSEL16から出力させるデータを選択してもよい。
 例えば、データ送信判断部15は、認識部14によって被写体が認識された場合、バッテリの残量が所定残量以上ある状態の通常モードでは、メタデータと画像データとをSEL16から出力させる。また、データ送信判断部15は、バッテリの残量が所定残量未満の状態の低消費電力モードでは、メタデータのみをSEL16から出力させる。これにより、データ送信判断部15は、バッテリの残量が不足している場合に、イメージセンサ1の消費電力を低く抑えることができる。
[4.認識部による被写体認識の変形例]
 図7は、本開示に係る認識部が使用するDNNの変形例を示す説明図である。図2Bおよび図5Bに示した例では、認識部14は、1つのDNNを使用して被写体の認識を行ったが、図7に示すように、2つのDNNを使用することもできる。
 具体的には、長時間露光画像、中時間露光画像、および短時間露光画像には、色彩があるが、IR画像には、色彩がない。このため、長時間露光画像、中時間露光画像、および短時間露光画像と、IR画像とでは、画像中の被写体の特徴が異なる。
 そこで、変形例に係る認識部は、第1DNNと、第2DNNとを使用して被写体を認識する。第1DNNは、長時間露光画像、中時間露光画像、および短時間露光画像から被写体を認識することに特化して機械学習された学習モデルである。第2DNNは、IR画像から被写体を認識することに特化して機械学習された学習モデル。
 変形例に係る認識部は、第1DNNへ長時間露光信号R、G、B、中時間露光信号R、G、B、短時間露光信号R、G、Bを入力して、長時間露光画像、中時間露光画像、および短時間露光画像から被写体を認識する。また、認識部は、第2DNNへ赤外光信号を入力して、IR画像から被写体を認識する。これにより、認識部は、被写体の認識精度をさらに向上させることができる。
[5.画素アレイの変形例]
 図8は、本開示に係る画素アレイの第1変形例を示す説明図である。図9は、本開示に係る画素アレイの第2変形例を示す説明図である。図10は、本開示に係る画素アレイの第2変形例を採用した場合のDNNの使用例を示す説明図である。図11は、本開示に係る画素アレイの第3変形例を示す説明図である。
 図8に示すように、第1変形例に係る画素アレイA2は、図1に示した撮像素子IRの代わりにToF(Time of Flight)センサを備える。画素アレイA2を採用する場合、イメージセンサ1は、被写体へ向けて赤外光を照射する発光部を備える。
 ToFセンサは、赤外光が照射されてから、被写体に反射した赤外光を受光するまでの時間に基づいて、被写体までの距離を測定するセンサである。イメージセンサ1は、かかる画素アレイA2を採用することによって、被写体の認識に加えて、被写体までの距離を測定することができる。
 また、図9に示すように、第2変形例に係る画素アレイA3は、赤色光を受光する撮像画素Rと、緑色光を受光する撮像画素Gと、青色光を受光する撮像画素Bと、赤外光を受光する撮像画素IRとを備える。
 撮像画素Rは、長時間露光する撮像素子RLと短時間露光する撮像素子RSとを備える。撮像画素Gは、長時間露光する撮像素子GLと短時間露光する撮像素子GSとを備える。撮像画素Bは、長時間露光する撮像素子BLと短時間露光する撮像素子BSとを備える。
 このように、画素アレイA3は、各撮像画素R、G、Bが、それぞれ2個の撮像素子RL、RS,GL、GS、BL、BSを備える。かかる画素アレイA3は、一般的には、各撮像画素R、G、Bが備える全ての撮像素子RL、RS,GL、GS、BL、BSの露光時間を同一にし、左右の撮像素子で受光される光の位相差に基づいて焦点を自動調整するオートフォーカスに使用される。
 本開示では、かかる画素アレイA3の撮像画素R、G、Bが備える撮像素子RL、RS,GL、GS、BL、BSの露光時間を個別に制御することで、撮像素子RL、GL、BLを長時間露光画素、撮像素子RS,GS,BSを短時間露光画素として機能させる。
 これにより、画素アレイA3は、長時間露光画像および短時間露光画像を撮像することができる。また、画素アレイA3は、撮像素子IRを備えるので、長時間露光画像および短時間露光画像と同時にIR画像を撮像することもできる。
 認識部14は、画素アレイA3が採用される場合、図10に示すように、撮像画素RL、GL、BLから出力される長時間露光信号、撮像画素RS、GS、BS出力される短時間露光信号、および撮像素子IRから出力される赤外光信号をDNNへ入力する。これにより、認識部14は、長時間露光画像、短時間露光画像、およびIR画像のそれぞれから高精度に被写体を認識することができる。
 また、図11に示すように、第4変形例に係る画素アレイA4は、図9に示した画素アレイA3と同様に、赤色光を受光する一対の撮像素子R、R、緑色光を受光する一対の撮像素子G、G、および青色光を受光する撮像素子B、Bを備える。また、画素アレイA4は、赤外光を受光する一対の撮像素子IR、IRを備える。各撮像素子R、G、B、IRは、それぞれ、2個の光電変換素子PDを備える。
 かかる画素アレイA4では、例えば、一対の撮像素子R、Rが備える4個の光電変換素子PDのうち、1個を長時間露光、2個を中時間露光、残りの1個を短時間露光させる。また、画素アレイA4では、一対の撮像素子G、Gが備える4個の光電変換素子PDのうち、1個を長時間露光、2個を中時間露光、残りの1個を短時間露光させる。
 また、画素アレイA4では、例えば、一対の撮像素子B、Bが備える4個の光電変換素子PDのうち、1個を長時間露光、2個を中時間露光、残りの1個を短時間露光させる。これにより、画素アレイA4は、長時間露光画像、中時間露光画像、および短時間露光画像を撮像することができる。
 また、画素アレイA4は、撮像素子IR、IRを露光させることで、IR画像を撮像することができる。かかる画素アレイA4が採用される場合、認識部14は、長時間露光画像、中時間露光画像、短時間露光画像、およびIR画像の画像データをDNNへ入力することにより、アーチファクトの影響を受けることなく、高精度に被写体を認識することができる。
[6.移動体への応用例]
 本開示に係る技術(本技術)は、様々な製品へ応用することができる。例えば、本開示に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット等のいずれかの種類の移動体に搭載される装置として実現されてもよい。
 図12は、本開示に係る技術が適用され得る移動体制御システムの一例である車両制御システムの概略的な構成例を示すブロック図である。
 車両制御システム12000は、通信ネットワーク12001を介して接続された複数の電子制御ユニットを備える。図12に示した例では、車両制御システム12000は、駆動系制御ユニット12010、ボディ系制御ユニット12020、車外情報検出ユニット12030、車内情報検出ユニット12040、及び統合制御ユニット12050を備える。また、統合制御ユニット12050の機能構成として、マイクロコンピュータ12051、音声画像出力部12052、及び車載ネットワークI/F(interface)12053が図示されている。
 駆動系制御ユニット12010は、各種プログラムにしたがって車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット12010は、内燃機関又は駆動用モータ等の車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、及び、車両の制動力を発生させる制動装置等の制御装置として機能する。
 ボディ系制御ユニット12020は、各種プログラムにしたがって車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット12020は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカー又はフォグランプ等の各種ランプの制御装置として機能する。この場合、ボディ系制御ユニット12020には、鍵を代替する携帯機から発信される電波又は各種スイッチの信号が入力され得る。ボディ系制御ユニット12020は、これらの電波又は信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプ等を制御する。
 車外情報検出ユニット12030は、車両制御システム12000を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット12030には、撮像部12031が接続される。車外情報検出ユニット12030は、撮像部12031に車外の画像を撮像させるとともに、撮像された画像を受信する。車外情報検出ユニット12030は、受信した画像に基づいて、人、車、障害物、標識又は路面上の文字等の物体検出処理又は距離検出処理を行ってもよい。
 撮像部12031は、光を受光し、その光の受光量に応じた電気信号を出力する光センサである。撮像部12031は、電気信号を画像として出力することもできるし、測距の情報として出力することもできる。また、撮像部12031が受光する光は、可視光であっても良いし、赤外線等の非可視光であっても良い。
 車内情報検出ユニット12040は、車内の情報を検出する。車内情報検出ユニット12040には、例えば、運転者の状態を検出する運転者状態検出部12041が接続される。運転者状態検出部12041は、例えば運転者を撮像するカメラを含み、車内情報検出ユニット12040は、運転者状態検出部12041から入力される検出情報に基づいて、運転者の疲労度合い又は集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。
 マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構又は制動装置の制御目標値を演算し、駆動系制御ユニット12010に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車両の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、又は車両のレーン逸脱警告等を含むADAS(Advanced Driver Assistance System)の機能実現を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構又は制動装置等を制御することにより、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030で取得される車外の情報に基づいて、ボディ系制御ユニット12020に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車外情報検出ユニット12030で検知した先行車又は対向車の位置に応じてヘッドランプを制御し、ハイビームをロービームに切り替える等の防眩を図ることを目的とした協調制御を行うことができる。
 音声画像出力部12052は、車両の搭乗者又は車外に対して、視覚的又は聴覚的に情報を通知することが可能な出力装置へ音声及び画像のうちの少なくとも一方の出力信号を送信する。図12の例では、出力装置として、オーディオスピーカ12061、表示部12062及びインストルメントパネル12063が例示されている。表示部12062は、例えば、オンボードディスプレイ及びヘッドアップディスプレイの少なくとも一つを含んでいてもよい。
 図13は、撮像部12031の設置位置の例を示す図である。
 図13では、車両12100は、撮像部12031として、撮像部12101,12102,12103,12104,12105を有する。
 撮像部12101,12102,12103,12104,12105は、例えば、車両12100のフロントノーズ、サイドミラー、リアバンパ、バックドア及び車室内のフロントガラスの上部等の位置に設けられる。フロントノーズに備えられる撮像部12101及び車室内のフロントガラスの上部に備えられる撮像部12105は、主として車両12100の前方の画像を取得する。サイドミラーに備えられる撮像部12102,12103は、主として車両12100の側方の画像を取得する。リアバンパ又はバックドアに備えられる撮像部12104は、主として車両12100の後方の画像を取得する。撮像部12101及び12105で取得される前方の画像は、主として先行車両又は、歩行者、障害物、信号機、交通標識又は車線等の検出に用いられる。
 なお、図13には、撮像部12101ないし12104の撮影範囲の一例が示されている。撮像範囲12111は、フロントノーズに設けられた撮像部12101の撮像範囲を示し、撮像範囲12112,12113は、それぞれサイドミラーに設けられた撮像部12102,12103の撮像範囲を示し、撮像範囲12114は、リアバンパ又はバックドアに設けられた撮像部12104の撮像範囲を示す。例えば、撮像部12101ないし12104で撮像された画像データが重ね合わせられることにより、車両12100を上方から見た俯瞰画像が得られる。
 撮像部12101ないし12104の少なくとも1つは、距離情報を取得する機能を有していてもよい。例えば、撮像部12101ないし12104の少なくとも1つは、複数の撮像素子からなるステレオカメラであってもよいし、位相差検出用の画素を有する撮像素子であってもよい。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を基に、撮像範囲12111ないし12114内における各立体物までの距離と、この距離の時間的変化(車両12100に対する相対速度)を求めることにより、特に車両12100の進行路上にある最も近い立体物で、車両12100と略同じ方向に所定の速度(例えば、0km/h以上)で走行する立体物を先行車として抽出することができる。さらに、マイクロコンピュータ12051は、先行車の手前に予め確保すべき車間距離を設定し、自動ブレーキ制御(追従停止制御も含む)や自動加速制御(追従発進制御も含む)等を行うことができる。このように運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を元に、立体物に関する立体物データを、2輪車、普通車両、大型車両、歩行者、電柱等その他の立体物に分類して抽出し、障害物の自動回避に用いることができる。例えば、マイクロコンピュータ12051は、車両12100の周辺の障害物を、車両12100のドライバが視認可能な障害物と視認困難な障害物とに識別する。そして、マイクロコンピュータ12051は、各障害物との衝突の危険度を示す衝突リスクを判断し、衝突リスクが設定値以上で衝突可能性がある状況であるときには、オーディオスピーカ12061や表示部12062を介してドライバに警報を出力することや、駆動系制御ユニット12010を介して強制減速や回避操舵を行うことで、衝突回避のための運転支援を行うことができる。
 撮像部12101ないし12104の少なくとも1つは、赤外線を検出する赤外線カメラであってもよい。例えば、マイクロコンピュータ12051は、撮像部12101ないし12104の撮像画像中に歩行者が存在するか否かを判定することで歩行者を認識することができる。かかる歩行者の認識は、例えば赤外線カメラとしての撮像部12101ないし12104の撮像画像における特徴点を抽出する手順と、物体の輪郭を示す一連の特徴点にパターンマッチング処理を行って歩行者か否かを判別する手順によって行われる。マイクロコンピュータ12051が、撮像部12101ないし12104の撮像画像中に歩行者が存在すると判定し、歩行者を認識すると、音声画像出力部12052は、当該認識された歩行者に強調のための方形輪郭線を重畳表示するように、表示部12062を制御する。また、音声画像出力部12052は、歩行者を示すアイコン等を所望の位置に表示するように表示部12062を制御してもよい。
 以上、本開示に係る技術が適用され得る車両制御システムの一例について説明した。本開示に係る技術は、以上説明した構成のうち、例えば、車外情報検出ユニット12030、撮像部12031、車内情報検出ユニット12040、および運転者状態検出部12041等に適用され得る。例えば、図1の画像認識装置1は、車内情報検出ユニット12040および運転者状態検出部12041に適用することができる。車内情報検出ユニット12040および運転者状態検出部12041に本開示に係る技術を適用することにより、被写体である運転者の認識精度が向上するので、運転者の疲労度合い、集中度合、居眠りしていないか等をより正確に検出することが可能になる。
[7.効果]
 画像認識装置の一例であるイメージセンサ1は、撮像部10と、認識部14とを有する。撮像部10は、可視光を受光する撮像画素R、Gr、Gb、Bと、赤外光を受光する撮像画素IRとを使用し、1フレーム期間に複数の画像を同一露光タイミングで撮像して画像データを生成する。認識部は、画像データのそれぞれから被写体を認識する。これにより、イメージセンサ1は、アーチファクトの影響を排除することで、被写体の認識精度を向上させることができる。
 また、撮像部10は、受光面積が同一であり露光時間が異なる複数の撮像画素R、Gr、Gb、Bと、赤外光を受光する撮像画素IRとが2次元に配列された画素アレイA1を有する。これにより、イメージセンサ1は、露光時間の異なる画像データおよびIR画像のそれぞれから被写体を認識することで、アーチファクトの影響を受けることなく、高精度に被写体を認識することができる。
 また、画素アレイA1は、可視光を受光する長時間露光撮像画素の一例である撮像素子L、中時間露光撮像画素の一例である撮像素子M、および短時間露光撮像画素の一例である撮像素子Sを有する。これにより、イメージセンサ1は、長時間露光画像、中時間露光画像、および短時間露光画像のそれぞれから被写体を認識することで、アーチファクトの影響を受けることなく、高精度に被写体を認識することができる。
 また、画素アレイA3は、各画素が露光時間の異なる2個の撮像素子RL、RS,GL、GS、BL、BSによって構成される。これにより、イメージセンサ1は、オートフォーカス用の位相差画素を使用して、長時間露光画像および短時間露光画像を撮像することができる。
 また、画素アレイA4は、各画素が2個の撮像素子R、R、G、G、B、Bによって構成される。各撮像素子R、G、Bは、露光時間の異なる2個の光電変換素子PDを備える。これにより、イメージセンサ1は、各光電変換素子PDの露光時間を制御することによって、長時間露光画像、中時間露光画像、および短時間露光画像を撮像することができる。
 また、認識部14は、被写体を認識した場合に、被写体の認識結果および画像データを後段の装置の一例であるAP2へ出力し、被写体を認識しない場合に、その旨を示す情報をAP2へ出力する。これにより、イメージセンサ1は、被写体を認識しない場合に、画像データの出力を行わないので、消費電力を低減することができる。
 また、認識部14は、バッテリの残量が所定残量以上である場合に、被写体の認識結果および画像データをAP2へ出力し、所定残量未満の場合に、AP2へ画像データを出力することなく被写体の認識結果を出力する。これにより、イメージセンサ1は、バッテリ残量が所定残量未満である場合に、被写体を認識しても画像データの出力を行わないので、消費電力を低減することができる。
 また、認識部14は、デモザイク処理が実行された画像データから被写体を認識する。これにより、イメージセンサ1は、DNNを使用して被写体を認識する場合に、DNNの入力チャンネル数を低減することによって、処理負荷を低減することができる。
 また、認識部14は、デモザイク処理が実行されない画像データから被写体を認識する。これにより、イメージセンサ1は、DNNを使用して被写体を認識する場合に、処理量が増すが、高感度画像、中感度画像、低感度画像、IR画像の画像データから高精度に被写体を認識することができる。
 また、認識部14は、撮像部10から入力される画像データから被写体を認識する。これにより、イメージセンサ1は、DNNを使用して被写体を認識する場合に、処理量が増すが、信号処理を行わない分、イメージセンサ1全体としての処理量が大幅に低減することができる。
 また、赤外光を受光する撮像画素は、ToF(Time of Flight)センサである。これにより、イメージセンサ1は、被写体の認識に加えて、被写体までの距離を測定することができる。
 また、画像認識方法は、可視光を受光する撮像画素と、赤外光を受光する撮像画素とを使用し、1フレーム期間に複数の画像を同一露光タイミングで撮像して画像データを生成し、画像データのそれぞれから被写体を認識する。かかる画像認識方法によれば、アーチファクトの影響を排除することで、被写体の認識精度を向上させることができる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 可視光を受光する撮像画素と、赤外光を受光する撮像画素とを使用し、1フレーム期間に複数の画像を同一露光タイミングで撮像して画像データを生成する撮像部と、
 前記画像データのそれぞれから被写体を認識する認識部と
 を有する画像認識装置。
(2)
 前記撮像部は、
 受光面積が同一であり露光時間が異なる複数の前記撮像画素と、赤外光を受光する撮像画素とが2次元に配列された画素アレイ
 を有する前記(1)に記載の画像認識装置。
(3)
 前記画素アレイは、
 前記可視光を受光する長時間露光撮像画素、中時間露光撮像画素、および短時間露光撮像画素
 を有する前記(2)に記載の画像認識装置。
(4)
 前記画素アレイは、
 各画素が露光時間の異なる2個の光電変換素子によって構成される
 前記(2)に記載の画像認識装置。
(5)
 前記画素アレイは、
 各画素が2個の撮像素子によって構成され、
 各前記撮像素子は、
 露光時間の異なる2個の光電変換素子を備える
 前記(2)に記載の画像認識装置。
(6)
 前記認識部は、
 前記被写体を認識した場合に、前記被写体の認識結果および前記画像データを後段の装置へ出力し、前記被写体を認識しない場合に、その旨を示す情報を後段の装置へ出力する
 前記(1)~(5)のいずれか一つに記載の画像認識装置。
(7)
 前記認識部は、
 バッテリの残量が所定残量以上である場合に、前記被写体の認識結果および前記画像データを後段の装置へ出力し、前記所定残量未満の場合に、前記後段の装置へ前記画像データを出力することなく前記被写体の認識結果を出力する
 前記(6)に記載の画像認識装置。
(8)
 前記認識部は、
 デモザイク処理が実行された前記画像データから前記被写体を認識する
 前記(1)~(7)のいずれか一つに記載の画像認識装置。
(9)
 前記認識部は、
 デモザイク処理が実行されない前記画像データから前記被写体を認識する
 前記(1)~(8)のいずれか一つに記載の画像認識装置。
(10)
 前記認識部は、
 前記撮像部から入力される前記画像データから前記被写体を認識する
 前記(1)~(8)のいずれか一つに記載の画像認識装置。
(11)
 前記赤外光を受光する撮像画素は、
 ToF(Time of Flight)センサである
 前記(1)~(10)のいずれか一つに記載の画像認識装置。
(12)
 可視光を受光する撮像画素と、赤外光を受光する撮像画素とを使用し、1フレーム期間に複数の画像を同一露光タイミングで撮像して画像データを生成し、
 前記画像データのそれぞれから被写体を認識する
 画像認識方法。
 100 画像認識システム
 1 イメージセンサ
 10 撮像部
 A1、A2、A3、A4 画素アレイ
 12 A/D変換部
 13 信号処理部
 14 認識部
 15 データ送信判断部
 16 SEL
 17 送信部
 2 AP
 21 受信部
 22 認証部
 23 認証用データ記憶部
 31 物体認識部
 32 物体認識用データ記憶部

Claims (12)

  1.  可視光を受光する撮像画素と、赤外光を受光する撮像画素とを使用し、1フレーム期間に複数の画像を同一露光タイミングで撮像して画像データを生成する撮像部と、
     前記画像データのそれぞれから被写体を認識する認識部と
     を有する画像認識装置。
  2.  前記撮像部は、
     受光面積が同一であり露光時間が異なる複数の前記撮像画素と、赤外光を受光する撮像画素とが2次元に配列された画素アレイ
     を有する請求項1に記載の画像認識装置。
  3.  前記画素アレイは、
     前記可視光を受光する長時間露光撮像画素、中時間露光撮像画素、および短時間露光撮像画素
     を有する請求項2に記載の画像認識装置。
  4.  前記画素アレイは、
     各画素が露光時間の異なる2個の撮像素子によって構成される
     請求項2に記載の画像認識装置。
  5.  前記画素アレイは、
     各画素が2個の撮像素子によって構成され、
     各前記撮像素子は、
     露光時間の異なる2個の光電変換素子を備える
     請求項2に記載の画像認識装置。
  6.  前記認識部は、
     前記被写体を認識した場合に、前記被写体の認識結果および前記画像データを後段の装置へ出力し、前記被写体を認識しない場合に、その旨を示す情報を後段の装置へ出力する
     請求項1に記載の画像認識装置。
  7.  前記認識部は、
     バッテリの残量が所定残量以上である場合に、前記被写体の認識結果および前記画像データを後段の装置へ出力し、前記所定残量未満の場合に、前記後段の装置へ前記画像データを出力することなく前記被写体の認識結果を出力する
     請求項6に記載の画像認識装置。
  8.  前記認識部は、
     デモザイク処理が実行された前記画像データから前記被写体を認識する
     請求項1に記載の画像認識装置。
  9.  前記認識部は、
     デモザイク処理が実行されない前記画像データから前記被写体を認識する
     請求項1に記載の画像認識装置。
  10.  前記認識部は、
     前記撮像部から入力される前記画像データから前記被写体を認識する
     請求項1に記載の画像認識装置。
  11.  前記赤外光を受光する撮像画素は、
     ToF(Time of Flight)センサである
     請求項1に記載の画像認識装置。
  12.  可視光を受光する撮像画素と、赤外光を受光する撮像画素とを使用し、1フレーム期間に複数の画像を同一露光タイミングで撮像して画像データを生成し、
     前記画像データのそれぞれから被写体を認識する
     画像認識方法。
PCT/JP2020/019587 2019-05-30 2020-05-18 画像認識装置および画像認識方法 WO2020241336A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202080038430.6A CN113875217A (zh) 2019-05-30 2020-05-18 图像识别装置和图像识别方法
US17/603,138 US20220201183A1 (en) 2019-05-30 2020-05-18 Image recognition device and image recognition method
KR1020217037346A KR20220016056A (ko) 2019-05-30 2020-05-18 화상 인식 장치 및 화상 인식 방법
DE112020002567.5T DE112020002567T5 (de) 2019-05-30 2020-05-18 Bilderkennungsvorrichtung und bilderkennungsverfahren

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-101728 2019-05-30
JP2019101728A JP2020198470A (ja) 2019-05-30 2019-05-30 画像認識装置および画像認識方法

Publications (1)

Publication Number Publication Date
WO2020241336A1 true WO2020241336A1 (ja) 2020-12-03

Family

ID=73552920

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/019587 WO2020241336A1 (ja) 2019-05-30 2020-05-18 画像認識装置および画像認識方法

Country Status (6)

Country Link
US (1) US20220201183A1 (ja)
JP (1) JP2020198470A (ja)
KR (1) KR20220016056A (ja)
CN (1) CN113875217A (ja)
DE (1) DE112020002567T5 (ja)
WO (1) WO2020241336A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023082303A (ja) * 2021-12-02 2023-06-14 財団法人車輌研究測試中心 車室内監視・状況理解感知方法及びそのシステム
WO2023166859A1 (ja) * 2022-03-01 2023-09-07 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置、情報処理システム及びファクトリーオートメーションシステム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022086456A (ja) 2020-11-30 2022-06-09 日本光電工業株式会社 癌細胞捕集用多孔質体
WO2023140026A1 (ja) * 2022-01-18 2023-07-27 ソニーセミコンダクタソリューションズ株式会社 情報処理装置
JP7444958B1 (ja) 2022-12-12 2024-03-06 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、及び制御方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285198A (ja) * 1999-03-31 2000-10-13 Omron Corp 画像認識システムおよび情報採取システム
JP2012105225A (ja) * 2010-11-12 2012-05-31 Sony Corp 画像処理装置、撮像装置、および画像処理方法、並びにプログラム
JP2015220716A (ja) * 2014-05-21 2015-12-07 キヤノン株式会社 撮像素子、その制御方法、および制御プログラム、並びに信号処理装置
JP2016033694A (ja) * 2014-07-30 2016-03-10 東芝テック株式会社 物体認識装置及び物体認識プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7065645B2 (en) * 2003-01-20 2006-06-20 Mordechai Teicher System, method, and apparatus for visual authentication
JP5436281B2 (ja) * 2010-03-16 2014-03-05 富士フイルム株式会社 放射線撮影システム、コンソール、放射線撮影用カセッテ、及びプログラム
JP2012226513A (ja) * 2011-04-19 2012-11-15 Honda Elesys Co Ltd 検知装置、及び検知方法
JP2014103643A (ja) 2012-11-22 2014-06-05 Canon Inc 撮像装置及び被写体認識方法
KR102086509B1 (ko) * 2012-11-23 2020-03-09 엘지전자 주식회사 3차원 영상 획득 방법 및 장치
JP2015041890A (ja) * 2013-08-22 2015-03-02 ソニー株式会社 制御装置、制御方法、および電子機器
KR20150118213A (ko) * 2014-04-11 2015-10-22 에스케이하이닉스 주식회사 이미지 센싱 장치
US10033947B2 (en) * 2015-11-04 2018-07-24 Semiconductor Components Industries, Llc Multi-port image pixels
JP2018092610A (ja) * 2016-11-28 2018-06-14 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
US20180164156A1 (en) * 2016-12-12 2018-06-14 Microsoft Technology Licensing, Llc Hybrid Sensor with Enhanced Infrared Detection Capabilities
US10916036B2 (en) * 2018-12-28 2021-02-09 Intel Corporation Method and system of generating multi-exposure camera statistics for image processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285198A (ja) * 1999-03-31 2000-10-13 Omron Corp 画像認識システムおよび情報採取システム
JP2012105225A (ja) * 2010-11-12 2012-05-31 Sony Corp 画像処理装置、撮像装置、および画像処理方法、並びにプログラム
JP2015220716A (ja) * 2014-05-21 2015-12-07 キヤノン株式会社 撮像素子、その制御方法、および制御プログラム、並びに信号処理装置
JP2016033694A (ja) * 2014-07-30 2016-03-10 東芝テック株式会社 物体認識装置及び物体認識プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023082303A (ja) * 2021-12-02 2023-06-14 財団法人車輌研究測試中心 車室内監視・状況理解感知方法及びそのシステム
JP7351889B2 (ja) 2021-12-02 2023-09-27 財団法人車輌研究測試中心 車室内監視・状況理解感知方法及びそのシステム
WO2023166859A1 (ja) * 2022-03-01 2023-09-07 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置、情報処理システム及びファクトリーオートメーションシステム

Also Published As

Publication number Publication date
CN113875217A (zh) 2021-12-31
DE112020002567T5 (de) 2022-04-21
KR20220016056A (ko) 2022-02-08
JP2020198470A (ja) 2020-12-10
US20220201183A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
WO2020241336A1 (ja) 画像認識装置および画像認識方法
WO2020230636A1 (ja) 画像認識装置および画像認識方法
WO2020230660A1 (ja) 画像認識装置、固体撮像装置、および画像認識方法
WO2017175492A1 (ja) 画像処理装置、画像処理方法、コンピュータプログラム及び電子機器
WO2021060118A1 (ja) 撮像装置
US20210297589A1 (en) Imaging device and method of controlling imaging device
WO2021241360A1 (ja) 検出装置、検出システム及び検出方法
US20220276379A1 (en) Device, measuring device, distance measuring system, and method
WO2020230635A1 (ja) 撮像装置および撮像方法
US10873732B2 (en) Imaging device, imaging system, and method of controlling imaging device
JPWO2020149094A1 (ja) 撮像装置、撮像システムおよび故障検出方法
US20240205551A1 (en) Signal processing device and method, and program
CN113661700B (zh) 成像装置与成像方法
WO2021192459A1 (ja) 撮像装置
US20220268890A1 (en) Measuring device and distance measuring device
US11483499B2 (en) Imaging apparatus for addition of pixels on the basis of a temperature of an imaging array
WO2022004441A1 (ja) 測距装置および測距方法
US20200099852A1 (en) Solid-state imaging device, driving method, and electronic apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20814865

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20814865

Country of ref document: EP

Kind code of ref document: A1