WO2020230636A1 - 画像認識装置および画像認識方法 - Google Patents

画像認識装置および画像認識方法 Download PDF

Info

Publication number
WO2020230636A1
WO2020230636A1 PCT/JP2020/018198 JP2020018198W WO2020230636A1 WO 2020230636 A1 WO2020230636 A1 WO 2020230636A1 JP 2020018198 W JP2020018198 W JP 2020018198W WO 2020230636 A1 WO2020230636 A1 WO 2020230636A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
subject
recognition
unit
image data
Prior art date
Application number
PCT/JP2020/018198
Other languages
English (en)
French (fr)
Inventor
和幸 奥池
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Priority to CN202080034146.1A priority Critical patent/CN113826105A/zh
Priority to US17/608,254 priority patent/US11710291B2/en
Priority to DE112020002319.2T priority patent/DE112020002319T5/de
Priority to KR1020217035917A priority patent/KR20220006520A/ko
Publication of WO2020230636A1 publication Critical patent/WO2020230636A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/88Image or video recognition using optical means, e.g. reference filters, holographic masks, frequency domain filters or spatial domain filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/45Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from two or more image sensors being of different type or operating in different modes, e.g. with a CMOS sensor for moving images in combination with a charge-coupled device [CCD] for still images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/54Mounting of pick-up tubes, electronic image sensors, deviation or focusing coils
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/73Circuitry for compensating brightness variation in the scene by influencing the exposure time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/741Circuitry for compensating brightness variation in the scene by increasing the dynamic range of the image compared to the dynamic range of the electronic image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/40Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled
    • H04N25/42Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled by switching between different modes of operation using different resolutions or aspect ratios, e.g. switching between interlaced and non-interlaced mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/50Control of the SSIS exposure
    • H04N25/53Control of the integration time
    • H04N25/533Control of the integration time by using differing integration times for different sensor regions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/50Control of the SSIS exposure
    • H04N25/57Control of the dynamic range
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/50Control of the SSIS exposure
    • H04N25/57Control of the dynamic range
    • H04N25/58Control of the dynamic range involving two or more exposures
    • H04N25/581Control of the dynamic range involving two or more exposures acquired simultaneously
    • H04N25/583Control of the dynamic range involving two or more exposures acquired simultaneously with different integration times
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/50Control of the SSIS exposure
    • H04N25/57Control of the dynamic range
    • H04N25/58Control of the dynamic range involving two or more exposures
    • H04N25/581Control of the dynamic range involving two or more exposures acquired simultaneously
    • H04N25/585Control of the dynamic range involving two or more exposures acquired simultaneously with pixels having different sensitivities within the sensor, e.g. fast or slow pixels or pixels having different sizes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/50Control of the SSIS exposure
    • H04N25/57Control of the dynamic range
    • H04N25/58Control of the dynamic range involving two or more exposures
    • H04N25/587Control of the dynamic range involving two or more exposures acquired sequentially, e.g. using the combination of odd and even image fields
    • H04N25/589Control of the dynamic range involving two or more exposures acquired sequentially, e.g. using the combination of odd and even image fields with different integration times, e.g. short and long exposures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10141Special mode during image acquisition
    • G06T2207/10144Varying exposure

Definitions

  • the present disclosure relates to an image recognition device and an image recognition method.
  • an imaging device that recognizes a subject from an HDR image, including an HDR imaging mode that generates an HDR (High Dynamic Range) image by capturing and synthesizing a plurality of images with different sensitivities in one frame period (for example, Patent Documents). 1).
  • an HDR imaging mode that generates an HDR (High Dynamic Range) image by capturing and synthesizing a plurality of images with different sensitivities in one frame period
  • the present disclosure proposes an image recognition device and an image recognition method capable of improving the recognition accuracy of a subject.
  • the image recognition device has an imaging unit and a recognition unit.
  • the imaging unit uses imaging pixels having different sensitivities to image a plurality of images at the same exposure start timing in one frame period to generate image data.
  • the recognition unit recognizes the subject from each of the image data.
  • FIG. 1A is an explanatory diagram showing a pixel array according to the first embodiment of the present disclosure.
  • high-sensitivity imaging pixels and low-sensitivity imaging pixels are alternately arranged two-dimensionally in two rows.
  • the image pickup pixel R that receives red light, the image pickup pixels Gr and Gb that receive green light, and the image pickup pixel B that receives blue light are arranged in a bayer.
  • signals corresponding to the amount of light received output from the imaging pixels R, Gr, Gb, and B may be described as signals R, Gr, Gb, B and pixel signals R, Gr, Gb, B.
  • the image pickup pixel Gr is an image pickup pixel provided in a row in which the image pickup pixel R is arranged and receives green light.
  • the image pickup pixel Gb is an image pickup pixel that is provided in a row in which the image pickup pixel B is arranged and receives green light.
  • the high-sensitivity imaging pixel and the low-sensitivity imaging pixel all have the same light-receiving area, and exposure is started at the same time, but the exposure times are different.
  • the high-sensitivity image pickup pixel here is an image pickup pixel having a longer exposure time than usual, and a sufficient amount of received light can be obtained even when the surroundings are dark.
  • the high-sensitivity imaging pixel can capture a high-sensitivity image in which the image of the subject is clearly captured even if the subject has too low brightness and is blacked out in a normal exposure time.
  • the low-sensitivity imaging pixels here are imaging pixels having a shorter exposure time than usual, and do not saturate even when the surroundings are bright.
  • the low-sensitivity imaging pixel can capture a low-sensitivity image in which the image of the subject is clearly captured even if the subject has too high brightness and is overexposed under a normal exposure time.
  • the HDR image is generated by HDR combining the high-sensitivity image and the low-sensitivity image described above. Therefore, the HDR image is an image in which the images of all the subjects from the dark subject to the bright subject are clearly captured.
  • imaging pixels having the same light receiving area were made to function as high-sensitivity imaging pixels or low-sensitivity imaging pixels by different exposure times, but this is an example.
  • the pixel array A1 causes each imaging pixel to function as a high-sensitivity imaging pixel or a low-sensitivity imaging pixel even if the exposure time is the same by making the light transmittance of the color filter laminated on each imaging pixel different. be able to.
  • the image pickup pixel on which the color filter having high light transmittance is laminated becomes the high sensitivity image pickup pixel
  • the image pickup pixel on which the color filter having low light transmittance is laminated becomes the low sensitivity image pickup pixel. Since a high-sensitivity image and a low-sensitivity image can be simultaneously captured by such a pixel array A1, it is possible to capture an HDR image by HDR-combining both images.
  • the pixel array A1 can be provided with intermediate degree imaging pixels by adjusting the translucency of the color filter laminated on the imaging pixels.
  • FIG. 1B is an explanatory diagram showing another pixel array according to the first embodiment of the present disclosure.
  • the pixel array A2 is arranged at the four corners of the bayer-arranged image pickup pixels R, Gr, Gb, B having a wide light receiving area and the image pickup pixels R, Gr, Gb, B having a large light receiving area.
  • the image pickup pixels R, Gr, Gb, and B having a narrow light receiving area are provided.
  • the arrangement of the imaging pixels R, Gr, Gb, and B having a narrow light receiving area is the same as that of the Bayer arrangement.
  • the light receiving amount of the imaging pixels R, Gr, Gb, B having a wide light receiving area is the same as that of the imaging pixels R, Gr, Gb, B having a narrow light receiving area. It will be more than the amount of light received.
  • the imaging pixels R, Gr, Gb, and B having a large light receiving area are high-sensitivity imaging pixels, and the imaging pixels R, Gr, Gb, and B having a narrow light receiving area are low-sensitivity imaging pixels. Since a high-sensitivity image and a low-sensitivity image can be captured by such a pixel array A2, it is possible to capture HDR by combining both images by HDR.
  • DNN Deep Neural Network
  • DNN is a multi-layered algorithm modeled on a human brain neural network (neural network) designed by machine learning to recognize the characteristics (patterns) of a subject from image data.
  • FIG. 2A is an explanatory diagram showing an example of using a general DNN.
  • R, G, B image data of the HDR image
  • FIG. 2A when recognizing a subject from an HDR image, as shown in FIG. 2A, when signals R, G, B (image data of the HDR image) of each pixel in the HDR image after HDR composition are input to the DNN, the subject is displayed from the DNN. The recognition result of is output.
  • FIG. 2B is an explanatory diagram showing an example of using DNN according to the first embodiment of the present disclosure.
  • the high-sensitivity signals R, Gr, Gb, B (image data of the high-sensitivity image) output from the high-sensitivity imaging pixel and the low-sensitivity output from the low-sensitivity imaging pixel.
  • the signals R, Gr, Gb, and B (image data of a low-sensitivity image) are input to the DNN.
  • the DNN outputs the recognition result of the subject recognized from the high-sensitivity image and the recognition result of the subject recognized from the low-sensitivity image.
  • the DNN recognizes the subject from the high-sensitivity image and the low-sensitivity image that do not include the artifact, it is possible to output a highly accurate recognition result of the subject without being affected by the artifact.
  • the image recognition method uses imaging pixels having different sensitivities, images a plurality of images at the same exposure start timing in one frame period, generates image data, and generates image data from each of the image data. Since the subject is recognized, the recognition accuracy of the subject can be improved.
  • FIG. 3 is a diagram showing a configuration example of an image recognition system according to the first embodiment of the present disclosure.
  • the image recognition system 100 according to the first embodiment includes an image sensor 1 which is an example of an image recognition device, and an application processor (hereinafter referred to as AP2).
  • AP2 application processor
  • the image sensor 1 includes an imaging unit 10, a signal processing unit 13, a recognition unit 14, a data transmission determination unit 15, a selector (hereinafter referred to as SEL16), and a transmission unit 17.
  • the image pickup unit 10 includes an image pickup element 11 and an A / D (Analog / Digital) conversion unit 12.
  • the image sensor 11 includes, for example, the pixel array A2 shown in FIG. 1B.
  • the image sensor 11 may be a pixel array A1 having imaging pixels having the same light receiving area and different exposure times shown in FIG. 1A, and the light transmission of the color filters laminated with the same light receiving area and the exposure time. It may be a pixel array including imaging pixels having different characteristics.
  • an image pickup pixel having a large light receiving area included in the pixel array A2 may be referred to as a large pixel, and an image pickup pixel having a narrow light receiving area may be referred to as a small pixel.
  • the image sensor 11 exposes large pixels and small pixels at the same exposure start timing and the same exposure time, and simultaneously captures a high-sensitivity image and a low-sensitivity image.
  • the image sensor 11 outputs an analog pixel signal according to the amount of received light from each large pixel and small pixel to the A / D conversion unit 12.
  • the A / D conversion unit 12 A / D converts the analog pixel signal input from the image sensor 11 into a digital pixel signal to generate image data of a high-sensitivity image and image data of a low-sensitivity image, and signals. Output to the processing unit 13.
  • the signal processing unit 13 includes a microcomputer having a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and various circuits.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the signal processing unit 13 executes predetermined signal processing on the image data of the high-sensitivity image and the image data of the low-sensitivity image input from the A / D conversion unit 12, respectively, and performs high sensitivity after the signal processing.
  • the image data of the image and the image data of the low-sensitivity image are output to the recognition unit 14 and the SEL 16.
  • FIG. 4 is an explanatory diagram of processing executed by the signal processing unit according to the first embodiment of the present disclosure. As shown in FIG. 4, the signal processing unit 13 first performs shading correction on the input image data, and then performs color mixing correction.
  • the signal processing unit 13 adjusts the digital gain of the image data, and then adjusts the white balance gain. After that, the signal processing unit 13 performs demosaic on the image data, finally performs gamma correction, and outputs the image data after the gamma correction.
  • demosaic the color of each pixel of the high-sensitivity image and the low-sensitivity image is complemented by the color of the surrounding pixels. Therefore, the image data of the high-sensitivity image and the low-sensitivity image before demosaic are four types of pixel signals R, Gr, Gb, and B, but the image data after demosaic is three types of pixel signals R, G,. It becomes B.
  • the recognition unit 14 includes a microcomputer having a CPU, ROM, RAM, and various circuits.
  • the recognition unit 14 has an object recognition unit 31 that functions by executing an object recognition program stored in the ROM by the CPU using the RAM as a work area, and an object recognition data storage unit 32 provided in the RAM or the ROM. And.
  • a plurality of DNNs are stored in the object recognition data storage unit 32.
  • the object recognition data storage unit 32 stores a DNN that recognizes an object from image data of a high-sensitivity image and a DNN that recognizes an object from image data of a low-sensitivity image.
  • the object recognition data storage unit 32 stores DNNs for each type of object to be recognized.
  • the object recognition unit 31 reads the DNN corresponding to the type of the set recognition target from the object recognition data storage unit 32, inputs the image data to the DNN, and outputs the recognition result of the subject output from the DNN to the data transmission determination unit. Output to 15, and output the recognition result metadata to SEL16.
  • 5A and 5B are explanatory views of the processing executed by the recognition unit according to the first embodiment of the present disclosure.
  • the recognition unit 14 first normalizes the size and input value of the input image data according to the size and input value for DNN, and inputs the normalized image data to the DNN. Perform object recognition. Then, the recognition unit 14 outputs the recognition result of the subject output from the DNN to the data transmission determination unit 15, and outputs the metadata of the recognition result to the SEL 16.
  • the recognition unit 14 inputs the large pixel pixel signals R, G, B and the small pixel pixel signals R, G, B to the DNN.
  • the recognition unit 14 can improve the recognition accuracy of the subject by recognizing the subject from each of the high-sensitivity image and the low-sensitivity image without artifacts.
  • the data transmission determination unit 15 outputs a control signal to the SEL 16 for switching the data to be output from the SEL 16 according to the recognition result input from the recognition unit 14.
  • the data transmission determination unit 15 outputs a control signal to the SEL 16 to output the image data and the metadata indicating the recognition result to the transmission unit 17.
  • the data transmission determination unit 15 outputs a control signal to the SEL 16 to output information (no data) indicating that fact to the transmission unit 17.
  • the SEL 16 outputs either a set of image data and metadata or no data to the transmission unit 17 according to the control signal input from the data transmission determination unit 15.
  • the transmission unit 17 is a communication I / F (interface) that performs data communication with the AP2, and transmits either a set of image data and metadata input from the SEL16 or no data to the AP2.
  • the AP2 includes a microcomputer having a CPU, ROM, RAM, etc. that executes various application programs according to the application of the image recognition system 100, and various circuits.
  • the AP2 includes a receiving unit 21, an authentication unit 22, and an authentication data storage unit 23.
  • the authentication data storage unit 23 stores an authentication program for authenticating the subject recognized by the image sensor 1, an authentication image data, and the like.
  • the receiving unit 21 is a communication I / F that performs data communication with the image sensor 1.
  • the receiving unit 21 receives either a set of image data and metadata or no data from the image sensor 1 and outputs it to the authentication unit 22.
  • the authentication unit 22 is not activated when no data is input from the receiving unit 21, but is activated when a set of image data and metadata is input.
  • the authentication program is read from the authentication data storage unit 23 and executed to authenticate the subject recognized by the image sensor 1.
  • the authentication unit 22 collates the image data with the image data for authentication of the person and identifies who the recognized person is. Perform processing, etc.
  • the authentication unit 22 recognizes the person by identifying the person based on the image data of the high-sensitivity image and the low-sensitivity image which are not affected by the artifact recognized by the image sensor 1 as the subject with high accuracy. It is possible to accurately identify who was the victim.
  • the above-mentioned first embodiment is an example, and various modifications are possible. Next, a modified example according to the first embodiment will be described.
  • FIG. 6 is an explanatory diagram showing a modified example of the processing executed by the signal processing unit according to the first embodiment of the present disclosure.
  • FIG. 7 is an explanatory diagram showing a modified example of the use example of DNN according to the first embodiment of the present disclosure.
  • the signal processing unit performs shading correction, color mixing correction, digital gain adjustment, white balance gain adjustment, and gamma correction on the input image data, and after signal processing,
  • the image data is output to the recognition unit 14 and the SEL 16.
  • the signal processing unit can omit demosaic from the signal processing shown in FIG.
  • the recognition unit 14 recognizes the subject from the image data on which the demosaic is not executed.
  • the image data of the high-sensitivity image and the low-sensitivity image in which demosaication is not executed are four types of pixel signals R, Gr, Gb, and B.
  • the recognition unit 14 inputs the large pixel pixel signals R, Gr, Gb, B and the small pixel pixel signals R, Gr, Gb, B to the DNN.
  • the recognition unit 14 increases the processing amount because the number of input channels of the DNN increases, but since the image data of the high-sensitivity image and the low-sensitivity image are individually input to the DNN, it is affected by the artifact. It is possible to recognize the subject with high accuracy.
  • the signal processing unit itself can be omitted.
  • the recognition unit 14 inputs the large pixel pixel signals R, Gr, Gb, B and the small pixel pixel signals R, Gr, Gb, B to the DNN.
  • the processing amount is increased, the processing amount of the image sensor 1 as a whole is significantly reduced because the signal processing is not performed.
  • the data transmission determination unit 15 outputs the recognition result metadata and the image data to the SEL 16 each time when the subject is recognized, but the data transmission determination unit 15 outputs the recognition result metadata and the image data to the SEL 16 depending on the remaining battery level. You may select the data to be output.
  • the data transmission determination unit 15 when the subject is recognized by the recognition unit 14, the data transmission determination unit 15 outputs metadata and image data from the SEL 16 in the normal mode in which the remaining battery power is sufficient. Further, the data transmission determination unit 15 outputs only the metadata from the SEL 16 in the low power consumption mode in which the remaining battery level is insufficient. As a result, the data transmission determination unit 15 can suppress the power consumption of the image sensor 1 to a low level when the remaining battery level is insufficient.
  • FIG. 8 is an explanatory diagram showing a modified example of the image recognition system according to the first embodiment of the present disclosure.
  • the image sensor 1 recognizes the subject from the high-sensitivity image and the low-sensitivity image, but in the image recognition system 100a according to the modified example, the high-sensitivity image and the low-sensitivity image are transferred from the image sensor 1a to the AP2a. Is transmitted, and the subject is recognized by AP2.
  • the image sensor 1a of the image recognition system 100a captures a high-sensitivity image and a low-sensitivity image, and has large pixel pixel signals R, Gr, Gb, and B. , Small pixel pixel signals R, Gr, Gb, B are transmitted to AP2a.
  • the AP2a of the image recognition system 100a includes a DNN, and the large pixel pixel signals R, Gr, Gb, B received from the image sensor 1a and the small pixel pixel signals R, Gr, Gb, B are sent to the DNN. input.
  • AP2a can recognize the subject with high accuracy from the high-sensitivity image and the low-sensitivity image without being affected by the artifact.
  • the image sensor 1 includes a pixel array A1 having the same light receiving area of the imaging pixels shown in FIG. 1A but different exposure times, and the imaging pixels having a long exposure time are the long-exposure pixels and the imaging pixels having a short exposure time. Pixels will be referred to as short-exposure pixels.
  • FIG. 9 is an explanatory diagram showing a first operation example of the image sensor according to the first embodiment of the present disclosure.
  • FIG. 10 is a flowchart showing a first specific example of the process executed by the image sensor 1 according to the first embodiment of the present disclosure.
  • the image sensor 1 first captures a full-size image D1 in which a person P is captured, and binning the full-size image D1 to reduce the resolution to, for example, a quarter of the first DNN input.
  • Image D2 is generated.
  • the image sensor 1 recognizes the person P from the first DNN input image D2
  • the image sensor 1 cuts out the part of the person P from the full-size image D1 without binning to generate the second DNN input image D3.
  • the image sensor 1 first generates the image data of the first DNN input image D2 in the sensor setting 1 (step S101).
  • the sensor setting 1 is low AD bit (ex. 4 Bit), Binning (ex. H4 V4), uses only long-exposure pixels, cuts out (without ex.), And low FPS (ex. 1 fps). ..
  • the image sensor 1 uses only long-exposure pixels, captures the full-size image D1 at a frame rate of 1 fps, and converts the pixel signal of the full-size image D1 into analog-digital conversion with 4 bits. After that, the image sensor 1 reduces the resolution of the full-size image D1 to a quarter by binning, and generates the first DNN input image D2 without cutting out the image.
  • the image sensor 1 inputs the image data of the first DNN input image D2 into the DNN and executes the first DNN (step S102). At this time, the image sensor 1 detects a person or an object with low accuracy. After that, the image sensor 1 determines whether or not a person or an object has been detected (step S103).
  • step S103 determines that it does not detect a person or an object
  • step S102 determines that a person or an object has been detected
  • step S104 shifts the process to step S104.
  • step S104 the image sensor 1 generates the image data of the second DNN input image D3 in the sensor setting 2.
  • the sensor setting 2 is high AD bit (ex. 10 bit), binning (ex. None), long / short exposure pixel use, cutout (ex. Near the subject), and high FPS (ex. 30 fps). And.
  • the image sensor 1 uses the long-exposure pixels and the short-exposure pixels, images the full-size image D1 at a frame rate of 30 fps, and converts the pixel signal of the full-size image D1 into analog-digital conversion at 10 bits. After that, the image sensor 1 cuts out a portion near the subject from the full-size image D1 without lowering the resolution of the full-size image D1 to generate a second DNN input image D3.
  • the image sensor 1 inputs the image data of the second DNN input image D3 into the DNN and executes the second DNN (step S105). At this time, the image sensor 1 performs human authentication or object discrimination with high accuracy. After that, the image sensor 1 determines whether or not a person or an object to be recognized has been detected (step S106).
  • step S106 determines that it does not detect a person or an object
  • step S101 determines that a person or an object has been detected
  • step S107 the image sensor 1 notifies AP2 of AP activation
  • step S107 ends the process.
  • the image sensor 1 outputs image data and a subject detection (recognition) result to the AP2 by, for example, a communication method compliant with the MIPI (Mobile Industry Processor Interface) standard.
  • MIPI Mobile Industry Processor Interface
  • the image sensor 1 includes the pixel array A1 having the same light receiving area of the imaging pixels shown in FIG. 1A but different exposure times, and the imaging pixels having a long exposure time are the long-exposure pixels and the imaging pixels having a short exposure time. Pixels will be referred to as short-exposure pixels.
  • FIG. 11 is an explanatory diagram showing a second operation example of the image sensor according to the first embodiment of the present disclosure.
  • FIG. 12 is a flowchart showing a second specific example of the process executed by the image sensor 1 according to the first embodiment of the present disclosure.
  • FIG. 13 is an explanatory diagram of the action and effect of the image sensor according to the first embodiment of the present disclosure according to the second operation example.
  • the image sensor 1 first captures a full-size image D4 in which the vehicle in front C and the traffic light S are captured, and inputs the first DNN to the full-size image D4 without degrading the resolution due to binning.
  • Image D5 is generated.
  • the image sensor 1 recognizes the traffic light S from the first DNN input image D5
  • the image sensor 1 cuts out the portion of the traffic light S from the full-size image D4 and generates the second DNN input image D6.
  • the image sensor 1 recognizes the vehicle C ahead from the first DNN input image D5
  • the image sensor 1 cuts out a portion of the vehicle ahead from the full-size image D4 to generate the third DNN input image D7.
  • the image sensor 1 first generates the image data of the first DNN input image D5 in the sensor setting 1 (step S201).
  • the sensor setting 1 is AD bit (ex. 10 Bit), Binning (ex. None), long / short exposure pixel use, cutout (ex. No), and high FPS (ex. 30 fps). ..
  • the image sensor 1 uses the long-exposure pixels and the short-exposure pixels, images the full-size image D4 at a frame rate of 30 fps, and converts the pixel signal of the full-size image D4 into analog-digital conversion at 10 bits. Then, the image sensor 1 generates the first DNN input image D5 without lowering the resolution of the full-size image D4 and without performing image cropping.
  • the image sensor 1 inputs the image data of the first DNN input image D5 into the DNN and executes the first DNN (step S202). At this time, the image sensor 1 detects the object with high accuracy. After that, the image sensor 1 determines whether or not an object has been detected (step S203).
  • step S203 determines that the object is not detected (steps S203, No).
  • step S203 determines that the object has been detected (steps S203, Yes).
  • the image sensor 1 selects an appropriate setting from the detection results.
  • the image sensor 1 when the image sensor 1 detects (recognizes) the traffic light S, the image sensor 1 generates the image data of the second DNN input image D6 in the sensor setting 2 (step S204).
  • the sensor setting 2 is low AD bit (ex. 8 bit), binning (ex. None), long-exposure pixel use, cutout (ex. Near the subject), and high FPS (ex. 60 fps). ..
  • the image sensor 1 uses long-exposure pixels, images the full-size image D4 at a frame rate of 60 fps, and converts the pixel signal of the full-size image D4 into analog-digital conversion with 8 bits. After that, the image sensor 1 cuts out a portion near the subject (traffic light S) from the full-size image D4 without lowering the resolution of the full-size image D4, and generates image data of the second DNN input image D6.
  • the image sensor 1 inputs the image data of the second DNN input image D6 into the DNN and executes the second DNN (step S205). At this time, the image sensor 1 performs signal recognition and tracking with high accuracy. After that, the image sensor 1 shifts the process to step S208.
  • the image sensor 1 detects (recognizes) the vehicle C in front, the image sensor 1 generates the image data of the third DNN input image D7 in the sensor setting 3 (step S206).
  • the sensor setting 3 has low AD bit (ex. 8 bit), binning (without ex.), Use of short exposure pixels, cutout (ex. Near the subject), and high FPS (ex. 60 fps). ..
  • the image sensor 1 uses short-exposure pixels, images the full-size image D4 at a frame rate of 60 fps, and converts the pixel signal of the full-size image D4 into analog-digital conversion with 8 bits. After that, the image sensor 1 cuts out a portion near the subject (front vehicle C) from the full-size image D4 without lowering the resolution of the full-size image D4, and generates image data of the third DNN input image D7.
  • the image sensor 1 inputs the image data of the third DNN input image D7 into the DNN and executes the third DNN (step S207). At this time, the image sensor 1 performs forward vehicle recognition and tracking with high accuracy. After that, the image sensor 1 shifts the process to step S208.
  • step S208 the image sensor 1 determines whether or not the traffic light S or the vehicle in front C to be recognized has been detected. Then, when the image sensor 1 determines that the traffic light S or the vehicle in front C is not detected (steps S208, No), the process proceeds to step S201.
  • the image sensor 1 determines that the traffic light S or the vehicle C in front is detected (step S208, Yes)
  • the image sensor 1 notifies AP2 of ADAS (Advanced Driver Assistance System) (step S209), and ends the process.
  • the image sensor 1 outputs the image data and the detection (recognition) result of the subject to the AP2 by, for example, a communication method compliant with the MIPI standard.
  • the image sensor 1 does not need to output the image data and the subject detection (recognition) result to the AP2 every time the subject is recognized.
  • the image sensor 1 can output image data and a subject detection (recognition) result to the AP2 only when requested by the AP2.
  • the image sensor 1 can recognize the state of the traffic light S and the position of the vehicle C in front with high accuracy.
  • the traffic light S that employs an LED causes flicker that repeatedly turns on and off in a minute time cycle.
  • the image sensor 1 when the image sensor 1 captures the traffic light S with the short-time exposure pixels, the traffic light S in the captured image may be turned off. Therefore, the image sensor 1 needs to be exposed at least 10 ms or more in order to prevent erroneous recognition of the subject due to flicker. On the other hand, in the case of a subject that does not cause flicker, such as a vehicle in front, the image sensor 1 needs to shorten the exposure time in order to suppress blurring of the subject.
  • the image sensor 1 executes the second DNN for signal recognition for the image data captured by the long-exposure pixels, and the third DNN for front vehicle recognition for the image captured by the short-time exposure pixels. To execute.
  • the image sensor 1 can recognize the state of the traffic light S with high accuracy without being affected by the flicker, and can recognize the position of the vehicle C in front with high accuracy by suppressing blurring of the subject. it can.
  • the image recognition system according to the second embodiment is different from the first embodiment in the configuration of the pixel array included in the image sensor and the processing executed by the image sensor, and the other configurations are the same as those in the first embodiment. is there. Therefore, the points different from the first embodiment will be described below.
  • FIG. 14 is an explanatory diagram showing a pixel array according to the second embodiment of the present disclosure.
  • the pixel array A3 shown in FIG. 14 has an image pickup pixel R including four pixels L, M, M, and S that receive red light, and an image pickup that includes four pixels L, M, M, and S that receive green light.
  • Imaging pixels B including pixels Gr, Gb, and four pixels L, M, M, and S that receive blue light are Bayer-arranged.
  • Pixels L, M, M, and S all have the same light receiving area, but the exposure times are different.
  • Pixel L is a long-exposure pixel.
  • the pixel M is a medium-time exposure pixel.
  • the pixel S is a short-time exposure pixel.
  • Such a pixel array A3 usually functions as a very high resolution pixel array by outputting a pixel signal from each pixel. Further, the pixel array A3 functions as a pixel array capable of moving a subject even in a dark place by binning two pixels into one pixel when the surroundings become dark.
  • the image sensor according to the second embodiment captures a long-exposure image, a medium-time exposure image, and a short-time exposure image by the pixel array A3. Then, the image sensor recognizes the subject from each of the long-exposure image, the medium-time exposure image, and the short-time exposure image.
  • FIG. 15 is an explanatory diagram showing an example of using DNN according to the second embodiment of the present disclosure.
  • FIG. 16 is an explanatory diagram showing another usage example of DNN according to the second embodiment of the present disclosure.
  • the image sensor according to the second embodiment has the same configuration as the image sensor 1 shown in FIG.
  • the image sensor includes pixel signals R, G, B for long exposure after demosaic, pixel signals R, G, B for medium time exposure, and pixel signals R for short exposure.
  • G, B are input to DNN.
  • the DNN outputs the recognition result in which the subject is recognized from each of the long-exposure image, the medium-time exposure image, and the short-time exposure image.
  • the image sensor can recognize high-brightness, medium-brightness, and low-brightness subjects with high accuracy from each of the long-exposure image, the medium-time exposure image, and the short-time exposure image without artifacts.
  • the demosaic can be omitted and the signal processing by the signal processing unit 13 can be omitted as in the first embodiment.
  • the image sensor has short exposure pixel signals R, Gr, Gb, B without demosaic and medium time exposure pixel signals R, Gr, Gb, B.
  • the time-exposed pixel signals R, Gr, Bb, and B are input to the DNN.
  • the number of input channels of the DNN increases, so that the amount of processing increases.
  • the image data of the long-exposure image, the medium-time exposure image, and the short-time exposure image are individually input to the DNN, the influence of the artifact. The subject can be recognized with high accuracy without being exposed.
  • FIG. 17 is a flowchart showing a specific example of the process executed by the image sensor according to the second embodiment of the present disclosure.
  • the image sensor according to the second embodiment generates image data of a full-size image D4, a first DNN input image D5, a second DNN input image D6, and a third DNN input image D7 similar to each image shown in FIG. ,
  • the contents of the sensor settings 1, 2, and 3 are different from those of the first embodiment.
  • the image sensor first generates the image data of the first DNN input image D5 in the sensor setting 1 (step S301).
  • the sensor setting 1 is AD bit (ex. 10 Bit), Binning (ex. None), long / medium / short exposure pixel use, cutout (ex. None), and high FPS (ex. 30 fps). And.
  • the image sensor uses long-exposure pixels, medium-time exposure pixels, and short-time exposure pixels to capture a full-size image D4 at a frame rate of 30 fps, and analogizes the pixel signal of the full-size image D4 with 10 bits. Digitally convert. Then, the image sensor generates the first DNN input image D5 without lowering the resolution of the full-size image D4 and without performing image cropping.
  • the image sensor inputs the image data of the first DNN input image D5 into the DNN and executes the first DNN (step S302). At this time, the image sensor detects the object with high accuracy. After that, the image sensor determines whether or not the object has been detected (step S303).
  • step S303 determines that the object is not detected (step S303, No).
  • step S302 determines that the object has been detected (step S303, Yes).
  • the image sensor selects an appropriate setting from the detection results.
  • the image sensor detects (recognizes) the traffic light S, it generates the image data of the second DNN input image D6 in the sensor setting 2 (step S304).
  • the sensor setting 2 is low AD bit (ex. 8 bit), binning (ex. None), medium time exposure pixel use, cutout (ex. Near subject), and high FPS (ex. 60 fps). ..
  • the image sensor uses medium-time exposure pixels, images the full-size image D4 at a frame rate of 60 fps, and converts the pixel signal of the full-size image D4 into analog-digital conversion with 8 bits. After that, the image sensor cuts out a portion near the subject (traffic light S) from the full-size image D4 without lowering the resolution of the full-size image D4, and generates image data of the second DNN input image D6.
  • the image sensor inputs the image data of the second DNN input image D6 into the DNN and executes the second DNN (step S305). At this time, the image sensor performs signal recognition and tracking with high accuracy. After that, the image sensor shifts the process to step S308.
  • the image sensor detects (recognizes) the vehicle C in front
  • the image sensor generates the image data of the third DNN input image D7 in the sensor setting 3 (step S306).
  • the sensor setting 3 has low AD bit (ex. 8 bit), binning (without ex.), Use of short exposure pixels, cutout (ex. Near the subject), and high FPS (ex. 60 fps). ..
  • the image sensor uses short-exposure pixels, images the full-size image D4 at a frame rate of 60 fps, and converts the pixel signal of the full-size image D4 into analog-digital conversion at 8 bits. After that, the image sensor cuts out a portion near the subject (front vehicle C) from the full-size image D4 without lowering the resolution of the full-size image D4, and generates image data of the third DNN input image D7.
  • the image sensor inputs the image data of the third DNN input image D7 into the DNN and executes the third DNN (step S307). At this time, the image sensor performs front vehicle recognition and tracking with high accuracy. After that, the image sensor shifts the process to step S308.
  • step S308 the image sensor determines whether or not the traffic light S or the vehicle in front C to be recognized has been detected. Then, when the image sensor determines that the traffic light S or the vehicle in front C is not detected (steps S308, No), the process proceeds to step S301.
  • step S308 If the image sensor determines that the traffic light S or the vehicle in front C has been detected (steps S308, Yes), it notifies AP2 of ADAS (step S309) and ends the process.
  • the image sensor 1 does not need to output the image data and the subject detection (recognition) result to the AP2 every time the subject is recognized.
  • the image sensor 1 can output image data and a subject detection (recognition) result to the AP2 only when requested by the AP2.
  • the image sensor according to the second embodiment executes the second DNN for signal recognition for the image data captured by the medium-time exposure pixels, and the second DNN for front vehicle recognition for the image captured by the short-time exposure pixels. Execute 3DNN.
  • the image sensor can recognize the state of the traffic light S with high accuracy without being affected by the flicker, and can recognize the position of the vehicle C in front with high accuracy by suppressing blurring of the subject. ..
  • FIG. 18 is an explanatory diagram showing an operation example of an image sensor that employs another pixel array according to the second embodiment of the present disclosure.
  • the pixel array A4 shown in the upper right of FIG. 18 can also be adopted.
  • the pixel array A4 includes an image pickup pixel R having four pixels M, M, M, S that receive red light, and an image pickup pixel Gr, Gb having four pixels M, M, M, S that receive green light.
  • Imaging pixels B including four pixels M, M, M, S that receive blue light are Bayer-arranged. Pixels M, M, M, and S all have the same light receiving area, but have different exposure times.
  • the pixel M is a medium-time exposure pixel.
  • the pixel S is a short-time exposure pixel.
  • the image sensor independently performs shutter control and pixel signal reading control for each of the pixels M, M, M, and S of the pixel array A3.
  • the image sensor requires a long exposure of 10 ms or more in order to accurately recognize the state of the traffic light causing flicker.
  • the pixels may be saturated.
  • the image sensor exposes, for example, three medium-time exposure pixels M, M, and M in a time series of 3.3 ms for medium-time, as shown in FIG. As a result, the three medium-time exposure pixels M, M, and M are not saturated. At this time, the image sensor simultaneously exposes the short-time exposure pixel S for a short time.
  • the image sensor executes the second DNN for signal recognition for each image data of the medium-time exposure image, and executes the third DNN for front vehicle recognition for the image data of the short-time exposure image.
  • the image sensor can recognize the state of the traffic light with high accuracy without being affected by flicker, and can recognize the position of the vehicle in front with high accuracy by suppressing blurring of the subject.
  • FIG. 19 is an explanatory diagram of another operation example of the image sensor according to the second embodiment.
  • the image sensor includes the pixel array A3 shown in FIG.
  • a color filter having a low light absorbance is provided on the long-exposure pixel L of the pixel array A3 shown in FIG. 19, and a color filter having a medium light absorbance is provided on the medium-time exposure pixel M for a short time.
  • a color filter having a high light transmittance is provided on the exposed pixel S.
  • the image sensor exposes the long-exposure pixel L for a long time to generate image data of a low-sensitivity image, and the image data of the low-sensitivity image is a second DNN for signal recognition.
  • the long-exposure pixel L is laminated with a color filter having a low light transmittance, it does not saturate even if it is exposed for a long time. As a result, the image sensor can recognize the state of the traffic light with high accuracy without being affected by the flicker.
  • the image sensor generates a medium-sensitivity image by exposing the medium-time exposure image M to a medium-time exposure, and generates a high-sensitivity image by short-exposure the short-time exposure pixel S to generate a high-sensitivity image.
  • the third DNN for recognizing the vehicle ahead is executed for each of the image data. As a result, the image sensor can recognize the position of the vehicle in front with high accuracy by suppressing blurring of the subject.
  • the technology according to the present disclosure can be applied to various products.
  • the technology according to the present disclosure is realized as a device mounted on a moving body of any kind such as an automobile, an electric vehicle, a hybrid electric vehicle, a motorcycle, a bicycle, a personal mobility, an airplane, a drone, a ship, and a robot. You may.
  • FIG. 20 is a block diagram showing a schematic configuration example of a vehicle control system, which is an example of a mobile control system to which the technology according to the present disclosure can be applied.
  • the vehicle control system 12000 includes a plurality of electronic control units connected via the communication network 12001.
  • the vehicle control system 12000 includes a drive system control unit 12010, a body system control unit 12020, an outside information detection unit 12030, an in-vehicle information detection unit 12040, and an integrated control unit 12050.
  • a microcomputer 12051, an audio image output unit 12052, and an in-vehicle network I / F (interface) 12053 are shown as a functional configuration of the integrated control unit 12050.
  • the drive system control unit 12010 controls the operation of the device related to the drive system of the vehicle according to various programs.
  • the drive system control unit 12010 provides a driving force generator for generating a driving force of a vehicle such as an internal combustion engine or a driving motor, a driving force transmission mechanism for transmitting the driving force to the wheels, and a steering angle of the vehicle. It functions as a control device such as a steering mechanism for adjusting and a braking device for generating a braking force of a vehicle.
  • the body system control unit 12020 controls the operation of various devices mounted on the vehicle body according to various programs.
  • the body system control unit 12020 functions as a keyless entry system, a smart key system, a power window device, or a control device for various lamps such as headlamps, back lamps, brake lamps, blinkers or fog lamps.
  • the body system control unit 12020 may be input with radio waves transmitted from a portable device that substitutes for the key or signals of various switches.
  • the body system control unit 12020 receives inputs of these radio waves or signals and controls a vehicle door lock device, a power window device, a lamp, and the like.
  • the vehicle outside information detection unit 12030 detects information outside the vehicle equipped with the vehicle control system 12000.
  • the image pickup unit 12031 is connected to the vehicle exterior information detection unit 12030.
  • the vehicle outside information detection unit 12030 causes the image pickup unit 12031 to capture an image of the outside of the vehicle and receives the captured image.
  • the vehicle exterior information detection unit 12030 may perform object detection processing or distance detection processing such as a person, a vehicle, an obstacle, a sign, or characters on the road surface based on the received image.
  • the image pickup unit 12031 is an optical sensor that receives light and outputs an electric signal according to the amount of the light received.
  • the imaging unit 12031 can output an electric signal as an image or can output it as distance measurement information. Further, the light received by the imaging unit 12031 may be visible light or invisible light such as infrared light.
  • the in-vehicle information detection unit 12040 detects the in-vehicle information.
  • a driver state detection unit 12041 that detects the driver's state is connected to the in-vehicle information detection unit 12040.
  • the driver state detection unit 12041 includes, for example, a camera that images the driver, and the in-vehicle information detection unit 12040 determines the degree of fatigue or concentration of the driver based on the detection information input from the driver state detection unit 12041. It may be calculated, or it may be determined whether the driver is dozing.
  • the microcomputer 12051 calculates the control target value of the driving force generator, the steering mechanism, or the braking device based on the information inside and outside the vehicle acquired by the vehicle exterior information detection unit 12030 or the vehicle interior information detection unit 12040, and the drive system control unit.
  • a control command can be output to 12010.
  • the microcomputer 12051 realizes ADAS (Advanced Driver Assistance System) functions including vehicle collision avoidance or impact mitigation, follow-up driving based on inter-vehicle distance, vehicle speed maintenance driving, vehicle collision warning, vehicle lane deviation warning, and the like. It is possible to perform cooperative control for the purpose of.
  • ADAS Advanced Driver Assistance System
  • the microcomputer 12051 controls the driving force generating device, the steering mechanism, the braking device, and the like based on the information around the vehicle acquired by the outside information detection unit 12030 or the inside information detection unit 12040, so that the driver can control the driver. It is possible to perform coordinated control for the purpose of automatic driving that runs autonomously without depending on the operation.
  • the microcomputer 12051 can output a control command to the body system control unit 12020 based on the information outside the vehicle acquired by the vehicle exterior information detection unit 12030.
  • the microcomputer 12051 controls the headlamps according to the position of the preceding vehicle or the oncoming vehicle detected by the external information detection unit 12030, and performs coordinated control for the purpose of antiglare such as switching the high beam to the low beam. It can be carried out.
  • the audio image output unit 12052 transmits the output signal of at least one of the audio and the image to the output device capable of visually or audibly notifying the passenger or the outside of the vehicle of the information.
  • an audio speaker 12061, a display unit 12062, and an instrument panel 12063 are exemplified as output devices.
  • the display unit 12062 may include, for example, at least one of an onboard display and a heads-up display.
  • FIG. 21 is a diagram showing an example of the installation position of the imaging unit 12031.
  • the vehicle 12100 has image pickup units 12101, 12102, 12103, 12104, 12105 as the image pickup unit 12031.
  • the imaging units 12101, 12102, 12103, 12104, 12105 are provided at positions such as the front nose, side mirrors, rear bumpers, back doors, and the upper part of the windshield in the vehicle interior of the vehicle 12100, for example.
  • the imaging unit 12101 provided on the front nose and the imaging unit 12105 provided on the upper part of the windshield in the vehicle interior mainly acquire an image in front of the vehicle 12100.
  • the imaging units 12102 and 12103 provided in the side mirrors mainly acquire images of the side of the vehicle 12100.
  • the imaging unit 12104 provided on the rear bumper or the back door mainly acquires an image of the rear of the vehicle 12100.
  • the images in front acquired by the imaging units 12101 and 12105 are mainly used for detecting a preceding vehicle or a pedestrian, an obstacle, a traffic light, a traffic sign, a lane, or the like.
  • FIG. 21 shows an example of the photographing range of the imaging units 12101 to 12104.
  • the imaging range 12111 indicates the imaging range of the imaging unit 12101 provided on the front nose
  • the imaging ranges 12112 and 12113 indicate the imaging ranges of the imaging units 12102 and 12103 provided on the side mirrors, respectively
  • the imaging range 12114 is The imaging range of the imaging unit 12104 provided on the rear bumper or the back door is shown. For example, by superimposing the image data captured by the imaging units 12101 to 12104, a bird's-eye view image of the vehicle 12100 as viewed from above can be obtained.
  • At least one of the imaging units 12101 to 12104 may have a function of acquiring distance information.
  • at least one of the image pickup units 12101 to 12104 may be a stereo camera composed of a plurality of image pickup elements, or may be an image pickup element having pixels for phase difference detection.
  • the microcomputer 12051 has a distance to each three-dimensional object within the imaging range 12111 to 12114 based on the distance information obtained from the imaging units 12101 to 12104, and a temporal change of this distance (relative velocity with respect to the vehicle 12100). By obtaining it can. Further, the microcomputer 12051 can set an inter-vehicle distance to be secured in front of the preceding vehicle in advance, and can perform automatic braking control (including follow-up stop control), automatic acceleration control (including follow-up start control), and the like. In this way, it is possible to perform coordinated control for the purpose of automatic driving or the like in which the vehicle travels autonomously without depending on the operation of the driver.
  • automatic braking control including follow-up stop control
  • automatic acceleration control including follow-up start control
  • the microcomputer 12051 converts three-dimensional object data related to a three-dimensional object into two-wheeled vehicles, ordinary vehicles, large vehicles, pedestrians, electric poles, and other three-dimensional objects based on the distance information obtained from the imaging units 12101 to 12104. It can be classified and extracted and used for automatic avoidance of obstacles. For example, the microcomputer 12051 distinguishes obstacles around the vehicle 12100 into obstacles that can be seen by the driver of the vehicle 12100 and obstacles that are difficult to see. Then, the microcomputer 12051 determines the collision risk indicating the risk of collision with each obstacle, and when the collision risk is equal to or higher than the set value and there is a possibility of collision, the microcomputer 12051 via the audio speaker 12061 or the display unit 12062. By outputting an alarm to the driver and performing forced deceleration and avoidance steering via the drive system control unit 12010, driving support for collision avoidance can be provided.
  • At least one of the imaging units 12101 to 12104 may be an infrared camera that detects infrared rays.
  • the microcomputer 12051 can recognize a pedestrian by determining whether or not a pedestrian is present in the captured image of the imaging units 12101 to 12104.
  • pedestrian recognition includes, for example, a procedure for extracting feature points in an image captured by an imaging unit 12101 to 12104 as an infrared camera, and pattern matching processing for a series of feature points indicating the outline of an object to determine whether or not the pedestrian is a pedestrian. It is done by the procedure to determine.
  • the audio image output unit 12052 When the microcomputer 12051 determines that a pedestrian is present in the captured images of the imaging units 12101 to 12104 and recognizes the pedestrian, the audio image output unit 12052 outputs a square contour line for emphasizing the recognized pedestrian.
  • the display unit 12062 is controlled so as to superimpose and display. Further, the audio image output unit 12052 may control the display unit 12062 so as to display an icon or the like indicating a pedestrian at a desired position.
  • the above is an example of a vehicle control system to which the technology according to the present disclosure can be applied.
  • the technique according to the present disclosure can be applied to, for example, the vehicle exterior information detection unit 12030, the imaging unit 12031, the vehicle interior information detection unit 12040, the driver state detection unit 12041, and the like among the configurations described above.
  • the image sensor 1 of FIG. 3 can be applied to the imaging unit 12031.
  • the image sensor 1 which is an example of the image recognition device, has an image pickup unit 10 and a recognition unit 14.
  • the imaging unit 10 uses imaging pixels having different sensitivities to image a plurality of images at the same exposure start timing in one frame period to generate image data.
  • the recognition unit 14 recognizes the subject from each of the image data. As a result, the image sensor 1 can improve the recognition accuracy of the subject by eliminating the influence of the artifact.
  • the imaging unit 10 has a pixel array in which a plurality of imaging pixels having the same light receiving area but different exposure times are arranged in two dimensions. As a result, the image sensor 1 can recognize the subject with high accuracy from the long-exposure image and the short-exposure image.
  • the imaging unit 10 has a pixel array in which a plurality of imaging pixels having the same light receiving area and different light transmittances of the stacked color filters are arranged in two dimensions.
  • the image sensor 1 can recognize the subject with high accuracy from the high-sensitivity image and the low-sensitivity image.
  • the imaging unit 10 has a pixel array in which a plurality of imaging pixels having different light receiving areas are arranged two-dimensionally. As a result, the image sensor 1 can recognize the subject with high accuracy from the pixel signal of the large pixel and the pixel signal of the small pixel.
  • the imaging unit 10 has a pixel array in which long-exposure imaging pixels, medium-time exposure imaging pixels, and short-exposure imaging pixels are arranged in two dimensions.
  • the image sensor 1 can recognize the subject with high accuracy from the long-exposure image, the medium-time exposure image, and the short-time exposure image.
  • the imaging unit 10 has a pixel array in which low-sensitivity imaging pixels, medium-sensitivity imaging pixels, and high-sensitivity imaging pixels are arranged in two dimensions.
  • the image sensor 1 can recognize the subject with high accuracy from the high-sensitivity image, the intermediate-degree image, and the low-sensitivity image.
  • the recognition unit 14 when the recognition unit 14 recognizes the subject, the recognition result and the image data of the subject are output to the subsequent device, and when the subject is not recognized, the recognition unit 14 outputs information indicating that fact to the subsequent device. As a result, the image sensor 1 can reduce the power consumption when it does not recognize the subject.
  • the recognition unit 14 recognizes the subject from the image data on which the demosaic processing has been executed.
  • the image sensor 1 can recognize the subject with high accuracy while reducing the processing load by reducing the number of input channels of the DNN, for example.
  • the recognition unit 14 recognizes the subject from the image data on which the demosaic processing is not executed.
  • the image sensor 1 can recognize the subject with high accuracy, for example, although the number of input channels of the DNN increases.
  • the recognition unit recognizes the subject from the image data input from the imaging unit.
  • the image sensor 1 can omit signal processing, so that the subject can be recognized with high accuracy while significantly reducing the processing load.
  • the image pickup unit 10 uses low-sensitivity image pickup pixels before the subject is detected by the recognition unit 14, and generates image data of the entire image captured at a low resolution and a low frame rate.
  • the imaging unit 10 uses high-sensitivity imaging pixels to generate image data obtained by cutting out the subject from the image captured at high resolution and high frame rate.
  • the recognition unit 14 recognizes whether or not the subject exists in the image data before detecting the subject, and recognizes what the subject is after detecting the subject. As a result, the image sensor can reduce the processing load and power consumption required to detect the subject.
  • the image pickup unit 10 uses low-sensitivity image pickup pixels and high-sensitivity image pickup pixels before the subject is detected by the recognition unit 14, and image data of the entire image captured at high resolution and high frame rate. To generate.
  • the image pickup unit 10 uses low-sensitivity image pickup pixels, and when the subject is a vehicle, the image pickup unit 10 uses high-sensitivity image pickup pixels to achieve high resolution and Image data obtained by cutting out a subject from an image captured at a high frame rate is generated.
  • the recognition unit 14 performs a process of recognizing the subject from the image data, and after recognizing the subject, performs a recognition process according to the subject based on the image data.
  • the image sensor can accurately recognize the state of the traffic light in which flicker occurs, and can also accurately recognize the position of the vehicle in front.
  • the imaging unit 10 uses a long-exposure image pickup pixel, a medium-time exposure image pickup pixel, and a short-time exposure image pickup pixel before the subject is detected by the recognition unit 14, and has a high resolution and a high frame rate. Generates image data of the entire captured image.
  • the imaging unit 10 uses medium-time exposure imaging pixels when the subject detected by the recognition unit 14 is a traffic light, and uses short-exposure imaging pixels when the subject is a vehicle to achieve high resolution. Image data obtained by cutting out a subject from an image captured at a high frame rate is generated.
  • the recognition unit 14 performs a process of recognizing the subject from the image data, and after recognizing the subject, performs a recognition process according to the subject based on the image data.
  • the image sensor can accurately recognize the state of the traffic light in which flicker occurs, and can also accurately recognize the position of the vehicle in front.
  • imaging pixels having different sensitivities are used, and a plurality of images are imaged at the same exposure start timing in one frame period to generate image data, and the subject is recognized from each of the image data.
  • the recognition accuracy of the subject can be improved by eliminating the influence of the artifact.
  • the present technology can also have the following configurations.
  • An imaging unit that uses imaging pixels with different sensitivities and captures multiple images at the same exposure start timing in one frame period to generate image data.
  • An image recognition device having a recognition unit that recognizes a subject from each of the image data.
  • the imaging unit The image recognition device according to (1) above, which has a pixel array in which a plurality of the imaging pixels having the same light receiving area and different exposure times are arranged in two dimensions.
  • the imaging unit The image recognition device according to (1) above, which has a pixel array in which a plurality of the imaging pixels having different light receiving areas are arranged two-dimensionally.
  • the imaging unit The image recognition device according to (1) above, which has a pixel array in which long-exposure imaging pixels, medium-time exposure imaging pixels, and short-exposure imaging pixels are arranged in two dimensions.
  • the imaging unit The image recognition device according to (1) above, which has a low-sensitivity image pickup pixel, a medium-sensitivity image pickup pixel, and a pixel array in which high-sensitivity image pickup pixels are arranged two-dimensionally.
  • the recognition unit When the subject is recognized, the recognition result of the subject and the image data are output to the subsequent device, and when the subject is not recognized, information indicating that fact is output to the subsequent device (1) to The image recognition device according to any one of (6).
  • the recognition unit The image recognition device according to any one of (1) to (6), which recognizes the subject from the image data on which demosaic processing has been executed.
  • the recognition unit The image recognition device according to any one of (1) to (6) above, which recognizes the subject from the image data on which demosaic processing is not executed.
  • the recognition unit The image recognition device according to any one of (1) to (6), which recognizes the subject from the image data input from the image pickup unit.
  • the imaging unit Before the subject is detected by the recognition unit, the low-sensitivity imaging pixels are used to generate image data of the entire image captured at low resolution and low frame rate. After the subject is detected by the recognition unit, the high-sensitivity imaging pixels are used to generate image data obtained by cutting out the subject from an image captured at a high resolution and a high frame rate.
  • the recognition unit Before detecting the subject, it recognizes whether or not the subject exists in the image data, and after detecting the subject, recognizes what the subject is in the above (1) to (10).
  • the image recognition device according to any one.
  • the imaging unit Before the subject is detected by the recognition unit, the low-sensitivity image pickup pixel and the high-sensitivity image pickup pixel are used to generate image data of the entire image captured at high resolution and high frame rate.
  • the recognition unit Before detecting the subject, a process of recognizing the subject from the image data is performed, and after recognizing the subject, a recognition process according to the subject is performed based on the image data (1) to The image recognition device according to any one of (10). (13) The imaging unit Before the subject is detected by the recognition unit, an image captured at a high resolution and a high frame rate by using the long exposure imaging pixel, the medium time exposure imaging pixel, and the short exposure imaging pixel.
  • the medium-time exposure imaging pixel is used, and when the subject is a vehicle, the short-time exposure imaging pixel is used to achieve high resolution and high resolution.
  • Image data obtained by cutting out the subject from the image captured at the frame rate is generated.
  • the recognition unit Before detecting the subject, a process of recognizing the subject from the image data is performed, and after recognizing the subject, a recognition process according to the subject is performed based on the image data in (5).
  • Image recognition system 100 Image recognition system 1 Image sensor 10 Image sensor 11 Image sensor 12 A / D conversion unit 13 Signal processing unit 14 Recognition unit 15 Data transmission judgment unit 16 SEL 17 Transmitter 2 AP 21 Receiver 22 Authentication unit 23 Authentication data storage unit 31 Object recognition unit 32 Object recognition data storage unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Vascular Medicine (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Studio Devices (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Transforming Light Signals Into Electric Signals (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本開示に係る画像認識装置(画像認識システム100)は、撮像部(10)と、認識部(14)とを有する。撮像部(10)は、感度が異なる撮像画素を使用し、1フレーム期間に複数の画像を同一の露光開始タイミングで撮像して画像データを生成する。認識部(14)は、画像データのそれぞれから被写体を認識する。撮像部(10)は、露光時間、カラーフィルタの透光率、または受光面積が異なる複数の撮像画素が2次元に配列された画素アレイを有する。

Description

画像認識装置および画像認識方法
 本開示は、画像認識装置および画像認識方法に関する。
 1フレーム期間に感度が異なる複数の画像を撮像して合成することによりHDR(High Dynamic Range)画像を生成するHDR撮像モードを備え、HDR画像から被写体を認識する撮像装置がある(例えば、特許文献1参照)。
特開2014-103643号公報
 しかしながら、上記の従来技術では、被写体の認識精度が低下することがある。そこで、本開示では、被写体の認識精度を向上させることができる画像認識装置および画像認識方法を提案する。
 本開示に係る画像認識装置は、撮像部と、認識部とを有する。撮像部は、感度が異なる撮像画素を使用し、1フレーム期間に複数の画像を同一の露光開始タイミングで撮像して画像データを生成する。認識部は、前記画像データのそれぞれから被写体を認識する。
本開示の第1の実施形態に係る画素アレイを示す説明図である。 本開示の第1の実施形態に係る他の画素アレイを示す説明図である。 一般的なDNNの使用例を示す説明図である。 本開示の第1の実施形態に係るDNNの使用例を示す説明図である。 本開示の第1の実施形態に係る画像認識システムの構成例を示す図である。 本開示の第1の実施形態に係る信号処理部が実行する処理の説明図である。 本開示の第1の実施形態に係る認識部が実行する処理の説明図である。 本開示の第1の実施形態に係る認識部が実行する処理の説明図である。 本開示の第1の実施形態に係る信号処理部が実行する処理の第1変形例を示す説明図である。 本開示の第1の実施形態に係るDNNの使用例の変形例を示す説明図である。 本開示の第1の実施形態に係る画像認識システムの変形例を示す説明図である。 本開示の第1の実施形態に係るイメージセンサの第1動作例を示す説明図である。 本開示の第1の実施形態に係るイメージセンサが実行する処理の第1具体例を示すフローチャートである。 本開示の第1の実施形態に係るイメージセンサの第2動作例を示す説明図である。 本開示の第1の実施形態に係るイメージセンサが実行する処理の第2具体例を示すフローチャートである。 本開示の第1の実施形態に係るイメージセンサの第2動作例による作用効果の説明図である。 本開示の第2の実施形態に係る画素アレイを示す説明図である。 本開示の第2の実施形態に係るDNNの使用例を示す説明図である。 本開示の第2の実施形態に係るDNNの他の使用例を示す説明図である。 本開示の第2の実施形態に係るイメージセンサが実行する処理の具体例を示すフローチャートである。 本開示の第2の実施形態に係る他の画素アレイを採用したイメージセンサの動作例を示す説明図である。 第2の実施形態に係るイメージセンサの他の動作例の説明図である。 車両制御システムの概略的な構成の一例を示すブロック図である。 車外情報検出部及び撮像部の設置位置の一例を示す説明図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
(1.第1の実施形態)
[1-1.第1の実施形態に係る画像認識方法の概要]
 まず、本開示に係る画像認識方法の概要について説明する。本開示に係る画像認識方法では、感度が異なる撮像画素を使用し、1フレーム期間に複数の画像を同一の露光開始タイミングで撮像して画像データを生成し、画像データのそれぞれから被写体を認識する。
 複数の画像の撮像には、HDR(High Dynamic Range)画像の撮像に使用される画素アレイを使用する。図1Aは、本開示の第1の実施形態に係る画素アレイを示す説明図である。例えば、図1Aに示すように、HDR画像の撮像に使用される画素アレイA1は、高感度撮像画素と、低感度撮像画素とが2列ずつ交互に2次元配列されている。
 高感度撮像画素および低感度撮像画素が配置される領域には、それぞれ赤色光を受光する撮像画素R、緑色光を受光する撮像画素Gr、Gb、青色光を受光する撮像画素Bがベイヤ配列されている。なお、以下では、撮像画素R、Gr、Gb、Bから出力される受光量に応じた信号を信号R、Gr、Gb、Bや画素信号R、Gr、Gb、Bと記載する場合がある。
 なお、撮像画素Grは、撮像画素Rが配置される列に設けられて緑色光を受光する撮像画素である。撮像画素Gbは、撮像画素Bが配置される列に設けられて緑色光を受光する撮像画素である。高感度撮像画素および低感度撮像画素は、受光面積が全て同一であり、同時に露光が開始されるが、露光時間が異なる。
 ここでの高感度撮像画素は、通常よりも露光時間が長い撮像画素であり、周囲が暗い場合であっても十分な受光量を得ることができる。これにより、高感度撮像画素は、輝度が低すぎて通常の露光時間では黒つぶれするような被写体であっても、被写体の像がきれいに写った高感度画像を撮像することができる。
 また、ここでの低感度撮像画素は、通常よりも露光時間が短い撮像画素であり、周囲が明るい場合であっても飽和することがない。これにより、低感度撮像画素は、輝度が高すぎて通常の露光時間では白つぶれするような被写体であっても、被写体の像がきれいに写った低感度画像を撮像することができる。
 HDR画像は、上記した高感度画像と低感度画像とをHDR合成することによって生成される。このため、HDR画像は、暗い被写体から明るい被写体まで全ての被写体の像がきれいに写った画像となる。
 なお、図1Aに示す画素アレイA1では、露光時間を異ならせることで、受光面積が同一の撮像画素を高感度撮像画素または低感度撮像画素として機能させたが、これは一例である。例えば、画素アレイA1は、各撮像画素に積層されるカラーフィルタの透光率を異ならせることで、露光時間を同一にしても、各撮像画素を高感度撮像画素または低感度撮像画素として機能させることができる。
 この場合、画素アレイA1では、透光率の高いカラーフィルタが積層される撮像画素が高感度撮像画素となり、透光率の低いカラーフィルタが積層される撮像画素が低感度撮像画素となる。かかる画素アレイA1によっても、同時に高感度画像および低感度画像を撮像することができるので、両画像をHDR合成することにより、HDR画像を撮像することが可能である。なお、画素アレイA1は、撮像画素に積層するカラーフィルタの透光性を調整することによって、中間度撮像画素を設けることも可能である。
 また、撮像画素の受光面積を異ならせることで、カラーフィルタの透光性および露光時間が同一の撮像画素を高感度撮像画素または低感度撮像画素として機能させることもできる。図1Bは、本開示の第1の実施形態に係る他の画素アレイを示す説明図である。
 図1Bに示すように、画素アレイA2は、ベイヤ配列された受光面積が広い撮像画素R,Gr、Gb、Bと、受光面積が広い各撮像画素R,Gr、Gb、Bの四隅に配置された受光面積が狭い撮像画素R,Gr、Gb、Bとを備える。受光面積が狭い撮像画素R,Gr、Gb、Bのそれぞれの配置は、ベイヤ配列と同じ配置になっている。
 画素アレイA2では、カラーフィルタの透光性および露光時間が同一の場合、受光面積が広い撮像画素R,Gr、Gb、Bの受光量が、受光面積が狭い撮像画素R,Gr、Gb、Bの受光量よりも多くなる。
 このため、受光面積の広い撮像画素R,Gr、Gb、Bが高感度撮像画素となり、受光面積の狭い撮像画素R,Gr、Gb、Bが低感度撮像画素となる。かかる画素アレイA2によっても、高感度画像および低感度画像を撮像することができるので、両画像をHDR合成することによりHDRを撮像することが可能である。
 ここで、画像データから被写体を認識する方法の一例として、DNN(Deep Neural Network)を用いる画像認識方法がある。DNNは、画像データから被写体の特徴(パターン)を認識するように機械学習によって設計された人間の脳神経回路(ニューラルネットワーク)をモデルとした多階層構造のアルゴリズムである。
 図2Aは、一般的なDNNの使用例を示す説明図である。例えば、HDR画像から被写体を認識する場合、図2Aに示すように、HDR合成後のHDR画像における各画素の信号R、G、B(HDR画像の画像データ)をDNNへ入力すると、DNNから被写体の認識結果が出力される。
 しかしながら、HDR画像には、HDR合成が行われたことで、実際には存在しないアーチファクトが写り込むことがある。このため、HDR画像における各画素の信号R、G、BをDNNへ入力すると、アーチファクトの弊害によって、DNNによる被写体の認識精度が低下することがある。
 そこで、本開示では、HDR合成前の高感度画像および低感度画像のそれぞれから被写体を認識することで、アーチファクトの影響を排除し、被写体の認識精度を向上させる。図2Bは、本開示の第1の実施形態に係るDNNの使用例を示す説明図である。
 図2Bに示すように、本開示では、例えば、高感度撮像画素から出力される高感度信号R、Gr、Gb、B(高感度画像の画像データ)および低感度撮像画素から出力される低感度信号R、Gr、Gb、B(低感度画像の画像データ)をDNNへ入力する。
 これにより、DNNは、高感度画像から認識した被写体の認識結果と、低感度画像から認識した被写体の認識結果とを出力する。このとき、DNNは、アーチファクトを含まない高感度画像および低感度画像から被写体を認識するので、アーチファクトの影響を受けることなく高精度な被写体の認識結果を出力することができる。
 このように、本開示に係る画像認識方法は、感度が異なる撮像画素を使用し、1フレーム期間に複数の画像を同一の露光開始タイミングで撮像して画像データを生成し、画像データのそれぞれから被写体を認識するので被写体の認識精度を向上させることができる。
[1-2.第1の実施形態に係る画像認識システムの構成]
 次に、図3を参照し、第1の実施形態に係る画像認識システムの構成について説明する。図3は、本開示の第1の実施形態に係る画像認識システムの構成例を示す図である。図3に示すように、第1の実施形態に係る画像認識システム100は、画像認識装置の一例であるイメージセンサ1と、アプリケーションプロセッサ(以下、AP2と記載する)とを有する。
 イメージセンサ1は、撮像部10と、信号処理部13と、認識部14と、データ送信判断部15と、セレクタ(以下、SEL16と記載する)と、送信部17とを備える。撮像部10は、撮像素子11と、A/D(Analog/Digital)変換部12とを備える。
 撮像素子11は、例えば、図1Bに示す画素アレイA2を備える。なお、撮像素子11は、図1Aに示した受光面積が同一で露光時間が異なる撮像画素を備える画素アレイA1であってもよく、受光面積および露光時間が同一で積層されるカラーフィルタの透光性が異なる撮像画素を備える画素アレイであってもよい。
 以下では、画素アレイA2が備える受光面積が広い撮像画素を大画素、受光面積が狭い撮像画素を小画素と称する場合がある。撮像素子11は、同一の露光開始タイミングおよび同一の露光時間で大画素と小画素とを露光して、高感度画像および低感度画像を同時に撮像する。
 そして、撮像素子11は、各大画素および小画素からA/D変換部12へ受光量に応じたアナログの画素信号を出力する。A/D変換部12は、撮像素子11から入力されるアナログの画素信号をデジタルの画素信号にA/D変換して高感度画像の画像データと低感度画像の画像データとを生成し、信号処理部13へ出力する。
 信号処理部13は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを有するマイクロコンピュータや各種の回路を含む。
 信号処理部13は、A/D変換部12から入力される高感度画像の画像データと、低感度画像の画像データとに対して、それぞれ所定の信号処理を実行し、信号処理後の高感度画像の画像データおよび低感度画像の画像データを認識部14と、SEL16へ出力する。
 ここで、図4を参照し、信号処理部13が実行する処理の流れについて説明する。図4は、本開示の第1の実施形態に係る信号処理部が実行する処理の説明図である。図4に示すように、信号処理部13は、入力される画像データに対して、まず、シェーディング補正を行い、続いて、混色補正を行う。
 その後、信号処理部13は、画像データに対してデジタルゲイン調整を行い、続いて、ホワイトバランスゲイン調整を行う。その後、信号処理部13は、画像データに対してデモザイクを行った後、最後にガンマ補正を行い、ガンマ補正後の画像データを出力する。
 なお、デモザイクでは、高感度画像および低感度画像の各画素の色を周囲の画素の色によって補完する処理を行う。このため、デモザイク前の高感度画像および低感度画像の画像データは、4種類の画素信号R、Gr、Gb、Bとなるが、デモザイク後の画像データは、3種類の画素信号R、G、Bとなる。
 図3へ戻り、認識部14は、CPU、ROM、RAMなどを有するマイクロコンピュータや各種の回路を含む。認識部14は、CPUがROMに記憶された物体認識プログラムを、RAMを作業領域として使用して実行することにより機能する物体認識部31と、RAMまたはROMに設けられる物体認識用データ記憶部32とを備える。
 物体認識用データ記憶部32には、複数のDNNが記憶されている。例えば、物体認識用データ記憶部32には、高感度画像の画像データから物体を認識するDNN、低感度画像の画像データから物体を認識するDNNが記憶されている。なお、物体認識用データ記憶部32には、認識対象となる物体の種類別のDNNが記憶される。
 物体認識部31は、設定される認識対象の種類に応じたDNNを物体認識用データ記憶部32から読出し、画像データをDNNへ入力してDNNから出力される被写体の認識結果をデータ送信判断部15へ出力し、認識結果のメタデータをSEL16へ出力する。
 ここで、図5Aおよび図5Bを参照し、認識部14が行う処理の流れについて説明する。図5Aおよび図5Bは、本開示の第1の実施形態に係る認識部が実行する処理の説明図である。図5Aに示すように、認識部14は、まず、入力される画像データのサイズおよび入力値をDNN用のサイズおよび入力値に合わせて正規化し、正規化後の画像データをDNNへ入力して物体認識を行う。そして、認識部14は、DNNから出力される被写体の認識結果をデータ送信判断部15へ出力し、認識結果のメタデータをSEL16へ出力する。
 このとき、図5Bに示すように、認識部14は、大画素の画素信号R、G、Bと、小画素の画素信号R、G、BとをDNNへ入力する。これにより、認識部14は、アーチファクトのない高感度画像および低感度画像のそれぞれから被写体を認識することで、被写体の認識精度を向上させることができる。
 図3へ戻り、データ送信判断部15は、認識部14から入力される認識結果に応じてSEL16から出力させるデータを切替える制御信号をSEL16へ出力する。データ送信判断部15は、認識部14によって被写体が認識された場合には、画像データと、認識結果を示すメタデータとを送信部17へ出力させる制御信号をSEL16へ出力する。
 また、データ送信判断部15は、認識部14によって被写体が認識されなかった場合、その旨を示す情報(ノーデータ)を送信部17へ出力させる制御信号をSEL16へ出力する。SEL16は、データ送信判断部15から入力される制御信号に応じて、画像データおよびメタデータのセット、または、ノーデータのいずれかを送信部17へ出力する。
 送信部17は、AP2との間でデータ通信を行う通信I/F(インターフェース)であり、SEL16から入力される画像データおよびメタデータのセット、または、ノーデータのいずれかをAP2へ送信する。
 AP2は、画像認識システム100の用途に応じた各種アプリケーションプログラムを実行するCPU、ROM、RAMなどを有するマイクロコンピュータや各種の回路を含む。AP2は、受信部21と、認証部22と、認証用データ記憶部23とを備える。
 認証用データ記憶部23には、イメージセンサ1によって認識された被写体を認証するための認証用プログラムおよび認証用画像データ等が記憶されている。受信部21は、イメージセンサ1との間でデータ通信を行う通信I/Fである。受信部21は、イメージセンサ1から画像データおよびメタデータのセット、または、ノーデータのいずれかを受信して認証部22へ出力する。
 認証部22は、受信部21からノーデータが入力される場合には起動せず、画像データおよびメタデータのセットが入力された場合に起動する。認証部22は、起動すると認証用データ記憶部23から認証用プログラムを読み出して実行し、イメージセンサ1によって認識された被写体を認証する。
 例えば、認証部22は、被写体が人であることを示すメタデータと画像データのセットが入力される場合、画像データと人の認証用画像データとを照合し、認識された人が誰かを特定する処理等を行う。
 このとき、認証部22は、イメージセンサ1によって被写体が人であると高精度に認識されたアーチファクトの影響がない高感度画像および低感度画像の画像データに基づいて人を特定することにより、認識された人が誰かを的確に特定することができる。なお、上記した第1の実施形態は、一例であり、種々の変形が可能である。次に第1の実施形態に係る変形例について説明する。
[1-3.第1の実施形態に係るイメージセンサの変形例]
 図6は、本開示の第1の実施形態に係る信号処理部が実行する処理の変形例を示す説明図である。図7は、本開示の第1の実施形態に係るDNNの使用例の変形例を示す説明図である。
 図6に示すように、変形例に係る信号処理部は、入力される画像データに対して、シェーディング補正、混色補正、デジタルゲイン調整、ホワイトバランスゲイン調整、およびガンマ補正を行い、信号処理後の画像データを認識部14と、SEL16とに出力する。
 このように、信号処理部は、図4に示した信号処理からデモザイクを省略することができる。この場合、認識部14は、デモザイクが実行されない画像データから被写体を認識する。前述したように、デモザイクが実行されない高感度画像および低感度画像の画像データは、4種類の画素信号R、Gr、Gb、Bとなる。
 このため、図7に示すように、認識部14は、大画素の画素信号R、Gr、Gb、Bと、小画素の画素信号R、Gr、Gb、BとをDNNへ入力する。かかる場合、認識部14は、DNNの入力チャンネル数が増えるので処理量が増すが、DNNには、高感度画像および低感度画像の画像データが個別に入力されるので、アーチファクトの影響を受けることなく被写体を高精度に認識することができる。
 なお、他の変形例では、信号処理部自体を省略することもできる。かかる場合、図7に示す例と同様に、認識部14は、大画素の画素信号R、Gr、Gb、Bと、小画素の画素信号R、Gr、Gb、BとをDNNへ入力するので処理量が増すが、信号処理を行わない分、イメージセンサ1全体としての処理量が大幅に低減される。
 なお、第1の実施形態では、データ送信判断部15は、被写体を認識した場合に、毎回、認識結果のメタデータと画像データとをSEL16に出力させたが、バッテリ残量に応じてSEL16から出力させるデータを選択してもよい。
 例えば、データ送信判断部15は、認識部14によって被写体が認識された場合、バッテリの残量が十分ある通常モードでは、メタデータと画像データとをSEL16から出力させる。また、データ送信判断部15は、バッテリの残量が不足している低消費電力モードでは、メタデータのみをSEL16から出力させる。これにより、データ送信判断部15は、バッテリの残量が不足している場合に、イメージセンサ1の消費電力を低く抑えることができる。
[1-4.第1の実施形態に係る画像認識システムの変形例]
 次に、図8を参照し、第1の実施形態に係る画像認識システムの変形例について説明する。図8は、本開示の第1の実施形態に係る画像認識システムの変形例を示す説明図である。
 前述の画像認識システム100では、イメージセンサ1が高感度画像と低感度画像とから被写体を認識したが、変形例に係る画像認識システム100aでは、イメージセンサ1aからAP2aに高感度画像および低感度画像を送信し、AP2で被写体認識を行う。
 具体的には、図8に示すように、変形例に係る画像認識システム100aのイメージセンサ1aは、高感度画像および低感度画像を撮像し、大画素の画素信号R、Gr、Gb、Bと、小画素の画素信号R、Gr、Gb、BとをAP2aへ送信する。
 画像認識システム100aのAP2aは、DNNを備えており、イメージセンサ1aから受信する大画素の画素信号R、Gr、Gb、Bと、小画素の画素信号R、Gr、Gb、BとをDNNへ入力する。これにより、AP2aは、アーチファクトの影響を受けることなく、高感度画像および低感度画像から高精度に被写体を認識することができる。
[1-5.第1の実施形態に係るイメージセンサが実行する処理の第1具体例]
 次に、図9および図10を参照し、第1の実施形態に係るイメージセンサが実行する処理の第1具体例について説明する。
 なお、ここでは、イメージセンサ1が図1Aに示す撮像画素の受光面積が同一で露光時間が異なる画素アレイA1を備えるものとし、露光時間の長い撮像画素を長時間露光画素、露光時間の短い撮像画素を短時間露光画素と称して説明する。
 また、ここでは、図9を参照し、イメージセンサ1が画像から人を認識する場合の動作の概要を説明した後に、図10を参照し、イメージセンサ1が実行する処理の第1具体例について説明する。
 図9は、本開示の第1の実施形態に係るイメージセンサの第1動作例を示す説明図である。図10は、本開示の第1の実施形態に係るイメージセンサ1が実行する処理の第1具体例を示すフローチャートである。
 図9に示すように、イメージセンサ1は、まず、人Pが写ったフルサイズ画像D1を撮像し、フルサイズ画像D1をビニングすることによって解像度を例えば4分の1に低下させた第1DNN入力画D2を生成する。
 そして、イメージセンサ1は、第1DNN入力画D2から人Pを認識した場合に、ビニングを行わないフルサイズ画像D1から人Pの部分を切り出して第2DNN入力画D3を生成する。
 具体的には、図10に示すように、イメージセンサ1は、まず、センサ設定1で第1DNN入力画D2の画像データを生成する(ステップS101)。ここで、センサ設定1は、低ADbit(ex.4Bit)、Binning(ex.H4V4)、長時間露光画素のみ使用、切り出し(ex.なし)、低FPS(ex.1fps)となっているとする。
 この場合、イメージセンサ1は、長時間露光画素のみを使用し、1fpsのフレームレートでフルサイズ画像D1を撮像し、フルサイズ画像D1の画素信号を4bitでアナログデジタル変換する。その後、イメージセンサ1は、フルサイズ画像D1の解像度をビニングによって4分の1に低下させ、画像切り出しを行うことなく第1DNN入力画D2を生成する。
 続いて、イメージセンサ1は、第1DNN入力画D2の画像データをDNNへ入力して第1DNNを実行する(ステップS102)。このとき、イメージセンサ1は、人または物体の検出を低accuracyで行う。その後、イメージセンサ1は、人または物体を検出したか否かの判定を行う(ステップS103)。
 そして、イメージセンサ1は、人または物体を検出しないと判定した場合(ステップS103,No)、処理をステップS102へ移す。また、イメージセンサ1は、人または物体を検出したと判定した場合(ステップS103,Yes)、処理をステップS104へ移す。
 ステップS104において、イメージセンサ1は、センサ設定2で第2DNN入力画D3の画像データを生成する。ここで、センサ設定2は、高ADbit(ex.10Bit)、Binning(ex.なし)、長/短時間露光画素使用、切り出し(ex.被写体付近)、高FPS(ex.30fps)となっているとする。
 この場合、イメージセンサ1は、長時間露光画素および短時間露光画素を使用し、30fpsのフレームレートでフルサイズ画像D1を撮像し、フルサイズ画像D1の画素信号を10bitでアナログデジタル変換する。その後、イメージセンサ1は、フルサイズ画像D1の解像度を低下させずに、フルサイズ画像D1から被写体付近の部分を切り出して第2DNN入力画D3を生成する。
 続いて、イメージセンサ1は、第2DNN入力画D3の画像データをDNNへ入力して第2DNNを実行する(ステップS105)。このとき、イメージセンサ1は、人認証または物体判別を高accuracyで行う。その後、イメージセンサ1は、認識対象である人または物体を検出したか否かの判定を行う(ステップS106)。
 そして、イメージセンサ1は、人または物体を検出しないと判定した場合(ステップS106,No)、処理をステップS101へ移す。また、イメージセンサ1は、人または物体を検出したと判定した場合(ステップS106,Yes)、AP2へAP起動通知を行い(ステップS107)、処理を終了する。このとき、イメージセンサ1は、例えば、MIPI(Mobile Industry Processor Interface)規格に準拠した通信方式で画像データと被写体の検出(認識)結果をAP2へ出力する。
[1-6.第1の実施形態に係るイメージセンサが実行する処理の第2具体例]
 次に、図11~図13を参照し、第1の実施形態に係るイメージセンサが実行する処理の第2具体例について説明する。
 なお、ここでも、イメージセンサ1が図1Aに示す撮像画素の受光面積が同一で露光時間が異なる画素アレイA1を備えるものとし、露光時間の長い撮像画素を長時間露光画素、露光時間の短い撮像画素を短時間露光画素と称して説明する。
 また、ここでは、図11を参照し、イメージセンサ1が画像から前方車両と信号機とを認識する場合の動作の概要を説明した後、図12を参照し、イメージセンサ1が実行する処理の第2具体例を説明しその後、図13を参照して第2具体例の作用効果を説明する。
 図11は、本開示の第1の実施形態に係るイメージセンサの第2動作例を示す説明図である。図12は、本開示の第1の実施形態に係るイメージセンサ1が実行する処理の第2具体例を示すフローチャートである。図13は、本開示の第1の実施形態に係るイメージセンサの第2動作例による作用効果の説明図である。
 図11に示すように、イメージセンサ1は、まず、前方車両Cおよび信号機Sが写ったフルサイズ画像D4を撮像し、フルサイズ画像D4に対してビニングによる解像度の低下を行うことなく第1DNN入力画D5を生成する。
 そして、イメージセンサ1は、第1DNN入力画D5から信号機Sを認識した場合に、フルサイズ画像D4から信号機Sの部分を切り出して第2DNN入力画D6を生成する。また、イメージセンサ1は、第1DNN入力画D5から前方車両Cを認識した場合に、フルサイズ画像D4から前方車両の部分を切り出して第3DNN入力画D7を生成する。
 具体的には、図12に示すように、イメージセンサ1は、まず、センサ設定1で第1DNN入力画D5の画像データを生成する(ステップS201)。ここで、センサ設定1は、ADbit(ex.10Bit)、Binning(ex.なし)、長/短時間露光画素使用、切り出し(ex.なし)、高FPS(ex.30fps)となっているとする。
 この場合、イメージセンサ1は、長時間露光画素および短時間露光画素を使用し、30fpsのフレームレートでフルサイズ画像D4を撮像し、フルサイズ画像D4の画素信号を10bitでアナログデジタル変換する。そして、イメージセンサ1は、フルサイズ画像D4の解像度を低下させず、画像切り出しを行うことなく第1DNN入力画D5を生成する。
 続いて、イメージセンサ1は、第1DNN入力画D5の画像データをDNNへ入力して第1DNNを実行する(ステップS202)。このとき、イメージセンサ1は、物体の検出を高accuracyで行う。その後、イメージセンサ1は、物体を検出したか否かの判定を行う(ステップS203)。
 そして、イメージセンサ1は、物体を検出しないと判定した場合(ステップS203,No)、処理をステップS202へ移す。また、イメージセンサ1は、物体を検出したと判定した場合(ステップS203,Yes)、検出結果から適切な設定を選ぶ。
 例えば、イメージセンサ1は、信号機Sを検出(認識)した場合、センサ設定2で第2DNN入力画D6の画像データを生成する(ステップS204)。ここで、センサ設定2は、低ADbit(ex.8Bit)、Binning(ex.なし)、長時間露光画素使用、切り出し(ex.被写体付近)、高FPS(ex.60fps)となっているとする。
 この場合、イメージセンサ1は、長時間露光画素を使用し、60fpsのフレームレートでフルサイズ画像D4を撮像し、フルサイズ画像D4の画素信号を8bitでアナログデジタル変換する。その後、イメージセンサ1は、フルサイズ画像D4の解像度を低下させずに、フルサイズ画像D4から被写体(信号機S)付近の部分を切り出して第2DNN入力画D6の画像データを生成する。
 続いて、イメージセンサ1は、第2DNN入力画D6の画像データをDNNへ入力して第2DNNを実行する(ステップS205)。このとき、イメージセンサ1は、信号機認識とトラッキングとを高accuracyで行う。その後、イメージセンサ1は、処理をステップS208へ移す。
 また、イメージセンサ1は、前方車両Cを検出(認識)した場合、センサ設定3で第3DNN入力画D7の画像データを生成する(ステップS206)。ここで、センサ設定3は、低ADbit(ex.8Bit)、Binning(ex.なし)、短時間露光画素使用、切り出し(ex.被写体付近)、高FPS(ex.60fps)となっているとする。
 この場合、イメージセンサ1は、短時間露光画素を使用し、60fpsのフレームレートでフルサイズ画像D4を撮像し、フルサイズ画像D4の画素信号を8bitでアナログデジタル変換する。その後、イメージセンサ1は、フルサイズ画像D4の解像度を低下させずに、フルサイズ画像D4から被写体(前方車両C)付近の部分を切り出して第3DNN入力画D7の画像データを生成する。
 続いて、イメージセンサ1は、第3DNN入力画D7の画像データをDNNへ入力して第3DNNを実行する(ステップS207)。このとき、イメージセンサ1は、前方車両認識とトラッキングとを高accuracyで行う。その後、イメージセンサ1は、処理をステップS208へ移す。
 ステップS208において、イメージセンサ1は、認識対象である信号機Sまたは前方車両Cを検出したか否かの判定を行う。そして、イメージセンサ1は、信号機Sまたは前方車両Cを検出しないと判定した場合(ステップS208,No)、処理をステップS201へ移す。
 また、イメージセンサ1は、信号機Sまたは前方車両Cを検出したと判定した場合(ステップS208,Yes)、AP2へADAS(Advanced Driver Assistance System)通知を行い(ステップS209)、処理を終了する。このとき、イメージセンサ1は、例えば、MIPI規格に準拠した通信方式で画像データと被写体の検出(認識)結果をAP2へ出力する。
 なお、イメージセンサ1は、被写体を認識する度に、毎回、画像データと被写体の検出(認識)結果をAP2へ出力する必要はない。例えば、イメージセンサ1は、AP2から要求される場合に限って、画像データと被写体の検出(認識)結果をAP2へ出力することもできる。
 イメージセンサ1は、上記処理を実行することによって、信号機Sの状態および前方車両Cの位置を高精度に認識することができる。具体的には、LED(Light Emitting Diode)が採用された信号機Sは、微小時間周期で点灯と消灯とを繰り返すフリッカを起こしている。
 このため、イメージセンサ1は、短時間露光画素で信号機Sを撮像した場合、撮像画像中の信号機Sが消灯していることがある。このため、イメージセンサ1は、フリッカによる被写体の誤認識を防止するために、少なくとも10ms以上の露光が必要である。一方、イメージセンサ1は、例えば、前方車両等のフリッカを起こさない被写体の場合、被写体のブレを抑えるために、露光時間を短くする必要がある。
 そこで、図13に示すように、イメージセンサ1は、長時間露光画素によって撮像した画像データについて信号機認識用の第2DNNを実行し、短時間露光画素によって撮像した画像について前方車両認識用の第3DNNを実行する。
 これにより、イメージセンサ1は、フリッカの影響を受けることなく信号機Sの状態を高精度に認識することができ、被写体のブレを抑制することで前方車両Cの位置を高精度に認識することができる。
(2.第2の実施形態)
 次に、第2の実施形態に係る画像認識システムについて説明する。第2の実施形態に係る画像認識システムは、イメージセンサが備える画素アレイの構成と、イメージセンサが実行する処理とが第1の実施形態とは異なり、他の構成は第1実施形態と同様である。このため、以下では、第1実施形態と異なる点について説明する。
[2-1.第2の実施形態に係る画素アレイ]
 図14は、本開示の第2の実施形態に係る画素アレイを示す説明図である。図14に示す画素アレイA3は、赤色光を受光する4個の画素L、M、M、Sを備える撮像画素R、緑色光を受光する4個の画素L、M、M、Sを備える撮像画素Gr、Gb、青色光を受光する4個の画素L、M、M、Sを備える撮像画素Bがベイヤ配列される。
 画素L、M、M、Sは、全て受光面積が同一であるが、露光時間が異なる。画素Lは、長時間露光画素である。画素Mは、中時間露光画素である。画素Sは、短時間露光画素である。かかる画素アレイA3は、通常、各画素から画素信号を出力することで、非常に高解像度の画素アレイとして機能する。また、画素アレイA3は、周囲が暗くなった場合に、2画素を1画素にビニングすることで、暗い場所でも被写体を移すことが可能な画素アレイとして機能する。
 第2の実施形態に係るイメージセンサは、画素アレイA3によって長時間露光画像、中時間露光画像、および短時間露光画像を撮像する。そして、イメージセンサは、長時間露光画像、中時間露光画像、および短時間露光画像のそれぞれから被写体を認識する。
 図15は、本開示の第2の実施形態に係るDNNの使用例を示す説明図である。図16は、本開示の第2の実施形態に係るDNNの他の使用例を示す説明図である。第2の実施形態に係るイメージセンサは、図3に示すイメージセンサ1と同一の構成を備える。
 このため、図15に示すように、イメージセンサは、デモザイク後の長時間露光の画素信号R、G、Bと、中時間露光の画素信号R、G、Bと、短時間露光の画素信号R、G、BとをDNNへ入力する。
 DNNからは、長時間露光画像、中時間露光画像、および短時間露光画像のそれぞれから被写体が認識された認識結果が出力される。これにより、イメージセンサは、アーチファクトのない長時間露光画像、中時間露光画像、および短時間露光画像のそれぞれから、高輝度、中輝度、および低輝度の被写体を高精度に認識することができる。
 また、第2の実施形態に係るイメージセンサは、第1の実施形態と同様に、デモザイクを省略することができ、信号処理部13による信号処理を省略することもできる。かかる場合、図16に示すように、イメージセンサは、デモザイクが行われない長時間露光の画素信号R、Gr、Gb、Bと、中時間露光の画素信号R、Gr、Gb、Bと、短時間露光の画素信号R、Gr、Bb、BとをDNNへ入力する。
 これにより、DNNの入力チャンネル数が増えるので処理量が増すが、DNNには、長時間露光画像、中時間露光画像、および短時間露光画像の画像データが個別に入力されるので、アーチファクトの影響を受けることなく被写体を高精度に認識することができる。
[2-2.第2の実施形態に係るイメージセンサが実行する処理の具体例]
 次に、図17を参照し、第1の実施形態に係るイメージセンサが実行する処理の具体例について説明する。ここでは、イメージセンサが画像から前方車両と信号機とを認識する場合に実行する処理について説明する。
 図17は、本開示の第2の実施形態に係るイメージセンサが実行する処理の具体例を示すフローチャートである。第2実施形態に係るイメージセンサは、図11に示した各画像と同様のフルサイズ画像D4、第1DNN入力画D5、第2DNN入力画D6、および第3DNN入力画D7の画像データを生成するが、センサ設定1、2、3の内容が第1実施形態とは異なる。
 具体的には、図17に示すように、イメージセンサは、まず、センサ設定1で第1DNN入力画D5の画像データを生成する(ステップS301)。ここで、センサ設定1は、ADbit(ex.10Bit)、Binning(ex.なし)、長/中/短時間露光画素使用、切り出し(ex.なし)、高FPS(ex.30fps)となっているとする。
 この場合、イメージセンサは、長時間露光画素、中時間露光画素、および短時間露光画素を使用し、30fpsのフレームレートでフルサイズ画像D4を撮像し、フルサイズ画像D4の画素信号を10bitでアナログデジタル変換する。そして、イメージセンサは、フルサイズ画像D4の解像度を低下させず、画像切り出しを行うことなく第1DNN入力画D5を生成する。
 続いて、イメージセンサは、第1DNN入力画D5の画像データをDNNへ入力して第1DNNを実行する(ステップS302)。このとき、イメージセンサは、物体の検出を高accuracyで行う。その後、イメージセンサは、物体を検出したか否かの判定を行う(ステップS303)。
 そして、イメージセンサは、物体を検出しないと判定した場合(ステップS303,No)、処理をステップS302へ移す。また、イメージセンサは、物体を検出したと判定した場合(ステップS303,Yes)、検出結果から適切な設定を選ぶ。
 例えば、イメージセンサは、信号機Sを検出(認識)した場合、センサ設定2で第2DNN入力画D6の画像データを生成する(ステップS304)。ここで、センサ設定2は、低ADbit(ex.8Bit)、Binning(ex.なし)、中時間露光画素使用、切り出し(ex.被写体付近)、高FPS(ex.60fps)となっているとする。
 この場合、イメージセンサは、中時間露光画素を使用し、60fpsのフレームレートでフルサイズ画像D4を撮像し、フルサイズ画像D4の画素信号を8bitでアナログデジタル変換する。その後、イメージセンサは、フルサイズ画像D4の解像度を低下させずに、フルサイズ画像D4から被写体(信号機S)付近の部分を切り出して第2DNN入力画D6の画像データを生成する。
 続いて、イメージセンサは、第2DNN入力画D6の画像データをDNNへ入力して第2DNNを実行する(ステップS305)。このとき、イメージセンサは、信号機認識とトラッキングとを高accuracyで行う。その後、イメージセンサは、処理をステップS308へ移す。
 また、イメージセンサは、前方車両Cを検出(認識)した場合、センサ設定3で第3DNN入力画D7の画像データを生成する(ステップS306)。ここで、センサ設定3は、低ADbit(ex.8Bit)、Binning(ex.なし)、短時間露光画素使用、切り出し(ex.被写体付近)、高FPS(ex.60fps)となっているとする。
 この場合、イメージセンサは、短時間露光画素を使用し、60fpsのフレームレートでフルサイズ画像D4を撮像し、フルサイズ画像D4の画素信号を8bitでアナログデジタル変換する。その後、イメージセンサは、フルサイズ画像D4の解像度を低下させずに、フルサイズ画像D4から被写体(前方車両C)付近の部分を切り出して第3DNN入力画D7の画像データを生成する。
 続いて、イメージセンサは、第3DNN入力画D7の画像データをDNNへ入力して第3DNNを実行する(ステップS307)。このとき、イメージセンサは、前方車両認識とトラッキングとを高accuracyで行う。その後、イメージセンサは、処理をステップS308へ移す。
 ステップS308において、イメージセンサは、認識対象である信号機Sまたは前方車両Cを検出したか否かの判定を行う。そして、イメージセンサは、信号機Sまたは前方車両Cを検出しないと判定した場合(ステップS308,No)、処理をステップS301へ移す。
 また、イメージセンサは、信号機Sまたは前方車両Cを検出したと判定した場合(ステップS308,Yes)、AP2へADAS通知を行い(ステップS309)、処理を終了する。
 なお、イメージセンサ1は、被写体を認識する度に、毎回、画像データと被写体の検出(認識)結果をAP2へ出力する必要はない。例えば、イメージセンサ1は、AP2から要求される場合に限って、画像データと被写体の検出(認識)結果をAP2へ出力することもできる。
 このように、第2の実施形態に係るイメージセンサは、中時間露光画素によって撮像した画像データについて信号機認識用の第2DNNを実行し、短時間露光画素によって撮像した画像について前方車両認識用の第3DNNを実行する。
 これにより、イメージセンサは、フリッカの影響を受けることなく信号機Sの状態を高精度に認識することができ、被写体のブレを抑制することで前方車両Cの位置を高精度に認識することができる。
[2-3.第2の実施形態に係る他の画素アレイ]
 第2の実施形態に係る画素アレイは、図14に示した画素アレイA3に限定されるものではない。次に、図18を参照し、他の画素アレイを採用した場合のイメージセンサの動作例について説明する。図18は、本開示の第2の実施形態に係る他の画素アレイを採用したイメージセンサの動作例を示す説明図である。
 イメージセンサは、図18の右上に示す画素アレイA4を採用することもできる。画素アレイA4は、赤色光を受光する4個の画素M、M、M、Sを備える撮像画素R、緑色光を受光する4個の画素M、M、M、Sを備える撮像画素Gr、Gb、青色光を受光する4個の画素M、M、M、Sを備える撮像画素Bがベイヤ配列される。画素M、M、M、Sは、全て受光面積が同一であるが、露光時間が異なる。画素Mは、中時間露光画素である。画素Sは、短時間露光画素である。
 イメージセンサは、画素アレイA3を採用する場合、画素アレイA3の画素M、M、M、S毎に、シャッタ制御および画素信号の読出し制御を独立して行う。ここで、前述したように、イメージセンサは、フリッカを起こす信号機の状態を正確に認識するために、10ms以上の長時間露光が必要である。しかしながら、イメージセンサは、通常の画素で昼間に10ms以上の長時間露光を行うと、画素が飽和する場合がある。
 そこで、イメージセンサは、画素アレイA3を採用する場合、図18に示すように、例えば、3個の中時間露光画素M、M、Mを3.3msずつ時系列に順次中時間露光させる。これにより、3個の各中時間露光画素M、M、Mは、飽和することがない。また、このとき、イメージセンサは、同時に短時間露光画素Sを短時間露光させる。
 そして、イメージセンサは、中時間露光画像の各画像データについて信号機認識用の第2DNNを実行し、短時間露光画像の画像データについて前方車両認識用の第3DNNを実行する。これにより、イメージセンサは、フリッカの影響を受けることなく信号機の状態を高精度に認識することができ、被写体のブレを抑制することで前方車両の位置を高精度に認識することができる。
[2-4.第2の実施形態に係るイメージセンサの他の動作例]
 次に、図19を参照し、第2の実施形態に係るイメージセンサの他の動作例について説明する。図19は、第2の実施形態に係るイメージセンサの他の動作例の説明図である。なお、ここでは、イメージセンサが図14に示す画素アレイA3を備えるものとして説明する。
 ただし、図19に示す画素アレイA3の長時間露光画素L上には低透光率のカラーフィルタが設けられ、中時間露光画素M上には中透光率のカラーフィルタが設けられ、短時間露光画素S上には高透光率のカラーフィルタが設けられる。
 かかる構成の場合、図19に示すように、イメージセンサは、長時間露光画素Lを長時間露光させて低感度画像の画像データを生成し、低感度画像の画像データについて信号機認識用の第2DNNを実行する。このとき、長時間露光画素Lは、低透光率のカラーフィルタが積層されているため、長時間露光しても飽和することがない。これにより、イメージセンサは、フリッカの影響を受けることなく信号機の状態を高精度に認識することができる。
 また、イメージセンサは、中時間露光画像Mを中時間露光させて中感度画像を生成し、短時間露光画素Sを短時間露光させて高感度画像を生成し、中感度画像および高感度画像の画像データそれぞれについて前方車両認識用の第3DNNを実行する。これにより、イメージセンサは、被写体のブレを抑制することで前方車両の位置を高精度に認識することができる。
[3.移動体への応用例]
 本開示に係る技術(本技術)は、様々な製品へ応用することができる。例えば、本開示に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット等のいずれかの種類の移動体に搭載される装置として実現されてもよい。
 図20は、本開示に係る技術が適用され得る移動体制御システムの一例である車両制御システムの概略的な構成例を示すブロック図である。
 車両制御システム12000は、通信ネットワーク12001を介して接続された複数の電子制御ユニットを備える。図20に示した例では、車両制御システム12000は、駆動系制御ユニット12010、ボディ系制御ユニット12020、車外情報検出ユニット12030、車内情報検出ユニット12040、及び統合制御ユニット12050を備える。また、統合制御ユニット12050の機能構成として、マイクロコンピュータ12051、音声画像出力部12052、及び車載ネットワークI/F(interface)12053が図示されている。
 駆動系制御ユニット12010は、各種プログラムにしたがって車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット12010は、内燃機関又は駆動用モータ等の車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、及び、車両の制動力を発生させる制動装置等の制御装置として機能する。
 ボディ系制御ユニット12020は、各種プログラムにしたがって車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット12020は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカー又はフォグランプ等の各種ランプの制御装置として機能する。この場合、ボディ系制御ユニット12020には、鍵を代替する携帯機から発信される電波又は各種スイッチの信号が入力され得る。ボディ系制御ユニット12020は、これらの電波又は信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプ等を制御する。
 車外情報検出ユニット12030は、車両制御システム12000を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット12030には、撮像部12031が接続される。車外情報検出ユニット12030は、撮像部12031に車外の画像を撮像させるとともに、撮像された画像を受信する。車外情報検出ユニット12030は、受信した画像に基づいて、人、車、障害物、標識又は路面上の文字等の物体検出処理又は距離検出処理を行ってもよい。
 撮像部12031は、光を受光し、その光の受光量に応じた電気信号を出力する光センサである。撮像部12031は、電気信号を画像として出力することもできるし、測距の情報として出力することもできる。また、撮像部12031が受光する光は、可視光であっても良いし、赤外線等の非可視光であっても良い。
 車内情報検出ユニット12040は、車内の情報を検出する。車内情報検出ユニット12040には、例えば、運転者の状態を検出する運転者状態検出部12041が接続される。運転者状態検出部12041は、例えば運転者を撮像するカメラを含み、車内情報検出ユニット12040は、運転者状態検出部12041から入力される検出情報に基づいて、運転者の疲労度合い又は集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。
 マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構又は制動装置の制御目標値を演算し、駆動系制御ユニット12010に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車両の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、又は車両のレーン逸脱警告等を含むADAS(Advanced Driver Assistance System)の機能実現を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構又は制動装置等を制御することにより、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030で取得される車外の情報に基づいて、ボディ系制御ユニット12020に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車外情報検出ユニット12030で検知した先行車又は対向車の位置に応じてヘッドランプを制御し、ハイビームをロービームに切り替える等の防眩を図ることを目的とした協調制御を行うことができる。
 音声画像出力部12052は、車両の搭乗者又は車外に対して、視覚的又は聴覚的に情報を通知することが可能な出力装置へ音声及び画像のうちの少なくとも一方の出力信号を送信する。図20の例では、出力装置として、オーディオスピーカ12061、表示部12062及びインストルメントパネル12063が例示されている。表示部12062は、例えば、オンボードディスプレイ及びヘッドアップディスプレイの少なくとも一つを含んでいてもよい。
 図21は、撮像部12031の設置位置の例を示す図である。
 図21では、車両12100は、撮像部12031として、撮像部12101,12102,12103,12104,12105を有する。
 撮像部12101,12102,12103,12104,12105は、例えば、車両12100のフロントノーズ、サイドミラー、リアバンパ、バックドア及び車室内のフロントガラスの上部等の位置に設けられる。フロントノーズに備えられる撮像部12101及び車室内のフロントガラスの上部に備えられる撮像部12105は、主として車両12100の前方の画像を取得する。サイドミラーに備えられる撮像部12102,12103は、主として車両12100の側方の画像を取得する。リアバンパ又はバックドアに備えられる撮像部12104は、主として車両12100の後方の画像を取得する。撮像部12101及び12105で取得される前方の画像は、主として先行車両又は、歩行者、障害物、信号機、交通標識又は車線等の検出に用いられる。
 なお、図21には、撮像部12101ないし12104の撮影範囲の一例が示されている。撮像範囲12111は、フロントノーズに設けられた撮像部12101の撮像範囲を示し、撮像範囲12112,12113は、それぞれサイドミラーに設けられた撮像部12102,12103の撮像範囲を示し、撮像範囲12114は、リアバンパ又はバックドアに設けられた撮像部12104の撮像範囲を示す。例えば、撮像部12101ないし12104で撮像された画像データが重ね合わせられることにより、車両12100を上方から見た俯瞰画像が得られる。
 撮像部12101ないし12104の少なくとも1つは、距離情報を取得する機能を有していてもよい。例えば、撮像部12101ないし12104の少なくとも1つは、複数の撮像素子からなるステレオカメラであってもよいし、位相差検出用の画素を有する撮像素子であってもよい。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を基に、撮像範囲12111ないし12114内における各立体物までの距離と、この距離の時間的変化(車両12100に対する相対速度)を求めることにより、特に車両12100の進行路上にある最も近い立体物で、車両12100と略同じ方向に所定の速度(例えば、0km/h以上)で走行する立体物を先行車として抽出することができる。さらに、マイクロコンピュータ12051は、先行車の手前に予め確保すべき車間距離を設定し、自動ブレーキ制御(追従停止制御も含む)や自動加速制御(追従発進制御も含む)等を行うことができる。このように運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を元に、立体物に関する立体物データを、2輪車、普通車両、大型車両、歩行者、電柱等その他の立体物に分類して抽出し、障害物の自動回避に用いることができる。例えば、マイクロコンピュータ12051は、車両12100の周辺の障害物を、車両12100のドライバが視認可能な障害物と視認困難な障害物とに識別する。そして、マイクロコンピュータ12051は、各障害物との衝突の危険度を示す衝突リスクを判断し、衝突リスクが設定値以上で衝突可能性がある状況であるときには、オーディオスピーカ12061や表示部12062を介してドライバに警報を出力することや、駆動系制御ユニット12010を介して強制減速や回避操舵を行うことで、衝突回避のための運転支援を行うことができる。
 撮像部12101ないし12104の少なくとも1つは、赤外線を検出する赤外線カメラであってもよい。例えば、マイクロコンピュータ12051は、撮像部12101ないし12104の撮像画像中に歩行者が存在するか否かを判定することで歩行者を認識することができる。かかる歩行者の認識は、例えば赤外線カメラとしての撮像部12101ないし12104の撮像画像における特徴点を抽出する手順と、物体の輪郭を示す一連の特徴点にパターンマッチング処理を行って歩行者か否かを判別する手順によって行われる。マイクロコンピュータ12051が、撮像部12101ないし12104の撮像画像中に歩行者が存在すると判定し、歩行者を認識すると、音声画像出力部12052は、当該認識された歩行者に強調のための方形輪郭線を重畳表示するように、表示部12062を制御する。また、音声画像出力部12052は、歩行者を示すアイコン等を所望の位置に表示するように表示部12062を制御してもよい。
 以上、本開示に係る技術が適用され得る車両制御システムの一例について説明した。本開示に係る技術は、以上説明した構成のうち、例えば、車外情報検出ユニット12030、撮像部12031、車内情報検出ユニット12040、および運転者状態検出部12041等に適用され得る。例えば、図3のイメージセンサ1は、撮像部12031に適用することができる。撮像部12031に本開示に係る技術を適用することにより、例えば、より見やすい撮影画像を得ることができるため、ドライバの疲労を軽減することが可能になる。
[4.効果]
 画像認識装置の一例であるイメージセンサ1は、撮像部10と、認識部14とを有する。撮像部10は、感度が異なる撮像画素を使用し、1フレーム期間に複数の画像を同一の露光開始タイミングで撮像して画像データを生成する。認識部14は、画像データのそれぞれから被写体を認識する。これにより、イメージセンサ1は、アーチファクトの影響を排除することで、被写体の認識精度を向上させることができる。
 また、撮像部10は、受光面積が同一であり露光時間が異なる複数の撮像画素が2次元に配列された画素アレイを有する。これにより、イメージセンサ1は、長時間露光画像と短時間露光画像とから、それぞれ高精度に被写体を認識することができる。
 また、撮像部10は、受光面積が同一であり積層されるカラーフィルタの透光率が異なる複数の撮像画素が2次元に配列された画素アレイを有する。これにより、イメージセンサ1は、高感度画像と低感度画像とから、それぞれ高精度に被写体を認識することができる。
 また、撮像部10は、受光面積が異なる複数の撮像画素が2次元に配列された画素アレイを有する。これにより、これにより、イメージセンサ1は、大画素の画素信号と小画素の画素信号とから、それぞれ高精度に被写体を認識することができる。
 また、撮像部10は、長時間露光撮像画素、中時間露光撮像画素、および短時間露光撮像画素が2次元に配列された画素アレイを有する。これにより、イメージセンサ1は、長時間露光画像と、中時間露光画像と、短時間露光画像とから、それぞれ高精度に被写体を認識することができる。
 また、撮像部10は、低感度撮像画素、中感度撮像画素、および高感度撮像画素が2次元に配列された画素アレイを有する。これにより、イメージセンサ1は、高感度画像と、中間度画像と、低感度画像とから、それぞれ高精度に被写体を認識することができる。
 また、認識部14は、被写体を認識した場合に、被写体の認識結果および画像データを後段の装置へ出力し、被写体を認識しない場合に、その旨を示す情報を後段の装置へ出力する。これにより、イメージセンサ1は、被写体を認識しない場合に、消費電力を低減することができる。
 また、認識部14は、デモザイク処理が実行された画像データから被写体を認識する。これにより、イメージセンサ1は、例えば、DNNの入力チャンネル数を少なくすることで、処理負荷を低減しつつ、高精度に被写体を認識することができる。
 また、認識部14は、デモザイク処理が実行されない画像データから被写体を認識する。これにより、イメージセンサ1は、例えば、DNNの入力チャンネル数が増加するが、高精度に被写体を認識することができる。
 認識部は、撮像部から入力される画像データから被写体を認識する。これにより、イメージセンサ1は、信号処理を省略することができるので、大幅に処理負荷を低減しつつ、高精度に被写体を認識することができる。
 また、撮像部10は、認識部14によって被写体が検出される前には、低感度の撮像画素を使用し、低解像および低フレームレートで撮像した画像全体の画像データを生成する。撮像部10は、認識部によって被写体が検出された後には、高感度の撮像画素を使用し、高解像度および高フレームレートで撮像した画像から被写体を切り出した画像データを生成する。認識部14は、被写体を検出する前には、画像データに被写体が存在するか否かを認識し、被写体を検出した後には、被写体が何かを認識する。これにより、イメージセンサは、被写体を検出するまでに要する処理負荷および消費電力を低減することができる。
 また、撮像部10は、認識部14によって被写体が検出される前には、低感度の撮像画素および高感度の撮像画素を使用し、高解像および高フレームレートで撮像した画像全体の画像データを生成する。撮像部10は、認識部14によって検出された被写体が信号機の場合には、低感度の撮像画素を使用し、被写体が車両の場合には、高感度の撮像画素を使用して、高解像度および高フレームレートで撮像した画像から被写体を切り出した画像データを生成する。認識部14は、被写体を検出する前には、画像データから被写体を認識する処理を行い、被写体を認識した後には、画像データに基づいて被写体に応じた認識処理を行う。これにより、イメージセンサは、フリッカが起こる信号機の状態を正確に認識することができると共に、前方車両の位置を高精度に認識することができる。
 また、撮像部10は、認識部14によって被写体が検出される前には、長時間露光撮像画素、中時間露光撮像画素、および短時間露光撮像画素を使用し、高解像および高フレームレートで撮像した画像全体の画像データを生成する。撮像部10は、認識部14によって検出された被写体が信号機の場合には、中時間露光撮像画素を使用し、被写体が車両の場合には、短時間露光撮像画素を使用して、高解像度および高フレームレートで撮像した画像から被写体を切り出した画像データを生成する。認識部14は、被写体を検出する前には、画像データから被写体を認識する処理を行い、被写体を認識した後には、画像データに基づいて被写体に応じた認識処理を行う。これにより、イメージセンサは、フリッカが起こる信号機の状態を正確に認識することができると共に、前方車両の位置を高精度に認識することができる。
 また、画像認識方法は、感度が異なる撮像画素を使用し、1フレーム期間に複数の画像を同一の露光開始タイミングで撮像して画像データを生成し、画像データのそれぞれから被写体を認識する。これにより、アーチファクトの影響を排除することで、被写体の認識精度を向上させることができる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 感度が異なる撮像画素を使用し、1フレーム期間に複数の画像を同一の露光開始タイミングで撮像して画像データを生成する撮像部と、
 前記画像データのそれぞれから被写体を認識する認識部と
 を有する画像認識装置。
(2)
 前記撮像部は、
 受光面積が同一であり露光時間が異なる複数の前記撮像画素が2次元に配列された画素アレイ
 を有する前記(1)に記載の画像認識装置。
(3)
 前記撮像部は、
 受光面積が同一であり積層されるカラーフィルタの透光率が異なる複数の前記撮像画素が2次元に配列された画素アレイ
 を有する前記(1)に記載の画像認識装置。
(4)
 前記撮像部は、
 受光面積が異なる複数の前記撮像画素が2次元に配列された画素アレイ
 を有する前記(1)に記載の画像認識装置。
(5)
 前記撮像部は、
 長時間露光撮像画素、中時間露光撮像画素、および短時間露光撮像画素が2次元に配列された画素アレイ
 を有する前記(1)に記載の画像認識装置。
(6)
 前記撮像部は、
 低感度撮像画素、中感度撮像画素、および高感度撮像画素が2次元に配列された画素アレイ
 を有する前記(1)に記載の画像認識装置。
(7)
 前記認識部は、
 前記被写体を認識した場合に、前記被写体の認識結果および前記画像データを後段の装置へ出力し、前記被写体を認識しない場合に、その旨を示す情報を後段の装置へ出力する
 前記(1)~(6)のいずれか一つに記載の画像認識装置。
(8)
 前記認識部は、
 デモザイク処理が実行された前記画像データから前記被写体を認識する
 前記(1)~(6)のいずれか一つに記載の画像認識装置。
(9)
 前記認識部は、
 デモザイク処理が実行されない前記画像データから前記被写体を認識する
 前記(1)~(6)のいずれか一つに記載の画像認識装置。
(10)
 前記認識部は、
 前記撮像部から入力される前記画像データから前記被写体を認識する
 前記(1)~(6)のいずれか一つに記載の画像認識装置。
(11)
 前記撮像部は、
 前記認識部によって前記被写体が検出される前には、低感度の前記撮像画素を使用し、低解像および低フレームレートで撮像した画像全体の画像データを生成し、
 前記認識部によって前記被写体が検出された後には、高感度の前記撮像画素を使用し、高解像度および高フレームレートで撮像した画像から前記被写体を切り出した画像データを生成し、
 前記認識部は、
 前記被写体を検出する前には、前記画像データに前記被写体が存在するか否かを認識し、前記被写体を検出した後には、前記被写体が何かを認識する
 前記(1)~(10)のいずれか一つに記載の画像認識装置。
(12)
 前記撮像部は、
 前記認識部によって前記被写体が検出される前には、低感度の前記撮像画素および高感度の前記撮像画素を使用し、高解像および高フレームレートで撮像した画像全体の画像データを生成し、
 前記認識部によって検出された前記被写体が信号機の場合には、低感度の前記撮像画素を使用し、前記被写体が車両の場合には、高感度の前記撮像画素を使用して、高解像度および高フレームレートで撮像した画像から前記被写体を切り出した画像データを生成し、
 前記認識部は、
 前記被写体を検出する前には、前記画像データから前記被写体を認識する処理を行い、前記被写体を認識した後には、前記画像データに基づいて前記被写体に応じた認識処理を行う
 前記(1)~(10)のいずれか一つに記載の画像認識装置。
(13)
 前記撮像部は、
 前記認識部によって前記被写体が検出される前には、前記長時間露光撮像画素、前記中時間露光撮像画素、および前記短時間露光撮像画素を使用し、高解像および高フレームレートで撮像した画像全体の画像データを生成し、
 前記認識部によって検出された前記被写体が信号機の場合には、前記中時間露光撮像画素を使用し、前記被写体が車両の場合には、前記短時間露光撮像画素を使用して、高解像度および高フレームレートで撮像した画像から前記被写体を切り出した画像データを生成し、
 前記認識部は、
 前記被写体を検出する前には、前記画像データから前記被写体を認識する処理を行い、前記被写体を認識した後には、前記画像データに基づいて前記被写体に応じた認識処理を行う
 前記(5)に記載の画像認識装置。
(14)
 感度が異なる撮像画素を使用し、1フレーム期間に複数の画像を同一の露光開始タイミングで撮像して画像データを生成し、
 前記画像データのそれぞれから被写体を認識する
 画像認識方法。
 100 画像認識システム
 1 イメージセンサ
 10 撮像部
 11 撮像素子
 12 A/D変換部
 13 信号処理部
 14 認識部
 15 データ送信判断部
 16 SEL
 17 送信部
 2 AP
 21 受信部
 22 認証部
 23 認証用データ記憶部
 31 物体認識部
 32 物体認識用データ記憶部

Claims (14)

  1.  感度が異なる撮像画素を使用し、1フレーム期間に複数の画像を同一の露光開始タイミングで撮像して画像データを生成する撮像部と、
     前記画像データのそれぞれから被写体を認識する認識部と
     を有する画像認識装置。
  2.  前記撮像部は、
     受光面積が同一であり露光時間が異なる複数の前記撮像画素が2次元に配列された画素アレイ
     を有する請求項1に記載の画像認識装置。
  3.  前記撮像部は、
     受光面積が同一であり積層されるカラーフィルタの透光率が異なる複数の前記撮像画素が2次元に配列された画素アレイ
     を有する請求項1に記載の画像認識装置。
  4.  前記撮像部は、
     受光面積が異なる複数の前記撮像画素が2次元に配列された画素アレイ
     を有する請求項1に記載の画像認識装置。
  5.  前記撮像部は、
     長時間露光撮像画素、中時間露光撮像画素、および短時間露光撮像画素が2次元に配列された画素アレイ
     を有する請求項1に記載の画像認識装置。
  6.  前記撮像部は、
     低感度撮像画素、中感度撮像画素、および高感度撮像画素が2次元に配列された画素アレイ
     を有する請求項1に記載の画像認識装置。
  7.  前記認識部は、
     前記被写体を認識した場合に、前記被写体の認識結果および前記画像データを後段の装置へ出力し、前記被写体を認識しない場合に、その旨を示す情報を後段の装置へ出力する
     請求項1に記載の画像認識装置。
  8.  前記認識部は、
     デモザイク処理が実行された前記画像データから前記被写体を認識する
     請求項1に記載の画像認識装置。
  9.  前記認識部は、
     デモザイク処理が実行されない前記画像データから前記被写体を認識する
     請求項1に記載の画像認識装置。
  10.  前記認識部は、
     前記撮像部から入力される前記画像データから前記被写体を認識する
     請求項1に記載の画像認識装置。
  11.  前記撮像部は、
     前記認識部によって前記被写体が検出される前には、低感度の前記撮像画素を使用し、低解像および低フレームレートで撮像した画像全体の画像データを生成し、
     前記認識部によって前記被写体が検出された後には、高感度の前記撮像画素を使用し、高解像度および高フレームレートで撮像した画像から前記被写体を切り出した画像データを生成し、
     前記認識部は、
     前記被写体を検出する前には、前記画像データに前記被写体が存在するか否かを認識し、前記被写体を検出した後には、前記被写体が何かを認識する
     請求項1に記載の画像認識装置。
  12.  前記撮像部は、
     前記認識部によって前記被写体が検出される前には、低感度の前記撮像画素および高感度の前記撮像画素を使用し、高解像および高フレームレートで撮像した画像全体の画像データを生成し、
     前記認識部によって検出された前記被写体が信号機の場合には、低感度の前記撮像画素を使用し、前記被写体が車両の場合には、高感度の前記撮像画素を使用して、高解像度および高フレームレートで撮像した画像から前記被写体を切り出した画像データを生成し、
     前記認識部は、
     前記被写体を検出する前には、前記画像データから前記被写体を認識する処理を行い、前記被写体を認識した後には、前記画像データに基づいて前記被写体に応じた認識処理を行う
     請求項1に記載の画像認識装置。
  13.  前記撮像部は、
     前記認識部によって前記被写体が検出される前には、前記長時間露光撮像画素、前記中時間露光撮像画素、および前記短時間露光撮像画素を使用し、高解像および高フレームレートで撮像した画像全体の画像データを生成し、
     前記認識部によって検出された前記被写体が信号機の場合には、前記中時間露光撮像画素を使用し、前記被写体が車両の場合には、前記短時間露光撮像画素を使用して、高解像度および高フレームレートで撮像した画像から前記被写体を切り出した画像データを生成し、
     前記認識部は、
     前記被写体を検出する前には、前記画像データから前記被写体を認識する処理を行い、前記被写体を認識した後には、前記画像データに基づいて前記被写体に応じた認識処理を行う
     請求項5に記載の画像認識装置。
  14.  感度が異なる撮像画素を使用し、1フレーム期間に複数の画像を同一の露光開始タイミングで撮像して画像データを生成し、
     前記画像データのそれぞれから被写体を認識する
     画像認識方法。
PCT/JP2020/018198 2019-05-10 2020-04-28 画像認識装置および画像認識方法 WO2020230636A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202080034146.1A CN113826105A (zh) 2019-05-10 2020-04-28 图像识别装置和图像识别方法
US17/608,254 US11710291B2 (en) 2019-05-10 2020-04-28 Image recognition device and image recognition method
DE112020002319.2T DE112020002319T5 (de) 2019-05-10 2020-04-28 Bilderkennungsvorrichtung und bilderkennungsverfahren
KR1020217035917A KR20220006520A (ko) 2019-05-10 2020-04-28 화상 인식 장치 및 화상 인식 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019089917A JP2020188310A (ja) 2019-05-10 2019-05-10 画像認識装置および画像認識方法
JP2019-089917 2019-05-10

Publications (1)

Publication Number Publication Date
WO2020230636A1 true WO2020230636A1 (ja) 2020-11-19

Family

ID=73223010

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/018198 WO2020230636A1 (ja) 2019-05-10 2020-04-28 画像認識装置および画像認識方法

Country Status (7)

Country Link
US (1) US11710291B2 (ja)
JP (1) JP2020188310A (ja)
KR (1) KR20220006520A (ja)
CN (1) CN113826105A (ja)
DE (1) DE112020002319T5 (ja)
TW (1) TWI800722B (ja)
WO (1) WO2020230636A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202143119A (zh) * 2020-05-07 2021-11-16 瑞典商安訊士有限公司 在具有光強度廣泛範圍的場景中利用神經網路之物件偵測
WO2022012748A1 (en) * 2020-07-15 2022-01-20 Veoneer Sweden Ab Vision system for a motor vehicle
CN112085701A (zh) * 2020-08-05 2020-12-15 深圳市优必选科技股份有限公司 一种人脸模糊度检测方法、装置、终端设备及存储介质
WO2023140026A1 (ja) * 2022-01-18 2023-07-27 ソニーセミコンダクタソリューションズ株式会社 情報処理装置
WO2023145698A1 (ja) * 2022-01-28 2023-08-03 i-PRO株式会社 カメラ装置および画像処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017055350A (ja) * 2015-09-11 2017-03-16 株式会社東芝 固体撮像装置
WO2017187811A1 (ja) * 2016-04-27 2017-11-02 ソニー株式会社 撮像制御装置及び撮像制御方法、並びに撮像装置
JP2018092610A (ja) * 2016-11-28 2018-06-14 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
WO2018105474A1 (ja) * 2016-12-08 2018-06-14 パナソニックIpマネジメント株式会社 固体撮像装置および撮像装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011106578A2 (en) 2010-02-26 2011-09-01 Gentex Corporation Automatic vehicle equipment monitoring, warning, and control system
JP5678804B2 (ja) 2011-05-27 2015-03-04 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
US9596398B2 (en) * 2011-09-02 2017-03-14 Microsoft Technology Licensing, Llc Automatic image capture
JP2014103643A (ja) * 2012-11-22 2014-06-05 Canon Inc 撮像装置及び被写体認識方法
JP6891119B2 (ja) * 2015-09-24 2021-06-18 ソニーセミコンダクタソリューションズ株式会社 固体撮像素子及び電子機器
US10666881B2 (en) * 2015-09-24 2020-05-26 Sony Semiconductor Solutions Corporation Solid-state image sensor and electronic device
US10362246B2 (en) * 2016-03-31 2019-07-23 Sony Corporation Solid-state image pickup device, method of driving the same, and electronic apparatus
JP2018169517A (ja) * 2017-03-30 2018-11-01 ソニーセミコンダクタソリューションズ株式会社 撮像装置、撮像モジュールおよび撮像装置の制御方法
KR102385365B1 (ko) * 2017-07-21 2022-04-12 삼성전자주식회사 전자 장치 및 전자 장치에서 이미지 데이터를 압축하는 방법
EP3462731B1 (en) * 2017-09-29 2021-11-10 Canon Kabushiki Kaisha Imaging device, imaging system, and moving body

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017055350A (ja) * 2015-09-11 2017-03-16 株式会社東芝 固体撮像装置
WO2017187811A1 (ja) * 2016-04-27 2017-11-02 ソニー株式会社 撮像制御装置及び撮像制御方法、並びに撮像装置
JP2018092610A (ja) * 2016-11-28 2018-06-14 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
WO2018105474A1 (ja) * 2016-12-08 2018-06-14 パナソニックIpマネジメント株式会社 固体撮像装置および撮像装置

Also Published As

Publication number Publication date
TWI800722B (zh) 2023-05-01
KR20220006520A (ko) 2022-01-17
DE112020002319T5 (de) 2022-01-27
JP2020188310A (ja) 2020-11-19
CN113826105A (zh) 2021-12-21
TW202101959A (zh) 2021-01-01
US11710291B2 (en) 2023-07-25
US20220207850A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
WO2020230636A1 (ja) 画像認識装置および画像認識方法
WO2020241336A1 (ja) 画像認識装置および画像認識方法
WO2020230660A1 (ja) 画像認識装置、固体撮像装置、および画像認識方法
WO2017175492A1 (ja) 画像処理装置、画像処理方法、コンピュータプログラム及び電子機器
WO2021060118A1 (ja) 撮像装置
JP6803989B2 (ja) 固体撮像装置及びその駆動方法
WO2017169233A1 (ja) 撮像処理装置、撮像処理方法、コンピュータプログラム及び電子機器
US11025828B2 (en) Imaging control apparatus, imaging control method, and electronic device
US20210297589A1 (en) Imaging device and method of controlling imaging device
JP7144926B2 (ja) 撮像制御装置、撮像装置、および、撮像制御装置の制御方法
WO2020246264A1 (ja) 測距センサ、信号処理方法、および、測距モジュール
WO2020209079A1 (ja) 測距センサ、信号処理方法、および、測距モジュール
JP2021190848A (ja) 検出装置、検出システム及び検出方法
WO2020230635A1 (ja) 撮像装置および撮像方法
WO2020149094A1 (ja) 撮像装置、撮像システムおよび故障検出方法
WO2021192459A1 (ja) 撮像装置
WO2022249562A1 (ja) 信号処理装置および方法、並びにプログラム
WO2021166601A1 (ja) 撮像装置、および撮像方法
WO2020166284A1 (ja) 撮像装置
JP2021033334A (ja) 情報処理装置、情報処理方法、および情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20806560

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20806560

Country of ref document: EP

Kind code of ref document: A1