WO2022019026A1 - 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム Download PDF

Info

Publication number
WO2022019026A1
WO2022019026A1 PCT/JP2021/023543 JP2021023543W WO2022019026A1 WO 2022019026 A1 WO2022019026 A1 WO 2022019026A1 JP 2021023543 W JP2021023543 W JP 2021023543W WO 2022019026 A1 WO2022019026 A1 WO 2022019026A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
pixel
reading
recognition processing
information processing
Prior art date
Application number
PCT/JP2021/023543
Other languages
English (en)
French (fr)
Inventor
卓 青木
竜太 佐藤
啓太郎 山本
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US18/005,189 priority Critical patent/US20230269498A1/en
Priority to JP2022538642A priority patent/JPWO2022019026A1/ja
Priority to DE112021003849.4T priority patent/DE112021003849T5/de
Publication of WO2022019026A1 publication Critical patent/WO2022019026A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/40Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled
    • H04N25/44Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled by partially reading an SSIS array
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/40Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/81Camera processing pipelines; Components thereof for suppressing or minimising disturbance in the image signal generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/60Noise processing, e.g. detecting, correcting, reducing or removing noise
    • H04N25/61Noise processing, e.g. detecting, correcting, reducing or removing noise the noise originating only from the lens unit, e.g. flare, shading, vignetting or "cos4"

Definitions

  • This disclosure relates to information processing devices, information processing systems, information processing methods, and information processing programs.
  • One aspect of the present disclosure is an information processing device, an information processing system, an information processing method, which can suppress a decrease in the recognition rate of the recognition process even when a non-linear distortion depending on the light beam distribution of the optical system occurs in the image. And provide an information processing program.
  • a read unit is set as a part of a pixel region in which a plurality of pixels are arranged in a two-dimensional array, and pixels from pixels included in the pixel region are set.
  • a reading unit that controls the reading of signals, and a reading unit
  • a correction unit that corrects the reading unit based on the distortion parameter of the lens and causes the reading unit to read the pixel signal.
  • An information processing device is provided.
  • the correction unit may correct the read unit by applying an inverse transformation of the distortion correction to the read unit based on the distortion parameter of the lens.
  • a feature amount calculation unit that calculates a feature amount based on the pixel signal corrected and read out based on the distortion parameter. You may also prepare further.
  • a recognition processing execution unit that performs recognition processing based on the feature amount may be further provided.
  • the correction unit may calculate the coordinate position obtained by correcting the linear coordinate sequence based on the distortion parameter of the lens, and the reading unit may control the reading of the pixel signal based on the corrected coordinate position.
  • the correction unit may calculate a coordinate position in which the subsampling coordinate group is corrected based on the distortion parameter of the lens, and the reading unit may control reading of the pixel signal based on the corrected coordinate position.
  • a read pixel is set as a part of a pixel region in which a plurality of pixels are arranged in a two-dimensional array, and pixels from the pixels included in the pixel region are set.
  • a reading unit that controls the reading of signals, and a reading unit
  • a second correction unit that corrects the coordinates of the pixel signal from the pixels included in the pixel area based on the distortion parameter of the lens.
  • a recognition processing execution unit that performs recognition processing based on the corrected pixel signal may be further provided.
  • the recognition processing unit may have a point net type recognizer.
  • the second correction unit may supply the corrected pixel signal according to the range corresponding to each line of the pixel signal read by the reading unit to the recognition processing execution unit.
  • a read pixel is set as a part of a pixel region in which a plurality of pixels are arranged in a two-dimensional array, and pixels from pixels included in the pixel region are set.
  • a reading unit that controls the reading of signals, and a reading unit
  • a recognition processing execution unit that has a plurality of recognizers learned according to a plurality of lenses and performs recognition processing based on the read pixel signal. Equipped with The recognition processing execution unit is provided with an information processing apparatus that performs recognition processing using a recognizer corresponding to the image pickup of the pixel signal.
  • the recognition processing unit may perform recognition processing using a recognizer corresponding to the optical system used for capturing the pixel signal.
  • one aspect of the present disclosure is a sensor unit in which a plurality of pixels are arranged in a two-dimensional array.
  • An information processing system equipped with a recognition processing unit.
  • the recognition processing unit A reading unit that sets a reading pixel as a part of the pixel area of the sensor unit and controls reading of a pixel signal from a pixel included in the pixel area.
  • a correction unit that corrects the reading unit based on the distortion parameter of the lens and causes the reading unit to read the pixel signal.
  • one aspect of the present disclosure is a sensor unit in which a plurality of pixels are arranged in a two-dimensional array.
  • An information processing system equipped with a recognition processing unit.
  • the recognition processing unit A reading unit that sets a reading pixel as a part of a pixel area in which a plurality of pixels are arranged in a two-dimensional array and controls reading of a pixel signal from the pixels included in the pixel area.
  • a second correction unit that corrects the coordinates of the pixel signal from the pixels included in the pixel area based on the distortion parameter of the lens.
  • one aspect of the present disclosure is a sensor unit in which a plurality of pixels are arranged in a two-dimensional array.
  • An information processing system equipped with a recognition processing unit.
  • the recognition processing unit A reading unit that sets a reading pixel as a part of a pixel area in which a plurality of pixels are arranged in a two-dimensional array and controls reading of a pixel signal from the pixels included in the pixel area.
  • a recognition processing execution unit that has a plurality of recognizers learned according to a plurality of lenses and performs recognition processing based on the read pixel signal. Have,
  • the recognition processing execution unit is provided with an information processing system that performs recognition processing using a recognizer corresponding to the image pickup of the pixel signal. ..
  • a read unit is set as a part of a pixel region in which a plurality of pixels are arranged in a two-dimensional array, and pixels from pixels included in the pixel region are set.
  • the reading process that controls the reading of the signal and A correction step of correcting the reading unit based on the distortion parameter of the lens and causing the reading unit to read the pixel signal.
  • An information processing method is provided.
  • a read pixel is set as a part of a pixel region in which a plurality of pixels are arranged in a two-dimensional array, and pixels from the pixels included in the pixel region are set.
  • the reading process that controls the reading of the signal and A second correction step of correcting the coordinates of the pixel signal from the pixels included in the pixel area based on the distortion parameter of the lens, and An information processing method is provided.
  • a read pixel is set as a part of a pixel region in which a plurality of pixels are arranged in a two-dimensional array, and pixels from the pixels included in the pixel region are set.
  • the reading process that controls the reading of the signal and A recognition processing execution step of having a plurality of recognizers learned according to a plurality of lenses and performing recognition processing based on the read pixel signal. Equipped with In the recognition processing execution step, recognition processing is performed using a recognizer corresponding to the imaging of the pixel signal.
  • Information processing method provided.
  • a read unit is set as a part of a pixel region in which a plurality of pixels are arranged in a two-dimensional array, and pixels from pixels included in the pixel region are set.
  • the reading process that controls the reading of the signal and A correction step of correcting the reading unit based on the distortion parameter of the lens and causing the reading unit to read the pixel signal. Is provided with a program that causes the computer to execute.
  • a read pixel is set as a part of a pixel region in which a plurality of pixels are arranged in a two-dimensional array, and pixels from the pixels included in the pixel region are set.
  • the reading process that controls the reading of the signal and A second correction step of correcting the coordinates of the pixel signal from the pixels included in the pixel area based on the distortion parameter of the lens, and Is provided with a program that causes the computer to execute.
  • a read pixel is set as a part of a pixel region in which a plurality of pixels are arranged in a two-dimensional array, and pixels from the pixels included in the pixel region are set.
  • the reading process that controls the reading of the signal and It is a program that has a plurality of recognizers learned according to a plurality of lenses and causes a computer to execute a recognition process execution step of performing a recognition process based on the read pixel signal.
  • a program for causing a computer to execute a recognition process using a recognizer corresponding to the image pickup of the pixel signal is provided.
  • the block diagram which shows the structure of an example of the image pickup apparatus applicable to each embodiment of this disclosure.
  • the schematic diagram which shows the example of the hardware composition of the image pickup apparatus which concerns on each embodiment.
  • the schematic diagram which shows the example of the hardware composition of the image pickup apparatus which concerns on each embodiment.
  • the block diagram which shows the structure of an example of the sensor part applicable to each embodiment. It is a schematic diagram for demonstrating the rolling shutter system.
  • the schematic diagram for demonstrating the rolling shutter system The schematic diagram for demonstrating the rolling shutter system.
  • the schematic diagram for demonstrating the line thinning in a rolling shutter system The schematic diagram for demonstrating the line thinning in a rolling shutter system.
  • the schematic diagram for demonstrating the line thinning in a rolling shutter system The figure which shows typically the example of the other image pickup method in the rolling shutter system.
  • the figure which shows typically the example of the other image pickup method in the rolling shutter system The schematic diagram for demonstrating the global shutter system.
  • the schematic diagram for demonstrating the global shutter system The schematic diagram for demonstrating the global shutter system.
  • the schematic diagram for demonstrating the global shutter system The figure which shows typically the example of the sampling pattern which can be realized in a global shutter system.
  • the figure for demonstrating the image recognition processing by CNN The schematic diagram for demonstrating the image recognition processing by CNN.
  • the figure for demonstrating the relationship between the driving speed of a frame and the reading amount of a pixel signal The schematic diagram for schematically explaining the recognition process which concerns on each embodiment of this disclosure.
  • FIG. 9B the figure which shows the example of the case where the pixel is subsampled in a grid pattern.
  • a flowchart showing the processing flow of the recognition processing unit The figure which shows the conventional data processed by the processing flow shown in the upper part of FIG.
  • the block diagram which shows an example of the schematic structure of a vehicle control system. Explanatory drawing which shows an example of the installation position of the outside information detection unit and the image pickup unit.
  • an information processing device an information processing system, an information processing method, and an embodiment of an information processing program will be described with reference to the drawings.
  • the main components of the information processing device, information processing system, information processing method, and information processing program will be mainly described, but the information processing device, information processing system, information processing method, and information processing program are illustrated. Or there may be components or functions that are not described. The following description does not exclude components or functions not shown or described.
  • FIG. 1 is a block diagram showing a configuration of an example of the information processing system 1.
  • the information processing system 1 includes a sensor unit 10, a sensor control unit 11, a recognition processing unit 12, a memory 13, a visual recognition processing unit 14, and an output control unit 15.
  • Each of these parts is a CMOS image sensor (CIS) integrally formed using, for example, CMOS (Complementary Metal Oxide Seminometer).
  • CMOS Complementary Metal Oxide Seminometer
  • the information processing system 1 is not limited to this example, and may be another type of optical sensor such as an infrared light sensor that performs imaging with infrared light.
  • the sensor control unit 11, the recognition processing unit 12, the memory 13, the visual recognition processing unit 14, and the output control unit 15 constitute an information processing device 2.
  • the sensor unit 10 outputs a pixel signal corresponding to the light radiated to the light receiving surface via the optical system of the optical unit 30. More specifically, the sensor unit 10 has a pixel array in which pixels including at least one photoelectric conversion element are arranged in a matrix. A light receiving surface is formed by each pixel arranged in a matrix in a pixel array. Further, the sensor unit 10 further performs a drive circuit for driving each pixel included in the pixel array and a signal that performs predetermined signal processing on the signal read from each pixel and outputs the signal as a pixel signal of each pixel. Includes processing circuits. The sensor unit 10 outputs the pixel signal of each pixel included in the pixel area as digital image data.
  • the area in which the pixels effective for generating the pixel signal are arranged is referred to as a frame.
  • Frame image data is formed by pixel data based on each pixel signal output from each pixel included in the frame.
  • each line in the pixel array of the sensor unit 10 is called a line, and line image data is formed by pixel data based on a pixel signal output from each pixel included in the line.
  • imaging an operation in which the sensor unit 10 outputs a pixel signal corresponding to the light applied to the light receiving surface.
  • the sensor unit 10 controls the exposure at the time of imaging and the gain (analog gain) with respect to the pixel signal according to the image pickup control signal supplied from the sensor control unit 11 described later.
  • the sensor control unit 11 is configured by, for example, a microprocessor, controls the reading of pixel data from the sensor unit 10, and outputs pixel data based on each pixel signal read from each pixel included in the frame.
  • the pixel data output from the sensor control unit 11 is supplied to the recognition processing unit 12 and the visual recognition processing unit 14.
  • the sensor control unit 11 generates an image pickup control signal for controlling the image pickup in the sensor unit 10.
  • the sensor control unit 11 generates an image pickup control signal according to instructions from the recognition processing unit 12 and the visual recognition processing unit 14, which will be described later, for example.
  • the image pickup control signal includes the above-mentioned information indicating the exposure and analog gain at the time of image pickup in the sensor unit 10.
  • the image pickup control signal further includes a control signal (vertical synchronization signal, horizontal synchronization signal, etc.) used by the sensor unit 10 to perform an image pickup operation.
  • the sensor control unit 11 supplies the generated image pickup control signal to the sensor unit 10.
  • the optical unit 30 is for irradiating the light receiving surface of the sensor unit 10 with light from the subject, and is arranged at a position corresponding to, for example, the sensor unit 10.
  • the optical unit 30 includes, for example, a plurality of lenses, a diaphragm mechanism for adjusting the size of the aperture with respect to the incident light, and a focus mechanism for adjusting the focus of the light applied to the light receiving surface.
  • the optical unit 30 may further include a shutter mechanism (mechanical shutter) that adjusts the time for irradiating the light receiving surface with light.
  • the aperture mechanism, focus mechanism, and shutter mechanism of the optical unit 30 can be controlled by, for example, the sensor control unit 11. Not limited to this, the aperture and focus in the optical unit 30 can be controlled from the outside of the information processing system 1. It is also possible to integrally configure the optical unit 30 with the information processing system 1.
  • the recognition processing unit 12 performs recognition processing of an object included in the image based on the pixel data based on the pixel data supplied from the sensor control unit 11.
  • a DSP Digital Signal Processor
  • DNN Deep Natural Network
  • a recognition processing unit 12 as a machine learning unit is configured.
  • the recognition processing unit 12 can instruct the sensor control unit 11 to read the pixel data required for the recognition processing from the sensor unit 10.
  • the recognition result by the recognition processing unit 12 is supplied to the output control unit 15.
  • the visual recognition processing unit 14 executes processing for obtaining an image suitable for human recognition with respect to the pixel data supplied from the sensor control unit 11, and outputs, for example, image data consisting of a set of pixel data. do.
  • the visual recognition processing unit 14 is configured by reading and executing a program stored in advance in a memory (not shown) in which an ISP (Image Signal Processor) is not shown.
  • ISP Image Signal Processor
  • the visual recognition processing unit 14 when the visual recognition processing unit 14 is provided with a color filter for each pixel included in the sensor unit 10 and the pixel data has R (red), G (green), and B (blue) color information, demosaic. Processing, white balance processing, etc. can be executed. Further, the visual recognition processing unit 14 can instruct the sensor control unit 11 to read the pixel data required for the visual recognition processing from the sensor unit 10. The image data whose pixel data has been image-processed by the visual recognition processing unit 14 is supplied to the output control unit 15.
  • the output control unit 15 is configured by, for example, a microprocessor, and processes one or both of the recognition result supplied from the recognition processing unit 12 and the image data supplied as the visual recognition processing result from the visual recognition processing unit 14. Output to the outside of system 1.
  • the output control unit 15 can output image data to, for example, a display unit 31 having a display device. As a result, the user can visually recognize the image data displayed by the display unit 31.
  • the display unit 31 may be built in the information processing system 1 or may have an external configuration of the information processing system 1.
  • FIG. 2A and 2B are schematic views showing an example of the hardware configuration of the information processing system 1 according to each embodiment.
  • the sensor unit 10, the sensor control unit 11, the recognition processing unit 12, the memory 13, the visual recognition processing unit 14, and the output control unit 15 are mounted on one chip 2 in the configuration shown in FIG. This is an example.
  • the memory 13 and the output control unit 15 are omitted in order to avoid complication.
  • the recognition result by the recognition processing unit 12 is output to the outside of the chip 2 via an output control unit 15 (not shown). Further, in the configuration of FIG. 2A, the recognition processing unit 12 can acquire pixel data for use in recognition from the sensor control unit 11 via the internal interface of the chip 2.
  • the sensor unit 10, the sensor control unit 11, the visual recognition processing unit 14, and the output control unit 15 are mounted on one chip 2 in the configuration shown in FIG. 1, and the recognition processing unit 12 and the memory 13 ( (Not shown) is an example placed outside the chip 2. Also in FIG. 2B, the memory 13 and the output control unit 15 are omitted in order to avoid complication, as in FIG. 2A described above.
  • the recognition processing unit 12 acquires pixel data to be used for recognition via an interface for communicating between chips. Further, in FIG. 2B, the recognition result by the recognition processing unit 12 is shown to be directly output to the outside from the recognition processing unit 12, but this is not limited to this example. That is, in the configuration of FIG. 2B, the recognition processing unit 12 may return the recognition result to the chip 2 and output it from the output control unit 15 (not shown) mounted on the chip 2.
  • the recognition processing unit 12 is mounted on the chip 2 together with the sensor control unit 11, and communication between the recognition processing unit 12 and the sensor control unit 11 can be executed at high speed by the internal interface of the chip 2. ..
  • the recognition processing unit 12 cannot be replaced, and it is difficult to change the recognition processing.
  • the recognition processing unit 12 since the recognition processing unit 12 is provided outside the chip 2, communication between the recognition processing unit 12 and the sensor control unit 11 is performed via the interface between the chips. There is a need. Therefore, the communication between the recognition processing unit 12 and the sensor control unit 11 is slower than that of the configuration of FIG. 2A, and there is a possibility that a delay may occur in the control.
  • the recognition processing unit 12 can be easily replaced, and various recognition processes can be realized.
  • one chip 2 in FIG. 2A has a sensor unit 10, a sensor control unit 11, a recognition processing unit 12, a memory 13, a visual recognition processing unit 14, and an output control unit 15.
  • the installed configuration shall be adopted.
  • the information processing system 1 can be formed on one substrate.
  • the information processing system 1 may be a laminated CIS in which a plurality of semiconductor chips are laminated and integrally formed.
  • FIG. 3A is a diagram showing an example in which the information processing system 1 according to each embodiment is formed by a laminated CIS having a two-layer structure.
  • the pixel portion 20a is formed on the semiconductor chip of the first layer
  • the memory + logic portion 20b is formed on the semiconductor chip of the second layer.
  • the pixel unit 20a includes at least the pixel array in the sensor unit 10.
  • the memory + logic unit 20b includes, for example, a sensor control unit 11, a recognition processing unit 12, a memory 13, a visual recognition processing unit 14, and an output control unit 15, and an interface for communicating between the information processing system 1 and the outside.
  • the memory + logic unit 20b further includes a part or all of the drive circuit for driving the pixel array in the sensor unit 10. Further, although not shown, the memory + logic unit 20b can further include, for example, a memory used by the visual recognition processing unit 14 for processing image data.
  • the information processing system 1 is configured as one solid-state image sensor by bonding the semiconductor chip of the first layer and the semiconductor chip of the second layer while electrically contacting each other. ..
  • the information processing system 1 can be formed by a three-layer structure in which semiconductor chips are laminated in three layers.
  • FIG. 3B is a diagram showing an example in which the information processing system 1 according to each embodiment is formed by a laminated CIS having a three-layer structure.
  • the pixel portion 20a is formed on the semiconductor chip of the first layer
  • the memory portion 20c is formed on the semiconductor chip of the second layer
  • the logic portion 20b' is formed on the semiconductor chip of the third layer.
  • the logic unit 20b' includes, for example, a sensor control unit 11, a recognition processing unit 12, a visual recognition processing unit 14, an output control unit 15, and an interface for communicating between the information processing system 1 and the outside.
  • the memory unit 20c can include a memory 13 and a memory used by, for example, the visual recognition processing unit 14 for processing image data.
  • the memory 13 may be included in the logic unit 20b'.
  • the information processing system 1 is formed by bonding the semiconductor chip of the first layer, the semiconductor chip of the second layer, and the semiconductor chip of the third layer while electrically contacting each other. It is configured as one solid-state image sensor.
  • FIG. 4 is a block diagram showing a configuration of an example of the sensor unit 10 applicable to each embodiment.
  • the sensor unit 10 includes a pixel array unit 101, a vertical scanning unit 102, an AD (Analog to Digital) conversion unit 103, a pixel signal line 106, a vertical signal line VSL, a control unit 1100, and a signal.
  • the processing unit 1101 and the like are included.
  • the control unit 1100 and the signal processing unit 1101 may be included in the sensor control unit 11 shown in FIG. 1, for example.
  • the pixel array unit 101 includes a plurality of pixel circuits 100 including, for example, a photoelectric conversion element using a photodiode and a circuit for reading out charges from the photoelectric conversion element, each of which performs photoelectric conversion with respect to the received light.
  • the plurality of pixel circuits 100 are arranged in a matrix arrangement in the horizontal direction (row direction) and the vertical direction (column direction).
  • the arrangement in the row direction of the pixel circuit 100 is called a line.
  • the pixel array unit 101 includes at least 1080 lines including at least 1920 pixel circuits 100.
  • An image (image data) of one frame is formed by a pixel signal read from a pixel circuit 100 included in the frame.
  • the pixel signal line 106 is connected to each row and column of each pixel circuit 100, and the vertical signal line VSL is connected to each column.
  • the end portion of the pixel signal line 106 that is not connected to the pixel array portion 101 is connected to the vertical scanning portion 102.
  • the vertical scanning unit 102 transmits a control signal such as a drive pulse when reading a pixel signal from a pixel to the pixel array unit 101 via the pixel signal line 106 according to the control of the control unit 1100 described later.
  • the end portion of the vertical signal line VSL that is not connected to the pixel array unit 101 is connected to the AD conversion unit 103.
  • the pixel signal read from the pixels is transmitted to the AD conversion unit 103 via the vertical signal line VSL.
  • the control of reading out the pixel signal from the pixel circuit 100 will be schematically described.
  • the reading of the pixel signal from the pixel circuit 100 is performed by transferring the charge accumulated in the photoelectric conversion element due to exposure to the floating diffusion layer (FD) and converting the transferred charge in the floating diffusion layer into a voltage. conduct.
  • the voltage at which the charge is converted in the floating diffusion layer is output to the vertical signal line VSL via an amplifier.
  • the floating diffusion layer and the vertical signal line VSL are connected according to the selection signal supplied via the pixel signal line 106. Further, the floating diffusion layer is connected to the supply line of the power supply voltage VDD or the black level voltage in a short period of time according to the reset pulse supplied via the pixel signal line 106 to reset the floating diffusion layer. A voltage (referred to as voltage A) at the reset level of the stray diffusion layer is output to the vertical signal line VSL.
  • the transfer pulse supplied via the pixel signal line 106 puts the photoelectric conversion element and the floating diffusion layer in an on (closed) state, and transfers the electric charge accumulated in the photoelectric conversion element to the floating diffusion layer.
  • a voltage (referred to as voltage B) corresponding to the amount of electric charge of the floating diffusion layer is output to the vertical signal line VSL.
  • the AD conversion unit 103 includes an AD converter 107 provided for each vertical signal line VSL, a reference signal generation unit 104, and a horizontal scanning unit 105.
  • the AD converter 107 is a column AD converter that performs AD conversion processing on each column of the pixel array unit 101.
  • the AD converter 107 performs AD conversion processing on a pixel signal supplied from a pixel circuit 100 via a vertical signal line VSL, and is used for correlated double sampling (CDS: Digital Double Sampling) processing for noise reduction. Generates two digital values (values corresponding to voltage A and voltage B, respectively).
  • CDS Digital Double Sampling
  • the AD converter 107 supplies the two generated digital values to the signal processing unit 1101.
  • the signal processing unit 1101 performs CDS processing based on the two digital values supplied from the AD converter 107, and generates a pixel signal (pixel data) based on the digital signal.
  • the pixel data generated by the signal processing unit 1101 is output to the outside of the sensor unit 10.
  • the reference signal generation unit 104 generates a lamp signal as a reference signal, which is used by each AD converter 107 to convert the pixel signal into two digital values, based on the control signal input from the control unit 1100.
  • the lamp signal is a signal whose level (voltage value) decreases with a constant slope with respect to time, or a signal whose level decreases stepwise.
  • the reference signal generation unit 104 supplies the generated lamp signal to each AD converter 107.
  • the reference signal generation unit 104 is configured by using, for example, a DAC (Digital to Analog Converter) or the like.
  • the counter starts counting according to the clock signal.
  • the comparator compares the voltage of the pixel signal supplied from the vertical signal line VSL with the voltage of the lamp signal, and stops the counting by the counter at the timing when the voltage of the lamp signal crosses the voltage of the pixel signal.
  • the AD converter 107 converts the pixel signal of the analog signal into a digital value by outputting a value corresponding to the count value of the time when the count is stopped.
  • the AD converter 107 supplies the two generated digital values to the signal processing unit 1101.
  • the signal processing unit 1101 performs CDS processing based on the two digital values supplied from the AD converter 107, and generates a pixel signal (pixel data) based on the digital signal.
  • the pixel signal generated by the digital signal generated by the signal processing unit 1101 is output to the outside of the sensor unit 10.
  • the horizontal scanning unit 105 Under the control of the control unit 1100, the horizontal scanning unit 105 performs selective scanning in which the AD converters 107 are selected in a predetermined order to temporarily hold each digital value of the AD converters 107. It is sequentially output to the signal processing unit 1101.
  • the horizontal scanning unit 105 is configured by using, for example, a shift register, an address decoder, or the like.
  • the control unit 1100 performs drive control of the vertical scanning unit 102, the AD conversion unit 103, the reference signal generation unit 104, the horizontal scanning unit 105, and the like according to the image pickup control signal supplied from the sensor control unit 11.
  • the control unit 1100 generates various drive signals that serve as a reference for the operation of the vertical scanning unit 102, the AD conversion unit 103, the reference signal generation unit 104, and the horizontal scanning unit 105.
  • the control unit 1100 is for supplying the vertical scanning unit 102 to each pixel circuit 100 via the pixel signal line 106, for example, based on the vertical synchronization signal or the external trigger signal included in the image pickup control signal and the horizontal synchronization signal. Generate a control signal.
  • the control unit 1100 supplies the generated control signal to the vertical scanning unit 102.
  • control unit 1100 outputs, for example, information indicating an analog gain included in the image pickup control signal supplied from the sensor control unit 11 to the AD conversion unit 103.
  • the AD conversion unit 103 controls the gain of the pixel signal input to each AD converter 107 included in the AD conversion unit 103 via the vertical signal line VSL according to the information indicating the analog gain.
  • the vertical scanning unit 102 Based on the control signal supplied from the control unit 1100, the vertical scanning unit 102 transmits various signals including a drive pulse to the pixel signal line 106 of the selected pixel row of the pixel array unit 101 to each pixel circuit 100 for each line. It is supplied, and the pixel signal is output from each pixel circuit 100 to the vertical signal line VSL.
  • the vertical scanning unit 102 is configured by using, for example, a shift register or an address decoder. Further, the vertical scanning unit 102 controls the exposure in each pixel circuit 100 according to the information indicating the exposure supplied from the control unit 1100.
  • the sensor unit 10 configured in this way is a column AD type CMOS (Complementary Metal Oxide Sensor) image sensor in which an AD converter 107 is arranged for each column.
  • CMOS Complementary Metal Oxide Sensor
  • a rolling shutter (RS) method and a global shutter (GS) method are known as an image pickup method when an image is taken by the pixel array unit 101.
  • RS rolling shutter
  • GS global shutter
  • 5A, 5B and 5C are schematic views for explaining the rolling shutter method.
  • imaging is performed in order from line 201 at the upper end of the frame 200, for example, in line units.
  • imaging is described as referring to an operation in which the sensor unit 10 outputs a pixel signal according to the light applied to the light receiving surface. More specifically, “imaging” refers to a series of operations from exposing a pixel to transferring a pixel signal based on the charge accumulated by the exposure to the photoelectric conversion element included in the pixel to the sensor control unit 11. And. Further, as described above, the frame refers to a region in the pixel array unit 101 in which a pixel circuit 100 effective for generating a pixel signal is arranged.
  • FIG. 5B schematically shows an example of the relationship between imaging and time in the rolling shutter method.
  • the vertical axis represents the line position and the horizontal axis represents time.
  • the exposure in each line is performed in sequence, so that the timing of exposure in each line shifts in order according to the position of the line, as shown in FIG. 5B. Therefore, for example, when the horizontal positional relationship between the information processing system 1 and the subject changes at high speed, the captured image of the frame 200 is distorted as illustrated in FIG. 5C.
  • the image 202 corresponding to the frame 200 is an image tilted at an angle corresponding to the speed and direction of change in the horizontal positional relationship between the information processing system 1 and the subject.
  • FIG. 6A is schematic views for explaining line thinning in the rolling shutter method.
  • image pickup is performed line by line from the line 201 at the upper end of the frame 200 toward the lower end of the frame 200.
  • imaging is performed while skipping lines at predetermined numbers.
  • imaging is performed every other line by thinning out one line. That is, after the imaging of the nth line, the imaging of the (n + 2) line is performed. At this time, it is assumed that the time from the imaging of the nth line to the imaging of the (n + 2) line is equal to the time from the imaging of the nth line to the imaging of the (n + 1) line when the thinning is not performed.
  • FIG. 6B schematically shows an example of the relationship between imaging and time when one line is thinned out in the rolling shutter method.
  • the vertical axis represents the line position and the horizontal axis represents time.
  • the exposure A corresponds to the exposure of FIG. 5B without thinning
  • the exposure B shows the exposure when one line is thinned.
  • image 203 in FIG. 6C the distortion in the tilt direction generated in the image of the captured frame 200 is smaller than that in the case where the line thinning shown in FIG. 5C is not performed.
  • the resolution of the image is lower than when line thinning is not performed.
  • 7A and 7B are diagrams schematically showing an example of another imaging method in the rolling shutter method.
  • line-sequential imaging can be performed from the lower end to the upper end of the frame 200.
  • the horizontal direction of the distortion of the image 202 is opposite to that in the case where the images are sequentially imaged in lines from the upper end to the lower end of the frame 200.
  • FIG. 7B schematically shows an example in which a rectangular region 205 whose width and height are less than the width and height of the frame 200 is used as the imaging range. In the example of FIG. 7B, imaging is performed from the line 204 at the upper end of the region 205 toward the lower end of the region 205 in a line-sequential manner.
  • GS global shutter
  • the first and second switches are opened, respectively, and at the end of the exposure, the first switch is opened and closed, and the photoelectric conversion element is used as a capacitor. Transfer the charge to.
  • the capacitor is regarded as a photoelectric conversion element, and the electric charge is read from the capacitor in the same sequence as the read operation described in the rolling shutter method. This enables simultaneous exposure in the all-pixel circuit 100 included in the frame 200.
  • FIG. 8B schematically shows an example of the relationship between imaging and time in the global shutter method.
  • the vertical axis represents the line position and the horizontal axis represents time.
  • the global shutter method exposure is performed simultaneously in all the pixel circuits 100 included in the frame 200, so that the exposure timing in each line can be the same as shown in FIG. 8B. Therefore, for example, even when the horizontal positional relationship between the information processing system 1 and the subject changes at high speed, as illustrated in FIG. 8C, the captured image 206 of the frame 200 shows the change. No corresponding distortion occurs.
  • the simultaneity of the exposure timing in the all-pixel circuit 100 included in the frame 200 can be ensured. Therefore, by controlling the timing of each pulse supplied by the pixel signal line 106 of each line and the timing of transfer by each vertical signal line VSL, sampling (reading of the pixel signal) in various patterns can be realized.
  • FIG. 9A and 9B are diagrams schematically showing an example of a sampling pattern that can be realized in the global shutter method.
  • FIG. 9A is an example in which a sample 208 for reading a pixel signal is extracted in a checkered pattern from each of the pixel circuits 100 arranged in a matrix, which is included in the frame 200.
  • FIG. 9B is an example of extracting a sample 208 for reading a pixel signal from each pixel circuit 100 in a grid pattern.
  • image pickup can be performed in line sequence.
  • DNN Deep Neural Network
  • CNN Convolutional Neural Network
  • RNN Recurrent Neural Network
  • FIG. 10 is a diagram for schematically explaining the image recognition process by CNN.
  • FIG. 11 is a diagram for schematically explaining an image recognition process for obtaining a recognition result from a part of the image to be recognized.
  • the image 50' is a partial acquisition of the number "8", which is an object to be recognized, in line units.
  • the pixel information 54a, 54b, and 54c for each line forming the pixel information 51'of the image 50' are sequentially processed by the predeterminedly learned CNN 52'.
  • the valid recognition result means, for example, a recognition result in which the score indicating the reliability of the recognized result is a predetermined value or higher.
  • the reliability means an evaluation value indicating how much the recognition result [T] output by the DNN can be trusted.
  • the reliability range is in the range of 0.0 to 1.0, and the closer the value is to 1.0, the less other competitors have a score similar to the recognition result [T]. .. On the other hand, the closer to 0, the more other competing candidates having a score similar to the recognition result [T] appeared.
  • the pixel information 54b of the second line is recognized by the CNN 52'where the internal state update 55 has been performed by the previous recognition result 53a.
  • a recognition result 53b indicating that the number to be recognized is either “8” or “9” is obtained.
  • the internal information of CNN 52' is updated 55.
  • the pixel information 54c of the third line is recognized by the CNN 52'where the internal state update 55 has been performed by the previous recognition result 53b. As a result, in FIG. 11, the number to be recognized is narrowed down to “8” out of “8” or “9”.
  • the recognition process shown in FIG. 11 updates the internal state of the CNN using the result of the previous recognition process, and the CNN whose internal state is updated is adjacent to the line where the previous recognition process was performed.
  • the recognition process is performed using the pixel information of the line to be used. That is, the recognition process shown in FIG. 11 is executed while sequentially updating the internal state of the CNN with respect to the image based on the previous recognition result. Therefore, the recognition process shown in FIG. 11 is a process that is recursively executed in line sequence, and can be considered to have a structure corresponding to RNN.
  • FIG. 12A and 12B are diagrams schematically showing an example of identification processing (recognition processing) by DNN when time-series information is not used.
  • identification processing recognition processing
  • the input processing is performed on the input image, and the identification result is output.
  • FIG. 12B is a diagram for explaining the process of FIG. 12A in more detail.
  • the DNN performs a feature extraction process and an identification process.
  • the feature amount is extracted from the input image by the feature extraction process.
  • the identification process is executed on the extracted feature amount, and the identification result is obtained.
  • FIGS. 13A and 13B are diagrams schematically showing a first example of identification processing by DNN when time-series information is used.
  • the identification process by DNN is performed using a fixed number of past information on the time series.
  • the image of the time T [T] the image of the time T-1 before the time T [T-1]
  • the identification process is executed for each of the input images [T], [T-1] and [T-2], and the identification result [T] at the time T is obtained. Reliability is given to the identification result [T].
  • FIG. 13B is a diagram for explaining the process of FIG. 13A in more detail.
  • DNN for each of the input images [T], [T-1] and [T-2], a pair of feature extraction processes described with reference to FIG. 12B described above is performed. 1 is executed, and the feature quantities corresponding to the images [T], [T-1] and [T-2] are extracted.
  • each feature amount obtained based on these images [T], [T-1] and [T-2] is integrated, an identification process is executed for the integrated feature amount, and identification at time T is performed. The result [T] is obtained. Reliability is given to the identification result [T].
  • FIG. 14A and 14B are diagrams schematically showing a second example of identification processing by DNN when time-series information is used.
  • the image [T] of the time T is input to the DNN whose internal state is updated to the state of the time T-1, and the identification result [T] at the time T is obtained. Reliability is given to the identification result [T].
  • FIG. 14B is a diagram for explaining the process of FIG. 14A in more detail.
  • the feature extraction process described with reference to FIG. 12B described above is executed on the input time T image [T], and the feature amount corresponding to the image [T] is obtained. Extract.
  • the internal state is updated by the image before the time T, and the feature amount related to the updated internal state is stored.
  • the feature amount related to the stored internal information and the feature amount in the image [T] are integrated, and the identification process is executed for the integrated feature amount.
  • the identification process shown in FIGS. 14A and 14B is executed using, for example, a DNN whose internal state has been updated using the immediately preceding identification result, and is a recursive process.
  • a DNN that performs recursive processing in this way is called an RNN (Recurrent Neural Network).
  • the identification process by RNN is generally used for moving image recognition or the like, and it is possible to improve the identification accuracy by sequentially updating the internal state of the DNN by, for example, a frame image updated in time series. ..
  • RNN is applied to the rolling shutter type structure. That is, in the rolling shutter method, the pixel signal is read out in line sequence. Therefore, the pixel signals read out in this line sequence are applied to the RNN as information on the time series. This makes it possible to execute the identification process based on a plurality of lines with a smaller configuration than when CNN is used (see FIG. 13B). Not limited to this, RNN can also be applied to the structure of the global shutter system. In this case, for example, it is conceivable to regard adjacent lines as information on a time series.
  • FIG. 15A is a diagram showing an example of reading out all the lines in the image.
  • the resolution of the image to be the recognition process is horizontal 640 pixels ⁇ vertical 480 pixels (480 lines).
  • the resolution of the image to be the recognition process is horizontal 640 pixels ⁇ vertical 480 pixels (480 lines).
  • the resolution of the image to be the recognition process is horizontal 640 pixels ⁇ vertical 480 pixels (480 lines).
  • by driving at a drive speed of 14400 [lines / sec] it is possible to output at 30 [fps (frame per second)].
  • FIG. 16 is a schematic diagram for schematically explaining the recognition process according to the present embodiment of the present disclosure.
  • the information processing system 1 (see FIG. 1) according to the present embodiment starts imaging the target image to be recognized.
  • the target image is, for example, an image in which the number "8" is drawn by hand.
  • a learning model learned so that numbers can be identified by predetermined teacher data is stored in advance as a program, and the recognition processing unit 12 reads this program from the memory 13 and executes it. It is assumed that the numbers contained in the image can be identified.
  • the information processing system 1 shall perform imaging by the rolling shutter method. Even when the information processing system 1 performs imaging by the global shutter method, the following processing can be applied in the same manner as in the case of the rolling shutter method.
  • the information processing system 1 sequentially reads out the frames in line units from the upper end side to the lower end side of the frame in step S2.
  • the recognition processing unit 12 identifies the number “8” or “9” from the image of the read line (step S3). For example, since the numbers “8” and “9” include a feature portion common to the upper half portion, when the line is read out in order from the top and the feature portion is recognized, the recognized object is the number "8". It can be identified as any of "9” and "9".
  • step S4a the whole picture of the recognized object appears by reading up to the line at the lower end of the frame or the line near the lower end, and as either the number "8" or "9" in step S2. It is determined that the identified object is the number "8".
  • steps S4b and S4c are processes related to the present disclosure.
  • step S4b the line is further read from the line position read in step S3, and the recognized object is identified as the number "8" even while reaching the lower end of the number "8". It is possible. For example, the lower half of the number "8" and the lower half of the number "9" have different characteristics. By reading the line up to the part where the difference in the characteristics becomes clear, it becomes possible to identify whether the object recognized in step S3 is the number "8" or "9". In the example of FIG. 16, in step S4b, the object is determined to be the number "8".
  • step S4c by further reading from the line position of step S3 in the state of step S3, it is possible to determine whether the object identified in step S3 is the number "8" or "9". It is also possible to jump to a line position that is likely to be recognizable. By reading out the line of the jump destination, it is possible to determine whether the object identified in step S3 is the number "8" or "9".
  • the line position of the jump destination can be determined based on a learning model learned in advance based on predetermined teacher data.
  • the information processing system 1 can end the recognition process. This makes it possible to shorten the recognition process and save power in the information processing system 1.
  • the teacher data is data that holds a plurality of combinations of input signals and output signals for each read unit.
  • data for each read unit (line data, subsampled data, etc.) is applied as an input signal, and data indicating a "correct number" is applied as an output signal. Can be done.
  • data for each read unit (line data, subsampled data, etc.) is applied as an input signal, and an object class (human body / vehicle / non-object) or an object class (human body / vehicle / non-object) is applied as an output signal.
  • the coordinates of the object (x, y, h, w) and the like can be applied.
  • the output signal may be generated only from the input signal by using self-supervised learning.
  • FIG. 17 is a diagram showing a problem in the recognition process in the case of outputting a pixel signal corresponding to the light emitted to the light receiving surface via the optical unit 30.
  • the image data in the left figure is distorted according to the lens parameter of the optical unit 30, and the image data is shown in the right figure.
  • the line data L170 and L172 as shown in FIG. 16 are read from the distortion-corrected data in the right figure, the distortion becomes stronger in the peripheral portion of the image as in the line data L170, and the pixels on the line data L170. Density decreases.
  • the distortion is less than that of the peripheral portion, and the density of the pixels on the line data L172 is higher than the density of the pixels on the line data L170.
  • the recognition rate of the recognition process of the recognition process execution unit 124 will decrease.
  • the effective pixels do not become square, and it becomes difficult to execute the recognition process of the recognition process execution unit 124.
  • FIG. 18 is a functional block diagram of an example for explaining the functions of the sensor control unit 11 and the recognition processing unit 12 according to the present embodiment.
  • the sensor control unit 11 has a reading unit 110 and a first lens distortion reverse correction unit 112.
  • FIG. 18 further illustrates the storage unit 114 that stores the information of the lens strain parameter.
  • the recognition processing unit 12 includes a feature amount calculation unit 120, a feature amount accumulation control unit 121, a read area determination unit 123, and a recognition processing execution unit 124.
  • the reading unit 110 indicates the coordinates indicated by the first lens distortion reverse correction unit 112 for the reading pixels in the pixel array unit 101 (see FIG. 4) in which a plurality of pixels are arranged in a two-dimensional array. Set based on.
  • the first lens distortion reverse correction unit 112 converts the coordinates based on the information of the lens distortion parameter stored in the storage unit 114 and supplies the coordinates to the reading unit 110.
  • the first lens distortion reverse correction unit 112 receives read area information indicating a read area to be read by the recognition processing unit 12 from the read area determination unit 123.
  • the read area information is, for example, a line number of one or a plurality of lines. Not limited to this, the read area information may be information indicating a pixel position in one line.
  • the read area information by combining one or more line numbers and information indicating the pixel positions of one or more pixels in the line as the read area information, it is possible to specify various patterns of read areas.
  • the read area is equivalent to the read unit. Not limited to this, the read area and the read unit may be different.
  • the reading unit 110 can receive information indicating exposure and analog gain from the recognition processing unit 1 or the visual field processing unit 14 (see FIG. 1).
  • the reading unit 110 reads out the pixel data from the sensor unit 10 according to the reading area information input from the first lens distortion reverse correction unit 112. For example, the reading unit 110 obtains the line number indicating the line to be read and the pixel position information indicating the position of the pixel to be read in the line based on the reading area information, and obtains the obtained line number and the pixel position information. Is output to the sensor unit 10.
  • the reading unit 110 sets the exposure and analog gain for the sensor unit 10 according to the information indicating the supplied exposure and analog gain (AG). Further, the reading unit 110 can generate a vertical synchronization signal and a horizontal synchronization signal and supply them to the sensor unit 10.
  • the read area determination unit 123 receives read information indicating the read area to be read next from the feature amount accumulation control unit 121.
  • the read area determination unit 123 generates read area information based on the received read information and outputs the read area information to the read unit 110.
  • the read area determination unit 123 may use, for example, information in which the read position information for reading the pixel data of the read unit is added to a predetermined read unit as the read area shown in the read area information.
  • the read unit is a set of one or more pixels, and is a unit of processing by the recognition processing unit 12 and the visual recognition processing unit 14. As an example, if the read unit is a line, a line number [L # x] indicating the position of the line is added as the read position information. If the reading unit is a rectangular region including a plurality of pixels, information indicating the position of the rectangular region in the pixel array unit 101, for example, information indicating the position of the pixel in the upper left corner is added as the reading position information.
  • the read area determination unit 123 specifies in advance the read unit to be applied. Further, in the global shutter method, the read area determination unit 123 can include the position information of the subpixel in the read area when reading the subpixel. Not limited to this, the read area determination unit 123 can also determine the read unit, for example, in response to an instruction from the outside of the read area determination unit 123. Therefore, the read area determination unit 123 functions as a read unit control unit that controls the read unit.
  • the read area determination unit 123 determines the read area to be read next based on the recognition information supplied from the recognition process execution unit 124 described later, and generates the read area information indicating the determined read area. You can also.
  • the feature amount calculation unit 120 calculates the feature amount in the area shown in the read area information based on the pixel data and the read area information supplied from the read unit 110.
  • the feature amount calculation unit 120 outputs the calculated feature amount to the feature amount accumulation control unit 121.
  • the feature amount calculation unit 120 may calculate the feature amount based on the pixel data supplied from the reading unit 110 and the past feature amount supplied from the feature amount accumulation control unit 121. Not limited to this, the feature amount calculation unit 120 may acquire information for setting exposure and analog gain from, for example, the reading unit 110, and may further use the acquired information to calculate the feature amount.
  • the feature amount accumulation control unit 121 stores the feature amount supplied from the feature amount calculation unit 120 in the feature amount storage unit 122. Further, when the feature amount is supplied from the feature amount calculation unit 120, the feature amount accumulation control unit 121 generates read information indicating a read area for the next read and outputs the read information to the read area determination unit 123.
  • the feature amount accumulation control unit 121 can integrate and accumulate the already accumulated feature amount and the newly supplied feature amount. Further, the feature amount storage control unit 121 can delete unnecessary feature amounts from the feature amounts stored in the feature amount storage unit 122.
  • the unnecessary feature amount may be, for example, a feature amount related to the previous frame, a feature amount calculated based on a frame image of a scene different from the frame image in which the new feature amount is calculated, and an already accumulated feature amount. Further, the feature amount storage control unit 121 can also delete and initialize all the feature amounts stored in the feature amount storage unit 122 as needed.
  • the feature amount accumulation control unit 121 is used by the recognition processing execution unit 124 for recognition processing based on the feature amount supplied from the feature amount calculation unit 120 and the feature amount accumulated in the feature amount storage unit 122. Generate features.
  • the feature amount accumulation control unit 121 outputs the generated feature amount to the recognition processing execution unit 124.
  • the recognition process execution unit 124 executes the recognition process based on the feature amount supplied from the feature amount accumulation control unit 121.
  • the recognition processing execution unit 124 performs object detection, face detection, and the like by recognition processing.
  • the recognition processing execution unit 124 outputs the recognition result obtained by the recognition processing to the output control unit 15.
  • the recognition result includes information on the detection score.
  • the recognition process execution unit 124 can also output the recognition information including the recognition result generated by the recognition process to the read area determination unit 123.
  • the recognition process execution unit 124 can receive the feature amount from the feature amount accumulation control unit 121 and execute the recognition process based on the trigger generated by the trigger generation unit (not shown), for example.
  • FIG. 19 is a diagram showing a processing flow according to the present embodiment.
  • the upper figure shows the flow of normal distortion correction
  • the middle figure shows the flow of normal distortion correction by reading subsamples
  • the lower figure shows the processing flow according to this embodiment.
  • the scene passes through the lens of the optical unit 30 (S10). At this time, the position where the scene is focused on the sensor unit 10 by the lens is distorted depending on the position of the scene.
  • the scene imaged as an image is converted into pixel data by the sensor unit 10 (S12).
  • the reading unit 110 takes into consideration the distortion of the lens, reads out the image data so that the scene is uniformly sampled after the distortion correction (S12), and supplies the image data to the feature amount calculation unit 120 (S14).
  • image data is read out (S140), and distortion correction is performed after reading out (S142).
  • the image data processed in this way is shown on the upper right side of FIG.
  • the image data is read as a sample (S144), and the distortion is corrected after the reading (S146).
  • the image data becomes non-uniform as in the right figure of FIG.
  • FIG. 20 is a diagram schematically illustrating a processing example of the first lens distortion reverse correction unit 112.
  • the (x, y) coordinates are the coordinates that have been instructed to be read from the read area determination unit 123.
  • (x1, y1) is used as the coordinates of the coordinate image data corresponding to (x, y).
  • the storage unit 114 stores a distortion parameter indicating the correspondence between the coordinates (x1, y1) and the coordinates (x, y).
  • the first lens distortion reverse correction unit 112 reversely converts the coordinates (x, y) of the image area designated by the read area determination unit 123 into the coordinates (x1, y1).
  • this inverse transformation is indicated by f -1 (x, y).
  • the reading unit 110 supplies the image data corresponding to the inversely converted coordinates (x1, y1) from the sensor unit 10 to the feature amount calculation unit 120 as image data of the reading coordinates (x, y).
  • the feature amount calculation unit 120 can calculate the feature amount from the line data L170 and L172.
  • the recognition rate in the recognition processing execution unit 124 is uniform without being affected by the position of the line data L170 and L172. Will be converted.
  • FIG. 21 is a diagram schematically illustrating a processing example of the first lens distortion reverse correction unit 112 when reading data corresponding to one line data.
  • the (x, y) coordinates on the line L174a are the coordinates that have been instructed to be read from the read area determination unit 123.
  • (x1, y1) is used as the coordinates of the coordinate image data corresponding to (x, y).
  • the (x, y) coordinates on the line L174a are inversely transformed as f -1 (x, y).
  • the coordinates corresponding to the (x, y) coordinates on the line L174 a are the (x1, y1) coordinates on the line L174c.
  • the reading unit 110 reads the image data corresponding to the coordinates (x1, y1) on the inversely converted line L174c from the sensor unit 10, and uses the feature amount calculation unit as the image data of the coordinates (x, y) on the in L174a. Supply to 120.
  • the area A24 is the same area as the area A24 described later in FIG. 22.
  • FIG. 22 is a diagram showing an example in which binning-driven reading is used instead when the coordinates (x1, y1) corresponding to the coordinates (x, y) cannot be directly read because the circuit becomes complicated.
  • a binning drive for reading the 3 ⁇ 3 pixel range of the area A24 by addition may be used instead.
  • FIG. 23A is a diagram showing an example of subsampling the pixels 208 in a grid pattern as shown in FIG. 9B. As shown in FIG. 23A, even when the pixels 208 are subsampled in a grid pattern, the distortion of the lens of the optical unit 30 is corrected. This makes it possible to perform the recognition process of the recognition process execution unit 124 without being affected by the lens distortion of the optical unit 30.
  • FIG. 23B is a diagram showing an example in which subsampling is also performed at the same time as performing coordinate conversion in FIG. 23A.
  • the image data may be read out from the coordinates (x1, y1) obtained by inversely transforming f -1 (x, y) and stored in the memory 13 or the like. In this case, it is possible to execute the recognition process without performing distortion correction and subsampling during the recognition process.
  • FIG. 24 is a flowchart showing the processing flow of the reading unit 110.
  • the read area determination unit 123 determines the next read area according to the read pattern (step S100), and supplies the read area information to the first lens distortion reverse correction unit 112.
  • the read area information includes the coordinate information of the read area.
  • the first lens distortion reverse correction unit 112 acquires the lens distortion parameter from the storage unit 114 (step S102). Then, the first lens distortion reverse correction unit 112 reversely transforms the coordinates of the read region using the lens distortion parameter (step S104). Then, the reading unit 110 reads out the image data from the sensor unit 10 (step S106), supplies the image data to the feature amount calculation unit 120, and ends the process.
  • the first lens distortion reverse correction unit 112 reversely converts the coordinates of the next read area using the lens distortion parameter, and reads the image data from the sensor unit 10. It was decided to supply it to the feature amount calculation unit 120. As a result, the lens distortion is corrected, and the feature amount can be calculated using the uniformed image data. Therefore, the recognition accuracy of the recognition process of the recognition process execution unit 124 can be further improved.
  • the information processing system 1 according to the second embodiment is the same as the information processing system 1 according to the first embodiment in that a point net type recognizer can be further used instead of the CNN of the recognition processing execution unit 124. It's different. Hereinafter, the differences from the information processing system 1 according to the first embodiment will be described.
  • FIG. 25 is a diagram conceptually showing the problem of normal correction processing.
  • the left figure of FIG. 25 shows the image data before the correction, and the middle figure shows the image after the distortion correction.
  • the figure on the right shows an image that has been subjected to interpolation processing to make the pixel distribution uniform. As shown in the figure on the right, according to the lens distortion parameter, the number of pixels generated by the interpolation process may increase and the recognition rate may decrease.
  • FIG. 26 is a functional block diagram of an example for explaining the functions of the sensor control unit 11 and the recognition processing unit 12 according to the second embodiment.
  • the recognition processing unit 12 according to the second embodiment further includes a second lens distortion correction unit 125.
  • FIG. 27 is a diagram schematically showing a point net type recognizer 52a.
  • the image data is not arranged in a grid pattern, and the recognition rate is maintained even for the data in which the distribution of the image data is uneven. Therefore, as shown in the middle figure of FIG. 25, it is possible to recognize the pixel value of the point cloud.
  • the images 50 and 51 are the same images as the images 50 and 51 in FIG. 10 described above.
  • FIG. 28 is a diagram showing a processing flow according to the second embodiment.
  • the scene passes through the lens of the optical unit 30 (S10).
  • the position where the scene is focused on the sensor unit 10 by the lens is distorted depending on the position of the scene.
  • the image is formed as an image
  • the scene is converted into pixel data by the sensor unit 10 (S12), and sampled and read out by the reading unit 110 (S16).
  • the reading unit 110 supplies sampled image data to the second lens distortion correction unit 125.
  • the second lens distortion correction unit 125 reversely transforms the coordinates (x, y) into the coordinates (x1, y1) by f -1 (x, y), and the sampled image data (x, y) is distortion-corrected. It is converted into data (x1, y1) (S18).
  • the second lens distortion correction unit 125 supplies image data (x1, y1) to the feature amount calculation unit 120.
  • the point net type recognizer 52a it is possible to calculate the feature amount as it is from the distortion-corrected image data (x1, y1).
  • the correspondence between the coordinates (x1, y1) and the coordinates (x, y) may be calculated in advance and stored in the storage unit 114 as a coordinate conversion map. In this case, the calculation time can be shortened by performing coordinate transformation using the coordinate transformation map.
  • FIG. 29 is a flowchart showing the processing flow of the recognition processing unit 12.
  • the reading unit 110 reads image data from the sensor unit 10 based on the coordinate information in the reading area information and supplies it to the second lens distortion correction unit 125 (step S200).
  • the second lens distortion correction unit 125 acquires the lens distortion parameter from the storage unit 114 (step S202).
  • the second lens distortion correction unit 125 performs distortion correction on the coordinates of the read image data using the lens distortion parameter (step S204).
  • the feature amount calculation unit 120 calculates the feature amount from the image data of the distortion-corrected coordinates (step S206).
  • the second lens distortion correction unit 125 performs distortion correction on the coordinates of the read image data using the lens distortion parameter. Then, the feature amount calculation unit 120 calculates the feature amount from the image data of the distortion-corrected coordinates, and recognizes the feature amount by the point net type recognizer 52a of the recognition processing execution unit 124. As a result, the feature amount can be calculated from the image data with the lens distortion corrected without performing interpolation processing or the like. As a result, the recognition accuracy of the recognition process of the recognition process execution unit 124 can be further improved.
  • the information processing system 1 according to the modification of the third embodiment corrects the lens distortion for the read image, and supplies the corrected image data corresponding to the data for one line before the correction to the recognition processing execution unit 124. It differs from the information processing system 1 according to the second embodiment in that. Hereinafter, the differences from the information processing system 1 according to the second embodiment will be described.
  • FIG. 30 is a diagram showing conventional data processed by the processing flow shown in the upper part of FIG.
  • FIG. 30A is a two-dimensional image data read by the reading unit 110.
  • the figure is image data in which the second lens distortion correction unit 125 performs distortion correction on the coordinates of the read image data using the lens distortion parameter.
  • the two-dimensional image data shown in the figure corresponds to the conventional distortion-corrected image data shown in the middle figure of FIG. 25.
  • the recognition processing execution unit 124 composed of, for example, a CNN, the same problem as the processing shown in FIG. 25 arises.
  • FIG. 31 is a diagram illustrating processing data used in the information processing system 1 according to the third embodiment.
  • FIG. 31 (a) is two-dimensional image data read by the reading unit 110 (see FIG. 26). The data in each row of the two-dimensional image data is linear as shown in the line data L130a. This process corresponds to S140 of the process flow shown in the upper part of FIG.
  • FIG. (B) is image data in which the second lens distortion correction unit 125 (see FIG. 26) performs distortion correction on the coordinates of the read image data using the lens distortion parameter.
  • the line data L130a is curved as shown in the line 130b after correction. This process corresponds to S142 of the process flow shown in the upper part of FIG.
  • the two-dimensional image data shown in the figure is the supply image data supplied to the recognition processing execution unit 124 configured by the CNN according to the present embodiment.
  • the line-shaped line data 130c corresponding to the line 130b is included.
  • the vertical width of the supplied image data is changed according to the line data L130a. Further, the value in the area other than the data line 130c is changed to a predetermined value, for example, 0.
  • the feature amount calculation unit 120 (see FIG. 26) according to the third embodiment has a vertical width corresponding to the lens distortion parameter and the position of the line data L130a which is the original data, as shown in FIG.
  • the feature amount is calculated from the two-dimensional image data. That is, the supply image data shown in FIG. (C) always includes the line data L130c based on the line data L130a.
  • the recognition processing execution unit 124 (see FIG. 26) according to the third embodiment is composed of, for example, a CNN trained in correspondence with the format of the supplied image data shown in (c).
  • the image data in the range including the line data L130c corresponding to the line data L130a for one line is supplied to the recognition processing execution unit 124 from the image data corrected for the lens distortion.
  • the image data including the line data L130c based on the line data L130a is always supplied to the recognition processing execution unit 124, and the deterioration of the recognition accuracy of the recognition processing execution unit 124 is suppressed.
  • the information processing system 1 according to the modification of the fourth embodiment is capable of switching the recognizer of the recognition processing execution unit 124 according to the distortion parameter of the lens instead of canceling the lens distortion. It is different from the information processing system 1 according to the above. Hereinafter, the differences from the information processing system 1 according to the second embodiment will be described.
  • FIG. 32 is a diagram showing an example of the processing flow according to the fourth embodiment.
  • the scene passes through the lens of the optical unit 30 (S10).
  • the position where the scene is focused on the sensor unit 10 by the lens is distorted depending on the position of the scene.
  • the image is formed as an image
  • the scene is converted into pixel data by the sensor unit 10 (S12), and is read out by the reading unit 110 (S140).
  • the reading unit 110 supplies the image data sampled in a line to the second lens distortion correction unit 125.
  • the second lens distortion correction unit 125 supplies the image data (x, y) that has not been distortion-corrected to the feature amount calculation unit 120.
  • the recognition process execution unit 124 selects the learned CNN recognizer according to the distortion parameter of the lens and executes the recognition process.
  • Each of the plurality of recognizers is learned for each lens having a different lens distortion.
  • the CNN recognizer included in the recognition processing execution unit 124 also has a second recognizer learned for lenses having various lens distortions. This second recognizer is learned to have a recognition accuracy of a predetermined value or more even when the distortion parameter of the lens is unknown. Therefore, the second recognizer is used when the distortion parameter of the lens is unknown or when there is no recognizer for the matching distortion parameter. As described above, even when there is no recognizer that matches the distortion parameter, the use of the second recognizer suppresses the deterioration of the recognition accuracy.
  • FIG. 33 is a diagram showing another example of the processing flow according to the fourth embodiment.
  • the scene passes through the lens of the optical unit 30 (S10).
  • the position where the scene is focused on the sensor unit 10 by the lens is distorted depending on the position of the scene.
  • the image formed as an image is converted into pixel data by the sensor unit 10 (S12), subsampled by the reading unit 110, and read out (S144).
  • the reading unit 110 supplies subsampled image data to the second lens distortion correction unit 125.
  • the second lens distortion correction unit 125 supplies the image data (x, y) that has not been distortion-corrected to the feature amount calculation unit 120.
  • the recognition processing execution unit 124 selects a CNN recognizer for the subsampled image learned according to the distortion parameter of the lens, and executes the recognition processing.
  • Each of the plurality of recognizers is learned for each lens having a different lens distortion.
  • the recognizer of, for example, CNN included in the recognition processing execution unit 124 also has a third recognizer for subsampled images learned for lenses having various lens distortions. This third recognizer is learned to have a recognition accuracy of a predetermined value or more even when the distortion parameter of the lens is unknown. Therefore, the third recognizer is used when the distortion parameter of the lens is unknown or when there is no recognizer for the matching distortion parameter. As described above, even when there is no recognizer that matches the distortion parameter, the use of the third recognizer suppresses the deterioration of the recognition accuracy.
  • the recognizer of the recognition processing execution unit 124 is switched according to the distortion parameter of the lens. As a result, it is possible to suppress a decrease in the recognition rate by using a recognizer corresponding to various distortion parameters without correcting the lens distortion.
  • FIG. 34 is a diagram showing a usage example using the information processing apparatus 2 according to the first to fourth embodiments.
  • the information processing apparatus 2 will be used as a representative for the description.
  • the information processing device 2 described above can be used in various cases where, for example, as shown below, light such as visible light, infrared light, ultraviolet light, and X-ray is sensed and recognition processing is performed based on the sensing result. can.
  • -A device that captures images used for viewing, such as digital cameras and mobile devices with camera functions.
  • in-vehicle sensors that photograph the front, rear, surroundings, inside of the vehicle, etc., monitoring cameras that monitor traveling vehicles and roads, inter-vehicle distance, etc.
  • a device used for traffic such as a distance measuring sensor that measures the distance.
  • -A device used for home appliances such as TVs, refrigerators, and air conditioners in order to take a picture of a user's gesture and operate the device according to the gesture.
  • -Devices used for medical treatment and healthcare such as endoscopes and devices that perform angiography by receiving infrared light.
  • -Devices used for security such as surveillance cameras for crime prevention and cameras for person authentication.
  • -Apparatus used for beauty such as a skin measuring device that photographs the skin and a microscope that photographs the scalp.
  • -Devices used for sports such as action cameras and wearable cameras for sports applications.
  • -Agricultural equipment such as cameras for monitoring the condition of fields and crops.
  • the technology according to the present disclosure (the present technology) can be applied to various products.
  • the technology according to the present disclosure is realized as a device mounted on a moving body of any kind such as an automobile, an electric vehicle, a hybrid electric vehicle, a motorcycle, a bicycle, a personal mobility, an airplane, a drone, a ship, and a robot. You may.
  • FIG. 35 is a block diagram showing a schematic configuration example of a vehicle control system, which is an example of a mobile control system to which the technique according to the present disclosure can be applied.
  • the vehicle control system 12000 includes a plurality of electronic control units connected via the communication network 12001.
  • the vehicle control system 12000 includes a drive system control unit 12010, a body system control unit 12020, an outside information detection unit 12030, an in-vehicle information detection unit 12040, and an integrated control unit 12050.
  • a microcomputer 12051, an audio image output unit 12052, and an in-vehicle network I / F (interface) 12053 are shown as a functional configuration of the integrated control unit 12050.
  • the drive system control unit 12010 controls the operation of the device related to the drive system of the vehicle according to various programs.
  • the drive system control unit 12010 has a driving force generator for generating a driving force of a vehicle such as an internal combustion engine or a driving motor, a driving force transmission mechanism for transmitting the driving force to the wheels, and a steering angle of the vehicle. It functions as a control device such as a steering mechanism for adjusting and a braking device for generating braking force of the vehicle.
  • the body system control unit 12020 controls the operation of various devices mounted on the vehicle body according to various programs.
  • the body system control unit 12020 functions as a keyless entry system, a smart key system, a power window device, or a control device for various lamps such as headlamps, back lamps, brake lamps, turn signals or fog lamps.
  • the body system control unit 12020 may be input with radio waves transmitted from a portable device that substitutes for the key or signals of various switches.
  • the body system control unit 12020 receives inputs of these radio waves or signals and controls a vehicle door lock device, a power window device, a lamp, and the like.
  • the vehicle outside information detection unit 12030 detects information outside the vehicle equipped with the vehicle control system 12000.
  • the image pickup unit 12031 is connected to the vehicle outside information detection unit 12030.
  • the vehicle outside information detection unit 12030 causes the image pickup unit 12031 to capture an image of the outside of the vehicle and receives the captured image.
  • the out-of-vehicle information detection unit 12030 may perform object detection processing or distance detection processing such as a person, a vehicle, an obstacle, a sign, or a character on the road surface based on the received image.
  • the image pickup unit 12031 is an optical sensor that receives light and outputs an electric signal according to the amount of the light received.
  • the image pickup unit 12031 can output an electric signal as an image or can output it as distance measurement information. Further, the light received by the image pickup unit 12031 may be visible light or invisible light such as infrared light.
  • the in-vehicle information detection unit 12040 detects the in-vehicle information.
  • a driver state detection unit 12041 that detects the driver's state is connected to the in-vehicle information detection unit 12040.
  • the driver state detection unit 12041 includes, for example, a camera that images the driver, and the in-vehicle information detection unit 12040 determines the degree of fatigue or concentration of the driver based on the detection information input from the driver state detection unit 12041. It may be calculated, or it may be determined whether or not the driver has fallen asleep.
  • the microcomputer 12051 calculates the control target value of the driving force generator, the steering mechanism, or the braking device based on the information inside and outside the vehicle acquired by the vehicle exterior information detection unit 12030 or the vehicle interior information detection unit 12040, and the drive system control unit.
  • a control command can be output to 12010.
  • the microcomputer 12051 realizes ADAS (Advanced Driver Assistance System) functions including vehicle collision avoidance or impact mitigation, follow-up driving based on inter-vehicle distance, vehicle speed maintenance driving, vehicle collision warning, vehicle lane deviation warning, and the like. It is possible to perform cooperative control for the purpose of.
  • ADAS Advanced Driver Assistance System
  • the microcomputer 12051 controls the driving force generating device, the steering mechanism, the braking device, and the like based on the information around the vehicle acquired by the vehicle exterior information detection unit 12030 or the vehicle interior information detection unit 12040. It is possible to perform coordinated control for the purpose of automatic driving that runs autonomously without depending on the operation.
  • the microcomputer 12051 can output a control command to the body system control unit 12020 based on the information outside the vehicle acquired by the vehicle outside information detection unit 12030.
  • the microcomputer 12051 controls the headlamps according to the position of the preceding vehicle or the oncoming vehicle detected by the outside information detection unit 12030, and performs cooperative control for the purpose of anti-glare such as switching the high beam to the low beam. It can be carried out.
  • the audio image output unit 12052 transmits an output signal of at least one of audio and image to an output device capable of visually or audibly notifying information to the passenger or the outside of the vehicle.
  • an audio speaker 12061, a display unit 12062, and an instrument panel 12063 are exemplified as output devices.
  • the display unit 12062 may include, for example, at least one of an onboard display and a head-up display.
  • FIG. 36 is a diagram showing an example of the installation position of the image pickup unit 12031.
  • the vehicle 12100 has image pickup units 12101, 12102, 12103, 12104, and 12105 as image pickup units 12031.
  • the image pickup units 12101, 12102, 12103, 12104, 12105 are provided at positions such as, for example, the front nose, side mirrors, rear bumpers, back doors, and the upper part of the windshield in the vehicle interior of the vehicle 12100.
  • the image pickup unit 12101 provided in the front nose and the image pickup section 12105 provided in the upper part of the windshield in the vehicle interior mainly acquire an image in front of the vehicle 12100.
  • the image pickup units 12102 and 12103 provided in the side mirror mainly acquire images of the side of the vehicle 12100.
  • the image pickup unit 12104 provided in the rear bumper or the back door mainly acquires an image of the rear of the vehicle 12100.
  • the images in front acquired by the image pickup units 12101 and 12105 are mainly used for detecting a preceding vehicle, a pedestrian, an obstacle, a traffic light, a traffic sign, a lane, or the like.
  • FIG. 36 shows an example of the shooting range of the imaging units 12101 to 12104.
  • the imaging range 12111 indicates the imaging range of the imaging unit 12101 provided on the front nose
  • the imaging ranges 12112 and 12113 indicate the imaging ranges of the imaging units 12102 and 12103 provided on the side mirrors, respectively
  • the imaging range 12114 indicates the imaging range.
  • the imaging range of the imaging unit 12104 provided on the rear bumper or the back door is shown. For example, by superimposing the image data captured by the image pickup units 12101 to 12104, a bird's-eye view image of the vehicle 12100 can be obtained.
  • At least one of the image pickup units 12101 to 12104 may have a function of acquiring distance information.
  • at least one of the image pickup units 12101 to 12104 may be a stereo camera including a plurality of image pickup elements, or may be an image pickup element having pixels for phase difference detection.
  • the microcomputer 12051 has a distance to each three-dimensional object within the image pickup range 12111 to 12114 based on the distance information obtained from the image pickup unit 12101 to 12104, and a temporal change of this distance (relative speed with respect to the vehicle 12100). By obtaining can. Further, the microcomputer 12051 can set an inter-vehicle distance to be secured in advance in front of the preceding vehicle, and can perform automatic brake control (including follow-up stop control), automatic acceleration control (including follow-up start control), and the like. In this way, it is possible to perform coordinated control for the purpose of automatic driving or the like in which the vehicle travels autonomously without depending on the operation of the driver.
  • automatic brake control including follow-up stop control
  • automatic acceleration control including follow-up start control
  • the microcomputer 12051 converts three-dimensional object data related to a three-dimensional object into two-wheeled vehicles, ordinary vehicles, large vehicles, pedestrians, electric poles, and other three-dimensional objects based on the distance information obtained from the image pickup units 12101 to 12104. It can be classified and extracted and used for automatic avoidance of obstacles. For example, the microcomputer 12051 distinguishes obstacles around the vehicle 12100 into obstacles that are visible to the driver of the vehicle 12100 and obstacles that are difficult to see. Then, the microcomputer 12051 determines the collision risk indicating the risk of collision with each obstacle, and when the collision risk is equal to or higher than the set value and there is a possibility of collision, the microcomputer 12051 via the audio speaker 12061 or the display unit 12062. By outputting an alarm to the driver and performing forced deceleration and avoidance steering via the drive system control unit 12010, driving support for collision avoidance can be provided.
  • At least one of the image pickup units 12101 to 12104 may be an infrared camera that detects infrared rays.
  • the microcomputer 12051 can recognize a pedestrian by determining whether or not a pedestrian is present in the captured image of the imaging unit 12101 to 12104.
  • pedestrian recognition is, for example, a procedure for extracting feature points in an image captured by an image pickup unit 12101 to 12104 as an infrared camera, and pattern matching processing is performed on a series of feature points indicating the outline of an object to determine whether or not the pedestrian is a pedestrian. It is done by the procedure to determine.
  • the audio image output unit 12052 determines the square contour line for emphasizing the recognized pedestrian.
  • the display unit 12062 is controlled so as to superimpose and display. Further, the audio image output unit 12052 may control the display unit 12062 so as to display an icon or the like indicating a pedestrian at a desired position.
  • the above is an example of a vehicle control system to which the technology according to the present disclosure can be applied.
  • the technique according to the present disclosure can be applied to the image pickup unit 12031 and the vehicle exterior information detection unit 12030 among the configurations described above.
  • the sensor unit 10 of the information processing apparatus 2 is applied to the image pickup unit 12031
  • the recognition processing unit 12 is applied to the vehicle exterior information detection unit 12030.
  • the recognition result output from the recognition processing unit 12 is passed to the integrated control unit 12050 via, for example, the communication network 12001.
  • the technique according to the present disclosure to the image pickup unit 12031 and the vehicle exterior information detection unit 12030, it is possible to recognize a short-distance object and a long-distance object, respectively, and at a short distance. Since it is possible to recognize the target object at a high degree of simultaneousness, more reliable driving support is possible.
  • a reading unit that sets a reading unit as a part of a pixel area in which a plurality of pixels are arranged in a two-dimensional array and controls reading of a pixel signal from the pixels included in the pixel area.
  • a correction unit that corrects the reading unit based on the distortion parameter of the lens and causes the reading unit to read the pixel signal.
  • a feature amount calculation unit that calculates a feature amount based on the pixel signal corrected and read out based on the distortion parameter.
  • a recognition processing unit that performs recognition processing based on the feature amount
  • the correction unit calculates a coordinate position in which the linear coordinate sequence is corrected based on the distortion parameter of the lens, and the reading unit controls reading of the pixel signal based on the corrected coordinate position.
  • Information processing device in 1).
  • the correction unit calculates a coordinate position in which the subsampling coordinate group is corrected based on the distortion parameter of the lens, and the reading unit controls reading of the pixel signal based on the corrected coordinate position.
  • the information processing device according to 1).
  • a reading unit that sets a reading pixel as a part of a pixel area in which a plurality of pixels are arranged in a two-dimensional array and controls reading of a pixel signal from the pixels included in the pixel area.
  • a second correction unit that corrects the coordinates of the pixel signal from the pixels included in the pixel area based on the distortion parameter of the lens.
  • a recognition processing unit that performs recognition processing based on the corrected pixel signal.
  • a reading unit that sets a reading pixel as a part of a pixel area in which a plurality of pixels are arranged in a two-dimensional array and controls reading of a pixel signal from the pixels included in the pixel area.
  • a recognition processing execution unit that has a plurality of recognizers learned according to a plurality of lenses and performs recognition processing based on the read pixel signal. Equipped with The recognition processing execution unit is an information processing device that performs recognition processing using a recognizer corresponding to the image pickup of the pixel signal.
  • the recognition processing unit A reading unit that sets a reading pixel as a part of the pixel area of the sensor unit and controls reading of a pixel signal from a pixel included in the pixel area.
  • a correction unit that corrects the reading unit based on the distortion parameter of the lens and causes the reading unit to read the pixel signal.
  • a sensor unit in which a plurality of pixels are arranged in a two-dimensional array and An information processing system equipped with a recognition processing unit.
  • the recognition processing unit A reading unit that sets a reading pixel as a part of a pixel area in which a plurality of pixels are arranged in a two-dimensional array and controls reading of a pixel signal from the pixels included in the pixel area.
  • a second correction unit that corrects the coordinates of the pixel signal from the pixels included in the pixel area based on the distortion parameter of the lens.
  • the recognition processing unit A reading unit that sets a reading pixel as a part of a pixel area in which a plurality of pixels are arranged in a two-dimensional array and controls reading of a pixel signal from the pixels included in the pixel area.
  • a recognition processing execution unit that has a plurality of recognizers learned according to a plurality of lenses and performs recognition processing based on the read pixel signal.
  • the recognition processing execution unit is an information processing system that performs recognition processing using a recognizer corresponding to the imaging of the pixel signal.
  • a correction step of correcting the read unit based on the distortion parameter of the lens and reading the pixel signal. A program that causes a computer to run.
  • Information processing system 2 Information processing device 20: Sensor unit, 12: Recognition processing unit, 110: Reading unit, 112: First lens distortion reverse correction unit (correction unit), 120: Feature amount calculation unit, 124: Recognition processing execution unit, 125: Second lens distortion correction unit (second correction unit).

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Studio Devices (AREA)
  • Transforming Light Signals Into Electric Signals (AREA)
  • Geometry (AREA)

Abstract

[課題]本開示の一態様は、光学系の光束分布に依存した非線形な歪みが画像に生じてしまう場合にも認識処理の認識率の低下を抑制可能な情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムを提供する。 [解決手段]情報処理装置は、複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を前記読出部に読み出させる補正部と、を備える。

Description

情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
 本開示は、情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムに関する。
 近年、デジタルスチルカメラ、デジタルビデオカメラ、多機能型携帯電話機(スマートフォン)などに搭載される小型カメラなどの撮像装置の高性能化に伴い、撮像画像に含まれる所定のオブジェクトを認識する画像認識機能を搭載する情報処理装置が開発されている。
 ところが、撮像装置の光学系を介して撮像された画像データには光学系の光束分布に依存した非線形な歪みが生じてしまう。このような歪みが生じた画像データによる認識処理は、認識率が低下してしまう恐れがある。
特開2017-112409号公報
 本開示の一態様は、光学系の光束分布に依存した非線形な歪みが画像に生じてしまう場合にも認識処理の認識率の低下を抑制可能な情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムを提供する。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列された画素領域の一部として読み出し単位を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を前記読出部に読み出させる補正部と、
 を備える、情報処理装置が提供される。
 補正部は、レンズの歪パラメータに基づいて、前記読み出し単位に対して歪補正の逆変換をかけて、読み出し単位を補正してもよい。
 歪パラメータに基づいて補正して読み出した前記画素信号に基づき特徴量を計算する特徴量計算部を、
 更に備えてもよい。
 前記特徴量に基づき認識処理を行う認識処理実行部を、更に備えてもよい。
 前記補正部は、直線状の座標列をレンズの歪パラメータに基づいて補正した座標位置を演算し、前記読出部は、補正した座標位置に基づく前記画素信号の読み出しを制御してもよい。
 前記補正部は、サブサンプリングの座標群をレンズの歪パラメータに基づいて補正した座標位置を演算し、前記読出部は、補正した座標位置に基づく前記画素信号の読み出しを制御してもよい。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正部と、
 を備える、情報処理装置が提供される。
 前記補正した画素信号に基づき認識処理を行う認識処理実行部を更に備えてもよい。
 前記認識処理部は、ポイントネット型の認識器を有してもよい。
 前記第2補正部は、前記読出部が読み出した画素信号の各行に対応する範囲に応じた前記補正した画素信号を前記認識処理実行部に供給してもよい。
 上記の課題を解決するために、本本開示の一態様は、複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 複数のレンズに応じて学習した複数の認識器を有し、前記読み出した画素信号に基づき認識処理を行う認識処理実行部を、
 を備え、
 前記認識処理実行部は、前記画素信号の撮像に応じた認識器を用いて認識処理を行う、 情報処理装置が提供される。
 前記認識処理部は、前記画素信号の撮像に用いた光学系に対応する認識器を用いて認識処理を行ってもよい。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列されたセンサ部と、
 認識処理部と、を備える情報処理システムであって、
 前記認識処理部は、
 前記センサ部の画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を前記読出部に読み出させる補正部と、
 を有する、情報処理システムが提供される。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列されたセンサ部と、
 認識処理部と、を備える情報処理システムであって、
 前記認識処理部は、
 複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正部と、
 を有する、情報処理システムが提供される。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列されたセンサ部と、
 認識処理部と、を備える情報処理システムで、
 前記認識処理部は、
 複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 複数のレンズに応じて学習した複数の認識器を有し、前記読み出した画素信号に基づき認識処理を行う認識処理実行部を、
 を有し、
 前記認識処理実行部は、前記画素信号の撮像に応じた認識器を用いて認識処理を行う、情報処理システムが提供される。。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列された画素領域の一部として読み出し単位を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を前記読出部に読み出させる補正工程と、
 を備える、情報処理方法が提供される。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正工程と、
 を備える、情報処理方法が提供される。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 複数のレンズに応じて学習した複数の認識器を有し、前記読み出した画素信号に基づき認識処理を行う認識処理実行工程を、
 を備え、
 前記認識処理実行工程は、前記画素信号の撮像に応じた認識器を用いて認識処理を行う、
 情報処理方法提供される。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列された画素領域の一部として読み出し単位を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を前記読出部に読み出させる補正工程と、
 をコンピュータに実行させるプログラムが提供される。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正工程と、
 をコンピュータに実行させるプログラムが提供される。
 上記の課題を解決するために、本開示の一態様は、複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 複数のレンズに応じて学習した複数の認識器を有し、前記読み出した画素信号に基づき認識処理を行う認識処理実行工程を、コンピュータに実行させるプログラムであって、
 前記認識処理実行工程は、前記画素信号の撮像に応じた認識器を用いた認識処理をコンピュータに実行させるプログラムが提供される。
本開示の各実施形態に適用可能な撮像装置の一例の構成を示すブロック図。 各実施形態に係る撮像装置のハードウェア構成の例を示す模式図。 各実施形態に係る撮像装置のハードウェア構成の例を示す模式図。 各実施形態に係る撮像装置を2層構造の積層型CISにより形成した例を示す図。 各実施形態に係る撮像装置を3層構造の積層型CISにより形成した例を示す図。 各実施形態に適用可能なセンサ部の一例の構成を示すブロック図。 ローリングシャッタ方式を説明するための模式図である。 ローリングシャッタ方式を説明するための模式図。 ローリングシャッタ方式を説明するための模式図。 ローリングシャッタ方式におけるライン間引きを説明するための模式図。 ローリングシャッタ方式におけるライン間引きを説明するための模式図。 ローリングシャッタ方式におけるライン間引きを説明するための模式図。 ローリングシャッタ方式における他の撮像方法の例を模式的に示す図。 ローリングシャッタ方式における他の撮像方法の例を模式的に示す図。 グローバルシャッタ方式を説明するための模式図。 グローバルシャッタ方式を説明するための模式図。 グローバルシャッタ方式を説明するための模式図。 グローバルシャッタ方式において実現可能なサンプリングのパターンの例を模式的に示す図。 グローバルシャッタ方式において実現可能なサンプリングのパターンの例を模式的に示す図。 CNNによる画像認識処理を概略的に説明するための図。 認識対象の画像の一部から認識結果を得る画像認識処理を概略的に説明するための図。 時系列の情報を用いない場合の、DNNによる識別処理の例を概略的に示す図。 時系列の情報を用いない場合の、DNNによる識別処理の例を概略的に示す図。 時系列の情報を用いた場合の、DNNによる識別処理の第1の例を概略的に示す図。 時系列の情報を用いた場合の、DNNによる識別処理の第1の例を概略的に示す図。 時系列の情報を用いた場合の、DNNによる識別処理の第2の例を概略的に示す図。 時系列の情報を用いた場合の、DNNによる識別処理の第2の例を概略的に示す図。 フレームの駆動速度と画素信号の読み出し量との関係について説明するための図。 フレームの駆動速度と画素信号の読み出し量との関係について説明するための図。 本開示の各実施形態に係る認識処理を概略的に説明するための模式図。 画素信号を出力する場合の認識処理における課題を示す図。 センサ制御部、及び認識処理部の機能を説明するための一例の機能ブロック図。 本実施形態に係る処理フローを示す図。 第1レンズ歪逆補正部の処理例を模式的に説明する図。 1ラインデータに対応するデータを読み出す場合の第1レンズ歪逆補正部の処理例を模式的に説明する図。 ビニング駆動の読み出しで代用する例を示す図。 図9Bに示したように、格子状に画素をサブサンプリングする場合の例を示す図。 格子状に画素をサブサンプリングする場合の例を示す図。 読出部の処理の流れを示すフローチャート。 通常の補正処理の課題を概念的に示す図。 第2実施形態に係るセンサ制御部、及び認識処理部の機能を説明するための一例の機能ブロック図。 ポイントネット型の認識器を模式的に示す図。 第2実施形態に係る処理フローを示す図。 認識処理部の処理の流れを示すフローチャート。 図19の上段で示した処理フローで処理される従来のデータを示す図。 第3実施形態に係る情報処理システムで用いる処理データを示す図。 第4実施形態に係る処理フローの一例を示す図。 第4実施形態に係る処理フローの別の一例を示す図。 第1乃至第4実施形態に係る情報処理装置を使用する使用例を示す図。 車両制御システムの概略的な構成の一例を示すブロック図。 車外情報検出部及び撮像部の設置位置の一例を示す説明図。
 以下、図面を参照して、情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムの実施形態について説明する。以下では、情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムの主要な構成部分を中心に説明するが情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラムには、図示又は説明されていない構成部分や機能が存在しうる。以下の説明は、図示又は説明されていない構成部分や機能を除外するものではない。
 [1.本開示の各実施形態に係る構成例]
 各実施形態に係る情報処理システムの全体構成例について、概略的に説明する。図1は、情報処理システム1の一例の構成を示すブロック図である。図1において、情報処理システム1は、センサ部10と、センサ制御部11と、認識処理部12と、メモリ13と、視認処理部14と、出力制御部15とを備える。これら各部は、例えばCMOS(Complementary Metal Oxide Semiconductor)を用いて一体的に形成されたCMOSイメージセンサ(CIS)である。なお、情報処理システム1は、この例に限らず、赤外光による撮像を行う赤外光センサなど、他の種類の光センサであってもよい。また、センサ制御部11と、認識処理部12と、メモリ13と、視認処理部14と、出力制御部15は、情報処理装置2を構成する。
 センサ部10は、光学部30の光学系を介して受光面に照射された光に応じた画素信号を出力する。より具体的には、センサ部10は、少なくとも1つの光電変換素子を含む画素が行列状に配列される画素アレイを有する。画素アレイに行列状に配列される各画素により受光面が形成される。センサ部10は、さらに、画素アレイに含まれる各画素を駆動するための駆動回路と、各画素から読み出された信号に対して所定の信号処理を施して各画素の画素信号として出力する信号処理回路と、を含む。センサ部10は、画素領域に含まれる各画素の画素信号を、デジタル形式の画像データとして出力する。
 以下、センサ部10が有する画素アレイにおいて、画素信号を生成するために有効な画素が配置される領域を、フレームと称する。フレームに含まれる各画素から出力された各画素信号に基づく画素データにより、フレーム画像データが形成される。また、センサ部10の画素の配列における各行をそれぞれラインと呼び、ラインに含まれる各画素から出力された画素信号に基づく画素データにより、ライン画像データが形成される。さらに、センサ部10が受光面に照射された光に応じた画素信号を出力する動作を、撮像と呼ぶ。センサ部10は、後述するセンサ制御部11から供給される撮像制御信号に従い、撮像の際の露出や、画素信号に対するゲイン(アナログゲイン)を制御される。
 センサ制御部11は、例えばマイクロプロセッサにより構成され、センサ部10からの画素データの読み出しを制御し、フレームに含まれる各画素から読み出された各画素信号に基づく画素データを出力する。センサ制御部11から出力された画素データは、認識処理部12および視認処理部14に供給される。
 また、センサ制御部11は、センサ部10における撮像を制御するための撮像制御信号を生成する。センサ制御部11は、例えば、後述する認識処理部12および視認処理部14からの指示に従い、撮像制御信号を生成する。撮像制御信号は、上述した、センサ部10における撮像の際の露出やアナログゲインを示す情報を含む。撮像制御信号は、さらに、センサ部10が撮像動作を行うために用いる制御信号(垂直同期信号、水平同期信号、など)を含む。センサ制御部11は、生成した撮像制御信号をセンサ部10に供給する。
 光学部30は、被写体からの光をセンサ部10の受光面に照射させるためのもので、例えばセンサ部10に対応する位置に配置される。光学部30は、例えば複数のレンズと、入射光に対する開口部の大きさを調整するための絞り機構と、受光面に照射される光の焦点を調整するためのフォーカス機構と、を含む。光学部30は、受光面に光が照射される時間を調整するシャッタ機構(メカニカルシャッタ)をさらに含んでもよい。光学部30が有する絞り機構やフォーカス機構、シャッタ機構は、例えばセンサ制御部11により制御するようにできる。これに限らず、光学部30における絞りやフォーカスは、情報処理システム1の外部から制御するようにもできる。また、光学部30を情報処理システム1と一体的に構成することも可能である。
 認識処理部12は、センサ制御部11から供給された画素データに基づき、画素データによる画像に含まれるオブジェクトの認識処理を行う。本開示においては、例えば、DSP(Digital Signal Processor)が、教師データにより予め学習されメモリ13に学習モデルとして記憶されるプログラムを読み出して実行することで、DNN(Deep Neural Network)を用いた認識処理を行う、機械学習部としての認識処理部12が構成される。認識処理部12は、認識処理に必要な画素データをセンサ部10から読み出すように、センサ制御部11に対して指示することができる。認識処理部12による認識結果は、出力制御部15に供給される。
 視認処理部14は、センサ制御部11から供給された画素データに対して、人が視認するために適した画像を得るための処理を実行し、例えば一纏まりの画素データからなる画像データを出力する。例えば、ISP(Image Signal Processor)が図示されないメモリに予め記憶されるプログラムを読み出して実行することで、当該視認処理部14が構成される。
 例えば、視認処理部14は、センサ部10に含まれる各画素にカラーフィルタが設けられ、画素データがR(赤色)、G(緑色)、B(青色)の各色情報を持っている場合、デモザイク処理、ホワイトバランス処理などを実行することができる。また、視認処理部14は、視認処理に必要な画素データをセンサ部10から読み出すように、センサ制御部11に対して指示することができる。視認処理部14により画素データが画像処理された画像データは、出力制御部15に供給される。
 出力制御部15は、例えばマイクロプロセッサにより構成され、認識処理部12から供給された認識結果と、視認処理部14から視認処理結果として供給された画像データと、のうち一方または両方を、情報処理システム1の外部に出力する。出力制御部15は、画像データを、例えば表示デバイスを有する表示部31に出力することができる。これにより、ユーザは、表示部31により表示された画像データを視認することができる。なお、表示部31は、情報処理システム1に内蔵されるものでもよいし、情報処理システム1の外部の構成であってもよい。
 図2Aおよび図2Bは、各実施形態に係る情報処理システム1のハードウェア構成の例を示す模式図である。図2Aは、1つのチップ2に対して、図1に示した構成のうちセンサ部10、センサ制御部11、認識処理部12、メモリ13、視認処理部14および出力制御部15が搭載される例である。なお、図2Aにおいて、メモリ13および出力制御部15は、煩雑さを避けるため省略されている。
 図2Aに示す構成では、認識処理部12による認識結果は、図示されない出力制御部15を介してチップ2の外部に出力される。また、図2Aの構成においては、認識処理部12は、認識に用いるための画素データを、センサ制御部11から、チップ2の内部のインタフェースを介して取得できる。
 図2Bは、1つのチップ2に対して、図1に示した構成のうちセンサ部10、センサ制御部11、視認処理部14および出力制御部15が搭載され、認識処理部12およびメモリ13(図示しない)がチップ2の外部に置かれた例である。図2Bにおいても、上述した図2Aと同様に、メモリ13および出力制御部15は、煩雑さを避けるため省略されている。
 この図2Bの構成においては、認識処理部12は、認識に用いるための画素データを、チップ間の通信を行うためのインタフェースを介して取得することになる。また、図2Bでは、認識処理部12による認識結果が、認識処理部12から直接的に外部に出力されるように示されているが、これはこの例に限定されない。すなわち、図2Bの構成において、認識処理部12は、認識結果をチップ2に戻し、チップ2に搭載される不図示の出力制御部15から出力させるようにしてもよい。
 図2Aに示す構成は、認識処理部12がセンサ制御部11と共にチップ2に搭載され、認識処理部12とセンサ制御部11との間の通信を、チップ2の内部のインタフェースにより高速に実行できる。その一方で、図2Aに示す構成では認識処理部12の差し替えができず、認識処理の変更が難しい。これに対して、図2Bに示す構成は、認識処理部12がチップ2の外部に設けられるため、認識処理部12とセンサ制御部11との間の通信を、チップ間のインタフェースを介して行う必要がある。そのため、認識処理部12とセンサ制御部11との間の通信は、図2Aの構成と比較して低速となり、制御に遅延が発生する可能性がある。その一方で、認識処理部12の差し替えが容易であり、多様な認識処理の実現が可能である。
 以下、特に記載の無い限り、情報処理システム1は、図2Aの、1つのチップ2にセンサ部10、センサ制御部11、認識処理部12、メモリ13、視認処理部14および出力制御部15が搭載される構成を採用するものとする。
 上述した図2Aに示す構成において、情報処理システム1は、1つの基板上に形成することができる。これに限らず、情報処理システム1を、複数の半導体チップが積層され一体的に形成された積層型CISとしてもよい。
 一例として、情報処理システム1と半導体チップとを2層に積層した2層構造により形成することができる。図3Aは、各実施形態に係る情報処理システム1を2層構造の積層型CISにより形成した例を示す図である。図3Aの構造では、第1層の半導体チップに画素部20aを形成し、第2層の半導体チップにメモリ+ロジック部20bを形成している。画素部20aは、少なくともセンサ部10における画素アレイを含む。メモリ+ロジック部20bは、例えば、センサ制御部11、認識処理部12、メモリ13、視認処理部14および出力制御部15と、情報処理システム1と外部との通信を行うためのインタフェースと、を含む。メモリ+ロジック部20bは、さらに、センサ部10における画素アレイを駆動する駆動回路の一部または全部を含む。また、図示は省略するが、メモリ+ロジック部20bは、例えば視認処理部14が画像データの処理のために用いるメモリをさらに含むことができる。
 図3Aの右側に示されるように、第1層の半導体チップと、第2層の半導体チップとを電気的に接触させつつ貼り合わせることで、情報処理システム1を1つの固体撮像素子として構成する。
 別の例として、情報処理システム1を、半導体チップを3層に積層した3層構造により形成することができる。図3Bは、各実施形態に係る情報処理システム1を3層構造の積層型CISにより形成した例を示す図である。図3Bの構造では、第1層の半導体チップに画素部20aを形成し、第2層の半導体チップにメモリ部20cを形成し、第3層の半導体チップにロジック部20b’を形成している。この場合、ロジック部20b’は、例えば、センサ制御部11、認識処理部12、視認処理部14および出力制御部15と、情報処理システム1と外部との通信を行うためのインタフェースと、を含む。また、メモリ部20cは、メモリ13と、例えば視認処理部14が画像データの処理のために用いるメモリを含むことができる。メモリ13は、ロジック部20b’に含めてもよい。
 図3Bの右側に示されるように、第1層の半導体チップと、第2層の半導体チップと、第3層の半導体チップとを電気的に接触させつつ貼り合わせることで、情報処理システム1を1つの固体撮像素子として構成する。
 図4は、各実施形態に適用可能なセンサ部10の一例の構成を示すブロック図である。図4において、センサ部10は、画素アレイ部101と、垂直走査部102と、AD(Analog to Digital)変換部103と、画素信号線106と、垂直信号線VSLと、制御部1100と、信号処理部1101と、を含む。なお、図4において、制御部1100および信号処理部1101は、例えば図1に示したセンサ制御部11に含まれるものとすることもできる。
 画素アレイ部101は、それぞれ受光した光に対して光電変換を行う、例えばフォトダイオードによる光電変換素子と、光電変換素子から電荷の読み出しを行う回路と、を含む複数の画素回路100を含む。画素アレイ部101において、複数の画素回路100は、水平方向(行方向)および垂直方向(列方向)に行列状の配列で配置される。画素アレイ部101において、画素回路100の行方向の並びをラインと呼ぶ。例えば、1920画素×1080ラインで1フレームの画像が形成される場合、画素アレイ部101は、少なくとも1920個の画素回路100が含まれるラインを、少なくとも1080ライン、含む。フレームに含まれる画素回路100から読み出された画素信号により、1フレームの画像(画像データ)が形成される。
 以下、センサ部10においてフレームに含まれる各画素回路100から画素信号を読み出す動作を、適宜、フレームから画素を読み出す、などのように記述する。また、フレームに含まれるラインが有する各画素回路100から画素信号を読み出す動作を、適宜、ラインを読み出す、などのように記述する。
 また、画素アレイ部101には、各画素回路100の行および列に対し、行毎に画素信号線106が接続され、列毎に垂直信号線VSLが接続される。画素信号線106の画素アレイ部101と接続されない端部は、垂直走査部102に接続される。垂直走査部102は、後述する制御部1100の制御に従い、画素から画素信号を読み出す際の駆動パルスなどの制御信号を、画素信号線106を介して画素アレイ部101へ伝送する。垂直信号線VSLの画素アレイ部101と接続されない端部は、AD変換部103に接続される。画素から読み出された画素信号は、垂直信号線VSLを介してAD変換部103に伝送される。
 画素回路100からの画素信号の読み出し制御について、概略的に説明する。画素回路100からの画素信号の読み出しは、露出により光電変換素子に蓄積された電荷を浮遊拡散層(FD;Floating Diffusion)に転送し、浮遊拡散層において転送された電荷を電圧に変換することで行う。浮遊拡散層において電荷が変換された電圧は、アンプを介して垂直信号線VSLに出力される。
 より具体的には、画素回路100において、露出中は、光電変換素子と浮遊拡散層との間をオフ(開)状態として、光電変換素子において、光電変換により入射された光に応じて生成された電荷を蓄積させる。露出終了後、画素信号線106を介して供給される選択信号に応じて浮遊拡散層と垂直信号線VSLとを接続する。さらに、画素信号線106を介して供給されるリセットパルスに応じて浮遊拡散層を電源電圧VDDまたは黒レベル電圧の供給線と短期間において接続し、浮遊拡散層をリセットする。垂直信号線VSLには、浮遊拡散層のリセットレベルの電圧(電圧Aとする)が出力される。その後、画素信号線106を介して供給される転送パルスにより光電変換素子と浮遊拡散層との間をオン(閉)状態として、光電変換素子に蓄積された電荷を浮遊拡散層に転送する。垂直信号線VSLに対して、浮遊拡散層の電荷量に応じた電圧(電圧Bとする)が出力される。
 AD変換部103は、垂直信号線VSL毎に設けられたAD変換器107と、参照信号生成部104と、水平走査部105と、を含む。AD変換器107は、画素アレイ部101の各列(カラム)に対してAD変換処理を行うカラムAD変換器である。AD変換器107は、垂直信号線VSLを介して画素回路100から供給された画素信号に対してAD変換処理を施し、ノイズ低減を行う相関二重サンプリング(CDS:Correlated Double Sampling)処理のための2つのデジタル値(電圧Aおよび電圧Bにそれぞれ対応する値)を生成する。
 AD変換器107は、生成した2つのデジタル値を信号処理部1101に供給する。信号処理部1101は、AD変換器107から供給される2つのデジタル値に基づきCDS処理を行い、デジタル信号による画素信号(画素データ)を生成する。信号処理部1101により生成された画素データは、センサ部10の外部に出力される。
 参照信号生成部104は、制御部1100から入力される制御信号に基づき、各AD変換器107が画素信号を2つのデジタル値に変換するために用いるランプ信号を参照信号として生成する。ランプ信号は、レベル(電圧値)が時間に対して一定の傾きで低下する信号、または、レベルが階段状に低下する信号である。参照信号生成部104は、生成したランプ信号を、各AD変換器107に供給する。参照信号生成部104は、例えばDAC(Digital to Analog Converter)などを用いて構成される。
 参照信号生成部104から、所定の傾斜に従い階段状に電圧が降下するランプ信号が供給されると、カウンタによりクロック信号に従いカウントが開始される。コンパレータは、垂直信号線VSLから供給される画素信号の電圧と、ランプ信号の電圧とを比較して、ランプ信号の電圧が画素信号の電圧を跨いだタイミングでカウンタによるカウントを停止させる。AD変換器107は、カウントが停止された時間のカウント値に応じた値を出力することで、アナログ信号による画素信号を、デジタル値に変換する。
 AD変換器107は、生成した2つのデジタル値を信号処理部1101に供給する。信号処理部1101は、AD変換器107から供給される2つのデジタル値に基づきCDS処理を行い、デジタル信号による画素信号(画素データ)を生成する。信号処理部1101により生成されたデジタル信号による画素信号は、センサ部10の外部に出力される。
 水平走査部105は、制御部1100の制御の下、各AD変換器107を所定の順番で選択する選択走査を行うことによって、各AD変換器107が一時的に保持している各デジタル値を信号処理部1101へ順次出力させる。水平走査部105は、例えばシフトレジスタやアドレスデコーダなどを用いて構成される。
 制御部1100は、センサ制御部11から供給される撮像制御信号に従い、垂直走査部102、AD変換部103、参照信号生成部104および水平走査部105などの駆動制御を行う。制御部1100は、垂直走査部102、AD変換部103、参照信号生成部104および水平走査部105の動作の基準となる各種の駆動信号を生成する。制御部1100は、例えば、撮像制御信号に含まれる垂直同期信号または外部トリガ信号と、水平同期信号とに基づき、垂直走査部102が画素信号線106を介して各画素回路100に供給するための制御信号を生成する。制御部1100は、生成した制御信号を垂直走査部102に供給する。
 また、制御部1100は、例えば、センサ制御部11から供給される撮像制御信号に含まれる、アナログゲインを示す情報をAD変換部103に出力する。AD変換部103は、このアナログゲインを示す情報に応じて、AD変換部103に含まれる各AD変換器107に垂直信号線VSLを介して入力される画素信号のゲインを制御する。
 垂直走査部102は、制御部1100から供給される制御信号に基づき、画素アレイ部101の選択された画素行の画素信号線106に駆動パルスを含む各種信号を、ライン毎に各画素回路100に供給し、各画素回路100から、画素信号を垂直信号線VSLに出力させる。垂直走査部102は、例えばシフトレジスタやアドレスデコーダなどを用いて構成される。また、垂直走査部102は、制御部1100から供給される露出を示す情報に応じて、各画素回路100における露出を制御する。
 このように構成されたセンサ部10は、AD変換器107が列毎に配置されたカラムAD方式のCMOS(Complementary Metal Oxide Semiconductor)イメージセンサである。
 [2.本開示に適用可能な既存技術の例]
 本開示に係る各実施形態の説明に先んじて、理解を容易とするために、本開示に適用可能な既存技術について、概略的に説明する。
(2-1.ローリングシャッタの概要)
 画素アレイ部101による撮像を行う際の撮像方式として、ローリングシャッタ(RS)方式と、グローバルシャッタ(GS)方式とが知られている。まず、ローリングシャッタ方式について、概略的に説明する。図5A、図5Bおよび図5Cは、ローリングシャッタ方式を説明するための模式図である。ローリングシャッタ方式では、図5Aに示されるように、フレーム200の例えば上端のライン201からライン単位で順に撮像を行う。
 なお、上述では、「撮像」を、センサ部10が受光面に照射された光に応じた画素信号を出力する動作を指す、と説明した。より詳細には、「撮像」は、画素において露出を行い、画素に含まれる光電変換素子に露出により蓄積された電荷に基づく画素信号をセンサ制御部11に転送するまでの一連の動作を指すものとする。また、フレームは、上述したように、画素アレイ部101において、画素信号を生成するために有効な画素回路100が配置される領域を指す。
 例えば、図4の構成において、1つのラインに含まれる各画素回路100において露出を同時に実行する。露出の終了後、露出により蓄積された電荷に基づく画素信号を、当該ラインに含まれる各画素回路100において一斉に、各画素回路100に対応する各垂直信号線VSLを介してそれぞれ転送する。この動作をライン単位で順次に実行することで、ローリングシャッタによる撮像を実現することができる。
 図5Bは、ローリングシャッタ方式における撮像と時間との関係の例を模式的に示している。図5Bにおいて、縦軸はライン位置、横軸は時間を示す。ローリングシャッタ方式では、各ラインにおける露出がライン順次で行われるため、図5Bに示すように、各ラインにおける露出のタイミングがラインの位置に従い順にずれることになる。したがって、例えば情報処理システム1と被写体との水平方向の位置関係が高速に変化する場合、図5Cに例示されるように、撮像されたフレーム200の画像に歪みが生じる。図5Cの例では、フレーム200に対応する画像202が、情報処理システム1と被写体との水平方向の位置関係の変化の速度および変化の方向に応じた角度で傾いた画像となっている。
 ローリングシャッタ方式において、ラインを間引きして撮像することも可能である。図6A、図6Bおよび図6Cは、ローリングシャッタ方式におけるライン間引きを説明するための模式図である。図6Aに示されるように、上述した図5Aの例と同様に、フレーム200の上端のライン201からフレーム200の下端に向けてライン単位で撮像を行う。このとき、所定数毎にラインを読み飛ばしながら撮像を行う。
 ここでは、説明のため、1ライン間引きにより1ラインおきに撮像を行うものとする。すなわち第nラインの撮像の次は第(n+2)ラインの撮像を行う。このとき、第nラインの撮像から第(n+2)ラインの撮像までの時間が、間引きを行わない場合の、第nラインの撮像から第(n+1)ラインの撮像までの時間と等しいものとする。
 図6Bは、ローリングシャッタ方式において1ライン間引きを行った場合の撮像と時間との関係の例を模式的に示している。図6Bにおいて、縦軸はライン位置、横軸は時間を示す。図6Bにおいて、露出Aは、間引きを行わない図5Bの露出と対応し、露出Bは、1ライン間引きを行った場合の露出を示している。露出Bに示すように、ライン間引きを行うことにより、ライン間引きを行わない場合に比べ、同じライン位置での露出のタイミングのズレを短縮することができる。したがって、図6Cに画像203として例示されるように、撮像されたフレーム200の画像に生ずる傾き方向の歪が、図5Cに示したライン間引きを行わない場合に比べ小さくなる。一方で、ライン間引きを行う場合には、ライン間引きを行わない場合に比べ、画像の解像度が低くなる。
 上述では、ローリングシャッタ方式においてフレーム200の上端から下端に向けてライン順次に撮像を行う例について説明したが、これはこの例に限定されない。図7Aおよび図7Bは、ローリングシャッタ方式における他の撮像方法の例を模式的に示す図である。例えば、図7Aに示されるように、ローリングシャッタ方式において、フレーム200の下端から上端に向けてライン順次の撮像を行うことができる。この場合は、フレーム200の上端から下端に向けてライン順次に撮像した場合に比べ、画像202の歪の水平方向の向きが逆となる。
 また、例えば画素信号を転送する垂直信号線VSLの範囲を設定することで、ラインの一部を選択的に読み出すことも可能である。さらに、撮像を行うラインと、画素信号を転送する垂直信号線VSLと、をそれぞれ設定することで、撮像を開始および終了するラインを、フレーム200の上端および下端以外とすることも可能である。図7Bは、幅および高さがフレーム200の幅および高さにそれぞれ満たない矩形の領域205を撮像範囲とした例を模式的に示している。図7Bの例では、領域205の上端のライン204からライン順次で領域205の下端に向けて撮像を行っている。
(2-2.グローバルシャッタの概要)
 次に、画素アレイ部101による撮像を行う際の撮像方式として、グローバルシャッタ(GS)方式について、概略的に説明する。図8A、図8Bおよび図8Cは、グローバルシャッタ方式を説明するための模式図である。グローバルシャッタ方式では、図8Aに示されるように、フレーム200に含まれる全画素回路100で同時に露出を行う。
 図4の構成においてグローバルシャッタ方式を実現する場合、一例として、各画素回路100において光電変換素子とFDとの間にキャパシタをさらに設けた構成とすることが考えられる。そして、光電変換素子と当該キャパシタとの間に第1のスイッチを、当該キャパシタと浮遊拡散層との間に第2のスイッチをそれぞれ設け、これら第1および第2のスイッチそれぞれの開閉を、画素信号線106を介して供給されるパルスにより制御する構成とする。
 このような構成において、露出期間中は、フレーム200に含まれる全画素回路100において、第1および第2のスイッチをそれぞれ開、露出終了で第1のスイッチを開から閉として光電変換素子からキャパシタに電荷を転送する。以降、キャパシタを光電変換素子と見做して、ローリングシャッタ方式において説明した読み出し動作と同様のシーケンスにて、キャパシタから電荷を読み出す。これにより、フレーム200に含まれる全画素回路100において同時の露出が可能となる。
 図8Bは、グローバルシャッタ方式における撮像と時間との関係の例を模式的に示している。図8Bにおいて、縦軸はライン位置、横軸は時間を示す。グローバルシャッタ方式では、フレーム200に含まれる全画素回路100において同時に露出が行われるため、図8Bに示すように、各ラインにおける露出のタイミングを同一にできる。したがって、例えば情報処理システム1と被写体との水平方向の位置関係が高速に変化する場合であっても、図8Cに例示されるように、撮像されたフレーム200の画像206には、当該変化に応じた歪が生じない。
 グローバルシャッタ方式では、フレーム200に含まれる全画素回路100における露出タイミングの同時性を確保できる。そのため、各ラインの画素信号線106により供給する各パルスのタイミングと、各垂直信号線VSLによる転送のタイミングとを制御することで、様々なパターンでのサンプリング(画素信号の読み出し)を実現できる。
 図9Aおよび図9Bは、グローバルシャッタ方式において実現可能なサンプリングのパターンの例を模式的に示す図である。図9Aは、フレーム200に含まれる、行列状に配列された各画素回路100から、画素信号を読み出すサンプル208を市松模様状に抽出する例である。また、図9Bは、当該各画素回路100から、画素信号を読み出すサンプル208を格子状に抽出する例である。また、グローバルシャッタ方式においても、上述したローリングシャッタ方式と同様に、ライン順次で撮像を行うことができる。
(2-3.DNNについて)
 次に、各実施形態に適用可能なDNN(Deep Neural Network)を用いた認識処理について、概略的に説明する。各実施形態では、DNNのうち、CNN(Convolutional Neural Network)と、RNN(Recurrent Neural Network)とを用いて画像データに対する認識処理を行う。以下、「画像データに対する認識処理」を、適宜、「画像認識処理」などと呼ぶ。
(2-3-1.CNNの概要)
 先ず、CNNについて、概略的に説明する。CNNによる画像認識処理は、一般的には、例えば行列状に配列された画素による画像情報に基づき画像認識処理を行う。図10は、CNNによる画像認識処理を概略的に説明するための図である。認識対象のオブジェクトである数字の「8」を描画した画像50の全体の画素情報51に対して、所定に学習されたCNN52による処理を施す。これにより、認識結果53として数字の「8」が認識される。
 これに対して、ライン毎の画像に基づきCNNによる処理を施し、認識対象の画像の一部から認識結果を得ることも可能である。図11は、この認識対象の画像の一部から認識結果を得る画像認識処理を概略的に説明するための図である。図11において、画像50’は、認識対象のオブジェクトである数字の「8」を、ライン単位で部分的に取得したものである。この画像50’の画素情報51’を形成する例えばライン毎の画素情報54a、54bおよび54cに対して順次、所定に学習されたCNN52’による処理を施す。
 例えば、第1ライン目の画素情報54aに対するCNN52’による認識処理で得られた認識結果53aは、有効な認識結果ではなかったものとする。ここで、有効な認識結果とは、例えば、認識された結果に対する信頼度を示すスコアが所定以上の認識結果を指す。
 なお、本実施形態に係る信頼度は、DNNが出力する認識結果[T]をどれだけ信頼してよいかを表す評価値を意味する。例えば、信頼度の範囲は、0.0~1.0の範囲であり、数値が1.0に近いほど認識結果[T]に似たスコアを有する他の競合候補がほとんど無かったことを示す。一方で、0に近づくほど、認識結果[T]に似たスコアを有する他の競合候補が多く出現していたことを示す。
 CNN52’は、この認識結果53aに基づき内部状態の更新55を行う。次に、第2ライン目の画素情報54bに対して、前回の認識結果53aにより内部状態の更新55が行われたCNN52’により認識処理が行われる。図11では、その結果、認識対象の数字が「8」または「9」の何れかであることを示す認識結果53bが得られている。さらに、この認識結果53bに基づき、CNN52’の内部情報の更新55を行う。次に、第3ライン目の画素情報54cに対して、前回の認識結果53bにより内部状態の更新55が行われたCNN52’により認識処理が行われる。図11では、その結果、認識対象の数字が、「8」または「9」のうち「8」に絞り込まれる。
 ここで、この図11に示した認識処理は、前回の認識処理の結果を用いてCNNの内部状態を更新し、この内部状態が更新されたCNNにより、前回の認識処理を行ったラインに隣接するラインの画素情報を用いて認識処理を行っている。すなわち、この図11に示した認識処理は、画像に対してライン順次に、CNNの内部状態を前回の認識結果に基づき更新しながら実行されている。したがって、図11に示す認識処理は、ライン順次に再帰的に実行される処理であり、RNNに相当する構造を有していると考えることができる。
(2-3-2.RNNの概要)
 次に、RNNについて、概略的に説明する。図12Aおよび図12Bは、時系列の情報を用いない場合の、DNNによる識別処理(認識処理)の例を概略的に示す図である。この場合、図12Aに示されるように、1つの画像をDNNに入力する。DNNにおいて、入力された画像に対して識別処理が行われ、識別結果が出力される。
 図12Bは、図12Aの処理をより詳細に説明するための図である。図12Bに示されるように、DNNは、特徴抽出処理と、識別処理とを実行する。DNNにおいて、入力された画像に対して特徴抽出処理により特徴量を抽出する。また、DNNにおいて、抽出された特徴量に対して識別処理を実行し、識別結果を得る。
 図13Aおよび図13Bは、時系列の情報を用いた場合の、DNNによる識別処理の第1の例を概略的に示す図である。この図13Aおよび図13Bの例では、時系列上の、固定数の過去情報を用いて、DNNによる識別処理を行う。図13Aの例では、時間Tの画像[T]と、時間Tより前の時間T-1の画像[T-1]と、時間T-1より前の時間T-2の画像[T-2]と、をDNNに入力する。DNNにおいて、入力された各画像[T]、[T-1]および[T-2]に対して識別処理を実行し、時間Tにおける識別結果[T]を得る。識別結果[T]には信頼度が付与される。
 図13Bは、図13Aの処理をより詳細に説明するための図である。図13Bに示されるように、DNNにおいて、入力された画像[T]、[T-1]および[T-2]それぞれに対して、上述の図12Bを用いて説明した特徴抽出処理を1対1に実行し、画像[T]、[T-1]および[T-2]にそれぞれ対応する特徴量を抽出する。DNNでは、これら画像[T]、[T-1]および[T-2]に基づき得られた各特徴量を統合し、統合された特徴量に対して識別処理を実行し、時間Tにおける識別結果[T]を得る。識別結果[T]には信頼度が付与される。
 この図13Aおよび図13Bの方法では、特徴量抽出を行うための構成が複数必要になると共に、利用できる過去の画像の数に応じて、特徴量抽出を行うための構成が必要になり、DNNの構成が大規模になってしまうおそれがある。
 図14Aおよび図14Bは、時系列の情報を用いた場合の、DNNによる識別処理の第2の例を概略的に示す図である。図14Aの例では、内部状態が時間T-1の状態に更新されたDNNに対して時間Tの画像[T]を入力し、時間Tにおける識別結果[T]を得ている。識別結果[T]には信頼度が付与される。
 図14Bは、図14Aの処理をより詳細に説明するための図である。図14Bに示されるように、DNNにおいて、入力された時間Tの画像[T]に対して上述の図12Bを用いて説明した特徴抽出処理を実行し、画像[T]に対応する特徴量を抽出する。DNNにおいて、時間Tより前の画像により内部状態が更新され、更新された内部状態に係る特徴量が保存されている。この保存された内部情報に係る特徴量と、画像[T]における特徴量とを統合し、統合された特徴量に対して識別処理を実行する。
 この図14Aおよび図14Bに示す識別処理は、例えば直前の識別結果を用いて内部状態が更新されたDNNを用いて実行されるもので、再帰的な処理となる。このように、再帰的な処理を行うDNNをRNN(Recurrent Neural Network)と呼ぶ。RNNによる識別処理は、一般的には動画像認識などに用いられ、例えば時系列で更新されるフレーム画像によりDNNの内部状態を順次に更新することで、識別精度を向上させることが可能である。
 本開示では、RNNをローリングシャッタ方式の構造に適用する。すなわち、ローリングシャッタ方式では、画素信号の読み出しがライン順次で行われる。そこで、このライン順次で読み出される画素信号を時系列上の情報として、RNNに適用させる。これにより、CNNを用いた場合(図13B参照)と比較して小規模な構成で、複数のラインに基づく識別処理を実行可能となる。これに限らず、RNNをグローバルシャッタ方式の構造に適用することもできる。この場合、例えば隣接するラインを時系列上の情報と見做すことが考えられる。
(2-4.駆動速度について)
 次に、フレームの駆動速度と、画素信号の読み出し量との関係について、図15Aおよび図15Bを用いて説明する。図15Aは、画像内の全ラインを読み出す例を示す図である。ここで、認識処理の対象となる画像の解像度が、水平640画素×垂直480画素(480ライン)であるものとする。この場合、14400[ライン/秒]の駆動速度で駆動することで、30[fps(frame per second)]での出力が可能となる。
 次に、ラインを間引いて撮像を行うことを考える。例えば、図15Bに示すように、1ラインずつ読み飛ばして撮像を行う、1/2間引き読み出しにて撮像を行うものとする。1/2間引きの第1の例として、上述と同様に14400[ライン/秒]の駆動速度で駆動する場合、画像から読み出すライン数が1/2になるため、解像度は低下するが、間引きを行わない場合の倍の速度の60[fps]での出力が可能となり、フレームレートを向上できる。1/2間引きの第2の例として、駆動速度を第1の例の半分の7200[fps]として駆動する場合、フレームレートは間引かない場合と同様に30[fps]となるが、省電力化が可能となる。
 画像のラインを読み出す際に、間引きを行わないか、間引きを行い、駆動速度を上げるか、間引きを行い、駆動速度間引きを行わない場合と同一とするか、は、例えば、読み出した画素信号に基づく認識処理の目的などに応じて選択することができる。
 図16は、本開示の本実施形態に係る認識処理を概略的に説明するための模式図である。図16において、ステップS1で、本実施形態に係る情報処理システム1(図1参照)により、認識対象となる対象画像の撮像を開始する。
 なお、対象画像は、例えば手書きで数字の「8」を描画した画像であるものとする。また、メモリ13には、所定の教師データにより数字を識別可能に学習された学習モデルがプログラムとして予め記憶されており、認識処理部12は、メモリ13からこのプログラムを読み出して実行することで、画像に含まれる数字の識別を可能とされているものとする。さらに、情報処理システム1は、ローリングシャッタ方式により撮像を行うものとする。なお、情報処理システム1がグローバルシャッタ方式で撮像を行う場合であっても、以下の処理は、ローリングシャッタ方式の場合と同様に適用可能である。
 撮像が開始されると、情報処理システム1は、ステップS2で、フレームをライン単位で、フレームの上端側から下端側に向けて順次に読み出す。
 ある位置までラインが読み出されると、認識処理部12により、読み出されたラインによる画像から、「8」または「9」の数字が識別される(ステップS3)。例えば、数字「8」および「9」は、上半分の部分に共通する特徴部分を含むので、上から順にラインを読み出して当該特徴部分が認識された時点で、認識されたオブジェクトが数字「8」および「9」の何れかであると識別できる。
 ここで、ステップS4aに示されるように、フレームの下端のラインまたは下端付近のラインまで読み出すことで認識されたオブジェクトの全貌が現れ、ステップS2で数字の「8」または「9」の何れかとして識別されたオブジェクトが数字の「8」であることが確定される。
 一方、ステップS4bおよびステップS4cは、本開示に関連する処理となる。
 ステップS4bに示されるように、ステップS3で読み出しを行ったライン位置からさらにラインを読み進め、数字「8」の下端に達する途中でも、認識されたオブジェクトが数字の「8」であると識別することが可能である。例えば、数字「8」の下半分と、数字「9」の下半分とは、それぞれ異なる特徴を有する。この特徴の差異が明確になる部分までラインを読み出すことで、ステップS3で認識されたオブジェクトが数字の「8」および「9」の何れであるかが識別可能となる。図16の例では、ステップS4bにおいて、当該オブジェクトが数字の「8」であると確定されている。
 また、ステップS4cに示されるように、ステップS3のライン位置から、ステップS3の状態においてさらに読み出すことで、ステップS3で識別されたオブジェクトが数字の「8」または「9」の何れであるかを見分けられそうなライン位置にジャンプすることも考えられる。このジャンプ先のラインを読み出すことで、ステップS3で識別されたオブジェクトが数字の「8」または「9」のうち何れであるかを確定することができる。なお、ジャンプ先のライン位置は、所定の教師データに基づき予め学習された学習モデルに基づき決定することができる。
 ここで、上述したステップS4bまたはステップS4cでオブジェクトが確定された場合、情報処理システム1は、認識処理を終了させることができる。これにより、情報処理システム1における認識処理の短時間化および省電力化を実現することが可能となる。
 なお、教師データは、読出単位毎の入力信号と出力信号の組み合わせを複数保持したデータである。一例として、上述した数字を識別するタスクでは、入力信号として読出単位毎のデータ(ラインデータ、サブサンプルされたデータなど)を適用し、出力信号として「正解の数字」を示すデータを適用することができる。他の例として、例えば物体を検出するタスクでは、入力信号として読出単位毎のデータ(ラインデータ、サブサンプルされたデータなど)を適用し、出力信号として物体クラス(人体/車両/非物体)や物体の座標(x、y、h、w)などを適用することができる。また、自己教師学習を用いて入力信号のみから出力信号を生成してもよい。
 (第1実施形態)
 図17は、光学部30を介して受光面に照射された光に応じた画素信号を出力する場合の認識処理における課題を示す図である。
 図17に示すように、左図の画像データを光学部30のレンズパラメータに従い歪み補正した画像データが右図である。右図の歪み補正後のデータから、図16で示したようなラインデータL170、L172を読み出す場合、ラインデータL170のように、画像周辺部では、歪みがより強くなり、ラインデータL170上の画素の密度が低下する。これに対して、画素の中心領域では、歪みが周辺部よりも少なく、ラインデータL172上の画素の密度がラインデータL170上の画素の密度よりも増加する。このように、ラインデータL170、L172毎に密度が異なると、認識処理実行部124の認識処理の認識率が低下してしまう。一方で、有効画素を抜き出すように非均一のサンプリングを行っても、有効画素が方形とならず、認識処理実行部124の認識処理の実行が困難となってしまう。
 図18は、本実施形態に係るセンサ制御部11、及び認識処理部12の機能を説明するための一例の機能ブロック図である。
 図18において、センサ制御部11は、読出部110と、第1レンズ歪逆補正部112とを有する。図18には、レンズ歪パレメータの情報を記憶する蓄積部114が更に図示されている。
 認識処理部12は、特徴量計算部120と、特徴量蓄積制御部121と、読出領域決定部123と、認識処理実行部124と、を有する。
 センサ制御部11において、読出部110は、複数の画素が2次元アレイ状に配列された画素アレイ部101(図4を参照)内の読出画素を第1レンズ歪逆補正部112の指示する座標に基づき設定する。
 第1レンズ歪逆補正部112は、蓄積部114に蓄積されるレンズ歪パレメータの情報に基づき、座標変換して読出部110に供給する。第1レンズ歪逆補正部112は、読出領域決定部123から、認識処理部12において読み出しを行う読出領域を示す読出領域情報を受け取る。読出領域情報は、例えば、1または複数のラインのライン番号である。これに限らず、読出領域情報は、1つのライン内の画素位置を示す情報であってもよい。また、読出領域情報として、1以上のライン番号と、ライン内の1以上の画素の画素位置を示す情報とを組み合わせることで、様々なパターンの読出領域を指定することが可能である。なお、読出領域は、読出単位と同等である。これに限らず、読出領域と読出単位とが異なっていてもよい。
 また、読出部110は、認識処理部1、あるいは、視野処理部14(図1参照)から露出やアナログゲインを示す情報を受け取ることができる。この読出部110は、第1レンズ歪逆補正部112から入力された読出領域情報に従い、センサ部10からの画素データの読み出しを行う。例えば、読出部110は、読出領域情報に基づき、読み出しを行うラインを示すライン番号と、当該ラインにおいて読み出す画素の位置を示す画素位置情報と、を求め、求めたライン番号と画素位置情報と、をセンサ部10に出力する。
 また、読出部110は、供給された露出やアナログゲイン(AG)を示す情報に従い、センサ部10に対して露出やアナログゲインを設定する。さらに、読出部110は、垂直同期信号および水平同期信号を生成し、センサ部10に供給することができる。
 認識処理部12において、読出領域決定部123は、特徴量蓄積制御部121から、次に読み出しを行う読出領域を示す読出情報を受け取る。読出領域決定部123は、受け取った読出情報に基づき読出領域情報を生成し、読出部110に出力する。
 ここで、読出領域決定部123は、読出領域情報に示される読出領域として、例えば、所定の読出単位に、当該読出単位の画素データを読み出すための読出位置情報が付加された情報を用いることができる。読出単位は、1つ以上の画素の集合であり、認識処理部12や視認処理部14による処理の単位となる。一例として、読出単位がラインであれば、ラインの位置を示すライン番号[L#x]が読出位置情報として付加される。また、読出単位が複数の画素を含む矩形領域であれば、矩形領域の画素アレイ部101における位置を示す情報、例えば左上隅の画素の位置を示す情報が読出位置情報として付加される。読出領域決定部123は、適用される読出単位が予め指定される。また、読出領域決定部123は、グローバルシャッタ方式において、サブピクセルを読み出す場合には、サブピクセルの位置情報を読出領域に含めることが可能である。これに限らず、読出領域決定部123は、例えば読出領域決定部123の外部からの指示に応じて、読出単位を決定することもできる。したがって、読出領域決定部123は、読出単位を制御する読出単位制御部として機能する。
 なお、読出領域決定部123は、後述する認識処理実行部124から供給される認識情報に基づき、次に読み出しを行う読出領域を決定し、決定された読出領域を示す読出領域情報を生成することもできる。
 認識処理部12において、特徴量計算部120は、読出部110から供給された画素データおよび読出領域情報に基づき、読出領域情報に示される領域における特徴量を算出する。特徴量計算部120は、算出した特徴量を、特徴量蓄積制御部121に出力する。
 特徴量計算部120は、読出部110から供給された画素データと、特徴量蓄積制御部121から供給された、過去の特徴量と、に基づき特徴量を算出してもよい。これに限らず、特徴量計算部120は、例えば読出部110から露出やアナログゲインを設定するための情報を取得し、取得したこれらの情報をさらに用いて特徴量を算出してもよい。
 認識処理部12において、特徴量蓄積制御部121は、特徴量計算部120から供給された特徴量を、特徴量蓄積部122に蓄積する。また、特徴量蓄積制御部121は、特徴量計算部120から特徴量が供給されると、次の読み出しを行う読み出し領域を示す読出情報を生成し、読出領域決定部123に出力する。
 ここで、特徴量蓄積制御部121は、既に蓄積された特徴量と、新たに供給された特徴量とを統合して蓄積することができる。また、特徴量蓄積制御部121は、特徴量蓄積部122に蓄積された特徴量のうち、不要になった特徴量を削除することができる。不要になった特徴量は、例えば前フレームに係る特徴量や、新たな特徴量が算出されたフレーム画像とは異なるシーンのフレーム画像に基づき算出され、既に蓄積された特徴量などが考えられる。また、特徴量蓄積制御部121は、必要に応じて特徴量蓄積部122に蓄積された全ての特徴量を削除して初期化することもできる。
 また、特徴量蓄積制御部121は、特徴量計算部120から供給された特徴量と、特徴量蓄積部122に蓄積される特徴量と、に基づき認識処理実行部124が認識処理に用いるための特徴量を生成する。特徴量蓄積制御部121は、生成した特徴量を認識処理実行部124に出力する。
 認識処理実行部124は、特徴量蓄積制御部121から供給された特徴量に基づき認識処理を実行する。認識処理実行部124は、認識処理により物体検出、顔検出などを行う。認識処理実行部124は、認識処理により得られた認識結果を出力制御部15に出力する。認識結果には、検出スコアの情報が含まれる。
 認識処理実行部124は、認識処理により生成される認識結果を含む認識情報を読出領域決定部123に出力することもできる。なお、認識処理実行部124は、例えばトリガ生成部(不図示)により生成されたトリガに基づき、特徴量蓄積制御部121から特徴量を受け取って認識処理を実行することができる。
 図19は、本実施形態に係る処理フローを示す図である。上図が通常の歪補正のフローを示し、中図が、サブサンプル読み出しで通常の歪補正をするフローを示し、下図が本実施形態に係る処理フローを示す。下図に示すように、本実施形態に係る処理フローでは、シーンが光学部30のレンズを透過する(S10)。この際に、シーンがレンズによりセンサ部10に集光する位置は、シーンの位置により歪みが生じる。
 次に、画像として結像されたシーンは、センサ部10で画素データに変換される(S12)。読出部110は、レンズの歪みを考慮し、歪補正後にシーンが均一サンプルされるように画像データを読み出し(S12)、特徴量計算部120に供給する(S14)。
 一方で、通常処理では、画像データを読み出し(S140)、読み出し後に歪補正を行う(S142)。このように処理された画像データが、図17の上側の右図となる。また、ブサンプル読み出しで通常の歪補正をするフローでは、画像データをサンプル読み出し(S144)し、読み出し後に歪補正を行う(S146)。この場合も図17の右図と同様に、画像データが不均一となる。
 ここで、図20乃至図24を用いて、第1レンズ歪逆補正部112の処理例を詳細に説明する。
 図20は、第1レンズ歪逆補正部112の処理例を模式的に説明する図である。ここで(x、y)座標を読出領域決定部123から読み出しの指示を受けた座標とする。また、(x1、y1)を(x、y)に対応する座標画像データの座標とする。上述のように、蓄積部114には、座標(x1、y1)と座標(x、y)の対応関係を示す歪みパラメータが記憶されている。ここで、この対応関係を示す歪みパラメータを関数fで表すと、f(x1、y1)=(x、y)となる。
 このため、第1レンズ歪逆補正部112は、読出領域決定部123から指示された画像領域の座標(x、y)を座標(x1、y1)に逆変換する。ここで、この逆変換をf-1(x、y)で示す。この逆変換された座標(x1、y1)に対応する画像データを読出部110はセンサ部10から読み出し座標(x、y)の画像データとして、特徴量計算部120に供給する。これにより、特徴量計算部120は、ラインデータL170、L172から特徴量を演算することが可能となる。この場合、図20に示すように、ラインデータL170、L172上の画像データはほぼ均一であるので、認識処理実行部124での認識率がラインデータL170、L172の位置による変動を受けずに均一化される。
 図21は、1ラインデータに対応するデータを読み出す場合の第1レンズ歪逆補正部112の処理例を模式的に説明する図である。ここで、ラインL174a上の(x、y)座標を読出領域決定部123から読み出しの指示を受けた座標とする。また、(x1、y1)を(x、y)に対応する座標画像データの座標とする。ラインL174a上の(x、y)座標をf-1(x、y)として逆変換する。このラインL174上aの(x、y)座標に対応する座標がラインL174c上の(x1、y1)座標となる。この逆変換されたラインL174c上の座標(x1、y1)に対応する画像データを読出部110はセンサ部10から読み出し、インL174a上の座標(x、y)の画像データとして、特徴量計算部120に供給する。エリアA24は、図22で後述するエリアA24と同一の領域である。
 図22は、回路が複雑になるため座標(x、y)に対応する座標(x1、y1)を直接読み出せない場合にビニング駆動の読み出しで代用する例を示す図である。図22の画素G240を直接読み出せない場合に、代わりに例えばエリアA24の3×3画素範囲を加算で読み出すビニング駆動で読み出して代用してもよい。
 図23Aは、図9Bに示したように、格子状に画素208をサブサンプリングする場合の例を示す図である。図23Aに示すように、格子状に画素208をサブサンプリングする場合にも、光学部30のレンズの歪みが補正される。これにより、認識処理実行部124の認識処理を光学部30のレンズ歪みの影響を受けずに行うことが可能となる。
 図23Bは、図23Aにおいて、座標変換を行う際に、サブサンプリングも同時行った例を示す図である。このように、f-1(x、y)を逆変換した座標(x1、y1)から画像データを読み出し、メモリ13などに記憶してもよい。この場合、認識処理中に歪み補正及びサブサンプリングを行わずに認識処理を実行することも可能となる。
 図24は読出部110の処理の流れを示すフローチャートである。
 まず、読出領域決定部123は、読み出しパターンに従い、次の読出領域を決定し(ステップS100)、読出領域情報を第1レンズ歪逆補正部112に供給する。この読出領域情報には読み出し領域の座標情報が含まれている。
 次に、第1レンズ歪逆補正部112は、蓄積部114からレンズ歪みパラメータを取得する(ステップS102)。そして、第1レンズ歪逆補正部112は、レンズ歪みパラメータを用いて、読み出し領域の座標を逆変換する(ステップS104)。そして、読出部110は、センサ部10から画像データを読み出し(ステップS106)、特徴量計算部120に供給して、処理を終了する。
 以上説明したように、本実施形態によれば、第1レンズ歪逆補正部112が、レンズ歪みパラメータを用いて次の読出領域の座標を逆変換して、センサ部10から画像データを読み出し、特徴量計算部120に供給することとした。これにより、レンズ歪みが補正され、均一化された画像データを用いて特徴量を演算できる。このため、認識処理実行部124の認識処理の認識精度をより向上させることができる。
(第2実施形態)
 第2実施形態に係る情報処理システム1は、認識処理実行部124のCNNの代わりにポイントネット型の認識器を更に用いることが可能である点で、第1実施形態に係る情報処理システム1と相違する。以下では、第1実施形態に係る情報処理システム1と相違する点に関して説明する。
 図25は、通常の補正処理の課題を概念的に示す図である。図25の左図は補正前の画像データを示し、中図は歪み補正後の画像示す。そして、右図は、画素の分布を均一化する補間処理を行った画像を示す。右図に示すようにレンズ歪みパラメータによれば、補間処理により生成する画素が増加し、認識率が低下する可能性がある。
 図26は、第2実施形態に係るセンサ制御部11、及び認識処理部12の機能を説明するための一例の機能ブロック図である。図26に示すように第2実施形態に係る認識処理部12は第2レンズ歪補正部125を更に有する。
 図27は、ポイントネット型の認識器52aを模式的に示す図である。ポイントネット型の認識器52aは、画像データが格子状に配置されておらず、画像データの分布に粗密があるデータに対しても認識率が維持される。このため、図25の中図に示すように点群の画素値に対しても認識が可能である。なお、画像50、51は、上述の図10における画像50、51と同等の画像である。
 図28は、第2実施形態に係る処理フローを示す図である。図28に示すように、本実施形態に係る処理フローでは、シーンが光学部30のレンズを透過する(S10)。この際に、シーンがレンズによりセンサ部10に集光する位置は、シーンの位置により歪みが生じる。
 次に、画像として結像されシーンは、センサ部10で画素データに変換され(S12)、読出部110によりサンプリング読み出しされる(S16)。読出部110は、第2レンズ歪補正部125にサンプリングした画像データを供給する。第2レンズ歪補正部125は、座標(x、y)をf-1(x、y)により座標(x1、y1)に逆変換し、サンプリングした画像データ(x、y)を歪み補正した画像データ(x1、y1)に変換する(S18)。第2レンズ歪補正部125は、画像データ(x1、y1)を特徴量計算部120に供給する。このように、ポイントネット型の認識器52aを用いることにより、歪みを補正した画像データ(x1、y1)からそのまま特徴量を演算可能となる。なお、座標(x1、y1)と座標(x、y)との対応関係を予め演算し、座標変換マップとして蓄積部114に記憶してもよい。この場合、座標変換マップを用いて座標変換することにより、演算時間を短縮することができる。
 図29は認識処理部12の処理の流れを示すフローチャートである。
 まず、読出部110は、読出領域情報内の座標情報に基づき、センサ部10から画像データを読み出し、第2レンズ歪補正部125に供給する(ステップS200)。
 次に、第2レンズ歪補正部125は、蓄積部114からレンズ歪みパラメータを取得する(ステップS202)。第2レンズ歪補正部125は、レンズ歪みパラメータを用いて、読み出した画像データの座標に対して歪み補正を行う(ステップS204)。そして、特徴量計算部120は、歪み補正された座標の画像データから特徴量を演算する(ステップS206)。
 以上説明したように、本実施形態によれば、第2レンズ歪補正部125がレンズ歪みパラメータを用いて、読み出した画像データの座標に対して歪み補正を行う。そして、特徴量計算部120は、歪み補正された座標の画像データから特徴量を演算し、認識処理実行部124のポイントネット型の認識器52aにより認識を行う。これにより、レンズ歪みが補正された画像データから補間処理などを行わずに特徴量を演算できる。これにより、認識処理実行部124の認識処理の認識精度をより向上させることができる。
(第3実施形態)
 第3実施形態の変形例に係る情報処理システム1は、読み出し画像に対してレンズ歪を補正し、補正前の一行分のデータに対応する補正後の画像データを認識処理実行部124に供給する点で第2実施形態に係る情報処理システム1と相違する。以下では、第2実施形態に係る情報処理システム1と相違する点に関して説明する。
 図30は、図19の上段で示した処理フローで処理される従来のデータを示す図である。図30の(a)図は、読出部110が読み出された二次元状の画像データである。(b)図は、第2レンズ歪補正部125がレンズ歪みパラメータを用いて、読み出した画像データの座標に対して歪み補正を行った画像データである。(b)図で示す二次元状の画像データが、図25の中図で示した従来の歪み補正を行った画像データに対応する。このデータを例えばCNNで構成される認識処理実行部124に供給すると、図25で示した処理と同様の課題が生じる。
 すなわち、図30の(b)図で示した画像データを、従来の様にライン毎に供給画像データとして入力すると、図30の(a)図の下端部の画像データは、ライン毎に分断され情報量が低下する。一方で、中央部のラインデータは、全データが一行の供給画像データとして構成され、端部領域の供給画像データよりも情報量が増加する。これにより、認識処理実行部124の認識精度が、図30の(b)図で示す補正後画像のラインの位置により認識精度がばらついてしまう。
 図31は、第3実施形態に係る情報処理システム1で用いる処理データを例示する図である。図31の(a)図は、読出部110(図26参照)が読み出した二次元状の画像データである。二次元状の画像データの各行のデータはラインデータL130aに示すように直線状である。この処理は、図19の上段で示した処理フローのS140に相当する。
 (b)図は、第2レンズ歪補正部125(図26参照)がレンズ歪みパラメータを用いて、読み出した画像データの座標に対して歪み補正を行った画像データである。(b)図で示すように、ラインデータL130aは補正後にライン130bに示すように湾曲する。この処理は、図19の上段で示した処理フローのS142に相当する。
 (c)図で示す二次元状の画像データが、本実施形態に係るCNNで構成される認識処理実行部124に供給される供給画像データである。ライン130bに対応するライン状のラインデータ130cが含まれる。この供給画像データの縦幅は、ラインデータL130aに応じて変更される。また、データライン130c以外の領域の値は、所定値、例えば0に変更される。
 すなわち、第3実施形態に係る特徴量計算部120(図26参照)では、(c)図で示すように、レンズ歪みパラメータ及び、元データであるラインデータL130aの位置に応じた縦幅を有する二次元状の画像データから特徴量を演算する。すなわち、(c)図で示す供給画像データには、必ずラインデータL130aに基づくラインデータL130cが含まれる。
 第3実施形態に係る認識処理実行部124(図26参照)は、(c)図で示す供給画像データの形式にそれぞれ対応させて学習させた例えばCNNで構成される。
 以上説明したように、本実施形態では、レンズ歪を補正した画像データから一行分のラインデータL130aに対応するラインデータL130c含む範囲の画像データを認識処理実行部124に供給する。これにより、認識処理実行部124には、必ずラインデータL130aに基づくラインデータL130cが含まれる画像データが供給され、認識処理実行部124の認識精度の低下が抑制される。
(第4実施形態)
 第4実施形態の変形例に係る情報処理システム1は、レンズ歪をキャンセルする替わりに、レンズの歪パラメータに応じて認識処理実行部124の認識器を切り替え可能である点で、第2実施形態に係る情報処理システム1と相違する。以下では、第2実施形態に係る情報処理システム1と相違する点に関して説明する。
 図32は、第4実施形態に係る処理フローの一例を示す図である。図32に示すように、本変形例に係る処理フローでは、シーンが光学部30のレンズを透過する(S10)。この際に、シーンがレンズによりセンサ部10に集光する位置は、シーンの位置により歪みが生じる。
 次に、画像として結像されシーンは、センサ部10で画素データに変換され(S12)、読出部110により読み出しされる(S140)。読出部110は、第2レンズ歪補正部125にライン状にサンプリングした画像データを供給する。第2レンズ歪補正部125は、歪み補正していない画像データ(x、y)を特徴量計算部120に供給する。
 認識処理実行部124は、レンズの歪パラメータに応じて学習したCNNの認識器を選択し、認識処理を実行する。複数の認識器のそれぞれは、レンズ歪の異なるレンズごとに学習されている。また、認識処理実行部124が有する例えばCNNの認識器は、様々なレンズ歪の異なるレンズに対して学習した第2認識器も有する。この第2認識器は、レンズの歪パラメータが不明である場合にも、所定値以上の認識精度を有するように学習されている。このため、第2認識器は、レンズの歪パラメータが不明である場合や、適合する歪パラメータに対する認識器が存在しない場合に用いられる。このように、歪パラメータに適合する認識器が存在しない場合も第2認識器を用いることにより、認識精度の低下が抑制される。
 図33は、第4実施形態に係る処理フローの別の一例を示す図である。図33に示すように、本変形例に係る処理フローでは、シーンが光学部30のレンズを透過する(S10)。この際に、シーンがレンズによりセンサ部10に集光する位置は、シーンの位置により歪みが生じる。
 次に、画像として結像されシーンは、センサ部10で画素データに変換され(S12)、読出部110によりサブサンプリングされ読み出しされる(S144)。読出部110は、第2レンズ歪補正部125にサブサンプリングした画像データを供給する。第2レンズ歪補正部125は、歪み補正していない画像データ(x、y)を特徴量計算部120に供給する。
 認識処理実行部124は、レンズの歪パラメータに応じて学習したサブサンプリングした画像用のCNNの認識器を選択し、認識処理を実行する。複数の認識器のそれぞれは、レンズ歪の異なるレンズごとに学習されている。また、認識処理実行部124が有する例えばCNNの認識器は、様々なレンズ歪の異なるレンズに対して学習したサブサンプリングした画像用の第3認識器も有する。この第3認識器は、レンズの歪パラメータが不明である場合にも、所定値以上の認識精度を有するように学習されている。このため、第3認識器は、レンズの歪パラメータが不明である場合や、適合する歪パラメータに対する認識器が存在しない場合に用いられる。このように、歪パラメータに適合する認識器が存在しない場合も第3認識器を用いることにより、認識精度の低下が抑制される。
 以上説明したように、本実施形態によれば、レンズ歪をキャンセルする替わりに、レンズの歪パラメータに応じて認識処理実行部124の認識器を切り替えることとした。これにより、レンズ歪を補正することなく、様々な歪パラメータに対応した認識器を用いることにより認識率の低下を抑制できる。
(第5実施形態)
(3-1.本開示の技術の適用例)
 次に、第2種類の実施形態として、本開示に係る、第1乃至第4実施形態に係る情報処理装置2の適用例について説明する。図34は、第1乃至第4実施形態に係る情報処理装置2を使用する使用例を示す図である。なお、以下では、特に区別する必要のない場合、情報処理装置2で代表させて説明を行う。
 上述した情報処理装置2は、例えば、以下のように、可視光や、赤外光、紫外光、X線等の光をセンシングしセンシング結果に基づき認識処理を行う様々なケースに使用することができる。
・ディジタルカメラや、カメラ機能付きの携帯機器等の、鑑賞の用に供される画像を撮影する装置。
・自動停止等の安全運転や、運転者の状態の認識等のために、自動車の前方や後方、周囲、車内等を撮影する車載用センサ、走行車両や道路を監視する監視カメラ、車両間等の測距を行う測距センサ等の、交通の用に供される装置。
・ユーザのジェスチャを撮影して、そのジェスチャに従った機器操作を行うために、TVや、冷蔵庫、エアーコンディショナ等の家電に供される装置。
・内視鏡や、赤外光の受光による血管撮影を行う装置等の、医療やヘルスケアの用に供される装置。
・防犯用途の監視カメラや、人物認証用途のカメラ等の、セキュリティの用に供される装置。
・肌を撮影する肌測定器や、頭皮を撮影するマイクロスコープ等の、美容の用に供される装置。
・スポーツ用途等向けのアクションカメラやウェアラブルカメラ等の、スポーツの用に供される装置。
・畑や作物の状態を監視するためのカメラ等の、農業の用に供される装置。
(3-2.移動体への適用例)
 本開示に係る技術(本技術)は、様々な製品へ応用することができる。例えば、本開示に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット等のいずれかの種類の移動体に搭載される装置として実現されてもよい。
 図35は、本開示に係る技術が適用され得る移動体制御システムの一例である車両制御システムの概略的な構成例を示すブロック図である。
 車両制御システム12000は、通信ネットワーク12001を介して接続された複数の電子制御ユニットを備える。図35に示した例では、車両制御システム12000は、駆動系制御ユニット12010、ボディ系制御ユニット12020、車外情報検出ユニット12030、車内情報検出ユニット12040、及び統合制御ユニット12050を備える。また、統合制御ユニット12050の機能構成として、マイクロコンピュータ12051、音声画像出力部12052、及び車載ネットワークI/F(interface)12053が図示されている。
 駆動系制御ユニット12010は、各種プログラムにしたがって車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット12010は、内燃機関又は駆動用モータ等の車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、及び、車両の制動力を発生させる制動装置等の制御装置として機能する。
 ボディ系制御ユニット12020は、各種プログラムにしたがって車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット12020は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカー又はフォグランプ等の各種ランプの制御装置として機能する。この場合、ボディ系制御ユニット12020には、鍵を代替する携帯機から発信される電波又は各種スイッチの信号が入力され得る。ボディ系制御ユニット12020は、これらの電波又は信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプ等を制御する。
 車外情報検出ユニット12030は、車両制御システム12000を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット12030には、撮像部12031が接続される。車外情報検出ユニット12030は、撮像部12031に車外の画像を撮像させるとともに、撮像された画像を受信する。車外情報検出ユニット12030は、受信した画像に基づいて、人、車、障害物、標識又は路面上の文字等の物体検出処理又は距離検出処理を行ってもよい。
 撮像部12031は、光を受光し、その光の受光量に応じた電気信号を出力する光センサである。撮像部12031は、電気信号を画像として出力することもできるし、測距の情報として出力することもできる。また、撮像部12031が受光する光は、可視光であっても良いし、赤外線等の非可視光であっても良い。
 車内情報検出ユニット12040は、車内の情報を検出する。車内情報検出ユニット12040には、例えば、運転者の状態を検出する運転者状態検出部12041が接続される。運転者状態検出部12041は、例えば運転者を撮像するカメラを含み、車内情報検出ユニット12040は、運転者状態検出部12041から入力される検出情報に基づいて、運転者の疲労度合い又は集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。
 マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構又は制動装置の制御目標値を演算し、駆動系制御ユニット12010に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車両の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、又は車両のレーン逸脱警告等を含むADAS(Advanced Driver Assistance System)の機能実現を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構又は制動装置等を制御することにより、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030で取得される車外の情報に基づいて、ボディ系制御ユニット12020に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車外情報検出ユニット12030で検知した先行車又は対向車の位置に応じてヘッドランプを制御し、ハイビームをロービームに切り替える等の防眩を図ることを目的とした協調制御を行うことができる。
 音声画像出力部12052は、車両の搭乗者又は車外に対して、視覚的又は聴覚的に情報を通知することが可能な出力装置へ音声及び画像のうちの少なくとも一方の出力信号を送信する。図35の例では、出力装置として、オーディオスピーカ12061、表示部12062及びインストルメントパネル12063が例示されている。表示部12062は、例えば、オンボードディスプレイ及びヘッドアップディスプレイの少なくとも一つを含んでいてもよい。
 図36は、撮像部12031の設置位置の例を示す図である。
 図36では、車両12100は、撮像部12031として、撮像部12101、12102、12103、12104、12105を有する。
 撮像部12101、12102、12103、12104、12105は、例えば、車両12100のフロントノーズ、サイドミラー、リアバンパ、バックドア及び車室内のフロントガラスの上部等の位置に設けられる。フロントノーズに備えられる撮像部12101及び車室内のフロントガラスの上部に備えられる撮像部12105は、主として車両12100の前方の画像を取得する。サイドミラーに備えられる撮像部12102、12103は、主として車両12100の側方の画像を取得する。リアバンパ又はバックドアに備えられる撮像部12104は、主として車両12100の後方の画像を取得する。撮像部12101及び12105で取得される前方の画像は、主として先行車両又は、歩行者、障害物、信号機、交通標識又は車線等の検出に用いられる。
 なお、図36には、撮像部12101ないし12104の撮影範囲の一例が示されている。撮像範囲12111は、フロントノーズに設けられた撮像部12101の撮像範囲を示し、撮像範囲12112、12113は、それぞれサイドミラーに設けられた撮像部12102、12103の撮像範囲を示し、撮像範囲12114は、リアバンパ又はバックドアに設けられた撮像部12104の撮像範囲を示す。例えば、撮像部12101ないし12104で撮像された画像データが重ね合わせられることにより、車両12100を上方から見た俯瞰画像が得られる。
 撮像部12101ないし12104の少なくとも1つは、距離情報を取得する機能を有していてもよい。例えば、撮像部12101ないし12104の少なくとも1つは、複数の撮像素子からなるステレオカメラであってもよいし、位相差検出用の画素を有する撮像素子であってもよい。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を基に、撮像範囲12111ないし12114内における各立体物までの距離と、この距離の時間的変化(車両12100に対する相対速度)を求めることにより、特に車両12100の進行路上にある最も近い立体物で、車両12100と略同じ方向に所定の速度(例えば、0km/h以上)で走行する立体物を先行車として抽出することができる。さらに、マイクロコンピュータ12051は、先行車の手前に予め確保すべき車間距離を設定し、自動ブレーキ制御(追従停止制御も含む)や自動加速制御(追従発進制御も含む)等を行うことができる。このように運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を元に、立体物に関する立体物データを、2輪車、普通車両、大型車両、歩行者、電柱等その他の立体物に分類して抽出し、障害物の自動回避に用いることができる。例えば、マイクロコンピュータ12051は、車両12100の周辺の障害物を、車両12100のドライバが視認可能な障害物と視認困難な障害物とに識別する。そして、マイクロコンピュータ12051は、各障害物との衝突の危険度を示す衝突リスクを判断し、衝突リスクが設定値以上で衝突可能性がある状況であるときには、オーディオスピーカ12061や表示部12062を介してドライバに警報を出力することや、駆動系制御ユニット12010を介して強制減速や回避操舵を行うことで、衝突回避のための運転支援を行うことができる。
 撮像部12101ないし12104の少なくとも1つは、赤外線を検出する赤外線カメラであってもよい。例えば、マイクロコンピュータ12051は、撮像部12101ないし12104の撮像画像中に歩行者が存在するか否かを判定することで歩行者を認識することができる。かかる歩行者の認識は、例えば赤外線カメラとしての撮像部12101ないし12104の撮像画像における特徴点を抽出する手順と、物体の輪郭を示す一連の特徴点にパターンマッチング処理を行って歩行者か否かを判別する手順によって行われる。マイクロコンピュータ12051が、撮像部12101ないし12104の撮像画像中に歩行者が存在すると判定し、歩行者を認識すると、音声画像出力部12052は、当該認識された歩行者に強調のための方形輪郭線を重畳表示するように、表示部12062を制御する。また、音声画像出力部12052は、歩行者を示すアイコン等を所望の位置に表示するように表示部12062を制御してもよい。
 以上、本開示に係る技術が適用され得る車両制御システムの一例について説明した。本開示に係る技術は、以上説明した構成のうち、撮像部12031および車外情報検出ユニット12030に適用され得る。具体的には、例えば、情報処理装置2のセンサ部10を撮像部12031に適用し、認識処理部12を車外情報検出ユニット12030に適用する。認識処理部12から出力された認識結果は、例えば通信ネットワーク12001を介して統合制御ユニット12050に渡される。
 このように、本開示に係る技術を撮像部12031および車外情報検出ユニット12030に適用することで、近距離の対象物の認識と、遠距離の対象物の認識とをそれぞれ実行できると共に、近距離の対象物の認識を高い同時性で行うことが可能となるため、より確実な運転支援が可能となる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 なお、本技術は以下のような構成を取ることができる。
 (1)複数の画素が2次元アレイ状に配列された画素領域の一部として読み出し単位を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を前記読出部に読み出させる補正部と、
 を備える、情報処理装置。
 (2)前記補正部は、レンズの歪パラメータに基づいて、前記読み出し単位に対して歪補正の逆変換をかけて、読み出し単位を補正する、(1)に記載の情報処理装置。
 (3)歪パラメータに基づいて補正して読み出した前記画素信号に基づき特徴量を計算する特徴量計算部を、
 更に備える、(1)に記載の情報処理装置。
 (4)前記特徴量に基づき認識処理を行う認識処理部を、
 更に備える、(3)に記載の情報処理装置。
 (5)前記補正部は、直線状の座標列をレンズの歪パラメータに基づいて補正した座標位置を演算し、前記読出部は、補正した座標位置に基づく前記画素信号の読み出しを制御する、(1)に情報処理装置。
 (6)前記補正部は、サブサンプリングの座標群をレンズの歪パラメータに基づいて補正した座標位置を演算し、前記読出部は、補正した座標位置に基づく前記画素信号の読み出しを制御する、(1)に記載の情報処理装置。
 (7)複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正部と、
 を備える、情報処理装置。
 (8)前記補正した画素信号に基づき認識処理を行う認識処理部を、
 更に備える、(7)に記載の情報処理装置。
 (9)前記認識処理部は、ポイントネット型の認識器を有する、(8)に記載の情報処理装置。
 (10)前記第2補正部は、前記読出部が読み出した画素信号の各行に対応する範囲に応じた前記補正した画素信号を前記認識処理実行部に供給する、(8)に記載の情報処理装置。
 (11)複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 複数のレンズに応じて学習した複数の認識器を有し、前記読み出した画素信号に基づき認識処理を行う認識処理実行部を、
 を備え、
 前記認識処理実行部は、前記画素信号の撮像に応じた認識器を用いて認識処理を行う、 情報処理装置。
 (12)前記認識処理実行部は、前記画素信号の撮像に用いた光学系に対応する認識器を用いて認識処理を行う、(11)に記載の情報処理装置。
 (13)前記認識処理実行部は、複数の異なる光学系に対して学習した認識器を用いて認識処理を行う、(11)に記載の情報処理装置。
 (14)複数の画素が2次元アレイ状に配列されたセンサ部と、
 認識処理部と、を備える情報処理システムであって、
 前記認識処理部は、
 前記センサ部の画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を前記読出部に読み出させる補正部と、
 を有する、情報処理システム。
 (15)複数の画素が2次元アレイ状に配列されたセンサ部と、
 認識処理部と、を備える情報処理システムであって、
 前記認識処理部は、
 複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正部と、
 を有する、情報処理システム。
 (16)複数の画素が2次元アレイ状に配列されたセンサ部と、
 認識処理部と、を備える情報処理システムであって、
 前記認識処理部は、
 複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
 複数のレンズに応じて学習した複数の認識器を有し、前記読み出した画素信号に基づき認識処理を行う認識処理実行部を、
 を有し、
 前記認識処理実行部は、前記画素信号の撮像に応じた認識器を用いて認識処理を行う、情報処理システム。
 (17)複数の画素が2次元アレイ状に配列された画素領域の一部として読み出し単位を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を前記読出部に読み出させる補正工程と、
 を備える、情報処理方法。
 (18)複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正工程と、
 を備える、情報処理方法。
 (19)複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 複数のレンズに応じて学習した複数の認識器を用いて、前記読み出した画素信号に基づき認識処理を行う認識処理実行工程を、
 を備え、
 前記認識処理実行工程は、前記画素信号の撮像に応じた認識器を用いて認識処理を行う、
 情報処理方法。
 (20)複数の画素が2次元アレイ状に配列された画素領域の一部として読み出し単位を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を読み出させる補正工程と、
 をコンピュータに実行させるプログラム。
 (21)複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正工程と、
  をコンピュータに実行させるプログラム。
 (22)複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
 複数のレンズに応じて学習した複数の認識器を用いて、前記読み出した画素信号に基づき認識処理を行う認識処理実行工程を、コンピュータに実行させるプログラムであって、 前記認識処理実行工程は、前記画素信号の撮像に応じた認識器を用いた認識処理をコンピュータに実行させるプログラム。
 1:情報処理システム、2:情報処理装置20:センサ部、12:認識処理部、110:読出部、112:第1レンズ歪逆補正部(補正部)、120:特徴量計算部、124:認識処理実行部、125:第2レンズ歪補正部(第2補正部)。

Claims (22)

  1.  複数の画素が2次元アレイ状に配列された画素領域の一部として読み出し単位を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
     前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を前記読出部に読み出させる補正部と、
     を備える、情報処理装置。
  2.  前記補正部は、レンズの歪パラメータに基づいて、前記読み出し単位に対して歪補正の逆変換をかけて、前記読み出し単位を補正する、請求項1に記載の情報処理装置。
  3.  歪パラメータに基づいて補正して読み出した前記画素信号に基づき特徴量を計算する特徴量計算部を、
     更に備える、請求項1に記載の情報処理装置。
  4.  前記特徴量に基づき認識処理を行う認識処理実行部を、
     更に備える、請求項3に記載の情報処理装置。
  5.  前記補正部は、直線状の座標列をレンズの歪パラメータに基づいて補正した座標位置を演算し、前記読出部は、補正した座標位置に基づく前記画素信号の読み出しを制御する、請求項1に記載の情報処理装置。
  6.  前記補正部は、サブサンプリングの座標群をレンズの歪パラメータに基づいて補正した座標位置を演算し、前記読出部は、補正した座標位置に基づく前記画素信号の読み出しを制御する、請求項1に記載の情報処理装置。
  7.  複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
     前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正部と、
     を備える、情報処理装置。
  8.  前記補正した画素信号に基づき認識処理を行う認識処理実行部を、
     更に備える、請求項7に記載の情報処理装置。
  9.  前記認識処理実行部は、ポイントネット型の認識器を有する、請求項8に記載の情報処理装置。
  10.  前記第2補正部は、前記読出部が読み出した画素信号の各行に対応する範囲に応じた前記補正した画素信号を前記認識処理実行部に供給する、請求項8に記載の情報処理装置。
  11.  複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
     複数のレンズに応じて学習した複数の認識器を有し、前記読み出した画素信号に基づき認識処理を行う認識処理実行部を、
     を備え、
     前記認識処理実行部は、前記画素信号の撮像に応じた認識器を用いて認識処理を行う、 情報処理装置。
  12.  前記認識処理実行部は、前記画素信号の撮像に用いた光学系に対応する認識器を用いて認識処理を行う、請求項11に記載の情報処理装置。
  13.  前記認識処理実行部は、複数の異なる光学系に対して学習した認識器を用いて認識処理を行う、請求項11に記載の情報処理装置。
  14.  複数の画素が2次元アレイ状に配列されたセンサ部と、
     認識処理部と、を備える情報処理システムであって、
     前記認識処理部は、
     前記センサ部の画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
     前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を前記読出部に読み出させる補正部と、
     を有する、情報処理システム。
  15.  複数の画素が2次元アレイ状に配列されたセンサ部と、
     認識処理部と、を備える情報処理システムであって、
     前記認識処理部は、
     複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
     前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正部と、
     を有する、情報処理システム。
  16.  複数の画素が2次元アレイ状に配列されたセンサ部と、
     認識処理部と、を備える情報処理システムであって、
     前記認識処理部は、
     複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出部と、
     複数のレンズに応じて学習した複数の認識器を有し、前記読み出した画素信号に基づき認識処理を行う認識処理実行部を、
     を有し、
     前記認識処理実行部は、前記画素信号の撮像に応じた認識器を用いて認識処理を行う、情報処理システム。
  17.  複数の画素が2次元アレイ状に配列された画素領域の一部として読み出し単位を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
     前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を読み出させる補正工程と、
     を備える、情報処理方法。
  18.  複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
     前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正工程と、
     を備える、情報処理方法。
  19.  複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
     複数のレンズに応じて学習した複数の認識器を用いて、前記読み出した画素信号に基づき認識処理を行う認識処理実行工程を、
     を備え、
     前記認識処理実行工程は、前記画素信号の撮像に応じた認識器を用いて認識処理を行う、
     情報処理方法。
  20.  複数の画素が2次元アレイ状に配列された画素領域の一部として読み出し単位を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
     前記読み出し単位をレンズの歪パラメータに基づいて補正し、前記画素信号を読み出させる補正工程と、
     をコンピュータに実行させるプログラム。
  21.  複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
     前記画素領域に含まれる画素からの画素信号の座標をレンズの歪パラメータに基づいて補正する第2補正工程と、
      をコンピュータに実行させるプログラム。
  22.  複数の画素が2次元アレイ状に配列された画素領域の一部として読出画素を設定し、前記画素領域に含まれる画素からの画素信号の読み出しを制御する読出工程と、
     複数のレンズに応じて学習した複数の認識器を用いて、前記読み出した画素信号に基づき認識処理を行う認識処理実行工程を、コンピュータに実行させるプログラムであって、 前記認識処理実行工程は、前記画素信号の撮像に応じた認識器を用いた認識処理をコンピュータに実行させるプログラム。
PCT/JP2021/023543 2020-07-20 2021-06-22 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム WO2022019026A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/005,189 US20230269498A1 (en) 2020-07-20 2021-06-22 Information processing device, information processing system, information processing method, and information processing program
JP2022538642A JPWO2022019026A1 (ja) 2020-07-20 2021-06-22
DE112021003849.4T DE112021003849T5 (de) 2020-07-20 2021-06-22 Informationsverarbeitungsvorrichtung, informationsverarbeitungssystem, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-123760 2020-07-20
JP2020123760 2020-07-20

Publications (1)

Publication Number Publication Date
WO2022019026A1 true WO2022019026A1 (ja) 2022-01-27

Family

ID=79729462

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/023543 WO2022019026A1 (ja) 2020-07-20 2021-06-22 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム

Country Status (4)

Country Link
US (1) US20230269498A1 (ja)
JP (1) JPWO2022019026A1 (ja)
DE (1) DE112021003849T5 (ja)
WO (1) WO2022019026A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11901930B1 (en) 2023-04-26 2024-02-13 Battelle Memorial Institute Radio frequency aperture with cooling assembly
US11936415B2 (en) 2019-05-03 2024-03-19 Battelle Memorial Institute Modular radio frequency aperture
US11967767B1 (en) 2023-04-26 2024-04-23 Battelle Memorial Institute Air interface plane for radio frequency aperture

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007108081A1 (ja) * 2006-03-20 2007-09-27 Fujitsu Limited 撮影装置、撮影方法及びプログラム、撮影装置のテーブル作成装置及び方法、映像処理装置及び方法
JP2019159940A (ja) * 2018-03-14 2019-09-19 株式会社Preferred Networks 点群特徴抽出装置、点群特徴抽出方法及びプログラム
WO2020027233A1 (ja) * 2018-07-31 2020-02-06 ソニーセミコンダクタソリューションズ株式会社 撮像装置及び車両制御システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007108081A1 (ja) * 2006-03-20 2007-09-27 Fujitsu Limited 撮影装置、撮影方法及びプログラム、撮影装置のテーブル作成装置及び方法、映像処理装置及び方法
JP2019159940A (ja) * 2018-03-14 2019-09-19 株式会社Preferred Networks 点群特徴抽出装置、点群特徴抽出方法及びプログラム
WO2020027233A1 (ja) * 2018-07-31 2020-02-06 ソニーセミコンダクタソリューションズ株式会社 撮像装置及び車両制御システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11936415B2 (en) 2019-05-03 2024-03-19 Battelle Memorial Institute Modular radio frequency aperture
US11901930B1 (en) 2023-04-26 2024-02-13 Battelle Memorial Institute Radio frequency aperture with cooling assembly
US11967767B1 (en) 2023-04-26 2024-04-23 Battelle Memorial Institute Air interface plane for radio frequency aperture

Also Published As

Publication number Publication date
DE112021003849T5 (de) 2023-05-25
US20230269498A1 (en) 2023-08-24
JPWO2022019026A1 (ja) 2022-01-27

Similar Documents

Publication Publication Date Title
JP7380180B2 (ja) 固体撮像素子、撮像装置、撮像方法および撮像プログラム
CN109691079B (zh) 成像装置和电子设备
WO2022019026A1 (ja) 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
WO2018139187A1 (ja) 固体撮像装置およびその駆動方法、並びに電子機器
WO2022019025A1 (ja) 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
WO2022019049A1 (ja) 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
US20240078803A1 (en) Information processing apparatus, information processing method, computer program, and sensor apparatus
WO2021246311A1 (ja) 撮像装置および電子機器

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21846911

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022538642

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 21846911

Country of ref document: EP

Kind code of ref document: A1