WO2021200199A1 - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
WO2021200199A1
WO2021200199A1 PCT/JP2021/011009 JP2021011009W WO2021200199A1 WO 2021200199 A1 WO2021200199 A1 WO 2021200199A1 JP 2021011009 W JP2021011009 W JP 2021011009W WO 2021200199 A1 WO2021200199 A1 WO 2021200199A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
recognition
feature amount
information processing
image
Prior art date
Application number
PCT/JP2021/011009
Other languages
English (en)
French (fr)
Inventor
佑介 日永田
卓 青木
竜太 佐藤
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021200199A1 publication Critical patent/WO2021200199A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/40Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled
    • H04N25/44Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled by partially reading an SSIS array

Definitions

  • This disclosure relates to an information processing device, an information processing method, and an information processing program.
  • image recognition function it is possible to improve the detection performance of an object by using a higher resolution captured image.
  • image recognition using a high-resolution captured image requires a large amount of calculation related to the image recognition process, and it is difficult to improve the simultaneity of the recognition process for the captured image.
  • An object of the present disclosure is to provide an information processing device, an information processing method, and an information processing program capable of improving the characteristics of recognition processing using captured images.
  • the information processing apparatus is a generation unit that generates a sampled image composed of sampled pixels in which imaging information composed of pixels is acquired according to pixel positions set for each divided region divided by a predetermined pattern.
  • a calculation unit that calculates the feature amount of the sampled image, a recognition unit that performs recognition processing based on the feature amount of the sampled image and outputs the recognition processing result, and at least one of the calculation unit and the recognition unit according to a predetermined pattern. It includes a setting unit for setting one of the parameters.
  • First Embodiment 2-1 Outline of the first embodiment 2-2. More specific configuration example according to the first embodiment 2-3. Application example of recognition processing according to the first embodiment 2-3-1. First application example 2-3-2. Second application example 2-4. Modification example of the first embodiment 2-5. Another modification of the first embodiment 3. Second Embodiment 3-1. Modification example of the second embodiment 4. Third Embodiment 4-1. Application example of the technology of the present disclosure 4-2. Application example to mobile
  • FIG. 1 is a block diagram showing a basic configuration example of an information processing apparatus applicable to each embodiment.
  • the information processing device 1a includes a sensor unit 10a and a recognition processing unit 20a.
  • the sensor unit 10a includes an imaging means (camera) and an imaging control unit that controls the imaging means.
  • the sensor unit 10a performs imaging under the control of the imaging control unit, and supplies the image data of the captured image acquired by the imaging to the recognition processing unit 20a.
  • the recognition processing unit 20a uses DNN (Deep Neural Network) to perform recognition processing on image data. More specifically, the recognition processing unit 20a includes a recognition model pre-learned using predetermined teacher data by machine learning, and DNN based on the recognition model with respect to the image data supplied from the sensor unit 10a. Performs recognition processing using.
  • the recognition processing unit 20a outputs the recognition result of the recognition processing to, for example, the outside of the information processing device 1a.
  • FIGS. 2A and 2B are diagrams schematically showing an example of recognition processing by DNN.
  • one image is input to the DNN as shown in FIG. 2A.
  • DNN recognition processing is performed on the input image, and the recognition result is output.
  • the DNN executes the feature extraction process and the recognition process.
  • the feature amount is extracted from the input image by the feature extraction process.
  • This feature extraction process is performed using, for example, CNN (Convolutional Neural Network) of DNN.
  • the recognition process is executed on the extracted feature amount, and the recognition result is obtained.
  • recognition processing can be executed using time-series information.
  • 3A and 3B are diagrams schematically showing an example of identification processing by DNN when time series information is used.
  • identification processing by DNN is performed using a fixed number of past information on the time series.
  • the image of the time T [T] the image of the time T-1 before the time T [T-1]
  • the identification process is executed for each of the input images [T], [T-1] and [T-2], and the recognition result [T] at the time T is obtained.
  • FIG. 3B is a diagram for explaining the process of FIG. 3A in more detail.
  • DNN for each of the input images [T], [T-1], and [T-2], a pair of feature extraction processes described with reference to FIG. 2B described above is performed. 1 is executed, and the feature quantities corresponding to the images [T], [T-1] and [T-2] are extracted.
  • each feature amount obtained based on these images [T], [T-1] and [T-2] is integrated, identification processing is executed for the integrated feature amount, and recognition at time T is performed. The result [T] is obtained. It can be said that each feature amount obtained based on the images [T], [T-1] and [T-2] is intermediate data for obtaining an integrated feature amount used in the recognition process.
  • FIG. 4A and 4B are diagrams schematically showing another example of identification processing by DNN when time series information is used.
  • the image [T] of the time T is input to the DNN whose internal state is updated to the state of the time T-1, and the recognition result [T] at the time T is obtained.
  • FIG. 4B is a diagram for explaining the process of FIG. 4A in more detail.
  • the feature extraction process described with reference to FIG. 2B described above is executed on the input time T image [T], and the feature amount corresponding to the image [T] is obtained. Extract.
  • the internal state is updated by the image before the time T, and the feature amount related to the updated internal state is stored.
  • the feature amount related to the stored internal information and the feature amount in the image [T] are integrated, and the identification process is executed for the integrated feature amount.
  • each of the feature amount related to the stored internal information and the feature amount in the image [T] are intermediate data for obtaining the integrated feature amount used in the recognition process.
  • the identification process shown in FIGS. 4A and 4B is executed using, for example, a DNN whose internal state has been updated using the immediately preceding recognition result, and is a recursive process.
  • a DNN that performs recursive processing in this way is called an RNN (Recurrent Neural Network).
  • the identification process by RNN is generally used for moving image recognition or the like, and it is possible to improve the identification accuracy by sequentially updating the internal state of the DNN by, for example, a frame image updated in time series. ..
  • FIG. 5 is a block diagram schematically showing a hardware configuration example of an information processing device applicable to each embodiment.
  • the information processing apparatus 1 includes an imaging unit 1200, a memory 1202, a DSP (Digital Signal Processor) 1203, and an interface (I / F) 1204, which are communicatively connected to each other via a bus 1210. , CPU (Central Processing Unit) 1205, ROM (Read Only Memory) 1206, and RAM (Random Access Memory) 1207.
  • the information processing device 1 can further include an input device that accepts user operations, a display device for displaying information to the user, and a storage device that non-volatilely stores data.
  • the CPU 1205 operates using the RAM 1207 as a work memory according to a program stored in the ROM 1206 in advance, and controls the overall operation of the information processing device 1.
  • the interface 1204 communicates with the outside of the information processing device 1 by wire or wireless communication. For example, when the information processing device 1 is used for in-vehicle use, the information processing device 1 can communicate with the braking control system of the vehicle on which the information processing device 1 is mounted via the interface 1204.
  • the imaging unit 1200 captures a moving image at a predetermined frame cycle and outputs pixel data for composing the frame image. More specifically, the imaging unit 1200 includes a plurality of photoelectric conversion elements that convert the received light into pixel signals that are electrical signals by photoelectric conversion, and a drive circuit that drives each photoelectric conversion element. In the imaging unit 1200, the plurality of photoelectric conversion elements are arranged in a matrix-like arrangement to form a pixel array.
  • the sensor unit 10a in FIG. 1 includes an image pickup unit 1200, and outputs pixel data output from the image pickup unit 1200 within one frame cycle as image data for one frame.
  • each of the photoelectric conversion elements corresponds to a pixel in the image data, and in the pixel array unit, the number of photoelectric conversion elements corresponding to, for example, 1920 pixels ⁇ 1080 pixels as the number of pixels in rows ⁇ columns is arranged in a matrix. Will be done.
  • An image of one frame is formed by pixel signals by a number of photoelectric conversion elements corresponding to 1920 pixels ⁇ 1080 pixels.
  • the optical unit 1201 includes a lens, an autofocus mechanism, and the like, and irradiates the pixel array unit of the imaging unit 1200 with the light incident on the lens.
  • the imaging unit 1200 generates a pixel signal for each photoelectric conversion element according to the light emitted to the pixel array unit via the optical unit 1201.
  • the imaging unit 1200 converts a pixel signal, which is an analog signal, into pixel data, which is a digital signal, and outputs the signal.
  • the pixel data output from the imaging unit 1200 is stored in the memory 1202.
  • the memory 1202 is, for example, a frame memory, and is capable of storing pixel data for at least one frame.
  • the DSP 1203 performs predetermined image processing on the pixel data stored in the memory 1202. Further, the DSP 1203 includes a recognition model learned in advance, and performs a recognition process using the above-mentioned DNN on the image data stored in the memory 1202 based on the recognition model.
  • the recognition result which is the result of the recognition process by the DSP 1203, is temporarily stored in, for example, the memory provided in the DSP 1203 or the RAM 1207, and is output from the interface 1204 to the outside.
  • the recognition result may be stored in the storage device.
  • DSP 1203 may be realized by the CPU 1205. Further, GPU (Graphics Processing Unit) may be used instead of DSP1203.
  • the image pickup unit 1200 can apply a CMOS image sensor (CIS) in which each part included in the image pickup unit 1200 is integrally formed by using CMOS (Complementary Metal Oxide Semiconductor).
  • CMOS Complementary Metal Oxide Semiconductor
  • the imaging unit 1200 can be formed on one substrate.
  • the imaging unit 1200 may be a laminated CIS in which a plurality of semiconductor chips are laminated and integrally formed.
  • the imaging unit 1200 is not limited to this example, and may be another type of optical sensor such as an infrared light sensor that performs imaging with infrared light.
  • the imaging unit 1200 can be formed by a two-layer structure laminated CIS in which semiconductor chips are laminated in two layers.
  • FIG. 6A is a diagram showing an example in which the imaging unit 1200 is formed by a two-layer structure laminated CIS.
  • the pixel portion 2020a is formed on the semiconductor chip of the first layer
  • the memory + logic portion 2020b is formed on the semiconductor chip of the second layer.
  • the pixel unit 2020a includes at least a pixel array unit in the imaging unit 1200.
  • the memory + logic unit 2020b includes, for example, a drive circuit for driving the pixel array unit.
  • the memory + logic unit 2020b can further include the memory 1202.
  • the image pickup unit 1200 is configured as one solid-state image pickup element by bonding the semiconductor chip of the first layer and the semiconductor chip of the second layer while electrically contacting each other.
  • the imaging unit 1200 can be formed by a three-layer structure in which semiconductor chips are laminated in three layers.
  • FIG. 6B is a diagram showing an example in which the imaging unit 1200 is formed by a laminated CIS having a three-layer structure.
  • the pixel portion 2020a is formed on the semiconductor chip of the first layer
  • the memory portion 2020c is formed on the semiconductor chip of the second layer
  • the logic portion 2020d is formed on the semiconductor chip of the third layer.
  • the logic unit 2020d includes, for example, a drive circuit for driving the pixel array unit.
  • the memory unit 2020c can include a frame memory and a memory 1202.
  • the image pickup unit 1200 is attached by electrically contacting the semiconductor chip of the first layer, the semiconductor chip of the second layer, and the semiconductor chip of the third layer. It is configured as one solid-state image sensor.
  • the memory + logic unit 2020b may include configurations corresponding to the DSP 1203, the interface 1204, the CPU 1205, the ROM 1206, and the RAM 1207 shown in FIG.
  • FIG. 7 is a block diagram showing a configuration of an example of the imaging unit 1200 applicable to each embodiment.
  • the imaging unit 1200 includes a pixel array unit 1001, a vertical scanning unit 1002, an AD (Analog to Digital) conversion unit 1003, a pixel signal line 1006, a vertical signal line VSL, a control unit 1100, and a signal.
  • the processing unit 1101 and the like are included. Note that, in FIG. 7, the control unit 1100 and the signal processing unit 1101 can also be realized by, for example, the CPU 1205 and the DSP 1203 shown in FIG.
  • the pixel array unit 1001 includes a plurality of pixel circuits 1000 including, for example, a photoelectric conversion element using a photodiode and a circuit for reading out charges from the photoelectric conversion element, each of which performs photoelectric conversion on the received light.
  • the plurality of pixel circuits 1000 are arranged in a matrix in the horizontal direction (row direction) and the vertical direction (column direction).
  • the arrangement in the row direction of the pixel circuit 1000 is called a line.
  • the pixel array unit 1001 includes at least 1080 lines including lines including at least 1920 pixel circuits 1000.
  • An image (image data) of one frame is formed by the pixel signal read from the pixel circuit 1000 included in the frame.
  • the pixel signal line 1006 is connected to each row and column of each pixel circuit 1000, and the vertical signal line VSL is connected to each column.
  • the end of the pixel signal line 1006 that is not connected to the pixel array unit 1001 is connected to the vertical scanning unit 1002.
  • the vertical scanning unit 1002 transmits a control signal such as a drive pulse when reading a pixel signal from a pixel to the pixel array unit 1001 via the pixel signal line 1006 in accordance with the control of the control unit 1100 described later.
  • the end portion of the vertical signal line VSL that is not connected to the pixel array unit 1001 is connected to the AD conversion unit 1003.
  • the pixel signal read from the pixel is transmitted to the AD conversion unit 1003 via the vertical signal line VSL.
  • the reading control of the pixel signal from the pixel circuit 1000 will be schematically described.
  • the pixel signal is read out from the pixel circuit 1000 by transferring the charge accumulated in the photoelectric conversion element due to exposure to the floating diffusion layer (FD) and converting the electric charge transferred in the floating diffusion layer into a voltage. conduct.
  • the voltage at which the charge is converted in the floating diffusion layer is output as a pixel signal to the vertical signal line VSL via an amplifier.
  • the floating diffusion layer and the vertical signal line VSL are connected according to the selection signal supplied via the pixel signal line 1006. Further, the floating diffusion layer is connected to the supply line of the power supply voltage VDD or the black level voltage in a short period of time according to the reset pulse supplied via the pixel signal line 1006 to reset the floating diffusion layer.
  • the reset level voltage (assumed to be voltage A) of the floating diffusion layer is output to the vertical signal line VSL.
  • the transfer pulse supplied via the pixel signal line 1006 turns the photoelectric conversion element and the floating diffusion layer into an on (closed) state, and transfers the electric charge accumulated in the photoelectric conversion element to the floating diffusion layer.
  • a voltage (referred to as voltage B) corresponding to the amount of electric charge of the floating diffusion layer is output to the vertical signal line VSL.
  • the AD conversion unit 1003 includes an AD converter 1007 provided for each vertical signal line VSL, a reference signal generation unit 1004, and a horizontal scanning unit 1005.
  • the AD converter 1007 is a column AD converter that performs AD conversion processing on each column of the pixel array unit 1001.
  • the AD converter 1007 performs AD conversion processing on the pixel signal supplied from the pixel circuit 1000 via the vertical signal line VSL to reduce noise, and is used for correlated double sampling (CDS: Correlated Double Sampling) processing. Two digital values (values corresponding to voltage A and voltage B, respectively) are generated.
  • CDS Correlated Double Sampling
  • the AD converter 1007 supplies the two generated digital values to the signal processing unit 1101.
  • the signal processing unit 1101 performs CDS processing based on the two digital values supplied from the AD converter 1007, and generates pixel data which is a pixel signal by the digital signal.
  • the reference signal generation unit 1004 generates a lamp signal as a reference signal, which is used by each AD converter 1007 to convert the pixel signal into two digital values, based on the control signal input from the control unit 1100.
  • the lamp signal is a signal whose level (voltage value) decreases with a constant slope with respect to time, or a signal whose level decreases stepwise.
  • the reference signal generation unit 1004 supplies the generated lamp signal to each AD converter 1007.
  • the reference signal generation unit 1004 is configured by using, for example, a DAC (Digital to Analog Converter) or the like.
  • the counter starts counting according to the clock signal.
  • the comparator compares the voltage of the pixel signal supplied from the vertical signal line VSL with the voltage of the lamp signal, and stops the counting by the counter at the timing when the voltage of the lamp signal straddles the voltage of the pixel signal.
  • the AD converter 1007 converts the pixel signal of the analog signal into a digital value by outputting a value corresponding to the count value of the time when the count is stopped.
  • the AD converter 1007 supplies the two generated digital values to the signal processing unit 1101.
  • the signal processing unit 1101 performs CDS processing based on the two digital values supplied from the AD converter 1007, and generates a pixel signal (pixel data) based on the digital signal.
  • the pixel data generated by the signal processing unit 1101 is stored in a frame memory (not shown), and when the pixel data for one frame is stored in the frame memory, the image data is output from the imaging unit 1200 as one frame of image data.
  • the horizontal scanning unit 1005 performs selective scanning in which the AD converters 1007 are selected in a predetermined order to temporarily hold each digital value of the AD converters 1007.
  • the signal processing unit 1101 is sequentially output.
  • the horizontal scanning unit 1005 is configured by using, for example, a shift register or an address decoder.
  • the control unit 1100 performs drive control of the vertical scanning unit 1002, the AD conversion unit 1003, the reference signal generation unit 1004, the horizontal scanning unit 1005, and the like according to the imaging control signal supplied from the sensor control unit 11.
  • the control unit 1100 generates various drive signals that serve as a reference for the operations of the vertical scanning unit 1002, the AD conversion unit 1003, the reference signal generation unit 1004, and the horizontal scanning unit 1005.
  • the control unit 1100 supplies the vertical scanning unit 1002 to each pixel circuit 1000 via the pixel signal line 1006 based on, for example, a vertical synchronization signal or an external trigger signal included in the imaging control signal and a horizontal synchronization signal. Generate a control signal.
  • the control unit 1100 supplies the generated control signal to the vertical scanning unit 1002.
  • control unit 1100 passes, for example, information indicating an analog gain included in the image pickup control signal supplied from the CPU 1205 to the AD conversion unit 1003.
  • the AD conversion unit 1003 controls the gain of the pixel signal input to each AD converter 1007 included in the AD conversion unit 1003 via the vertical signal line VSL according to the information indicating the analog gain.
  • the vertical scanning unit 1002 Based on the control signal supplied from the control unit 1100, the vertical scanning unit 1002 transmits various signals including a drive pulse to the pixel signal line 1006 of the selected pixel line of the pixel array unit 1001 to each pixel circuit 1000 for each line. It is supplied, and the pixel signal is output from each pixel circuit 1000 to the vertical signal line VSL.
  • the vertical scanning unit 1002 is configured by using, for example, a shift register or an address decoder. Further, the vertical scanning unit 1002 controls the exposure in each pixel circuit 1000 according to the information indicating the exposure supplied from the control unit 1100.
  • the imaging unit 1200 configured in this way is a column AD type CMOS (Complementary Metal Oxide Semiconductor) image sensor in which AD converters 1007 are arranged for each column.
  • CMOS Complementary Metal Oxide Semiconductor
  • FIGS. 8A and 8B are diagrams schematically showing examples of captured images 30a and 30b when the same imaging range is captured by using a low-resolution imaging device and a high-resolution imaging device, respectively.
  • the imaging range shown in FIGS. 8A and 8B includes a "person" in the central portion at a position somewhat distant from the imaging apparatus.
  • the recognition process for a high-resolution image requires a large amount of calculation as compared with the recognition process for a low-resolution image, and the processing takes time. Therefore, it is difficult to improve the simultaneity between the recognition result and the captured image.
  • the recognition process for a low-resolution image requires a small amount of calculation, so that the process can be performed in a short time, and the simultaneity with the captured image can be relatively easily increased.
  • recognition processing is performed based on an image captured by an in-vehicle image pickup device.
  • a distant object for example, an oncoming vehicle traveling in the opposite lane in the direction opposite to the traveling direction of the own vehicle
  • recognition processing is performed on a low-resolution image.
  • FIG. 8A it is difficult to recognize a distant object when a low-resolution captured image is used.
  • a high-resolution captured image it is relatively easy to recognize a distant object, but it is difficult to improve the simultaneity with the captured image, and there is a possibility that it cannot respond to an emergency situation. ..
  • a recognition process is performed on a sampled image by pixels obtained by thinning out a high-resolution captured image by subsampling according to a predetermined rule. I do.
  • the captured image acquired in the next frame is sampled with pixels different from the subsampling of the immediately preceding captured image, and the sampled image by the sampled pixels is recognized.
  • the operation of performing recognition processing on the sampled image obtained by sampling pixels different from the first captured image is performed as a frame. Repeat in units. This makes it possible to acquire recognition results at high speed while using a high-resolution captured image. Further, by sequentially integrating the feature amount extracted during the recognition process with the feature amount extracted in the recognition process for the next sampled image, a more accurate recognition result can be obtained.
  • FIG. 9 is a block diagram showing a configuration of an example of an information processing device according to the prerequisite technology of each embodiment of the present disclosure.
  • the information processing device 1b includes a sensor unit 10b and a recognition processing unit 20b.
  • the sensor unit 10b includes an imaging means (camera) and an imaging control unit that controls the imaging means, similarly to the sensor unit 10a described with reference to FIG.
  • the imaging means shall perform imaging at a high resolution (for example, 1920 pixels ⁇ 1080 pixels).
  • the sensor unit 10b supplies the image data of the captured image captured by the imaging means to the recognition processing unit 20b.
  • the recognition processing unit 20b includes a pre-processing unit 210 and a recognition unit 220.
  • the image data supplied from the sensor unit 10b to the recognition processing unit 20b is input to the preprocessing unit 210.
  • the preprocessing unit 210 performs subsampling on the input image data by thinning out the pixels according to a predetermined rule.
  • the sampled image in which the image data is subsampled is input to the recognition unit 220.
  • the recognition unit 220 uses the DNN to perform recognition processing on the image data in the same manner as the recognition processing unit 20a in FIG. More specifically, the recognition processing unit 20a includes a recognition model pre-learned using predetermined teacher data by machine learning, and DNN based on the recognition model with respect to the image data supplied from the sensor unit 10a. Performs recognition processing using. At this time, as the teacher data, a sampled image subsampled in the same manner as the preprocessing unit 210 is used.
  • the recognition unit 220 outputs the recognition result of the recognition process to, for example, the outside of the information processing device 1b.
  • FIG. 10 is a schematic diagram for explaining the recognition process by the recognizer according to the prerequisite technology of each embodiment.
  • the recognizer shown in FIG. 10 corresponds to, for example, the recognition processing unit 20b.
  • the image data 32 schematically shows one frame of image data based on the captured image captured by the sensor unit 10b.
  • the image data 32 includes a plurality of pixels 300 arranged in a matrix.
  • the image data 32 is input to the preprocessing unit 210 in the recognition processing unit 20b.
  • the preprocessing unit 210 subsamples the image data 32 by thinning out according to a predetermined rule (step S10).
  • the sampled image by the sub-sampled sampling pixels is input to the recognition unit 220.
  • the recognition unit 220 extracts the feature amount of the input sampled image by DNN (step S11).
  • the recognition unit 220 extracts the feature amount using CNN among the DNNs.
  • the recognition unit 220 stores the feature amount extracted in step S11 in a storage unit (for example, RAM 1207) (not shown). At this time, for example, when the feature amount extracted in the immediately preceding frame is already stored in the storage unit, the recognition unit 220 recursively uses the feature amount stored in the memory and integrates it with the extracted feature amount. (Step S12).
  • the recognition unit 220 stores, stores, and integrates the feature quantities extracted up to the immediately preceding frame in the storage unit. That is, the process in step S12 corresponds to the process using the RNN of the DNN.
  • the recognition unit 220 executes the recognition process based on the features accumulated and integrated in step S12 (step S13).
  • FIG. 11 is a schematic diagram for explaining the sampling process according to the prerequisite technique of each embodiment.
  • section (a) schematically shows an example of image data 32.
  • the image data 32 includes a plurality of pixels 300 arranged in a matrix.
  • the preprocessing unit 210 divides the image data 32 into a division region 35 including two or more pixels 300.
  • the divided region 35 is a region having a size of 4 pixels ⁇ 4 pixels, and includes 16 pixels 300.
  • the preprocessing unit 210 sets a pixel position for selecting a sampling pixel by subsampling from each pixel 300 included in the division area 35 with respect to the division area 35. Further, the preprocessing unit 210 sets a pixel position different for each frame as a pixel position for selecting a sampling pixel.
  • Section (b) of FIG. 11 shows an example of pixel positions set with respect to the division region 35 in a certain frame.
  • the pixel positions are set so that the pixels 300 are selected every other row and column direction, and the pixels 300sa 1 , 300sa 2 , 300sa 3 and 300sa at each of the set pixel positions are selected. 4 is selected as the sampling pixel.
  • the preprocessing unit 210 performs subsampling in units of the divided region 35.
  • the preprocessing unit 210 generates an image consisting of each pixel 300sa 1 to 300sa 4 selected as a sampling pixel in a certain frame as a sampling image composed of sampling pixels.
  • Section (c) of FIG. 11 shows an example of a sampled image 36 generated from each pixel 300sa 1 to 300sa 4 selected as a sampling pixel in section (b) of FIG.
  • the preprocessing unit 210 inputs the sampled image 36 to the recognition unit 220.
  • the recognition unit 220 executes a recognition process on the sampled image 36.
  • the preprocessing unit 210 sets different pixel positions for each frame as pixel positions for selecting sampling pixels.
  • the recognition unit 220 performs recognition processing for each frame based on a sampled image composed of each pixel 300 at each set pixel position.
  • 12A to 12E show each recognition process for the image data 32a to 32d and 32a'of the frames # 1 to # 5, which are sequentially imaged by the sensor unit 10b in time series.
  • the object 41 is located at a relatively short distance (medium distance) with respect to the sensor unit 10b.
  • the object 42 is located at a distance (referred to as a long distance) farther than the middle distance with respect to the sensor unit 10b, and the size in the image is smaller than the object 41.
  • the preprocessing unit 210 performs subsampling on each divided region 35 of the image data 32a of the frame # 1, for example, with the pixel position in the upper left corner as a base point. More specifically, the preprocessing unit 210 samples each pixel 300 selected every other row and column direction with the pixel position in the upper left corner as the base point in each division region 35 of the image data 32a. Subsampling is performed to select the pixels 300sa 1 to 300sa 4 (step S10a).
  • the preprocessing unit 210 generates a sampled image 36 ⁇ 1 of the first phase by the subsampled pixels 300sa 1 to 300sa 4.
  • the generated sampled image 36 ⁇ 1 is input to the recognition unit 220.
  • the recognition unit 220 extracts the feature amount 50a of the input sampled image 36 ⁇ 1 using DNN (step S11).
  • the recognition unit 220 stores and stores the feature amount 50a extracted in step S11 in the storage unit (step S12).
  • the recognition unit 220 can accumulate the feature amount 50a in the storage unit and integrate the feature amount with the already accumulated feature amount.
  • Section (b) of FIG. 12A shows how the first feature amount 50a is stored in the empty storage portion as the process of step S12.
  • the recognition unit 220 executes the recognition process based on the feature amount 50a accumulated in the storage unit (step S13).
  • the object 41 located at a medium distance is recognized and obtained as the recognition result 60.
  • the object 42 located at a long distance is not recognized.
  • the preprocessing unit 210 relates to each divided area 35 of the image data 32b of the frame # 2 with respect to each divided area 35 of the image data 32a of the frame # 1 shown in FIG. 12A.
  • Subsampling is performed in which each pixel position shifted in the horizontal direction by one pixel with respect to the set pixel position is set as the pixel position of the sampling pixel (step S10b). That is, each sampling pixel selected in step S10b is each pixel 300 at a pixel position adjacent to the right side of the pixel position of each sampling pixel selected in step S10a in FIG. 12A.
  • the preprocessing unit 210 generates a second phase sampled image 36 ⁇ 2 from each sampling pixel subsampled in step S10b.
  • the generated sampled image 36 ⁇ 2 is input to the recognition unit 220.
  • the recognition unit 220 extracts the feature amount 50b of the input sampled image 36 ⁇ 2 using DNN (step S11).
  • the recognition unit 220 stores and stores the feature amount 50b extracted in step S11 in the storage unit (step S12).
  • step S12 the feature amount 50a extracted from the sampled image 36 ⁇ 1 of the first phase is already stored in the storage unit. Therefore, the recognition unit 220 accumulates the feature amount 50b in the storage unit and integrates the feature amount 50b with the stored feature amount 50a.
  • the recognition unit 220 executes the recognition process based on the feature amount in which the feature amount 50a and the feature amount 50b are integrated (step S13).
  • step S13 in section (b)
  • the object 41 located at a medium distance is recognized and obtained as the recognition result 60, but the object 42 located at a long distance is Not recognized at this point.
  • the preprocessing unit 210 relates to each divided area 35 of the image data 32c of the frame # 3 with respect to each divided area 35 of the image data 32a of the frame # 1 shown in FIG. 12A.
  • Subsampling is performed in which the pixel position shifted in the column direction by one pixel with respect to the set pixel position is set as the pixel position of each sampling pixel (step S10c). That is, each sampling pixel selected in step S10c is each pixel 300 at a pixel position adjacent to the lower side in the figure with respect to the pixel position of each sampling image selected in step S10a in FIG. 12A.
  • the preprocessing unit 210 generates a sampled image 36 ⁇ 3 of the third phase by each sampling subsampled in step S10c.
  • the generated sampled image 36 ⁇ 3 is input to the recognition unit 220.
  • the recognition unit 220 extracts the feature amount 50c of the input sampled image 36 ⁇ 3 using DNN (step S11).
  • the recognition unit 220 stores and stores the feature amount 50c extracted in step S11 in the storage unit (step S12).
  • step S12 the feature quantities 50a and 50b extracted from the sampled images 36 ⁇ 1 and 36 ⁇ 2 of the first and second phases are already stored in the storage unit, respectively. There is. Therefore, the recognition unit 220 accumulates the feature amount 50c in the storage unit and integrates the feature amount 50c with the accumulated feature amounts 50a and 50b.
  • the recognition unit 220 executes the recognition process based on the feature amount in which the feature amounts 50a and 50b and the feature amount 50c are integrated (step S13).
  • the object 41 located at a medium distance is recognized and obtained as the recognition result 60, but the object 42 located at a long distance is Not recognized at this point.
  • the preprocessing unit 210 relates to each divided area 35 of the image data 32d of the frame # 4 with respect to each divided area 35 of the image data 32c of the frame # 3 shown in FIG. 12C.
  • Subsampling is performed in which each pixel position shifted in the horizontal direction by one pixel with respect to the set pixel position is set as the pixel position of the sampling pixel (step S10d). That is, each sampling pixel selected in step S10d is each pixel 300 at a pixel position adjacent to the right side in the figure with respect to the pixel position of each sampling image selected in step S10c in FIG. 12C.
  • the preprocessing unit 210 generates a sampled image 36 ⁇ 4 of the fourth phase by each sampling subsampled in step S10d.
  • the generated sampled image 36 ⁇ 4 is input to the recognition unit 220.
  • the recognition unit 220 extracts the feature amount 50d of the input sampled image 36 ⁇ 4 using DNN (step S11).
  • the recognition unit 220 stores and stores the feature amount 50d extracted in step S11 in the storage unit (step S12).
  • step S12 each feature amount 50a to 50c extracted from the sampled images 36 ⁇ 1 to 36 ⁇ 3 of the first to third phases has already been accumulated in the storage unit. ing. Therefore, the recognition unit 220 accumulates the feature amount 50d in the storage unit and integrates the feature amount 50d with the accumulated feature amounts 50a to 50c.
  • the recognition unit 220 executes the recognition process based on the feature amount in which the feature amounts 50a to 50c and the feature amount 50d are integrated (step S13).
  • the object 41 located at a medium distance is recognized and obtained as a recognition result 60
  • the object 42 located at a long distance is further recognized and recognized.
  • the result is 61.
  • the preprocessing unit 210 selects the pixel positions of all the pixels 300 included in one frame as the pixel positions of the sampling pixels. Further, it can be said that the preprocessing unit 210 selects the pixel positions of the 16 pixels 300 included in each division region 35 by shifting the phase by one pixel.
  • the pixel positions of all the pixels 300 included in each division area 35 or one frame are selected as the pixel positions of the sampling pixels.
  • the period until it is done is one cycle. That is, the preprocessing unit 210 circulates each pixel position of each division area 35 at a constant cycle, and sets all the pixel positions in the division area 35 as pixel positions for acquiring sampling pixels.
  • the preprocessing unit 210 uses the pixel position in the upper left corner as the base point for each divided region 35 of the image data 32a'of the frame # 1'in the same manner as in the example of FIG. 12A. Subsampling is performed (step S10a'). As shown in section (b), the preprocessing unit 210 generates a sampled image 36 ⁇ 1'of the first phase by each sampling subsampled in step S10a'. The generated sampled image 36 ⁇ 1'is input to the recognition unit 220.
  • the recognition unit 220 extracts the feature amount 50a'of the input sampled image 36 ⁇ 1' using DNN (step S11).
  • the recognition unit 220 stores and stores the feature amount 50a'extracted in step S11 in the storage unit (step S12).
  • step S12 in section (b)
  • the recognition unit 220 may reset the storage unit every cycle of selecting the pixel position of the sampling pixel.
  • the storage unit can be reset, for example, by deleting the feature amounts 50a to 50d for one cycle accumulated in the storage unit from the storage unit.
  • the recognition unit 220 can always accumulate a certain amount of features in the storage unit. For example, the recognition unit 220 stores the feature amount for one cycle, that is, the feature amount for four frames with the storage unit. In this case, when the new feature amount 50a'is extracted, the recognition unit 220 deletes, for example, the oldest feature amount 50d among the feature amounts 50a to 50d accumulated in the storage unit, and the new feature amount 50a'. Is stored in the storage unit and stored. The recognition unit 220 executes the recognition process based on the accumulated amount in which the feature amounts 50a to 50c remaining after the feature amount 50d is deleted and the new feature amount 50a'are integrated.
  • the recognition unit 220 executes the recognition process based on the feature amount in which the feature amounts 50a to 50d already accumulated in the storage unit and the newly extracted feature amount 50a'are integrated (step S13).
  • the recognition process based on the feature amount in which the feature amounts 50a to 50d already accumulated in the storage unit and the newly extracted feature amount 50a'are integrated (step S13).
  • the object 41 located at a medium distance is recognized and obtained as a recognition result 60
  • the object 42 located at a long distance is further recognized and recognized.
  • the result is 61.
  • the sampled image 36 is a thinned image in which pixels are thinned out from the original image data 32.
  • the sampled image 36 is image data obtained by reducing the image data 32 by 1/2 in the row and column directions, respectively, and the number of pixels is 1/4 of the original image data 32. .. Therefore, the recognition unit 220 can execute the recognition process for the sampled image 36 at high speed with respect to the recognition process using all the pixels 300 included in the original image data 32.
  • the pixel position of the pixel 300 set as the sampling pixel for generating the sampled image 36 is selected by shifting it by one pixel for each frame in the division area 35. Therefore, it is possible to obtain a sampled image 36 that is out of phase by one pixel for each frame. At this time, the pixel positions of all the pixels 300 included in the division area 35 are selected as the pixel positions of the pixels 300 to be set as sampling pixels.
  • the pixel positions of the pixels 300 that generate the sampled image 36 are selected, and the feature amounts calculated from each sampled image 36 are accumulated and integrated.
  • the pixels 300 at all the pixel positions included in the image data 32 can be involved in the recognition process, and for example, a distant object can be easily recognized.
  • the pixel position for selecting the sampling pixel is set by the preprocessing unit 210 according to a predetermined rule, but this is not limited to this example.
  • the preprocessing unit 210 sets a pixel position for selecting sampling pixels in response to an instruction from the outside of the recognition processing unit 20b or the outside of the information processing device 1b including the recognition processing unit 20b. You may.
  • FIG. 13A and 13B are schematic views for explaining the subsampling process in the recognition process according to the prerequisite technology of each embodiment.
  • the divided region 35 is defined as a region of 2 pixels ⁇ 2 pixels.
  • the upper left pixel position is the origin coordinate [0,0]
  • the upper right, lower left, and lower right pixel positions are the coordinates [1,0] [0,1] and [1,1], respectively.
  • sampling of the pixel 300 is performed in each division region 35 with the coordinates [1,1], [1,0], [0,1], [0,1] starting from the lower right pixel position [1,1]. 0] shall be performed in this order.
  • the passage of time is shown from the bottom to the top of the figure.
  • the image data 32a is the image [T] having the newest time T, and thereafter, the time is in the order of the image data 32b, the image data 32c, and the image data 32d.
  • the images are T-1, T-2, and T-3, and the image [T-1], the image [T-2], and the image [T-3] based on the old image data 32 frame by frame.
  • the preprocessing unit 210 selected the pixels 300 at the coordinates [1,1] of each division region 35 as sampling pixels for the image data 32a (step S10a), and the recognition unit 220 was selected.
  • the feature amount of the sampled image 36 ⁇ 1 by the sampling pixel is extracted (step S11).
  • the recognition unit 220 integrates the feature amount 50a extracted from the sampled image 36 ⁇ 1 with, for example, the feature amount extracted in a predetermined period before that (step S12), and performs recognition processing based on the integrated feature amount (step S12). S13).
  • the sampled image 36 ⁇ 1 obtained by uniformly thinning out the image data 32a can be obtained by the subsampling process (step S10a) in each of the divided regions 35 of the image data 32a described above.
  • the recognition process for the entire image data 32a can be executed. It is possible to complete the recognition process for the image data 32 by the recognition process for the sampled image by the sampling pixels selected by subsampling from the image data 32.
  • This series of processes in which a sampled image is generated from the image data 32, a feature amount is extracted from the generated sampled image, and recognition processing is performed based on the extracted feature amount is called a unit process.
  • the subsampling process of step S10a the feature amount extraction process of step S11 for the sampled image 36 ⁇ 1 generated by the subsampling process, the feature amount integration process of step S12, and the recognition by step S13.
  • Processing is included in one unit of processing.
  • the recognition unit 220 can execute the recognition process for the thinned-out image data 32 for each process of this one unit (step S13).
  • the recognition processing unit 20b executes the above-mentioned one-unit processing for each of the image data 32b, 32c, and 32d that are sequentially updated in the frame cycle, and executes the recognition processing.
  • the feature amount integration process in step S12 and the recognition process in step S13 can be common in the process of each unit.
  • FIG. 13B shows the next one unit of processing after one cycle of sampling pixel selection for each pixel position included in each divided region 35. That is, when one unit of processing for each of the image data 32a, 32b, 32c and 32d has completed, one unit of processing for the image data 32a'of the next frame input to the recognition processing unit 20b is executed.
  • the feature amount 50d extracted based on the oldest image data 32d is discarded, and the feature amount 50a'is extracted from the new image data 32a'. That is, the preprocessing unit 210 selects each pixel 300 of the coordinates [1,1] of each division region 35 of the image data 32a'as a sampling pixel, and generates a sampled image 36 ⁇ 1.
  • the recognition unit 220 extracts the feature amount 50a'from the sampled image 36 ⁇ 1 selected from the image data 32a'.
  • the recognition unit 220 integrates the feature amount 50a'and the feature amounts 50a, 50b, and 50c extracted up to the previous time, and performs recognition processing based on the integrated feature amount. In this case, the recognition unit 220 may perform the feature amount extraction process only for the newly acquired image data 32a'.
  • the recognition process related to the prerequisite technology of each embodiment is performed by executing the process for one unit in the same processing system in the recognition processing unit 20b. More specifically, the recognition processing unit 20b repeats the processing system of the subsampling process and the feature amount extraction process for the image data 32 for each frame as the processing for one unit, and integrates the feature amounts extracted by this repetition. And the recognition process is being performed.
  • the recognition processing unit 20b performs the subsampling process including the pixel positions of all the pixels 300 included in the image data 32 while periodically shifting the pixel positions for selecting the sampling pixels. Further, the recognition processing unit 20b integrates the feature amounts as intermediate data extracted from the sampled image by the sampling pixels selected from the image data 32 of each frame in step S11 to perform the recognition process.
  • the recognition process related to the prerequisite technology of each embodiment configured in this way is a processing system that can be completed in the process of one unit, the recognition result can be obtained more quickly. Further, since the sampling pixel is selected from the entire image data 32 in one unit, a wide range of recognition results can be confirmed by one unit of processing. Further, since the intermediate data (feature amount) based on the plurality of image data 32 is integrated, it is possible to acquire a more detailed recognition result acquired by straddling a plurality of units.
  • the information processing device 1b by using the information processing device 1b according to the prerequisite technology of each embodiment, it is possible to improve the simultaneity of the recognition results and acquire the recognition results by utilizing the resolution of the captured image. It is possible to improve the characteristics of the recognition process using.
  • FIG. 14A is a schematic diagram for explaining the basic architecture of the recognition process according to the existing technology.
  • the recognizer in the existing technique executes the recognition process for one input information (for example, an image), and basically outputs one recognition result for the input information.
  • FIG. 14B is a schematic diagram for explaining the basic architecture of the recognition process according to each embodiment.
  • the recognizer according to each embodiment corresponds to, for example, the recognition unit 220 of FIG. 9, and as shown in FIG. 14B, executes recognition processing for one input information (for example, an image) by time axis expansion, and performs the recognition process. It is possible to output a plurality of recognition results according to the processing.
  • the recognition process based on the time axis expansion as described with reference to FIGS. 10, 11, 12A to 12E, subsampling is performed by thinning out the pixels for each division region 35, and the subsampled sampling pixels are used. It is a process of executing the recognition process for each sampled image by.
  • the recognizer according to each embodiment has two types of input information, one is a highly responsive breaking news result and the other is a highly accurate integrated result, by the recognition process in the time axis expansion.
  • the recognition result can be output.
  • the breaking news result is, for example, the recognition result by the recognition process performed on the sampled image acquired by the first subsampling in each divided region 35.
  • the integration result is, for example, a recognition result obtained by a recognition process performed based on the integrated feature amount of the feature amounts extracted from each sampled image acquired by each subsampling in each divided region 35.
  • the calculation amount of the recognition process executed in the recognizer according to each embodiment shown in FIG. 14B is substantially the same as the calculation amount of the recognition process executed in the recognizer according to the existing technology shown in FIG. 14A. Therefore, according to the recognizer according to each embodiment, the recognition result of both the more responsive breaking news result and the more accurate integrated result can be obtained by the amount of calculation substantially the same as that of the recognizer by the existing technology. It is possible to get it.
  • FIG. 15 is an example time chart showing a first example of reading and recognition processing in the basic architecture of recognition processing according to each embodiment.
  • sampling pixels are selected every other pixel in the divided region 35 having a size of 4 pixels ⁇ 4 pixels described in the section (b) of FIG.
  • all pixel positions are selected by four subsamplings, and the image data 32 of one frame is divided into four sampled images 36 ⁇ 1 to 36 ⁇ 4 in the first to fourth phases. become.
  • the sampled images 36 ⁇ 1 to 36 ⁇ 4 of the first to fourth phases by subsampling are extracted from each of the image data 32 of a plurality of frames connected in chronological order. That is, in this first example, the sampled images 36 ⁇ 1 to 36 ⁇ 4 of the first to fourth phases are extracted across the image data 32 of a plurality of frames connected in chronological order.
  • the recognition process according to the first example is a recognition process performed between a plurality of frames, and is appropriately referred to as an inter-frame process.
  • the imaging cycle is a frame cycle, for example, 50 [ms] (20 [fps (frame per second)]). Further, here, reading from the pixel circuit 1000 arranged in a matrix arrangement in the pixel array unit 1001 is performed line-sequentially by a rolling shutter method. Here, in FIG. 15, the passage of time is shown to the right, and the line position is shown from top to bottom.
  • each line is exposed for a predetermined time, and after the exposure is completed, the pixel signal is transferred from each pixel circuit 1000 to the AD conversion unit 1003 via the vertical signal line VSL to perform AD conversion.
  • each AD converter 1007 converts the transferred analog pixel signal into pixel data which is a digital signal.
  • the image data 32a based on the pixel data of frame # 1 is input to the preprocessing unit 210.
  • the preprocessing unit 210 performs subsampling of the first phase ⁇ 1 on the input image data 32a by the subsampling process (indicated as “SS” in the figure) as described above.
  • the pre-processing unit 210 acquires the pixels 300 from the pixel positions of the sampling pixels selected for each division region 35 by the subsampling of the first phase ⁇ 1, and generates the sampled image 36 ⁇ 1 (step S10a).
  • the preprocessing unit 210 passes the sampled image 36 ⁇ 1 to the recognition unit 220.
  • the sampled image 36 ⁇ 1 passed from the preprocessing unit 210 to the recognition unit 220 is an image in which the number of pixels is reduced with respect to the image data 32a by thinning out by the subsampling process.
  • the recognition unit 220 executes a recognition process on the sampled image 36 ⁇ 1.
  • the recognition process it is shown that the feature amount extraction process (step S11), the feature amount integration process (step S12), and the recognition process (step S13) are included.
  • the recognition result ⁇ 1 based on the sampled image 36 ⁇ 1 is output to the outside of the recognition processing unit 20b.
  • steps S11 to S13 are performed within a period of one frame.
  • the sampled image 36 ⁇ 1 to be processed is an image in which the number of pixels is reduced with respect to the image data 32a by thinning out by the subsampling process. Therefore, the amount of processing executed for the image data 32a is smaller than the amount of processing executed for the image data 32 for one frame that is not thinned out.
  • the processing of steps S11 to S13 for the sampled image 36 ⁇ 1 based on the image data 32a is completed in a period of approximately 1/4 of the one-frame period.
  • Image data 32b composed of pixel data of frame # 2 is input to the preprocessing unit 210.
  • the preprocessing unit 210 performs subsampling processing on the input image data 32b in a second phase ⁇ 2 different from that of the image data 32a to generate a sampled image 36 ⁇ 2.
  • the pre-processing unit 210 passes the sampled image 36 ⁇ 2, which has a smaller number of pixels than the image data 32b by subsampling, to the recognition unit 220.
  • the recognition unit 220 executes the recognition process on the sampled image 36 ⁇ 2 within a period of one frame. In this case as well, as described above, the recognition process is completed in a period of approximately 1/4 of the one-frame period.
  • the recognition unit 220 integrates the feature amount 50b extracted from the sampled image 36 ⁇ 2 and the feature amount 50a extracted by the feature amount extraction process for the image data 32a by the feature amount integration process in step S12.
  • the recognition unit 220 executes the recognition process using the integrated feature amount.
  • the recognition result ⁇ 2 by this recognition process is output to the outside of the recognition process unit 20b.
  • the preprocessing unit 210 executes subsampling processing with the third phase ⁇ 3 for the image data 32c of the next frame # 3 in parallel with the processing for the image data 32b of the immediately preceding frame # 2.
  • the recognition unit 220 extracts the feature amount 50c from the sampled image 36 ⁇ 3 generated by the subsampling process.
  • the recognition unit 220 further integrates the feature amount 50a and 50b extracted from the image data 32a and 32b, respectively, and the extracted feature amount 50c, and performs recognition processing based on the integrated feature amount. Run.
  • the recognition unit 220 outputs the recognition result ⁇ 3 obtained by this recognition process to the outside. In this case as well, as described above, the recognition process is completed in a period of approximately 1/4 of the one-frame period.
  • the recognition processing unit 20b performs subsampling processing and feature quantity by the fourth phase ⁇ 4 in parallel with the processing for the image data 32c of the immediately preceding frame # 3. Extraction processing is performed to obtain a feature amount of 50d.
  • the recognition processing unit 20b further integrates the feature amount 50a to 50c extracted from each of the image data 32a to 32c by the recognition unit 220 and the extracted feature amount 50d, and the integrated feature. Execute recognition processing based on the quantity.
  • the recognition unit 220 outputs the recognition result ⁇ 4 obtained by this recognition process to the outside. In this case as well, as described above, the recognition process is completed in a period of approximately 1/4 of the one-frame period.
  • the vertical arrows that is, the arrows indicating the output of each recognition process from each image data 32a to 32d, each step S10a to step S10d, and each recognition result ⁇ 1 to ⁇ 4 by each recognition process are shown.
  • Its thickness outlines the amount of information.
  • the preprocessing unit 210 to step S10a with respect to the amount of data of each image data 32a to 32d input to the preprocessing unit 210 for the processing of steps S10a to S10d.
  • the amount of data in the sampled images 36 ⁇ 1 to ⁇ 4 subsampled by the process of step S10d and passed to the recognition unit 220 is smaller.
  • the amount of information of each recognition result ⁇ 1 to ⁇ 4 by the recognition process based on each image data 32a to 32d increases as the recognition process is repeated, and the obtained recognition result becomes more detailed for each recognition process. Shown.
  • This is a feature amount that integrates the feature amount acquired while shifting the phase of the sampled image up to the previous time and the feature amount newly acquired by further shifting the phase with respect to the sampled image immediately before each recognition process. This is because it uses.
  • FIG. 16 is an example time chart showing a second example of reading and recognition processing in the basic architecture of recognition processing according to each embodiment.
  • the sampled images 36 ⁇ 1 to 36 ⁇ 4 of the first to fourth phases by subsampling are extracted from the image data 32 of one frame, respectively. That is, in this second example, the recognition process by the sampled images 36 ⁇ 1 to 36 ⁇ 4 of the first to fourth phases is completed in one frame, and is hereinafter appropriately referred to as an intra-frame process.
  • each line is exposed for a predetermined time, and after the exposure is completed, the pixel signal is transferred from each pixel circuit 1000 to the AD conversion unit 1003 via the vertical signal line VSL to perform AD conversion.
  • each AD converter 1007 converts the transferred analog pixel signal into pixel data which is a digital signal.
  • the image data 32a based on the pixel data of frame # 1 is input to the preprocessing unit 210.
  • the preprocessing unit 210 performs subsampling of the first phase ⁇ 1 as described above on the image data 32a of the first frame in FIG. 16, and starts from the pixel positions of the sampling pixels selected for each division region 35. Pixels 300 are acquired and a sampled image 36 ⁇ 1 with the first phase ⁇ 1 is generated (step S10a).
  • the preprocessing unit 210 executes the subsampling of the second phase ⁇ 2 for the image data 32b.
  • the preprocessing unit 210 generates a sampled image 36 ⁇ 2 in the second phase ⁇ 2 from each sampling pixel acquired by the subsampling of the second phase ⁇ 2 (step S10b).
  • the preprocessing unit 210 executes subsampling with different phases (subsampling of the third phase ⁇ 3, subsampling of the fourth phase ⁇ 4) with respect to the image data 32a, and the sampled image by the third phase ⁇ 3.
  • a sampled image 36 ⁇ 4 with 36 ⁇ 3 and a fourth phase ⁇ 4 is generated (step S10c, step S10d), respectively.
  • the preprocessing unit 210 executes subsampling according to the first to fourth phases ⁇ 1 to ⁇ 4 for one frame of image data 32a within one frame period, respectively.
  • the recognition unit 220 executes a feature amount extraction process on the sampled image 36 ⁇ 1 of the first phase ⁇ 1 generated based on the image data 32a by the preprocessing unit 210 (step S11a), and extracts the feature amount.
  • the recognition unit 220 can integrate the feature amount extracted in step S11a with the accumulated feature amount that can be integrated (step S12a).
  • the recognition unit 220 executes the recognition process based on the feature quantity integrated in step S12a (step S13a), and outputs the recognition result ⁇ 1 by the first phase.
  • the recognition unit 220 executes a feature amount extraction process on the sampled image 36 ⁇ 2 of the second phase ⁇ 2 generated based on the image data 32a by the preprocessing unit 210 (step S11b), and extracts the feature amount.
  • the recognition unit 220 can integrate the feature amount extracted in step S11b with the accumulated feature amount that can be integrated (step S12b).
  • the recognition unit 220 which can integrate the feature amount extracted in step S11b and the feature amount extracted in step S11a described above, performs recognition processing on the integrated feature amount. (Step S13b), the recognition result ⁇ 2 by the second phase ⁇ 2 is output.
  • the recognition unit 220 executes the feature amount extraction process on the sampled images 36 ⁇ 3 and 36 ⁇ 4 of the third and fourth phases ⁇ 3 and ⁇ 4 generated by the preprocessing unit 210 based on the image data 32a ().
  • Step S11c, step S11d) the feature amount is extracted.
  • the recognition unit 220 sequentially integrates each feature amount extracted in step S11c and step S11d with the feature amount integrated up to the immediately preceding integration process (step S12c, step S12d).
  • the recognition unit 220 executes recognition processing based on, for example, each feature quantity integrated in each phase ⁇ 3 and ⁇ 4, and outputs recognition results ⁇ 3 and ⁇ 4 of each phase ⁇ 3 and ⁇ 4, respectively.
  • each feature amount extraction process (step S11a to step S11d), each integration process (step S12a to step S12d), and each recognition process (step S13a to step S13d) in each of the phases ⁇ 1 to ⁇ 4 described above. And are executed within the period of one frame. That is, the recognition unit 220 performs recognition processing on each sampled image 36 ⁇ 1 to 36 ⁇ 4 in which pixels are thinned out by subsampling the image data 32a of one frame. Therefore, the amount of calculation of each recognition process in the recognition unit 220 is small, and each recognition process can be executed in a short time.
  • FIG. 17 is a schematic diagram for explaining the effect of the processing (intraframe processing) according to the second example described above.
  • FIG. 17A is an example time chart comparing the processing according to the second example described above with the processing according to the existing technique, and shows the passage of time toward the right.
  • section (a) shows an example of reading and recognition processing by existing technology.
  • section (b) shows an example of reading and recognizing processing according to the second example described above.
  • the imaging process is performed during a period of time t 0 to t 1.
  • the imaging process includes exposure in the pixel array unit 1001 for a predetermined time, and transfer processing of each pixel data based on the electric charge generated by the photoelectric conversion element in response to the exposure.
  • Each pixel data transferred from the pixel array unit 1001 by the imaging process is stored in the frame memory as, for example, one frame of image data.
  • reading of the image data stored in the frame memory is started, for example, from time t 1.
  • the recognition processing for the image data for one frame is started after the reading of the image data for one frame is completed (time t 4).
  • this recognition process ends at the time t 6 when one frame period elapses from the time t 4.
  • the reading of the image data from the frame memory is started after the time t 1 as in the example of the section (a).
  • the reading of the sampled image 36 ⁇ 1 by the subsampling of the first phase ⁇ 1 is executed, for example, during the period t 1 to t 2 which is 1/4 of the one frame period, and the same is true.
  • the recognition process for the sampled image 36 ⁇ 1 is executed, for example, during the period t 2 to t 3 , which is 1/4 of the one frame period, and the recognition result ⁇ 1 is output.
  • the reading of the sampled images 36 ⁇ 2 to 36 ⁇ 4 by the subsampling of the second to fourth phases ⁇ 2 to ⁇ 4 is, for example, 1/4 of the time of one frame period. It is executed at times t 2 to t 3 , ..., And ends at time t 4, for example.
  • Recognition processing for the sampling image 36 ⁇ 2 is started to a time t 2, for example, be terminated elapsed time 1/4 time of one frame period t 3, the recognition result ⁇ 2 is output.
  • the recognition process for the other sampled images 36 ⁇ 3 and 36 ⁇ 4 is also executed following the recognition process for the immediately preceding sampled image. ..
  • the recognition processing for the sampling image 36 ⁇ 4 by the last sub-sampling of the image data 32 for one frame has ended at time t 5.
  • FIG. 17B is a diagram schematically showing each recognition result according to the second example.
  • the upper stage, the middle stage, and the lower stage show examples of the recognition results ⁇ 1, ⁇ 2, and ⁇ 4 by the recognition processing for the first phase ⁇ 1, the second phase ⁇ 2, and the fourth phase ⁇ 4, respectively.
  • images of three people whose recognition targets are people and are at different distances from the sensor unit 10b (information processing device 1b) are included in one frame. Shows the case.
  • three objects 96L, 96M, and 96S which are images of people and have different sizes, are included with respect to the frame 95.
  • the object 96L is the largest, and of the three persons included in the frame 95, the person corresponding to the object 96L is the closest to the sensor unit 10b.
  • the smallest object 96S among the objects 96L, 96M and 96S represents the person whose person corresponding to the object 96S is the farthest from the sensor unit 10b among the three people included in the frame 95. There is.
  • the recognition result ⁇ 1 is an example in which the recognition process is executed on the above-mentioned sampled image 36 ⁇ 1 and the largest object 96L is recognized.
  • the recognition result ⁇ 2 is an example in which the feature amount extracted from the sampled image 36 ⁇ 2 is further integrated with the feature amount in the recognition result ⁇ 1 and the next largest object 96M is recognized.
  • the recognition result ⁇ 4 the feature amount extracted from the sampled image 36 ⁇ 4, the feature amount extracted from the sampled image 36 ⁇ 2, and the feature amount extracted from the next sampled image 36 ⁇ are integrated, and the objects 96L and 96M are integrated.
  • the smallest object 96S is recognized.
  • a rough recognition result ⁇ 1 can be obtained based on the sampled image 36 ⁇ 1 by the first subsampling for the frame.
  • the recognition result ⁇ 1 can be output at time t 3 in FIG. 17A, and as shown by the arrow B in the figure, low latency is realized with respect to the time t 6 at which the recognition result is output by the existing technology. can.
  • the recognition result ⁇ 1 based on the sampled image 36 ⁇ 1 by the first subsampling for the frame according to this second example is the breaking news result.
  • This breaking news result is also applicable to the first example described above.
  • the recognition process in the final subsampling for the frame is performed based on the feature quantity that integrates the feature quantities extracted from each sampled image 36 ⁇ 1 to 36 ⁇ 4 in the frame, so that the accuracy is higher.
  • the recognition result ⁇ 4 can be obtained.
  • This recognition result ⁇ 4 can realize, for example, the same accuracy as the recognition processing by the existing technology.
  • this last sub-sampling 1/4 frame period, for example with respect to the time t 4 when read process is completed by an existing technique is terminated and the time t 5 elapses.
  • the accuracy equivalent to that of the existing technology can be obtained in a shorter time than the recognition processing by the existing technology as shown by the arrow A in the figure, resulting in lower latency. Can be planned.
  • the recognition result ⁇ 4 is the integration result. This integration result is also applicable to the first example described above.
  • the number of divisions of the image data 32 in one frame or the reading method when reading the sampling pixels from the image data 32 is switched according to a predetermined condition.
  • the first recognizer, the second recognizer, and the third recognizer, each of which has a different number of divisions of the image data 32 are switched according to a predetermined condition.
  • the second recognizer is a recognition machine that divides the image data 32 by the first number of divisions (for example, four divisions) and performs recognition processing based on each division area 35. Further, the third recognition machine divides the image data 32 by a second division number (for example, 16 divisions) which is different from the first division number, and performs recognition processing based on each division area 35'. It is a recognizer.
  • FIG. 18 is a diagram schematically showing a configuration of an example of a second recognizer according to the first embodiment.
  • the left end shows a state in which the image data 32 of one frame is divided into four according to the pixels 300 ⁇ 1, 300 ⁇ 2, 300 ⁇ 3, and 300 ⁇ 4 of the four phases of the first phase ⁇ 1 to the fourth phase ⁇ 4.
  • Sampling images 36 ⁇ 1 to 36 ⁇ 4 of each phase are generated by the subsampling process (steps S11a to S11d) according to the first to fourth phases ⁇ 1 to ⁇ 4.
  • sampled images 36 ⁇ 1 to 36 ⁇ 4 of each phase are generated in the order of the first phase ⁇ 1, the second phase ⁇ 2, the third phase ⁇ 3, and the fourth phase ⁇ 4.
  • the size of the divided area 35 may be 8 pixels ⁇ 8 pixels (in this case, 4 ⁇ 4 is divided into 16), or the divided area 35 may be further set to another size.
  • the divided region 35 does not have to be square and is not limited to a rectangle.
  • the entire image data 32 or an arbitrary pixel position of the predetermined division area 35 may be selected, and the pixel 300 at the selected pixel position may be used as the sampling pixel.
  • the plurality of pixel positions arbitrarily selected include, for example, a plurality of discrete and aperiodic pixel positions.
  • the preprocessing unit 210 can select the plurality of pixel positions by using pseudo-random numbers. Further, the selected pixel positions are preferably different for each frame, but some pixel positions may overlap between the frames.
  • Feature extraction processing is performed on the sampled images 36 ⁇ 1 to 36 ⁇ 4 of each phase (steps S11a to S11d).
  • the feature amount of the sampled image 36 ⁇ 1 first extracted in step S11a is integrated with the feature amount already accumulated in step S12a.
  • the recognition process step S13a.
  • the recognition result of the recognition process in step S13a is output as a breaking news result.
  • step S11b the feature amount of the sampled image 36 ⁇ 2 extracted in step S11b is integrated with the feature amount extracted from the sampled image 36 ⁇ 1 in step S11a in step S12b.
  • the feature amount of the sampled image 36 ⁇ 3 extracted in step S11c is further integrated with the feature amount integrated in step S12b by step S12c. That is, in step S12c, the feature quantities extracted from the sampled images 36 ⁇ 1, 36 ⁇ 2, and 36 ⁇ 3 are integrated.
  • step S12d the feature amount of the sampled image 36 ⁇ 4 extracted in step S11d is further integrated with the feature amount integrated in step S12c by step S12d. That is, in step S12d, the feature quantities extracted from the sampled images 36 ⁇ 1, 36 ⁇ 2, 36 ⁇ 3, and 36 ⁇ 4 are integrated. Recognition processing is performed on the integrated feature amount in step S13d. The recognition result of the recognition process in step S13d is output as an integration result.
  • the recognition result of the recognition process (step S13a) based on the sampled image 36 ⁇ 1 is output as a breaking news result, but this is not limited to this example.
  • Recognition results excluding the above-mentioned integration results for example, recognition results of recognition processing based on the integrated feature quantities of the feature quantities extracted from the sampled images 36 ⁇ 1 and 36 ⁇ 2, and features extracted from the sampled images 36 ⁇ 1 to 36 ⁇ 3, respectively.
  • the quantity-based recognition result may be used as a breaking news result.
  • FIG. 19 is a schematic diagram for explaining the recognition device switching process according to the first embodiment.
  • the left section (a) shows an example of the first recognizer that executes the feature amount extraction (step S11) and the recognition process (step S13) without dividing the image data 32 of one frame. There is. This example is an example when the number of divisions of the image data 32 is 0.
  • the central section (b) corresponds to FIG. 18 described above, and shows an example of a second recognizer that divides the image data 32 into four parts.
  • FIG. 20A shows an example in which the image data 32 is divided by the first to fourth phases ⁇ 1 to ⁇ 4.
  • pixels 300 ⁇ 1, 300 ⁇ 2, 300 ⁇ 3 and 300 ⁇ 4 are used as base points, respectively, and are thinned out every other pixel by subsampling. I do.
  • four sampled images 36 ⁇ 1 to 36 ⁇ 4 that are out of phase are generated, and the image data 32 is divided into four by time axis expansion.
  • the second recognizer extracts features for each of the divided regions 35 for each of the first to fourth phases ⁇ 1 to ⁇ 4 (steps S11a to step 4).
  • S11d) and feature quantity integration are performed. Further, based on the feature amount extracted from the sampled image 36 ⁇ 1 of the first phase ⁇ 1 in step S11a, the recognition process is performed in step S13a and the breaking news result is output. Further, the feature amounts extracted from the sampled images 36 ⁇ 4 of the fourth phase ⁇ 4 in step S11d and the feature amounts extracted from the sampled images 36 ⁇ 1 to 36 ⁇ 3 of the first to third phases ⁇ 1 to ⁇ 3 were integrated.
  • Step S12b to Step S12d The recognition process is performed in step S13d based on the feature amount, and the integration result is output.
  • the left section (c) shows an example of a third recognizer that divides the image data 32 into 16 parts.
  • FIG. 20B shows an example in which the image data 32 is divided by the first to 16th phases ⁇ 1 to ⁇ 16.
  • 300 ⁇ 16 as the base point, for example, thinning is performed every 3 pixels by subsampling.
  • 16 sampled images 36 ⁇ 01 to 36 ⁇ 16 that are out of phase are generated, and the image data 32 is divided into 16 by time axis expansion.
  • the third recognizer extracts features for each of the divided regions 35'for each of the first to 16th phases ⁇ 1 to ⁇ 16 (step S11 01).
  • -Step S11 16 feature quantity integration (collectively shown as step S12) is performed. Further, based on the features extracted in step S11 01 from the sampling image 36 ⁇ 01 of the first phase .phi.1, performs recognition processing in step S13 01, and outputs the bulletin results. Further, the feature amount extracted from the sampled image 36 ⁇ 16 of the 16th phase ⁇ 16 in step S11 16 and the feature amount extracted from each of the sampled images 36 ⁇ 01 to 36 ⁇ 15 of the first to 15th phases ⁇ 1 to ⁇ 15 are stepped. Based on the feature quantity integrated in S12, the recognition process is performed in step S13 16 and the integration result is output.
  • the integration result output by the second recognizer and the third recognizer is substantially the same as the recognition result by the first recognizer.
  • the second recognizer and the third recognizer can output the integrated result with a lower latency than the recognition result by the first recognizer.
  • the third recognizer has a wider thinning interval than the second recognizer, it is possible to output the breaking news result with a lower latency than the second recognizer.
  • the second recognizer can output breaking news results with higher accuracy than the third recognizer. Therefore, it is preferable that the first recognizer, the second recognizer, and the third recognizer are switched and used according to their uses and purposes.
  • the image data 32 of one frame is divided into a plurality of sampled images 36 ⁇ 1, 36 ⁇ 2, ...
  • it is effective depending on the environmental conditions in which the object is placed and the object to be prioritized.
  • the number of divisions suitable for various recognition processes is different. Further, the number of divisions suitable for effective recognition processing also differs depending on the breaking news of the required recognition processing. Therefore, it is preferable to change the number of divisions according to the situation when the recognition process is executed.
  • the number of divisions by subsampling of the image data 32 in the recognizer is changed according to a predetermined condition. Further, the recognizer and the parameters applied to the recognizer are changed according to the number of divisions. This makes it possible to provide an optimum recognition system according to the situation when the recognition process is executed.
  • the network parameters are changed according to the changed number of divisions. This makes it possible to flexibly change the number of divisions while preventing deterioration of the performance related to the recognition process. If the number of divisions can be changed flexibly, it becomes possible to acquire the recognition result at an appropriate timing according to the situation.
  • the parameters of the first undivided (the number of divisions is 0) shown in the section (a) are set. It is possible to improve the performance of the recognition process by applying the parameters learned based on the structure of 16 divisions rather than applying them.
  • FIG. 21A is a functional block diagram of an example for explaining a more detailed function of the pretreatment unit 210 according to the first embodiment.
  • the preprocessing unit 210 includes a utilization area acquisition unit 211, a pattern determination unit 212, a pattern acquisition unit 213, a setting calculation unit 214, and a parameter storage unit 230.
  • the parameter storage unit 230 includes a memory and a memory control unit for controlling reading and writing to the memory.
  • the used area acquisition unit 211, the pattern determination unit 212, the pattern acquisition unit 213, the setting calculation unit 214, and the parameter storage unit 230 are realized by, for example, an information processing program operating on the CPU 1205.
  • This information processing program can be stored in ROM 1206 in advance. Not limited to this, the information processing program can also be supplied from the outside via the interface 1204 and written to the ROM 1206.
  • the used area acquisition unit 211, the pattern determination unit 212, the pattern acquisition unit 213, the setting calculation unit 214, and the parameter storage unit 230 are realized by operating the CPU 1205 and the DSP 1203, respectively, according to the information processing program. You may. Furthermore, a hardware circuit that operates a part or all of the utilization area acquisition unit 211, the pattern determination unit 212, the pattern acquisition unit 213, the setting calculation unit 214, and the parameter storage unit 230 (memory control unit) in cooperation with each other. It may be configured by.
  • the used area acquisition unit 211 includes a reading unit that reads the image data 32 from the sensor unit 10b.
  • the use area acquisition unit 211 performs subsampling processing on the image data 32 read from the sensor unit 10b by the reading unit according to the pattern information passed from the pattern determination unit 212 described later, extracts sampling pixels, and extracts the sampled pixels.
  • a sampled image 36 ⁇ x having a phase ⁇ x is generated from the sampled pixels. That is, the function of the generation unit that generates the sampled image is realized by the utilization area acquisition unit 211 and the pattern determination unit 212.
  • the used area acquisition unit 211 passes the generated sampled image 36 ⁇ x to the recognition unit 220.
  • the use area acquisition unit 211 can perform read control on the sensor unit 10b to specify a line or the like for reading.
  • FIG. 21B is a functional block diagram of an example for explaining a more detailed function of the recognition unit 220 according to the first embodiment.
  • the recognition unit 220 includes a feature amount calculation unit 221, a feature amount accumulation control unit 222, a feature amount accumulation unit 223, and a recognition process execution unit 224.
  • the feature amount calculation unit 221 and the feature amount accumulation control unit 222, the feature amount storage unit 223, and the recognition process execution unit 224 are realized by, for example, an information processing program running on the CPU 1205.
  • This information processing program can be stored in ROM 1206 in advance. Not limited to this, the information processing program can also be supplied from the outside via the interface 1204 and written to the ROM 1206.
  • the feature amount calculation unit 221 and the feature amount accumulation control unit 222, the feature amount storage unit 223, and the recognition process execution unit 224 may be realized by operating the CPU 1205 and the DSP 1203, respectively, according to the information processing program. Furthermore, a part or all of the feature amount calculation unit 221 and the feature amount accumulation control unit 222, the feature amount storage unit 223, and the recognition processing execution unit 224 may be configured by a hardware circuit that operates in cooperation with each other. ..
  • the recognition unit 220 the feature amount calculation unit 221 and the feature amount accumulation control unit 222, the feature amount accumulation unit 223, and the recognition process execution unit 224 constitute a recognizer that executes recognition processing based on image data.
  • the recognition unit 220 can change the configuration of the recognition device according to the recognition device information passed from the parameter storage unit 230, which will be described later.
  • the recognition unit 220 can apply any of the first recognizer, the second recognizer, and the third recognizer described with reference to FIG. 19 according to the recognizer information.
  • the sampled image 36 ⁇ x passed from the usage area acquisition unit 211 is input to the feature amount calculation unit 221.
  • the feature amount calculation unit 221 includes one or more feature calculation units for calculating the feature amount, and calculates the feature amount based on the passed sampled image 36 ⁇ x. That is, the feature amount calculation unit 221 functions as a calculation unit for calculating the feature amount of the sampled image 36 ⁇ x composed of sampling pixels. Not limited to this, the feature amount calculation unit 221 may acquire information for setting the exposure and analog gain from, for example, the sensor unit 10b, and further use the acquired information to calculate the feature amount.
  • the feature amount calculation unit 221 passes the calculated feature amount to the feature amount accumulation control unit 222.
  • the feature amount accumulation control unit 222 accumulates the feature amount passed from the feature amount calculation unit 221 in the feature amount accumulation unit 223. At this time, the feature amount accumulation control unit 222 integrates the past feature amount already accumulated in the feature amount storage unit 223 and the feature amount passed from the feature amount calculation unit 221 to generate the integrated feature amount. can do. That is, the feature amount accumulation control unit 222 functions as a feature amount integration unit that integrates feature amounts. Further, when the feature amount storage unit 223 is initialized and the feature amount does not exist, the feature amount accumulation control unit 222 uses the feature amount passed from the feature amount calculation unit 221 as the first feature amount as the feature amount storage unit. Accumulate in 223.
  • the feature amount accumulation control unit 222 can delete unnecessary feature amounts from the feature amounts accumulated in the feature amount accumulation unit 223.
  • the unnecessary feature amount is, for example, a feature amount related to the previous frame, a feature amount calculated based on a frame image of a scene different from the frame image in which a new feature amount is calculated, and an already accumulated feature amount.
  • the feature amount accumulation control unit 222 can also specify the feature amount to be deleted in response to an instruction from the outside. Further, the feature amount accumulation control unit 222 can also delete and initialize all the feature amounts accumulated in the feature amount accumulation unit 223, if necessary.
  • the feature amount accumulation control 222 is the feature amount passed from the feature amount calculation unit 221 to the feature amount accumulation control unit 222, or the feature amount accumulated in the feature amount accumulation unit 223, and the feature amount is passed from the feature amount calculation unit 221.
  • the feature amount integrated with the feature amount is passed to the recognition processing execution unit 224.
  • the recognition process execution unit 224 executes a recognition process that performs object detection, person detection, face detection, etc. based on the feature amount passed from the feature amount accumulation control unit 222. For example, the recognition processing execution unit 224 recognizes when the feature amount is a feature amount passed from the feature amount calculation unit 221 to the feature amount accumulation control unit 222, that is, a feature amount that is not integrated with other feature amounts. The breaking news result is output as the result of processing. Further, for example, when the feature amount is integrated with all the feature amounts based on all the sampled images 36 ⁇ x generated from the image data 32 of one frame, the recognition process execution unit 224 integrates as a result of the recognition process. Output the result.
  • the recognizer to be applied to the recognizer 220 is changed according to the recognizer information passed from the parameter storage unit 230, which will be described later. Further, in the recognition unit 220, the internal states of the feature amount calculation unit 221 and the feature amount accumulation control unit 222 and the recognition process execution unit 225 are changed according to the parameters passed from the parameter storage unit 230.
  • the pattern determination unit 212 generates pattern information for the used area acquisition unit 211 to perform the subsampling process according to the specified set value or the dynamically set pattern.
  • the pattern determination unit 212 passes the generated pattern information to the utilization area acquisition unit 211.
  • the pattern determination unit 212 generates pattern information according to a predetermined condition.
  • the pattern determination unit 212 passes the generated pattern information to the use area acquisition unit 211 and the pattern acquisition unit 213.
  • the pattern determination unit 212 can apply a setting value preset by the designer or a setting value specified by the user as a predetermined condition. Further, the pattern determination unit 212 can apply the environment related to the recognizer as a predetermined condition.
  • the environment related to the recognizer is, for example, an environment in which an object to be recognized by the recognizer is placed or an environment related to the recognizer itself.
  • a country or region in which the information processing device 1b including the recognizer is used can be considered.
  • an object in which the information processing device 1b including the recognizer is installed or mounted, or an installation or mounting position can be considered.
  • the pattern determination unit 212 when the information processing device 1b is used for in-vehicle use, the pattern determination unit 212 generates pattern information on condition that the country or region in which the vehicle on which the information processing device 1b is installed is operated.
  • the vehicle or the information processing device 1b itself is provided with self-position acquisition means such as GNSS (Global Navigation Satellite System) and SLAM (Simultaneous Localization and Mapping), and the map is acquired by the self-position acquisition means and based on the position of the vehicle.
  • GNSS Global Navigation Satellite System
  • SLAM Simultaneous Localization and Mapping
  • the country or region can be identified.
  • the area includes a wide area such as a prefecture and a specific area (shopping district, school zone, etc.) in the urban area.
  • the pattern determination unit 212 determines the type of vehicle (large vehicle, small vehicle, motorcycle, etc.) on which the information processing device 1b is mounted, and the position (of the vehicle) on which the information processing device 1b is mounted in the vehicle. Pattern information is generated on the condition of front / side / rear, inside / outside of vehicle, etc.).
  • the environment (brightness, weather, etc.) of the place where the object to be recognized by the information processing device 1b exists is acquired by a sensor or communication, and the pattern determination unit 212 uses the acquired environment as a condition to obtain a pattern. Information can be generated.
  • pattern information is passed from the pattern determination unit 212, and the sampled image 36 ⁇ x is passed from the usage area acquisition unit 211.
  • the pattern acquisition unit 213 acquires information about the pattern of the passed sampled image 36 ⁇ x based on the pattern information and the sampled image 36 ⁇ x. For example, the pattern acquisition unit 213 acquires information indicating the number of divisions in which the sampled image 36 ⁇ x is subsampled and the phase ⁇ x thereof as information related to the pattern.
  • the pattern acquisition unit 213 passes information about the acquired pattern to the setting calculation unit 214.
  • the setting calculation unit 214 performs a calculation based on the information about the pattern passed from the pattern acquisition unit 213, and obtains the optimum recognizer and parameters to be applied to the recognition unit 220.
  • the setting calculation unit 214 instructs the parameter storage unit 230 to pass the obtained recognizer and the parameter to the recognition unit 220.
  • the parameter storage unit 230 stores the recognizer learned according to the pattern and the parameters in advance.
  • the parameter storage unit 230 has, for example, each of the results of pre-learning for each of the first recognizer, the second recognizer, and the third recognizer based on the input image and the correct answer data.
  • the parameters are stored.
  • each parameter that has been learned in advance based on each of the sampled images 36 ⁇ x of each phase ⁇ x and each correct answer data corresponding to each of the sampled images 36 ⁇ x is displayed. Be remembered.
  • the parameter storage unit 230 passes the parameters stored in advance and the information indicating the recognizer to the recognition unit 220 in response to the instruction of the setting calculation unit 214.
  • FIG. 22 is an example flowchart showing the recognition process according to the first embodiment.
  • the pattern determination unit 212 determines the pattern to be subsampled according to the preset set value or the dynamically set pattern.
  • the pattern determination unit 212 passes the pattern information indicating the determined pattern to the utilization area acquisition unit 211 and the pattern acquisition unit 213.
  • the utilization area acquisition unit 211 acquires the sampled image 36 ⁇ x generated by subsampling from the sensor unit 10b according to the pattern information passed from the pattern determination unit 212.
  • the used area acquisition unit 211 passes the acquired sampled image 36 ⁇ x to the recognition unit 220 and the pattern acquisition unit 213.
  • the pattern acquisition unit 213 recognizes the subsampled pattern based on the pattern information passed from the pattern determination unit 212 and the sampled image 36 ⁇ x passed from the utilization area acquisition unit 211. get. More specifically, the pattern acquisition unit 214 recognizes how the image data 32 is divided by subsampling, and acquires information about the pattern. The pattern acquisition unit 214 passes information about the acquired pattern to the setting calculation unit 214.
  • the setting calculation unit 214 selects the recognizer and the parameter to be applied according to the acquired pattern. More specifically, the setting calculation unit 214 receives, for example, the recognition process currently being executed from the recognizer and the parameter stored in the parameter storage unit 230 based on the information about the pattern passed from the pattern acquisition unit 213. Select the best recognizer and parameters. The setting calculation unit 214 passes the selected parameter and information indicating the recognition machine to the recognition unit 220 to the parameter storage unit 230.
  • the recognition unit 220 is selected by the setting calculation unit 214 in step S103, and sets the recognizer and the parameters according to the parameters passed from the parameter storage unit 230 and the information indicating the recognizer.
  • the recognition unit 220 executes the object detection process by the recognition process performed on the sampled image 36 ⁇ x according to the set recognizer and parameters.
  • This first application example is an example of changing the subsampling pattern (number of divisions) based on the position information.
  • the information processing device 1b that executes the recognition process according to the first embodiment can acquire the current position information from the outside, for example.
  • the information processing apparatus 1b may have a self-position acquisition means such as GNSS or SLAM.
  • FIG. 23 is a flowchart of an example showing the recognition process according to the first application example of the first embodiment.
  • the flowchart of FIG. 23 is shown as a loop process in which the processes from step S50 to step S104 are repeated.
  • step S50 the information processing device 1b acquires the current position.
  • the information processing device 1b acquires the acquired area type of the current position.
  • the information processing device 1b acquires information on the area to which the current position belongs by referring to map information stored in advance based on the current position or acquired from the outside by communication or the like.
  • the area type divides the area where it is preferable to switch the recognition target, and it is conceivable that, for example, an urban area, a school zone, an expressway, etc. are set to different area types.
  • step S52 the information processing device 1b determines whether or not the area type acquired in step S51 has changed from, for example, the area type acquired in step S51 in the previous loop.
  • step S52 "No"
  • the information processing apparatus 1b shifts the process to step S100a.
  • step S100a the information processing apparatus 1b determines the pattern for subsampling to the pattern applied immediately before by the pattern determination unit 212.
  • the pattern determination unit 212 passes the pattern information of the determined pattern to the utilization area acquisition unit 211 and the pattern acquisition unit 213.
  • the information processing device 1b shifts the process to step S101.
  • step S52 determines in step S52 that the area type has changed (step S52, "Yes")
  • step S53 the information processing apparatus 1b determines whether or not the area type acquired in step S51 is the area type for which the breaking news result is required.
  • step S53 determines that the area type is an area type for which a breaking news result is required (step S53, "Yes")
  • step S100b the information processing apparatus 1b shifts the process to step S100b.
  • step S100b the information processing apparatus 1b determines the pattern for subsampling by the pattern determination unit 212 to be a pattern suitable for the breaking news result output.
  • the pattern applied immediately before is the pattern by the first recognizer, that is, the pattern that does not divide the image data 32, it is divided into four by the second recognizer. It is conceivable to change to the pattern of 16 divisions by the third recognizer. Further, when the pattern applied immediately before is a 4-division pattern by the second recognizer, it is conceivable to change to a 16-division pattern by the third recognizer.
  • the pattern determination unit 212 passes the pattern information of the determined pattern to the utilization area acquisition unit 211 and the pattern acquisition unit 213.
  • the information processing device 1b shifts the process to step S101.
  • step S53 when the information processing apparatus 1b determines that the area type acquired in step S51 is an area type that does not require a breaking news result (step S53, "No"), the process shifts to step S100c. Let me.
  • step S100c the information processing apparatus 1b determines the pattern for subsampling by the pattern determination unit 212 to be a pattern suitable for the integrated result output.
  • the pattern applied immediately before is a pattern by the second recognizer or the third recognizer, that is, a pattern that divides the image data 32 into 4 or 16 parts.
  • the integration result may be output without changing the pattern.
  • the pattern determination unit 212 passes the pattern information of the determined pattern to the utilization area acquisition unit 211 and the pattern acquisition unit 213.
  • the information processing device 1b shifts the process to step S101.
  • step S101 the utilization area acquisition unit 211 acquires the sub-sampled sampled image 36 ⁇ x from the sensor unit 10b according to the pattern information passed from the pattern determination unit 212, and uses the acquired sampled image 36 ⁇ x as the recognition unit 220 and the recognition unit 220. It is passed to the pattern acquisition unit 213.
  • step S102 the pattern acquisition unit 214 recognizes the subsampled pattern based on the pattern information passed from the pattern determination unit 212 and the sampled image 36 ⁇ x passed from the utilization area acquisition unit 211. get.
  • the pattern acquisition unit 214 passes information about the acquired pattern to the setting calculation unit 214.
  • the setting calculation unit 214 selects the recognizer and the parameter to be applied according to the acquired pattern.
  • the setting calculation unit 214 passes the selected parameter and information indicating the recognition machine to the recognition unit 220 to the parameter storage unit 230.
  • the recognition unit 220 is selected by the setting calculation unit 214 in step S103, and sets the recognizer and the parameters according to the parameters passed from the parameter storage unit 230 and the information indicating the recognizer.
  • the recognition unit 220 executes the object detection process by the recognition process performed on the sampled image 36 ⁇ x according to the set recognizer and parameters.
  • step S104 When the process of step S104 is performed, the process is returned to step S50.
  • the process according to the flowchart of FIG. 23 will be described with a more specific example.
  • the information processing device 1b that executes the recognition process according to the first embodiment is used for in-vehicle use. Further, it is assumed that the first recognizer is initially applied to the recognition unit 220 and the recognition process is executed without dividing the image data 32.
  • the information processing device 1b acquires the current position by a position estimation technique such as GNSS or SLAM (step S50), and acquires that the area type of the area currently traveling is an urban area (step S51). It is assumed that the area type has changed from the previous process (step S52, "Yes"), and the information processing apparatus 1b determines whether or not the breaking news result is necessary (step S53). In the case of an urban area, it is determined that there are many scenes in which pedestrians cross the road, and it is determined that a breaking news result is necessary (step S53, “Yes”). In the information processing device 1b, the pattern determination unit 212 changes the pattern to a pattern that is suitable for pedestrians and has high responsiveness to pedestrian jumping out (step S100b). The pattern determination unit 212 changes, for example, from a pattern without division to a pattern with four divisions.
  • a position estimation technique such as GNSS or SLAM
  • the setting calculation unit 214 issues an instruction to the parameter storage unit 230, and recognizes that the recognizer and the parameter applied to the recognition unit 220 are learned in advance based on the changed pattern (pattern for dividing into four). Switch to the device and parameters (step S101 to step S103). The recognition unit 220 executes the recognition process according to the switched recognizer and parameters (step S104). This makes it possible to deal with sudden jumps of pedestrians in urban areas.
  • step S100b the 4-division pattern determined in step S100b described above is switched to the non-division pattern by the first recognizer. Since the setting calculation unit 214 does not perform well with the recognizer and parameters learned in the four divisions, which are the immediately preceding settings, the setting calculation unit 214 switches to the recognizer and the parameters learned in advance without division (steps S101 to S103).
  • the recognition unit 220 executes the recognition process according to the switched recognizer and parameters (step S104). This makes it possible to deal with oncoming vehicles and accidents that occur at a relatively long distance.
  • This second application example is an example in which the recognition process in which the subsampling pattern is fixed is continuously executed for a certain period of time, and the pattern is switched according to the result of the recognition process.
  • FIG. 24 is a flowchart of an example showing the recognition process according to the second application example of the first embodiment.
  • the flowchart of FIG. 24 is shown as a loop process in which the processes from step S60 to step S104 are repeated. Further, in the flowchart of FIG. 24, it is assumed that the recognition process is initially executed by the first recognizer without dividing the image data 32.
  • step S60 the information processing apparatus 1b applies the first recognizer to the recognition unit 220, and does not perform subsampling on the image data 32, that is, pixel data for one frame in one recognition process. Is used to execute the recognition process.
  • step S61 The information processing device 1b accumulates the recognition result by the recognition unit 220.
  • step S62 the information processing apparatus 1b determines whether or not a certain time has elapsed from the processing of, for example, step S60. When the information processing apparatus 1b determines that a certain time has not elapsed (step S62, "No"), the information processing apparatus 1b returns the process to step S60.
  • step S62 when the information processing apparatus 1b determines in step S62 that a certain time has elapsed (step S62, "Yes"), the information processing apparatus 1b shifts the process to step S63.
  • step S63 the information processing apparatus 1b acquires the number of target objects (for example, people) detected per unit time based on the recognition result accumulated in step S61.
  • step S64 the information processing apparatus 1b determines whether or not the number of target objects acquired in step S63 exceeds the threshold value.
  • step S64 When the information processing device 1b determines that the number of acquired target objects does not exceed the threshold value (step S64, "No"), the information processing device 1b shifts the process to step S100d.
  • step S100d the information processing apparatus 1b determines the pattern to be subsampled to the pattern applied immediately before by the pattern determination unit 212. Since the process of step S100d is the same as the process of step S100a in FIG. 23, detailed description here will be omitted.
  • the information processing apparatus 1b shifts the processing to step S101 after the processing in step S100d.
  • step S64 when the information processing apparatus 1b determines in step S64 that the number of acquired target objects exceeds the threshold value (step S64, "Yes"), the information processing apparatus 1b shifts the process to step S100e.
  • step S100e the information processing apparatus 1b determines the pattern for subsampling by the pattern determination unit 212 to be a pattern suitable for the breaking news result output. Since the process of step S100e is the same as the process of step S100b in FIG. 23, detailed description here will be omitted.
  • the information processing apparatus 1b shifts the processing to step S101 after the processing in step S100d.
  • step S101 the utilization area acquisition unit 211 acquires the sub-sampled sampled image 36 ⁇ x from the sensor unit 10b according to the pattern information passed from the pattern determination unit 212, and uses the acquired sampled image 36 ⁇ x as the recognition unit 220 and the recognition unit 220. It is passed to the pattern acquisition unit 213.
  • step S102 the pattern acquisition unit 214 recognizes the subsampled pattern based on the pattern information passed from the pattern determination unit 212 and the sampled image 36 ⁇ x passed from the utilization area acquisition unit 211. get.
  • the pattern acquisition unit 214 passes information about the acquired pattern to the setting calculation unit 214.
  • the setting calculation unit 214 selects the recognizer and the parameter to be applied according to the acquired pattern.
  • the setting calculation unit 214 passes the selected parameter and information indicating the recognition machine to the recognition unit 220 to the parameter storage unit 230.
  • the recognition unit 220 is selected by the setting calculation unit 214 in step S103, and sets the recognizer and the parameters according to the parameters passed from the parameter storage unit 230 and the information indicating the recognizer.
  • the recognition unit 220 executes the object detection process by the recognition process performed on the sampled image 36 ⁇ x according to the set recognizer and parameters.
  • step S104 When the process of step S104 is performed, the process is returned to step S60.
  • the processing according to the flowchart of FIG. 24 will be described with a more specific example.
  • the information processing device 1b that executes the recognition process according to the first embodiment is used for in-vehicle use. Further, it is assumed that the first recognizer is initially applied to the recognition unit 220, and the recognition process is executed for a person (pedestrian) without dividing the image data 32.
  • the information processing device 1b recognizes the environment by recognition processing using a recognition system that operates in the first recognizer without division while the vehicle is running, and accumulates the recognition results for a certain period of time (steps S60 to S62). ..
  • the setting calculation unit 214 issues an instruction to the parameter storage unit 230, and recognizes that the recognizer and the parameter applied to the recognition unit 220 are learned in advance based on the changed pattern (pattern for dividing into four). Switch to the device and parameters (step S101 to step S103). The recognition unit 220 executes the recognition process according to the switched recognizer and parameters (step S104). This makes it possible to deal with sudden jumps of pedestrians.
  • the recognizer that executes the recognition process for the sampled image 36 ⁇ x by subsampling the image data 32 and the parameters related to the recognizer are changed according to the subsampling pattern. ing. Therefore, the recognition process can be optimized according to the subsampling pattern, and the accuracy of the recognition process can be improved.
  • the recognizer and the parameters related to the recognizer are changed according to the subsampling pattern, and the subsampling pattern for the image data 32 is changed according to a predetermined condition. I have to. Therefore, by applying the recognition process according to the first embodiment, it is possible to execute the recognition process according to the change in the situation.
  • FIG. 25 is a schematic diagram corresponding to FIG. 10 described above and showing in more detail the feature amount extraction process applicable to the modified example of the first embodiment.
  • step S10 subsampling is performed on the image data 32 (step S10), and feature amount extraction processing is performed on the sampled image 36 ⁇ x (not shown) generated by the subsampling (step S11).
  • the feature amount extracted from the sampled image 36 ⁇ x by the feature amount extraction process is integrated with the feature amount extracted by the other sampled image 36 ⁇ x (step S12), and the recognition process is executed based on the integrated feature amount (step). S13).
  • the feature amount extraction process can include a plurality of feature calculation processes for performing calculations for feature amount extraction.
  • the feature amount extraction processes are connected in series (processes are executed in sequence), the first feature calculation process (step S11p, first feature calculation unit), and the second feature calculation process (step S11p, first feature calculation unit). It includes three feature calculation processes (feature amount calculation unit) of step S11q (second feature calculation unit) and a third feature calculation process (step S11r, third feature calculation unit).
  • the feature amount extraction process may include two feature calculation processes or may include four or more feature calculation processes.
  • each feature calculation process may be performed not only in series but also in parallel, or may be a mixture of parallel and series.
  • FIG. 26A and 26B are schematic views showing an example of a feature amount extraction process and a feature amount integration process according to a modified example of the first embodiment.
  • FIG. 26A includes first, second and third feature calculation processes (step S11p, step S11q and step S11r) in which the feature amount extraction processes of step S11 are connected in series, as in FIG. 25 described above.
  • step S12 the feature amount integration process
  • step S11r the third feature calculation process
  • FIG. 26B is an example in which the integration that integrates the features is changed with respect to FIG. 26A. That is, in FIG. 26B, the feature integration process (step S12) is an example in which the feature integration process (step S12) is inserted between the second feature calculation process (step S11q) and the third feature calculation process (step S11r).
  • the first feature calculation process and the second feature calculation process are performed on the sampled image 36 ⁇ x generated by the subsampling (step S11) (step S11p and step S11q).
  • the intermediate data (referred to as an intermediate feature amount) of the feature amount calculated by the second feature calculation process is subjected to the first feature calculation process and the first feature calculation process for the other sampled image 36 ⁇ x by the feature amount integration process (step S12). 2 It is integrated with the intermediate feature amount that has been subjected to feature calculation processing.
  • a third feature calculation process (step S11r) is performed on the integrated intermediate feature amount, and the feature amount is calculated.
  • the parameter storage unit 230 stores each parameter as a result of learning in advance based on the input image and the correct answer data even when the integrated part is changed by the feature quantity integration process.
  • the feature amount integration process (step S12) is inserted between the second feature calculation process (step S11q) and the third feature calculation process (step S11r). Not limited to examples.
  • the feature quantity integration process (step S12) may be inserted between the first feature calculation process (step S11p) and the second feature calculation process (step S11q).
  • the feature amount integration process (step S12) is inserted after the feature amount extraction process (step S11), and the second feature calculation process (step S11q) and the third feature amount extraction process included in the feature amount extraction process.
  • the configuration in which the feature quantity integration processing (step S12) is inserted between the feature calculation processing (step S11r) and the configuration to be adopted depends on the subsampling pattern, the assumed recognition target, and the like. It is preferable to select appropriately according to the situation.
  • FIG. 27 is a flowchart of an example showing the recognition process according to the modified example of the first embodiment.
  • the flowchart of FIG. 27 is shown as a loop process in which the processes from step S70 to step S104 are repeated. Further, in the flowchart of FIG. 27, it is assumed that the image data 32 is initially divided into four by subsampling by the second recognizer and the recognition process is executed.
  • step S70 the information processing apparatus 1b applies the second recognizer to the recognition unit 220, and performs feature extraction processing on each sampled image 36 ⁇ 1 to 36 ⁇ 4 obtained by dividing the image data 32 into four by subsampling. Then, the recognition process is executed based on each extracted feature amount.
  • step S71 The information processing device 1b accumulates the recognition result by the recognition unit 220.
  • step S72 the information processing apparatus 1b determines whether or not a certain time has elapsed from the processing of, for example, step S70. When the information processing apparatus 1b determines that a certain time has not elapsed (step S72, "No"), the information processing apparatus 1b returns the process to step S70.
  • step S72 when the information processing apparatus 1b determines in step S72 that a certain time has elapsed (step S72, "Yes"), the information processing apparatus 1b shifts the process to step S73.
  • step S73 the information processing apparatus 1b acquires the number of target objects (for example, people) detected per unit time based on the recognition result accumulated in step S71.
  • step S74 the information processing device 1b determines whether or not the number of target objects acquired in step S73 exceeds the threshold value.
  • step S74 determines that the number of acquired target objects does not exceed the threshold value (step S74, "No")
  • the processing shifts to step S100d, and the pattern determination unit 212 determines a pattern for subsampling. Determine the pattern that was applied immediately before.
  • the information processing apparatus 1b shifts the processing to step S101 after the processing in step S100d.
  • step S74 determines in step S74 that the number of acquired target objects exceeds the threshold value (step S74, "Yes")
  • the information processing apparatus 1b shifts the process to step S100e.
  • step S100e the information processing apparatus 1b determines the pattern for subsampling by the pattern determination unit 212 to be a pattern suitable for the breaking news result output.
  • step S75 the information processing apparatus 1b changes (sets) the portion where the feature amount is integrated according to the pattern determined in the step S100e.
  • the information processing device 1b shifts the processing to step S101.
  • step S101 the utilization area acquisition unit 211 acquires the sub-sampled sampled image 36 ⁇ x from the sensor unit 10b according to the pattern information passed from the pattern determination unit 212, and uses the acquired sampled image 36 ⁇ x as the recognition unit 220 and the recognition unit 220. It is passed to the pattern acquisition unit 213.
  • step S102 the pattern acquisition unit 214 recognizes the subsampled pattern based on the pattern information passed from the pattern determination unit 212 and the sampled image 36 ⁇ x passed from the utilization area acquisition unit 211. get.
  • the pattern acquisition unit 214 passes information about the acquired pattern to the setting calculation unit 214.
  • the setting calculation unit 214 selects the recognizer and the parameter to be applied according to the acquired pattern.
  • the above-mentioned change of the integrated portion of the feature amount in step S75 may be performed in this step S103.
  • the setting calculation unit 214 passes the selected parameter and information indicating the recognition machine to the recognition unit 220 to the parameter storage unit 230.
  • the recognition unit 220 is selected by the setting calculation unit 214 in step S103, and sets the recognizer and the parameters according to the parameters passed from the parameter storage unit 230 and the information indicating the recognizer.
  • the recognition unit 220 executes the object detection process by the recognition process performed on the sampled image 36 ⁇ x according to the set feature amount integration points, the recognizer, and the parameters.
  • step S104 When the process of step S104 is performed, the process is returned to step S70.
  • the processing according to the flowchart of FIG. 27 will be described with a more specific example.
  • the information processing device 1b that executes the recognition process according to the first embodiment is used for in-vehicle use.
  • the second recognizer is initially applied to the recognition unit 220, the image data 32 is divided into four by subsampling, and the recognition process is executed for a person (pedestrian).
  • the information processing device 1b performs environment recognition by recognition processing using a recognition system operated by a second recognizer that divides the image data 32 into four by subsampling while the vehicle is running, and accumulates the recognition results for a certain period of time. (Step S70 to Step S72).
  • the information processing device 1b determines that the number of objects (pedestrians) detected per unit time exceeds the threshold value based on the accumulated recognition results after a certain period of time has passed (step S74, "Yes”. ”), It can be judged that there are many pedestrians in the area where the vehicle is currently traveling.
  • the setting calculation unit 214 issues an instruction to the parameter storage unit 230, and recognizes that the recognizer and the parameter applied to the recognition unit 220 have been learned in advance based on the changed pattern (a pattern for performing 16 divisions). Switch to the device and parameters (step S101 to step S103). The recognition unit 220 executes the recognition process according to the switched recognizer and parameters (step S104). This makes it possible to deal with sudden jumps of pedestrians.
  • the information processing device 1b considers a case where the operation mode is switched to the urban mode according to the user operation. In this case, in order to prepare for pedestrian jumping out, the information processing device 1b changes the number of divisions by subsampling to, for example, a pattern with higher breaking news (for example, changes from 4 divisions to 16 divisions), and also recognizes and Change the parameters for the recognizer according to the pattern.
  • a pattern with higher breaking news for example, changes from 4 divisions to 16 divisions
  • the operation mode changes from the highway mode (for example, assuming a traveling speed of about 100 [km / h]) to the urban mode (for example, a traveling speed of about 60 [km / h]) according to the user operation. (Assuming) is switched to.
  • the pattern by subsampling is changed to a pattern that emphasizes accuracy rather than breaking news (for example, changed from 16 divisions to 4 divisions) according to the traveling speed, and the recognizer and the parameters for the recognizer are changed to the pattern. Change accordingly.
  • the information processing apparatus 1b switches the pattern by subsampling to a pattern with high breaking news in a place with poor visibility, and changes the recognizer and the parameters for the recognizer according to the pattern. Whether or not the place has poor visibility may be instructed to the information processing device 1b according to a user operation, or may be determined based on the image data 32 acquired by the sensor unit 10b.
  • the information processing device 1b can switch patterns by subsampling on condition of the weather. That is, in the case of bad weather, since the detection accuracy of a long distance is lowered, for example, the pattern by subsampling is switched to a pattern with high breaking news, and the recognizer and the parameters for the recognizer are changed according to the pattern.
  • the weather information may be instructed to the information processing device 1b according to the user operation, for example, or may be determined based on the image data 32 acquired by the sensor unit 10b. Further, the weather information may be acquired by communication with the outside.
  • the technique according to the present disclosure has been described as being applied to the recognition process for detecting an object, but this is not limited to this example.
  • the techniques according to the present disclosure can be applied to semantic segmentation and other similar tasks.
  • the technique according to the present disclosure has been described as being applied to the recognition process using DNN, but this is not limited to this example.
  • any architecture that expands and uses image information on the time axis can be applied to other technologies.
  • a second embodiment of the present disclosure is an example in which a sensor unit 10b including a pixel array unit 1001, a recognition unit 220, and a configuration corresponding to a preprocessing unit 210 are integrally incorporated into a layered CIS. ..
  • FIG. 28 is a block diagram showing a configuration of an example of the information processing device according to the second embodiment.
  • the information processing device 1c includes a sensor unit 10c and a recognition unit 220. Further, the sensor unit 10c includes a pixel array unit 1001 and a read control unit 240.
  • the read control unit 240 includes, for example, a function corresponding to the preprocessing unit 210 described in the first embodiment and a function of the control unit 1100 in the imaging unit 1200.
  • the vertical scanning unit 1002, the AD conversion unit 1003, and the signal processing unit 1101 will be described as being included in the pixel array unit 1001.
  • the read control unit 240 supplies the pixel array unit 1001 with a control signal that specifies the pixel circuit 1000 that reads the pixel signal.
  • the read control unit 240 can selectively read a line including sampling pixels from the pixel array unit 1001.
  • the read control unit 240 can selectively specify the pixel circuit 1000 corresponding to the sampling pixel in the pixel circuit 1000 unit for the pixel array unit 1001.
  • the read control unit 240 may specify to the pixel array unit 1001 the pixel circuit 1000 corresponding to the pixel position of the sampled pixel by subsampling performed while shifting the phase described in the first embodiment. can.
  • the pixel array unit 1001 converts the pixel signal read from the designated pixel circuit 1000 into digital pixel data, and passes this pixel data to the read control unit 240.
  • the read control unit 240 passes the pixel data for one frame passed from the pixel array unit 1001 to the recognition unit 220 as image data.
  • This image data is a sampled image by phase shift subsampling.
  • the recognition unit 220 executes a recognition process on the passed image data.
  • the information processing apparatus 1c can be configured by the laminated CIS having a two-layer structure in which semiconductor chips are laminated in two layers, which is described with reference to FIG. 6A.
  • the pixel portion 2020a is formed on the semiconductor chip of the first layer
  • the memory + logic portion 2020b is formed on the semiconductor chip of the second layer.
  • the pixel unit 2020a includes at least the sensor unit 10c in the information processing device 1c.
  • the memory + logic unit 2020b includes, for example, a drive circuit for driving the pixel array unit 1001, a read control unit 240, and a recognition unit 220.
  • the memory + logic unit 2020b can further include a frame memory.
  • the information processing apparatus 1c can be configured by the laminated CIS having a three-layer structure in which semiconductor chips are laminated in three layers, which is described with reference to FIG. 6B.
  • the pixel portion 2020a described above is formed on the semiconductor chip of the first layer
  • the memory portion 2020c including, for example, a frame memory is formed on the semiconductor chip of the second layer
  • the memory + logic described above is formed on the semiconductor chip of the third layer.
  • the logic unit 2020d corresponding to the unit 2020b is formed.
  • the logic unit 2020d includes, for example, a drive circuit for driving the pixel array unit, a read control unit 240, and a recognition unit 220.
  • the memory unit 2020c can include a frame memory and a memory 1202.
  • the sensor unit 10c performs the subsampling process. Therefore, it is not necessary to read from the all-pixel circuit 1000 included in the pixel array unit 1001. Therefore, the delay in the recognition process can be further shortened as compared with the first embodiment described above. Further, since the pixel circuit 1000 of the line including the sampling pixels is selectively read from the all pixel circuits 1000, the amount of reading the pixel signal from the pixel array unit 1001 can be reduced, and the bus width can be reduced.
  • the pixel array unit 1001 selectively reads out the lines including the sampling pixels, and reads out by thinning out the lines. Therefore, it is possible to reduce the distortion of the captured image by the rolling shutter. Further, it is possible to reduce the power consumption at the time of imaging in the pixel array unit 1001. Further, in the lines thinned out by subsampling, it is possible to change the imaging conditions such as exposure to the lines to be read out by subsampling to perform imaging.
  • a modification of the second embodiment is an example in which the sensor unit 10c and the recognition unit 220 are separated from each other in the information processing device 1c according to the second embodiment described above.
  • FIG. 29 is a block diagram showing a configuration of an example of an information processing device according to a modified example of the second embodiment.
  • the information processing device 1d includes a sensor unit 10d and a recognition processing unit 20d
  • the sensor unit 10d includes a pixel array unit 1001 and a read control unit 240.
  • the recognition processing unit 20d includes a recognition unit 220.
  • the sensor unit 10d is formed by, for example, the laminated CIS having a two-layer structure in which semiconductor chips are laminated in two layers, which is described with reference to FIG. 6A.
  • the pixel portion 2020a is formed on the semiconductor chip of the first layer
  • the memory + logic portion 2020b is formed on the semiconductor chip of the second layer.
  • the pixel unit 2020a includes at least the pixel array unit 1001 in the sensor unit 10d.
  • the memory + logic unit 2020b includes, for example, a drive circuit for driving the pixel array unit 1001 and a read control unit 240.
  • the memory + logic unit 2020b can further include a frame memory.
  • the sensor unit 10d outputs the image data of the sampled image from the read control unit 240 and supplies it to the recognition processing unit 20d included in the hardware different from the sensor unit 10d.
  • the recognition processing unit 20d inputs the image data supplied from the sensor unit 10d to the recognition unit 220.
  • the recognition unit 220 executes the recognition process based on the input image data, and outputs the recognition result to the outside.
  • the sensor unit 10d can be formed by the laminated CIS having a three-layer structure in which semiconductor chips are laminated in three layers, which is described with reference to FIG. 6B.
  • the pixel portion 2020a described above is formed on the semiconductor chip of the first layer
  • the memory portion 2020c including, for example, a frame memory is formed on the semiconductor chip of the second layer
  • the memory + logic described above is formed on the semiconductor chip of the third layer.
  • the logic portion 2020b corresponding to the portion 2020b is formed.
  • the logic unit 2020b includes, for example, a drive circuit for driving the pixel array unit 1001 and a read control unit 240.
  • the memory unit 2020c can include a frame memory and a memory 1202.
  • the recognition processing unit 20d (recognition unit 220) with hardware different from the sensor unit 10d, it is possible to easily change the configuration of the recognition unit 220, for example, the recognition model.
  • the sensor unit 10d performs the recognition process based on the sub-sampled sampled image
  • the load of the recognition process can be reduced as compared with the case where the recognition process is performed by using the image data 32 of the captured image as it is. Can be done. Therefore, for example, in the recognition processing unit 20d, a CPU, DSP, or GPU having a low processing capacity can be used, and the cost of the information processing device 1d can be reduced.
  • FIG. 30 is a diagram showing a first embodiment and each modification thereof, and a usage example using the information processing devices 1b, 1c, and 1d according to the second embodiment and the modification.
  • the information processing devices 1b, 1c and 1d will be represented by the information processing device 1b when it is not necessary to distinguish them.
  • the information processing device 1b described above can be used in various cases where, for example, as shown below, light such as visible light, infrared light, ultraviolet light, and X-ray is sensed and recognition processing is performed based on the sensing result. can.
  • -A device that captures images used for viewing, such as digital cameras and mobile devices with camera functions.
  • in-vehicle sensors that photograph the front, rear, surroundings, inside of the vehicle, etc., surveillance cameras that monitor traveling vehicles and roads, inter-vehicle distance, etc.
  • a device used for traffic such as a distance measuring sensor that measures a distance.
  • -A device used for home appliances such as TVs, refrigerators, and air conditioners in order to take a picture of a user's gesture and operate the device according to the gesture.
  • -Devices used for medical treatment and healthcare such as endoscopes and devices that perform angiography by receiving infrared light.
  • -Devices used for security such as surveillance cameras for crime prevention and cameras for personal authentication.
  • -Devices used for cosmetology such as a skin measuring device that photographs the skin and a microscope that photographs the scalp.
  • -Devices used for sports such as action cameras and wearable cameras for sports applications.
  • -Agricultural equipment such as cameras for monitoring the condition of fields and crops.
  • the technology according to the present disclosure (the present technology) can be applied to various products.
  • the technology according to the present disclosure is realized as a device mounted on a moving body of any kind such as an automobile, an electric vehicle, a hybrid electric vehicle, a motorcycle, a bicycle, a personal mobility, an airplane, a drone, a ship, and a robot. You may.
  • FIG. 31 is a block diagram showing a schematic configuration example of a vehicle control system, which is an example of a mobile control system to which the technique according to the present disclosure can be applied.
  • the vehicle control system 12000 includes a plurality of electronic control units connected via the communication network 12001.
  • the vehicle control system 12000 includes a drive system control unit 12010, a body system control unit 12020, an outside information detection unit 12030, an in-vehicle information detection unit 12040, and an integrated control unit 12050.
  • a microcomputer 12051, an audio image output unit 12052, and an in-vehicle network I / F (interface) 12053 are shown as a functional configuration of the integrated control unit 12050.
  • the drive system control unit 12010 controls the operation of the device related to the drive system of the vehicle according to various programs.
  • the drive system control unit 12010 provides a driving force generator for generating the driving force of the vehicle such as an internal combustion engine or a driving motor, a driving force transmission mechanism for transmitting the driving force to the wheels, and a steering angle of the vehicle. It functions as a control device such as a steering mechanism for adjusting and a braking device for generating a braking force of a vehicle.
  • the body system control unit 12020 controls the operation of various devices mounted on the vehicle body according to various programs.
  • the body system control unit 12020 functions as a keyless entry system, a smart key system, a power window device, or a control device for various lamps such as a head lamp, a back lamp, a brake lamp, a winker, or a fog lamp.
  • the body system control unit 12020 may be input with radio waves transmitted from a portable device that substitutes for the key or signals of various switches.
  • the body system control unit 12020 receives inputs of these radio waves or signals and controls a vehicle door lock device, a power window device, a lamp, and the like.
  • the vehicle outside information detection unit 12030 detects information outside the vehicle equipped with the vehicle control system 12000.
  • the imaging unit 12031 is connected to the vehicle exterior information detection unit 12030.
  • the vehicle outside information detection unit 12030 causes the image pickup unit 12031 to capture an image of the outside of the vehicle and receives the captured image.
  • the vehicle exterior information detection unit 12030 may perform object detection processing or distance detection processing such as a person, a vehicle, an obstacle, a sign, or a character on the road surface based on the received image.
  • the imaging unit 12031 is an optical sensor that receives light and outputs an electric signal according to the amount of the light received.
  • the image pickup unit 12031 can output an electric signal as an image or can output it as distance measurement information. Further, the light received by the imaging unit 12031 may be visible light or invisible light such as infrared light.
  • the in-vehicle information detection unit 12040 detects the in-vehicle information.
  • a driver state detection unit 12041 that detects the driver's state is connected to the in-vehicle information detection unit 12040.
  • the driver state detection unit 12041 includes, for example, a camera that images the driver, and the in-vehicle information detection unit 12040 determines the degree of fatigue or concentration of the driver based on the detection information input from the driver state detection unit 12041. It may be calculated, or it may be determined whether the driver is dozing.
  • the microcomputer 12051 calculates the control target value of the driving force generator, the steering mechanism, or the braking device based on the information inside and outside the vehicle acquired by the outside information detection unit 12030 or the inside information detection unit 12040, and the drive system control unit.
  • a control command can be output to 12010.
  • the microcomputer 12051 realizes ADAS (Advanced Driver Assistance System) functions including vehicle collision avoidance or impact mitigation, follow-up driving based on inter-vehicle distance, vehicle speed maintenance driving, vehicle collision warning, vehicle lane deviation warning, and the like. It is possible to perform cooperative control for the purpose of.
  • ADAS Advanced Driver Assistance System
  • the microcomputer 12051 controls the driving force generator, the steering mechanism, the braking device, and the like based on the information around the vehicle acquired by the vehicle exterior information detection unit 12030 or the vehicle interior information detection unit 12040, so that the driver can control the vehicle. It is possible to perform coordinated control for the purpose of automatic driving, etc., which runs autonomously without depending on the operation.
  • the microcomputer 12051 can output a control command to the body system control unit 12020 based on the information outside the vehicle acquired by the vehicle exterior information detection unit 12030.
  • the microcomputer 12051 controls the headlamps according to the position of the preceding vehicle or the oncoming vehicle detected by the external information detection unit 12030, and performs coordinated control for the purpose of anti-glare such as switching the high beam to the low beam. It can be carried out.
  • the audio image output unit 12052 transmits the output signal of at least one of the audio and the image to the output device capable of visually or audibly notifying the passenger or the outside of the vehicle of the information.
  • an audio speaker 12061, a display unit 12062, and an instrument panel 12063 are exemplified as output devices.
  • the display unit 12062 may include, for example, at least one of an onboard display and a heads-up display.
  • FIG. 32 is a diagram showing an example of the installation position of the imaging unit 12031.
  • the vehicle 12100 has imaging units 12101, 12102, 12103, 12104, 12105 as imaging units 12031.
  • the imaging units 12101, 12102, 12103, 12104, 12105 are provided at positions such as the front nose, side mirrors, rear bumpers, back doors, and the upper part of the windshield in the vehicle interior of the vehicle 12100, for example.
  • the image pickup unit 12101 provided on the front nose and the image pickup section 12105 provided on the upper part of the windshield in the vehicle interior mainly acquire an image in front of the vehicle 12100.
  • the imaging units 12102 and 12103 provided in the side mirrors mainly acquire images of the side of the vehicle 12100.
  • the imaging unit 12104 provided on the rear bumper or the back door mainly acquires an image of the rear of the vehicle 12100.
  • the images in front acquired by the imaging units 12101 and 12105 are mainly used for detecting a preceding vehicle or a pedestrian, an obstacle, a traffic light, a traffic sign, a lane, or the like.
  • FIG. 32 shows an example of the photographing range of the imaging units 12101 to 12104.
  • the imaging range 12111 indicates the imaging range of the imaging unit 12101 provided on the front nose
  • the imaging ranges 12112 and 12113 indicate the imaging ranges of the imaging units 12102 and 12103 provided on the side mirrors, respectively
  • the imaging range 12114 indicates the imaging range of the imaging units 12102 and 12103.
  • the imaging range of the imaging unit 12104 provided on the rear bumper or the back door is shown. For example, by superimposing the image data captured by the imaging units 12101 to 12104, a bird's-eye view image of the vehicle 12100 as viewed from above can be obtained.
  • At least one of the imaging units 12101 to 12104 may have a function of acquiring distance information.
  • at least one of the image pickup units 12101 to 12104 may be a stereo camera composed of a plurality of image pickup elements, or an image pickup element having pixels for phase difference detection.
  • the microcomputer 12051 has a distance to each three-dimensional object within the imaging range 12111 to 12114 based on the distance information obtained from the imaging units 12101 to 12104, and a temporal change of this distance (relative velocity with respect to the vehicle 12100). By obtaining can. Further, the microcomputer 12051 can set an inter-vehicle distance to be secured in front of the preceding vehicle in advance, and can perform automatic braking control (including follow-up stop control), automatic acceleration control (including follow-up start control), and the like. In this way, it is possible to perform coordinated control for the purpose of automatic driving or the like in which the vehicle travels autonomously without depending on the operation of the driver.
  • automatic braking control including follow-up stop control
  • automatic acceleration control including follow-up start control
  • the microcomputer 12051 converts three-dimensional object data related to a three-dimensional object into two-wheeled vehicles, ordinary vehicles, large vehicles, pedestrians, electric poles, and other three-dimensional objects based on the distance information obtained from the imaging units 12101 to 12104. It can be classified and extracted and used for automatic avoidance of obstacles. For example, the microcomputer 12051 distinguishes obstacles around the vehicle 12100 into obstacles that can be seen by the driver of the vehicle 12100 and obstacles that are difficult to see. Then, the microcomputer 12051 determines the collision risk indicating the risk of collision with each obstacle, and when the collision risk is equal to or higher than the set value and there is a possibility of collision, the microcomputer 12051 is used via the audio speaker 12061 or the display unit 12062. By outputting an alarm to the driver and performing forced deceleration and avoidance steering via the drive system control unit 12010, driving support for collision avoidance can be provided.
  • At least one of the imaging units 12101 to 12104 may be an infrared camera that detects infrared rays.
  • the microcomputer 12051 can recognize a pedestrian by determining whether or not a pedestrian is present in the captured image of the imaging units 12101 to 12104.
  • pedestrian recognition includes, for example, a procedure for extracting feature points in an image captured by an imaging unit 12101 to 12104 as an infrared camera, and a pattern matching process for a series of feature points indicating the outline of an object to determine whether or not the pedestrian is a pedestrian. It is done by the procedure to determine.
  • the audio image output unit 12052 When the microcomputer 12051 determines that a pedestrian is present in the captured images of the imaging units 12101 to 12104 and recognizes the pedestrian, the audio image output unit 12052 outputs a square contour line for emphasizing the recognized pedestrian.
  • the display unit 12062 is controlled so as to superimpose and display. Further, the audio image output unit 12052 may control the display unit 12062 so as to display an icon or the like indicating a pedestrian at a desired position.
  • the above is an example of a vehicle control system to which the technology according to the present disclosure can be applied.
  • the technique according to the present disclosure can be applied to the imaging unit 12031 and the vehicle exterior information detection unit 12030 among the configurations described above.
  • the sensor unit 10b of the information processing device 1b is applied to the image pickup unit 12031
  • the recognition processing unit 20b is applied to the vehicle exterior information detection unit 12030.
  • the recognition result output from the recognition processing unit 20b is passed to the integrated control unit 12050 via, for example, the communication network 12001.
  • the technique according to the present disclosure to the imaging unit 12031 and the vehicle exterior information detection unit 12030, it is possible to switch the pattern by subsampling according to a predetermined condition, and the recognizer used for the recognition process. And the parameters can be changed according to the switched pattern. Therefore, the breaking news result, which is the recognition result with an emphasis on breaking news, can be obtained with higher accuracy, and more reliable driving support becomes possible.
  • the present technology can also have the following configurations.
  • a generation unit that generates a sampled image composed of sampling pixels obtained according to pixel positions set for each division area in which imaging information composed of pixels is divided in a predetermined pattern.
  • a calculation unit that calculates the feature amount of the sampled image,
  • a recognition unit that performs recognition processing based on the feature amount of the sampled image and outputs the recognition processing result.
  • a setting unit that sets at least one parameter of the calculation unit and the recognition unit according to the predetermined pattern, and a setting unit.
  • the generator The predetermined pattern is changed according to a predetermined condition.
  • (3) The predetermined condition includes position information indicating the position of the information processing apparatus.
  • the predetermined condition includes environmental information indicating the environment around the information processing apparatus.
  • the predetermined condition includes information about an object on which the information processing apparatus is mounted.
  • the predetermined condition includes speed information indicating the moving speed of the information processing apparatus.
  • the generator As the sampled image, a plurality of sampled images composed of the sampled pixels acquired according to the different pixel positions in the divided region are generated for each of the divided regions.
  • the generator As the sampled image, a plurality of sampled images composed of the sampled pixels acquired according to the pixel positions set for each of the divided regions in one image pickup information are generated.
  • the information processing device according to (7) above.
  • the generator As the sampled image, a plurality of sampled images acquired according to the pixel positions set in the divided region are generated across the plurality of the imaging information connected in a time series.
  • the information processing device according to (7) above.
  • the recognition unit A storage unit for accumulating the feature amount calculated by the calculation unit is further provided.
  • the recognition unit The recognition process is performed based on at least a part of the feature amount accumulated in the storage unit, and the recognition process result is output.
  • the information processing device according to any one of (1) to (9) above.
  • the recognition unit The recognition process is performed based on the integrated feature amount that integrates the plurality of feature amounts accumulated in the storage unit.
  • the information processing device according to (10) above.
  • the recognition unit The feature amount calculated by the calculation unit in response to the acquisition of the imaging information is integrated with at least a part of the feature amount accumulated in the storage unit by the time immediately before the acquisition, and the integrated feature is integrated. Perform the recognition process based on the amount.
  • the recognition unit Among the plurality of feature quantities accumulated in the storage unit, the recognition process is based on one or more of the feature quantities excluding the feature quantity based on the sampled image by the sampling pixel finally acquired in each of the divided regions. I do, The information processing device according to (11) or (12).
  • the recognition unit The recognition process is performed based on the feature amount based on the sampled image by the sampling pixel first acquired from each of the divided regions among the plurality of feature amounts accumulated in the storage unit.
  • the information processing device according to any one of (11) to (13).
  • the calculation unit Each includes a plurality of calculation units for calculating the feature amount, and includes a plurality of calculation units.
  • the recognition unit Of the plurality of arithmetic units, the arithmetic unit for outputting the integrated feature amount is set according to the parameter.
  • the information processing device according to any one of (11) to (14).
  • the recognition unit The setting according to the parameter of the calculation unit for outputting the integrated feature amount is performed based on the teacher data for each pixel corresponding to the pixel position of each of the divided regions.
  • the information processing device according to (15) above.
  • the recognition unit Based on the teacher data for each pixel corresponding to the pixel position in each of the divided regions, the recognition process for the feature amount of the sampled image is performed.
  • the information processing device according to any one of (1) to (16).
  • the recognition unit Among the imaging information, the sampling pixels set in the first imaging information and the sampling pixels set in the second imaging information acquired next to the first imaging information in time series are included. Machine learning processing is executed by the used RNN (Recurrent Neural Network), and the recognition processing is performed based on the result of the machine learning processing.
  • RNN Recurrent Neural Network
  • the information processing device according to any one of (1) to (17). (19) Executed by the processor, A generation step of generating a sampling image composed of sampling pixels obtained according to a pixel position set for each division area in which imaging information composed of pixels is divided in a predetermined pattern, and a generation step. A calculation step for calculating the feature amount of the sampled image and A recognition step of performing recognition processing based on the feature amount of the sampled image and outputting the recognition processing result, A setting step for setting at least one parameter of the calculation step and the recognition step according to the predetermined pattern, and Information processing method having.
  • An information processing program that allows a computer to execute.

Abstract

撮像画像を用いた認識処理の特性を向上させることが可能な情報処理装置、情報処理方法および情報処理プログラムを提供する。本開示に係る情報処理装置は、画素によって構成される撮像情報が所定のパターンで分割された分割領域毎に設定された画素位置に従い取得されたサンプリング画素により構成されるサンプリング画像を生成する生成部(211、212)と、サンプリング画像の特徴量を算出する算出部(221)と、サンプリング画像の特徴量に基づき認識処理を行い、認識処理結果を出力する認識部(220)と、所定のパターンに応じて算出部および認識部のうち少なくとも一方のパラメータを設定する設定部(214)と、を備える。

Description

情報処理装置、情報処理方法および情報処理プログラム
 本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。
 近年、デジタルスチルカメラ、デジタルビデオカメラ、多機能型携帯電話機(スマートフォン)などに搭載される小型カメラなどの撮像装置の高解像度化に伴い、撮像画像に含まれる所定の対象物を認識する画像認識機能を搭載する情報処理装置が開発されている。
特開2017-112409号公報
 画像認識機能において、より高解像度の撮像画像を用いることで、対象物の検出性能を向上させることが可能である。しかしながら、従来の技術では、高解像度の撮像画像を用いた画像認識は、画像認識処理に係る計算量が多くなり、撮像画像に対する認識処理の同時性を向上させることが困難であった。
 本開示は、撮像画像を用いた認識処理の特性を向上させることが可能な情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
 本開示に係る情報処理装置は、画素によって構成される撮像情報が所定のパターンで分割された分割領域毎に設定された画素位置に従い取得されたサンプリング画素により構成されるサンプリング画像を生成する生成部と、サンプリング画像の特徴量を算出する算出部と、サンプリング画像の特徴量に基づき認識処理を行い、認識処理結果を出力する認識部と、所定のパターンに応じて算出部および認識部のうち少なくとも一方のパラメータを設定する設定部と、を備える。
各実施形態に適用な情報処理装置の基本的な構成例を示すブロック図である。 DNNによる認識処理の例を概略的に示す図である。 DNNによる認識処理の例を概略的に示す図である。 時系列の情報を用いた場合の、DNNによる識別処理の第1の例を概略的に示す図である。 時系列の情報を用いた場合の、DNNによる識別処理の第1の例を概略的に示す図である。 時系列の情報を用いた場合の、DNNによる識別処理の第2の例を概略的に示す図である。 時系列の情報を用いた場合の、DNNによる識別処理の第2の例を概略的に示す図である。 各実施形態に適用可能な情報処理装置としての撮像装置のハードウェア構成例を概略的に示すブロック図である。 撮像部を2層構造の積層型CISにより形成した例を示す図である。 撮像部1200を3層構造の積層型CISにより形成した例を示す図である。 各実施形態に適用可能な撮像部の一例の構成を示すブロック図である。 認識処理に用いる画像の解像度について説明するための図である。 認識処理に用いる画像の解像度について説明するための図である。 本開示の第1の実施形態に係る情報処理装置の一例の構成を示すブロック図である。 第1の実施形態に係る認識器による認識処理を説明するための模式図である。 第1の実施形態に係るサンプリング処理を説明するための模式図である。 第1の実施形態に係る認識器による認識処理について、より具体的に説明するための図である。 第1の実施形態に係る認識器による認識処理について、より具体的に説明するための図である。 第1の実施形態に係る認識器による認識処理について、より具体的に説明するための図である。 第1の実施形態に係る認識器による認識処理について、より具体的に説明するための図である。 第1の実施形態に係る認識器による認識処理について、より具体的に説明するための図である。 第1の実施形態に係る認識処理におけるサブサンプリング処理について説明するための模式図である。 第1の実施形態に係る認識処理におけるサブサンプリング処理について説明するための模式図である。 既存技術に係る認識処理の基本的なアーキテクチャを説明するための模式図である。 各実施形態に係る認識処理の基本的なアーキテクチャを説明するための模式図である。 各実施形態に係る認識処理の基本的なアーキテクチャにおける読み出しおよび認識処理の第1の例を示す一例のタイムチャートである。 各実施形態に係る認識処理の基本的なアーキテクチャにおける読み出しおよび認識処理の第2の例を示す一例のタイムチャートである。 イントラフレーム処理と、既存技術による処理とを比較する一例のタイムチャートである。 イントラフレーム処理による各認識結果を模式的に示す図である。 各実施形態に係る、速報結果および統合結果を出力可能な認識器の一例の構成を概略的に示す図である。 第1の実施形態に係る認識器の切り替え処理を説明するための模式図である。 画像データを4分割する例を示す模式図である。 画像データを16分割する例を示す模式図である。 第1の実施形態に係る前処理部のより詳細な機能を説明するための一例の機能ブロック図である。 第1の実施形態に係る認識部のより詳細な機能を説明するための一例の機能ブロック図である。 第1の実施形態に係る認識処理を示す一例のフローチャートである。 第1の実施形態の第1の応用例による認識処理を示す一例のフローチャートである。 第1の実施形態の第2の応用例による認識処理を示す一例のフローチャートである。 第1の実施形態の変形例に適用可能な特徴量抽出処理をより詳細に示す模式図である。 第1の実施形態の変形例に係る特徴量抽出処理および特徴量の統合処理の例を示す模式図である。 第1の実施形態の変形例に係る特徴量抽出処理および特徴量の統合処理の例を示す模式図である。 第1の実施形態の変形例による認識処理を示す一例のフローチャートである。 第2の実施形態に係る情報処理装置の一例の構成を示すブロック図である。 第2の実施形態の変形例に係る情報処理装置の一例の構成を示すブロック図である。 第1の実施形態およびその各変形例、ならびに、第2の実施形態およびその変形例に係る情報処理装置を使用する使用例を示す図である。 車両制御システムの概略的な構成の一例を示すブロック図である。 車外情報検出部及び撮像部の設置位置の一例を示す説明図である。
 以下、本開示の実施形態について、図面に基づいて詳細に説明する。なお、以下の実施形態において、同一の部位には同一の符号を付することにより、重複する説明を省略する。
 以下、本開示の実施形態について、下記の順序に従って説明する。
1.各実施形態に適用可能な技術
 1-0.各実施形態に適用可能な認識処理の概略
 1-1.各実施形態に適用可能なハードウェア構成
  1-1-1.各実施形態に適用可能な撮像部の構成例
  1-1-2.撮像画像の解像度について
 1-2.各実施形態の前提となる認識処理の概略
  1-2-1.各実施形態の前提技術に係る構成
   1-2-1-1.各実施形態の前提技術に適用可能な構成の概略
   1-2-1-2.各実施形態の前提技術に係る認識処理の例
   1-2-1-3.各実施形態の前提技術に係るサブサンプリング処理について
  1-3.各実施形態に係る認識処理の基本的なアーキテクチャ
   1-3-1.より具体的な構成
    1-3-1-1.第1の例
    1-3-1-2.第2の例
2.第1の実施形態
 2-1.第1の実施形態の概要
 2-2.第1の実施形態に係るより具体的な構成例
 2-3.第1の実施形態に係る認識処理の応用例
  2-3-1.第1の応用例
  2-3-2.第2の応用例
 2-4.第1の実施形態の変形例
 2-5.第1の実施形態の他の変形例
3.第2の実施形態
 3-1.第2の実施形態の変形例
4.第3の実施形態
 4-1.本開示の技術の適用例
 4-2.移動体への適用例
[1.各実施形態に適用可能な技術]
 先ず、理解を容易とするために、各実施形態に適用可能な技術について、概略的に説明する。
(1-0.各実施形態に適用可能な認識処理の概略)
 図1は、各実施形態に適用な情報処理装置の基本的な構成例を示すブロック図である。図1において、情報処理装置1aは、センサ部10aと、認識処理部20aと、を含む。図示は省略するが、センサ部10aは、撮像手段(カメラ)と、撮像手段を制御する撮像制御部と、を含む。
 センサ部10aは、撮像制御部の制御に従い撮像を行い、撮像により取得された撮像画像の画像データを認識処理部20aに供給する。認識処理部20aは、DNN(Deep Neural Network)を用いて、画像データに対する認識処理を行う。より具体的には、認識処理部20aは、機械学習により所定の教師データを用いて予め学習された認識モデルを含み、センサ部10aから供給された画像データに対して、当該認識モデルに基づきDNNを用いた認識処理を施す。認識処理部20aは、認識処理による認識結果を、例えば情報処理装置1aの外部に出力する。
 図2Aおよび図2Bは、DNNによる認識処理の例を概略的に示す図である。この例では、図2Aに示されるように、1つの画像をDNNに入力する。DNNにおいて、入力された画像に対して認識処理が行われ、認識結果が出力される。
 図2Bを用いて、図2Aの処理をより詳細に説明する。図2Bに示されるように、DNNは、特徴抽出処理と、認識処理とを実行する。DNNにおいて、入力された画像に対して特徴抽出処理により特徴量を抽出する。この特徴抽出処理は、例えばDNNのうちCNN(Convolutional Neural Network)を用いて行われる。また、DNNにおいて、抽出された特徴量に対して認識処理を実行し、認識結果を得る。
 DNNにおいて、時系列の情報を用いて認識処理を実行することができる。図3Aおよび図3Bは、時系列の情報を用いた場合の、DNNによる識別処理の例を概略的に示す図である。この図3Aおよび図3Bの例では、時系列上の、固定数の過去情報を用いて、DNNによる識別処理を行う。図3Aの例では、時間Tの画像[T]と、時間Tより前の時間T-1の画像[T-1]と、時間T-1より前の時間T-2の画像[T-2]と、をDNNに入力する。DNNにおいて、入力された各画像[T]、[T-1]および[T-2]に対して識別処理を実行し、時間Tにおける認識結果[T]を得る。
 図3Bは、図3Aの処理をより詳細に説明するための図である。図3Bに示されるように、DNNにおいて、入力された画像[T]、[T-1]および[T-2]それぞれに対して、上述の図2Bを用いて説明した特徴抽出処理を1対1に実行し、画像[T]、[T-1]および[T-2]にそれぞれ対応する特徴量を抽出する。DNNでは、これら画像[T]、[T-1]および[T-2]に基づき得られた各特徴量を統合し、統合された特徴量に対して識別処理を実行し、時間Tにおける認識結果[T]を得る。画像[T]、[T-1]および[T-2]に基づき得られた各特徴量は、認識処理に用いる、統合された特徴量を得るための中間データであるといえる。
 図4Aおよび図4Bは、時系列の情報を用いた場合の、DNNによる識別処理の別の例を概略的に示す図である。図4Aの例では、内部状態が時間T-1の状態に更新されたDNNに対して時間Tの画像[T]を入力し、時間Tにおける認識結果[T]を得ている。
 図4Bは、図4Aの処理をより詳細に説明するための図である。図4Bに示されるように、DNNにおいて、入力された時間Tの画像[T]に対して上述の図2Bを用いて説明した特徴抽出処理を実行し、画像[T]に対応する特徴量を抽出する。DNNにおいて、時間Tより前の画像により内部状態が更新され、更新された内部状態に係る特徴量が保存されている。この保存された内部情報に係る特徴量と、画像[T]における特徴量とを統合し、統合された特徴量に対して識別処理を実行する。この場合、保存された内部情報に係る特徴量、および、画像[T]における特徴量のそれぞれは、認識処理に用いる、統合された特徴量を得るための中間データであるといえる。
 この図4Aおよび図4Bに示す識別処理は、例えば直前の認識結果を用いて内部状態が更新されたDNNを用いて実行されるもので、再帰的な処理となる。このように、再帰的な処理を行うDNNをRNN(Recurrent Neural Network)と呼ぶ。RNNによる識別処理は、一般的には動画像認識などに用いられ、例えば時系列で更新されるフレーム画像によりDNNの内部状態を順次に更新することで、識別精度を向上させることが可能である。
(1-1.各実施形態に適用可能なハードウェア構成)
 図5は、各実施形態に適用可能な情報処理装置のハードウェア構成例を概略的に示すブロック図である。図5において、情報処理装置1は、それぞれバス1210を介して互いに通信可能に接続された、撮像部1200と、メモリ1202と、DSP(Digital Signal Processor)1203と、インタフェース(I/F)1204と、CPU(Central Processing Unit)1205と、ROM(Read Only Memory)1206と、RAM(Random Access Memory)1207と、を含む。情報処理装置1は、さらに、ユーザ操作を受け付ける入力デバイスと、ユーザに対して情報を表示するための表示デバイスと、データを不揮発に記憶するストレージ装置と、を含むことができる。
 CPU1205は、ROM1206に予め記憶されるプログラムに従い、RAM1207をワークメモリとして用いて動作し、この情報処理装置1の全体の動作を制御する。インタフェース1204は、有線あるいは無線通信により、当該情報処理装置1の外部と通信を行う。例えば、情報処理装置1が車載用途として用いられる場合、情報処理装置1は、当該情報処理装置1が搭載される車両の制動制御系などと、インタフェース1204を介して通信を行うことができる。
 撮像部1200は、所定のフレーム周期で動画像の撮像を行い、フレーム画像を構成するための画素データを出力する。より具体的には、撮像部1200は、それぞれ受光した光を光電変換により電気信号である画素信号に変換する複数の光電変換素子と、各光電変換素子を駆動する駆動回路とを含む。撮像部1200において、複数の光電変換素子は、行列状の配列で配置され、画素アレイを構成する。
 例えば図1のセンサ部10aは、撮像部1200を含み、撮像部1200から1フレーム周期内で出力された画素データを、1フレーム分の画像データとして出力する。
 ここで、光電変換素子のそれぞれは画像データにおける画素に対応し、画素アレイ部は、行×列の画素数として例えば1920画素×1080画素に対応する数の光電変換素子が行列状の配列で配置される。なお、この1920画素×1080画素に対応する数の光電変換素子による画素信号により1フレームの画像が形成される。
 光学部1201は、レンズやオートフォーカス機構などを含み、レンズに入射された光を撮像部1200が有する画素アレイ部に照射させる。撮像部1200は、光学部1201を介して画素アレイ部に照射された光に応じて、光電変換素子毎の画素信号を生成する。撮像部1200は、アナログ信号である画素信号をディジタル信号である画素データに変換して出力する。撮像部1200から出力された画素データは、メモリ1202に格納される。メモリ1202は、例えばフレームメモリであって、少なくとも1フレーム分の画素データを格納可能とされている。
 DSP1203は、メモリ1202に格納された画素データに対して所定の画像処理を施す。また、DSP1203は、予め学習された認識モデルを含み、メモリ1202に格納された画像データに対して、当該認識モデルに基づき、上述したDNNを用いた認識処理を行う。DSP1203による認識処理の結果である認識結果は、例えばDSP1203が備えるメモリや、RAM1207に一時的に記憶され、インタフェース1204から外部に出力される。これに限らず、情報処理装置1がストレージ装置を備える場合、認識結果を当該ストレージ装置に格納してもよい。
 これに限らず、DSP1203の機能をCPU1205により実現してもよい。また、DSP1203の代わりにGPU(Graphics Processing Unit)を用いてもよい。
 撮像部1200は、撮像部1200に含まれる各部がCMOS(Complementary Metal Oxide Semiconductor)を用いて一体的に形成されたCMOSイメージセンサ(CIS)を適用することができる。撮像部1200は、1つの基板上に形成することができる。これに限らず、撮像部1200を、複数の半導体チップが積層され一体的に形成された積層型CISとしてもよい。なお、撮像部1200は、この例に限らず、赤外光による撮像を行う赤外光センサなど、他の種類の光センサであってもよい。
 一例として、撮像部1200を半導体チップを2層に積層した2層構造の積層型CISにより形成することができる。図6Aは、撮像部1200を2層構造の積層型CISにより形成した例を示す図である。図6Aの構造では、第1層の半導体チップに画素部2020aを形成し、第2層の半導体チップにメモリ+ロジック部2020bを形成している。画素部2020aは、少なくとも撮像部1200における画素アレイ部を含む。メモリ+ロジック部2020bは、例えば、画素アレイ部を駆動するための駆動回路を含む。メモリ+ロジック部2020bに、さらに、メモリ1202を含ませることもできる。
 図6Aの右側に示されるように、第1層の半導体チップと、第2層の半導体チップとを電気的に接触させつつ貼り合わせることで、撮像部1200を1つの固体撮像素子として構成する。
 別の例として、撮像部1200を、半導体チップを3層に積層した3層構造により形成することができる。図6Bは、撮像部1200を3層構造の積層型CISにより形成した例を示す図である。図6Bの構造では、第1層の半導体チップに画素部2020aを形成し、第2層の半導体チップにメモリ部2020cを形成し、第3層の半導体チップにロジック部2020dを形成している。この場合、ロジック部2020dは、例えば画素アレイ部を駆動するための駆動回路を含む。また、メモリ部2020cは、フレームメモリやメモリ1202を含むことができる。
 図6Bの右側に示されるように、第1層の半導体チップと、第2層の半導体チップと、第3層の半導体チップとを電気的に接触させつつ貼り合わせることで、撮像部1200を1つの固体撮像素子として構成する。
 なお、図6Aおよび図6Bの構成において、メモリ+ロジック部2020bに、図5に示したDSP1203、インタフェース1204、CPU1205、ROM1206およびRAM1207に相当する構成を含ませることも可能である。
(1-1-1.各実施形態に適用可能な撮像部の構成例)
 図7は、各実施形態に適用可能な撮像部1200の一例の構成を示すブロック図である。図7において、撮像部1200は、画素アレイ部1001と、垂直走査部1002と、AD(Analog to Digital)変換部1003と、画素信号線1006と、垂直信号線VSLと、制御部1100と、信号処理部1101と、を含む。なお、図7において、制御部1100および信号処理部1101は、例えば図5に示したCPU1205およびDSP1203にて実現することもできる。
 画素アレイ部1001は、それぞれ受光した光に対して光電変換を行う、例えばフォトダイオードによる光電変換素子と、光電変換素子から電荷の読み出しを行う回路と、を含む複数の画素回路1000を含む。画素アレイ部1001において、複数の画素回路1000は、水平方向(行方向)および垂直方向(列方向)に行列状の配列で配置される。画素アレイ部1001において、画素回路1000の行方向の並びをラインと呼ぶ。例えば、1920画素×1080ラインで1フレームの画像が形成される場合、画素アレイ部1001は、少なくとも1920個の画素回路1000が含まれるラインを、少なくとも1080ライン、含む。フレームに含まれる画素回路1000から読み出された画素信号により、1フレームの画像(画像データ)が形成される。
 また、画素アレイ部1001には、各画素回路1000の行および列に対し、行毎に画素信号線1006が接続され、列毎に垂直信号線VSLが接続される。画素信号線1006の画素アレイ部1001と接続されない端部は、垂直走査部1002に接続される。垂直走査部1002は、後述する制御部1100の制御に従い、画素から画素信号を読み出す際の駆動パルスなどの制御信号を、画素信号線1006を介して画素アレイ部1001へ伝送する。垂直信号線VSLの画素アレイ部1001と接続されない端部は、AD変換部1003に接続される。画素から読み出された画素信号は、垂直信号線VSLを介してAD変換部1003に伝送される。
 画素回路1000からの画素信号の読み出し制御について、概略的に説明する。画素回路1000からの画素信号の読み出しは、露出により光電変換素子に蓄積された電荷を浮遊拡散層(FD;Floating Diffusion)に転送し、浮遊拡散層において転送された電荷を電圧に変換することで行う。浮遊拡散層において電荷が変換された電圧は、画素信号としてアンプを介して垂直信号線VSLに出力される。
 より具体的には、画素回路1000において、露出中は、光電変換素子と浮遊拡散層との間をオフ(開)状態として、光電変換素子において、光電変換により入射された光に応じて生成された電荷を蓄積させる。露出終了後、画素信号線1006を介して供給される選択信号に応じて浮遊拡散層と垂直信号線VSLとを接続する。さらに、画素信号線1006を介して供給されるリセットパルスに応じて浮遊拡散層を電源電圧VDDまたは黒レベル電圧の供給線と短期間において接続し、浮遊拡散層をリセットする。垂直信号線VSLには、浮遊拡散層のリセットレベルの電圧(電圧Aとする)が出力される。その後、画素信号線1006を介して供給される転送パルスにより光電変換素子と浮遊拡散層との間をオン(閉)状態として、光電変換素子に蓄積された電荷を浮遊拡散層に転送する。垂直信号線VSLに対して、浮遊拡散層の電荷量に応じた電圧(電圧Bとする)が出力される。
 AD変換部1003は、垂直信号線VSL毎に設けられたAD変換器1007と、参照信号生成部1004と、水平走査部1005と、を含む。AD変換器1007は、画素アレイ部1001の各列(カラム)に対してAD変換処理を行うカラムAD変換器である。AD変換器1007は、垂直信号線VSLを介して画素回路1000から供給された画素信号に対してAD変換処理を施し、ノイズ低減を行う相関二重サンプリング(CDS:Correlated Double Sampling)処理のための2つのディジタル値(電圧Aおよび電圧Bにそれぞれ対応する値)を生成する。
 AD変換器1007は、生成した2つのディジタル値を信号処理部1101に供給する。信号処理部1101は、AD変換器1007から供給される2つのディジタル値に基づきCDS処理を行い、ディジタル信号による画素信号である画素データを生成する。
 参照信号生成部1004は、制御部1100から入力される制御信号に基づき、各AD変換器1007が画素信号を2つのディジタル値に変換するために用いるランプ信号を参照信号として生成する。ランプ信号は、レベル(電圧値)が時間に対して一定の傾きで低下する信号、または、レベルが階段状に低下する信号である。参照信号生成部1004は、生成したランプ信号を、各AD変換器1007に供給する。参照信号生成部1004は、例えばDAC(Digital to Analog Converter)などを用いて構成される。
 参照信号生成部1004から、所定の傾斜に従い階段状に電圧が降下するランプ信号が供給されると、カウンタによりクロック信号に従いカウントが開始される。コンパレータは、垂直信号線VSLから供給される画素信号の電圧と、ランプ信号の電圧とを比較して、ランプ信号の電圧が画素信号の電圧を跨いだタイミングでカウンタによるカウントを停止させる。AD変換器1007は、カウントが停止された時間のカウント値に応じた値を出力することで、アナログ信号による画素信号を、ディジタル値に変換する。
 AD変換器1007は、生成した2つのディジタル値を信号処理部1101に供給する。信号処理部1101は、AD変換器1007から供給される2つのディジタル値に基づきCDS処理を行い、ディジタル信号による画素信号(画素データ)を生成する。信号処理部1101により生成された画素データは、図示されないフレームメモリに格納され、1フレーム分の画素データが当該フレームメモリに格納されると、1フレームの画像データとして撮像部1200から出力される。
 水平走査部1005は、制御部1100の制御の下、各AD変換器1007を所定の順番で選択する選択走査を行うことによって、各AD変換器1007が一時的に保持している各ディジタル値を信号処理部1101へ順次出力させる。水平走査部1005は、例えばシフトレジスタやアドレスデコーダなどを用いて構成される。
 制御部1100は、センサ制御部11から供給される撮像制御信号に従い、垂直走査部1002、AD変換部1003、参照信号生成部1004および水平走査部1005などの駆動制御を行う。制御部1100は、垂直走査部1002、AD変換部1003、参照信号生成部1004および水平走査部1005の動作の基準となる各種の駆動信号を生成する。制御部1100は、例えば、撮像制御信号に含まれる垂直同期信号または外部トリガ信号と、水平同期信号とに基づき、垂直走査部1002が画素信号線1006を介して各画素回路1000に供給するための制御信号を生成する。制御部1100は、生成した制御信号を垂直走査部1002に供給する。
 また、制御部1100は、例えば、CPU1205から供給される撮像制御信号に含まれる、アナログゲインを示す情報をAD変換部1003に渡す。AD変換部1003は、このアナログゲインを示す情報に応じて、AD変換部1003に含まれる各AD変換器1007に垂直信号線VSLを介して入力される画素信号のゲインを制御する。
 垂直走査部1002は、制御部1100から供給される制御信号に基づき、画素アレイ部1001の選択された画素行の画素信号線1006に駆動パルスを含む各種信号を、ライン毎に各画素回路1000に供給し、各画素回路1000から、画素信号を垂直信号線VSLに出力させる。垂直走査部1002は、例えばシフトレジスタやアドレスデコーダなどを用いて構成される。また、垂直走査部1002は、制御部1100から供給される露出を示す情報に応じて、各画素回路1000における露出を制御する。
 このように構成された撮像部1200は、AD変換器1007が列毎に配置されたカラムAD方式のCMOS(Complementary Metal Oxide Semiconductor)イメージセンサである。
(1-1-2.撮像画像の解像度について)
 次に、図8Aおよび図8Bを用いて、認識処理に用いる画像の解像度について説明する。図8Aおよび図8Bは、同一の撮像範囲を、それぞれ低解像度の撮像装置、および、高解像度の撮像装置を用いて撮像した場合の撮像画像30aおよび30bの例を模式的に示す図である。図8Aおよび図8Bに示される撮像範囲は、中央部に、撮像装置からある程度離れた位置に「人」が含まれる。認識処理により、この対象物としての「人」を認識する場合について考える。
 図8Aの低解像度の例では、撮像画像30aに含まれる「人」の認識が困難であり、認識処理による「人」の認識性能が極めて低いものとなる。一方、図8Bの高解像度の例では、撮像画像30bに含まれる「人」の認識が容易であり、認識された「人」が認識結果40として得られており、図8Aの低解像度の例と比較して、認識性能が高いものとなっている。
 一方で、高解像度の画像に対する認識処理は、低解像度の画像に対する認識処理と比較して計算量が多くなり、処理に時間を要する。そのため、認識結果と撮像画像との同時性を高めることが困難となる。これに対して、低解像度の画像に対する認識処理は、計算量が少なくて済むため、短時間で処理が可能であり、撮像画像との同時性を比較的容易に高めることが可能である。
 一例として、車載の撮像装置において撮像された撮像画像に基づき認識処理を行う場合を考える。この場合、遠方の対象物(例えば対向車線を自車の進行方向と逆方向に走行する対向車)を高い同時性で認識する必要があるため、低解像度の画像に対する認識処理を行うとが考えられる。しかしながら、図8Aを用いて説明したように、低解像度の撮像画像を用いた場合は、遠方の対象物の認識が困難である。また、高解像度の撮像画像を用いた場合は、遠方の対象物の認識は比較的容易となるが、撮像画像に対する同時性を高めることが困難であり、危急の事態に対応できない可能性がある。
 本開示の各実施形態では、遠方の対象物を容易且つ高速に認識可能とするために、高解像度の撮像画像を所定の規則に従ったサブサンプリングにより間引きした画素によるサンプリング画像に対して認識処理を行う。次のフレームで取得された撮像画像に対し、直前の撮像画像に対するサブサンプリングとは異なる画素のサンプリングを行い、サンプリングした画素によるサンプリング画像に対して認識処理を行う。
 この、第1の撮像画像に対して時系列で次に取得される第2の撮像画像において、第1の撮像画像とは異なる画素をサンプリングしたサンプリング画像に対して認識処理を行う動作を、フレーム単位で繰り返し実行する。これにより、高解像度の撮像画像を用いつつ、高速に認識結果を取得することが可能となる。また、認識処理を行う際に抽出した特徴量を、順次、次のサンプリング画像に対する認識処理において抽出される特徴量に対して統合していくことで、より高精度の認識結果を取得できる。
(1-2.各実施形態の前提となる認識処理の概略)
 次に、本開示の各実施形態の前提となる認識処理技術(以下、前提技術)について概略的に説明する。
(1-2-1.各実施形態の前提技術に係る構成)
(1-2-1-1.各実施形態の前提技術に適用可能な構成の概略)
 図9は、本開示の各実施形態の前提技術に係る情報処理装置の一例の構成を示すブロック図である。図9において、情報処理装置1bは、センサ部10bと、認識処理部20bと、を含む。図示は省略するが、センサ部10bは、図1を用いて説明したセンサ部10aと同様に、撮像手段(カメラ)と、撮像手段を制御する撮像制御部と、を含む。撮像手段は、高解像度(例えば1920画素×1080画素)で撮像を行うものとする。センサ部10bは、撮像手段により撮像された撮像画像の画像データを認識処理部20bに供給する。
 認識処理部20bは、前処理部210と認識部220とを含む。センサ部10bから認識処理部20bに供給された画像データは、前処理部210に入力される。前処理部210は、入力された画像データに対して、所定の規則に従い画素を間引いてサブサンプリングを行う。画像データがサブサンプリングされたサンプリング画像は、認識部220に入力される。
 認識部220は、図1の認識処理部20aと同様に、DNNを用いて、画像データに対する認識処理を行う。より具体的には、認識処理部20aは、機械学習により所定の教師データを用いて予め学習された認識モデルを含み、センサ部10aから供給された画像データに対して、当該認識モデルに基づきDNNを用いた認識処理を施す。このとき、教師データとしては、前処理部210と同様にしてサブサンプリングされたサンプリング画像を用いる。
 認識部220は、認識処理による認識結果を、例えば情報処理装置1bの外部に出力する。
(1-2-1-2.各実施形態の前提技術に係る認識処理の例)
 図10は、各実施形態の前提技術に係る認識器による認識処理を説明するための模式図である。図10において示される認識器は、例えば認識処理部20bに対応する。画像データ32は、センサ部10bで撮像された撮像画像による1フレームの画像データを概略的に示している。画像データ32は、行列状に配列された複数の画素300を含む。画像データ32は、認識処理部20bにおいて、前処理部210に入力される。前処理部210は、画像データ32に対して、所定の規則に従った間引きによりサブサンプリングを行う(ステップS10)。
 サブサンプリングされたサンプリング画素によるサンプリング画像は、認識部220に入力される。認識部220は、DNNにより、入力されたサンプリング画像の特徴量を抽出する(ステップS11)。ここでは、認識部220は、DNNのうちCNNを用いて特徴量の抽出を行う。
 認識部220は、ステップS11で抽出された特徴量を、図示されない蓄積部(例えばRAM1207)に格納する。このとき、認識部220は、例えば直前のフレームにおいて抽出された特徴量が既に蓄積部に格納されている場合、メモリに格納されいてる特徴量を再帰的に用いて、抽出した特徴量と統合する(ステップS12)。認識部220は、直前のフレームまでにおいて抽出された特徴量を蓄積部に格納し、蓄積、統合する。すなわち、このステップS12での処理は、DNNのうちRNNを用いた処理に相当する。
 認識部220は、ステップS12で蓄積、統合された特徴量に基づき認識処理を実行する(ステップS13)。
 ここで、ステップS10における前処理部210によるサブサンプリング処理について、より詳細に説明する。図11は、各実施形態の前提技術に係るサンプリング処理を説明するための模式図である。図11において、セクション(a)は、画像データ32の例を模式的に示している。上述したように、画像データ32は、行列状に配列された複数の画素300を含む。前処理部210は、画像データ32を、2以上の画素300を含む分割領域35に分割する。図11の例では、分割領域35は、サイズが4画素×4画素の領域とされ、16個の画素300を含む。
 前処理部210は、この分割領域35に対して、分割領域35に含まれる各画素300からサブサンプリングによるサンプリング画素を選択するための画素位置を設定する。また、前処理部210は、フレーム毎に異なる画素位置を、サンプリング画素を選択するための画素位置として設定する。
 図11のセクション(b)は、あるフレームにおいて、分割領域35に対して設定される画素位置の例を示している。この例では、分割領域35において、行および列方向それぞれについて画素300を1つおきに選択するように画素位置を設定し、設定された各画素位置の画素300sa1、300sa2、300sa3および300sa4を、サンプリング画素として選択している。このように、前処理部210は、分割領域35を単位としてサブサンプリングを行う。
 前処理部210は、あるフレームにおいてサンプリング画素として選択された各画素300sa1~300sa4からなる画像を、サンプリング画素からなるサンプリング画像として生成する。図11のセクション(c)は、図11のセクション(b)にてサンプリング画素として選択された各画素300sa1~300sa4から生成されるサンプリング画像36の例を示している。前処理部210は、このサンプリング画像36を認識部220に入力する。認識部220は、このサンプリング画像36に対して認識処理を実行する。
 図12A~図12Eを用いて、各実施形態の前提技術に係る認識器による認識処理について、より具体的に説明する。上述したように、前処理部210は、フレーム毎に異なる画素位置を、サンプリング画素を選択する画素位置として設定する。認識部220は、フレーム毎に、設定された各画素位置の各画素300からなるサンプリング画像に基づき認識処理を行う。図12A~図12Eは、センサ部10bにより時系列で順次に撮像されたフレーム#1~#5それぞれの画像データ32a~32d、32a’に対する各認識処理を示している。
 なお、図12A~図12Eそれぞれにおいて、画像データ32a~32d、32a’による画像には、それぞれ人による対象物41および42が含まれている。対象物41は、センサ部10bに対して比較的近距離(中距離とする)に位置している。一方、対象物42は、センサ部10bに対して、当該中距離より遠方の距離(遠距離とする)に位置しており、画像中のサイズが対象物41より小さい。
 図12Aのセクション(a)において、前処理部210は、フレーム#1の画像データ32aの各分割領域35に対し、例えば左上隅の画素位置を基点としたサブサンプリングを行う。より具体的には、前処理部210は、画像データ32aの各分割領域35において、左上隅の画素位置を基点として行および列方向にそれぞれ1つおきに選択した各画素300を、それぞれサンプリング画素である画素300sa1~300sa4として選択するサブサンプリングを行う(ステップS10a)。
 前処理部210は、セクション(b)に示されるように、このサブサンプリングされた各画素300sa1~300sa4により、第1の位相のサンプリング画像36φ1を生成する。生成されたサンプリング画像36φ1は、認識部220に入力される。
 認識部220は、入力されたサンプリング画像36φ1の特徴量50aを、DNNを用いて抽出する(ステップS11)。認識部220は、ステップS11で抽出された特徴量50aを、蓄積部に格納、蓄積する(ステップS12)。認識部220は、蓄積部に既に特徴量が蓄積されている場合、特徴量50aを蓄積部に蓄積すると共に、既に蓄積されている特徴量と統合することができる。図12Aのセクション(b)に、ステップS12の処理として空の蓄積部に対して最初の特徴量50aが格納された様子が示されている。
 認識部220は、蓄積部に蓄積された特徴量50aに基づき認識処理を実行する(ステップS13)。図12Aの例では、セクション(b)にステップS13として示されるように、中距離に位置する対象物41が認識され認識結果60として得られている。一方、遠距離に位置する対象物42は、認識されていない。
 図12Bのセクション(a)において、前処理部210は、フレーム#2の画像データ32bの各分割領域35に対し、図12Aに示したフレーム#1の画像データ32aの各分割領域35に対して設定された画素位置に対して1画素分水平方向にずらした各画素位置を、それぞれサンプリング画素の画素位置として設定するサブサンプリングを行う(ステップS10b)。すなわち、このステップS10bで選択される各サンプリング画素は、図12AにおいてステップS10aで選択された各サンプリング画素の画素位置に対し、図中で右にそれぞれ隣接する画素位置における各画素300である。
 前処理部210は、セクション(b)に示されるように、ステップS10bでサブサンプリングされた各サンプリング画素により、第2の位相のサンプリング画像36φ2を生成する。生成されたサンプリング画像36φ2は、認識部220に入力される。
 認識部220は、入力されたサンプリング画像36φ2の特徴量50bを、DNNを用いて抽出する(ステップS11)。認識部220は、ステップS11で抽出された特徴量50bを、蓄積部に格納、蓄積する(ステップS12)。この例では、セクション(b)にステップS12として示されるように、蓄積部に対し、第1の位相のサンプリング画像36φ1から抽出された特徴量50aが既に蓄積されている。そのため、認識部220は、特徴量50bを蓄積部に蓄積すると共に、特徴量50bを、蓄積されている特徴量50aと統合する。
 認識部220は、特徴量50aと特徴量50bとが統合された特徴量に基づき認識処理を実行する(ステップS13)。図12Bの例では、セクション(b)にステップS13として示されるように、中距離に位置する対象物41が認識され認識結果60として得られているが、遠距離に位置する対象物42は、この時点では認識されていない。
 図12Cのセクション(a)において、前処理部210は、フレーム#3の画像データ32cの各分割領域35に対し、図12Aに示したフレーム#1の画像データ32aの各分割領域35に対して設定された画素位置に対して位置を1画素分、列方向にずらした画素位置を、各サンプリング画素の画素位置として設定するサブサンプリングを行う(ステップS10c)。すなわち、このステップS10cで選択される各サンプリング画素は、図12AにおいてステップS10aで選択された各サンプリング画像の画素位置に対して、図中で下にそれぞれ隣接する画素位置における各画素300である。
 前処理部210は、セクション(b)に示されるように、ステップS10cでサブサンプリングされた各サンプリングにより、第3の位相のサンプリング画像36φ3を生成する。生成されたサンプリング画像36φ3は、認識部220に入力される。
 認識部220は、入力されたサンプリング画像36φ3の特徴量50cを、DNNを用いて抽出する(ステップS11)。認識部220は、ステップS11で抽出された特徴量50cを、蓄積部に格納、蓄積する(ステップS12)。この例では、セクション(b)にステップS12として示されるように、蓄積部に対し、第1および第2の位相のサンプリング画像36φ1および36φ2からそれぞれ抽出された特徴量50aおよび50bが既に蓄積されている。そのため、認識部220は、特徴量50cを蓄積部に蓄積すると共に、特徴量50cを、蓄積されている特徴量50aおよび50bと統合する。
 認識部220は、特徴量50aおよび50bと、特徴量50cとが統合された特徴量に基づき認識処理を実行する(ステップS13)。図12Cの例では、セクション(b)にステップS13として示されるように、中距離に位置する対象物41が認識され認識結果60として得られているが、遠距離に位置する対象物42は、この時点では認識されていない。
 図12Dのセクション(a)において、前処理部210は、フレーム#4の画像データ32dの各分割領域35に対し、図12Cに示したフレーム#3の画像データ32cの各分割領域35に対して設定された画素位置に対して1画素分水平方向にずらした各画素位置を、それぞれサンプリング画素の画素位置として設定するサブサンプリングを行う(ステップS10d)。すなわち、このステップS10dで選択される各サンプリング画素は、図12CにおいてステップS10cで選択された各サンプリング画像の画素位置に対し、図中で右にそれぞれ隣接する画素位置における各画素300である。
 前処理部210は、セクション(b)に示されるように、ステップS10dでサブサンプリングされた各サンプリングにより、第4の位相のサンプリング画像36φ4を生成する。生成されたサンプリング画像36φ4は、認識部220に入力される。
 認識部220は、入力されたサンプリング画像36φ4の特徴量50dを、DNNを用いて抽出する(ステップS11)。認識部220は、ステップS11で抽出された特徴量50dを、蓄積部に格納、蓄積する(ステップS12)。この例では、セクション(b)にステップS12として示されるように、蓄積部に対し、第1~第3の位相のサンプリング画像36φ1~36φ3からそれぞれ抽出された各特徴量50a~50cが既に蓄積されている。そのため、認識部220は、特徴量50dを蓄積部に蓄積すると共に、特徴量50dを、蓄積されている特徴量50a~50cと統合する。
 認識部220は、特徴量50a~50cと、特徴量50dとが統合された特徴量に基づき認識処理を実行する(ステップS13)。図12Dの例では、セクション(b)にステップS13として示されるように、中距離に位置する対象物41が認識され認識結果60として得られ、遠距離に位置する対象物42がさらに認識され認識結果61として得られている。
 図12A~図12Dの処理により、各分割領域35に含まれる16個の画素300の画素位置全てが、サンプリング画素の画素位置として選択されたことになる。したがって、前処理部210は、1フレームに含まれる全ての画素300の画素位置を、サンプリング画素の画素位置として選択する。また、前処理部210は、各分割領域35に含まれる16個の画素300の画素位置を、1画素分ずつ位相をずらして選択するといえる。
 この、各分割領域35あるいは1フレームに対して最初にサンプリング画素の画素位置を選択した時点から、各分割領域35あるいは1フレームに含まれる全ての画素300の画素位置がサンプリング画素の画素位置として選択されるまでの期間を、1周期とする。すなわち、前処理部210は、各分割領域35の各画素位置を一定の周期で巡回して、当該分割領域35内の全ての画素位置を、サンプリング画素を取得するための画素位置として設定する。
 1周期分のサブサンプリングおよび認識処理が終了すると、次の1周期分のサブサンプリングおよび認識処理が開始される。
 すなわち、図12Eのセクション(a)において、前処理部210は、フレーム#1’の画像データ32a’の各分割領域35に対し、図12Aの例と同様にして、左上隅の画素位置を基点としたサブサンプリングを行う(ステップS10a’)。前処理部210は、セクション(b)に示されるように、ステップS10a’でサブサンプリングされた各サンプリングにより、第1の位相のサンプリング画像36φ1’を生成する。生成されたサンプリング画像36φ1’は、認識部220に入力される。
 認識部220は、入力されたサンプリング画像36φ1’の特徴量50a’を、DNNを用いて抽出する(ステップS11)。認識部220は、ステップS11で抽出された特徴量50a’を、蓄積部に格納、蓄積する(ステップS12)。この例では、セクション(b)にステップS12として示されるように、蓄積部に対し、直前の周期において第1~第4の位相のサンプリング画像36φ1~36φ4からそれぞれ抽出された各特徴量50a~50dが既に蓄積されている。そのため、認識部220は、特徴量50a’を蓄積部に蓄積すると共に、特徴量50a’を、蓄積されている特徴量50a~50dと統合する。
 これに限らず、認識部220は、サンプリング画素の画素位置選択の周期毎に蓄積部をリセットするようにしてもよい。蓄積部のリセットは、例えば、蓄積部に蓄積された1周期分の特徴量50a~50dを、蓄積部から削除することで可能である。
 また、認識部220は、蓄積部に対して、常に一定量の特徴量を蓄積するようにもできる。例えば、認識部220は、蓄積部に対して1周期分の特徴量、すなわち、4フレーム分の特徴量を蓄積する。この場合、認識部220は、新たな特徴量50a’が抽出されると、蓄積部に蓄積される特徴量50a~50dのうち、例えば最も古い特徴量50dを削除し、新たな特徴量50a’を蓄積部に格納し、蓄積する。認識部220は、特徴量50dを削除されて残った特徴量50a~50cと、新たな特徴量50a’と、を統合した蓄積量に基づき認識処理を実行する。
 認識部220は、蓄積部にすでに蓄積されている特徴量50a~50dと、新たに抽出された特徴量50a’とが統合された特徴量に基づき認識処理を実行する(ステップS13)。図12Eの例では、セクション(b)にステップS13として示されるように、中距離に位置する対象物41が認識され認識結果60として得られ、遠距離に位置する対象物42がさらに認識され認識結果61として得られている。
 ここで、サンプリング画像36は、元の画像データ32から画素を間引きした間引き画像である。図11の例では、サンプリング画像36は、画像データ32を行および列方向にそれぞれ1/2に縮小した画像データであって、画素数が元の画像データ32の1/4の縮小画像である。したがって、認識部220は、サンプリング画像36に対する認識処理を、元の画像データ32に含まれる画素300を全て用いた認識処理に対して高速に実行できる。
 また、サンプリング画像36を生成するためにサンプリング画素として設定する画素300の画素位置を、分割領域35内でフレーム毎に1画素分ずつずらして選択している。そのため、フレーム毎に1画素分ずつ位相がずれたサンプリング画像36を得ることができる。またこのとき、分割領域35に含まれる全ての画素300の画素位置が、サンプリング画素として設定する画素300の画素位置として選択されるようにする。
 このようにサンプリング画像36を生成する画素300の画素位置を選択し、各サンプリング画像36から算出された特徴量を蓄積、統合する。これにより、画像データ32に含まれる全ての画素位置の画素300を、認識処理に関与させることができ、例えば遠方の対象物も容易に認識可能にできる。
 なお、上述では、サンプリング画素を選択するための画素位置を、前処理部210が所定の規則に従い設定するように説明したが、これはこの例に限定されない。例えば、前処理部210は、認識処理部20bの外部、あるいは、当該認識処理部20bが含まれる情報処理装置1bの外部からの指示に応じて、サンプリング画素を選択するための画素位置を設定してもよい。
(1-2-1-3.各実施形態の前提技術に係るサブサンプリング処理について)
 次に、各実施形態の前提技術におけるサブサンプリング処理について、より具体的に説明する。図13Aおよび図13Bは、各実施形態の前提技術に係る認識処理におけるサブサンプリング処理について説明するための模式図である。ここでは、説明のため、図13Aのセクション(b)に示されるように、分割領域35を2画素×2画素の領域としている。各分割領域35において、左上の画素位置を原点の座標[0,0]とし、右上、左下および右下の画素位置を、それぞれ座標[1,0][0,1]および[1,1]とする。また、画素300のサンプリングは、各分割領域35において、右下の画素位置[1,1]を基点として、座標[1,1]、[1,0]、[0,1]、[0,0]の順に行うものとする。
 図13Aのセクション(a)において、図の下から上に向けて、時間の経過を表す。図13Aの例では、上述した図12A~図12Eと対応し、画像データ32aが最も新しい時間Tの画像[T]であり、以降、画像データ32b、画像データ32c、画像データ32dの順に、時間T-1、T-2、T-3と、1フレームずつ古い画像データ32による画像[T-1]、画像[T-2]、画像[T-3]となっている。
 前処理部210は、時間T-3において、画像データ32aについて、各分割領域35の座標[1,1]の画素300をサンプリング画素として選択し(ステップS10a)、認識部220は、選択されたサンプリング画素によるサンプリング画像36φ1の特徴量を抽出する(ステップS11)。認識部220は、サンプリング画像36φ1から抽出された特徴量50aを、例えばそれ以前の所定期間に抽出された特徴量と統合し(ステップS12)、統合された特徴量に基づき認識処理を行う(ステップS13)。
 ここで、例えば、上述した画像データ32aの各分割領域35におけるサブサンプリング処理(ステップS10a)により、画像データ32aを均一に間引いたサンプリング画像36φ1を得ることができる。このサンプリング画像36φ1からステップS11により抽出された特徴量50aを用いて、画像データ32aの全体に対する認識処理を実行することができる。この、画像データ32からサブサンプリングにより選択したサンプリング画素によるサンプリング画像に対する認識処理により、画像データ32に対する認識処理を完結させることが可能である。
 この、画像データ32からサンプリング画像を生成し、生成されたサンプリング画像から特徴量を抽出し、抽出された特徴量に基づき認識処理を行う一連の処理を、1単位の処理と呼ぶ。図13Aの例では、例えばステップS10aのサブサンプリング処理と、当該サブサンプリング処理により生成されるサンプリング画像36φ1に対するステップS11による特徴量抽出処理と、ステップS12による特徴量の統合処理と、ステップS13による認識処理と、が、1単位の処理に含まれる。認識部220は、この1単位の処理毎に、間引きされた画像データ32に対する認識処理を実行できる(ステップS13)。
 以降、同様にして、認識処理部20bは、フレーム周期で順次に更新される各画像データ32b、32cおよび32dについて、上述した1単位の処理をそれぞれ実行し、認識処理を実行する。このとき、ステップS12の特徴量の統合処理、および、ステップS13の認識処理は、各単位の処理において共通とすることができる。
 上述の、画像データ32a~32dそれぞれに対して1単位の処理が行われることで、各分割領域35に含まれる各画素位置に対するサンプリング画素の選択が一巡する。図13Bは、この各分割領域35に含まれる各画素位置に対するサンプリング画素の選択の一巡後の、次の1単位の処理について示している。すなわち、各画像データ32a、32b、32cおよび32dに対する1単位の処理が一巡すると、認識処理部20bに入力される次のフレームの画像データ32a’に対する1単位分の処理が実行される。
 この例では、最も古い画像データ32dに基づき抽出された特徴量50dを破棄し、新たな画像データ32a’から特徴量50a’を抽出する。すなわち、前処理部210は、画像データ32a’の各分割領域35の座標[1,1]の各画素300をサンプリング画素として選択し、サンプリング画像36φ1を生成する。認識部220は、この画像データ32a’から選択されたサンプリング画像36φ1から特徴量50a’を抽出する。認識部220は、この特徴量50a’と、直前までに抽出された特徴量50a、50bおよび50cと、を統合し、統合した特徴量に基づき認識処理を行う。この場合、認識部220は、新たに取得された画像データ32a’についてのみ、特徴量の抽出処理を行えばよい。
 このように、各実施形態の前提技術に係る認識処理は、認識処理部20bにおいて、同一の処理系において1単位分の処理を実行することで行っている。より具体的には、認識処理部20bは、1単位分の処理として、画像データ32に対するサブサンプリング処理および特徴量抽出処理による処理系をフレーム毎に繰り返し、この繰り返しにより抽出された特徴量を統合し、認識処理を行っている。
 また、認識処理部20bは、画像データ32に含まれる全画素300の画素位置を含むサブサンプリング処理を、サンプリング画素を選択する画素位置を周期的にずらしながら行っている。さらに、認識処理部20bは、ステップS11で各フレームの画像データ32から選択されたサンプリング画素によるサンプリング画像から抽出した、中間データとしての特徴量を統合して認識処理を行っている。
 このように構成された各実施形態の前提技術に係る認識処理は、1単位分の処理で完結可能な処理系とされているため、認識結果をより迅速に得ることができる。また、1単位で画像データ32の全体からサンプリング画素を選択するため、1単位の処理で広範囲の認識結果を確認できる。さらに、複数の画像データ32に基づく中間データ(特徴量)を統合するため、複数の単位に跨ることで取得される、より詳細な認識結果を取得可能である。
 すなわち、各実施形態の前提技術に係る情報処理装置1bを用いることで、認識結果の同時性の向上と、撮像画像の解像度を活用した認識結果の取得とを両立させることが可能となり、撮像画像を用いた認識処理の特性を向上させることができる。
(1-3.各実施形態に係る認識処理の基本的なアーキテクチャ)
 次に、本開示の各実施形態に係る認識処理の基本的なアーキテクチャについて説明する。図14Aは、既存技術に係る認識処理の基本的なアーキテクチャを説明するための模式図である。既存技術における認識器は、図14Aに示すように、1つの入力情報(例えば画像)に対して認識処理を実行し、基本的には、当該入力情報に対して1つの認識結果を出力する。
 図14Bは、各実施形態に係る認識処理の基本的なアーキテクチャを説明するための模式図である。各実施形態に係る認識器は、例えば図9の認識部220に対応し、図14Bに示すように、1つの入力情報(例えば画像)に対して時間軸展開により認識処理を実行し、当該認識処理に応じて複数の認識結果を出力することができる。ここで、時間軸展開による認識処理は、図10、図11、図12A~図12Eなどを用いて説明したように、分割領域35毎に画素間引きによるサブサンプリングを行い、サブサンプリングされたサンプリング画素によるサンプリング画像毎に、認識処理を実行する処理となる。
 図14Bの例では、各実施形態に係る認識器は、1つの入力情報に対して、時間軸展開での認識処理により、応答性の高い速報結果と、精度の高い統合結果と、の2つの認識結果を出力可能としている。これらのうち、速報結果は、例えば、各分割領域35において最初のサブサンプリングにより取得されたサンプリング画像に対して行った認識処理による認識結果である。一方、統合結果は、例えば、各分割領域35において、各サブサンプリングによりそれぞれ取得された各サンプリング画像から抽出された特徴量を統合した特徴量に基づき行った認識処理による認識結果である。
 図14Bに示す各実施形態に係る認識器において実行される認識処理の計算量は、図14Aに示す既存技術による認識器において実行される認識処理の計算量と略同一である。したがって、各実施形態に係る認識器によれば、より応答性の高い速報結果と、より精度の高い統合結果と、の両方の認識結果を、既存技術による認識器と略同程度の計算量により取得することが可能である。
(1-3-1.より具体的な構成)
 次に、各実施形態に係る認識処理の基本的なアーキテクチャのより具体的な構成について説明する。
(1-3-1-1.第1の例)
 図15は、各実施形態に係る認識処理の基本的なアーキテクチャにおける読み出しおよび認識処理の、第1の例を示す一例のタイムチャートである。なお、この図15および後述する図16では、図11のセクション(b)にて説明した、4画素×4画素のサイズの分割領域35において、1画素おきにサンプリング画素を選択するものとしている。この場合、各分割領域35は、4回のサブサンプリングにより全ての画素位置が選択され、1フレームの画像データ32が第1~第4の位相の4つのサンプリング画像36φ1~36φ4に分割されることになる。
 この第1の例では、サブサンプリングによる第1~第4の位相のサンプリング画像36φ1~36φ4を、時系列で連なる複数のフレームの画像データ32それぞれから抽出する例である。すなわち、この第1の例では、第1~第4の位相のサンプリング画像36φ1~36φ4を、時系列で連なる複数のフレームの画像データ32を跨いで抽出する。この第1の例による認識処理は、複数フレーム間で行われる認識処理であり、適宜、インターフレーム(inter-frame)処理と呼ぶ。
 図15において、撮像周期はフレーム周期であって、例えば50[ms](20[fps(frame per second)])である。また、ここでは、画素アレイ部1001に行列状の配列で配置される画素回路1000からの読み出しを、ローリングシャッタ方式によりライン順次で行う。ここで、図15において、右方向に時間の経過を表し、上から下に向けてライン位置を表す。
 例えばフレーム#1の撮像処理において、各ラインで所定時間の露光が行われ、露光の終了後、各画素回路1000から画素信号が垂直信号線VSLを介してAD変換部1003へ転送され、AD変換部1003において、各AD変換器1007により、転送されたアナログ方式の画素信号がデジタル信号である画素データに変換される。全てのラインについて、画素信号の画素データへの変換が行われると、フレーム#1の画素データによる画像データ32aが前処理部210に入力される。
 前処理部210は、入力された画像データ32aに対して上述したようなサブサンプリング処理(図中「SS」として示す)により、第1の位相φ1のサブサンプリングを施す。前処理部210は、第1の位相φ1のサブサンプリングにより、分割領域35毎に選択されたサンプリング画素の画素位置から画素300を取得し、サンプリング画像36φ1を生成する(ステップS10a)。
 前処理部210は、サンプリング画像36φ1を認識部220に渡す。このとき前処理部210から認識部220に渡されるサンプリング画像36φ1は、サブサンプリング処理により間引きされ画像データ32aに対して画素数が削減された画像である。認識部220は、このサンプリング画像36φ1に対して、認識処理を実行する。ここでは、認識処理として、特徴量抽出処理(ステップS11)、特徴量統合処理(ステップS12)および認識処理(ステップS13)を含んでいるものとして示している。サンプリング画像36φ1に基づく認識結果φ1は、認識処理部20bの外部に出力される。
 これらステップS11~ステップS13の処理は、1フレームの期間内に行われる。ここで、処理対象となるサンプリング画像36φ1は、サブサンプリング処理により間引きされ画像データ32aに対して画素数が削減された画像である。そのため、画像データ32aに対して実行される処理量は、間引きがされない1フレーム分の画像データ32に対して実行される処理量よりも少なくなる。図15の例では、画像データ32aに基づくサンプリング画像36φ1に対するステップS11~ステップS13の処理が、1フレーム期間の略1/4の期間で完了している。
 上述のフレーム#1に対する処理と並行して、次のフレーム#2に対する処理が実行される。フレーム#2の画素データからなる画像データ32bが前処理部210に入力される。前処理部210は、入力された画像データ32bに対して、画像データ32aとは異なる第2の位相φ2でサブサンプリング処理を施して、サンプリング画像36φ2を生成する。
 前処理部210は、サブサンプリングにより画像データ32bより画素数が削減されたサンプリング画像36φ2を認識部220に渡す。認識部220は、このサンプリング画像36φ2に対して、1フレームの期間内に認識処理を実行する。この場合においても、上述と同様に、当該認識処理が1フレーム期間の略1/4の期間で完了している。
 このとき、認識部220は、サンプリング画像36φ2から抽出した特徴量50bと、画像データ32aに対する特徴量抽出処理により抽出された特徴量50aとを、ステップS12で特徴量統合処理により統合する。認識部220は、この統合された特徴量を用いて、認識処理を実行する。この認識処理による認識結果φ2は、認識処理部20bの外部に出力される。
 以降、同様にして、前処理部210は、次のフレーム#3の画像データ32cについて、直前のフレーム#2の画像データ32bに対する処理と並行して、第3の位相φ3によるサブサンプリング処理を実行し、認識部220は、サブサンプリング処理により生成されたサンプリング画像36φ3から特徴量50cを抽出する。認識部220は、画像データ32aおよび32bそれぞれから抽出された特徴量50aおよび50bが統合された特徴量と、抽出した特徴量50cと、をさらに統合し、統合された特徴量に基づき認識処理を実行する。認識部220は、この認識処理により得られた認識結果φ3を、外部に出力する。この場合においても、上述と同様に、当該認識処理が1フレーム期間の略1/4の期間で完了している。
 認識処理部20bは、次のフレーム#4の画像データ32dについても、同様にして、直前のフレーム#3の画像データ32cに対する処理と並行して、第4の位相φ4によるサブサンプリング処理、特徴量抽出処理を行い、特徴量50dを取得する。認識処理部20bは、認識部220により、画像データ32a~32cそれぞれから抽出された特徴量50a~50cが統合された特徴量と、抽出した特徴量50dと、をさらに統合し、統合された特徴量に基づき認識処理を実行する。認識部220は、この認識処理により得られた認識結果φ4を、外部に出力する。この場合においても、上述と同様に、当該認識処理が1フレーム期間の略1/4の期間で完了している。
 ここで、図15において、垂直方向の矢印、すなわち、各画像データ32a~32d、各ステップS10a~ステップS10dから各認識処理、および、各認識処理による各認識結果φ1~φ4の出力を示す矢印は、その太さが情報量を概略的に示している。
 より具体的には、図15の例では、ステップS10a~ステップS10dの処理のために前処理部210に入力される各画像データ32a~32dのデータ量に対して、前処理部210からステップS10a~ステップS10dの処理によりサブサンプリングされて認識部220に渡されるサンプリング画像36φ1~φ4の方がデータ量が少ない。
 一方、各画像データ32a~32dに基づく認識処理による各認識結果φ1~φ4の情報量は、認識処理を重ねる毎に多くなり、得られる認識結果が、認識処理毎により詳細となっていくことを示している。これは、認識処理毎に、直前までにサンプリング画像の位相をずらしつつ取得した特徴量と、直前のサンプリング画像に対してさらに位相をずらして新たに取得された特徴量と、を統合した特徴量を用いているためである。
(1-3-1-2.第2の例)
 図16は、各実施形態に係る認識処理の基本的なアーキテクチャにおける読み出しおよび認識処理の、第2の例を示す一例のタイムチャートである。この第2の例では、サブサンプリングによる第1~第4の位相のサンプリング画像36φ1~36φ4を、1フレームの画像データ32からそれぞれ抽出する例である。すなわち、この第2の例では、第1~第4の位相のサンプリング画像36φ1~36φ4による認識処理が1フレームで完結するもので、以下、適宜、イントラフレーム(intra-frame)処理と呼ぶ。
 図16における各部の意味は、上述した図15と同様であるので、ここでの詳細な説明を省略する。
 例えばフレーム#1の撮像処理において、各ラインで所定時間の露光が行われ、露光の終了後、各画素回路1000から画素信号が垂直信号線VSLを介してAD変換部1003へ転送され、AD変換部1003において、各AD変換器1007により、転送されたアナログ方式の画素信号がデジタル信号である画素データに変換される。全てのラインについて、画素信号の画素データへの変換が行われると、フレーム#1の画素データによる画像データ32aが前処理部210に入力される。
 前処理部210は、例えば図16において最初の1フレームの画像データ32aに対して上述したような第1の位相φ1のサブサンプリングを施し、分割領域35毎に選択されたサンプリング画素の画素位置から画素300を取得し、第1の位相φ1によるサンプリング画像36φ1を生成する(ステップS10a)。
 前処理部210は、当該画像データ32aに対する第1の位相φ1のサブサンプリングが終了すると、当該画像データ32bに対する第2の位相φ2のサブサンプリングを実行する。前処理部210は、この第2の位相φ2のサブサンプリングにより取得された各サンプリング画素により第2の位相φ2によるサンプリング画像36φ2を生成する(ステップS10b)。以降、前処理部210は、当該画像データ32aに対する位相の異なるサブサンプリング(第3の位相φ3のサブサンプリング、第4の位相φ4のサブサンプリング)をそれぞれ実行し、第3の位相φ3によるサンプリング画像36φ3、および、第4の位相φ4によるサンプリング画像36φ4をそれぞれ生成する(ステップS10c、ステップS10d)。
 このように、前処理部210は、これら第1~第4の位相φ1~φ4によるサブサンプリングを、1フレームの画像データ32aに対して、1フレーム期間内にそれぞれ実行する。
 認識部220は、前処理部210により画像データ32aに基づき生成した第1の位相φ1のサンプリング画像36φ1に対して特徴量抽出処理を実行し(ステップS11a)、特徴量を抽出する。認識部220は、統合可能な特徴量が蓄積されている場合、ステップS11aで抽出した特徴量を、蓄積された統合可能な特徴量と統合することができる(ステップS12a)。認識部220は、例えばステップS12aで統合された特徴量に基づき認識処理を実行し(ステップS13a)、第1の位相による認識結果φ1を出力する。
 認識部220は、前処理部210により画像データ32aに基づき生成した第2の位相φ2のサンプリング画像36φ2に対して特徴量抽出処理を実行し(ステップS11b)、特徴量を抽出する。認識部220は、統合可能な特徴量が蓄積されている場合、ステップS11bで抽出した特徴量を、蓄積された統合可能な特徴量と統合することができる(ステップS12b)。この例では、例えば、当該ステップS11bで抽出した特徴量と、上述したステップS11aで抽出した特徴量とを統合することができる、認識部220は、統合された特徴量に対して認識処理を行い(ステップS13b)、第2の位相φ2による認識結果φ2を出力する。
 以降、同様にして、認識部220は、前処理部210により画像データ32aに基づき生成した第3および第4の位相φ3およびφ4のサンプリング画像36φ3および36φ4に対して特徴量抽出処理を実行し(ステップS11c、ステップS11d)、特徴量を抽出する。認識部220は、ステップS11cおよびステップS11dにより抽出された各特徴量を、それぞれ直前の統合処理までにおいて統合された特徴量と順次に統合する(ステップS12c、ステップS12d)。認識部220は、例えば各位相φ3およびφ4において統合された各特徴量に基づき認識処理を実行し、各位相φ3およびφ4の認識結果φ3およびφ4をそれぞれ出力する。
 図16の例では、上述した各位相φ1~φ4における各特徴量抽出処理(ステップS11a~ステップS11d)と、各統合処理(ステップS12a~ステップS12d)と、各認識処理(ステップS13a~ステップS13d)と、を1フレームの期間内に実行している。すなわち、認識部220は、1フレームの画像データ32aをサブサンプリング処理により画素を間引いた各サンプリング画像36φ1~36φ4に対して認識処理を行う。そのため、認識部220におけるそれぞれの認識処理の計算量が少なくて済み、各認識処理を短時間で実行することが可能である。
 図17は、上述した第2の例による処理(イントラフレーム処理)による効果を説明するための模式図である。図17Aは、上述した第2の例による処理と、既存技術による処理とを比較する一例のタイムチャートであり、右方向に向けて時間の経過を表している。図17Aにおいて、セクション(a)は、既存技術による読み出しおよび認識処理の例を示す。また、セクション(b)は、上述した第2の例による読み出しおよび認識処理の例を示す。
 セクション(a)および(b)において、時間t0~t1の期間に撮像処理が実行される。撮像処理は、画素アレイ部1001における所定時間の露光と、露光に応じて光電変換素子により生成された電荷に基づく各画素データの転送処理と、を含む。撮像処理により画素アレイ部1001から転送された各画素データは、例えば1フレーム分の画像データとしてフレームメモリに記憶される。
 セクション(a)および(b)において、例えば時間t1からフレームメモリに記憶された画像データの読み出しが開始される。ここで、セクション(a)の既存技術による処理では、1フレーム分の画像データの読み出しが終了(時間t4)した後に、当該1フレーム分の画像データに対する認識処理が開始される。ここでは、説明のため、この認識処理は、時間t4から1フレーム期間が経過した時間t6で終了するものとする。
 一方、セクション(b)の第2の例による処理では、セクション(a)の例と同様に、時間t1の後にフレームメモリからの画像データの読み出しが開始される。ここで、第2の例では、第1の位相φ1のサブサンプリングによるサンプリング画像36φ1の読み出しが、例えば1フレーム期間の1/4の時間である時間t1~t2の期間に実行され、同様に、当該サンプリング画像36φ1に対する認識処理が、例えば1フレーム期間の1/4の時間である時間t2~t3の期間に実行され、認識結果φ1が出力される。
 第2の例による処理では、以降、同様にして、第2~第4の位相φ2~φ4のサブサンプリングによるサンプリング画像36φ2~36φ4の読み出しが、それぞれ例えば1フレーム期間の1/4の時間である時間t2~t3、…に実行され、例えば時間t4において終了される。
 サンプリング画像36φ2に対する認識処理が時間t2に開始され、例えば1フレーム期間の1/4の時間を経過した時間t3に終了され、認識結果φ2が出力される。他のサンプリング画像36φ3、36φ4に対する認識処理も、直前のサンプリング画像に対する認識処理に続けて実行され、例えばそれぞれ1フレーム期間の1/4の時間で終了され、それぞれ認識結果φ3およびφ4が出力される。図17Aの例では、1フレームの画像データ32における最後のサブサンプリングによるサンプリング画像36φ4に対する認識処理が、時間t5で終了している。
 図17Bは、第2の例による各認識結果を模式的に示す図である。図17Bにおいて、上段、中段および下段は、それぞれ第1の位相φ1、第2の位相φ2および第4の位相φ4に対する認識処理による各認識結果φ1、φ2およびφ4の例を、それぞれ示している。
 また、図17Bの上段、中段および下段の各図において、認識対象が人であって、センサ部10b(情報処理装置1b)からそれぞれ異なる距離にいる3人の画像が1フレームに含まれている場合を示している。図17Bの上段、中段および下段の各図において、フレーム95に対して、それぞれ人の画像であって、大きさの異なる3つのオブジェクト96L、96Mおよび96Sが含まれている。これらのうち、オブジェクト96Lが最も大きく、フレーム95に含まれる3人のうち、当該オブジェクト96Lに対応する人が当該センサ部10bの最も近距離にいることになる。また、オブジェクト96L、96Mおよび96Sのうち最も小さいオブジェクト96Sは、フレーム95に含まれる3人のうち、当該オブジェクト96Sに対応する人が当該センサ部10bに対して最も遠距離にいる人を表している。
 図17Bにおいて、認識結果φ1は、上述したサンプリング画像36φ1に対して認識処理を実行し、最も大きなオブジェクト96Lが認識された例である。認識結果φ2は、認識結果φ1における特徴量に対して、さらにサンプリング画像36φ2から抽出された特徴量が統合され、次に大きなオブジェクト96Mが認識された例である。また、認識結果φ4は、サンプリング画像36φ4から抽出された特徴量と、サンプリング画像36φ2から抽出された特徴量と、次のサンプリング画像36φから抽出された特徴量と、が統合され、オブジェクト96Lおよび96Mに加え、最も小さなオブジェクト96Sが認識された様子が示されている。
 このように、1フレームの画像データ32から、各サンプリング画像36φ1、36φ2、…の特徴量を抽出し、抽出した特徴量を蓄積および統合していくことで、順次、より遠方にいる人を認識できるようになる。このとき、認識結果φ1として示されるように、最初のサブサンプリングによるサンプリング画像36φ1に基づく認識処理により、最も大きなオブジェクト96Lが認識されている。
 このように、第2の例では、フレームに対する最初のサブサンプリングによるサンプリング画像36φ1に基づき、概略的な認識結果φ1を得ることができる。認識結果φ1は、図17Aにおいては時間t3に出力が可能とされ、図中に矢印Bにより示されるように、既存技術により認識結果が出力される時間t6に対して低レイテンシ化が実現できる。
 この第2の例による、フレームに対する最初のサブサンプリングによるサンプリング画像36φ1に基づく認識結果φ1が、速報結果となる。この速報結果は、上述した第1の例にも適用可能である。
 また、第2の例では、フレームに対する最後のサブサンプリングにおける認識処理は、当該フレームにおける各サンプリング画像36φ1~36φ4から抽出された各特徴量を統合した特徴量に基づき行われるため、より高精度の認識結果φ4を得ることができる。この認識結果φ4は、例えば既存技術による認識処理と同等の精度を実現可能である。また、この最後のサブサンプリングは、既存技術により読み出し処理が終了する時間t4に対して例えば1/4フレーム期間分が経過した時間t5に終了する。このように、第2の例では、既存技術と同等の精度を、図中に矢印Aで示されるように既存技術による認識処理に対してより短時間で取得することが可能となり、低レイテンシ化を図ることができる。
 この第2の例による、フレームに対する最後のサブサンプリングによるサンプリング画像36φ4、および、当該サンプリング画像36φ4より以前に取得された各サンプリング画像36φ1~36φ3からそれぞれ抽出された特徴量を統合した特徴量に基づく認識結果φ4が、統合結果となる。この統合結果は、上述した第1の例にも適用可能である。
 以下では、特に記載の無い場合、画像データ32からのサブサンプリングによる読み出しおよび認識処理に関して、上述した第1の例および第2の例のうち、第2の例を適用するものとして説明を行う。
[2.第1の実施形態]
(2-1.第1の実施形態の概要)
 次に、本開示の第1の実施形態について説明する。本開示の第1の実施形態では、1フレームの画像データ32の分割数、あるいは、当該画像データ32からサンプリング画素を読み出す際の読み出し方法を、所定の条件に応じて切り替える。例えば、第1の実施形態では、所定の条件に応じて、それぞれ画像データ32の分割数が異なる第1の認識器、第2の認識器および第3の認識機を切り替える。
 第1の認識器は、例えば画像データ32を分割せず(分割数=0)に認識処理を行う認識機である。これは、例えば既存技術に係る認識機を適用することができる。第2の認識器は、画像データ32を第1の分割数(例えば4分割)で分割し、分割された各分割領域35に基づき認識処理を行う認識機である。また、第3の認識機は、画像データ32を、第1の分割数とことなる第2の分割数(例えば16分割)で分割し、分割された各分割領域35’に基づき認識処理を行う認識器である。
 図18は、第1の実施形態に係る第2の認識器の一例の構成を概略的に示す図である。図18において、左端は、1フレームの画像データ32を、第1の位相φ1~第4の位相φ4の4つの位相の画素300φ1、300φ2、300φ3および300φ4に従い4分割した様子を示している。第1~第4の位相φ1~φ4によるサブサンプリング処理(ステップS11a~ステップS11d)により、各位相のサンプリング画像36φ1~36φ4が生成される。
 ここでは、各位相のサンプリング画像36φ1~36φ4は、第1の位相φ1、第2の位相φ2、第3の位相φ3、第4の位相φ4の順に生成されるものとする。
 また、画像データ32の分割方法は、上述した4画素×4画素のサイズを持つ分割領域35による4分割(=2×2)に限定されない。例えば、分割領域35のサイズを8画素×8画素としても良いし(この場合には、4×4の16分割となる)、分割領域35をさらに他のサイズとしても良い。さらには、分割領域35は、正方形でなくてもよく、また、矩形にも限られない。
 さらにまた、画像データ32の全体、または、所定に設定された分割領域35の任意の画素位置を選択し、選択された画素位置の画素300をサンプリング画素としてもよい。ここで、任意に選択した複数の画素位置は、例えば、離散的および非周期的な複数の画素位置を含む。例えば、前処理部210は、疑似乱数を用いて、当該複数の画素位置を選択することができる。また、選択される画素位置は、フレーム毎に異ならせることが好ましいが、一部の画素位置がフレーム間で重複してもよい。
 各位相のサンプリング画像36φ1~36φ4に対して、それぞれ特徴量抽出処理がなされる(ステップS11a~ステップS11d)。ステップS11aにより最初に抽出されるサンプリング画像36φ1の特徴量が、ステップS12aにより、既に蓄積されている特徴量と統合される。図18の例では、当該サンプリング画像36φ1から抽出される特徴量に対して、そのまま認識処理を行うように示している(ステップS13a)。このステップS13aによる認識処理の認識結果は、速報結果として出力される。
 次にステップS11bにより抽出されたサンプリング画像36φ2の特徴量が、ステップS12bにより、ステップS11aでサンプリング画像36φ1から抽出された特徴量と統合される。次にステップS11cにより抽出されたサンプリング画像36φ3の特徴量が、ステップS12cにより、ステップS12bで統合された特徴量に対してさらに統合される。すなわち、ステップS12cでは、サンプリング画像36φ1、36φ2および36φ3からそれぞれ抽出された特徴量が統合される。
 次にステップS11dにより抽出されたサンプリング画像36φ4の特徴量が、ステップS12dにより、ステップS12cで統合された特徴量に対して更に統合される。すなわち、ステップS12dでは、サンプリング画像36φ1、36φ2、36φ3および36φ4からそれぞれ抽出された特徴量が統合される。この統合された特徴量に対して、ステップS13dで認識処理が行われる。このステップS13dによる認識処理の認識結果は、統合結果として出力される。
 なお、上述では、サンプリング画像36φ1に基づく認識処理(ステップS13a)の認識結果を速報結果として出力しているが、これはこの例に限定されない。上述した統合結果を除外した認識結果、例えば、サンプリング画像36φ1および36φ2からそれぞれ抽出された特徴量が統合された特徴量に基づく認識処理の認識結果や、サンプリング画像36φ1~36φ3からそれぞれ抽出された特徴量に基づく認識結果を、速報結果として用いてもよい。
 図19は、第1の実施形態に係る認識器の切り替え処理を説明するための模式図である。図19において、左側のセクション(a)は、1フレームの画像データ32を分割せずに特徴量抽出(ステップS11)、認識処理(ステップS13)を実行する第1の認識器の例を示している。この例は、画像データ32の分割数が0の場合の例となる。
 中央のセクション(b)は、上述した図18と対応するもので、画像データ32を4分割する第2の認識器の例を示している。図20Aは、画像データ32を第1~第4の位相φ1~φ4により分割する例を示している。4画素×4画素のサイズを持つ分割領域35に対し、各第1~第4の位相φ1~φ4において、画素300φ1、300φ2、300φ3および300φ4をそれぞれ例えば基点として、サブサンプリングにより1画素おきに間引きを行う。これにより、位相をずらした4個のサンプリング画像36φ1~36φ4を生成して、画像データ32を時間軸展開により4分割する。
 図19のセクション(b)を参照し、第2の認識器は、分割されたそれぞれの分割領域35に対して第1~第4の位相φ1~φ4毎に、特徴量抽出(ステップS11a~ステップS11d)、特徴量統合(ステップS12a~ステップS12d)を行う。また、第1の位相φ1のサンプリング画像36φ1からステップS11aにより抽出した特徴量に基づき、ステップS13aで認識処理を行い速報結果を出力する。さらに、第4の位相φ4のサンプリング画像36φ4からステップS11dにより抽出された特徴量と、第1~第3の位相φ1~φ3の各サンプリング画像36φ1~36φ3からそれぞれ抽出された特徴量とを統合した(ステップS12b~ステップS12d)特徴量に基づきステップS13dで認識処理を行い、統合結果を出力する。
 左側のセクション(c)は、画像データ32を16分割する第3の認識器の例を示している。図20Bは、画像データ32を第1~第16の位相φ1~φ16により分割する例を示している。8画素×8画素のサイズを持つ分割領域35’に対し、各第1~第16の位相φ1~φ16において、画素300φ1、300φ2、300φ3、300φ4、300φ5、…、300φ9、…、300φ13、…、300φ16をそれぞれ例えば基点として、サブサンプリングにより3画素おきに間引きを行う。これにより、位相をずらした16個のサンプリング画像36φ01~36φ16を生成して、画像データ32を時間軸展開により16分割する。
 図19のセクション(c)を参照し、第3の認識器は、分割されたそれぞれの分割領域35’に対して第1~第16の位相φ1~φ16毎に、特徴量抽出(ステップS1101~ステップS1116)、特徴量統合(ステップS12として纏めて示す)を行う。また、第1の位相φ1のサンプリング画像36φ01からステップS1101により抽出した特徴量に基づき、ステップS1301で認識処理を行い、速報結果を出力する。さらに、第16の位相φ16のサンプリング画像36φ16からステップS1116により抽出された特徴量と、第1~第15の位相φ1~φ15の各サンプリング画像36φ01~36φ15からそれぞれ抽出された特徴量とをステップS12で統合した特徴量に基づきステップS1316で認識処理を行い、統合結果を出力する。
 ここで、第2の認識器および第3の認識器が出力する統合結果は、第1の認識器による認識結果と略同一のものとなる。この場合、図17Aを用いて説明したように、第2の認識器および第3の認識器は、統合結果を、第1の認識器による認識結果に対して低いレイテンシで出力することができる。また、第3の認識器は、第2の認識器よりも間引き間隔が広いため、第2の認識器と比較してより低いレイテンシで速報結果を出力することができる。一方、第2の認識器は、第3の認識器と比較して、より精度が高い速報結果を出力することができる。したがって、第1の認識器、第2の認識器および第3の認識器は、その用途や目的に応じて切り替えて用いることが好ましい。
 より具体的には、1フレームの画像データ32をサブサンプリングにより複数のサンプリング画像36φ1、36φ2、…に分割する場合に、対象物が置かれる環境条件や、優先したい対象物に応じて、効果的な認識処理に適した分割数が異なる。また、効果的な認識処理に適した分割数は、必要とされる認識処理の速報性によっても異なる。そのため、認識処理を実行する際の状況に応じて分割数を変更することが好ましい。
 一方で、画像データ32に対するサブサンプリングによる分割数を変更した場合、効果的に動作するDNNなどネットワークのパラメータや、特徴量を結合するための結合箇所が異なってくる。
 そこで、本開示の第1の実施形態では、認識器における画像データ32に対するサブサンプリングによる分割数を、所定の条件に応じて変更する。さらに、当該分割数に応じて、認識器や、認識器に適用するパラメータを変更する。これにより、認識処理を実行する際の状況に応じて最適な認識システムを提供することが可能となる。
 すなわち、分割数を変更した場合に、変更された分割数に応じてネットワークのパラメータを変更する。これにより、認識処理に係る性能の劣化を防いだ上で、分割数の変更を柔軟に行うことが可能となる。柔軟な分割数の変更が可能となると、認識結果を状況に応じた適切なタイミングで取得することが可能となる。
 例えば、図19のセクション(c)に示した分割数を16とした認識器3では、例えばセクション(a)に示した分割していない(分割数が0の)第1の認識器のパラメータを適用するよりも、16分割の構造に基づき学習させたパラメータを適用した方が、認識処理の性能を向上させることができる。
(2-2.第1の実施形態に係るより具体的な構成例)
 次に、第1の実施形態に係るより具体的な構成例について説明する。図21Aは、第1の実施形態に係る前処理部210のより詳細な機能を説明するための一例の機能ブロック図である。図21Aにおいて、前処理部210は、利用領域取得部211と、パターン決定部212と、パターン取得部213と、設定演算部214と、パラメータ記憶部230と、を含む。なお、パラメータ記憶部230は、メモリと、当該メモリに対する読み書きを制御するためのメモリ制御部と、を含む。
 これら利用領域取得部211、パターン決定部212、パターン取得部213、設定演算部214およびパラメータ記憶部230(メモリ制御部)は、例えばCPU1205上で動作する情報処理プログラムにより実現される。この情報処理プログラムは、ROM1206に予め記憶させておくことができる。これに限らず、情報処理プログラムは、インタフェース1204を介して外部から供給し、ROM1206に書き込むこともできる。
 さらに、利用領域取得部211、パターン決定部212、パターン取得部213、設定演算部214およびパラメータ記憶部230(メモリ制御部)は、情報処理プログラムに従い、CPU1205およびDSP1203がそれぞれ動作することで実現されてもよい。さらにまた、利用領域取得部211、パターン決定部212、パターン取得部213、設定演算部214およびパラメータ記憶部230(メモリ制御部)の一部または全部を、互いに協働して動作するハードウェア回路により構成してもよい。
 前処理部210において、利用領域取得部211は、センサ部10bから画像データ32を読み出す読出部を含む。利用領域取得部211は、読出部によりセンサ部10bから読み出された画像データ32に対して、後述するパターン決定部212から渡されるパターン情報に従いサブサンプリング処理を施し、サンプリング画素を抽出し、抽出したサンプリング画素により位相φxのサンプリング画像36φxを生成する。すなわち、利用領域取得部211とパターン決定部212とにより、サンプリング画像を生成する生成部の機能が実現される。
 利用領域取得部211は、生成したサンプリング画像36φxを認識部220に渡す。なお、利用領域取得部211は、センサ部10bに対して、読み出しを行うラインなどを指定する読出制御を行うことができる。
 図21Bは、第1の実施形態に係る認識部220のより詳細な機能を説明するための一例の機能ブロック図である。図21Bにおいて、認識部220は、特徴量算出部221と、特徴量蓄積制御部222と、特徴量蓄積部223と、認識処理実行部224と、を含む。
 これら特徴量算出部221、特徴量蓄積制御部222、特徴量蓄積部223および認識処理実行部224は、例えばCPU1205上で動作する情報処理プログラムにより実現される。この情報処理プログラムは、ROM1206に予め記憶させておくことができる。これに限らず、情報処理プログラムは、インタフェース1204を介して外部から供給し、ROM1206に書き込むこともできる。
 さらに、特徴量算出部221、特徴量蓄積制御部222、特徴量蓄積部223および認識処理実行部224は、情報処理プログラムに従い、CPU1205およびDSP1203がそれぞれ動作することで実現されてもよい。さらにまた、特徴量算出部221、特徴量蓄積制御部222、特徴量蓄積部223および認識処理実行部224の一部または全部を、互いに協働して動作するハードウェア回路により構成してもよい。
 認識部220において、特徴量算出部221、特徴量蓄積制御部222、特徴量蓄積部223および認識処理実行部224は、画像データに基づき認識処理を実行する認識器を構成する。認識部220は、後述するパラメータ記憶部230から渡される認識器情報に応じて、認識器の構成を変更することができる。一例として、認識部220は、当該認識器情報に応じて、図19を用いて説明した第1の認識器、第2の認識器および第3の認識器の何れかを適用することができる。
 認識部220において、利用領域取得部211から渡されたサンプリング画像36φxは、特徴量算出部221に入力される。特徴量算出部221は、それぞれ特徴量の演算を行うための1以上の特徴演算部を含み、渡されたサンプリング画像36φxに基づき特徴量を算出する。すなわち、特徴量算出部221は、サンプリング画素により構成されるサンプリング画像36φxの特徴量を算出する算出部として機能する。これに限らず、特徴量算出部221は、例えばセンサ部10bから露出やアナログゲインを設定するための情報を取得し、取得したこれらの情報をさらに用いて特徴量を算出してもよい。特徴量算出部221は、算出した特徴量を、特徴量蓄積制御部222に渡す。
 特徴量蓄積制御部222は、特徴量算出部221から渡された特徴量を、特徴量蓄積部223に蓄積する。このとき、特徴量蓄積制御部222は、既に特徴量蓄積部223に蓄積された過去の特徴量と、特徴量算出部221から渡された特徴量とを統合し、統合された特徴量を生成することができる。すなわち、特徴量蓄積制御部222は、特徴量を統合する特徴量統合部として機能する。また、特徴量蓄積制御部222は、特徴量蓄積部223が例えば初期化され特徴量が存在しない場合、特徴量算出部221から渡された特徴量を、最初の特徴量として、特徴量蓄積部223に蓄積する。
 また、特徴量蓄積制御部222は、特徴量蓄積部223に蓄積された特徴量のうち、不要になった特徴量を削除することができる。不要になった特徴量は、例えば前フレームに係る特徴量や、新たな特徴量が算出されたフレーム画像とは異なるシーンのフレーム画像に基づき算出され既に蓄積された特徴量などである。これに限らず、特徴量蓄積制御部222は、外部からの指示に応じて削除する特徴量を特定することもできる。また、特徴量蓄積制御部222は、特徴量蓄積部223に蓄積された全ての特徴量を、必要に応じて削除して初期化することもできる。
 特徴量蓄積制御222は、特徴量算出部221から特徴量蓄積制御部222に渡された特徴量、あるいは、特徴量蓄積部223に蓄積された特徴量と、特徴量算出部221から渡された特徴量とを統合した特徴量を、認識処理実行部224に渡す。
 認識処理実行部224は、特徴量蓄積制御部222から渡された特徴量に基づき物体検出、人検出、顔検出などを行う認識処理を実行する。例えば、認識処理実行部224は、当該特徴量が特徴量算出部221から特徴量蓄積制御部222に渡された特徴量、すなわち、他の特徴量と統合されていない特徴量である場合、認識処理の結果として速報結果を出力する。また例えば、認識処理実行部224は、当該特徴量が1フレームの画像データ32から生成される全てのサンプリング画像36φxに基づく全ての特徴量が統合されたものである場合、認識処理の結果として統合結果を出力する。
 ここで、認識部220は、後述するパラメータ記憶部230から渡される認識器情報に応じて、適用される認識器が変更される。また、認識部220において特徴量算出部221、特徴量蓄積制御部222および認識処理実行部225は、パラメータ記憶部230から渡されるパラメータに応じて、内部状態が変更される。
 説明を図21Aに戻し、パターン決定部212は、指定された設定値、あるいは、動的に設定されたパターンに従い、利用領域取得部211がサブサンプリング処理を行うためのパターン情報を生成する。パターン決定部212は、生成したパターン情報を利用領域取得部211に渡す。パターン情報は、一例として、画像データ32に対する分割数を適用することができ、図19の例では、分割数=0、4および16の何れかが用いられる。
 より詳細には、パターン決定部212は、所定の条件に従いパターン情報を生成する。パターン決定部212は、生成したパターン情報を、利用領域取得部211と、パターン取得部213とに渡す。
 ここで、パターン決定部212は、所定の条件として、設計者により予め設定された設定値や、ユーザにより指定された設定値を適用することができる。また、パターン決定部212は、所定の条件として、認識器に係る環境を適用することができる。認識器に係る環境は、例えば、認識器が認識を行う対象物が置かれる環境や、認識器自体に係る環境である。認識器に係る環境の例としては、当該認識器を含む情報処理装置1bが用いられる国や地域が考えられる。また、当該環境の例として、当該認識器を含む情報処理装置1bが設置または搭載される対象や、設置または搭載位置が考えられる。
 一例として、当該情報処理装置1bが車載用途で用いられる場合、パターン決定部212は、当該情報処理装置1bが搭載される車両が運行される国や地域を条件として、パターン情報を生成する。この場合、当該車両あるいは情報処理装置1b自身にGNSS(Global Navigation Satellite System)やSLAM(Simultaneous Localization and Mapping)といった自己位置取得手段を設け、この自己位置取得手段により取得され当該車両の位置に基づきマップ情報を参照することで、国や地域を特定できる。この場合、地域は、日本の場合、県など広範な地域や、市街地内の特定地域(商店街、スクールゾーンなど)を含む。
 また例えば、パターン決定部212は、当該情報処理装置1bが搭載される車両の種類(大型車、小型車、自動二輪車など)や、当該車両内において当該情報処理装置1bが搭載される位置(車両の前面/側面/後面、車両の内部/外部など)を条件として、パターン情報を生成する。
 さらに例えば、当該情報処理装置1bの認識の対象物が存在する場所の環境(明るさ、天候など)をセンサや通信により取得し、パターン決定部212は、この取得された環境を条件として、パターン情報を生成することができる。
 パターン取得部213は、パターン決定部212からパターン情報が渡されると共に、利用領域取得部211から、サンプリング画像36φxが渡される。パターン取得部213は、これらパターン情報とサンプリング画像36φxとに基づき、渡されたサンプリング画像36φxのパターンに関する情報を取得する。例えば、パターン取得部213は、当該サンプリング画像36φxがサブサンプリングされた分割数と、その位相φxを示す情報を、パターンに関する情報として取得する。パターン取得部213は、取得したパターンに関する情報を、設定演算部214に渡す。
 設定演算部214は、パターン取得部213から渡されたパターンに関する情報に基づき演算を行い、認識部220に適用する、最適な認識器およびパラメータを求める。設定演算部214は、求めた認識器およびパラメータを認識部220に渡すように、パラメータ記憶部230に指示する。
 パラメータ記憶部230は、パターンに応じて学習された認識器と、パラメータとが予め記憶される。図19を参照し、パラメータ記憶部230は、例えば、第1の認識器、第2の認識器および第3の認識器それぞれについて、入力画像と正解データとに基づき予め学習がなされた結果の各パラメータが記憶される。このとき、例えば第2の認識器および第3の認識器については、各位相φxのサンプリング画像36φxそれぞれと、当該サンプリング画像36φxそれぞれに対応する各正解データとに基づき予め学習がなされた各パラメータが記憶される。
 パラメータ記憶部230は、設定演算部214の指示に応じて、予め記憶されたパラメータと認識器を示す情報とを認識部220に渡す。
 図22は、第1の実施形態に係る認識処理を示す一例のフローチャートである。ステップS100で、パターン決定部212は、サブサンプリングを行うパターンを、予め入力された設定値、あるいは、動的に設定されたパターンに従い決定する。パターン決定部212は、決定したパターンを示すパターン情報を利用領域取得部211およびパターン取得部213に渡す。
 次のステップS101で、利用領域取得部211は、センサ部10bから、パターン決定部212から渡されたパターン情報に従いサブサンプリングを行い生成したサンプリング画像36φxを取得する。利用領域取得部211は、取得されたサンプリング画像36φxを認識部220およびパターン取得部213に渡す。
 次のステップS102で、パターン取得部213は、パターン決定部212から渡されたパターン情報と、利用領域取得部211から渡されたサンプリング画像36φxとに基づき、サブサンプリングを行ったパターンを認識し、取得する。より具体的には、パターン取得部214は、サブサンプリングにより画像データ32がどのように分割されたかを認識し、パターンに関する情報を取得する。パターン取得部214は、取得したパターンに関する情報を設定演算部214に渡す。
 次のステップS103で、設定演算部214は、取得されたパターンに応じて、適用する認識器およびパラメータを選択する。より具体的には、設定演算部214は、パターン取得部213から渡されたパターンに関する情報に基づき、パラメータ記憶部230に記憶される認識器およびパラメータから、例えば現在実行中の認識処理に対して最適な認識器およびパラメータを選択する。設定演算部214は、パラメータ記憶部230に対して、選択したパラメータと認識機を示す情報とを認識部220に渡す。
 次のステップS104で、認識部220は、ステップS103で設定演算部214により選択され、パラメータ記憶部230から渡されたパラメータと認識器を示す情報とに従い、認識器およびパラメータの設定を行う。認識部220は、設定された認識器およびパラメータに従い、サンプリング画像36φxに対してなされた認識処理により、物体検出処理を実行する。
(2-3.第1の実施形態に係る認識処理の応用例)
 次に、第1の実施形態に係る認識処理の応用例について説明する。なお、ここでは、一例として、第1の実施形態に係る認識処理を実行する情報処理装置1bが車載用途とされ、車両のフロントに搭載されて用いられるものとして説明を行う。
(2-3-1.第1の応用例)
 先ず、第1の実施形態に係る認識処理の第1の応用例について説明する。この第1の応用例は、位置情報に基づきサブサンプリングのパターン(分割数)を変更する例である。ここで、第1の実施形態に係る認識処理を実行する情報処理装置1bは、現在の位置情報を、例えば外部から取得することができるものとする。これに限らず、当該情報処理装置1bは、GNSSやSLAMといった自己位置取得手段を有していてもよい。
 図23は、第1の実施形態の第1の応用例による認識処理を示す一例のフローチャートである。なお、図23のフローチャートは、ステップS50からステップS104までの処理を繰り返すループ処理として示している。
 ステップS50で、情報処理装置1bは、現在位置を取得する。次のステップS51で、情報処理装置1bは、取得した現在位置のエリア種別を取得する。例えば、情報処理装置1bは、現在位置に基づき、予め記憶される、あるいは、外部から通信などにより取得されるマップ情報を参照し、現在位置が属するエリアの情報を取得する。エリア種別は、認識対象を切り替えることが好ましいエリアを区分するもので、例えば市街地、スクールゾーン、高速道路などをそれぞれ異なるエリア種別とすることが考えられる。
 次のステップS52で、情報処理装置1bは、ステップS51で取得されたエリア種別が、例えば前回のループにおけるステップS51で取得されたエリア種別から変わったか否かを判定する。情報処理装置1bは、エリア種別が変わっていないと判定した場合(ステップS52、「No」)、処理をステップS100aに移行させる。
 ステップS100aで、情報処理装置1bは、パターン決定部212により、サブサンプリングを行うパターンを直前に適用されていたパターンに決定する。パターン決定部212は、決定されたパターンのパターン情報を利用領域取得部211およびパターン取得部213に渡す。情報処理装置1bは、パターン決定部212によりパターン情報が利用領域取得部211およびパターン取得部213に渡されると、処理をステップS101に移行させる。
 一方、ステップS52で、情報処理装置1bは、エリア種別が変わったと判定した場合(ステップS52、「Yes」)、処理をステップS53に移行させる。ステップS53で、情報処理装置1bは、ステップS51で取得されたエリア種別が、速報結果が必要なエリア種別であるか否かを判定する。情報処理装置1bは、当該エリア種別が速報結果が必要なエリア種別であると判定した場合(ステップS53、「Yes」)、処理をステップS100bに移行させる。
 ステップS100bで、情報処理装置1bは、パターン決定部212により、サブサンプリングを行うパターンを速報結果出力に適したパターンに決定する。
 例えば、上述した図19を参照し、直前に適用されていたパターンが第1の認識器によるパターン、すなわち画像データ32の分割を行わないパターンである場合には、第2の認識器による4分割のパターン、あるいは、第3の認識器による16分割のパターンに変更することが考えられる。また、直前に適用されていたパターンが第2の認識器による4分割のパターンである場合は、第3の認識器による16分割のパターンに変更することが考えられる。
 パターン決定部212は、決定されたパターンのパターン情報を利用領域取得部211およびパターン取得部213に渡す。情報処理装置1bは、パターン決定部212によりパターン情報が利用領域取得部211およびパターン取得部213に渡されると、処理をステップS101に移行させる。
 一方、ステップS53で、情報処理装置1bは、ステップS51で取得されたエリア種別が、速報結果が必要無いエリア種別であると判定した場合(ステップS53、「No」)、処理をステップS100cに移行させる。
 ステップS100cで、情報処理装置1bは、パターン決定部212により、サブサンプリングを行うパターンを統合結果出力に適したパターンに決定する。
 例えば、上述した図19を参照し、直前に適用されていたパターンが第2の認識器または第3の認識器によるパターン、すなわち画像データ32の4分割あるいは16分割を行うパターンである場合には、第1の認識器による分割を行わないパターンに変更することが考えられる。これに限らず、直前に適用されていたパターンが第2の認識器または第3の認識器によるパターンである場合に、パターンを変更せずに統合結果を出力するようにしてもよい。
 パターン決定部212は、決定されたパターンのパターン情報を利用領域取得部211およびパターン取得部213に渡す。情報処理装置1bは、パターン決定部212によりパターン情報が利用領域取得部211およびパターン取得部213に渡されると、処理をステップS101に移行させる。
 以降の処理は、上述した図22のフローチャートにおけるステップS101以降の処理と同様である。すなわち、ステップS101で、利用領域取得部211は、センサ部10bから、パターン決定部212から渡されたパターン情報に従いサブサンプリングされたサンプリング画像36φxを取得し、取得したサンプリング画像36φxを認識部220およびパターン取得部213に渡す。次のステップS102で、パターン取得部214は、パターン決定部212から渡されたパターン情報と、利用領域取得部211から渡されたサンプリング画像36φxとに基づき、サブサンプリングを行ったパターンを認識し、取得する。パターン取得部214は、取得したパターンに関する情報を設定演算部214に渡す。
 次のステップS103で、設定演算部214は、取得されたパターンに応じて、適用する認識器およびパラメータを選択する。設定演算部214は、パラメータ記憶部230に対して、選択したパラメータと認識機を示す情報とを認識部220に渡す。次のステップS104で、認識部220は、ステップS103で設定演算部214により選択され、パラメータ記憶部230から渡されたパラメータと認識器を示す情報とに従い、認識器およびパラメータの設定を行う。認識部220は、設定された認識器およびパラメータに従い、サンプリング画像36φxに対してなされた認識処理により、物体検出処理を実行する。
 ステップS104の処理が行われると、処理がステップS50に戻される。
 図23のフローチャートによる処理を、より具体的な例を用いて説明する。ここでは、第1の実施形態に係る認識処理を実行する情報処理装置1bが車載用途とされているものとする。また、当初、認識部220において第1の認識器が適用され、画像データ32を分割しない状態で認識処理を実行しているものとする。
 情報処理装置1bは、GNSS,SLAM等の位置推定技術により現在位置を取得し(ステップS50)、現在走行しているエリアのエリア種別が市街地であることを取得する(ステップS51)。エリア種別が前回の処理から変わっているものとし(ステップS52、「Yes」)、情報処理装置1bは、速報結果が必要か否かを判定する(ステップS53)。市街地の場合、歩行者が道路を横切るようなシーンが多いと判断し、速報結果が必要であると判定する(ステップS53、「Yes」)。情報処理装置1bにおいて、パターン決定部212は、パターンを、歩行者向きで且つ歩行者の飛び出しに対する即応性の高いパターンに変更する(ステップS100b)。パターン決定部212は、例えば、分割無しのパターンから、4分割を行うパターンに変更する。
 ここで、パターンを変更するだけでは、単純に認識処理の性能が低下してしまう。そのため、設定演算部214は、パラメータ記憶部230に指示を出し、認識部220に適用される認識器およびパラメータを、その変更されたパターン(4分割を行うパターン)に基づき予め学習を行った認識器、パラメータに切り替える(ステップS101~ステップS103)。認識部220は、切り替えられた認識器およびパラメータに従い認識処理を実行する(ステップS104)。これにより、市街地での歩行者の急な飛び出しなどにも対応が可能となる。
 その後、当該車両が市街地から高速道路に入ったものとする(ステップS50、ステップS52)。この場合、高速道路では歩行者の飛び出しが無く、且つ、より遠方の車両を検出したい。すなわち、統合結果が必要となる。そのため、上述のステップS100bで決定された4分割のパターンを、第1の認識器による分割無しのパターンに切り替える。設定演算部214は、直前の設定である、4分割で学習した認識器、パラメータでは性能が出ないため、分割無しで予め学習した認識器、パラメータに切り替える(ステップS101~ステップS103)。認識部220は、切り替えられた認識器およびパラメータに従い認識処理を実行する(ステップS104)。これにより、対向車や、比較的遠方で発生した事故などにも対応が可能となる。
(2-3-2.第2の応用例)
 次に、第1の実施形態に係る認識処理の第2の応用例について説明する。この第2の応用例は、サブサンプリングを行うパターンを固定した認識処理を一定時間継続して実行し、この認識処理の結果に応じてパターンを切り替える例である。
 図24は、第1の実施形態の第2の応用例による認識処理を示す一例のフローチャートである。なお、図24のフローチャートは、ステップS60からステップS104までの処理を繰り返すループ処理として示している。また、この図24のフローチャートでは、当初、第1の認識器により画像データ32の分割無しで認識処理を実行するものとする。
 ステップS60で、情報処理装置1bは、認識部220に対して第1の認識器を適用し、画像データ32に対するサブサンプリングを行わずに、すなわち、1度の認識処理において1フレーム分の画素データを全て用いて、認識処理を実行する。次のステップS61で。情報処理装置1bは、認識部220による認識結果を蓄積する。次のステップS62で、情報処理装置1bは、例えばステップS60の処理から一定時間が経過したか否かを判定する。情報処理装置1bは、一定時間が経過していないと判定した場合(ステップS62、「No」)、処理をステップS60に戻す。
 一方、情報処理装置1bは、ステップS62で一定時間が経過したと判定した場合(ステップS62、「Yes」)、処理をステップS63に移行させる。ステップS63で、情報処理装置1bは、ステップS61で蓄積された認識結果に基づき、単位時間当たりに検出された対象オブジェクト(例えば人)の数を取得する。次のステップS64で、情報処理装置1bは、ステップS63で取得した対象オブジェクト数が閾値を超えたか否かを判定する。
 情報処理装置1bは、取得した対象オブジェクト数が閾値を超えていないと判定した場合(ステップS64、「No」)、処理をステップS100dに移行させる。ステップS100dで、情報処理装置1bは、パターン決定部212により、サブサンプリングを行うパターンを直前に適用されていたパターンに決定する。ステップS100dの処理は、図23におけるステップS100aの処理と同様であるので、ここでの詳細な説明を省略する。情報処理装置1bは、ステップS100dの処理の後、処理をステップS101に移行させる。
 一方、情報処理装置1bは、ステップS64で、取得した対象オブジェクト数が閾値を超えたと判定した場合(ステップS64、「Yes」)、処理をステップS100eに移行させる。ステップS100eで、情報処理装置1bは、パターン決定部212により、サブサンプリングを行うパターンを速報結果出力に適したパターンに決定する。ステップS100eの処理は、図23におけるステップS100bの処理と同様であるので、ここでの詳細な説明を省略する。情報処理装置1bは、ステップS100dの処理の後、処理をステップS101に移行させる。
 以降の処理は、上述した図22のフローチャートにおけるステップS101以降の処理と同様である。すなわち、ステップS101で、利用領域取得部211は、センサ部10bから、パターン決定部212から渡されたパターン情報に従いサブサンプリングされたサンプリング画像36φxを取得し、取得したサンプリング画像36φxを認識部220およびパターン取得部213に渡す。次のステップS102で、パターン取得部214は、パターン決定部212から渡されたパターン情報と、利用領域取得部211から渡されたサンプリング画像36φxとに基づき、サブサンプリングを行ったパターンを認識し、取得する。パターン取得部214は、取得したパターンに関する情報を設定演算部214に渡す。
 次のステップS103で、設定演算部214は、取得されたパターンに応じて、適用する認識器およびパラメータを選択する。設定演算部214は、パラメータ記憶部230に対して、選択したパラメータと認識機を示す情報とを認識部220に渡す。次のステップS104で、認識部220は、ステップS103で設定演算部214により選択され、パラメータ記憶部230から渡されたパラメータと認識器を示す情報とに従い、認識器およびパラメータの設定を行う。認識部220は、設定された認識器およびパラメータに従い、サンプリング画像36φxに対してなされた認識処理により、物体検出処理を実行する。
 ステップS104の処理が行われると、処理がステップS60に戻される。
 図24のフローチャートによる処理を、より具体的な例を用いて説明する。ここでは、第1の実施形態に係る認識処理を実行する情報処理装置1bが車載用途とされているものとする。また、当初、認識部220において第1の認識器が適用され、画像データ32を分割しない状態で、人(歩行者)を対象として認識処理を実行しているものとする。
 情報処理装置1bは、車両の走行中、分割無しの第1の認識器で動作する認識システムを用いた認識処理により環境認識を行い、一定時間、認識結果を蓄積する(ステップS60~ステップS62)。情報処理装置1bは、一定時間を経過すると、蓄積された認識結果に基づき、単位時間当たりに検出された対象物(歩行者)の数が閾値を超えたと判定された場合(ステップS64、「Yes」)、現在自車が走行している領域には歩行者が多いと判断し、認識器を速報結果が出力される第2の認識器に切り替え、サブサンプリングのパターンを、画像データ32に対する分割数=4のパターンに切り替える(ステップS100e)。
 ここで、パターンを変更するだけでは、単純に認識処理の性能が低下してしまう。そのため、設定演算部214は、パラメータ記憶部230に指示を出し、認識部220に適用される認識器およびパラメータを、その変更されたパターン(4分割を行うパターン)に基づき予め学習を行った認識器、パラメータに切り替える(ステップS101~ステップS103)。認識部220は、切り替えられた認識器およびパラメータに従い認識処理を実行する(ステップS104)。これにより、歩行者の急な飛び出しなどにも対応が可能となる。
 このように、第1の実施形態によれば、画像データ32に対するサブサンプリングによるサンプリング画像36φxに対する認識処理を実行する認識器および認識器に係るパラメータを、サブサンプリングのパターンに応じて変更するようにしている。そのため、サブサンプリングのパターンに応じた認識処理の最適化が可能となり、認識処理の精度を高めることができる。
 また、第1の実施形態によれば、認識器および認識器に係るパラメータを、サブサンプリングのパターンに応じて変更すると共に、画像データ32に対するサブサンプリングのパターンを所定の条件に応じて変更するようにしている。そのため、第1の実施形態に係る認識処理を適用することで、状況の変化に応じた認識処理を実行することが可能となる。
(2-4.第1の実施形態の変形例)
 次に、第1の実施形態の変形例について説明する。この第1の実施形態の変形例は、特徴量を統合する統合箇所を変更するようにした例である。図25は、上述した図10と対応するもので、第1の実施形態の変形例に適用可能な特徴量抽出処理をより詳細に示す模式図である。
 図25において、画像データ32に対してサブサンプリングを行い(ステップS10)、サブサンプリングにより生成されたサンプリング画像36φx(図示しない)に対して特徴量抽出処理が行われる(ステップS11)。特徴量抽出処理によりサンプリング画像36φxから抽出された特徴量が、他のサンプリング画像36φxにより抽出された特徴量と統合され(ステップS12)、統合された特徴量に基づき認識処理が実行される(ステップS13)。
 これらの処理のうち、特徴量抽出処理は、それぞれ特徴量抽出のための演算を行う複数の特徴演算処理を含むことができる。図25の例では、特徴量抽出処理は、それぞれ直列に接続される(順次に処理が実行される)、第1特徴演算処理(ステップS11p、第1特徴演算部)、第2特徴演算処理(ステップS11q、第2特徴演算部)および第3特徴演算処理(ステップS11r、第3特徴演算部)の3つの特徴演算処理(特徴量演算部)を含んでいる。これはこの例に限らず、特徴量抽出処理は、2つの特徴演算処理を含むものとしてもよいし、4以上の特徴演算処理を含んでいてもよい。また、各特徴演算処理は、直列のみならず、並列としてもよいし、並列および直列の混在としてもよい。
 図26Aおよび図26Bは、第1の実施形態の変形例に係る特徴量抽出処理および特徴量の統合処理の例を示す模式図である。図26Aは、上述した図25と同様に、ステップS11の特徴量抽出処理が直列に接続される第1、第2および第3特徴演算処理(ステップS11p、ステップS11qおよびステップS11r)を含み、最後に配置される第3特徴演算処理(ステップS11r)の後に、特徴量統合処理(ステップS12)が実行される例である。
 図26Bは、特徴量を統合する統合化を、図26Aに対して変更した例である。すなわち、図26Bでは、特徴統合処理(ステップS12)が、第2特徴演算処理(ステップS11q)と第3特徴演算処理(ステップS11r)との間に挿入されている例である。
 すなわち、図26Bの例では、サブサンプリング(ステップS11)により生成されたサンプリング画像36φxに対して第1特徴演算処理および第2特徴演算処理が施される(ステップS11pおよびステップS11q)。そして、第2特徴演算処理により算出された特徴量の中間データ(中間特徴量と呼ぶ)が、特徴量統合処理(ステップS12)により、他のサンプリング画像36φxに対して第1特徴演算処理および第2特徴演算処理が施された中間特徴量と統合される。この統合された中間特徴量に対して、第3特徴演算処理(ステップS11r)が施され、特徴量が算出される。
 ここで、パラメータ記憶部230は、特徴量統合処理による統合箇所が変更された場合についても、入力画像と正解データとに基づき予め学習がなされた結果の各パラメータが記憶される。
 なお、図26Bの例では、特徴量統合処理(ステップS12)が第2特徴演算処理(ステップS11q)と、第3特徴演算処理(ステップS11r)と、間に挿入されているが、これはこの例に限定されない。例えば、特徴量統合処理(ステップS12)を、第1特徴演算処理(ステップS11p)と第2特徴演算処理(ステップS11q)との間に挿入してもよい。
 上述の図26Aの、特徴量抽出処理(ステップS11)の後に特徴量統合処理(ステップS12)が挿入される構成と、特徴量抽出処理に含まれる第2特徴演算処理(ステップS11q)と第3特徴演算処理(ステップS11r)との間に特徴量統合処理(ステップS12)が挿入される構成と、のうち何れの構成を採用するかは、サブサンプリングのパターンや、想定される認識対象などに応じて適宜選択することが好ましい。
 図27は、第1の実施形態の変形例による認識処理を示す一例のフローチャートである。なお、図27のフローチャートは、ステップS70からステップS104までの処理を繰り返すループ処理として示している。また、この図27のフローチャートでは、当初、第2の認識器により画像データ32をサブサンプリングにより4分割して認識処理を実行するものとする。
 ステップS70で、情報処理装置1bは、認識部220に対して第2の認識器を適用し、画像データ32をサブサンプリングにより4分割した各サンプリング画像36φ1~36φ4に対してそれぞれ特徴量抽出処理を行い、抽出された各特徴量に基づき認識処理を実行する。次のステップS71で。情報処理装置1bは、認識部220による認識結果を蓄積する。次のステップS72で、情報処理装置1bは、例えばステップS70の処理から一定時間が経過したか否かを判定する。情報処理装置1bは、一定時間が経過していないと判定した場合(ステップS72、「No」)、処理をステップS70に戻す。
 一方、情報処理装置1bは、ステップS72で一定時間が経過したと判定した場合(ステップS72、「Yes」)、処理をステップS73に移行させる。ステップS73で、情報処理装置1bは、ステップS71で蓄積された認識結果に基づき、単位時間当たりに検出された対象オブジェクト(例えば人)の数を取得する。次のステップS74で、情報処理装置1bは、ステップS73で取得した対象オブジェクト数が閾値を超えたか否かを判定する。
 情報処理装置1bは、取得した対象オブジェクト数が閾値を超えていないと判定した場合(ステップS74、「No」)、処理をステップS100dに移行させ、パターン決定部212により、サブサンプリングを行うパターンを直前に適用されていたパターンに決定する。情報処理装置1bは、ステップS100dの処理の後、処理をステップS101に移行させる。
 一方、情報処理装置1bは、ステップS74で、取得した対象オブジェクト数が閾値を超えたと判定した場合(ステップS74、「Yes」)、処理をステップS100eに移行させる。ステップS100eで、情報処理装置1bは、パターン決定部212により、サブサンプリングを行うパターンを速報結果出力に適したパターンに決定する。次のステップS75で、情報処理装置1bは、ステップS100eで決定されたパターンに従い、特徴量を統合する箇所を変更(設定)する。情報処理装置1bは、ステップS75の処理の後、処理をステップS101に移行させる。
 以降の処理は、上述した図22のフローチャートにおけるステップS101以降の処理と同様である。すなわち、ステップS101で、利用領域取得部211は、センサ部10bから、パターン決定部212から渡されたパターン情報に従いサブサンプリングされたサンプリング画像36φxを取得し、取得したサンプリング画像36φxを認識部220およびパターン取得部213に渡す。次のステップS102で、パターン取得部214は、パターン決定部212から渡されたパターン情報と、利用領域取得部211から渡されたサンプリング画像36φxとに基づき、サブサンプリングを行ったパターンを認識し、取得する。パターン取得部214は、取得したパターンに関する情報を設定演算部214に渡す。
 次のステップS103で、設定演算部214は、取得されたパターンに応じて、適用する認識器およびパラメータを選択する。上述したステップS75の特徴量の統合箇所の変更を、このステップS103において行ってもよい。設定演算部214は、パラメータ記憶部230に対して、選択したパラメータと認識機を示す情報とを認識部220に渡す。次のステップS104で、認識部220は、ステップS103で設定演算部214により選択され、パラメータ記憶部230から渡されたパラメータと認識器を示す情報とに従い、認識器およびパラメータの設定を行う。認識部220は、設定された特徴量統合箇所、認識器およびパラメータに従い、サンプリング画像36φxに対してなされた認識処理により、物体検出処理を実行する。
 ステップS104の処理が行われると、処理がステップS70に戻される。
 図27のフローチャートによる処理を、より具体的な例を用いて説明する。ここでは、第1の実施形態に係る認識処理を実行する情報処理装置1bが車載用途とされているものとする。また、当初、認識部220において第2の認識器が適用され、画像データ32をサブサンプリングにより4分割し、人(歩行者)を対象として認識処理を実行しているものとする。
 情報処理装置1bは、車両の走行中、画像データ32をサブサンプリングにより4分割する第2の認識器で動作する認識システムを用いた認識処理により環境認識を行い、一定時間、認識結果を蓄積する(ステップS70~ステップS72)。情報処理装置1bは、一定時間が経過し、蓄積された認識結果に基づき、単位時間当たりに検出された対象物(歩行者)の数が閾値を超えたと判定された場合(ステップS74、「Yes」)、現在自車が走行している領域には歩行者が多いと判断できる。
 そのため、情報処理装置1bは、認識器をより低レイテンシで速報結果を出力可能な第3の認識器に切り替え、サブサンプリングのパターンを、画像データ32に対する分割数=16のパターンに切り替える(ステップS100e)。さらに、情報処理装置1bは、特徴量統合箇所を、当該分割数=16に適した位置、例えば、直前の特徴量統合箇所よりも前の位置に変更する。一例として、図26Bを用いて説明した、第2特徴演算処理(ステップS11q)と、第3特徴演算処理(ステップS11r)との間に、特徴量統合箇所を挿入する。
 ここで、パターンおよび特徴量統合箇所を変更するだけでは、単純に認識処理の性能が低下してしまう。そのため、設定演算部214は、パラメータ記憶部230に指示を出し、認識部220に適用される認識器およびパラメータを、その変更されたパターン(16分割を行うパターン)に基づき予め学習を行った認識器、パラメータに切り替える(ステップS101~ステップS103)。認識部220は、切り替えられた認識器およびパラメータに従い認識処理を実行する(ステップS104)。これにより、歩行者の急な飛び出しなどにも対応が可能となる。
(2-5.第1の実施形態の他の変形例)
 次に、第1の実施形態の他の変形例について説明する。第1の実施形態の他の変形例は、認識器およびパラメータの変更を行う条件のさらに他の例である。例えば、情報処理装置1bは、動作モードがユーザ操作に応じて市街地モードに切り替えられた場合について考える。この場合、歩行者の飛び出しなどに備えるため、情報処理装置1bは、サブサンプリングによる分割数を、例えばより速報性の高いパターンに変更(例えば4分割から16分割に変更)すると共に、認識器および認識器に対するパラメータをパターンに応じて変更する。
 また例えば、情報処理装置1bは、動作モードがユーザ操作に応じて高速道路モード(例えば100[km/h]程度の走行速度を想定)から市街地モード(例えば60[km/h]程度の走行速度を想定)に切り替えられた場合について考える。この場合、サブサンプリングによるパターンを、走行速度に応じて、例えば速報性よりも精度を重視したパターンに変更(例えば16分割から4分割に変更)すると共に、認識器および認識器に対するパラメータをパターンに応じて変更する。
 さらに例えば、情報処理装置1bは、見通しの悪い場所では、サブサンプリングによるパターンを速報性の高いパターンに切り替えると共に、認識器および認識器に対するパラメータをパターンに応じて変更する。見通しの悪い場所か否かは、例えばユーザ操作に応じて情報処理装置1bに指示してもよいし、センサ部10bにより取得された画像データ32に基づき判定してもよい。
 さらにまた、例えば、情報処理装置1bは、天候を条件としてサブサンプリングによるパターンの切り替えを行うことができる。すなわち、悪天候の場合、遠距離の検知精度が下がるため、例えばサブサンプリングによるパターンを速報性の高いパターンに切り替えると共に、認識器および認識器に対するパラメータをパターンに応じて変更する。天候の情報は、例えばユーザ操作に応じて情報処理装置1bに指示してもよいし、センサ部10bにより取得された画像データ32に基づき判定してもよい。さらに、天候の情報は、外部との通信により取得してもよい。
 また、上述では、本開示に係る技術が物体を検出するための認識処理に適用されるように説明したが、これはこの例に限定されない。例えば、セマンティックセグメンテーションや、その他の類似するタスクに、本開示に係る技術を適用することができる。
 また、上述では、本開示に係る技術がDNNを用いた認識処理に適用されるように説明したが、これはこの例に限定されない。例えば、画像情報を時間軸展開して利用するアーキテクチャであれば、他の技術にも適用可能である。
[3.第2の実施形態]
 次に、本開示の第2の実施形態について説明する。本開示の第2の実施形態は、画素アレイ部1001を含むセンサ部10bと、認識部220と、前処理部210に相当する構成と、を層構造のCISに一体的に組み込んだ例である。
 図28は、第2の実施形態に係る情報処理装置の一例の構成を示すブロック図である。図28において、情報処理装置1cは、センサ部10cと、認識部220と、を含む。また、センサ部10cは、画素アレイ部1001と、読出制御部240と、を含む。読出制御部240は、例えば、第1の実施形態で説明した前処理部210に対応する機能と、撮像部1200における制御部1100の機能と、を含む。
 なお、図28において、図5を用いて説明した構成のうち、垂直走査部1002、AD変換部1003および信号処理部1101は、画素アレイ部1001に含まれるものとして説明を行う。
 読出制御部240は、画素アレイ部1001に対して、画素信号を読み出す画素回路1000を指定する制御信号を供給する。例えば、読出制御部240は、画素アレイ部1001に対して、サンプリング画素を含むラインを選択的に読み出すことができる。これに限らず、読出制御部240は、画素アレイ部1001に対して、画素回路1000単位で、サンプリング画素に対応する画素回路1000を選択的に指定することもできる。このとき、読出制御部240は、画素アレイ部1001に対して、第1の実施形態で説明した、位相をずらしながら行うサブサンプリングによるサンプリング画素の画素位置に対応する画素回路1000を指定することができる。
 画素アレイ部1001は、指定された画素回路1000から読み出した画素信号をデジタル方式の画素データに変換し、この画素データを読出制御部240に渡す。読出制御部240は、画素アレイ部1001から渡された、1フレーム分の画素データを、画像データとして認識部220に渡す。この画像データは、位相ずらしサブサンプリングによるサンプリング画像である。認識部220は、渡された画像データに対して認識処理を実行する。
 第2の実施形態では、情報処理装置1cを、図6Aを用いて説明した、半導体チップを2層に積層した2層構造の積層型CISにより構成することができる。図6Aを参照し、第1層の半導体チップに画素部2020aを形成し、第2層の半導体チップにメモリ+ロジック部2020bを形成している。画素部2020aは、少なくとも情報処理装置1cにおけるセンサ部10cを含む。メモリ+ロジック部2020bは、例えば、画素アレイ部1001を駆動するための駆動回路を含むと共に、読出制御部240と、認識部220と、を含む。メモリ+ロジック部2020bに、フレームメモリをさらに含ませることができる。
 別の例として、情報処理装置1cを、図6Bを用いて説明した、半導体チップを3層に積層した3層構造の積層型CISにより構成することができる。この場合、第1層の半導体チップに上述の画素部2020aを形成し、第2層の半導体チップに例えばフレームメモリを含むメモリ部2020cを形成し、第3層の半導体チップに上述のメモリ+ロジック部2020bに対応するロジック部2020dを形成している。この場合、ロジック部2020dは、例えば画素アレイ部を駆動するための駆動回路と、読出制御部240と、認識部220と、を含む。また、メモリ部2020cは、フレームメモリやメモリ1202を含むことができる。
 このように、第2の実施形態では、センサ部10cにおいてサブサンプリング処理を行っている。そのため、画素アレイ部1001に含まれる全画素回路1000からの読み出しを行う必要が無い。したがって、認識処理の遅延を、上述した第1の実施形態に対してさらに短縮することが可能である。また、全画素回路1000からサンプリング画素を含むラインの画素回路1000を選択的に読み出すため、画素アレイ部1001からの画素信号の読み出し量を低減でき、バス幅を削減することが可能である。
 また、第2の実施形態では、画素アレイ部1001において、サンプリング画素を含むラインを選択的に読み出す、ライン間引きによる読み出しを行っている。そのため、ローリングシャッタによる撮像画像の歪みを低減することができる。また、画素アレイ部1001における撮像時の消費電力を低減させることが可能である。さらに、サブサンプリングにより間引きされたラインにおいて、例えば露出などの撮像条件を、サブサンプリングにより読み出しを行うラインに対して変更して撮像を行うことも可能である。
(3-1.第2の実施形態の変形例)
 次に、第2の実施形態の変形例について説明する。第2の実施形態の変形例は、上述した第2の実施形態に係る情報処理装置1cにおける、センサ部10cと認識部220とを分離した例である。
 図29は、第2の実施形態の変形例に係る情報処理装置の一例の構成を示すブロック図である。図29において、情報処理装置1dは、センサ部10dと、認識処理部20dと、を含む、センサ部10dは、画素アレイ部1001と、読出制御部240と、を含む。また、認識処理部20dは、認識部220を含む。
 ここで、センサ部10dは、例えば、図6Aを用いて説明した、半導体チップを2層に積層した2層構造の積層型CISにより形成する。図6Aを参照し、第1層の半導体チップに画素部2020aを形成し、第2層の半導体チップにメモリ+ロジック部2020bを形成している。画素部2020aは、少なくともセンサ部10dにおける画素アレイ部1001を含む。メモリ+ロジック部2020bは、例えば、画素アレイ部1001を駆動するための駆動回路と、読出制御部240とを含む。メモリ+ロジック部2020bに、フレームメモリをさらに含ませることができる。
 センサ部10dは、サンプリング画像の画像データを読出制御部240から出力し、センサ部10dとは異なるハードウェアに含まれる認識処理部20dに供給する。認識処理部20dは、センサ部10dから供給された画像データを認識部220に入力する。認識部220は、入力された画像データに基づき認識処理を実行し、認識結果を外部に出力する。
 別の例として、センサ部10dを、図6Bを用いて説明した、半導体チップを3層に積層した3層構造の積層型CISにより形成することができる。この場合、第1層の半導体チップに上述の画素部2020aを形成し、第2層の半導体チップに例えばフレームメモリを含むメモリ部2020cを形成し、第3層の半導体チップに上述のメモリ+ロジック部2020bに対応するロジック部2020bを形成している。この場合、ロジック部2020bは、例えば画素アレイ部1001を駆動するための駆動回路と、読出制御部240とを含む。また、メモリ部2020cは、フレームメモリやメモリ1202を含むことができる。
 このように、認識処理部20d(認識部220)をセンサ部10dとは別のハードウェアにより構成することで、認識部220の構成、例えば認識モデルなどの変更が容易とすることができる。
 また、センサ部10dにおいて、サブサンプリングされたサンプリング画像に基づき認識処理が行われるため、撮像画像による画像データ32をそのまま用いて認識処理を行う場合と比較して、認識処理の負荷を軽減することができる。そのため、例えば認識処理部20dにおいて、処理能力の低いCPU、DSP、あるいはGPUを用いることができ、情報処理装置1dのコストを削減することが可能となる。
[4.第3の実施形態]
(4-1.本開示の技術の適用例)
 次に、第4の実施形態として、本開示に係る、第1の実施形態およびその各変形例、ならびに、第2の実施形態およびその変形例に係る情報処理装置1b、1cおよび1dの適用例について説明する。図30は、第1の実施形態およびその各変形例、ならびに、第2の実施形態およびその変形例に係る情報処理装置1b、1cおよび1dを使用する使用例を示す図である。なお、以下では、特に区別する必要のない場合、情報処理装置1b、1cおよび1dを情報処理装置1bで代表させて説明を行う。
 上述した情報処理装置1bは、例えば、以下のように、可視光や、赤外光、紫外光、X線等の光をセンシングしセンシング結果に基づき認識処理を行う様々なケースに使用することができる。
・ディジタルカメラや、カメラ機能付きの携帯機器等の、鑑賞の用に供される画像を撮影する装置。
・自動停止等の安全運転や、運転者の状態の認識等のために、自動車の前方や後方、周囲、車内等を撮影する車載用センサ、走行車両や道路を監視する監視カメラ、車両間等の測距を行う測距センサ等の、交通の用に供される装置。
・ユーザのジェスチャを撮影して、そのジェスチャに従った機器操作を行うために、TVや、冷蔵庫、エアーコンディショナ等の家電に供される装置。
・内視鏡や、赤外光の受光による血管撮影を行う装置等の、医療やヘルスケアの用に供される装置。
・防犯用途の監視カメラや、人物認証用途のカメラ等の、セキュリティの用に供される装置。
・肌を撮影する肌測定器や、頭皮を撮影するマイクロスコープ等の、美容の用に供される装置。
・スポーツ用途等向けのアクションカメラやウェアラブルカメラ等の、スポーツの用に供される装置。
・畑や作物の状態を監視するためのカメラ等の、農業の用に供される装置。
(4-2.移動体への適用例)
 本開示に係る技術(本技術)は、様々な製品へ応用することができる。例えば、本開示に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット等のいずれかの種類の移動体に搭載される装置として実現されてもよい。
 図31は、本開示に係る技術が適用され得る移動体制御システムの一例である車両制御システムの概略的な構成例を示すブロック図である。
 車両制御システム12000は、通信ネットワーク12001を介して接続された複数の電子制御ユニットを備える。図31に示した例では、車両制御システム12000は、駆動系制御ユニット12010、ボディ系制御ユニット12020、車外情報検出ユニット12030、車内情報検出ユニット12040、及び統合制御ユニット12050を備える。また、統合制御ユニット12050の機能構成として、マイクロコンピュータ12051、音声画像出力部12052、及び車載ネットワークI/F(interface)12053が図示されている。
 駆動系制御ユニット12010は、各種プログラムにしたがって車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット12010は、内燃機関又は駆動用モータ等の車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、及び、車両の制動力を発生させる制動装置等の制御装置として機能する。
 ボディ系制御ユニット12020は、各種プログラムにしたがって車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット12020は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカー又はフォグランプ等の各種ランプの制御装置として機能する。この場合、ボディ系制御ユニット12020には、鍵を代替する携帯機から発信される電波又は各種スイッチの信号が入力され得る。ボディ系制御ユニット12020は、これらの電波又は信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプ等を制御する。
 車外情報検出ユニット12030は、車両制御システム12000を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット12030には、撮像部12031が接続される。車外情報検出ユニット12030は、撮像部12031に車外の画像を撮像させるとともに、撮像された画像を受信する。車外情報検出ユニット12030は、受信した画像に基づいて、人、車、障害物、標識又は路面上の文字等の物体検出処理又は距離検出処理を行ってもよい。
 撮像部12031は、光を受光し、その光の受光量に応じた電気信号を出力する光センサである。撮像部12031は、電気信号を画像として出力することもできるし、測距の情報として出力することもできる。また、撮像部12031が受光する光は、可視光であっても良いし、赤外線等の非可視光であっても良い。
 車内情報検出ユニット12040は、車内の情報を検出する。車内情報検出ユニット12040には、例えば、運転者の状態を検出する運転者状態検出部12041が接続される。運転者状態検出部12041は、例えば運転者を撮像するカメラを含み、車内情報検出ユニット12040は、運転者状態検出部12041から入力される検出情報に基づいて、運転者の疲労度合い又は集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。
 マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構又は制動装置の制御目標値を演算し、駆動系制御ユニット12010に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車両の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、又は車両のレーン逸脱警告等を含むADAS(Advanced Driver Assistance System)の機能実現を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構又は制動装置等を制御することにより、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030で取得される車外の情報に基づいて、ボディ系制御ユニット12020に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車外情報検出ユニット12030で検知した先行車又は対向車の位置に応じてヘッドランプを制御し、ハイビームをロービームに切り替える等の防眩を図ることを目的とした協調制御を行うことができる。
 音声画像出力部12052は、車両の搭乗者又は車外に対して、視覚的又は聴覚的に情報を通知することが可能な出力装置へ音声及び画像のうちの少なくとも一方の出力信号を送信する。図31の例では、出力装置として、オーディオスピーカ12061、表示部12062及びインストルメントパネル12063が例示されている。表示部12062は、例えば、オンボードディスプレイ及びヘッドアップディスプレイの少なくとも一つを含んでいてもよい。
 図32は、撮像部12031の設置位置の例を示す図である。
 図32では、車両12100は、撮像部12031として、撮像部12101,12102,12103,12104,12105を有する。
 撮像部12101,12102,12103,12104,12105は、例えば、車両12100のフロントノーズ、サイドミラー、リアバンパ、バックドア及び車室内のフロントガラスの上部等の位置に設けられる。フロントノーズに備えられる撮像部12101及び車室内のフロントガラスの上部に備えられる撮像部12105は、主として車両12100の前方の画像を取得する。サイドミラーに備えられる撮像部12102,12103は、主として車両12100の側方の画像を取得する。リアバンパ又はバックドアに備えられる撮像部12104は、主として車両12100の後方の画像を取得する。撮像部12101及び12105で取得される前方の画像は、主として先行車両又は、歩行者、障害物、信号機、交通標識又は車線等の検出に用いられる。
 なお、図32には、撮像部12101ないし12104の撮影範囲の一例が示されている。撮像範囲12111は、フロントノーズに設けられた撮像部12101の撮像範囲を示し、撮像範囲12112,12113は、それぞれサイドミラーに設けられた撮像部12102,12103の撮像範囲を示し、撮像範囲12114は、リアバンパ又はバックドアに設けられた撮像部12104の撮像範囲を示す。例えば、撮像部12101ないし12104で撮像された画像データが重ね合わせられることにより、車両12100を上方から見た俯瞰画像が得られる。
 撮像部12101ないし12104の少なくとも1つは、距離情報を取得する機能を有していてもよい。例えば、撮像部12101ないし12104の少なくとも1つは、複数の撮像素子からなるステレオカメラであってもよいし、位相差検出用の画素を有する撮像素子であってもよい。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を基に、撮像範囲12111ないし12114内における各立体物までの距離と、この距離の時間的変化(車両12100に対する相対速度)を求めることにより、特に車両12100の進行路上にある最も近い立体物で、車両12100と略同じ方向に所定の速度(例えば、0km/h以上)で走行する立体物を先行車として抽出することができる。さらに、マイクロコンピュータ12051は、先行車の手前に予め確保すべき車間距離を設定し、自動ブレーキ制御(追従停止制御も含む)や自動加速制御(追従発進制御も含む)等を行うことができる。このように運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を元に、立体物に関する立体物データを、2輪車、普通車両、大型車両、歩行者、電柱等その他の立体物に分類して抽出し、障害物の自動回避に用いることができる。例えば、マイクロコンピュータ12051は、車両12100の周辺の障害物を、車両12100のドライバが視認可能な障害物と視認困難な障害物とに識別する。そして、マイクロコンピュータ12051は、各障害物との衝突の危険度を示す衝突リスクを判断し、衝突リスクが設定値以上で衝突可能性がある状況であるときには、オーディオスピーカ12061や表示部12062を介してドライバに警報を出力することや、駆動系制御ユニット12010を介して強制減速や回避操舵を行うことで、衝突回避のための運転支援を行うことができる。
 撮像部12101ないし12104の少なくとも1つは、赤外線を検出する赤外線カメラであってもよい。例えば、マイクロコンピュータ12051は、撮像部12101ないし12104の撮像画像中に歩行者が存在するか否かを判定することで歩行者を認識することができる。かかる歩行者の認識は、例えば赤外線カメラとしての撮像部12101ないし12104の撮像画像における特徴点を抽出する手順と、物体の輪郭を示す一連の特徴点にパターンマッチング処理を行って歩行者か否かを判別する手順によって行われる。マイクロコンピュータ12051が、撮像部12101ないし12104の撮像画像中に歩行者が存在すると判定し、歩行者を認識すると、音声画像出力部12052は、当該認識された歩行者に強調のための方形輪郭線を重畳表示するように、表示部12062を制御する。また、音声画像出力部12052は、歩行者を示すアイコン等を所望の位置に表示するように表示部12062を制御してもよい。
 以上、本開示に係る技術が適用され得る車両制御システムの一例について説明した。本開示に係る技術は、以上説明した構成のうち、撮像部12031および車外情報検出ユニット12030に適用され得る。具体的には、例えば、情報処理装置1bのセンサ部10bを撮像部12031に適用し、認識処理部20bを車外情報検出ユニット12030に適用する。認識処理部20bから出力された認識結果は、例えば通信ネットワーク12001を介して統合制御ユニット12050に渡される。
 このように、本開示に係る技術を撮像部12031および車外情報検出ユニット12030に適用することで、サブサンプリングによるパターンを所定の条件に応じて切り替えることが可能であると共に、認識処理に用いる認識器およびパラメータを、切り替えられたパターンに応じて変更することができる。そのため、速報性を重視した認識結果である速報結果をより高精度で得ることができ、より確実な運転支援が可能となる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 画素によって構成される撮像情報が所定のパターンで分割された分割領域毎に設定された画素位置に従い取得されたサンプリング画素により構成されるサンプリング画像を生成する生成部と、
 前記サンプリング画像の特徴量を算出する算出部と、
 前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識部と、
 前記所定のパターンに応じて前記算出部および前記認識部のうち少なくとも一方のパラメータを設定する設定部と、
を備える情報処理装置。
(2)
 前記生成部は、
 所定の条件に応じて前記所定のパターンを変更する、
前記(1)に記載の情報処理装置。
(3)
 前記所定の条件は、当該情報処理装置の位置を示す位置情報を含む、
前記(2)に記載の情報処理装置。
(4)
 前記所定の条件は、当該情報処理装置の周囲の環境を示す環境情報を含む、
前記(2)または(3)に記載の情報処理装置。
(5)
 前記所定の条件は、当該情報処理装置が搭載される対象に関する情報を含む、
前記(2)乃至(4)の何れかに記載の情報処理装置。
(6)
 前記所定の条件は、当該情報処理装置の移動速度を示す速度情報を含む、
前記(2)乃至(5)の何れかに記載の情報処理装置。
(7)
 前記生成部は、
 前記サンプリング画像として、前記分割領域毎に、該分割領域内のそれぞれ異なる前記画素位置に従い取得された前記サンプリング画素により構成される複数のサンプリング画像を生成する、
前記(1)乃至(6)の何れかに記載の情報処理装置。
(8)
 前記生成部は、
 前記サンプリング画像として、1つの前記撮像情報における前記分割領域毎に設定された前記画素位置に従い取得された前記サンプリング画素により構成される複数のサンプリング画像を生成する、
前記(7)に記載の情報処理装置。
(9)
 前記生成部は、
 前記サンプリング画像として、時系列上で連なる複数の前記撮像情報を跨いで前記分割領域に設定された前記画素位置に従い取得された複数のサンプリング画像を生成する、
前記(7)に記載の情報処理装置。
(10)
 前記認識部は、
 前記算出部が算出した前記特徴量を蓄積する蓄積部をさらに備え、
 前記認識部は、
 前記蓄積部に蓄積された前記特徴量の少なくとも一部に基づき前記認識処理を行い前記認識処理結果を出力する、
前記(1)乃至(9)の何れかに記載の情報処理装置。
(11)
 前記認識部は、
 前記蓄積部に蓄積された複数の特徴量を統合した統合特徴量に基づき前記認識処理を行う、
前記(10)に記載の情報処理装置。
(12)
 前記認識部は、
 前記撮像情報の取得に応じて前記算出部により算出された前記特徴量を、該取得の直前までに前記蓄積部に蓄積された特徴量の少なくとも一部の特徴量と統合し、統合された特徴量に基づき前記認識処理を行う、
前記(11)に記載の情報処理装置。
(13)
 前記認識部は、
 前記蓄積部に蓄積された前記複数の特徴量のうち、少なくとも前記分割領域それぞれにおいて最後に取得した前記サンプリング画素による前記サンプリング画像に基づく特徴量を除外した1以上の前記特徴量に基づき前記認識処理を行う、
前記(11)または(12)に記載の情報処理装置。
(14)
 前記認識部は、
 前記蓄積部に蓄積された前記複数の特徴量のうち、前記分割領域ぞそれぞれから最初に取得した前記サンプリング画素による前記サンプリング画像に基づく特徴量に基づき前記認識処理を行う、
前記(11)乃至(13)の何れかに記載の情報処理装置。
(15)
 前記算出部は、
 それぞれ前記特徴量を算出するための複数の演算部を含み、
 前記認識部は、
 前記複数の演算部のうち前記統合特徴量を出力するための演算部を、前記パラメータに応じて設定する、
前記(11)乃至(14)の何れかに記載の情報処理装置。
(16)
 前記認識部は、
 前記統合特徴量を出力するための演算部の前記パラメータに応じた設定を、前記分割領域それぞれの前記画素位置に対応する前記画素毎の教師データに基づき行う、
前記(15)に記載の情報処理装置。
(17)
 前記認識部は、
 前記分割領域それぞれの前記画素位置に対応する前記画素毎の教師データに基づき、前記サンプリング画像の前記特徴量に対する前記認識処理を行う、
前記(1)乃至(16)の何れかに記載の情報処理装置。
(18)
 前記認識部は、
 前記撮像情報のうち、第1の撮像情報に設定された前記サンプリング画素と、時系列で該第1の撮像情報の次に取得される第2の撮像情報に設定された前記サンプリング画素と、を用いたRNN(Recurrent Neural Network)により機械学習処理を実行し、該機械学習処理の結果に基づき前記認識処理を行う、
前記(1)乃至(17)の何れかに記載の情報処理装置。
(19)
 プロセッサにより実行される、
 画素によって構成される撮像情報が所定のパターンで分割された分割領域毎に設定された画素位置に従い取得されたサンプリング画素により構成されるサンプリング画像を生成する生成ステップと、
 前記サンプリング画像の特徴量を算出する算出ステップと、
 前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識ステップと、
 前記所定のパターンに応じて前記算出ステップおよび前記認識ステップのうち少なくとも一方のパラメータを設定する設定ステップと、
を有する情報処理方法。
(20)
 画素によって構成される撮像情報が所定のパターンで分割された分割領域毎に設定された画素位置に従い取得されたサンプリング画素により構成されるサンプリング画像を生成する生成ステップと、
 前記サンプリング画像の特徴量を算出する算出ステップと、
 前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識ステップと、
 前記所定のパターンに応じて前記算出ステップおよび前記認識ステップのうち少なくとも一方のパラメータを設定する設定ステップと、
をコンピュータに実行させるための情報処理プログラム。
1a,1b,1c,1d 情報処理装置
10a,10b,10c,10d センサ部
20a,20b,20d 認識処理部
30a,30b 撮像画像
32,32a,32a’,32b,32c,32d 画像データ
35,35’ 分割領域
36,36φ1,36φ1’,36φ2,36φ3,36φ4,36φ01,36φ16,36φx サンプリング画像
50a,50a’,50b,50c,50d 特徴量
210 前処理部
211 利用領域取得部
212 パターン決定部
213 パターン取得部
214 設定演算部
220 認識部
221 特徴量算出部
222 特徴量蓄積制御部
223 特徴量蓄積部
224 認識処理実行部
240 読出制御部
300,300φ1,300φ2,300φ3,300φ4,300φ5,300φ9,300φ13,300φ16 画素

Claims (20)

  1.  画素によって構成される撮像情報が所定のパターンで分割された分割領域毎に設定された画素位置に従い取得されたサンプリング画素により構成されるサンプリング画像を生成する生成部と、
     前記サンプリング画像の特徴量を算出する算出部と、
     前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識部と、
     前記所定のパターンに応じて前記算出部および前記認識部のうち少なくとも一方のパラメータを設定する設定部と、
    を備える情報処理装置。
  2.  前記生成部は、
     所定の条件に応じて前記所定のパターンを変更する、
    請求項1に記載の情報処理装置。
  3.  前記所定の条件は、当該情報処理装置の位置を示す位置情報を含む、
    請求項2に記載の情報処理装置。
  4.  前記所定の条件は、当該情報処理装置の周囲の環境を示す環境情報を含む、
    請求項2に記載の情報処理装置。
  5.  前記所定の条件は、当該情報処理装置が搭載される対象に関する情報を含む、
    請求項2に記載の情報処理装置。
  6.  前記所定の条件は、当該情報処理装置の移動速度を示す速度情報を含む、
    請求項2に記載の情報処理装置。
  7.  前記生成部は、
     前記サンプリング画像として、前記分割領域毎に、該分割領域内のそれぞれ異なる前記画素位置に従い取得された前記サンプリング画素により構成される複数のサンプリング画像を生成する、
    請求項1に記載の情報処理装置。
  8.  前記生成部は、
     前記サンプリング画像として、1つの前記撮像情報における前記分割領域毎に設定された前記画素位置に従い取得された前記サンプリング画素により構成される複数のサンプリング画像を生成する、
    請求項7に記載の情報処理装置。
  9.  前記生成部は、
     前記サンプリング画像として、時系列上で連なる複数の前記撮像情報を跨いで前記分割領域に設定された前記画素位置に従い取得された複数のサンプリング画像を生成する、
    請求項7に記載の情報処理装置。
  10.  前記認識部は、
     前記算出部が算出した前記特徴量を蓄積する蓄積部をさらに備え、
     前記認識部は、
     前記蓄積部に蓄積された前記特徴量の少なくとも一部に基づき前記認識処理を行い前記認識処理結果を出力する、
    請求項1に記載の情報処理装置。
  11.  前記認識部は、
     前記蓄積部に蓄積された複数の特徴量を統合した統合特徴量に基づき前記認識処理を行う、
    請求項10に記載の情報処理装置。
  12.  前記認識部は、
     前記撮像情報の取得に応じて前記算出部により算出された前記特徴量を、該取得の直前までに前記蓄積部に蓄積された特徴量の少なくとも一部の特徴量と統合し、統合された特徴量に基づき前記認識処理を行う、
    請求項11に記載の情報処理装置。
  13.  前記認識部は、
     前記蓄積部に蓄積された前記複数の特徴量のうち、少なくとも前記分割領域それぞれにおいて最後に取得した前記サンプリング画素による前記サンプリング画像に基づく特徴量を除外した1以上の前記特徴量に基づき前記認識処理を行う、
    請求項11に記載の情報処理装置。
  14.  前記認識部は、
     前記蓄積部に蓄積された前記複数の特徴量のうち、前記分割領域ぞそれぞれから最初に取得した前記サンプリング画素による前記サンプリング画像に基づく特徴量に基づき前記認識処理を行う、
    請求項11に記載の情報処理装置。
  15.  前記算出部は、
     それぞれ前記特徴量を算出するための複数の演算部を含み、
     前記認識部は、
     前記複数の演算部のうち前記統合特徴量を出力するための演算部を、前記パラメータに応じて設定する、
    請求項11に記載の情報処理装置。
  16.  前記認識部は、
     前記統合特徴量を出力するための演算部の前記パラメータに応じた設定を、前記分割領域それぞれの前記画素位置に対応する前記画素毎の教師データに基づき行う、
    請求項15に記載の情報処理装置。
  17.  前記認識部は、
     前記分割領域それぞれの前記画素位置に対応する前記画素毎の教師データに基づき、前記サンプリング画像の前記特徴量に対する前記認識処理を行う、
    請求項1に記載の情報処理装置。
  18.  前記認識部は、
     前記撮像情報のうち、第1の撮像情報に設定された前記サンプリング画素と、時系列で該第1の撮像情報の次に取得される第2の撮像情報に設定された前記サンプリング画素と、を用いたRNN(Recurrent Neural Network)により機械学習処理を実行し、該機械学習処理の結果に基づき前記認識処理を行う、
    請求項1に記載の情報処理装置。
  19.  プロセッサにより実行される、
     画素によって構成される撮像情報が所定のパターンで分割された分割領域毎に設定された画素位置に従い取得されたサンプリング画素により構成されるサンプリング画像を生成する生成ステップと、
     前記サンプリング画像の特徴量を算出する算出ステップと、
     前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識ステップと、
     前記所定のパターンに応じて前記算出ステップおよび前記認識ステップのうち少なくとも一方のパラメータを設定する設定ステップと、
    を有する情報処理方法。
  20.  画素によって構成される撮像情報が所定のパターンで分割された分割領域毎に設定された画素位置に従い取得されたサンプリング画素により構成されるサンプリング画像を生成する生成ステップと、
     前記サンプリング画像の特徴量を算出する算出ステップと、
     前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識ステップと、
     前記所定のパターンに応じて前記算出ステップおよび前記認識ステップのうち少なくとも一方のパラメータを設定する設定ステップと、
    をコンピュータに実行させるための情報処理プログラム。
PCT/JP2021/011009 2020-03-30 2021-03-18 情報処理装置、情報処理方法および情報処理プログラム WO2021200199A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-060852 2020-03-30
JP2020060852 2020-03-30

Publications (1)

Publication Number Publication Date
WO2021200199A1 true WO2021200199A1 (ja) 2021-10-07

Family

ID=77929265

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/011009 WO2021200199A1 (ja) 2020-03-30 2021-03-18 情報処理装置、情報処理方法および情報処理プログラム

Country Status (1)

Country Link
WO (1) WO2021200199A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048326A (ja) * 2010-08-24 2012-03-08 Toyota Central R&D Labs Inc 画像処理装置及びプログラム
JP2014081826A (ja) * 2012-10-17 2014-05-08 Denso Corp 対象物識別装置
JP2017033529A (ja) * 2015-03-06 2017-02-09 パナソニックIpマネジメント株式会社 画像認識方法、画像認識装置およびプログラム
JP2017062638A (ja) * 2015-09-25 2017-03-30 日立オートモティブシステムズ株式会社 画像認識処理装置、及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048326A (ja) * 2010-08-24 2012-03-08 Toyota Central R&D Labs Inc 画像処理装置及びプログラム
JP2014081826A (ja) * 2012-10-17 2014-05-08 Denso Corp 対象物識別装置
JP2017033529A (ja) * 2015-03-06 2017-02-09 パナソニックIpマネジメント株式会社 画像認識方法、画像認識装置およびプログラム
JP2017062638A (ja) * 2015-09-25 2017-03-30 日立オートモティブシステムズ株式会社 画像認識処理装置、及びプログラム

Similar Documents

Publication Publication Date Title
JP7424051B2 (ja) 固体撮像素子、撮像装置、撮像方法および撮像プログラム
JP7105754B2 (ja) 撮像装置、及び、撮像装置の制御方法
EP3968273A1 (en) Image recognition device, solid-state imaging device, and image recognition method
US20210218923A1 (en) Solid-state imaging device and electronic device
JPWO2019035369A1 (ja) 固体撮像装置及びその駆動方法
WO2021200330A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2021200199A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2018121142A (ja) 固体撮像装置およびその駆動方法、並びに電子機器
WO2021200329A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US20240089577A1 (en) Imaging device, imaging system, imaging method, and computer program
US20240078803A1 (en) Information processing apparatus, information processing method, computer program, and sensor apparatus
US20230254600A1 (en) Information processing apparatus, information processing system, information processing method, and information processing program
US20230308779A1 (en) Information processing device, information processing system, information processing method, and information processing program
WO2020090272A1 (ja) 電子回路、固体撮像素子、および、電子回路の制御方法
KR20240035570A (ko) 고체 촬상 디바이스 및 고체 촬상 디바이스 작동 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21781482

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21781482

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP