WO2020059464A1 - 固体撮像システム、固体撮像装置、情報処理装置、画像処理方法、情報処理方法及びプログラム - Google Patents

固体撮像システム、固体撮像装置、情報処理装置、画像処理方法、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2020059464A1
WO2020059464A1 PCT/JP2019/034127 JP2019034127W WO2020059464A1 WO 2020059464 A1 WO2020059464 A1 WO 2020059464A1 JP 2019034127 W JP2019034127 W JP 2019034127W WO 2020059464 A1 WO2020059464 A1 WO 2020059464A1
Authority
WO
WIPO (PCT)
Prior art keywords
dnn
solid
state imaging
unit
processing unit
Prior art date
Application number
PCT/JP2019/034127
Other languages
English (en)
French (fr)
Inventor
清剛 花田
秀 小林
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Priority to CN201980060063.7A priority Critical patent/CN112703726B/zh
Priority to US17/275,410 priority patent/US12079712B2/en
Priority to EP19862570.9A priority patent/EP3855726A4/en
Publication of WO2020059464A1 publication Critical patent/WO2020059464A1/ja
Priority to US18/753,187 priority patent/US20240346299A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/555Constructional details for picking-up images in sites, inaccessible due to their dimensions or hazardous conditions, e.g. endoscopes or borescopes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/70SSIS architectures; Circuits associated therewith
    • H04N25/76Addressed sensors, e.g. MOS or CMOS sensors
    • H04N25/77Pixel circuitry, e.g. memories, A/D converters, pixel amplifiers, shared circuits or shared components
    • H04N25/771Pixel circuitry, e.g. memories, A/D converters, pixel amplifiers, shared circuits or shared components comprising storage means other than floating diffusion

Definitions

  • the present disclosure relates to a solid-state imaging system, a solid-state imaging device, an information processing device, an image processing method, an information processing method, and a program.
  • Patent Literature 1 discloses a technique capable of improving the identification performance for an image based on the likelihood indicating the likeness of a detected object.
  • CMOS complementary metal oxide semiconductor
  • DSP digital signal processors
  • Patent Literature 1 since the target image needs to be output from the image sensor, the amount of data to be output is large, and personal information may not be protected.
  • the present disclosure proposes a solid-state imaging system, a solid-state imaging device, an information processing device, an image processing method, an information processing method, and a program that can reduce the amount of data output from an image sensor and protect personal information. I do.
  • one embodiment of a solid-state imaging system includes a solid-state imaging device and an information processing device, wherein the solid-state imaging device performs a part of a DNN algorithm on image data.
  • a first DNN processing unit that executes the first DNN to generate a first result
  • the information processing apparatus executes the rest of the DNN algorithm on the first result obtained from the solid-state imaging device by a second DNN
  • a second DNN processing unit for generating a second result.
  • FIG. 1 is a block diagram illustrating an example of a configuration of a solid-state imaging system according to a first embodiment of the present disclosure.
  • FIG. 2 is a schematic diagram for describing an example of a connection relationship of the solid-state imaging system according to the first embodiment of the present disclosure.
  • 1 is a schematic diagram illustrating an example of a stacked structure of a solid-state imaging device according to a first embodiment of the present disclosure.
  • FIG. 2 is a schematic diagram for describing processing of the solid-state imaging system according to the first embodiment of the present disclosure.
  • FIG. 3 is a schematic diagram for explaining a configuration of a DNN algorithm.
  • FIG. 4 is a schematic diagram for explaining an example of a division process of a DNN algorithm.
  • FIG. 2 is a sequence diagram illustrating an example of a processing flow of the solid-state imaging system according to the first embodiment of the present disclosure.
  • FIG. 3 is a sequence diagram illustrating an example of a processing flow of a control unit and a DNN processing unit of each of the solid-state imaging device and the information processing device according to the first embodiment of the present disclosure.
  • FIG. 13 is a block diagram illustrating an example of a configuration of a solid-state imaging system according to a second embodiment of the present disclosure. It is a block diagram showing an example of connection relation of a solid-state imaging system concerning a 2nd embodiment of this indication. It is a block diagram showing an example of connection relation of a solid-state imaging system concerning a 2nd embodiment of this indication.
  • FIG. 1 is a hardware configuration diagram illustrating an example of a computer that realizes functions of a solid-state imaging device and an information processing device according to the present disclosure. It is a figure showing an example of the schematic structure of an endoscope operation system.
  • FIG. 3 is a block diagram illustrating an example of a functional configuration of a camera head and a CCU. It is a block diagram showing an example of a schematic structure of a vehicle control system. It is explanatory drawing which shows an example of the installation position of a vehicle exterior information detection part and an imaging part.
  • First embodiment 1-1 Configuration of solid-state imaging system according to first embodiment 1-2. Configuration of DNN algorithm 1-3. 1. Processing of solid-state imaging system according to first embodiment Second embodiment 2-1. Configuration of solid-state imaging system according to second embodiment 2-2. 2. Configuration of a modified example of the solid-state imaging system according to the second embodiment Hardware configuration 4. 4. Example of application to endoscopic surgery system Example of application to moving objects
  • FIG. 1 is a block diagram illustrating an example of a configuration of a solid-state imaging system according to the first embodiment of the present disclosure.
  • the solid-state imaging system 1 includes a solid-state imaging device 100 and an information processing device 200.
  • the solid-state imaging device 100 and the information processing device 200 exist in the same housing 10.
  • the solid-state imaging device 100 and the information processing device 200 exist as different chips in the same housing 10.
  • the solid-state imaging device 100 and the information processing device 200 are implemented by SoC (System-on-a-chip), MCM (Multi-Chip Module), SIP (System In Package), SOP (Small Outline Package), and the like. ing.
  • SoC System-on-a-chip
  • MCM Multi-Chip Module
  • SIP System In Package
  • SOP Systemmall Outline Package
  • the solid-state imaging system 1 may be communicably connected to an external device via the Internet communication network 300, for example.
  • the solid-state imaging system 1 may be communicably connected to an external device by wireless communication, for example.
  • the solid-state imaging system 1 may include a plurality of solid-state imaging devices 100 and a plurality of information processing devices 200, respectively. Further, the number of the solid-state imaging devices 100 included in the solid-state imaging system 1 and the number of the information processing devices 200 may be different.
  • the solid-state imaging system 1 can be applied to, for example, a virtual personal assistant (VPA) or a vehicle-mounted camera.
  • VPN virtual personal assistant
  • the solid-state imaging device 100 includes an imaging unit 110, an imaging processing unit 120, a first DNN processing unit 130, a first storage unit 140, a first control unit 150, a selector 160, An I / F 170 and a communication control unit 180 are provided.
  • FIG. 3 is a schematic diagram illustrating an example of a stacked structure of the solid-state imaging device 100 according to the first embodiment.
  • the solid-state imaging device 100 has, for example, a laminated structure in which a rectangular first substrate 11 and a rectangular second substrate 12 are bonded.
  • the first substrate 11 and the second substrate 12 are obtained by dividing the first substrate 11 and the second substrate 12 into chips, respectively, and then dividing the divided first substrate 11 and the second substrate 12 into chips.
  • the bonding may be performed by a so-called CoC (Chip on Chip) method.
  • the singulated first substrate 11 is separated into individual chips (ie, The substrate may be bonded to the second substrate 12 in a wafer state by a so-called CoW (Chip on Wafer) method.
  • the first substrate 11 and the second substrate 12 may be bonded together in a so-called WoW (Wafer-on-Wafer) method in a wafer state.
  • the size of the first substrate 11 and the size of the second substrate 12 may be the same or different.
  • the first substrate 11 and the second substrate 12 are, for example, semiconductor substrates such as a silicon substrate.
  • the second substrate 12 includes, for example, an imaging processing unit 120, a first DNN processing unit 130, a first storage unit 140, a first control unit 150, and a selector among the components of the solid-state imaging device 100 illustrated in FIG. 160, a communication I / F 170, and a communication control unit 180 are arranged.
  • the imaging unit 110 of the solid-state imaging device 100 has a configuration in which components other than the imaging unit 110 are stacked and mounted.
  • the imaging unit 110 includes, for example, an optical system including a zoom lens, a focus lens, an aperture, and the like, and a pixel array unit having a configuration in which unit pixels including light receiving elements such as photodiodes are arranged in a two-dimensional matrix. Light incident from the outside is imaged on a light receiving surface of the pixel array unit where light receiving elements are arranged by passing through an optical system. Each unit pixel of the pixel array unit generates image data corresponding to the amount of incident light by photoelectrically converting light incident on the light receiving element. The imaging unit 110 outputs the captured image data to the imaging processing unit 120.
  • an optical system including a zoom lens, a focus lens, an aperture, and the like
  • a pixel array unit having a configuration in which unit pixels including light receiving elements such as photodiodes are arranged in a two-dimensional matrix. Light incident from the outside is imaged on a light receiving surface of the pixel array unit where light receiving elements are arranged by passing through an optical system. Each unit pixel of the
  • the imaging processing unit 120 converts, for example, image data into digital image data.
  • the imaging processing unit 120 performs, for example, “preprocessing”, “data extension”, and “data normalization” on digitally converted image data.
  • the pre-process is a process executed for the imaging unit 110 at the time of inference and learning, and includes, for example, processes such as dewarping, cropping, lens shading correction, downscaling, and upscaling.
  • Data expansion is a process performed on image data at the time of learning, for example, changing the aspect ratio of image data, moving, rotating, inverting, or reversing image data in parallel. This includes a process of deforming the image.
  • the data extension includes, for example, a process of changing the shading of the color of the image data or changing the color.
  • the data extension includes, for example, a process of adding noise to image data.
  • Data normalization is a process performed on image data at the time of inference and learning. For example, the average of pixel values of image data is set to 0, the variance of pixel values is set to 1, and the correlation between components is set. To 0 and whitening the image data.
  • the imaging processing unit 120 outputs digital image data on which various processes have been performed to the first DNN processing unit 130 and the selector 160.
  • the first DNN processing unit 130 is included in the image data by executing DNN on the image data input from the imaging processing unit 120 based on the DNN model stored in the first storage unit 140, for example. Execute object recognition processing. Specifically, the first DNN processing unit 130 executes the first DNN on the image data received from the imaging processing unit 120, executes a part of an algorithm constituting the DNN model, and generates an execution result. The execution result here may be called a feature map, a map, or simply an image. The first DNN processing unit 130 executes the first DNN on the image data to generate a map of the intermediate layer and a first result.
  • the first DNN processing unit 130 generates, as a first result, an intermediate layer map of the entire input image data and an intermediate layer map of a part of the input image data (for example, ROI (Region Of Interest). ) Is output.
  • the first DNN processing unit 130 may output both the entire intermediate map and a part of the intermediate map, or may output one of the intermediate maps.
  • the first DNN processing unit 130 calculates ROI information and an object existence probability as a first result.
  • the first DNN processing unit 130 outputs a completion notification to the first control unit 150.
  • First DNN processing section 130 outputs the first result to selector 160.
  • the first DNN processing unit 130 performs, for example, a convolution operation, a bias addition, an activation operation, and a pooling process on the image data received from the imaging processing unit 120 to perform the object detection process.
  • Examples of the activation function used by the first DNN processing unit 130 in the activation operation include, but are not limited to, an identity function, a sigmoid function, a softmax function, a step function, a ReLU function, and a Tanh function. .
  • the first DNN processing unit 130 calculates an error or a value of a loss function during learning.
  • the first DNN processing unit 130 calculates an error of the target DNN model by using, for example, a gradient descent method, a stochastic gradient descent method, a Newton method, a quasi-Newton method, and a backpropagation method.
  • the first DNN processing unit 130 calculates the value of the loss function by using a method such as a least square error and a cross entropy error.
  • the first storage unit 140 stores, for example, at least one DNN model executed by the first DNN processing unit 130.
  • the first storage unit 140 can be realized by a semiconductor memory element such as a random access memory (RAM), a read only memory (ROM), and a flash memory (flash memory).
  • RAM random access memory
  • ROM read only memory
  • flash memory flash memory
  • the first control unit 150 controls, for example, the first DNN processing unit 130. Specifically, the first control unit 150 controls, for example, the first DNN processing unit 130 to execute, suspend, or stop the first DNN.
  • the first control unit 150 generates, for example, first control information.
  • the first control unit 150 transmits the first control information to the information processing device 200, for example.
  • the first control information includes, for example, information on the first DNN executed by the first DNN processing unit 130 among the DNN algorithms to be executed on the image data. Further, the first control information includes, for example, a synchronization signal.
  • the first control unit 150 transmits, for example, an execution completion notification of the first DNN processing unit 130 to the information processing device 200.
  • the first control unit 150 receives, for example, the second control information from the second control unit 250 of the information processing device 200.
  • the first control unit 150 controls the first DNN processing unit 130 based on, for example, the second control information.
  • the first control unit 150 may control the first DNN processing unit 130 to execute the DNN algorithm on the image data in a pipeline manner. Specifically, the first control unit 150 executes the first DNN on certain image data, and then executes the first DNN on the next image data before receiving the completion of the second DNN process on the image data.
  • the first DNN processing unit 130 may be controlled to execute.
  • DNN processing can be efficiently performed on a plurality of image data captured by the imaging unit 110.
  • the selector 160 receives, for example, digital image data subjected to various processes from the imaging processing unit 120.
  • the selector 160 receives a first result from the first DNN processing unit 130, for example.
  • the selector 160 selectively outputs data received from the imaging processing unit 120 and the first DNN processing unit 130 to the communication I / F 170 according to a control signal from a control unit of a selector (not shown), for example.
  • the communication I / F 170 includes a transmission unit 171 and a reception unit 172.
  • the solid-state imaging device 100 transmits data to the information processing device 200 via the transmission unit 171.
  • the solid-state imaging device 100 receives data from the information processing device 200 via the receiving unit 172.
  • the communication control unit 180 controls the communication I / F 170. Thereby, communication I / F 170 transmits data to information processing device 200 and receives data from information processing device 200.
  • the communication control unit 180 may, for example, encrypt data.
  • the communication control unit 180 can use a common key encryption such as DES (Data Encryption Standard) or AES (Advanced Encryption Standard).
  • the communication control unit 180 may use an encryption mode such as ECB (Electronic Codebook), CBC (Cipher BlockChaining), CFB (Cipher Feedback), OFB (Output Feedback), and CTR (Counter).
  • the information processing apparatus 200 includes a communication I / F 210, a communication control unit 220, a second DNN processing unit 230, a second storage unit 240, and a second control unit 250.
  • the information processing device 200 is, for example, an application processor.
  • the communication I / F 210 includes a receiving unit 211 and a transmitting unit 212.
  • the information processing device 200 receives data from the solid-state imaging device 100 via the receiving unit 211.
  • the information processing device 200 transmits data to the solid-state imaging device 100 via the transmission unit 212.
  • the communication control unit 220 controls the communication I / F 210. Thereby, the communication I / F 210 transmits data to the information processing device 200 and receives data from the information processing device 200.
  • the communication control unit 220 may, for example, encrypt data and communicate with the solid-state imaging device 100. When encrypting, the communication control unit 220 can use a common key encryption such as DES or AES. In addition, the communication control unit 220 may use an encryption mode such as ECB, CBC, CFB, OFB, and CTR.
  • the second DNN processing unit 230 performs DNN on the first result input from the solid-state imaging device 100 based on the DNN model stored in the second storage unit 240, for example, to include the first result in the image data. Of the object to be recognized. Specifically, the second DNN processing unit 230 executes the second DNN on the first result received from the solid-state imaging device 100, and removes the remaining part of the algorithm constituting the DNN model that has not been executed by the first DNN. Execute. Thereby, the second DNN processing unit 230 outputs the second result. Specifically, the second DNN processing unit 230 recognizes an object included in the image data as a second result.
  • the second DNN processing unit 230 executes, for example, the ROI and the object classification by merging the first result and the second result.
  • the second DNN processing unit 230 outputs a completion notification to the second control unit 250.
  • the second DNN processing unit 230 outputs, for example, the second result to an external device.
  • the second DNN processing unit 230 performs the object detection process by executing, for example, a convolution operation, a bias addition, an activation operation, and a pooling process on the image data received from the imaging processing unit 120.
  • Examples of the activation function used by the second DNN processing unit 230 in the activation operation include, but are not limited to, an identity function, a sigmoid function, a softmax function, a step function, a ReLU function, and a Tanh function. .
  • the second DNN processing unit 230 calculates an error or a value of a loss function during learning.
  • the second DNN processing unit 230 calculates an error of the target DNN model using a method such as a gradient descent method, a stochastic gradient descent method, a Newton method, a quasi-Newton method, and a back propagation method.
  • the second DNN processing unit 230 calculates the value of the loss function by using a method such as a least square error and a cross entropy error.
  • the second storage unit 240 stores, for example, at least one DNN model executed by the second DNN processing unit 230.
  • one DNN algorithm is configured by combining the DNN model stored in the first storage unit 140 of the solid-state imaging device 100 and the DNN model stored in the second storage unit 240. Accordingly, one DNN algorithm can be executed by the two devices, the solid-state imaging device 100 and the information processing device 200. In other words, in this embodiment, one DNN algorithm can be divided into two devices, the solid-state imaging device 100 and the information processing device 200, and executed.
  • the second storage unit 240 can be realized by a semiconductor memory device such as a RAM, a ROM, and a flash memory.
  • the second control unit 250 controls, for example, the second DNN processing unit 230. Specifically, the second control unit 250 controls, for example, the second DNN processing unit 230 to execute, interrupt, or stop the second DNN.
  • the second control unit 250 receives the first control information from the first control unit 150 of the solid-state imaging device 100, for example, and controls the second DNN processing unit 230 based on the received first control information.
  • the second control unit 250 generates, for example, second control information.
  • the second control unit 250 transmits the generated second control information to the solid-state imaging device 100, for example.
  • the second control information includes, for example, information on the second DNN executed by the second DNN processing unit 230 for the first result.
  • the second control information includes, for example, a synchronization signal.
  • the second control unit 250 transmits, for example, an execution completion notification of the second DNN processing unit 230 to the solid-state imaging device 100.
  • the second control unit 250 may control the second DNN processing unit 230 to execute the DNN algorithm on the image data in a pipeline manner. Specifically, the second control unit 250 executes a second DNN on a certain first result, and generates a second result. Then, the second DNN processing unit 230 transmits the second DNN to the next first result before the second result is transmitted to the other processing device and the process completion notification for the second result is received from the other processing device.
  • the second DNN processing unit 230 may be controlled to execute. As a result, the present embodiment can efficiently execute the DNN process on a plurality of first results.
  • FIG. 4 is a schematic diagram for explaining processing of the first DNN processing unit 130 and the second DNN processing unit 230.
  • the first DNN processing unit 130 receives image data from the imaging processing unit 120 (Step S1).
  • the first DNN processing unit 130 receives image data including, for example, a dog D and a person M.
  • the first DNN processing unit 130 executes the first DNN on the image data received in step S1 (step S2).
  • the first DNN processing unit 130 executes the first DNN on the image data, and generates a feature map such as an intermediate layer as a first result.
  • the feature map indicates that some kind of object exists with high probability in the region R1 and the region R2.
  • first DNN processing section 130 outputs the feature map to second DNN processing section 230.
  • the first DNN processing unit 130 may output the entire feature map to the second DNN processing unit 230, or may output only the feature map of the region R1 and the region R2.
  • the first DNN processing unit 130 encodes the image data captured by the imaging unit 110 and outputs the encoded data to the second DNN processing unit 230. Therefore, since the data output from the first DNN processing unit 130 does not include the original image data of the dog D or the person M captured by the imaging unit 110, the personal information can be protected. Further, since the capacity of the feature map is smaller than that of the image data, the amount of data transmitted from the solid-state imaging device 100 to the information processing device 200 can be reduced.
  • the second DNN processing unit 230 executes the second DNN on the feature map (first result) obtained in step S2 (step S3). Thereby, the second DNN processing unit 230 can recognize that the dog D exists in the region R1 of the feature map and the person M exists in the region R2.
  • a part of the DNN algorithm is executed by the first DNN processing unit 130, and the rest is executed by the second DNN processing unit 230, thereby performing the recognition processing of the object included in the image data.
  • one DNN algorithm is executed by two DNN processing units, the first DNN processing unit 130 and the second DNN processing unit 230.
  • FIG. 5 is a schematic diagram illustrating an example of the configuration of the DNN algorithm.
  • FIG. 5 is a schematic diagram showing an example of the structure of the object detection algorithm 20.
  • CNN Convolutional Neural Network
  • the image data I is input to the convolution layer CL.
  • the convolution layer CL performs CNN on the entire image data I, and outputs a feature map FM1.
  • the processing so far is the image processing using the CNN 21.
  • the object area recognition algorithm is executed on the feature map FM1.
  • the object region recognition algorithm By executing the object region recognition algorithm on the feature map FM, a candidate region where an object included in the feature map exists is extracted. Specifically, in the example shown in FIG. 5, RoI1, RoI2, and RoI3 are extracted from the feature map FM1 as candidate regions where the object exists.
  • the processing so far is the image processing using the object area recognition algorithm 22.
  • RoI1, RoI2, and RoI3 are superimposed on the feature map FM1, to generate a RoI feature map FM2, and store it in the Pooling layer.
  • RoI ⁇ ⁇ ⁇ pooling is performed by the RoI pooling layer on the feature map FM1 on which RoI1, RoI2, and RoI3 are superimposed.
  • RoI @ pooling is a process of extracting a region including RoI1, RoI2, and RoI3 as an individual feature map.
  • regions including RoI1, RoI2, and RoI3 are extracted as a feature map FM3, a feature map FM4, and a feature map FM5, respectively.
  • the feature map FM3, the feature map FM4, and the feature map FM5 are input to the fully connected layer 31.
  • the classification layer 33 and the rectangular regression layer 34 share the feature map FM3, the feature map FM4, and the feature map FM5 input to the fully connected layer 31.
  • the ⁇ classification layer 33 classifies the types of objects included in the feature maps FM3, FM4, and FM5. Then, the classification layer 33 outputs a classification result 44.
  • the rectangle regression layer 34 generates a rectangle that surrounds the objects included in the feature maps FM3, FM4, and FM5.
  • ⁇ Feature Map FM3, Feature Map FM4, and Feature Map FM5 are input to FCN (Fully Convolution Network) 32 in parallel with the processing of classification layer 33 and rectangular regression layer 34.
  • the feature map FM3, the feature map FM4, and the feature map FM5 are input to the FCN 32 after RoIAalign is executed by the RoIAalign layer.
  • RoIAAlign is a process of correcting a rounding error generated when generating the RoI feature map FM2 from the image data I by using a bilinear interpolation method.
  • the FCN 32 classifies an object included in each feature map, generates a rectangle surrounding the object, and masks the object for each of the feature maps FM3, FM4, and FM5. . Then, the FCN 32 outputs a classification result 41, a rectangular frame 42, and a mask result 43 for each feature map.
  • the processing so far is the object detection algorithm 20.
  • the first DNN processing unit 130 and the second DNN processing unit 230 perform any of the processes included in the DNN algorithm illustrated in FIG. May be performed.
  • the processing up to the generation of the feature map FM1 by the first DNN processing unit 130 may be executed, and the remaining processing may be executed by the second DNN processing unit 230.
  • the first DNN processing unit 130 executes the processing up to the extraction of the feature map FM3, the feature map FM4, and the feature map FM5 in the object detection algorithm 20, and the second DNN processing unit 230 executes only the processing of the FCN 32. May be executed.
  • the processing executed by the first DNN processing unit 130 can be arbitrarily determined. For example, what process the first DNN processing unit 130 executes may be determined according to the performance of the first DNN processing unit 130.
  • FIG. 6 is a schematic diagram illustrating an example of processing executed by the first DNN processing unit 130 and the second DNN processing unit 230.
  • a plurality of image data is input from the imaging processing unit 120 to the first DNN processing unit 130 (step S11).
  • the first DNN processing unit 130 performs an image recognition process on the image data received from the imaging processing unit 120 to recognize an object included in the image data (step S12). Specifically, the first DNN processing unit 130 performs CNN on each image data, thereby recognizing an object included in the image data. Then, the first DNN processing unit 130 generates metadata from an execution result of each image data by the CNN.
  • the second DNN processing unit 230 recognizes the relationship between the metadata generated by the first DNN processing unit 130 using an RNN (Recurrent Neural Network) (step S13). Specifically, the second DNN processing unit 230 recognizes the relationship between the metadata using an LSTM (Long Short-Term Memory) network.
  • RNN Recurrent Neural Network
  • the second DNN processing unit 230 recognizes the relationship between the metadata and performs captioning (step S14). For example, the second DNN processing unit 230 performs captions such as “boy”, “playing”, and “golf” on the image data.
  • the relationship between image frames can be recognized by combining the object recognition and the LSTM.
  • one DNN algorithm is divided and executed by executing object recognition by the first DNN processing unit 130 and executing LSTM by the second DNN processing unit 230.
  • the description has been given assuming that a plurality of still images are input.
  • the recognition process can be similarly performed on a moving image.
  • FIG. 7 is a sequence diagram illustrating a flow of processing between the solid-state imaging device 100 and the information processing device 200.
  • the solid-state imaging device 100 controls the first DNN processing unit 130 (Step S101). Specifically, the solid-state imaging device 100 controls the first DNN processing unit 130 by the first control unit 150.
  • the solid-state imaging device 100 executes the first DNN on the input image data (step S102). Specifically, in the solid-state imaging device 100, the first DNN processing unit 130 executes the first DNN on the input image data, and outputs a first result.
  • the solid-state imaging device 100 generates first control information (Step S103). Specifically, in the solid-state imaging device 100, the first control unit 150 generates the first control information.
  • the solid-state imaging device 100 transmits the first result and the first control information to the information processing device 200 (Step S104). Specifically, the solid-state imaging device 100 transmits the first result and the first control information to the information processing device 200 by the transmission unit 171.
  • the transmitting unit 171 may transmit the first result to the information processing device 200 before the second DNN processing unit 230 executes.
  • the information processing device 200 controls the second DNN processing unit 230 (Step S105). Specifically, the information processing device 200 controls the second DNN processing unit 230 by the second control unit 250 based on the first control information.
  • the information processing device 200 executes the second DNN on the first result (step S106). Specifically, the information processing device 200 executes the second DNN by the second DNN processing unit 230, and generates a second result.
  • the information processing device 200 generates second control information (step S107). Specifically, the information processing device 200 causes the second control unit 250 to generate the second control information.
  • the information processing device 200 transmits the second result to an external device (step S108). Specifically, the information processing device 200 transmits the second result to the external device by the second DNN processing unit 230.
  • the information processing apparatus 200 has been described as transmitting the second result to the external apparatus, but this is merely an example and does not limit the present disclosure.
  • the information processing device 200 may store the second result without outputting it to an external device.
  • the information processing device 200 transmits the second control information to the solid-state imaging device 100 (Step S109). Specifically, the information processing device 200 transmits the second control information to the solid-state imaging device 100 by the transmission unit 212.
  • FIG. 8 is a sequence diagram illustrating an example of a processing flow of the first DNN processing unit 130, the first control unit 150, the second DNN processing unit 230, and the second control unit 250.
  • the first control unit 150 outputs the first DNN processing unit control information to the first DNN processing unit 130 (Step S201).
  • the first control unit 150 causes the first DNN processing unit 130 to execute, interrupt, or stop the DNN according to the first DNN processing unit control information.
  • the first DNN processing unit 130 executes the first DNN on the input image data according to the first DNN processing unit control information (step S202).
  • the first DNN processing unit 130 outputs a completion notification to the first control unit 150 (step S203).
  • the first control unit 150 transmits the first control information to the second control unit 250 (step S204). Specifically, the first control information is transmitted from transmitting section 171 to receiving section 211. Then, the second control unit 250 receives the first control information from the receiving unit 211.
  • the first DNN processing unit 130 transmits the first result, which is the execution result of the first DNN, to the second DNN processing unit 230 (step S205). Specifically, the first result is transmitted from transmitting section 171 to receiving section 211. Then, the second DNN processing unit 230 receives the first result from the receiving unit 211.
  • the second control unit 250 outputs the second DNN processing unit control information to the second DNN processing unit 230 based on the first control information (step S206).
  • the second DNN processing unit 230 executes the second DNN on the input first result in accordance with the second DNN processing unit control information (step S207).
  • the second DNN processing unit 230 outputs a completion notification to the second control unit 250 (step S208).
  • the second DNN processing unit 230 transmits the second result, which is the execution result of the second DNN, to the outside (step S209).
  • the second DNN processing unit 230 has been described as transmitting the second result to the outside, but this is merely an example and does not limit the present disclosure.
  • the second DNN processing unit 230 may store the second result without outputting it to the outside.
  • the second control unit 250 transmits the second control information to the first control unit 150 (Step S210). Specifically, the second control information is transmitted from transmitting section 212 to receiving section 172. Then, the first control unit 150 receives the first control information from the receiving unit 172.
  • FIG. 9 is a block diagram illustrating an example of a configuration of a solid-state imaging system according to the second embodiment.
  • the solid-state imaging system 1A includes a solid-state imaging device 100 and an information processing device 200A.
  • the constituent elements and operations of each device constituting the solid-state imaging system 1A are the same as those of the solid-state imaging system 1 according to the first embodiment, and thus description thereof is omitted.
  • the solid-state imaging device 100 and the information processing device 200A are communicably connected, for example, via an Internet communication network 300.
  • the communication I / F 170 of the solid-state imaging device 100 and the communication I / F 210 of the information processing device 200A need only be communicably connected via the Internet communication network 300.
  • the communication I / F 170 of the solid-state imaging device 100 and the communication I / F 210 of the information processing device 200A may be communicably connected by wireless communication.
  • the solid-state imaging system 1A illustrated in FIG. 10 includes one solid-state imaging device 100 and one information processing device 200A, but this is merely an example and does not limit the present disclosure.
  • the solid-state imaging system 1A may include a plurality of solid-state imaging devices 100 and a plurality of information processing devices 200A. Further, the number of the solid-state imaging devices 100 included in the solid-state imaging system 1A and the number of the information processing devices 200A may be different.
  • the information processing apparatus 200A is, for example, a cloud server communicably connected to the solid-state imaging device 100 and the Internet communication network 300 or wirelessly.
  • the solid-state imaging system 1A can be applied to, for example, FA (Factory Automation) or a surveillance camera.
  • FIG. 11 is a diagram for describing a modification of the connection relation of the solid-state imaging system according to the second embodiment of the present disclosure.
  • the solid-state imaging system 1A-1 includes a solid-state imaging device 100-1, a solid-state imaging device 100-2,..., A solid-state imaging device 100-N (N is an integer of 3 or more), and an information processing device 200A-1. , Information processing device 200A-2,..., Information processing device 200-N. That is, in the solid-state imaging system 1A-1, a plurality of solid-state imaging devices and a plurality of information processing devices are communicably connected via the Internet communication network 300. In the solid-state imaging system 1A-1, the number of solid-state imaging devices and the number of information processing devices may be the same or different.
  • the solid-state imaging system 1A-1 includes a plurality of solid-state imaging devices and a plurality of information processing devices, respectively, but this is merely an example and does not limit the present disclosure.
  • the solid-state imaging system 1A-1 may include, for example, one solid-state imaging device and a plurality of information processing devices. Further, the solid-state imaging system 1A-1 may include, for example, a plurality of solid-state imaging devices and one information processing device.
  • FIG. 12 is a hardware configuration diagram illustrating an example of a computer 1000 that implements the functions of the solid-state imaging device 100.
  • the computer 1000 has a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, a HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
  • Each unit of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on a program stored in the ROM 1300 or the HDD 1400, and controls each unit. For example, the CPU 1100 loads a program stored in the ROM 1300 or the HDD 1400 into the RAM 1200, and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 starts up, a program that depends on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium for non-temporarily recording a program executed by the CPU 1100 and data used by the program.
  • HDD 1400 is a recording medium for recording a program according to the present disclosure, which is an example of program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to the external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device via the communication interface 1500 or transmits data generated by the CPU 1100 to another device.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard and a mouse via the input / output interface 1600.
  • the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600.
  • the input / output interface 1600 may function as a media interface that reads a program or the like recorded on a predetermined recording medium (media).
  • the medium is, for example, an optical recording medium such as a DVD (Digital Versatile Disc), a PD (Phase changeable rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. It is.
  • an optical recording medium such as a DVD (Digital Versatile Disc), a PD (Phase changeable rewritable Disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. It is.
  • the CPU 1100 of the computer 1000 executes a program loaded on the RAM 1200 to execute the function of each unit configuring the solid-state imaging device 100.
  • the HDD 1400 stores a program according to the present disclosure. Note that the CPU 1100 reads and executes the program data 1450 from the HDD 1400. However, as another example, the CPU 1100 may acquire these programs from another device via the external network 1550.
  • the technology (the present technology) according to the present disclosure can be applied to various products.
  • the technology according to the present disclosure may be applied to an endoscopic surgery system.
  • FIG. 13 is a diagram illustrating an example of a schematic configuration of an endoscopic surgery system to which the technology (the present technology) according to the present disclosure may be applied.
  • FIG. 13 shows a state in which an operator (doctor) 11131 is performing an operation on a patient 11132 on a patient bed 11133 using the endoscopic surgery system 11000.
  • the endoscopic surgery system 11000 includes an endoscope 11100, other surgical tools 11110 such as an insufflation tube 11111 and an energy treatment tool 11112, and a support arm device 11120 that supports the endoscope 11100.
  • a cart 11200 on which various devices for endoscopic surgery are mounted.
  • the endoscope 11100 includes a lens barrel 11101 having a predetermined length from the distal end inserted into the body cavity of the patient 11132, and a camera head 11102 connected to the proximal end of the lens barrel 11101.
  • the endoscope 11100 which is configured as a so-called rigid endoscope having a hard lens barrel 11101 is illustrated.
  • the endoscope 11100 may be configured as a so-called flexible endoscope having a soft lens barrel. Good.
  • An opening in which an objective lens is fitted is provided at the tip of the lens barrel 11101.
  • a light source device 11203 is connected to the endoscope 11100, and light generated by the light source device 11203 is guided to the distal end of the lens barrel by a light guide that extends inside the lens barrel 11101, and the objective The light is radiated toward the observation target in the body cavity of the patient 11132 via the lens.
  • the endoscope 11100 may be a direct view scope, a perspective view scope, or a side view scope.
  • An optical system and an image sensor are provided inside the camera head 11102, and the reflected light (observation light) from the observation target is focused on the image sensor by the optical system.
  • the observation light is photoelectrically converted by the imaging element, and an electric signal corresponding to the observation light, that is, an image signal corresponding to the observation image is generated.
  • the image signal is transmitted as raw data to a camera control unit (CCU: ⁇ Camera ⁇ Control ⁇ Unit) 11201.
  • the $ CCU 11201 is configured by a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and the like, and controls the operations of the endoscope 11100 and the display device 11202 overall. Further, the CCU 11201 receives an image signal from the camera head 11102, and performs various image processing on the image signal for displaying an image based on the image signal, such as a development process (demosaicing process).
  • a development process demosaicing process
  • the display device 11202 displays an image based on an image signal on which image processing has been performed by the CCU 11201 under the control of the CCU 11201.
  • the light source device 11203 includes a light source such as an LED (Light Emitting Diode), for example, and supplies the endoscope 11100 with irradiation light when imaging an operation part or the like.
  • a light source such as an LED (Light Emitting Diode), for example, and supplies the endoscope 11100 with irradiation light when imaging an operation part or the like.
  • the input device 11204 is an input interface for the endoscopic surgery system 11000.
  • the user can input various information and input instructions to the endoscopic surgery system 11000 via the input device 11204.
  • the user inputs an instruction or the like to change imaging conditions (type of irradiation light, magnification, focal length, and the like) by the endoscope 11100.
  • the treatment instrument control device 11205 controls the driving of the energy treatment instrument 11112 for cauterizing, incising a tissue, sealing a blood vessel, and the like.
  • the insufflation device 11206 is used to inflate the body cavity of the patient 11132 for the purpose of securing the visual field by the endoscope 11100 and securing the working space of the operator.
  • the recorder 11207 is a device that can record various types of information related to surgery.
  • the printer 11208 is a device capable of printing various types of information on surgery in various formats such as text, images, and graphs.
  • the light source device 11203 that supplies the endoscope 11100 with irradiation light at the time of imaging the operation site can be configured by, for example, a white light source including an LED, a laser light source, or a combination thereof.
  • a white light source is configured by a combination of the RGB laser light sources, the output intensity and output timing of each color (each wavelength) can be controlled with high accuracy. It can be carried out.
  • the laser light from each of the RGB laser light sources is radiated to the observation target in a time-division manner, and the driving of the image pickup device of the camera head 11102 is controlled in synchronization with the irradiation timing. It is also possible to capture the image obtained in a time-division manner. According to this method, a color image can be obtained without providing a color filter in the image sensor.
  • the driving of the light source device 11203 may be controlled so as to change the intensity of output light at predetermined time intervals.
  • the driving of the image sensor of the camera head 11102 in synchronization with the timing of the change of the light intensity, an image is acquired in a time-division manner, and the image is synthesized, so that a high dynamic image without so-called blackout and whiteout is obtained. An image of the range can be generated.
  • the light source device 11203 may be configured to be able to supply light in a predetermined wavelength band corresponding to special light observation.
  • special light observation for example, by utilizing the wavelength dependence of the absorption of light in the body tissue, by irradiating light in a narrower band than the irradiation light (ie, white light) at the time of normal observation, the surface of the mucous membrane is exposed.
  • a so-called narrow-band light observation (Narrow / Band / Imaging) for photographing a predetermined tissue such as a blood vessel with high contrast is performed.
  • fluorescence observation in which an image is obtained by fluorescence generated by irradiating excitation light may be performed.
  • body tissue is irradiated with excitation light to observe fluorescence from the body tissue (autofluorescence observation), or a reagent such as indocyanine green (ICG) is locally injected into the body tissue and Irradiation with excitation light corresponding to the fluorescence wavelength of the reagent can be performed to obtain a fluorescence image.
  • the light source device 11203 can be configured to be able to supply narrowband light and / or excitation light corresponding to such special light observation.
  • FIG. 14 is a block diagram showing an example of a functional configuration of the camera head 11102 and the CCU 11201 shown in FIG.
  • the camera head 11102 includes a lens unit 11401, an imaging unit 11402, a driving unit 11403, a communication unit 11404, and a camera head control unit 11405.
  • the CCU 11201 includes a communication unit 11411, an image processing unit 11412, and a control unit 11413.
  • the camera head 11102 and the CCU 11201 are communicably connected to each other by a transmission cable 11400.
  • the lens unit 11401 is an optical system provided at a connection with the lens barrel 11101. Observation light taken in from the tip of the lens barrel 11101 is guided to the camera head 11102, and enters the lens unit 11401.
  • the lens unit 11401 is configured by combining a plurality of lenses including a zoom lens and a focus lens.
  • the imaging unit 11402 includes an imaging element.
  • the number of imaging elements constituting the imaging unit 11402 may be one (so-called single-panel type) or plural (so-called multi-panel type).
  • an image signal corresponding to each of RGB may be generated by each image sensor, and a color image may be obtained by combining the image signals.
  • the imaging unit 11402 may be configured to include a pair of imaging elements for acquiring right-eye and left-eye image signals corresponding to 3D (Dimensional) display. By performing the 3D display, the operator 11131 can more accurately grasp the depth of the living tissue in the operative part.
  • a plurality of lens units 11401 may be provided for each imaging element.
  • the imaging unit 11402 does not necessarily have to be provided in the camera head 11102.
  • the imaging unit 11402 may be provided inside the lens barrel 11101 immediately after the objective lens.
  • the drive unit 11403 is configured by an actuator, and moves the zoom lens and the focus lens of the lens unit 11401 by a predetermined distance along the optical axis under the control of the camera head control unit 11405.
  • the magnification and the focus of the image captured by the imaging unit 11402 can be appropriately adjusted.
  • the communication unit 11404 is configured by a communication device for transmitting and receiving various information to and from the CCU 11201.
  • the communication unit 11404 transmits the image signal obtained from the imaging unit 11402 as RAW data to the CCU 11201 via the transmission cable 11400.
  • the communication unit 11404 receives a control signal for controlling driving of the camera head 11102 from the CCU 11201 and supplies the control signal to the camera head control unit 11405.
  • the control signal includes, for example, information indicating that the frame rate of the captured image is specified, information that specifies the exposure value at the time of imaging, and / or information that specifies the magnification and focus of the captured image. Contains information about the condition.
  • the above-described imaging conditions such as the frame rate, the exposure value, the magnification, and the focus may be appropriately designated by the user, or may be automatically set by the control unit 11413 of the CCU 11201 based on the acquired image signal. Good.
  • the endoscope 11100 has a so-called AE (Auto Exposure) function, an AF (Auto Focus) function, and an AWB (Auto White Balance) function.
  • the camera head control unit 11405 controls the driving of the camera head 11102 based on the control signal from the CCU 11201 received via the communication unit 11404.
  • the communication unit 11411 is configured by a communication device for transmitting and receiving various information to and from the camera head 11102.
  • the communication unit 11411 receives an image signal transmitted from the camera head 11102 via the transmission cable 11400.
  • the communication unit 11411 transmits a control signal for controlling driving of the camera head 11102 to the camera head 11102.
  • the image signal and the control signal can be transmitted by electric communication, optical communication, or the like.
  • the image processing unit 11412 performs various types of image processing on an image signal that is RAW data transmitted from the camera head 11102.
  • the control unit 11413 performs various kinds of control related to imaging of the operation section and the like by the endoscope 11100 and display of a captured image obtained by imaging the operation section and the like. For example, the control unit 11413 generates a control signal for controlling driving of the camera head 11102.
  • control unit 11413 causes the display device 11202 to display a captured image showing the operative part or the like based on the image signal subjected to the image processing by the image processing unit 11412.
  • the control unit 11413 may recognize various objects in the captured image using various image recognition techniques. For example, the control unit 11413 detects a shape, a color, or the like of an edge of an object included in the captured image, and thereby detects a surgical tool such as forceps, a specific living body site, bleeding, a mist when using the energy treatment tool 11112, and the like. Can be recognized.
  • the control unit 11413 may use the recognition result to superimpose and display various types of surgery support information on the image of the operative site.
  • the burden on the operator 11131 can be reduced, and the operator 11131 can reliably perform the operation.
  • the transmission cable 11400 connecting the camera head 11102 and the CCU 11201 is an electric signal cable corresponding to electric signal communication, an optical fiber corresponding to optical communication, or a composite cable thereof.
  • the communication is performed by wire using the transmission cable 11400, but the communication between the camera head 11102 and the CCU 11201 may be performed wirelessly.
  • the technology according to the present disclosure can be applied to, for example, the endoscope 11100, the imaging unit 11402 of the camera head 11102, the image processing unit 11412 of the CCU 11201, and the like, among the configurations described above.
  • the solid-state imaging device 100 according to the present disclosure can be applied to the endoscope 11100, the imaging unit 11402 of the camera head 11102, the image processing unit 11412 of the CCU 11201, and the like.
  • a high-definition captured image can be obtained using the solid-state imaging device 100 having an expanded dynamic range. Specifically, it is easy to recognize an object even in a place where there is a large difference in brightness between inside and outside of a living body. Further, high-speed operation of the solid-state imaging device can be performed, and time required for operations from object detection to control of the camera head 11102 and the like can be reduced.
  • the technology (the present technology) according to the present disclosure can be applied to various products.
  • the technology according to the present disclosure is realized as a device mounted on any type of moving object such as an automobile, an electric vehicle, a hybrid electric vehicle, a motorcycle, a bicycle, a personal mobility, an airplane, a drone, a ship, and a robot. You may.
  • FIG. 15 is a block diagram illustrating a schematic configuration example of a vehicle control system that is an example of a mobile object control system to which the technology according to the present disclosure can be applied.
  • Vehicle control system 12000 includes a plurality of electronic control units connected via communication network 12001.
  • the vehicle control system 12000 includes a drive system control unit 12010, a body system control unit 12020, an outside information detection unit 12030, an inside information detection unit 12040, and an integrated control unit 12050.
  • a microcomputer 12051, an audio / video output unit 12052, and a vehicle-mounted network I / F (interface) 12053 are illustrated.
  • the drive system control unit 12010 controls the operation of the device related to the drive system of the vehicle according to various programs.
  • the driving system control unit 12010 includes a driving force generating device for generating driving force of the vehicle such as an internal combustion engine or a driving motor, a driving force transmission mechanism for transmitting driving force to wheels, and a steering angle of the vehicle. It functions as a control mechanism such as a steering mechanism for adjusting and a braking device for generating a braking force of the vehicle.
  • the body control unit 12020 controls the operation of various devices mounted on the vehicle body according to various programs.
  • the body control unit 12020 functions as a keyless entry system, a smart key system, a power window device, or a control device for various lamps such as a head lamp, a back lamp, a brake lamp, a blinker, and a fog lamp.
  • a radio wave or various switch signals transmitted from a portable device replacing the key may be input to the body control unit 12020.
  • the body control unit 12020 receives the input of these radio waves or signals and controls a door lock device, a power window device, a lamp, and the like of the vehicle.
  • Out-of-vehicle information detection unit 12030 detects information external to the vehicle on which vehicle control system 12000 is mounted.
  • an imaging unit 12031 is connected to the outside-of-vehicle information detection unit 12030.
  • the out-of-vehicle information detection unit 12030 causes the imaging unit 12031 to capture an image outside the vehicle, and receives the captured image.
  • the out-of-vehicle information detection unit 12030 may perform an object detection process or a distance detection process of a person, a vehicle, an obstacle, a sign, a character on a road surface, or the like based on the received image.
  • the imaging unit 12031 is an optical sensor that receives light and outputs an electric signal according to the amount of received light.
  • the imaging unit 12031 can output an electric signal as an image or can output the information as distance measurement information.
  • the light received by the imaging unit 12031 may be visible light or non-visible light such as infrared light.
  • the in-vehicle information detection unit 12040 detects information in the vehicle.
  • the in-vehicle information detection unit 12040 is connected to, for example, a driver status detection unit 12041 that detects the status of the driver.
  • the driver state detection unit 12041 includes, for example, a camera that captures an image of the driver, and the in-vehicle information detection unit 12040 determines the degree of driver fatigue or concentration based on the detection information input from the driver state detection unit 12041. The calculation may be performed, or it may be determined whether the driver has fallen asleep.
  • the microcomputer 12051 calculates a control target value of the driving force generation device, the steering mechanism or the braking device based on the information on the inside and outside of the vehicle acquired by the outside information detection unit 12030 or the inside information detection unit 12040, and the drive system control unit A control command can be output to 12010.
  • the microcomputer 12051 implements functions of ADAS (Advanced Driver Assistance System) including vehicle collision avoidance or impact mitigation, following running based on the following distance, vehicle speed maintaining running, vehicle collision warning, vehicle lane departure warning, and the like. Cooperative control for the purpose.
  • ADAS Advanced Driver Assistance System
  • the microcomputer 12051 controls the driving force generation device, the steering mechanism, the braking device, and the like based on the information about the surroundings of the vehicle obtained by the outside information detection unit 12030 or the inside information detection unit 12040, so that the driver 120 It is possible to perform cooperative control for automatic driving or the like in which the vehicle travels autonomously without depending on the operation.
  • the microcomputer 12051 can output a control command to the body system control unit 12020 based on information on the outside of the vehicle acquired by the outside information detection unit 12030.
  • the microcomputer 12051 controls the headlamp in accordance with the position of the preceding vehicle or the oncoming vehicle detected by the outside-of-vehicle information detection unit 12030, and performs cooperative control for the purpose of preventing glare such as switching a high beam to a low beam. It can be carried out.
  • the sound image output unit 12052 transmits at least one of a sound signal and an image signal to an output device capable of visually or audibly notifying a passenger of the vehicle or the outside of the vehicle of information.
  • an audio speaker 12061, a display unit 12062, and an instrument panel 12063 are illustrated as output devices.
  • the display unit 12062 may include, for example, at least one of an on-board display and a head-up display.
  • FIG. 16 is a diagram illustrating an example of an installation position of the imaging unit 12031.
  • the vehicle 12100 includes imaging units 12101, 12102, 12103, 12104, and 12105 as the imaging unit 12031.
  • the imaging units 12101, 12102, 12103, 12104, and 12105 are provided, for example, at positions such as a front nose, a side mirror, a rear bumper, a back door of the vehicle 12100, and an upper portion of a windshield in the vehicle interior.
  • the imaging unit 12101 provided on the front nose and the imaging unit 12105 provided above the windshield in the passenger compartment mainly acquire an image in front of the vehicle 12100.
  • the imaging units 12102 and 12103 provided in the side mirror mainly acquire images of the side of the vehicle 12100.
  • the imaging unit 12104 provided in the rear bumper or the back door mainly acquires an image behind the vehicle 12100.
  • the forward images acquired by the imaging units 12101 and 12105 are mainly used for detecting a preceding vehicle, a pedestrian, an obstacle, a traffic light, a traffic sign, a lane, and the like.
  • FIG. 16 shows an example of the imaging range of the imaging units 12101 to 12104.
  • the imaging range 12111 indicates the imaging range of the imaging unit 12101 provided on the front nose
  • the imaging ranges 12112 and 12113 indicate the imaging ranges of the imaging units 12102 and 12103 provided on the side mirrors, respectively
  • the imaging range 12114 indicates 13 shows an imaging range of an imaging unit 12104 provided in a rear bumper or a back door.
  • a bird's-eye view image of the vehicle 12100 viewed from above is obtained by superimposing image data captured by the imaging units 12101 to 12104.
  • At least one of the imaging units 12101 to 12104 may have a function of acquiring distance information.
  • at least one of the imaging units 12101 to 12104 may be a stereo camera including a plurality of imaging elements or an imaging element having pixels for detecting a phase difference.
  • the microcomputer 12051 calculates a distance to each three-dimensional object in the imaging ranges 12111 to 12114 and a temporal change of the distance (relative speed with respect to the vehicle 12100). , It is possible to extract, as a preceding vehicle, a three-dimensional object that travels at a predetermined speed (for example, 0 km / h or more) in a direction substantially the same as that of the vehicle 12100, which is the closest three-dimensional object on the traveling path of the vehicle 12100 it can.
  • a predetermined speed for example, 0 km / h or more
  • microcomputer 12051 can set an inter-vehicle distance to be secured before the preceding vehicle and perform automatic brake control (including follow-up stop control), automatic acceleration control (including follow-up start control), and the like. In this way, it is possible to perform cooperative control for automatic driving or the like in which the vehicle travels autonomously without depending on the operation of the driver.
  • the microcomputer 12051 converts the three-dimensional object data relating to the three-dimensional object into other three-dimensional objects such as a motorcycle, a normal vehicle, a large vehicle, a pedestrian, a telephone pole, and the like based on the distance information obtained from the imaging units 12101 to 12104. It can be classified and extracted and used for automatic avoidance of obstacles. For example, the microcomputer 12051 distinguishes obstacles around the vehicle 12100 into obstacles that are visible to the driver of the vehicle 12100 and obstacles that are difficult to see. Then, the microcomputer 12051 determines a collision risk indicating a risk of collision with each obstacle, and when the collision risk is equal to or more than the set value and there is a possibility of collision, via the audio speaker 12061 or the display unit 12062. By outputting an alarm to the driver through forced driving and avoidance steering via the drive system control unit 12010, driving assistance for collision avoidance can be performed.
  • driving assistance for collision avoidance can be performed.
  • At least one of the imaging units 12101 to 12104 may be an infrared camera that detects infrared light.
  • the microcomputer 12051 can recognize a pedestrian by determining whether or not a pedestrian exists in the captured images of the imaging units 12101 to 12104. The recognition of such a pedestrian is performed by, for example, extracting a feature point in an image captured by the imaging units 12101 to 12104 as an infrared camera, and performing a pattern matching process on a series of feature points indicating the outline of the object to determine whether the object is a pedestrian.
  • the audio image output unit 12052 outputs a rectangular contour for emphasis to the recognized pedestrian.
  • the display unit 12062 is controlled so that is superimposed. Further, the sound image output unit 12052 may control the display unit 12062 so as to display an icon or the like indicating a pedestrian at a desired position.
  • the technology according to the present disclosure can be applied to the imaging unit 12031 among the configurations described above.
  • the solid-state imaging device 100 according to the present disclosure can be applied to the imaging unit 12031.
  • the technology according to the present disclosure it is possible to improve the performance of the vehicle control system.
  • a high-definition captured image can be obtained using the solid-state imaging device 100 having an expanded dynamic range. More specifically, in photographing inside and outside the vehicle, the object can be easily recognized even in a place where the contrast is large. Further, high-speed operation of the solid-state imaging device becomes possible, and the time required for operations from object detection to vehicle control can be reduced.
  • the present technology can also have the following configurations.
  • (1) Including a solid-state imaging device and an information processing device,
  • the solid-state imaging device A first DNN processing unit that executes a part of the DNN algorithm on the image data by a first DNN and generates a first result transmitted to an information processing apparatus that executes the rest of the DNN algorithm;
  • the information processing device A second DNN processing unit configured to execute a remainder of the DNN algorithm on the first result by a second DNN to generate a second result;
  • Solid-state imaging system (2)
  • the first result includes a feature map output from a hidden layer of the DNN algorithm.
  • the solid-state imaging system according to (1).
  • the solid-state imaging device further includes a first storage unit that stores at least a part of the DNN algorithm for executing the first DNN,
  • the information processing apparatus further includes a second storage unit that stores at least the rest of the DNN algorithm for executing the second DNN.
  • the solid-state imaging system according to (1) or (2).
  • the first storage unit and the second storage unit store the DNN algorithm to be executed on the image data.
  • the solid-state imaging device further includes a first control unit that controls the first DNN processing unit,
  • the information processing apparatus further includes a second control unit that controls the second DNN processing unit,
  • the solid-state imaging system according to any one of (1) to (4).
  • the first control unit generates first control information including information on the first DNN, transmits the first control information to the second control unit,
  • the second control unit generates second control information including information on the second DNN and transmits the second control information to the first control unit.
  • the solid-state imaging system according to (5).
  • the first control unit controls the first DNN processing unit based on the second control information,
  • the second control unit controls the second DNN processing unit based on the first control information.
  • the solid-state imaging system according to (5) or (6).
  • the first control unit transmits an execution completion notification of the first DNN processing unit to the second control unit
  • the second control unit transmits an execution completion notification of the second DNN processing unit to the first control unit,
  • the solid-state imaging system according to any one of (5) to (7).
  • the information processing device is an application processor or a cloud server, The solid-state imaging system according to any one of (1) to (8).
  • a DNN processing unit that executes a part of the DNN algorithm on the image data and generates a first result transmitted to an information processing apparatus that executes the rest of the DNN algorithm; Solid-state imaging device.
  • the first result includes a feature map output from a hidden layer of the DNN algorithm.
  • (12) At least a storage unit that stores a part of the DNN algorithm, The solid-state imaging device according to (10) or (11).
  • a DNN processing unit that receives, from the solid-state imaging device, a first result obtained by partially executing the DNN algorithm on the image data, and executes a remaining part of the DNN algorithm on the first result to generate a second result.
  • a storage unit that executes the first result and stores the rest of the DNN algorithm is further provided.
  • the information processing device according to (13).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Transforming Light Signals Into Electric Signals (AREA)

Abstract

固体撮像システム(1)は、固体撮像装置(100)と、情報処理装置(200)とを含む。固体撮像装置(100)は、画像データに対してDNNアルゴリズムの一部を第1DNNによって実行して第1結果を生成する第1DNN処理部(130)を備える。情報処理装置(200)は、固体撮像装置から取得された第1結果に対してDNNアルゴリズムの残りを第2DNNによって実行して第2結果を生成する第2DNN処理部(230)を備える。

Description

固体撮像システム、固体撮像装置、情報処理装置、画像処理方法、情報処理方法及びプログラム
 本開示は、固体撮像システム、固体撮像装置、情報処理装置、画像処理方法、情報処理方法及びプログラムに関する。
 近年、ニューラルネットワークを搭載した種々の装置が提案されている。例えば、特許文献1には、検出物体らしさを示す尤度に基づくことで、画像に対する識別性能を向上させることのできる技術が開示されている。
特開2015-191334号公報
 ところで、デジタルカメラなどに代表される機器には、CMOS(Complementary Metal Oxide Semiconductor)やDSP(Digital Signal Processor)を有するイメージセンサが搭載される。近年では、画像処理の多様化・高速化や個人情報の保護等の観点から、例えば、イメージセンサにDNN(Deep Neural Network)の機能を持たせて、高度な処理を実行することが望まれている。
 しかしながら、特許文献1では、イメージセンサから対象画像を出力させる必要があるため、出力するデータ量が多く、また個人情報を保護できない可能性がある。
 そこで、本開示では、イメージセンサから出力されるデータ量を少なくし、かつ個人情報を保護することのできる固体撮像システム、固体撮像装置、情報処理装置、画像処理方法、情報処理方法及びプログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の固体撮像システムは、固体撮像装置と、情報処理装置とを含み、前記固体撮像装置は、画像データに対してDNNアルゴリズムの一部を第1DNNによって実行して第1結果を生成する第1DNN処理部を備え、前記情報処理装置は、前記固体撮像装置から取得された前記第1結果に対して前記DNNアルゴリズムの残りを第2DNNによって実行して第2結果を生成する第2DNN処理部を備える。
本開示の第1実施形態に係る固体撮像システムの構成の一例を示すブロック図である。 本開示の第1実施形態に係る固体撮像システムの接続関係の一例を説明するための模式図である。 本開示の第1実施形態に係る固体撮像装置の積層構造の一例を示す模式図である。 本開示の第1実施形態に係る固体撮像システムの処理を説明するための模式図である。 DNNアルゴリズムの構成を説明するための模式図である。 DNNアルゴリズムの分割処理の一例を説明するための模式図である。 本開示の第1実施形態に係る固体撮像システムの処理の流れの一例を示すシーケンス図である。 本開示の第1実施形態に係る固体撮像装置及び情報処理装置それぞれの制御部及びDNN処理部の処理の流れの一例を示すシーケンス図である。 本開示の第2実施形態に係る固体撮像システムの構成の一例を示すブロック図である。 本開示の第2実施形態に係る固体撮像システムの接続関係の一例を示すブロック図である。 本開示の第2実施形態に係る固体撮像システムの接続関係の一例を示すブロック図である。 本開示の固体撮像装置及び情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。 内視鏡手術システムの概略的な構成の一例を示す図である。 カメラヘッド及びCCUの機能構成の一例を示すブロック図である。 車両制御システムの概略的な構成の一例を示すブロック図である。 車外情報検出部及び撮像部の設置位置の一例を示す説明図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 また、以下に示す項目順序に従って本開示を説明する。
  1.第1実施形態
   1-1.第1実施形態に係る固体撮像システムの構成
   1-2.DNNアルゴリズムの構成
   1-3.第1実施形態に係る固体撮像システムの処理
  2.第2実施形態
   2-1.第2実施形態に係る固体撮像システムの構成
   2-2.第2実施形態に係る固体撮像システムの変形例の構成
  3.ハードウェア構成
  4.内視鏡手術システムへの応用例
  5.移動体への応用例
(1.第1実施形態)
[1-1.第1実施形態に係る固体撮像システムの構成]
 図1を用いて、本開示の第1実施形態に係る固体撮像システムの構成について説明する。図1は、本開示の第1実施形態に係る固体撮像システムの構成の一例を示すブロック図である。
 図1に示すように、固体撮像システム1は、固体撮像装置100と、情報処理装置200とを含む。
 図2に示すように、固体撮像装置100と、情報処理装置200とは、同一の筐体10の中に存在している。言い換えれば、固体撮像装置100と、情報処理装置200とは、同一の筐体10の中に別チップとして存在している。固体撮像装置100と、情報処理装置200とは、SoC(System-on-a-chip)、MCM(Multi-Chip Module)、SIP(System In a Package)、SOP(Small Outline Package)などで実装されている。固体撮像システム1は、例えば、インターネット通信網300によって外部の装置と通信可能に接続されていてもよい。この場合、固体撮像システム1は、例えば、無線通信によって外部の装置と通信可能に接続されていてもよい。また、図2に示す固体撮像システム1は、固体撮像装置100と、情報処理装置200とを1つずつ含むが、これは例示であり、本開示を限定するものではない。固体撮像システム1は、固体撮像装置100と、情報処理装置200とをそれぞれ複数備えていてもよい。また、固体撮像システム1が含む固体撮像装置100と、情報処理装置200との数は異なっていてもよい。固体撮像システム1は、例えば、VPA(Virtual Personal Assistant)や、車載カメラに適用することができる。
 図1に示すように、固体撮像装置100は、撮像部110と、撮像処理部120と、第1DNN処理部130と、第1記憶部140と、第1制御部150と、セレクタ160と、通信I/F170と、通信制御部180とを備える。
 図3は、第1実施形態に係る固体撮像装置100の積層構造の一例を示す模式図である。図3に示すように、固体撮像装置100は、例えば、矩形の第1基板11と、矩形の第2基板12とが貼り合わされた積層構造を有している。
 第1基板11と、第2基板12とは、例えば、第1基板11及び第2基板12をそれぞれチップに個片化した後、これら個片化された第1基板11及び第2基板12を貼り合わせる、いわゆるCoC(Chip on Chip)方式で貼り合わせればよい。また、第1基板11と第2基板12とのうち一方(例えば、第1基板11)をチップに個片化した後、この個片化された第1基板11を個片化前(すなわち、ウエハ状態)の第2基板12に貼り合わせる、いわゆるCoW(Chip on Wafer)方式で貼り合わせてもよい。さらに、第1基板11と第2基板12とを共にウエハの状態で、いわゆるWoW(Wafer on Wafer)方式で貼り合わせてもよい。
 第1基板11と第2基板12との接合方法には、例えば、プラズマ接合等を使用することができる。ただし、これに限定されず、種々の接合方法が用いられてよい。
 第1基板11と、第2基板12とのサイズは、同じであってもよいし、異なっていてもよい。第1基板11と、第2基板12とは、例えば、シリコン基板などの半導体基板である。
 第1基板11には、図1に示す固体撮像装置100の構成要素のうち、例えば、撮像部110が配置される。
 第2基板12は、図1に示す固体撮像装置100の構成要素のうち、例えば、撮像処理部120と、第1DNN処理部130と、第1記憶部140と、第1制御部150と、セレクタ160と、通信I/F170と、通信制御部180とが配置される。
 すなわち、固体撮像装置100の撮像部110は、撮像部110以外の構成要素に積層実装された構成を有している。
 再び図1を参照する。撮像部110は、例えば、ズームレンズ、フォーカスレンズ、絞りなどを備える光学系と、フォトダイオードなどの受光素子を含む単位画素が2次元マトリクス状に配列した構成を備える画素アレイ部とを備える。外部から入射した光は、光学系を介することで、画素アレイ部における受光素子が配列した受光面に結像される。画素アレイ部の各単位画素は、その受光素子に入射した光を光電変換することで、入射光の光量に応じた画像データを生成する。撮像部110は、撮像した画像データを撮像処理部120に出力する。
 撮像処理部120は、例えば、画像データをデジタルの画像データに変換する。撮像処理部120は、例えば、デジタルに変換した画像データに対して、「前処理」、「データ拡張」、及び「データの正規化」を実行する。前処理は、推論時及び学習時において撮像部110に対して実行する処理であり、例えば、デワープ、クロップ、レンズシェーディング補正、ダウンスケール、アップスケールといった処理を含む。データ拡張は、学習時において画像データに対して実行される処理であり、例えば、画像データの縦横比を変更したり、画像データを平行に移動させたり、回転させたり、反転させたり、幾何学的に変形させたりする処理を含む。また、データ拡張は、例えば、画像データの色の濃淡を変更させたり、色を変動させたりする処理を含む。さらに、データ拡張は、例えば、画像データにノイズを加算する処理を含む。データの正規化は、推論時及び学習時に画像データに対して実行される処理であり、例えば、画像データの画素値の平均を0にしたり、画素値の分散を1にしたり、成分間の相関を0にして画像データを白色化したりする処理を含む。撮像処理部120は、種々の処理を実行したデジタルの画像データを第1DNN処理部130と、セレクタ160とに出力する。
 第1DNN処理部130は、例えば、第1記憶部140に記憶されているDNNモデルに基づいて、撮像処理部120から入力された画像データに対してDNNを実行することで、画像データに含まれる物体の認識処理を実行する。具体的には、第1DNN処理部130は、撮像処理部120から受けた画像データに対して第1DNNを実行し、DNNモデルを構成するアルゴリズムの一部を実行し、実行結果を生成する。ここでの実行結果は、特徴マップ、マップ、及び単に画像などとも呼ばれることがある。第1DNN処理部130は、画像データに対して第1DNNを実行することで、中間層のマップと、第1結果を生成する。より具体的には、第1DNN処理部130は、第1結果として、入力された画像データ全体の中間層マップと、入力された画像データの一部の中間層マップ(例えば、ROI(Region Of Interest)した中間層マップ)とを出力する。なお、第1DNN処理部130は、全体の中間マップと、一部の中間マップとの両方を出力してもよいし、どちらか一方の中間マップを出力してもよい。また、第1DNN処理部130は、第1結果として、ROI情報や、物体の存在確率を算出する。第1DNN処理部130は、第1DNNの実行が完了すると、完了通知を第1制御部150に出力する。第1DNN処理部130は、第1結果をセレクタ160に出力する。
 具体的には、第1DNN処理部130は、例えば、撮像処理部120から受けた画像データに対して畳み込み演算、バイアス加算、活性化演算、プーリング処理を実行することで物体検知処理を行う。
 第1DNN処理部130が活性化演算で用いる活性化関数としては、例えば、恒等関数、シグモイド関数、ソフトマックス関数、ステップ関数、ReLU関数、及びTanh関数を挙げることができるが、これらに限定されない。
 また、第1DNN処理部130は、例えば、学習時において、誤差や、損失関数の値を計算する。第1DNN処理部130は、例えば、勾配降下法、確率的勾配降下法、ニュートン法、準ニュートン法、誤差逆伝搬法などの手法を用いて、対象となるDNNモデルの誤差を計算する。第1DNN処理部130は、例えば、最小二乗誤差、交差エントロピー誤差などの手法を用いて、損失関数の値を算出する。
 第1記憶部140は、例えば、第1DNN処理部130で実行する少なくとも1つのDNNモデルを記憶している。第1記憶部140は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子で実現することができる。
 第1制御部150は、例えば、第1DNN処理部130を制御する。具体的には、第1制御部150は、例えば、第1DNN処理部130を制御して、第1DNNを実行したり、中断したり、停止したりする。第1制御部150は、例えば、第1制御情報を生成する。第1制御部150は、例えば、第1制御情報を情報処理装置200に送信する。第1制御情報には、例えば、画像データに対して実行すべきDNNアルゴリズムのうち、第1DNN処理部130が実行した第1DNNに関する情報を含む。また、第1制御情報には、例えば、同期信号が含まれる。第1制御部150は、例えば、第1DNN処理部130の実行完了通知を情報処理装置200に送信する。第1制御部150は、例えば、情報処理装置200の第2制御部250から第2制御情報を受信する。この場合、第1制御部150は、例えば、第2制御情報に基づいて、第1DNN処理部130を制御する。ここで、第1制御部150は、パイプライン的に画像データに対してDNNアルゴリズムを実行するように、第1DNN処理部130を制御してもよい。具体的には、第1制御部150は、ある画像データに対して第1DNNを実行させた後、その画像データに対する第2DNN処理の完了を受ける前に、次の画像データに対して第1DNNを実行するように第1DNN処理部130を制御してもよい。これにより、本実施形態は、例えば、撮像部110が撮像した複数の画像データに対して、DNN処理を効率的に実行することができるようになる。
 セレクタ160は、例えば、撮像処理部120から種々の処理が施されたデジタルの画像データを受ける。セレクタ160は、例えば、第1DNN処理部130から第1結果を受ける。セレクタ160は、例えば、図示しないセレクタの制御部からの制御信号に従って撮像処理部120、及び第1DNN処理部130から受けたデータを選択的に通信I/F170に出力する。
 通信I/F170は、送信部171と、受信部172とを備える。固体撮像装置100は、送信部171を介して情報処理装置200にデータを送信する。固体撮像装置100は、受信部172を介して情報処理装置200からデータを受信する。
 通信制御部180は、通信I/F170を制御する。これにより、通信I/F170は、情報処理装置200にデータを送信したり、情報処理装置200からデータを受信したりする。通信制御部180は、例えば、データを暗号化してもよい。暗号化する場合には、通信制御部180は、例えば、DES(Data Encryption Standard)や、AES(Advanced Encryption Standard)といった共通鍵暗号を用いることができる。また、通信制御部180は、例えば、ECB(Electronic Codebook)、CBC(Cipher Block Chaining)、CFB(Cipher Feedback)、OFB(Output Feedback)、及びCTR(Counter)といった暗号モードを利用してもよい。
 情報処理装置200は、通信I/F210と、通信制御部220と、第2DNN処理部230と、第2記憶部240と、第2制御部250とを備える。第1実施形態において、情報処理装置200は、例えば、アプリケーションプロセッサである。
 通信I/F210は、受信部211と、送信部212とを備える。情報処理装置200は、受信部211を介して固体撮像装置100からデータを受信する。情報処理装置200は、送信部212を介して固体撮像装置100にデータを送信する。
 通信制御部220は、通信I/F210を制御する。これにより、通信I/F210は、情報処理装置200にデータを送信したり、情報処理装置200からデータを受信したりする。通信制御部220は、例えば、データを暗号化して固体撮像装置100と通信してもよい。暗号化する場合には、通信制御部220は、例えば、DESや、AESといった共通鍵暗号を用いることができる。また、通信制御部220は、例えば、ECB、CBC、CFB、OFB、及びCTRといった暗号モードを利用してもよい。
 第2DNN処理部230は、例えば、第2記憶部240に記憶されているDNNモデルに基づいて、固体撮像装置100から入力された第1結果に対してDNNを実行することで、画像データに含まれる物体の認識処理を実行する。具体的には、第2DNN処理部230は、固体撮像装置100から受けた第1結果に対して第2DNNを実行し、DNNモデルを構成するアルゴリズムうち、第1DNNで実行されなかった残りの部分を実行する。これにより、第2DNN処理部230は、第2結果を出力する。具体的には、第2DNN処理部230は、第2結果として、画像データに含まれる物体を認識する。また、第2DNN処理部230は、例えば、第1結果と、第2結果とをマージして、ROIと、物体分類を実行する。第2DNN処理部230は、第2DNNの実行が完了すると、完了通知を第2制御部250に出力する。第2DNN処理部230は、例えば、第2結果を外部の装置に出力する。
 具体的には、第2DNN処理部230は、例えば、撮像処理部120から受けた画像データに対して畳み込み演算、バイアス加算、活性化演算、プーリング処理を実行することで物体検知処理を行う。
 第2DNN処理部230が活性化演算で用いる活性化関数としては、例えば、恒等関数、シグモイド関数、ソフトマックス関数、ステップ関数、ReLU関数、及びTanh関数を挙げることができるが、これらに限定されない。
 また、第2DNN処理部230は、例えば、学習時において、誤差や、損失関数の値を計算する。第2DNN処理部230は、例えば、勾配降下法、確率的勾配降下法、ニュートン法、準ニュートン法、誤差逆伝搬法などの手法を用いて、対象となるDNNモデルの誤差を計算する。第2DNN処理部230は、例えば、最小二乗誤差、交差エントロピー誤差などの手法を用いて、損失関数の値を算出する。
 第2記憶部240は、例えば、第2DNN処理部230で実行する少なくとも1つのDNNモデルを記憶している。ここで、固体撮像装置100の第1記憶部140が記憶しているDNNモデルと、第2記憶部240が記憶しているDNNモデルとを組み合わせることで、1つのDNNアルゴリズムが構成される。これにより、固体撮像装置100と、情報処理装置200との2つの装置によって、1つのDNNアルゴリズムを実行することができる。言い換えれば、本実施形態は、1つのDNNアルゴリズムを、固体撮像装置100と、情報処理装置200との2つの装置に分割して実行させることができる。第2記憶部240は、例えば、RAM、ROM、フラッシュメモリなどの半導体メモリ素子で実現することができる。
 第2制御部250は、例えば、第2DNN処理部230を制御する。具体的には、第2制御部250は、例えば、第2DNN処理部230を制御して、第2DNNを実行したり、中断したり、停止したりする。第2制御部250は、例えば、固体撮像装置100の第1制御部150から第1制御情報を受信し、受信した第1制御情報に基づいて、第2DNN処理部230を制御する。第2制御部250は、例えば、第2制御情報を生成する。第2制御部250は、例えば、生成した第2制御情報を固体撮像装置100に送信する。ここで、第2制御情報には、例えば、第1結果に対して、第2DNN処理部230が実行した第2DNNに関する情報を含む。第2制御情報には、例えば、同期信号が含まれる。第2制御部250は、例えば、第2DNN処理部230の実行完了通知を固体撮像装置100に送信する。第2制御部250は、パイプライン的に画像データに対してDNNアルゴリズムを実行するように、第2DNN処理部230を制御してもよい。具体的には、第2制御部250は、ある第1結果に対して第2DNNを実行し、第2結果を生成する。そして、第2DNN処理部230は、第2結果が他の処理装置に送信され、他の処理装置から第2結果に対する処理の完了通知を受ける前に、次の第1結果に対して第2DNNを実行するように第2DNN処理部230を制御してもよい。これにより、本実施形態は、複数の第1結果に対して、DNN処理を効率的に実行することができるようになる。
 図4を用いて、第1DNN処理部130と、第2DNN処理部230との処理について説明する。図4は、第1DNN処理部130と、第2DNN処理部230との処理を説明するための模式図である。
 まず、第1DNN処理部130は、撮像処理部120から画像データを受ける(ステップS1)。ここでは、第1DNN処理部130は、例えば、犬Dと、人Mとを含む画像データを受ける。
 次いで、第1DNN処理部130は、ステップS1で受けた画像データに対して、第1DNNを実行する(ステップS2)。ここでは、第1DNN処理部130は、画像データに対して第1DNNを実行し、第1結果として、中間層などの特徴マップを生成する。特徴マップでは、領域R1と、領域R2とに、何かしらの物体が高確率で存在することが示されている。そして、第1DNN処理部130は、特徴マップを第2DNN処理部230に出力する。ここで、第1DNN処理部130は、第2DNN処理部230に対し、全体の特徴マップを出力してもよいし、領域R1と、領域R2との特徴マップのみを出力してもよい。言い換えれば、第1DNN処理部130は、撮像部110で撮像された画像データをエンコードして、第2DNN処理部230に出力する。そのため、第1DNN処理部130から出力されるデータには、撮像部110によって撮像された、犬Dや人Mの元の画像データが含まれていないので、個人情報を保護することができる。また、特徴マップは画像データと比べ容量が小さいので、固体撮像装置100から情報処理装置200に送信するデータ量も小さくすることができる。
 そして、第2DNN処理部230は、ステップS2で得られた特徴マップ(第1結果)に対して、第2DNNを実行する(ステップS3)。これにより、第2DNN処理部230は、特徴マップの領域R1には犬Dが存在し、領域R2には人Mが存在していることを、認識することができる。
 すなわち、本実施形態では、DNNアルゴリズムの一部を第1DNN処理部130で実行し、残りを第2DNN処理部230で実行することで、画像データに含まれている物体の認識処理を行っている。言い換えれば、第1DNN処理部130と、第2DNN処理部230との2つのDNN処理部によって、1つのDNNアルゴリズムを実行している。
[1-2.DNNアルゴリズムの構成]
 図5を用いて、DNNアルゴリズムの構成の一例について説明する。図5は、DNNアルゴリズムの構成の一例を示す模式図である。
 図5は、物体検知アルゴリズム20の構造の一例を示す模式図である。
 まず、物体検知アルゴリズム20では、画像データに対してCNN(Convolutional Neural Network)が実行される。具体的には、画像データIが畳み込み層CLに入力される。そして、畳み込み層CLは、画像データI全体に対してCNNを実行して、特徴マップFM1を出力する。ここまでの処理が、CNN21を用いた画像処理である。
 次の段では、特徴マップFM1に対して、物体領域認識アルゴリズムが実行される。特徴マップFMに対して物体領域認識アルゴリズムを実行することで、特徴マップに含まれる物体が存在する候補の領域が抽出される。具体的には、図5に示す例では、特徴マップFM1から物体が存在する候補の領域としてRoI1と、RoI2と、RoI3とが抽出される。ここまでの処理が、物体領域認識アルゴリズム22を用いた画像処理である。
 次の段では、特徴マップFM1に、RoI1と、RoI2と、RoI3とを重畳させて、RoI特徴マップFM2を生成し、Pooling層に格納する。そして、RoI1と、RoI2と、RoI3とが重畳された特徴マップFM1に対して、RoI pooling層によってRoI poolingが実行される。RoI poolingは、RoI1と、RoI2と、RoI3とを含む領域を、個別の特徴マップとして抽出する処理である。これにより、RoI1と、RoI2と、RoI3とを含む領域が、それぞれ、特徴マップFM3と、特徴マップFM4と、特徴マップFM5として抽出される。特徴マップFM3と、特徴マップFM4と、特徴マップFM5とは、全結合層31に入力される。
 次の段では、分類層33と、矩形回帰層34とは、全結合層31に入力された特徴マップFM3と、特徴マップFM4と、特徴マップFM5とを共有している。
 分類層33は、特徴マップFM3と、特徴マップFM4と、特徴マップFM5とに含まれる物体の種類を分類する。そして、分類層33は、分類結果44を出力する。矩形回帰層34は、特徴マップFM3と、特徴マップFM4と、特徴マップFM5とに含まれる物体を囲うような矩形を生成する。
 また、分類層33及び矩形回帰層34の処理とは並行に、特徴マップFM3と、特徴マップFM4と、特徴マップFM5がFCN(Fully Convolution Network)32に入力される。具体的には、特徴マップFM3と、特徴マップFM4と、特徴マップFM5とは、RoIAlign層によってRoIAlignが実行された後にFCN32に入力される。ここで。RoIAlignとは、画像データIからRoI特徴マップFM2を生成する際に発生する丸め誤差を、バイリニア補間法を用いて補正する処理である。
 FCN32は、特徴マップFM3と、特徴マップFM4と、特徴マップFM5ごとに、各特徴マップに含まれている物体を分類したり、物体を囲うような矩形を生成したり、物体をマスキングしたりする。そして、FCN32は、特徴マップごとに、分類結果41と、矩形枠42と、マスク結果43とを出力する。ここまでの処理が、物体検知アルゴリズム20である。
 本実施形態において、第1DNN処理部130と、第2DNN処理部230とは、図5に示したDNNアルゴリズムに含まれる処理のうち、分割して実行さえすれば、どのように分割して処理を実行してもよい。例えば、第1DNN処理部130が特徴マップFM1を生成するまでの処理を実行し、残りの処理を第2DNN処理部230が実行してもよい。また、例えば、第1DNN処理部130が物体検知アルゴリズム20において、特徴マップFM3と、特徴マップFM4と、特徴マップFM5とを抽出するまでの処理を実行し、第2DNN処理部230がFCN32の処理のみを実行してもよい。第1DNN処理部130が実行する処理は、任意に決定することができる。例えば、第1DNN処理部130がどの処理までを実行するかは、第1DNN処理部130の性能に応じて決定すればよい。
 図6を用いて、第1DNN処理部130と、第2DNN処理部230とで実行する処理の一例について説明する。図6は、第1DNN処理部130と、第2DNN処理部230とで実行する処理の一例を示す模式図である。
 まず、図6に示す処理では、例えば、撮像処理部120から複数の画像データが、第1DNN処理部130に入力される(ステップS11)。
 次に、第1DNN処理部130は、撮像処理部120から受けた画像データに画像認識処理を実行することによって、画像データに含まれる物体を認識する(ステップS12)。具体的には、第1DNN処理部130は、各画像データに対して、CNNを実行することによって、画像データに含まれる物体を認識する。そして、第1DNN処理部130は、CNNによる各画像データに対する実行結果からメタデータを生成する。
 次に、第2DNN処理部230は、第1DNN処理部130によって生成されたメタデータの関係性を、RNN(Recurrent Neural Network)を用いて認識する(ステップS13)。具体的には、第2DNN処理部230は、LSTM(Long short-term memory)ネットワークを用いて、メタデータの関係性を認識する。
 そして、第2DNN処理部230は、メタデータの関係性を認識してキャプショニングを行う(ステップS14)。例えば、第2DNN処理部230は、画像データに対して、「少年」、「遊んでいる」、「ゴルフ」などのようなキャプショニングを行う。
 上述のとおり、物体認識と、LSTMとを組み合わせることで画像フレーム間の関係性を認識することができる。この場合、本実施形態では、第1DNN処理部130によって物体認識を実行し、第2DNN処理部230によってLSTMを実行することで、1つのDNNアルゴリズムを分割して実行している。また、ここでは、複数の静止画像が入力されるものとして説明したが、本実施形態は、動画像に対しても同様に、認識処理を実行することができる。
[1-3.第1実施形態に係る固体撮像システムの処理]
 図7を用いて、固体撮像装置100と、情報処理装置200との処理について説明する。図7は、固体撮像装置100と、情報処理装置200との処理の流れを示すシーケンス図である。
 まず、固体撮像装置100は、第1DNN処理部130を制御する(ステップS101)。具体的には、固体撮像装置100は、第1制御部150によって、第1DNN処理部130を制御する。
 次に、固体撮像装置100は、入力された画像データに対して第1DNNを実行する(ステップS102)。具体的には、固体撮像装置100は、第1DNN処理部130によって、入力画像データに対して第1DNNを実行し、第1結果を出力する。
 次に、固体撮像装置100は、第1制御情報を生成する(ステップS103)。具体的には、固体撮像装置100は、第1制御部150によって、第1制御情報を生成する。
 次に、固体撮像装置100は、第1結果及び第1制御情報を情報処理装置200に送信する(ステップS104)。具体的には、固体撮像装置100は、送信部171によって第1結果及び第1制御情報を、情報処理装置200に送信する。ここで、送信部171は、第2DNN処理部230が実行する前までに第1結果を情報処理装置200に送信すればよい。
 次に、情報処理装置200は、第2DNN処理部230を制御する(ステップS105)。具体的には、情報処理装置200は、第1制御情報に基づいて、第2制御部250によって、第2DNN処理部230を制御する。
 次に、情報処理装置200は、第1結果に対して第2DNNを実行する(ステップS106)。具体的には、情報処理装置200は、第2DNN処理部230によって、第2DNNを実行し、第2結果を生成する。
 次に、情報処理装置200は、第2制御情報を生成する(ステップS107)。具体的には、情報処理装置200は、第2制御部250によって、第2制御情報を生成する。
 次に、情報処理装置200は、第2結果を外部の装置に送信する(ステップS108)。具体的には、情報処理装置200は、第2DNN処理部230によって第2結果を外部の装置に送信する。なお、ステップS108において、情報処理装置200は、第2結果を外部の装置に送信しているものとして説明しているが、これは例示であり、本開示を限定するものではない。例えば、ステップS108において、情報処理装置200は、第2結果を外部の装置に出力しないで、保持しておいてもよい。
 そして、情報処理装置200は、第2制御情報を固体撮像装置100に送信する(ステップS109)。具体的には、情報処理装置200は、送信部212によって第2制御情報を固体撮像装置100に送信する。
 図8を用いて、固体撮像装置100と、情報処理装置200との処理についてより詳細に説明する。図8は、第1DNN処理部130と、第1制御部150と、第2DNN処理部230と、第2制御部250との処理の流れの一例を示すシーケンス図である。
 まず、第1制御部150は、第1DNN処理部制御情報を、第1DNN処理部130に出力する(ステップS201)。第1制御部150は、第1DNN処理部制御情報によって、第1DNN処理部130にDNNを実行させたり、中断させたり、停止させたりする。
 次に、第1DNN処理部130は、第1DNN処理部制御情報に従って、入力された画像データに対して、第1DNNを実行する(ステップS202)。
 次に、第1DNN処理部130は、画像データに対する第1DNNの実行が完了すると、完了通知を第1制御部150に出力する(ステップS203)。
 次に、第1制御部150は、完了通知を受けると、第1制御情報を、第2制御部250に送信する(ステップS204)。具体的には、第1制御情報は、送信部171から受信部211に送信される。そして、第2制御部250は、受信部211から第1制御情報を受ける。
 次に、第1DNN処理部130は、第1DNNの実行結果である第1結果を第2DNN処理部230に送信する(ステップS205)。具体的には、第1結果は、送信部171から受信部211に送信される。そして、第2DNN処理部230は、受信部211から第1結果を受ける。
 次に、第2制御部250は、第1制御情報に基づいて、第2DNN処理部制御情報を、第2DNN処理部230に出力する(ステップS206)。
 次に、第2DNN処理部230は、第2DNN処理部制御情報に従って、入力された第1結果に対して第2DNNを実行する(ステップS207)。
 次に、第2DNN処理部230は、第1結果に対する第2DNNの実行が完了すると、完了通知を第2制御部250に出力する(ステップS208)。
 次に、第2DNN処理部230は、第2DNNの実行結果である第2結果を、外部に送信する(ステップS209)。なお、ステップS209において、第2DNN処理部230は、第2結果を外部に送信しているものとして説明しているが、これは例示であり、本開示を限定するものではない。例えば、ステップS209において、第2DNN処理部230は、第2結果を外部に出力しないで、保持しておいてもよい。
 次に、第2制御部250は、第2制御情報を第1制御部150に送信する(ステップS210)。具体的には、第2制御情報は、送信部212から受信部172に送信される。そして、第1制御部150は、受信部172から第1制御情報を受ける。
(2.第2実施形態)
[2-1.第2実施形態に係る固体撮像システムの構成]
 図9を用いて、第2実施形態に係る固体撮像システムの構成について説明する。図9は、第2実施形態に係る固体撮像システムの構成の一例を示すブロック図である。
 図9に示すように、固体撮像システム1Aは、固体撮像装置100と、情報処理装置200Aとを含む。固体撮像システム1Aを構成する各装置の構成要素や動作については、第1実施形態に係る固体撮像システム1と同様なので、説明は省略する。
 図10に示すように、固体撮像装置100と、情報処理装置200Aとは、例えば、インターネット通信網300を介して通信可能に接続されている。この場合、固体撮像装置100の通信I/F170と、情報処理装置200Aの通信I/F210とが、インターネット通信網300を介して通信可能に接続されていればよい。固体撮像装置100の通信I/F170と、情報処理装置200Aの通信I/F210とが、無線通信によって通信可能に接続されていてもよい。また、図10に示す固体撮像システム1Aは、固体撮像装置100と、情報処理装置200Aとを1つずつ含むが、これは例示であり、本開示を限定するものではない。固体撮像システム1Aは、固体撮像装置100と、情報処理装置200Aとをそれぞれ複数備えていてもよい。また、固体撮像システム1Aが含む固体撮像装置100と、情報処理装置200Aとの数は異なっていてもよい。第2実施形態において、情報処理装置200Aは、例えば、固体撮像装置100とインターネット通信網300や、無線によって通信可能に接続されたクラウドサーバである。固体撮像システム1Aは、例えば、FA(Factory Automation)や、監視カメラに適用することができる。
[2-2.第2実施形態に係る固体撮像システムの変形例の構成]
 図11を用いて、本開示の第2実施形態に係る固体撮像システムの変形例について説明する。図11は、本開示の第2実施形態に係る固体撮像システムの接続関係の変形例を説明するための図である。
 固体撮像システム1A-1は、固体撮像装置100-1と、固体撮像装置100-2と、・・・、固体撮像装置100-N(Nは3以上の整数)と、情報処理装置200A-1と、情報処理装置200A-2と、・・・、情報処理装置200-Nとを含む。すなわち、固体撮像システム1A-1は、複数の固体撮像装置と、複数の情報処理装置とが、インターネット通信網300を介して通信可能に接続されている。固体撮像システム1A-1において、固体撮像装置と、情報処理装置との数は同じであってもよいし、異なっていてもよい。
 固体撮像システム1A-1は、固体撮像装置と、情報処理装置とのそれぞれを複数含んでいるが、これは例示であり、本開示を限定するものではない。固体撮像システム1A-1は、例えば、1台の固体撮像装置と、複数台の情報処理装置とから構成されていてもよい。また、固体撮像システム1A-1は、例えば、複数台の固体撮像装置と、1台の情報処理装置とから構成されていてもよい。
(3.ハードウェア構成)
 上述してきた各実施形態に係る固体撮像装置100及び情報処理装置200は、例えば、図12に示すような構成のコンピュータ1000によって実現される。以下、第1の実施形態に係る固体撮像装置100を例に挙げて説明する。図12は、固体撮像装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェース1500、及び入出力インターフェース1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係るプログラムを記録する記録媒体である。
 通信インターフェース1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェースである。例えば、CPU1100は、通信インターフェース1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェース1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェースである。例えば、CPU1100は、入出力インターフェース1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェース1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェース1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェースとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が第1の実施形態に係る固体撮像装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、固体撮像装置100を構成する各部の機能を実現する。また、HDD1400には、本開示に係るプログラムが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
(4.内視鏡手術システムへの応用例)
 本開示に係る技術(本技術)は、様々な製品へ応用することができる。例えば、本開示に係る技術は、内視鏡手術システムに適用されてもよい。
 図13は、本開示に係る技術(本技術)が適用され得る内視鏡手術システムの概略的な構成の一例を示す図である。
 図13では、術者(医師)11131が、内視鏡手術システム11000を用いて、患者ベッド11133上の患者11132に手術を行っている様子が図示されている。図示するように、内視鏡手術システム11000は、内視鏡11100と、気腹チューブ11111やエネルギー処置具11112等の、その他の術具11110と、内視鏡11100を支持する支持アーム装置11120と、内視鏡下手術のための各種の装置が搭載されたカート11200と、から構成される。
 内視鏡11100は、先端から所定の長さの領域が患者11132の体腔内に挿入される鏡筒11101と、鏡筒11101の基端に接続されるカメラヘッド11102と、から構成される。図示する例では、硬性の鏡筒11101を有するいわゆる硬性鏡として構成される内視鏡11100を図示しているが、内視鏡11100は、軟性の鏡筒を有するいわゆる軟性鏡として構成されてもよい。
 鏡筒11101の先端には、対物レンズが嵌め込まれた開口部が設けられている。内視鏡11100には光源装置11203が接続されており、当該光源装置11203によって生成された光が、鏡筒11101の内部に延設されるライトガイドによって当該鏡筒の先端まで導光され、対物レンズを介して患者11132の体腔内の観察対象に向かって照射される。なお、内視鏡11100は、直視鏡であってもよいし、斜視鏡又は側視鏡であってもよい。
 カメラヘッド11102の内部には光学系及び撮像素子が設けられており、観察対象からの反射光(観察光)は当該光学系によって当該撮像素子に集光される。当該撮像素子によって観察光が光電変換され、観察光に対応する電気信号、すなわち観察像に対応する画像信号が生成される。当該画像信号は、RAWデータとしてカメラコントロールユニット(CCU: Camera Control Unit)11201に送信される。
 CCU11201は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等によって構成され、内視鏡11100及び表示装置11202の動作を統括的に制御する。さらに、CCU11201は、カメラヘッド11102から画像信号を受け取り、その画像信号に対して、例えば現像処理(デモザイク処理)等の、当該画像信号に基づく画像を表示するための各種の画像処理を施す。
 表示装置11202は、CCU11201からの制御により、当該CCU11201によって画像処理が施された画像信号に基づく画像を表示する。
 光源装置11203は、例えばLED(Light Emitting Diode)等の光源から構成され、術部等を撮影する際の照射光を内視鏡11100に供給する。
 入力装置11204は、内視鏡手術システム11000に対する入力インタフェースである。ユーザは、入力装置11204を介して、内視鏡手術システム11000に対して各種の情報の入力や指示入力を行うことができる。例えば、ユーザは、内視鏡11100による撮像条件(照射光の種類、倍率及び焦点距離等)を変更する旨の指示等を入力する。
 処置具制御装置11205は、組織の焼灼、切開又は血管の封止等のためのエネルギー処置具11112の駆動を制御する。気腹装置11206は、内視鏡11100による視野の確保及び術者の作業空間の確保の目的で、患者11132の体腔を膨らめるために、気腹チューブ11111を介して当該体腔内にガスを送り込む。レコーダ11207は、手術に関する各種の情報を記録可能な装置である。プリンタ11208は、手術に関する各種の情報を、テキスト、画像又はグラフ等各種の形式で印刷可能な装置である。
 なお、内視鏡11100に術部を撮影する際の照射光を供給する光源装置11203は、例えばLED、レーザ光源又はこれらの組み合わせによって構成される白色光源から構成することができる。RGBレーザ光源の組み合わせにより白色光源が構成される場合には、各色(各波長)の出力強度及び出力タイミングを高精度に制御することができるため、光源装置11203において撮像画像のホワイトバランスの調整を行うことができる。また、この場合には、RGBレーザ光源それぞれからのレーザ光を時分割で観察対象に照射し、その照射タイミングに同期してカメラヘッド11102の撮像素子の駆動を制御することにより、RGBそれぞれに対応した画像を時分割で撮像することも可能である。当該方法によれば、当該撮像素子にカラーフィルタを設けなくても、カラー画像を得ることができる。
 また、光源装置11203は、出力する光の強度を所定の時間ごとに変更するようにその駆動が制御されてもよい。その光の強度の変更のタイミングに同期してカメラヘッド11102の撮像素子の駆動を制御して時分割で画像を取得し、その画像を合成することにより、いわゆる黒つぶれ及び白とびのない高ダイナミックレンジの画像を生成することができる。
 また、光源装置11203は、特殊光観察に対応した所定の波長帯域の光を供給可能に構成されてもよい。特殊光観察では、例えば、体組織における光の吸収の波長依存性を利用して、通常の観察時における照射光(すなわち、白色光)に比べて狭帯域の光を照射することにより、粘膜表層の血管等の所定の組織を高コントラストで撮影する、いわゆる狭帯域光観察(Narrow Band Imaging)が行われる。あるいは、特殊光観察では、励起光を照射することにより発生する蛍光により画像を得る蛍光観察が行われてもよい。蛍光観察では、体組織に励起光を照射し当該体組織からの蛍光を観察すること(自家蛍光観察)、又はインドシアニングリーン(ICG)等の試薬を体組織に局注するとともに当該体組織にその試薬の蛍光波長に対応した励起光を照射し蛍光像を得ること等を行うことができる。光源装置11203は、このような特殊光観察に対応した狭帯域光及び/又は励起光を供給可能に構成され得る。
 図14は、図13に示すカメラヘッド11102及びCCU11201の機能構成の一例を示すブロック図である。
 カメラヘッド11102は、レンズユニット11401と、撮像部11402と、駆動部11403と、通信部11404と、カメラヘッド制御部11405と、を有する。CCU11201は、通信部11411と、画像処理部11412と、制御部11413と、を有する。カメラヘッド11102とCCU11201とは、伝送ケーブル11400によって互いに通信可能に接続されている。
 レンズユニット11401は、鏡筒11101との接続部に設けられる光学系である。鏡筒11101の先端から取り込まれた観察光は、カメラヘッド11102まで導光され、当該レンズユニット11401に入射する。レンズユニット11401は、ズームレンズ及びフォーカスレンズを含む複数のレンズが組み合わされて構成される。
 撮像部11402は、撮像素子で構成される。撮像部11402を構成する撮像素子は、1つ(いわゆる単板式)であってもよいし、複数(いわゆる多板式)であってもよい。撮像部11402が多板式で構成される場合には、例えば各撮像素子によってRGBそれぞれに対応する画像信号が生成され、それらが合成されることによりカラー画像が得られてもよい。あるいは、撮像部11402は、3D(Dimensional)表示に対応する右目用及び左目用の画像信号をそれぞれ取得するための1対の撮像素子を有するように構成されてもよい。3D表示が行われることにより、術者11131は術部における生体組織の奥行きをより正確に把握することが可能になる。なお、撮像部11402が多板式で構成される場合には、各撮像素子に対応して、レンズユニット11401も複数系統設けられ得る。
 また、撮像部11402は、必ずしもカメラヘッド11102に設けられなくてもよい。例えば、撮像部11402は、鏡筒11101の内部に、対物レンズの直後に設けられてもよい。
 駆動部11403は、アクチュエータによって構成され、カメラヘッド制御部11405からの制御により、レンズユニット11401のズームレンズ及びフォーカスレンズを光軸に沿って所定の距離だけ移動させる。これにより、撮像部11402による撮像画像の倍率及び焦点が適宜調整され得る。
 通信部11404は、CCU11201との間で各種の情報を送受信するための通信装置によって構成される。通信部11404は、撮像部11402から得た画像信号をRAWデータとして伝送ケーブル11400を介してCCU11201に送信する。
 また、通信部11404は、CCU11201から、カメラヘッド11102の駆動を制御するための制御信号を受信し、カメラヘッド制御部11405に供給する。当該制御信号には、例えば、撮像画像のフレームレートを指定する旨の情報、撮像時の露出値を指定する旨の情報、並びに/又は撮像画像の倍率及び焦点を指定する旨の情報等、撮像条件に関する情報が含まれる。
 なお、上記のフレームレートや露出値、倍率、焦点等の撮像条件は、ユーザによって適宜指定されてもよいし、取得された画像信号に基づいてCCU11201の制御部11413によって自動的に設定されてもよい。後者の場合には、いわゆるAE(Auto Exposure)機能、AF(Auto Focus)機能及びAWB(Auto White Balance)機能が内視鏡11100に搭載されていることになる。
 カメラヘッド制御部11405は、通信部11404を介して受信したCCU11201からの制御信号に基づいて、カメラヘッド11102の駆動を制御する。
 通信部11411は、カメラヘッド11102との間で各種の情報を送受信するための通信装置によって構成される。通信部11411は、カメラヘッド11102から、伝送ケーブル11400を介して送信される画像信号を受信する。
 また、通信部11411は、カメラヘッド11102に対して、カメラヘッド11102の駆動を制御するための制御信号を送信する。画像信号や制御信号は、電気通信や光通信等によって送信することができる。
 画像処理部11412は、カメラヘッド11102から送信されたRAWデータである画像信号に対して各種の画像処理を施す。
 制御部11413は、内視鏡11100による術部等の撮像、及び、術部等の撮像により得られる撮像画像の表示に関する各種の制御を行う。例えば、制御部11413は、カメラヘッド11102の駆動を制御するための制御信号を生成する。
 また、制御部11413は、画像処理部11412によって画像処理が施された画像信号に基づいて、術部等が映った撮像画像を表示装置11202に表示させる。この際、制御部11413は、各種の画像認識技術を用いて撮像画像内における各種の物体を認識してもよい。例えば、制御部11413は、撮像画像に含まれる物体のエッジの形状や色等を検出することにより、鉗子等の術具、特定の生体部位、出血、エネルギー処置具11112の使用時のミスト等を認識することができる。制御部11413は、表示装置11202に撮像画像を表示させる際に、その認識結果を用いて、各種の手術支援情報を当該術部の画像に重畳表示させてもよい。手術支援情報が重畳表示され、術者11131に提示されることにより、術者11131の負担を軽減することや、術者11131が確実に手術を進めることが可能になる。
 カメラヘッド11102及びCCU11201を接続する伝送ケーブル11400は、電気信号の通信に対応した電気信号ケーブル、光通信に対応した光ファイバ、又はこれらの複合ケーブルである。
 ここで、図示する例では、伝送ケーブル11400を用いて有線で通信が行われていたが、カメラヘッド11102とCCU11201との間の通信は無線で行われてもよい。
 以上、本開示に係る技術が適用され得る内視鏡手術システムの一例について説明した。本開示に係る技術は、以上説明した構成のうち、例えば、内視鏡11100や、カメラヘッド11102の撮像部11402、CCU11201の画像処理部11412等に適用され得る。具体的には、本開示に係る固体撮像装置100は、内視鏡11100や、カメラヘッド11102の撮像部11402、CCU11201の画像処理部11412等に適用することができる。これらに本開示に係る技術を適用することにより、内視鏡手術システムの性能を向上させることができる。例えば、ダイナミックレンジを拡大した固体撮像装置100を用いて高精細な撮像画像を得ることができる。具体的には、生体内外の撮影において、明暗差が大きいような場所であっても、物体を認識しやすくなる。また、固体撮像装置の高速動作が可能になり、物体検知からカメラヘッド11102など制御までの動作にかかる時間を短縮することができる。
(5.移動体への応用例)
 本開示に係る技術(本技術)は、様々な製品へ応用することができる。例えば、本開示に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット等のいずれかの種類の移動体に搭載される装置として実現されてもよい。
 図15は、本開示に係る技術が適用され得る移動体制御システムの一例である車両制御システムの概略的な構成例を示すブロック図である。
 車両制御システム12000は、通信ネットワーク12001を介して接続された複数の電子制御ユニットを備える。図15に示した例では、車両制御システム12000は、駆動系制御ユニット12010、ボディ系制御ユニット12020、車外情報検出ユニット12030、車内情報検出ユニット12040、及び統合制御ユニット12050を備える。また、統合制御ユニット12050の機能構成として、マイクロコンピュータ12051、音声画像出力部12052、及び車載ネットワークI/F(interface)12053が図示されている。
 駆動系制御ユニット12010は、各種プログラムにしたがって車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット12010は、内燃機関又は駆動用モータ等の車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、及び、車両の制動力を発生させる制動装置等の制御装置として機能する。
 ボディ系制御ユニット12020は、各種プログラムにしたがって車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット12020は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカー又はフォグランプ等の各種ランプの制御装置として機能する。この場合、ボディ系制御ユニット12020には、鍵を代替する携帯機から発信される電波又は各種スイッチの信号が入力され得る。ボディ系制御ユニット12020は、これらの電波又は信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプ等を制御する。
 車外情報検出ユニット12030は、車両制御システム12000を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット12030には、撮像部12031が接続される。車外情報検出ユニット12030は、撮像部12031に車外の画像を撮像させるとともに、撮像された画像を受信する。車外情報検出ユニット12030は、受信した画像に基づいて、人、車、障害物、標識又は路面上の文字等の物体検出処理又は距離検出処理を行ってもよい。
 撮像部12031は、光を受光し、その光の受光量に応じた電気信号を出力する光センサである。撮像部12031は、電気信号を画像として出力することもできるし、測距の情報として出力することもできる。また、撮像部12031が受光する光は、可視光であっても良いし、赤外線等の非可視光であっても良い。
 車内情報検出ユニット12040は、車内の情報を検出する。車内情報検出ユニット12040には、例えば、運転者の状態を検出する運転者状態検出部12041が接続される。運転者状態検出部12041は、例えば運転者を撮像するカメラを含み、車内情報検出ユニット12040は、運転者状態検出部12041から入力される検出情報に基づいて、運転者の疲労度合い又は集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。
 マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構又は制動装置の制御目標値を演算し、駆動系制御ユニット12010に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車両の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、又は車両のレーン逸脱警告等を含むADAS(Advanced Driver Assistance System)の機能実現を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構又は制動装置等を制御することにより、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 また、マイクロコンピュータ12051は、車外情報検出ユニット12030で取得される車外の情報に基づいて、ボディ系制御ユニット12020に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車外情報検出ユニット12030で検知した先行車又は対向車の位置に応じてヘッドランプを制御し、ハイビームをロービームに切り替える等の防眩を図ることを目的とした協調制御を行うことができる。
 音声画像出力部12052は、車両の搭乗者又は車外に対して、視覚的又は聴覚的に情報を通知することが可能な出力装置へ音声及び画像のうちの少なくとも一方の出力信号を送信する。図15の例では、出力装置として、オーディオスピーカ12061、表示部12062及びインストルメントパネル12063が例示されている。表示部12062は、例えば、オンボードディスプレイ及びヘッドアップディスプレイの少なくとも一つを含んでいてもよい。
 図16は、撮像部12031の設置位置の例を示す図である。
 図16では、車両12100は、撮像部12031として、撮像部12101,12102,12103,12104,12105を有する。
 撮像部12101,12102,12103,12104,12105は、例えば、車両12100のフロントノーズ、サイドミラー、リアバンパ、バックドア及び車室内のフロントガラスの上部等の位置に設けられる。フロントノーズに備えられる撮像部12101及び車室内のフロントガラスの上部に備えられる撮像部12105は、主として車両12100の前方の画像を取得する。サイドミラーに備えられる撮像部12102,12103は、主として車両12100の側方の画像を取得する。リアバンパ又はバックドアに備えられる撮像部12104は、主として車両12100の後方の画像を取得する。撮像部12101及び12105で取得される前方の画像は、主として先行車両又は、歩行者、障害物、信号機、交通標識又は車線等の検出に用いられる。
 なお、図16には、撮像部12101ないし12104の撮影範囲の一例が示されている。撮像範囲12111は、フロントノーズに設けられた撮像部12101の撮像範囲を示し、撮像範囲12112,12113は、それぞれサイドミラーに設けられた撮像部12102,12103の撮像範囲を示し、撮像範囲12114は、リアバンパ又はバックドアに設けられた撮像部12104の撮像範囲を示す。例えば、撮像部12101ないし12104で撮像された画像データが重ね合わせられることにより、車両12100を上方から見た俯瞰画像が得られる。
 撮像部12101ないし12104の少なくとも1つは、距離情報を取得する機能を有していてもよい。例えば、撮像部12101ないし12104の少なくとも1つは、複数の撮像素子からなるステレオカメラであってもよいし、位相差検出用の画素を有する撮像素子であってもよい。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を基に、撮像範囲12111ないし12114内における各立体物までの距離と、この距離の時間的変化(車両12100に対する相対速度)を求めることにより、特に車両12100の進行路上にある最も近い立体物で、車両12100と略同じ方向に所定の速度(例えば、0km/h以上)で走行する立体物を先行車として抽出することができる。さらに、マイクロコンピュータ12051は、先行車の手前に予め確保すべき車間距離を設定し、自動ブレーキ制御(追従停止制御も含む)や自動加速制御(追従発進制御も含む)等を行うことができる。このように運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
 例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を元に、立体物に関する立体物データを、2輪車、普通車両、大型車両、歩行者、電柱等その他の立体物に分類して抽出し、障害物の自動回避に用いることができる。例えば、マイクロコンピュータ12051は、車両12100の周辺の障害物を、車両12100のドライバが視認可能な障害物と視認困難な障害物とに識別する。そして、マイクロコンピュータ12051は、各障害物との衝突の危険度を示す衝突リスクを判断し、衝突リスクが設定値以上で衝突可能性がある状況であるときには、オーディオスピーカ12061や表示部12062を介してドライバに警報を出力することや、駆動系制御ユニット12010を介して強制減速や回避操舵を行うことで、衝突回避のための運転支援を行うことができる。
 撮像部12101ないし12104の少なくとも1つは、赤外線を検出する赤外線カメラであってもよい。例えば、マイクロコンピュータ12051は、撮像部12101ないし12104の撮像画像中に歩行者が存在するか否かを判定することで歩行者を認識することができる。かかる歩行者の認識は、例えば赤外線カメラとしての撮像部12101ないし12104の撮像画像における特徴点を抽出する手順と、物体の輪郭を示す一連の特徴点にパターンマッチング処理を行って歩行者か否かを判別する手順によって行われる。マイクロコンピュータ12051が、撮像部12101ないし12104の撮像画像中に歩行者が存在すると判定し、歩行者を認識すると、音声画像出力部12052は、当該認識された歩行者に強調のための方形輪郭線を重畳表示するように、表示部12062を制御する。また、音声画像出力部12052は、歩行者を示すアイコン等を所望の位置に表示するように表示部12062を制御してもよい。
 以上、本開示に係る技術が適用され得る車両制御システムの一例について説明した。本開示に係る技術は、以上説明した構成のうち、撮像部12031に適用され得る。具体的には、本開示に係る固体撮像装置100は、撮像部12031に適用することができる。撮像部12031に本開示に係る技術を適用することにより、車両制御システムの性能を向上させることが可能である。例えば、ダイナミックレンジを拡大した固体撮像装置100を用いて高精細な撮像画像を得ることができる。具体的には、車両内外の撮影において、明暗差が大きいような場所であっても、物体を認識しやすくなる。また、固体撮像装置の高速動作が可能になり、物体検知から車両制御までの動作にかかる時間を短縮することができる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 固体撮像装置と、情報処理装置とを含み、
 前記固体撮像装置は、
 画像データに対してDNNアルゴリズムの一部を第1DNNによって実行し、前記DNNアルゴリズムの残りを実行する情報処理装置に送信される第1結果を生成する第1DNN処理部を備え、
 前記情報処理装置は、
 前記第1結果に対して前記DNNアルゴリズムの残りを第2DNNによって実行して第2結果を生成する第2DNN処理部を備える、
 固体撮像システム。
(2)
 前記第1結果は、前記DNNアルゴリズムの中間層から出力された特徴マップを含む、
 前記(1)に記載の固体撮像システム。
(3)
 前記固体撮像装置は、少なくとも、前記第1DNNを実行するための前記DNNアルゴリズムの一部を記憶している第1記憶部をさらに備え、
 前記情報処理装置は、少なくとも、前記第2DNNを実行するための前記DNNアルゴリズムの残りを記憶している第2記憶部をさらに備える、
 前記(1)または(2)に記載の固体撮像システム。
(4)
 前記第1記憶部と、前記第2記憶部とで、前記画像データに対して実行するための前記DNNアルゴリズムを記憶している、
 前記(3)に記載の固体撮像システム。
(5)
 前記固体撮像装置は、前記第1DNN処理部を制御する第1制御部をさらに備え、
 前記情報処理装置は、前記第2DNN処理部を制御する第2制御部をさらに備える、
 前記(1)~(4)のいずれか1項に記載の固体撮像システム。
(6)
 前記第1制御部は、前記第1DNNに関する情報を含む第1制御情報を生成して前記第2制御部に送信し、
 前記第2制御部は、前記第2DNNに関する情報を含む第2制御情報を生成して前記第1制御部に送信する、
 前記(5)に記載の固体撮像システム。
(7)
 前記第1制御部は、前記第2制御情報に基づいて、前記第1DNN処理部を制御し、
 前記第2制御部は、前記第1制御情報に基づいて、前記第2DNN処理部を制御する、
 前記(5)または(6)に記載の固体撮像システム。
(8)
 前記第1制御部は、前記第1DNN処理部の実行完了通知を前記第2制御部に送信し、
 前記第2制御部は、前記第2DNN処理部の実行完了通知を前記第1制御部に送信する、
 前記(5)~(7)のいずれか1項に記載の固体撮像システム。
(9)
 前記情報処理装置は、アプリケーションプロセッサまたはクラウドサーバである、
 前記(1)~(8)のいずれか1項に記載の固体撮像システム。
(10)
 画像データに対してDNNアルゴリズムの一部を実行し、前記DNNアルゴリズムの残りを実行する情報処理装置に送信される第1結果を生成するDNN処理部を備える、
 固体撮像装置。
(11)
 前記第1結果は、前記DNNアルゴリズムの中間層から出力された特徴マップを含む、
 前記(10)に記載の固体撮像装置。
(12)
 少なくとも、前記DNNアルゴリズムの一部を記憶している記憶部をさらに備える、
 前記(10)または(11)に記載の固体撮像装置。
(13)
 画像データに対してDNNアルゴリズムの一部が実行された第1結果を固体撮像装置から受け、前記第1結果に対して前記DNNアルゴリズムの残りを実行して第2結果を生成するDNN処理部を備える、
 情報処理装置。
(14)
 少なくとも、前記第1結果に対して実行する、前記DNNアルゴリズムの残りを記憶している記憶部をさらに備える、
 前記(13)に記載の情報処理装置。
(15)
 画像データに対してDNNアルゴリズムの一部を実行して第1結果を生成し、
 前記第1結果を情報処理装置に送信する、
 画像処理方法。
(16)
 画像データに対してDNNアルゴリズムの一部が実行された第1結果を固体撮像装置から受け、前記第1結果に対して前記DNNアルゴリズムの残りを実行して第2結果を生成する、
 情報処理方法。
(17)
 コンピュータを、
 画像データに対してDNNアルゴリズムの一部を実行し、前記DNNアルゴリズムの残りを実行する情報処理装置に送信される第1結果を生成するDNN処理部、
 として機能させるためのプログラム。
(18)
 コンピュータを、
 画像データに対してDNNアルゴリズムの一部が実行された第1結果を他の情報処理装置から受け、前記第1結果に対して前記DNNアルゴリズムの残りを実行して第2結果を生成するDNN処理部、
 として機能させるためのプログラム。
 1 固体撮像システム
 10 筐体
 11 第1基板
 12 第2基板
 100 固体撮像装置
 110 撮像部
 120 撮像処理部
 130 第1DNN処理部
 140 第1記憶部
 150 第1制御部
 160 セレクタ
 170,210 通信I/F
 171,212 送信部
 172,211 受信部
 180,220 通信制御部
 200 情報処理装置
 230 第2DNN処理部
 240 第2記憶部
 250 第2制御部

Claims (18)

  1.  固体撮像装置と、情報処理装置とを含み、
     前記固体撮像装置は、
     画像データに対してDNNアルゴリズムの一部を第1DNNによって実行して第1結果を生成する第1DNN処理部を備え、
     前記情報処理装置は、
     前記固体撮像装置から取得された前記第1結果に対して前記DNNアルゴリズムの残りを第2DNNによって実行して第2結果を生成する第2DNN処理部を備える、
     固体撮像システム。
  2.  前記第1結果は、前記DNNアルゴリズムの中間層から出力された特徴マップを含む、
     請求項1に記載の固体撮像システム。
  3.  前記固体撮像装置は、少なくとも、前記第1DNNを実行するための前記DNNアルゴリズムの一部を記憶している第1記憶部をさらに備え、
     前記情報処理装置は、少なくとも、前記第2DNNを実行するための前記DNNアルゴリズムの残りを記憶している第2記憶部をさらに備える、
     請求項1に記載の固体撮像システム。
  4.  前記第1記憶部と、前記第2記憶部とで、前記画像データに対して実行するための前記DNNアルゴリズムを記憶している、
     請求項3に記載の固体撮像システム。
  5.  前記固体撮像装置は、前記第1DNN処理部を制御する第1制御部をさらに備え、
     前記情報処理装置は、前記第2DNN処理部を制御する第2制御部をさらに備える、
     請求項1に記載の固体撮像システム。
  6.  前記第1制御部は、前記第1DNNに関する情報を含む第1制御情報を生成して前記第2制御部に送信し、
     前記第2制御部は、前記第2DNNに関する情報を含む第2制御情報を生成して前記第1制御部に送信する、
     請求項5に記載の固体撮像システム。
  7.  前記第1制御部は、前記第2制御情報に基づいて、前記第1DNN処理部を制御し、
     前記第2制御部は、前記第1制御情報に基づいて、前記第2DNN処理部を制御する、
     請求項6に記載の固体撮像システム。
  8.  前記第1制御部は、前記第1DNN処理部の実行完了通知を前記第2制御部に送信し、
     前記第2制御部は、前記第2DNN処理部の実行完了通知を前記第1制御部に送信する、
     請求項5に記載の固体撮像システム。
  9.  前記情報処理装置は、アプリケーションプロセッサまたはクラウドサーバである、
     請求項1に記載の固体撮像システム。
  10.  画像データに対してDNNアルゴリズムの一部を実行し、前記DNNアルゴリズムの残りを実行する情報処理装置に送信される第1結果を生成するDNN処理部を備える、
     固体撮像装置。
  11.  前記第1結果は、前記DNNアルゴリズムの中間層から出力された特徴マップを含む、
     請求項10に記載の固体撮像装置。
  12.  少なくとも、前記DNNアルゴリズムの一部を記憶している記憶部をさらに備える、
     請求項10に記載の固体撮像装置。
  13.  画像データに対してDNNアルゴリズムの一部が実行された第1結果を固体撮像装置から受け、前記第1結果に対して前記DNNアルゴリズムの残りを実行して第2結果を生成するDNN処理部を備える、
     情報処理装置。
  14.  少なくとも、前記第1結果に対して実行する、前記DNNアルゴリズムの残りを記憶している記憶部をさらに備える、
     請求項13に記載の情報処理装置。
  15.  画像データに対してDNNアルゴリズムの一部を実行し、前記DNNアルゴリズムの残りを実行する情報処理装置に送信される第1結果を生成する、
     画像処理方法。
  16.  画像データに対してDNNアルゴリズムの一部が実行された第1結果を固体撮像装置から受け、前記第1結果に対して前記DNNアルゴリズムの残りを実行して第2結果を生成する、
     情報処理方法。
  17.  コンピュータを、
     画像データに対してDNNアルゴリズムの一部を実行し、前記DNNアルゴリズムの残りを実行する情報処理装置に送信される第1結果を生成するDNN処理部、
     として機能させるためのプログラム。
  18.  コンピュータを、
     画像データに対してDNNアルゴリズムの一部が実行された第1結果を固体撮像装置から受け、前記第1結果に対して前記DNNアルゴリズムの残りを実行して第2結果を生成するDNN処理部、
     として機能させるためのプログラム。
PCT/JP2019/034127 2018-09-21 2019-08-30 固体撮像システム、固体撮像装置、情報処理装置、画像処理方法、情報処理方法及びプログラム WO2020059464A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201980060063.7A CN112703726B (zh) 2018-09-21 2019-08-30 固态成像系统、固态成像装置、信息处理装置、图像处理方法、信息处理方法和程序
US17/275,410 US12079712B2 (en) 2018-09-21 2019-08-30 Solid state image capturing system, solid state image capturing device, information processing device, image processing method, information processing method
EP19862570.9A EP3855726A4 (en) 2018-09-21 2019-08-30 SOLID IMAGING SYSTEM, SOLID IMAGING DEVICE, INFORMATION PROCESSING DEVICE, IMAGE PROCESSING METHOD, INFORMATION PROCESSING METHOD, AND PROGRAM
US18/753,187 US20240346299A1 (en) 2018-09-21 2024-06-25 Solid-state image capturing system, solid state image capturing device, information processing device, image processing method, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018177311A JP6695947B2 (ja) 2018-09-21 2018-09-21 固体撮像システム、画像処理方法及びプログラム
JP2018-177311 2018-09-21

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/275,410 A-371-Of-International US12079712B2 (en) 2018-09-21 2019-08-30 Solid state image capturing system, solid state image capturing device, information processing device, image processing method, information processing method
US18/753,187 Continuation US20240346299A1 (en) 2018-09-21 2024-06-25 Solid-state image capturing system, solid state image capturing device, information processing device, image processing method, information processing method, and program

Publications (1)

Publication Number Publication Date
WO2020059464A1 true WO2020059464A1 (ja) 2020-03-26

Family

ID=69888776

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/034127 WO2020059464A1 (ja) 2018-09-21 2019-08-30 固体撮像システム、固体撮像装置、情報処理装置、画像処理方法、情報処理方法及びプログラム

Country Status (5)

Country Link
US (2) US12079712B2 (ja)
EP (1) EP3855726A4 (ja)
JP (1) JP6695947B2 (ja)
CN (1) CN112703726B (ja)
WO (1) WO2020059464A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230039592A1 (en) * 2021-08-04 2023-02-09 Sony Semiconductor Solutions Corporation Image sensor with integrated efficient multiresolution hierarchical deep neural network (dnn)
WO2023218935A1 (ja) * 2022-05-10 2023-11-16 ソニーセミコンダクタソリューションズ株式会社 イメージセンサ、情報処理方法、プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6695947B2 (ja) * 2018-09-21 2020-05-20 ソニーセミコンダクタソリューションズ株式会社 固体撮像システム、画像処理方法及びプログラム
JP7518609B2 (ja) * 2019-11-07 2024-07-18 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
KR20230065519A (ko) * 2021-11-05 2023-05-12 고려대학교 산학협력단 스플릿 러닝을 이용한 영상처리 시스템 및 영상처리방법
WO2023095666A1 (ja) * 2021-11-29 2023-06-01 ソニーセミコンダクタソリューションズ株式会社 信号処理装置および信号処理方法、並びに固体撮像素子
JP2023134172A (ja) 2022-03-14 2023-09-27 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法および情報処理プログラム、ならびに、情報処理システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191334A (ja) 2014-03-27 2015-11-02 キヤノン株式会社 情報処理装置、情報処理方法
WO2018051809A1 (ja) * 2016-09-16 2018-03-22 ソニーセミコンダクタソリューションズ株式会社 撮像装置、及び、電子機器
JP2018527660A (ja) * 2015-07-29 2018-09-20 ノキア テクノロジーズ オーユー ニューラルネットワークによるオブジェクト検出

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665802B2 (en) * 2014-11-13 2017-05-30 Nec Corporation Object-centric fine-grained image classification
US10832138B2 (en) * 2014-11-27 2020-11-10 Samsung Electronics Co., Ltd. Method and apparatus for extending neural network
JP2017187850A (ja) 2016-04-01 2017-10-12 株式会社リコー 画像処理システム、情報処理装置、プログラム
US10210418B2 (en) * 2016-07-25 2019-02-19 Mitsubishi Electric Research Laboratories, Inc. Object detection system and object detection method
US20180039853A1 (en) * 2016-08-02 2018-02-08 Mitsubishi Electric Research Laboratories, Inc. Object Detection System and Object Detection Method
WO2018035805A1 (en) * 2016-08-25 2018-03-01 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
WO2018094295A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Adaptive attention model for image captioning
US10360494B2 (en) 2016-11-30 2019-07-23 Altumview Systems Inc. Convolutional neural network (CNN) system based on resolution-limited small-scale CNN modules
US10467458B2 (en) * 2017-07-21 2019-11-05 Altumview Systems Inc. Joint face-detection and head-pose-angle-estimation using small-scale convolutional neural network (CNN) modules for embedded systems
CN110062934B (zh) * 2016-12-02 2023-09-01 谷歌有限责任公司 使用神经网络确定图像中的结构和运动
WO2018099473A1 (zh) * 2016-12-02 2018-06-07 北京市商汤科技开发有限公司 场景分析方法和系统、电子设备
WO2018102918A1 (en) * 2016-12-05 2018-06-14 Avigilon Corporation System and method for cnn layer sharing
JP6832155B2 (ja) * 2016-12-28 2021-02-24 ソニーセミコンダクタソリューションズ株式会社 画像処理装置、画像処理方法、及び画像処理システム
CN108229455B (zh) * 2017-02-23 2020-10-16 北京市商汤科技开发有限公司 物体检测方法、神经网络的训练方法、装置和电子设备
CN110914836A (zh) * 2017-05-09 2020-03-24 纽拉拉股份有限公司 在跨联网计算边缘连续运行应用程序的人工智能和深度学习中实现连续的存储器有界学习的系统和方法
WO2018218651A1 (en) * 2017-06-02 2018-12-06 Nokia Technologies Oy Artificial neural network
US10751548B2 (en) * 2017-07-28 2020-08-25 Elekta, Inc. Automated image segmentation using DCNN such as for radiation therapy
CN108229479B (zh) * 2017-08-01 2019-12-31 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
US11200665B2 (en) * 2017-08-02 2021-12-14 Shanghai Sixth People's Hospital Fundus image processing method, computer apparatus, and storage medium
US10282589B2 (en) * 2017-08-29 2019-05-07 Konica Minolta Laboratory U.S.A., Inc. Method and system for detection and classification of cells using convolutional neural networks
US20190079533A1 (en) * 2017-09-13 2019-03-14 TuSimple Neural network architecture method for deep odometry assisted by static scene optical flow
KR101977174B1 (ko) * 2017-09-13 2019-05-10 이재준 영상 분석 방법, 장치 및 컴퓨터 프로그램
JP2019096006A (ja) * 2017-11-21 2019-06-20 キヤノン株式会社 情報処理装置、情報処理方法
JP6985121B2 (ja) * 2017-12-06 2021-12-22 国立大学法人 東京大学 物体間関係認識装置、学習済みモデル、認識方法及びプログラム
JP6943295B2 (ja) * 2017-12-14 2021-09-29 日本電気株式会社 学習装置、学習方法、および学習プログラム
CN108399409B (zh) 2018-01-19 2019-06-18 北京达佳互联信息技术有限公司 图像分类方法、装置及终端
US11544348B2 (en) * 2018-03-05 2023-01-03 Tata Consultancy Services Limited Neural network based position estimation of target object of interest in video frames
CN108681743B (zh) * 2018-04-16 2019-12-06 腾讯科技(深圳)有限公司 图像对象识别方法和装置、存储介质
US10878592B2 (en) * 2018-05-23 2020-12-29 Apical Limited Video data processing
CN108932508B (zh) * 2018-08-13 2022-03-18 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和系统
US11429824B2 (en) * 2018-09-11 2022-08-30 Intel Corporation Method and system of deep supervision object detection for reducing resource usage
JP6695947B2 (ja) * 2018-09-21 2020-05-20 ソニーセミコンダクタソリューションズ株式会社 固体撮像システム、画像処理方法及びプログラム
EP3627379A1 (en) * 2018-09-24 2020-03-25 Siemens Aktiengesellschaft Methods for generating a deep neural net and for localising an object in an input image, deep neural net, computer program product, and computer-readable storage medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191334A (ja) 2014-03-27 2015-11-02 キヤノン株式会社 情報処理装置、情報処理方法
JP2018527660A (ja) * 2015-07-29 2018-09-20 ノキア テクノロジーズ オーユー ニューラルネットワークによるオブジェクト検出
WO2018051809A1 (ja) * 2016-09-16 2018-03-22 ソニーセミコンダクタソリューションズ株式会社 撮像装置、及び、電子機器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BONG, KYEONGRYEOL ET AL.: "A Low- Power Convolutional Neural Network Face Recognition Processor and a CIS Integrated With Always-on Face Detector", IEEE JOURNAL OF SOLID-STATE CIRCUITS, vol. 53, no. 1, 31 December 2017 (2017-12-31), pages 115 - 123, XP011674934, DOI: 10.1109/JSSC.2017.2767705 *
See also references of EP3855726A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230039592A1 (en) * 2021-08-04 2023-02-09 Sony Semiconductor Solutions Corporation Image sensor with integrated efficient multiresolution hierarchical deep neural network (dnn)
US11989888B2 (en) * 2021-08-04 2024-05-21 Sony Semiconductor Solutions Corporation Image sensor with integrated efficient multiresolution hierarchical deep neural network (DNN)
WO2023218935A1 (ja) * 2022-05-10 2023-11-16 ソニーセミコンダクタソリューションズ株式会社 イメージセンサ、情報処理方法、プログラム

Also Published As

Publication number Publication date
EP3855726A4 (en) 2021-11-17
JP2020047191A (ja) 2020-03-26
EP3855726A1 (en) 2021-07-28
US20220058411A1 (en) 2022-02-24
JP6695947B2 (ja) 2020-05-20
CN112703726A (zh) 2021-04-23
US12079712B2 (en) 2024-09-03
CN112703726B (zh) 2024-08-09
US20240346299A1 (en) 2024-10-17

Similar Documents

Publication Publication Date Title
WO2020059464A1 (ja) 固体撮像システム、固体撮像装置、情報処理装置、画像処理方法、情報処理方法及びプログラム
JP7449317B2 (ja) 撮像装置
US20190074399A1 (en) Chip size package, method of manufacturing the same, electronic device, and endoscope
WO2020045539A1 (ja) 固体撮像装置、情報処理装置、情報処理システム、情報処理方法及びプログラム
CN112004039B (zh) 飞行时间传感器
JP7386792B2 (ja) 電子機器及び固体撮像装置
US20230018706A1 (en) Solid-state imaging device, method of manufacturing solid-state imaging device, and electronic equipment
WO2020027229A1 (ja) 固体撮像装置および電子機器
US20190104236A1 (en) Camera module, method of manufacturing camera module, imaging apparatus, and electronic apparatus
CN110447221B (zh) 图像处理装置、图像处理方法和电子设备
JP2018110302A (ja) 撮像装置および撮像装置の製造方法、並びに、電子機器
JP6646347B2 (ja) 固体撮像装置および電子機器
WO2022009674A1 (ja) 半導体パッケージ及び半導体パッケージの製造方法
WO2021240982A1 (ja) 半導体装置とその製造方法、及び電子機器
WO2021075116A1 (ja) 固体撮像装置及び電子機器
JP2019179782A (ja) 半導体装置および半導体装置の製造方法
JP7504802B2 (ja) 固体撮像素子、固体撮像装置及び電子機器
WO2020045202A1 (ja) 撮像装置、補正方法及びコンピュータプログラム
WO2023157651A1 (ja) 撮像装置および信号処理方法
US20240297197A1 (en) Semiconductor device, solid-state imaging device, and method for manufacturing semiconductor device
KR20240151179A (ko) 촬상 장치 및 신호 처리 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19862570

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019862570

Country of ref document: EP

Effective date: 20210421