WO2022014141A1 - 固体撮像素子、撮像装置、および、情報処理システム - Google Patents

固体撮像素子、撮像装置、および、情報処理システム Download PDF

Info

Publication number
WO2022014141A1
WO2022014141A1 PCT/JP2021/018717 JP2021018717W WO2022014141A1 WO 2022014141 A1 WO2022014141 A1 WO 2022014141A1 JP 2021018717 W JP2021018717 W JP 2021018717W WO 2022014141 A1 WO2022014141 A1 WO 2022014141A1
Authority
WO
WIPO (PCT)
Prior art keywords
tensor
output
input
dnn
processing unit
Prior art date
Application number
PCT/JP2021/018717
Other languages
English (en)
French (fr)
Inventor
ハリ ジャガディシュ
和幸 奥池
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Priority to US18/004,769 priority Critical patent/US20230260244A1/en
Publication of WO2022014141A1 publication Critical patent/WO2022014141A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/955Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/70SSIS architectures; Circuits associated therewith
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/70SSIS architectures; Circuits associated therewith
    • H04N25/76Addressed sensors, e.g. MOS or CMOS sensors
    • H04N25/78Readout circuits for addressed sensors, e.g. output amplifiers or A/D converters

Definitions

  • This technology relates to a solid-state image sensor. More specifically, the present invention relates to a solid-state image sensor, an image pickup device, and an information processing system that output the result of image recognition processing.
  • DNN Deep Neural Network
  • an imaging device that captures image data and performs image recognition processing on the image data using DNN (see, for example, Patent Document 1).
  • This image pickup device outputs the result of the image recognition process as metadata to the application server together with the image data.
  • the image recognition device performs the image recognition processing, so that the processing amount of the application server and the processing delay time are reduced as compared with the case where the application server performs the image recognition processing.
  • the format of the input data and the output data of the DNN (number of data, data type, data size, etc.) is determined according to the processing content of the DNN, and is usually not changed after the time of shipment.
  • the above-mentioned image pickup apparatus has a problem that the format of the input / output data of the DNN cannot be changed and the versatility is low.
  • This technology was created in view of such a situation, and aims to improve versatility in a solid-state image sensor that performs image recognition processing.
  • This technology has been made to solve the above-mentioned problems, and the first aspect thereof is a processing unit that selects one of a plurality of DNNs (Deep Neural Networks) having different output tensor formats.
  • the digital signal processing unit that performs image recognition processing on the input tensor using the selected DNN to generate the output tensor, and outputs the decoding parameters for decoding the generated output tensor and the output tensor.
  • It is a solid-state imaging device including an output interface. This has the effect of improving the versatility of the solid-state image sensor.
  • an input interface for receiving a parameter for causing the digital signal processing unit to execute each of the plurality of DNNs is further provided as a DNN parameter, and the digital signal processing unit uses the DNN parameter as the input interface.
  • the above image recognition process may be performed based on the above. This has the effect of executing multiple DNNs.
  • the output interface may further output the input tensor. This has the effect that the input tensor is processed outside the solid-state image sensor.
  • a memory for storing the input tensor in a predetermined area is further provided, the output interface outputs the input tensor read from the memory, and the decoding parameter is the above. It may include a persistence flag indicating whether or not the area should be overwritten by the time the image recognition process is completed. This has the effect of being able to handle cases where the DNN is not completed within one frame period.
  • the output interface may output the input tensor and the output tensor to which a header is added, respectively. This has the effect that the header is processed outside the solid-state image sensor.
  • the header added to the input tensor includes a valid flag indicating whether or not the input tensor is valid, and the header added to the output tensor is the output. It may include a valid flag indicating whether the tensor is valid or not. This has the effect of preventing external malfunction of the solid-state image sensor.
  • the header added to the input tensor and the header added to the output tensor corresponding to the input tensor include a frame count of the same value. good. This has the effect that the input tensor and the output tensor can be associated with each other outside the solid-state image sensor.
  • the input tensor includes the first and second input tensors
  • the plurality of DNNs include the first and second DNNs
  • the digital signal processing unit includes the first and second input tensors.
  • the first DNN may be used for the input tensor 1 and the second DNN may be used for the second input tensor. This has the effect that multiple DNNs are executed in sequence.
  • the digital signal processing unit performs image recognition processing on the input tensor to generate the output tensor
  • the output interface has a predetermined frame period in which the input tensor is generated.
  • the above output tensor may be output after the lapse of time. This has the effect of being able to handle cases where the DNN is not completed within one frame period.
  • the digital signal processing unit interrupts the image recognition process before the start of the capture period for holding the frame in the memory, and restarts the image recognition process after the capture period has elapsed. May be good. This has the effect of suppressing band noise.
  • the second aspect of the present technology is metadata including an output tensor generated by image recognition processing for an input tensor and a decoding parameter for decoding the output tensor. This has the effect of decoding the output tensor.
  • the third aspect of the present technology is a processing unit that selects one of a plurality of DNNs (Deep Neural Networks) having different output tensor formats, and an image recognition process for the input tensor using the selected DNN.
  • a digital signal processing unit that generates the output tensor, an output interface that outputs a decode parameter for decoding the generated output tensor, and an output tensor, and an output output using the decode parameter.
  • It is an imaging device including an application processor that decodes a tensor. This has the effect of improving the versatility of the image pickup device.
  • the fourth aspect of the present technology is a processing unit that selects one of a plurality of DNNs (Deep Neural Networks) having different output tensor formats, and an image recognition process for the input tensor using the selected DNN.
  • a digital signal processing unit that generates the output tensor, an output interface that outputs a decoding parameter for decoding the generated output tensor and the output tensor, and the decoding corresponding to each of the plurality of DNNs.
  • It is an information processing system including an input interface that receives parameters and a converter that generates each of the above decoding parameters and supplies them to the above input interface. This has the effect of improving the versatility of the information processing system.
  • MIPI Mobile Industry Processor Interface
  • Timing chart which shows an example of the operation of the image sensor up to the output of the first RAW image in the 1st modification of embodiment of this technique. It is a timing chart which shows an example of the operation of the image sensor up to the output of the output tensor corresponding to the 1st sheet in the 1st modification of embodiment of this technique. It is a timing chart which shows an example of the operation of the image sensor up to the output of the 2nd RAW image in the 1st modification of embodiment of this technique. It is a timing chart which shows an example of the operation of the image sensor up to the output of the output tensor corresponding to the 2nd sheet in the 1st modification of the embodiment of this technique.
  • Timing chart which shows an example of the operation of the image sensor up to the output of the 1st input tensor in the 2nd modification of the embodiment of this technique. It is a timing chart which shows an example of the operation of the image sensor up to the output of the second RAW image in the 2nd modification of the embodiment of this technique. It is a timing chart which shows an example of the operation of the image sensor up to the output of the output tensor corresponding to the 1st sheet in the 2nd modification of the embodiment of this technique. It is a timing chart which shows an example of the operation of the image sensor up to the output of the 1st input tensor in the 3rd modification of the embodiment of this technique.
  • Embodiment (example of outputting parameters for decoding) 2.
  • First modification example (example of changing the DNN for each frame and outputting the parameters for decoding) 3.
  • Second variant (example of outputting the output tensor and parameters for decoding in the next frame of the input tensor) 4.
  • Third modification (example of interrupting DNN during capture and outputting parameters for decoding)
  • FIG. 1 is a block diagram showing a configuration example of an information processing system according to an embodiment of the present technology.
  • This information processing system is a system for performing image recognition processing, and includes an image pickup apparatus 100 and a DNN converter 300.
  • the image pickup device 100 captures image data and performs image recognition processing on the image data.
  • the image pickup apparatus 100 includes an optical unit 110, an image sensor 200, an application processor 120, and a flash memory 130.
  • the optical unit 110 collects the incident light and guides it to the image sensor 200.
  • the image sensor 200 captures image data by photoelectric conversion and performs image recognition processing on the image data.
  • the image sensor 200 captures image data under the control of the application processor 120, and performs image recognition processing on the image data. Then, the image sensor 200 outputs the data including the processing result to the application processor 120 via the signal line 129.
  • the image sensor 200 is an example of the solid-state image sensor described in the claims.
  • the image sensor 200 reads out and holds the data necessary for the image recognition process from the flash memory 130 via the signal line 139 before imaging.
  • the application processor 120 decodes the processing result of the image recognition process and executes various applications based on the decoded result.
  • the DNN converter 300 generates data necessary for image recognition processing.
  • the DNN converter 300 writes the generated data to the flash memory 130 via the signal line 309 before imaging.
  • FIG. 2 is a block diagram showing a configuration example of the image sensor 200 according to the embodiment of the present technology.
  • the image sensor 200 includes a pixel array 211, an analog-to-digital conversion unit 212, an exposure control unit 213, an image signal processing unit 214, and a SRAM (Static Random Access Memory) 215. Further, the image sensor 200 includes a CPU (Central Processing Unit) 216, a hardware accelerator 217, a selector 218, and a digital signal processing unit 219.
  • the image sensor 200 also includes input interfaces 251 and 254 and 256 and output interfaces 252, 253 and 255. These circuits are provided, for example, on a single semiconductor chip.
  • the above-mentioned circuit in the image sensor 200 can be distributed and arranged on a plurality of stacked semiconductor chips.
  • the upper semiconductor chip and the lower semiconductor chip are laminated, the pixel array 211 is arranged on the upper side, and the other circuits are arranged on the lower side.
  • a plurality of pixels are arranged in a two-dimensional grid pattern.
  • Each of the pixels generates an analog pixel signal by photoelectric conversion and supplies it to the analog-to-digital conversion unit 212.
  • the analog-to-digital conversion unit 212 converts each of the analog pixel signals into a digital signal.
  • the analog-to-digital converter 212 is provided with an ADC (Analog to Digital Converter) for each column or each pixel.
  • Each of the ADCs AD (Analog to Digital) converts the corresponding pixel signal to generate a digital signal.
  • the image data in which these digital signals are arranged is supplied to the selector 218 and the image signal processing unit 214 as a RAW image.
  • the image signal processing unit 214 performs various image processing on the RAW image. As image processing, lens shading correction, white balance gain correction, demosaic processing, linear matrix processing, gamma correction, reduction processing, image cropping processing, distortion correction and the like are executed. Any one or more of these processes are executed.
  • the image after image processing is hereinafter referred to as an "input tensor".
  • the image signal processing unit 214 writes the RAW image before processing and the input tensor after processing in the SRAM 215.
  • the image signal processing unit 214 obtains the illuminance of the ambient light based on the RAW image. For example, the image signal processing unit 214 calculates a statistic (total value) of digital signals in at least a part of the RAW image, and supplies the calculation result to the exposure control unit 213 as illuminance data.
  • the exposure control unit 213 controls the exposure time of the pixel array 211 based on the illuminance.
  • SRAM 215 stores various data such as RAW images.
  • the SRAM 215 is written with an input tensor, an output tensor, a network weight, a DNN program code, a DNN parameter, an AP parameter, a manifest, and the like. It is desirable to encrypt the DNN parameters, AP parameters and programs and keep them in the SRAM 215.
  • the digital signal processing unit 219 decodes the parameters and programs when they are read.
  • the output tensor is a tensor output from the DNN used in the image recognition process, and is data indicating the processing result of the image recognition process.
  • the network weight is a coefficient that is multiplied by the value output from the neural in the DNN.
  • the DNN program code is a code that describes a program for causing the digital signal processing unit 219 to execute the DNN.
  • the DNN parameter is a parameter for causing the digital signal processing unit 219 to execute the image recognition process, and includes information on the dimension of the DNN, the network weight, the input / output tensor, and the like.
  • the AP parameter is a parameter for the application processor 120 to decode the input tensor and the output tensor.
  • the manifest is information about the size and load address of the file that stores the network weight, DNN program code, DNN parameter and AP parameter.
  • the CPU 216 controls the circuit in the image sensor 200.
  • a command from the application processor 120 is input to the CPU 216 via the input interface 251.
  • the CPU 216 controls the digital signal processing unit 219 according to the command to execute the image recognition process.
  • the digital signal processing unit 219 has a function of executing image recognition processing using M (M is an integer) DNNs whose output tensor format and algorithm are different.
  • M is an integer
  • the format of the input tensor and the output tensor of the DNN is determined according to the processing content (algorithm, etc.) of the DNN.
  • the CPU 216 selects one of those DNNs and instructs the digital signal processing unit 219 to execute the DNN.
  • the switching of the DNN to be executed is performed, for example, not during imaging (in other words, dynamic) but during imaging stoppage (in other words, static).
  • the DNN is switched as necessary when the recognition accuracy is insufficient in the DNN before the switching, or when the recognition target is changed.
  • the above-mentioned DNN parameter and AP parameter are each divided into M groups.
  • the m-th group (m is an integer from 0 to M-1) is a set of parameters corresponding to the m-th DNN.
  • the network weight is also divided into M groups.
  • the DNN program code a code common to a plurality of DNNs can be used, and M or less DNN program codes are retained.
  • the image sensor 200 stores various data in the SRAM 215, it can also be stored in a memory other than the SRAM.
  • the SRAM 215 is an example of the memory in the claims.
  • the hardware accelerator 217 performs image rotation processing on the input tensor as necessary. For example, when character recognition is performed, rotation processing is performed for the purpose of improving recognition accuracy.
  • the hardware accelerator 217 reads the input tensor to be processed from the SRAM 215 and updates it with the input tensor after rotation.
  • the selector 218 selects data from the RAW image and the data held in the SRAM 215 and outputs the data to the application processor 120.
  • the selector 218 reads the input tensors and output tensors corresponding to the RAW image from the SRAM 215 as metadata together with the AP parameters corresponding to those tensors. Then, the selector 218 outputs at least one of the RAW image and the metadata to the application processor 120 via the output interface 252.
  • the selector 218 may select and output only one of the image data and the metadata, or may select and output both the image data and the metadata.
  • the digital signal processing unit 219 performs image recognition processing using the DNN selected by the CPU 216.
  • the digital signal processing unit 219 refers to the manifest and reads the DNN parameter, network weight, input tensor, and DNN program code corresponding to the selected DNN from the SRAM 215.
  • the DNN parameters and the like in the m-th group are read out.
  • the digital signal processing unit 219 performs image recognition processing on the input tensor based on the read data (DNN parameter, etc.) and generates an output tensor.
  • the digital signal processing unit 219 writes the generated output tensor to the SRAM 215.
  • the output interface 253 outputs the output tensor to the application processor 120 as metadata together with the corresponding AP parameters.
  • the AP parameters in the m-th group are output.
  • the input interface 254 receives various data such as a download program from the application processor 120 and supplies it to the SRAM 215.
  • the output interface 255 outputs the data held in the SRAM 215 to the flash memory 130.
  • the input interface 256 receives data such as AP parameters and DNN parameters from the flash memory 130 and supplies the data to the SRAM 215.
  • the input interface 251 for example, an interface compliant with the I2C (Inter-Integrated Circuit) standard is used.
  • the output interface 252 for example, an interface compliant with the MIPI standard is used.
  • the output interface 253 and the input interface 254 for example, an interface compliant with the SPI (Serial Peripheral Interface) standard is used.
  • the output interface 255 and the input interface 256 for example, an interface compliant with the SPI standard is used.
  • FIG. 3 is a block diagram showing a configuration example of an interface according to an embodiment of the present technology.
  • the image sensor 200 is provided with the above-mentioned output interface 252, input interface 254, output interface 253, and input interface 251.
  • the application processor 120 is provided with an input interface 121, an output interface 122, an input interface 123, and an output interface 124.
  • the output interface 252 is arranged with a transmission circuit according to the MIPI standard, and the input interface 121 is arranged with a reception circuit according to the standard.
  • MIPI_Tx indicates a transmission circuit
  • MIPI_Rx indicates a reception circuit.
  • Video data and metadata are transferred via these output interfaces 252 and input interfaces 121.
  • the video data includes a plurality of continuously captured RAW images (in other words, frames). Metadata is generated and transferred frame by frame.
  • the input interface 254 functions as a slave of the SPI standard
  • the output interface 122 functions as a master of the SPI standard. Download programs, network data, distortion correction control points, and the like are transferred via these input interfaces 254 and output interfaces 122.
  • the output interface 253 functions as a master of the SPI standard, and the input interface 123 functions as a slave of the SPI standard. Metadata is transferred via these output interfaces 253 and input interfaces 123. This metadata does not include the input tensor, but the output tensor and the corresponding AP parameters.
  • the input interface 251 functions as an I2C standard slave, and the output interface 124 functions as an I2C standard master. Commands to the CPU 216, the status of the application processor 120, and the like are transferred via the input interface 251 and the output interface 124.
  • the image sensor 200 can output both video data and metadata, or can output only metadata.
  • the MIPI standard interface is used as illustrated in the figure, and when only the metadata is output, the SPI standard interface is used.
  • the setting of whether or not to transmit the video data (RAW image) is performed by the CPU 216 before the start of imaging.
  • the image sensor 200 can output any of the following data each time a RAW image is captured. (1) RAW image only (2) Input tensor and AP parameters only (3) Output tensor and AP parameters only (4) Combination of (1) to (3)
  • the image sensor 200 and the application processor 120 are provided with interfaces of both the SPI standard and the MIPI standard, it is also possible to provide only one interface of these standards.
  • FIG. 4 is a diagram for explaining the function of the DNN converter 300 in the embodiment of the present technology.
  • Data indicating the specifications of each of the M DNN models developed by a public framework is input to the DNN converter 300.
  • the DNN converter 300 converts the input data into network weights, DNN program codes, DNN parameters, AP parameters and manifests.
  • the DNN converter 300 when two models of DNN1 and DNN2 are input, the DNN converter 300 outputs the network weight corresponding to DNN1 and the network weight corresponding to DNN2. Further, the DNN converter 300 outputs a DNN program code common to DNN1 and DNN2, as well as a DNN parameter, an AP parameter, and a manifest. A plurality of parameters are generated as DNN parameters. This set of DNN parameters is divided into a group corresponding to DNN1 and a group corresponding to DNN2. Similarly, a plurality of AP parameters are generated, and the set is divided into a group corresponding to DNN1 and a group corresponding to DNN2.
  • the DNN converter 300 writes the generated data to the flash memory 130 in the image sensor 200 before the start of imaging.
  • This DNN converter 300 is realized by an offline conversion tool or the like.
  • FIG. 5 is a diagram for explaining a processing procedure of an information processing system according to an embodiment of the present technology.
  • the DNN converter 300 Prior to the start of imaging, the DNN converter 300 generates data such as AP parameters and DNN parameters and writes them to the flash memory 130 (not shown). The data in the flash memory 130 is read out by the image sensor 200 before imaging and held in the SRAM 215.
  • each of the pixels in the pixel array 211 When the application processor 120 instructs to start imaging, each of the pixels in the pixel array 211 generates an analog pixel signal and outputs it to the analog-to-digital conversion unit 212.
  • the analog-digital conversion unit 212 converts each of the pixel signals into a digital signal, and supplies a RAW image in which they are arranged to the image signal processing unit 214.
  • the image signal processing unit 214 buffers the RAW image in the SRAM 215, executes image processing such as demosaic processing on the RAW image, and generates an input tensor.
  • the input tensor is written to SRAM 215.
  • the hardware accelerator 217 reads the input tensor from the SRAM 215, rotates the input tensor as necessary, and updates the SRAM 215.
  • the CPU 216 selects one of the M DNNs having different output tensor formats, and instructs the digital signal processing unit 219 to execute the selected DNNs.
  • the CPU 216 is an example of the processing unit described in the claims.
  • the digital signal processing unit 219 reads the network weight, DNN parameter, and DNN program code corresponding to the instructed DNN from the SRAM 215. Then, the digital signal processing unit 219 executes image recognition processing on the input tensor using the DNN selected by the CPU 216 based on the read data, and generates an output tensor. The output tensor is written to SRAM 215.
  • the SPI standard output interface 253 reads the generated output tensor and the AP parameter for decoding the tensor as metadata from the SRAM 215 and outputs the generated output tensor to the application processor 120 under the control of the CPU 216.
  • the application processor 120 decodes the output tensor using the AP parameter.
  • the MIPI standard output interface 252 When outputting RAW images and input tensors, the MIPI standard output interface 252 is used.
  • the application processor 120 can decode the output tensor according to the AP parameter. Therefore, the information processing system can support various DNNs having different output tensor formats, and can improve the versatility of the system.
  • the application processor 120 can decode the input tensor by the AP parameter even when the DNN is switched.
  • the image sensor 200 performs the image recognition processing, the processing amount of the application processor 120 and the processing delay time can be reduced as compared with the case where the processing is performed by the application processor 120.
  • FIG. 6 is a diagram showing an example of data transferred via an interface conforming to the MIPI standard in the embodiment of the present technology. As illustrated in the figure, the input tensor is transferred via a virtual channel in the MIPI standard. The output tensor is forwarded over a virtual channel that is different from the input tensor.
  • FIG. 7 is an example of the MIPI standard mobile format in the embodiment of the present technology.
  • the data illustrated in FIG. 6 is stored in the DSP result area surrounded by the thick line in the figure.
  • FIG. 8 is an example of the MIPI standard AV format in the embodiment of the present technology.
  • the data illustrated in FIG. 6 is stored in the DSP result area surrounded by the thick line in the figure.
  • the data is transferred in order according to the transfer settings defined by the SPI specifications. Since the transfer speed of the interface of the SPI standard is slower than that of the MIPI standard, the RAW image is not transmitted when the interface of the SPI standard is used.
  • FIG. 9 is an example of a data format of metadata including an input tensor according to an embodiment of the present technology.
  • This metadata includes headers, AP parameters and input tensors.
  • the header includes a valid flag, a frame count, a maximum line length, an AP parameter size, a network ID (IDentifier), and an identifier flag.
  • IDentifier network ID
  • the metadata zeros are padded in the vacant areas. The vacant area in the header is used as a reserved area.
  • the valid flag is a flag indicating whether or not the input tensor is valid.
  • the frame count is a count value when the CPU 216 counts the number of times of imaging of a RAW image (frame). This frame count is used to identify the output tensor corresponding to the input tensor when the frame from which the input tensor is output differs from the frame from which the output tensor is output. The case where the frame from which the input tensor is output and the frame from which the output tensor is output are different will be described in a modified example described later.
  • the maximum line length is the length of the MIPI line that depends on the MIPI setting.
  • the size of the AP parameter is the size of the entire AP parameter, and the unit is, for example, bytes.
  • the network ID is an identifier for identifying the input DNN of the input tensor.
  • the identifier flag is a flag indicating whether the tensor to which the header is added is an input tensor or an output tensor.
  • the above-mentioned valid flag, frame count, maximum line length, AP parameter size, and identifier flag are set by the CPU 216. Further, the network ID is set by the application processor 120.
  • FIG. 10 is a diagram for explaining the details of the metadata corresponding to the input tensor in the embodiment of the present technology.
  • the header and AP parameters are stored in the line whose line number is "1".
  • the line whose line number is "2" or later is a body area and stores an input tensor.
  • 1 byte is assigned to the valid flag. If the valid flag is "0”, it indicates that the data is invalid. When the valid flag is "1" to "255”, it indicates that the data is valid.
  • 1 byte is allocated to the frame count. While a plurality of RAW images are being continuously imaged (in other words, in a stream), the values of "0" to "244" are counted. During standby to stop the stream, the frame count is set to "255".
  • 2 bytes are allocated to the size of the AP parameter.
  • the unit of this size is bytes.
  • the identifier flag of "0" indicates that the tensor to which the header is added is an input tensor.
  • This AP parameter includes a network inventory, an input tensor parameter, and an output tensor parameter. Details of the AP parameters will be described later.
  • FIG. 11 is a diagram showing a configuration example of an input tensor according to the embodiment of the present technology.
  • the regions of R (Red), G (Green), and B (Blue) in the figure indicate regions in which red, green, and blue pixel data are stored. Gray areas indicate padding areas.
  • 64 lines of pixel data are arranged in the 0th to 227th columns and the 256th to 1792th columns.
  • 63 lines of pixel data are arranged in the 2048 to 2560th columns. This constitutes a 227 ⁇ 227 ⁇ 3 input tensor.
  • FIG. 12 is a diagram showing another example of the input tensor in the embodiment of the present technology.
  • 90 lines of pixel data are arranged in the 0th to 300th columns and the 320th to 1280th columns. In the 2240th to 2560th columns, 89 lines of pixel data are arranged. This constitutes a 300 ⁇ 300 ⁇ 3 input tensor.
  • the format of the input tensor is different from the general image format in order to efficiently use the memory (SRAM 215). Therefore, AP parameters are required to decode the input tensor.
  • FIG. 13 is an example of a data format of metadata including an output tensor in the embodiment of the present technology.
  • This metadata includes headers, AP parameters and output tensors.
  • the structure of the header is the same as that illustrated in FIG.
  • the image sensor 200 When the image sensor 200 outputs both the input tensor and the output tensor, the image sensor 200 outputs both the data exemplified in FIG. 9 and the data exemplified in FIG. 13 as metadata. That is, a header is added to each of the input tensor and the output tensor. When outputting only the output tensor, the image sensor 200 outputs the metadata illustrated in FIG.
  • FIG. 14 is a diagram for explaining the details of the metadata corresponding to the output tensor in the embodiment of the present technology.
  • the identifier flag is set to a value of "1" indicating that the tensor to which the header is added is an output tensor.
  • FIG. 15 is a diagram showing a configuration example of an output tensor in the embodiment of the present technology.
  • the white area indicates the area where the element is stored. Gray areas indicate padding areas.
  • the 0th array contains 70 elements and is stored at the 0th to 69th addresses.
  • the first array is stored at the 96th to 165th addresses.
  • the N-1st array is stored at the 494th to 563rd addresses. As illustrated in the figure, each sequence is serialized and written to SRAM 215.
  • the format of the output tensor is different from the general format in order to efficiently use the memory (SRAM215). Therefore, AP parameters are required to decode the output tensor.
  • FIG. 16 is a diagram showing an example of data related to the network in the DNN parameter in the embodiment of the present technology.
  • This DNN parameter includes parameters for network, dimension, tensor, input tensor, output tensor and memory details for each DNN.
  • the data related to the network includes the elements of "network ID”, “network name”, “network type”, “input tensor” and “output tensor”.
  • a unique identifier is described for each network (DNN) as the "network ID”.
  • the network name the name of the network of the character string is described.
  • the network type the type of DNN based on its functionality is described.
  • an input tensor an array of input tensors input to the DNN is described.
  • An array of output tensors output from the DNN is described as the "output tensor”.
  • FIG. 17 is a diagram showing an example of data related to the dimension in the DNN parameter in the embodiment of the present technology.
  • Dimension-related data includes elements of "tensor inventory”, “size”, “serialization order” and "padding".
  • the dimensional order is described as a "tensor list”. This dimensional order corresponds to the semantic order within the framework. The dimensional order starts from 0, where 0 is the fastest running dimension. As “size”, the size of the dimension and the number of elements in the dimension are described. However, padding is excluded. As the “serialization order”, the order of dimensions when serialized and written to the memory is described. The serialization sequence starts at 0, where 0 is the fastest running dimension. As an element of "padding”, the number of elements added as padding is described.
  • FIG. 18 is a diagram showing an example of data related to the tensor in the DNN parameter in the embodiment of the present technology.
  • Data related to tensors are "tensor inventory”, “name”, “number of dimensions”, “array of dimensions”, “number of bits per element”, “shift”, “scale”, and “type”. Includes elements.
  • a unique identifier is described as a "tensor list”. This identifier starts from zero and can be used as an index.
  • the name of the tensor is described as the "name”.
  • An array of dimensional objects is described as an "array of dimensions”.
  • the number of bits per element of the tensor is described as "the number of bits per element”.
  • shift a shift value for dequantization from fixed point to floating point is described.
  • scale a scale value for dequantization from fixed point to floating point is described.
  • type it is described whether the data type of the element in the tensor is signed or unsigned.
  • FIG. 19 is a diagram showing an example of data related to the input tensor and the output tensor in the DNN parameter in the embodiment of the present technology.
  • the data associated with the input tensor includes elements of "tensor”, “offset in SRAM”, and "persistence flag".
  • the above-mentioned tensor object is described as an element of "tensor".
  • the memory offset address in the SRAM 215 is described as the “offset in the SRAM”.
  • the "persistence flag” a flag indicating whether or not the input tensor memory area should be overwritten until the execution of DNN is completed is described.
  • the input tensor memory area indicates an area in which the input tensor is written in the SRAM 215. If it is not overwritten, the persistence flag is set to "0", and if it is overwritten, it is set to "1".
  • the persistence flag Normally, "0" is set for the persistence flag. However, if it takes a long time to execute the DNN and it does not end within the period of the vertical synchronization signal, the persistence flag is set to "1". The case where "1" is set in the persistence flag will be described later in a modified example.
  • the data related to the output tensor includes the elements of "tensor” and "offset in SRAM".
  • the above-mentioned tensor object is described as an element of "tensor”. Further, the memory offset address in the SRAM 215 is described as the "offset in the SRAM”.
  • FIG. 20 is a diagram showing an example of data related to memory details in the DNN parameter in the embodiment of the present technology.
  • Data about memory details includes elements of "total memory”, “coefficient memory”, “runtime memory”, and “reserved memory”.
  • total memory the memory size in which the above-mentioned tensor object is written is described.
  • coefficient memory the memory size in which the network weight in the SRAM 215 is written is described.
  • the size of the runtime memory is described as an element of the "runtime memory”.
  • reserved memory a memory size reserved for a user's special use case is described.
  • FIG. 21 is a diagram showing an example of data related to the network in the AP parameter in the embodiment of the present technology.
  • the data about the network in the AP parameter includes the elements of "network ID”, “network name”, “network type”, “input tensor” and “output tensor” as well as the DNN parameter.
  • FIG. 22 is a diagram showing an example of data related to the dimension in the AP parameter in the embodiment of the present technology.
  • the data related to the dimensions in the AP parameters like the DNN parameters, include the "tensor inventory”, “size”, “serialization order” and "padding" elements.
  • the data related to the memory details is not described because it is unnecessary data for the application processor 120.
  • FIG. 23 is a diagram showing an example of data related to the tensor in the AP parameter in the embodiment of the present technology.
  • the data related to the tensor in the AP parameter is the same as the DNN parameter, "tensor inventory”, “name”, “number of dimensions”, “array of dimensions”, “number of bits per element”, “shift”, Includes “scale” and "type” elements.
  • FIG. 24 is a diagram showing an example of data related to the input tensor and the output tensor in the AP parameter in the embodiment of the present technology.
  • the data associated with the input tensor includes the "tensor” and the "persistence flag” element.
  • the data related to the output tensor includes the element of "tensor”.
  • the offset address is not described in the AP parameter because it is unnecessary data for the application processor 120.
  • AP parameters are a subset of DNN parameters.
  • FIG. 25 is a timing chart showing an example of the operation of the image sensor 200 up to the output of the RAW image in the embodiment of the present technology. This operation is started, for example, when a predetermined application for performing image recognition is executed.
  • ADC indicates the ADC in the analog-to-digital conversion unit 212.
  • HW Acc indicates a hardware accelerator 217.
  • DSP indicates a digital signal processing unit 219.
  • the CPU 216 selects a DNN to be executed from the M DNNs and sets it in the register.
  • the analog-to-digital conversion unit 212 generates a RAW image by AD conversion.
  • the image signal processing unit 214 (not shown) and the hardware accelerator 217 perform various image processing on the RAW image as preprocessing to generate an input tensor. Further, the RAW image is output from the output interface 252 within the period of timings T2 to T4. At timing T3, writing of the input tensor to SRAM 215 is started. The processing after the timing T4 will be described later.
  • FIG. 26 is a timing chart showing an example of the operation of the image sensor 200 up to the output of the output tensor in the embodiment of the present technology.
  • the hardware accelerator 217 supplies an interrupt signal to the CPU 216.
  • the CPU 216 notifies the digital signal processing unit 219 of the start of the image recognition process at the timing T5.
  • the digital signal processing unit 219 reads the input tensor from the SRAM 215 and performs image recognition processing on the input tensor using DNN.
  • the network weight, the DNN program code, and the DNN parameter are also read from the SRAM 215.
  • the CPU 216 makes settings for DMA (Direct Memory Access) transfer during the period from timing T6 to T7.
  • DMA controller (not shown) DMA transfers the input tensor from the SRAM 215 to the output interface 252 according to the setting.
  • the digital signal processing unit 219 writes back the output tensor to the SRAM 215 at the timing T9, and notifies the CPU 216 of the end of the image recognition process at the timing T10.
  • the CPU 216 makes settings for DMA transfer during the period from timing T10 to T11. During the period from timing T11 to T12, the DMA controller DMA transfers the output tensor from the SRAM 215 to the output interface 252 according to the setting.
  • the vertical sync signal XVS goes down. After the timing T13, the same process is repeatedly executed in synchronization with the vertical synchronization signal XVS.
  • the period from timing T0 to T13 (in other words, the period of the vertical synchronization signal XVS) is hereinafter referred to as a “frame period”.
  • the image recognition process by DNN is completed within one frame period (period of the vertical synchronization signal XVS). Then, the output tensor corresponding to the input tensor is output within the frame period in which the RAW image and the input tensor are output.
  • the output interface 252 outputs the AP parameter for decoding and the output tensor, even if the output interface 252 is switched to the DNN having a different output format, the circuit in the subsequent stage can be used.
  • the output tensor can be decoded.
  • the digital signal processing unit 219 can use various DNNs having different output formats, and the versatility of the information processing system is improved.
  • the digital signal processing unit 219 performs image recognition processing using a single DNN in the stream, and the DNN is switched while the stream is stopped.
  • a single DNN may lack the versatility and convenience of an information processing system. For example, when recognizing a plurality of objects, a plurality of DNNs having different algorithms may be required, which makes it difficult to deal with a single DNN.
  • the image sensor 200 of the first modification of this embodiment differs from the embodiment in that the DNN is switched during the stream.
  • FIG. 27 is a timing chart showing an example of the operation of the image sensor 200 up to the output of the first RAW image in the first modification of the embodiment of the present technology. It is assumed that the digital signal processing unit 219 of the first modification of this embodiment can execute two DNNs, DNN1 and DNN2.
  • the CPU 216 selects DNN1 within the period from timing T0 to T1 and sets it in the register. Then, during the period from timing T2 to T4, the analog-digital conversion unit 212 generates the first RAW image by AD conversion.
  • FIG. 28 is a timing chart showing an example of the operation of the image sensor up to the output of the output tensor corresponding to the first sheet in the first modification of the embodiment of the present technology.
  • the digital signal processing unit 219 reads the first input tensor from the SRAM 215 and performs image recognition processing on the input tensor using DNN1. Further, the digital signal processing unit 219 writes back the output tensor corresponding to the DNN 1 to the SRAM 215 at the timing T9.
  • a header including a network ID indicating DNN1 is added to each of the input tensor and the output tensor corresponding to DNN1.
  • FIG. 29 is a timing chart showing an example of the operation of the image sensor 200 up to the output of the second RAW image in the first modification of the embodiment of the present technology.
  • the CPU 216 selects DNN2 within the period of timings T13 to T14 and sets it in the register. Then, during the period from timing T15 to T17, the analog-digital conversion unit 212 generates a second RAW image by AD conversion.
  • FIG. 30 is a timing chart showing an example of the operation of the image sensor up to the output of the output tensor corresponding to the second sheet in the first modification of the embodiment of the present technology.
  • the digital signal processing unit 219 reads out the second input tensor from the SRAM 215 and performs image recognition processing on the input tensor using DNN2. Further, the digital signal processing unit 219 writes back the output tensor corresponding to the DNN 2 to the SRAM 215 at the timing T22.
  • a header including a network ID indicating DNN2 is added to each of the input tensor and the output tensor corresponding to DNN2.
  • the image sensor 200 executes DNN1 within the first frame period and executes DNN2 within the next frame period. After that, the same process is repeatedly executed. In this way, DNN1 and DNN2 are executed alternately in a cycle of 2 frames.
  • the image sensor 200 can also execute three or more M DNNs one by one in a cycle of M frames. Execution of these plurality of DNNs improves the versatility and convenience of the system as compared with the case of using a single DNN.
  • the digital signal processing unit 219 executes a plurality of DNNs one by one in the stream in order to execute a single DNN. Compared with, the versatility and convenience of the system can be improved.
  • the digital signal processing unit 219 completes the image recognition processing by DNN within one frame period (that is, the period of the vertical synchronization signal).
  • the execution time of the image recognition process differs depending on the DNN algorithm, and may not be completed within one frame period.
  • the image sensor 200 of the second modification of this embodiment is different from the embodiment in that the output tensor corresponding to the input tensor is output after the lapse of the frame period in which the input tensor is generated.
  • FIG. 31 is a timing chart showing an example of the operation of the image sensor up to the output of the first input tensor in the second modification of the embodiment of the present technology.
  • the first RAW image is output within the period up to the timing T4.
  • the digital signal processing unit 219 starts image recognition processing for the first input tensor. This image recognition process shall not be completed within the first frame period.
  • the DMA controller (not shown) performs DMA transfer of the first input tensor from the SRAM 215 to the output interface 252 according to the register setting.
  • the header added to this input tensor is a frame with a valid flag set other than "0", a persistence flag set with "1”, and a value corresponding to the first sheet (for example, "0"). Includes with counter.
  • the DMA controller performs DMA transfer of the invalid output tensor from the SRAM 215 to the output interface 252 according to the register setting.
  • the header contained in this output tensor contains a valid flag set to "0".
  • FIG. 32 is a timing chart showing an example of the operation of the image sensor up to the output of the second RAW image in the second modification of the embodiment of the present technology.
  • the analog-digital conversion unit 212 generates a second RAW image by AD conversion.
  • the second input tensor after the preprocessing is not written to the SRAM 215 at this point.
  • FIG. 33 is a timing chart showing an example of the operation of the image sensor up to the output of the output tensor corresponding to the first sheet in the second modification of the embodiment of the present technology.
  • the digital signal processing unit 219 deletes the first input tensor from the SRAM 215.
  • the DMA controller (not shown) performs DMA transfer of an invalid input tensor from the SRAM 215 to the output interface 252 according to the register setting.
  • the header contained in this input tensor contains a valid flag set to "0".
  • the second input tensor is overwritten in the input tensor memory area of the SRAM 215. That is, the input tensor memory area is overwritten before the execution of DNN is completed.
  • the digital signal processing unit 219 writes back the output tensor to the SRAM 215 at the timing T22, and notifies the CPU 216 of the end of the image recognition process at the timing T23. Then, during the period from timing T24 to T25, the DMA controller transfers the output tensor from the SRAM 215 to the output interface 252 by DMA according to the register setting.
  • the header added to this output tensor includes a valid flag set other than "0" and a frame counter having a value corresponding to the first sheet (for example, "0").
  • DNN may not be completed within one frame period.
  • the RAW image and the input tensor are output within the frame period when the execution of the DNN is started, and the output tensor is output after the frame period has elapsed (for example, the next frame). If it takes more than two frames to complete the DNN, the image sensor 200 can also output an output tensor after the timing T26.
  • the application processor 120 can refer to the flag and understand that the frame from which the input tensor is output and the frame from which the output tensor is output are different.
  • the persistence flag can be reduced from the header.
  • the output tensor within the first frame period and the input tensor within the next frame period can be disabled to prevent system malfunction.
  • the valid flag can be reduced from the header.
  • the frame count in the header of the input tensor and the frame count in the header of the output tensor corresponding to the input tensor are set to be the same. This allows the application processor 120 to refer to the frame count to identify the input tensor corresponding to the output tensor, even if the DNN is not completed within the frame period.
  • the frame count can be reduced from the header. Further, even if the DNN is not completed within the frame period, the frame count can be reduced from the header if the application processor 120 can estimate the timing at which the DNN is completed.
  • the application processor 120 can refer to them and deal with the case where the DNN is not completed within one frame period.
  • the information processing system since the header includes the persistence flag, the valid flag, and the persistence flag, the information processing system corresponds to the case where the DNN is not completed within one frame period. can do.
  • the digital signal processing unit 219 continues to execute the DNN while the RAW image (frame) is held in the SRAM 215 (in other words, during capture).
  • memory access may occur due to the execution of DNN during capture, and band noise may occur due to the memory access.
  • the image sensor 200 of the third modification of this embodiment is different from the second modification in that the execution of the DNN is interrupted during the capture.
  • FIG. 34 is a timing chart showing an example of the operation of the image sensor up to the output of the first input tensor in the third modification of the embodiment of the present technology.
  • the digital signal processing unit 219 reads the input tensor from the SRAM 215 and performs image recognition processing on the input tensor using DNN.
  • the CPU 216 instructs the digital signal processing unit 219 to suspend the image recognition process, and at the timing T10, the digital signal processing unit 219 interrupts the image recognition process and notifies the CPU 216 of the completion of the interruption.
  • the DMA controller (not shown) performs DMA transfer of the first input tensor from the SRAM 215 to the output interface 252 according to the register setting.
  • the header added to this input tensor is a frame with a valid flag set other than "0", a persistence flag set with "1”, and a value corresponding to the first sheet (for example, "0"). Includes with counter.
  • the CPU 216 makes settings for DMA transfer during the period from timing T10 to T11.
  • the DMA controller DMA transfers the invalid output tensor from the SRAM 215 to the output interface 252 according to its settings.
  • the header contained in this output tensor contains a valid flag set to "0".
  • FIG. 35 is a timing chart showing an example of the operation of the image sensor up to the output of the second RAW image in the third modification of the embodiment of the present technology.
  • the analog-to-digital conversion unit 212 generates a RAW image by AD conversion.
  • the image signal processing unit 214 (not shown) and the hardware accelerator 217 perform various image processing on the second RAW image as preprocessing to generate the second input tensor. In this preprocessing, the image signal processing unit 214 temporarily holds (captures) the RAW image in the SRAM 215.
  • the period of the timings T15 to T17 is hereinafter referred to as a capture period. During this capture period, the image recognition process by DNN is interrupted, so that band noise is suppressed. The second input tensor after the preprocessing is not written to the SRAM 215 at this point.
  • FIG. 36 is a timing chart showing an example of the operation of the image sensor up to the output of the output tensor corresponding to the first sheet in the third modification of the embodiment of the present technology.
  • the CPU 216 supplies the digital signal processing unit 219 with the calculation history until the interruption, and instructs the digital signal processing unit 219 to restart the image recognition processing.
  • the digital signal processing unit 219 restarts the image recognition process, and at the timing T22, writes back the output tensor corresponding to the DNN 2 to the SRAM 215.
  • the DMA controller (not shown) performs DMA transfer of an invalid input tensor from the SRAM 215 to the output interface 252 according to the register setting.
  • the header contained in this input tensor contains a valid flag set to "0".
  • the second input tensor is overwritten in the input tensor memory area of the SRAM 215. That is, the input tensor memory area is overwritten before the execution of DNN is completed.
  • the DMA controller transfers the output tensor from the SRAM 215 to the output interface 252 by DMA according to the setting.
  • the header added to this output tensor includes a valid flag set other than "0" and a frame counter having a value corresponding to the first sheet (for example, "0").
  • the digital signal processing unit 219 interrupts the image recognition process before the start of the capture period for holding the frame in the SRAM 215, and restarts the image recognition process after the capture period elapses.
  • the memory access due to the execution of the DNN does not occur during the capture, and the band noise caused by the memory access can be suppressed.
  • the first modification can be applied to the second and third modifications of the embodiment.
  • DNN1 is executed in 2 frames out of the cycle of 4 frames
  • DNN2 is executed in the remaining 2 frames.
  • the digital signal processing unit 219 interrupts the image recognition process before the start of the capture period and restarts it after the capture period elapses. Therefore, during the capture, the DNN Memory access will not occur due to the execution of. This makes it possible to suppress band noise caused by memory access during capture.
  • the present technology can have the following configurations.
  • a processing unit that selects one of a plurality of DNNs (Deep Neural Networks) having different output tensor formats.
  • a digital signal processing unit that performs image recognition processing on the input tensor using the selected DNN to generate the output tensor, and
  • a solid-state image sensor provided with a decoding parameter for decoding the generated output tensor and an output interface for outputting the output tensor.
  • the solid-state image pickup device according to (1) or (2), wherein the output interface further outputs the input tensor.
  • the output interface outputs the input tensor read from the memory.
  • the solid-state image sensor according to (3) above, wherein the decode parameter includes a persistence flag indicating whether or not the region should be overwritten by the time the image recognition process is completed.
  • the solid-state image pickup device according to (3) or (4), wherein the output interface outputs the input tensor and the output tensor to which a header is added.
  • the header added to the input tensor includes a valid flag indicating whether or not the input tensor is valid.
  • the input tensor includes a first input tensor and a second input tensor.
  • the plurality of DNNs include a first and a second DNN.
  • the digital signal processing unit uses the first DNN for the first input tensor and uses the second DNN for the second input tensor (1) to (7).
  • the solid-state image sensor according to any one of. (9)
  • the digital signal processing unit performs image recognition processing on the input tensor to generate the output tensor.
  • the solid-state image pickup device according to any one of (1) to (8) above, wherein the output interface outputs the output tensor after a predetermined frame period in which the input tensor is generated elapses.
  • the digital signal processing unit interrupts the image recognition process before the start of the capture period for holding the frame in the memory, and restarts the image recognition process after the capture period has elapsed. Image sensor.
  • a processing unit that selects one of a plurality of DNNs (Deep Neural Networks) having different output tensor formats, and A digital signal processing unit that performs image recognition processing on the input tensor using the selected DNN to generate the output tensor, and A decoding parameter for decoding the generated output tensor, an output interface for outputting the output tensor, and an output interface.
  • An imaging device including an application processor that decodes the output output tensor using the decoding parameters.
  • a processing unit that selects one of a plurality of DNNs (Deep Neural Networks) having different output tensor formats.
  • a digital signal processing unit that performs image recognition processing on the input tensor using the selected DNN to generate the output tensor, and A decoding parameter for decoding the generated output tensor, an output interface for outputting the output tensor, and an output interface.
  • An input interface that receives the decoding parameters corresponding to each of the plurality of DNNs,
  • An information processing system including a converter that generates each of the decoding parameters and supplies them to the input interface.
  • Imaging device 110
  • Optical unit 120
  • Application processor 121, 123, 251, 254, 256
  • Input interface 122, 124, 252, 255, 255
  • Output interface 130
  • Flash memory 200
  • Image sensor 211
  • Pixel array 212
  • Exposure control unit 214
  • Image signal processing unit 215 SRAM 216
  • CPU Hardware Accelerator 218 Selector 219

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Vascular Medicine (AREA)
  • Probability & Statistics with Applications (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Abstract

画像認識処理を行う固体撮像素子において、汎用性を向上させる。 固体撮像素子は、処理部と、デジタル信号処理部と、出力インタフェースとを具備する。処理部は、出力テンソルのフォーマットが異なる複数のDNN(Deep Neural Network)のいずれかを選択する。デジタル信号処理部は、選択されたDNNを用いて入力テンソルに対する画像認識処理を行って出力テンソルを生成する。出力インターフェースは、生成された出力テンソルをデコードするためのデコードパラメータと出力テンソルとを出力する。

Description

固体撮像素子、撮像装置、および、情報処理システム
 本技術は、固体撮像素子に関する。詳しくは、画像認識処理の結果を出力する固体撮像素子、撮像装置、および、情報処理システムに関する。
 従来より、画像認識や音声認識などの様々な分野において、DNN(Deep Neural Network)が用いられている。例えば、画像データを撮像し、その画像データに対してDNNを用いて画像認識処理を行う撮像装置が提案されている(例えば、特許文献1参照。)。この撮像装置は、画像認識処理の結果をメタデータとして画像データとともにアプリケーションサーバに出力する。
特開2020-22054号公報
 上述の従来技術では、撮像装置が画像認識処理を行うことにより、アプリケーションサーバが画像認識処理を行う場合と比較して、アプリケーションサーバの処理量や、処理の遅延時間の削減を図っている。ここで、DNNの入力データや出力データのフォーマット(データ数、データのタイプやデータサイズなど)は、DNNの処理内容に応じて決定され、通常、出荷時以降は変更されない。しかしながら、出荷時のままでは認識精度が不足する場合や認識対象を変える場合などに、DNNの処理内容の変更を要することがある。そして、その処理内容の変更に起因して入出力データのフォーマットの変更が必要になることがある。上述の撮像装置では、DNNの入出力データのフォーマットを変更することができず、汎用性が低いという問題がある。
 本技術はこのような状況に鑑みて生み出されたものであり、画像認識処理を行う固体撮像素子において、汎用性を向上させることを目的とする。
 本技術は、上述の問題点を解消するためになされたものであり、その第1の側面は、出力テンソルのフォーマットが異なる複数のDNN(Deep Neural Network)のいずれかを選択する処理部と、上記選択されたDNNを用いて入力テンソルに対する画像認識処理を行って上記出力テンソルを生成するデジタル信号処理部と、上記生成された出力テンソルをデコードするためのデコードパラメータと上記出力テンソルとを出力する出力インターフェースとを具備する固体撮像素子である。これにより、固体撮像素子の汎用性が向上するという作用をもたらす。
 また、この第1の側面において、上記複数のDNNのそれぞれを上記デジタル信号処理部に実行させるためのパラメータをDNNパラメータとして受け取る入力インターフェースをさらに具備し、上記デジタル信号処理部は、上記DNNパラメータに基づいて上記画像認識処理を行ってもよい。これにより、複数のDNNが実行されるという作用をもたらす。
 また、この第1の側面において、上記出力インターフェースは、上記入力テンソルをさらに出力してもよい。これにより、入力テンソルが固体撮像素子の外部で処理されるという作用をもたらす。
 また、この第1の側面において、上記入力テンソルを所定の領域に記憶するメモリをさらに具備し、上記出力インターフェースは、上記メモリから読み出された上記入力テンソルを出力し、上記デコードパラメータは、上記画像認識処理が完了するまでに、上記領域が上書きされるべきでないか否かを示す持続性フラグを含むものであってもよい。これにより、DNNが1フレーム期間内に完了しない場合に対応することができるという作用をもたらす。
 また、この第1の側面において、上記出力インターフェースは、それぞれにヘッダが付加された上記入力テンソルおよび上記出力テンソルを出力してもよい。これにより、ヘッダが固体撮像素子の外部で処理されるという作用をもたらす。
 また、この第1の側面において、上記入力テンソルに付加された上記ヘッダは、上記入力テンソルが有効であるか否かを示す有効フラグを含み、上記出力テンソルに付加された上記ヘッダは、上記出力テンソルが有効であるか否かを示す有効フラグを含むものであってもよい。これにより、固体撮像素子の外部の誤動作が防止されるという作用をもたらす。
 また、この第1の側面において、上記入力テンソルに付加された上記ヘッダと、上記入力テンソルに対応する出力テンソルに付加された上記ヘッダとは、同一の値のフレームカウントを含むものであってもよい。これにより、固体撮像素子の外部で、入力テンソルと出力テンソルとを対応付けることができるという作用をもたらす。
 また、この第1の側面において、上記入力テンソルは、第1および第2の入力テンソルを含み、上記複数のDNNは、第1および第2のDNNを含み、上記デジタル信号処理部は、上記第1の入力テンソルに対して上記第1のDNNを使用し、上記第2の入力テンソルに対して上記第2のDNNを使用してもよい。これにより、複数のDNNが順に実行されるという作用をもたらす。
 また、この第1の側面において、上記デジタル信号処理部は、上記入力テンソルに対する画像認識処理を行って上記出力テンソルを生成し、上記出力インターフェースは、上記入力テンソルが生成される所定のフレーム期間の経過後に上記出力テンソルを出力してもよい。これにより、DNNが1フレーム期間内に完了しない場合に対応することができるという作用をもたらす。
 また、この第1の側面において、上記デジタル信号処理部は、フレームをメモリに保持するキャプチャ期間の開始前に上記画像認識処理を中断し、上記キャプチャ期間の経過後に上記画像認識処理を再開してもよい。これにより、バンドノイズが抑制されるという作用をもたらす。
 また、本技術の第2の側面は、入力テンソルに対する画像認識処理により生成された出力テンソルと、出力テンソルをデコードするためのデコードパラメータとを含むメタデータである。これにより、出力テンソルがデコードされるという作用をもたらす。
 また、本技術の第3の側面は、出力テンソルのフォーマットが異なる複数のDNN(Deep Neural Network)のいずれかを選択する処理部と、上記選択されたDNNを用いて入力テンソルに対する画像認識処理を行って上記出力テンソルを生成するデジタル信号処理部と、上記生成された出力テンソルをデコードするためのデコードパラメータと上記出力テンソルとを出力する出力インターフェースと、上記デコードパラメータを用いて上記出力された出力テンソルをデコードするアプリケーションプロセッサとを具備する撮像装置である。これにより、撮像装置の汎用性が向上するという作用をもたらす。
 また、本技術の第4の側面は、出力テンソルのフォーマットが異なる複数のDNN(Deep Neural Network)のいずれかを選択する処理部と、上記選択されたDNNを用いて入力テンソルに対する画像認識処理を行って上記出力テンソルを生成するデジタル信号処理部と、上記生成された出力テンソルをデコードするためのデコードパラメータと上記出力テンソルとを出力する出力インターフェースと、上記複数のDNNのそれぞれに対応する上記デコードパラメータを受け取る入力インターフェースと、上記デコードパラメータのそれぞれを生成して上記入力インターフェースに供給するコンバータとを具備する情報処理システムである。これにより、情報処理システムの汎用性が向上するという作用をもたらす。
本技術の実施の形態における情報処理システムの一構成例を示すブロック図である。 本技術の実施の形態におけるイメージセンサの一構成例を示すブロック図である。 本技術の実施の形態におけるインターフェースの一構成例を示すブロック図である。 本技術の実施の形態におけるDNNコンバーターの機能を説明するための図である。 本技術の実施の形態における情報処理システムの処理手順を説明するための図である。 本技術の実施の形態におけるMIPI(Mobile Industry Processor Interface)規格に準拠したインターフェースを介して転送されるデータの一例を示す図である。 本技術の実施の形態におけるMIPI規格のモバイルフォーマットの一例である。 本技術の実施の形態におけるMIPI規格のAV(Audio Visual)フォーマットの一例である。 本技術の実施の形態における入力テンソルを含むメタデータのデータフォーマットの一例である。 本技術の実施の形態における入力テンソルに対応するメタデータの詳細を説明するための図である。 本技術の実施の形態における入力テンソルの一構成例を示す図である。 本技術の実施の形態における入力テンソルの別の例を示す図である。 本技術の実施の形態における出力テンソルを含むメタデータのデータフォーマットの一例である。 本技術の実施の形態における出力テンソルに対応するメタデータの詳細を説明するための図である。 本技術の実施の形態における出力テンソルの一構成例を示す図である。 本技術の実施の形態におけるDNNパラメータ内のネットワークに関連するデータの一例を示す図である。 本技術の実施の形態におけるDNNパラメータ内の次元に関連するデータの一例を示す図である。 本技術の実施の形態におけるDNNパラメータ内のテンソルに関連するデータの一例を示す図である。 本技術の実施の形態におけるDNNパラメータ内の入力テンソルおよび出力テンソルに関連するデータの一例を示す図である。 本技術の実施の形態におけるDNNパラメータ内のメモリ詳細に関連するデータの一例を示す図である。 本技術の実施の形態におけるAP(Application Processor)パラメータ内のネットワークに関連するデータの一例を示す図である。 本技術の実施の形態におけるAPパラメータ内の次元に関連するデータの一例を示す図である。 本技術の実施の形態におけるAPパラメータ内のテンソルに関連するデータの一例を示す図である。 本技術の実施の形態におけるAPパラメータ内の入力テンソルおよび出力テンソルに関連するデータの一例を示す図である。 本技術の実施の形態におけるRAW画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態における出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態の第1の変形例における1枚目のRAW画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態の第1の変形例における1枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態の第1の変形例における2枚目のRAW画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態の第1の変形例における2枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態の第2の変形例における1枚目の入力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態の第2の変形例における2枚目のRAW画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態の第2の変形例における1枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態の第3の変形例における1枚目の入力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態の第3の変形例における2枚目のRAW画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。 本技術の実施の形態の第3の変形例における1枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。
 以下、本技術を実施するための形態(以下、実施の形態と称する)について説明する。説明は以下の順序により行う。
 1.実施の形態(デコードのためのパラメータを出力する例)
 2.第1の変形例(フレーム毎にDNNを変更し、デコードのためのパラメータを出力する例)
 3.第2の変形例(入力テンソルの次のフレームで出力テンソルとデコードのためのパラメータとを出力する例)
 4.第3の変形例(キャプチャ中にDNNを中断し、デコードのためのパラメータを出力する例)
 <1.実施の形態>
 [情報処理システムの構成例]
 図1は、本技術の実施の形態における情報処理システムの一構成例を示すブロック図である。この情報処理システムは、画像認識処理を行うためのシステムであり、撮像装置100およびDNNコンバーター300を備える。
 撮像装置100は、画像データを撮像し、その画像データに対する画像認識処理を行うものである。この撮像装置100は、光学部110、イメージセンサ200、アプリケーションプロセッサ120およびフラッシュメモリ130を備える。
 光学部110は、入射光を集光してイメージセンサ200に導くものである。
 イメージセンサ200は、光電変換により画像データを撮像し、その画像データに対する画像認識処理を行うものである。このイメージセンサ200は、アプリケーションプロセッサ120の制御に従って画像データを撮像し、その画像データに対する画像認識処理を行う。そして、イメージセンサ200は、処理結果を含むデータをアプリケーションプロセッサ120に信号線129を介して出力する。なお、イメージセンサ200は、特許請求の範囲に記載の固体撮像素子の一例である。
 また、イメージセンサ200は、信号線139を介してフラッシュメモリ130から、画像認識処理に必要なデータを撮像前に読み出して保持しておく。
 アプリケーションプロセッサ120は、画像認識処理の処理結果をデコードし、そのデコード結果に基づいて様々なアプリケーションを実行するものである。
 DNNコンバーター300は、画像認識処理に必要なデータを生成するものである。このDNNコンバーター300は、生成したデータを信号線309を介して撮像前にフラッシュメモリ130に書き込む。
 [イメージセンサの構成例]
 図2は、本技術の実施の形態におけるイメージセンサ200の一構成例を示すブロック図である。このイメージセンサ200は、画素アレイ211、アナログデジタル変換部212、露光制御部213、画像信号処理部214、SRAM(Static Random Access Memory)215を備える。また、イメージセンサ200は、CPU(Central Processing Unit)216、ハードウェアアクセラレータ217、セレクタ218およびデジタル信号処理部219を備える。また、イメージセンサ200は、入力インターフェース251、254および256と、出力インターフェース252、253および255とを備える。これらの回路は、例えば、単一の半導体チップに設けられる。
 なお、イメージセンサ200内の上述の回路を、積層された複数の半導体チップに分散して配置することもできる。この場合、例えば、上側の半導体チップと下側の半導体チップとが積層され、上側に画素アレイ211が配置され、それ以外の回路が下側に配置される。
 画素アレイ211には、複数の画素が二次元格子状に配列される。画素のそれぞれは、光電変換によりアナログの画素信号を生成し、アナログデジタル変換部212に供給する。
 アナログデジタル変換部212は、アナログの画素信号のそれぞれをデジタル信号に変換するものである。このアナログデジタル変換部212には、列ごと、あるいは、画素ごとにADC(Analog to Digital Converter)が設けられる。ADCのそれぞれは、対応する画素信号をAD(Analog to Digital)変換してデジタル信号を生成する。これらのデジタル信号を配列した画像データは、RAW画像としてセレクタ218および画像信号処理部214に供給される。
 画像信号処理部214は、RAW画像に対して各種の画像処理を行うものである。画像処理として、レンズシェーディング補正、ホワイトバランスゲイン補正、デモザイク処理、リニアマトリックス処理、ガンマ補正、縮小処理、画像クロッピング処理、および、歪補正などが実行される。これらの処理は、いずれか1つ以上が実行される。画像処理後の画像を以下、「入力テンソル」と称する。画像信号処理部214は、処理前のRAW画像と、処理後の入力テンソルとをSRAM215に書き込む。
 また、画像信号処理部214は、RAW画像に基づいて、環境光の照度を求める。例えば、画像信号処理部214は、RAW画像の少なくとも一部の領域のデジタル信号の統計量(合計値)を演算し、その演算結果を照度のデータとして露光制御部213に供給する。
 露光制御部213は、照度に基づいて画素アレイ211の露光時間を制御するものである。
 SRAM215は、RAW画像などの各種のデータを記憶するものである。このSRAM215は、RAW画像の他、入力テンソル、出力テンソル、ネットワーク重み、DNNプログラムコード、DNNパラメータ、APパラメータ、およびマニフェストなどが書き込まれる。DNNパラメータ、APパラメータおよびプログラムは、暗号化してSRAM215に保持しておくことが望ましい。暗号化されている場合、デジタル信号処理部219は、そのパラメータやプログラムを読み出した際に復号する。
 出力テンソルは、画像認識処理で用いられるDNNから出力されるテンソルであり、画像認識処理の処理結果を示すデータである。
 ネットワーク重みは、DNN内のニューラルから出力された値に乗算される係数である。
 DNNプログラムコードは、デジタル信号処理部219にDNNを実行させるためプログラムを記載したコードである。
 DNNパラメータは、デジタル信号処理部219に画像認識処理を実行させるためのパラメータであり、DNNの次元、ネットワーク重み、入力出力テンソルに関する情報などを含む。
 APパラメータは、入力テンソルおよび出力テンソルをアプリケーションプロセッサ120がデコードするためのパラメータである。
 マニフェストは、ネットワーク重み、DNNプログラムコード、DNNパラメータおよびAPパラメータを格納したファイルのサイズやロードアドレスに関する情報である。
 CPU216は、イメージセンサ200内の回路を制御するものである。このCPU216には、入力インターフェース251を介してアプリケーションプロセッサ120からのコマンドが入力される。CPU216は、そのコマンドに従ってデジタル信号処理部219を制御し、画像認識処理を実行させる。
 ここで、デジタル信号処理部219は、出力テンソルのフォーマットとアルゴリズムとが異なるM(Mは、整数)個のDNNを用いて画像認識処理を実行する機能を有する。DNNの入力テンソルおよび出力テンソルのフォーマットは、DNNの処理内容(アルゴリズムなど)に応じて決定される。CPU216は、それらのDNNのいずれかを選択し、デジタル信号処理部219に指示して実行させる。実行するDNNの切り替えは、例えば、撮像中(言い換えれば、動的)でなく、撮像停止中(言い換えれば、静的)に行われる。DNNの切り替えは、切り替え前のDNNでは認識精度が不足する場合や、認識対象を変える場合などに必要に応じて行われる。
 前述のDNNパラメータおよびAPパラメータは、それぞれ、M個のグループに分割される。m(mは、0乃至M-1の整数)番目のグループは、m番目のDNNに対応するパラメータの集合である。ネットワーク重みも同様にM個のグループに分割される。DNNプログラムコードは、複数のDNNで共通のものを用いることができ、M個以下のDNNプログラムコードが保持される。
 なお、イメージセンサ200は、各種のデータをSRAM215に記憶しているが、SRAM以外のメモリに記憶することもできる。なお、SRAM215は、特許請求の範囲のメモリの一例である。
 ハードウェアアクセラレータ217は、入力テンソルに対して、必要に応じて画像の回転処理を行うものである。例えば、文字認識を行う際に、認識精度を向上させる目的で回転処理が行われる。ハードウェアアクセラレータ217は、SRAM215から処理対象の入力テンソルを読み出し、回転後の入力テンソルにより更新する。
 セレクタ218は、RAW画像と、SRAM215に保持されたデータとの中から、データを選択してアプリケーションプロセッサ120に出力するものである。このセレクタ218は、RAW画像に対応する入力テンソルおよび出力テンソルを、それらのテンソルに対応するAPパラメータとともにSRAM215からメタデータとして読み出す。そして、セレクタ218は、RAW画像およびメタデータのうち少なくとも一方を出力インターフェース252を介してアプリケーションプロセッサ120に出力する。セレクタ218は、画像データおよびメタデータの一方のみを選択して出力することもできるし、画像データおよびメタデータの両方を選択して出力することもできる。
 デジタル信号処理部219は、CPU216により選択されたDNNを用いて画像認識処理を行うものである。このデジタル信号処理部219は、マニフェストを参照し、選択されたDNNに対応するDNNパラメータ、ネットワーク重み、入力テンソルおよびDNNプログラムコードをSRAM215から読み出す。m番目のDNNが選択された際には、m番目のグループ内のDNNパラメータなどが読み出される。
 そして、デジタル信号処理部219は、読み出したデータ(DNNパラメータなど)に基づいて、入力テンソルに対する画像認識処理を行い、出力テンソルを生成する。デジタル信号処理部219は、生成した出力テンソルをSRAM215に書き込む。
 出力インターフェース253は、出力テンソルを、対応するAPパラメータとともにメタデータとしてアプリケーションプロセッサ120に出力するものである。m番目のDNNが選択された際には、m番目のグループ内のAPパラメータが出力される。
 入力インターフェース254は、ダウンロードプログラムなどの様々なデータをアプリケーションプロセッサ120から受け取り、SRAM215に供給するものである。
 出力インターフェース255は、SRAM215に保持されたデータをフラッシュメモリ130に出力するものである。
 入力インターフェース256は、APパラメータやDNNパラメータなどのデータをフラッシュメモリ130から受け取り、SRAM215に供給するものである。
 入力インターフェース251として、例えば、I2C(Inter-Integrated Circuit)規格に準拠したインターフェースが用いられる。出力インターフェース252として、例えば、MIPI規格に準拠したインターフェースが用いられる。出力インターフェース253および入力インターフェース254として、例えば、SPI(Serial Peripheral Interface)規格に準拠したインターフェースが用いられる。出力インターフェース255および入力インターフェース256として、例えば、SPI規格に準拠したインターフェースが用いられる。
 [インターフェースの構成例]
 図3は、本技術の実施の形態におけるインターフェースの一構成例を示すブロック図である。イメージセンサ200には、前述の出力インターフェース252、入力インターフェース254、出力インターフェース253および入力インターフェース251が設けられる。
 また、アプリケーションプロセッサ120には、入力インターフェース121、出力インターフェース122、入力インターフェース123および出力インターフェース124が設けられる。
 出力インターフェース252には、MIPI規格における送信回路が配置され、入力インターフェース121には、その規格の受信回路が配置される。同図における「MIPI_Tx」は、送信回路を示し、「MIPI_Rx」は受信回路を示す。これらの出力インターフェース252および入力インターフェース121を介して、ビデオデータおよびメタデータが転送される。ビデオデータは、連続して撮像された複数のRAW画像(言い換えれば、フレーム)を含む。メタデータは、フレームごとに生成され、転送される。
 入力インターフェース254は、SPI規格のスレーブとして機能し、出力インターフェース122は、SPI規格のマスタとして機能する。これらの入力インターフェース254および出力インターフェース122を介して、ダウンロードプログラム、ネットワークデータや歪補正制御点などが転送される。
 出力インターフェース253は、SPI規格のマスタとして機能し、入力インターフェース123は、SPI規格のスレーブとして機能する。これらの出力インターフェース253および入力インターフェース123を介して、メタデータが転送される。このメタデータには、入力テンソルは含まれず、出力テンソルと対応するAPパラメータとが含まれる。
 入力インターフェース251は、I2C規格のスレーブとして機能し、出力インターフェース124は、I2C規格のマスタとして機能する。これらの入力インターフェース251および出力インターフェース124を介して、CPU216に対するコマンドや、アプリケーションプロセッサ120のステータスなどが転送される。
 イメージセンサ200は、ビデオデータおよびメタデータの両方を出力することもできるし、メタデータのみを出力することもできる。ビデオデータおよびメタデータの両方を出力する際には、同図に例示したようにMIPI規格のインターフェースが用いられ、メタデータのみを出力する際には、SPI規格のインターフェースが用いられる。ビデオデータ(RAW画像)を送信するか否かの設定は、CPU216により撮像開始前に行われる。
 このほか、イメージセンサ200は、RAW画像の撮像のたびに以下のいずれかのデータを出力することができる。
 (1)RAW画像のみ
 (2)入力テンソルおよびAPパラメータのみ
 (3)出力テンソルおよびAPパラメータのみ
 (4)(1)から(3)の組合せ
 これらの出力設定は、I2C規格のインターフェースを介してアプリケーションプロセッサ120がコマンドを送信し、CPU216が、そのコマンドに従ってレジスタに設定することにより行われる。データが入力テンソルおよび出力テンソルのいずれであるかは、後述する識別子フラグにより設定される。
 なお、イメージセンサ200およびアプリケーションプロセッサ120には、SPI規格およびMIPI規格の両方のインターフェースが設けられているが、これらの規格の一方のインターフェースのみを設けることもできる。
 図4は、本技術の実施の形態におけるDNNコンバーター300の機能を説明するため
の図である。DNNコンバーター300には、公的なフレームワークにより開発されたM個のDNNモデルのそれぞれの仕様を示すデータが入力される。DNNコンバーター300は、入力されたデータを、ネットワーク重み、DNNプログラムコード、DNNパラメータ、APパラメータおよびマニフェストに変換する。
 例えば、DNN1およびDNN2の2つのモデルが入力された場合、DNNコンバーター300は、DNN1に対応するネットワーク重みと、DNN2に対応するネットワーク重みとを出力する。また、DNNコンバーター300は、DNN1およびDNN2で共通のDNNプログラムコードと、DNNパラメータ、APパラメータおよびマニフェストを出力する。DNNパラメータとして、複数のパラメータが生成される。このDNNパラメータの集合は、DNN1に対応するグループと、DNN2に対応するグループとに分割される。同様に、複数のAPパラメータが生成され、その集合は、DNN1に対応するグループと、DNN2に対応するグループとに分割される。
 DNNコンバーター300は、生成したデータを、撮像の開始前にイメージセンサ200内のフラッシュメモリ130に書き込む。このDNNコンバーター300は、オフライン変換ツールなどにより実現される。
 図5は、本技術の実施の形態における情報処理システムの処理手順を説明するための図である。撮像の開始前にDNNコンバーター300は、APパラメータおよびDNNパラメータなどのデータを生成し、フラッシュメモリ130(不図示)に書き込む。フラッシュメモリ130内のデータは、イメージセンサ200により撮像前に読み出され、SRAM215内に保持される。
 アプリケーションプロセッサ120により撮像開始が指示されると、画素アレイ211内の画素のそれぞれは、アナログの画素信号を生成してアナログデジタル変換部212に出力する。
 アナログデジタル変換部212は、画素信号のそれぞれをデジタル信号に変換し、それらを配列したRAW画像を画像信号処理部214に供給する。
 画像信号処理部214は、RAW画像をSRAM215にバッファリングして、そのRAW画像に対してデモザイク処理などの画像処理を実行し、入力テンソルを生成する。入力テンソルは、SRAM215に書き込まれる。
 ハードウェアアクセラレータ217は、SRAM215から入力テンソルを読み出し、その入力テンソルを必要に応じて回転し、SRAM215を更新する。
 CPU216は、出力テンソルのフォーマットが異なるM個のDNNのいずれかを選択し、選択したDNNの実行をデジタル信号処理部219に指示する。なお、CPU216は、特許請求の範囲に記載の処理部の一例である。
 デジタル信号処理部219は、指示されたDNNに対応するネットワーク重み、DNNパラメータやDNNプログラムコードをSRAM215から読み出す。そして、デジタル信号処理部219は、読み出したデータに基づいて、CPU216により選択されたDNNを用いて入力テンソルに対する画像認識処理を実行し、出力テンソルを生成する。出力テンソルはSRAM215に書き込まれる。
 SPI規格の出力インターフェース253は、CPU216の制御に従って、生成された出力テンソルと、そのテンソルをデコードするためのAPパラメータとをSRAM215からメタデータとして読み出し、アプリケーションプロセッサ120に出力する。
 アプリケーションプロセッサ120は、APパラメータを用いて出力テンソルをデコードする。
 なお、RAW画像や入力テンソルも出力する際には、MIPI規格の出力インターフェース252が用いられる。
 ここで、出力インターフェース253がAPパラメータを出力せず、出力テンソルのみを出力する比較例を想定する。この比較例では、DNNを切り替えた際に、出力テンソルのフォーマットが変更されるため、アプリケーションプロセッサ120は、出力テンソルをデコードすることができなくなってしまう。
 これに対して、出力インターフェース253が出力テンソルとともにAPパラメータを出力する情報処理システムでは、アプリケーションプロセッサ120が、そのAPパラメータにより出力テンソルをデコードすることができる。このため、情報処理システムは、出力テンソルのフォーマットが異なる様々なDNNに対応することができ、システムの汎用性を向上させることができる。
 また、出力インターフェース253が入力テンソルおよびAPパラメータを出力する場合、DNNが切り替えられたときであっても、アプリケーションプロセッサ120は、APパラメータにより入力テンソルをデコードすることができる。
 また、イメージセンサ200が画像認識処理を行うため、その処理をアプリケーションプロセッサ120が行う場合と比較して、アプリケーションプロセッサ120の処理量や、処理の遅延時間を削減することができる。
 図6は、本技術の実施の形態におけるMIPI規格に準拠したインターフェースを介して転送されるデータの一例を示す図である。同図に例示するように、入力テンソルは、MIPI規格における仮想チャネルを介して転送される。出力テンソルは、入力テンソルと異なる仮想チャネルを介して転送される。
 図7は、本技術の実施の形態におけるMIPI規格のモバイルフォーマットの一例である。同図における太線で囲んだDSP結果エリアに、図6に例示したデータが格納される。
 図8は、本技術の実施の形態におけるMIPI規格のAVフォーマットの一例である。同図における太線で囲んだDSP結果エリアに、図6に例示したデータが格納される。
 なお、SPI規格のインターフェースを用いる場合、SPI仕様により定義された転送設定に従ってデータが順に転送される。SPI規格のインターフェースの転送速度は、MIPI規格より遅いため、SPI規格のインターフェースを用いる場合、RAW画像は送信されない。
 [メタデータの構成例]
 図9は、本技術の実施の形態における入力テンソルを含むメタデータのデータフォーマットの一例である。このメタデータは、ヘッダ、APパラメータおよび入力テンソルを含む。ヘッダは、有効フラグ、フレームカウント、最大ライン長、APパラメータのサイズ、ネットワークID(IDentifier)、および、識別子フラグを含む。また、メタデータにおいて、空いた領域には、ゼロがパディングされる。ヘッダにおいて空いた領域は、リザーブドの領域として用いられる。
 有効フラグは、入力テンソルが有効であるか否かを示すフラグである。
 フレームカウントは、CPU216がRAW画像(フレーム)の撮像回数を計数した際の計数値である。このフレームカウントは、入力テンソルが出力されたフレームと出力テンソルが出力されたフレームとが異なる際に、入力テンソルに対応する出力テンソルを特定するために用いられる。入力テンソルが出力されたフレームと、出力テンソルが出力されたフレームとが異なるケースについては、後述の変形例で説明する。
 最大ライン長は、MIPI設定に依存するMIPIラインの長さである。APパラメータのサイズは、APパラメータ全体のサイズであり、単位は、例えば、バイトである。
 ネットワークIDは、入力テンソルが入力されたDNNを識別するための識別子である。識別子フラグは、ヘッダが付加されたテンソルが入力テンソルおよび出力テンソルのいずれであるかを示すフラグである。
 上述の有効フラグ、フレームカウント、最大ライン長、APパラメータのサイズ、および、識別子フラグは、CPU216により設定される。また、ネットワークIDは、アプリケーションプロセッサ120により設定される。
 図10は、本技術の実施の形態における入力テンソルに対応するメタデータの詳細を説明するための図である。ライン番号が「1」のラインに、ヘッダおよびAPパラメータが格納される。ライン番号が「2」以降のラインは、ボディ領域であり、入力テンソルが格納される。
 有効フラグには、1バイトが割り当てられる。有効フラグが「0」である場合、データが無効であることを示す。有効フラグが「1」乃至「255」である場合、データが有効であることを示す。
 フレームカウントには、1バイトが割り当てられる。複数のRAW画像を連続して撮像中(言い換えれば、ストリーム中)において、「0」乃至「244」の値が計数される。ストリームを停止するスタンバイ中において、フレームカウントに「255」が設定される。
 最大ライン長には、2バイトが割り当てられる。RAW画像がフルサイズである場合、最大ライン長に「2560」が設定される。RAW画像がフルサイズより小さいV2H2のサイズである場合、最大ライン長に「2010」が設定される。RAW画像がV2H2より小さいV4H4のサイズである場合、最大ライン長に「1008」が設定される。
 APパラメータのサイズには、2バイトが割り当てられる。このサイズの単位は、バイトである。
 ネットワークIDには、1バイトが割り当てられる。16進数で「0」乃至「M-1」がネットワークIDに設定される。Mは、使用中にサポートされるDNNの最大数である。
 識別子フラグには、1バイトが割り当てられる。「0」の識別子フラグは、ヘッダが付加されたテンソルが入力テンソルであることを示す。
 リザーブドには、3バイトが割り当てられる。
 APパラメータには、996バイトが割り当てられる。このAPパラメータは、ネットワーク目録、入力テンソルパラメータ、および、出力テンソルパラメータを含む。APパラメータの詳細については後述する。
 図11は、本技術の実施の形態における入力テンソルの一構成例を示す図である。同図におけるR(Red)、G(Green)およびB(Blue)の領域は、赤色、緑色および青色の画素データが格納された領域を示す。灰色の領域は、パディング領域を示す。0乃至227番目の列と、256乃至1792番目の列とに64ラインの画素データが配列される。2048乃至2560番目の列には、63ラインの画素データが配列される。これにより、227×227×3の入力テンソルが構成される。
 図12は、本技術の実施の形態における入力テンソルの別の例を示す図である。0乃至300番目の列と、320乃至1280番目の列とに90ラインの画素データが配列される。2240乃至2560番目の列には、89ラインの画素データが配列される。これにより、300×300×3の入力テンソルが構成される。
 図11および図12に例示したように、入力テンソルのフォーマットは、メモリ(SRAM215)を効率的に用いるために、一般的な画像のフォーマットと異なるものとなる。このため、入力テンソルのデコードにAPパラメータが必要となる。
 図13は、本技術の実施の形態における出力テンソルを含むメタデータのデータフォーマットの一例である。このメタデータは、ヘッダ、APパラメータおよび出力テンソルを含む。ヘッダの構成は、図9に例示したものと同様である。
 イメージセンサ200は、入力テンソルおよび出力テンソルの両方を出力する場合には、図9に例示したデータと、図13に例示したデータとの両方をメタデータとして出力する。すなわち、入力テンソル、出力テンソルのそれぞれにヘッダが付加される。出力テンソルのみを出力する場合、イメージセンサ200は、図13に例示したメタデータを出力する。
 図14は、本技術の実施の形態における出力テンソルに対応するメタデータの詳細を説明するための図である。識別子フラグには、ヘッダが付加されたテンソルが出力テンソルであることを示す「1」の値が設定される。
 図15は、本技術の実施の形態における出力テンソルの一構成例を示す図である。同図において、白色の領域は、要素が格納された領域を示す。灰色の領域は、パディング領域を示す。出力テンソルの次元をNとすると、0番目の配列は、70個の要素を含み、0乃至69番目のアドレスに格納される。1番目の配列は、96乃至165番目のアドレスに格納される。N-1番目の配列は、494乃至563番目のアドレスに格納される。同図に例示するように、各配列は、シリアル化されてSRAM215に書き込まれる。
 また、同図に例示したように、出力テンソルのフォーマットは、メモリ(SRAM215)を効率的に用いるために、一般的なフォーマットと異なるものとなる。このため、出力テンソルのデコードにAPパラメータが必要となる。
 図16は、本技術の実施の形態におけるDNNパラメータ内のネットワークに関連するデータの一例を示す図である。このDNNパラメータは、DNNごとに、ネットワーク、次元、テンソル、入力テンソル、出力テンソルおよびメモリ詳細に関するパラメータを含む。
 ネットワークに関するデータは、「ネットワークID」、「ネットワーク名称」、「ネットワークタイプ」、「入力テンソル」および「出力テンソル」の要素を含む。
 「ネットワークID」として、ネットワーク(DNN)ごとに一意な識別子が記述される。ネットワーク名称として、文字列のネットワークの名称が記述される。「ネットワークタイプ」として、その機能性に基づくDNNのタイプが記述される。「入力テンソル」として、DNNに入力される入力テンソルの配列が記述される。「出力テンソル」として、DNNから出力される出力テンソルの配列が記述される。
 図17は、本技術の実施の形態におけるDNNパラメータ内の次元に関連するデータの一例を示す図である。次元に関連するデータは、「テンソル目録」、「サイズ」、「シリアル化順序」および「パディング」の要素を含む。
 「テンソル目録」として、次元順序が記述される。この次元順序は、フレームワーク内の意味的順序に相当する。次元順序は、0から開始され、0は、最速の実行中次元である。「サイズ」として、次元のサイズ、次元内の要素の数が記述される。ただし、パディングは除外される。「シリアル化順序」として、シリアル化されてメモリに書き込まれるときの次元の順序が記述される。シリアル化順序は0から開始され、0は、最速の実行中次元である。「パディング」の要素として、パディングとして追加された要素の数が記述される。
 図18は、本技術の実施の形態におけるDNNパラメータ内のテンソルに関連するデータの一例を示す図である。テンソルに関連するデータは、「テンソル目録」、「名称」、「次元の数」、「次元の配列」、「要素当たりのビット数」、「シフト」、「スケール」、および、「タイプ」の要素を含む。
 「テンソル目録」として、一意な識別子が記述される。この識別子は、ゼロからスタートするため、インデックスとして使用することができる。「名称」として、テンソルの名称が記述される。「次元の配列」として、次元オブジェクトの配列が記述される。「要素当たりのビット数」として、テンソルの要素当たりのビット数が記述される。「シフト」の要素として、固定小数点から浮動小数点への逆量子化のためのシフト値が記述される。「スケール」の要素として、固定小数点から浮動小数点への逆量子化のためのスケール値が記述される。「タイプ」として、テンソル内の要素のデータタイプが、符号付き、および、符号なしのいずれであるかが記述される。
 図19は、本技術の実施の形態におけるDNNパラメータ内の入力テンソルおよび出力テンソルに関連するデータの一例を示す図である。入力テンソルに関連するデータは、「テンソル」、「SRAM内のオフセット」、および、「持続性フラグ」の要素を含む。
 「テンソル」の要素として、上述のテンソルオブジェクトが記述される。「SRAM内のオフセット」として、SRAM215内のメモリオフセットアドレスが記述される。「持続性フラグ」として、DNNの実行が完了するまで入力テンソルメモリ領域が上書きされるべきでないか否かを示すフラグが記述される。入力テンソルメモリ領域は、SRAM215内において、入力テンソルが書き込まれる領域を示す。上書きされない場合に持続性フラグに「0」が設定され、上書きされる場合に「1」が設定される。
 通常は、持続性フラグに「0」が設定される。ただし、DNNの実行に時間がかかり、垂直同期信号の周期内に終了しない場合は、持続性フラグに「1」が設定される。持続性フラグに「1」が設定されるケースについては、変形例で後述する。
 また、出力テンソルに関連するデータは、「テンソル」、および、「SRAM内のオフセット」の要素を含む。
 「テンソル」の要素として上述のテンソルオブジェクトが記述される。また、「SRAM内のオフセット」として、SRAM215内のメモリオフセットアドレスが記述される。
 図20は、本技術の実施の形態におけるDNNパラメータ内のメモリ詳細に関連するデータの一例を示す図である。メモリ詳細に関するデータは、「総メモリ」、「係数メモリ」、「ランタイムメモリ」、および、「予約メモリ」の要素を含む。
 「総メモリ」の要素として、上述のテンソルオブジェクトが書き込まれたメモリサイズが記述される。「係数メモリ」の要素として、SRAM215内のネットワーク重みが書き込まれたメモリサイズが記述される。「ランタイムメモリ」の要素として、ランタイムメモリのサイズが記述される。「予約メモリ」の要素として、ユーザの特殊なユースケースのために予約されたメモリサイズが記述される。
 図21は、本技術の実施の形態におけるAPパラメータ内のネットワークに関連するデータの一例を示す図である。APパラメータ内のネットワークに関するデータは、DNNパラメータと同様に、「ネットワークID」、「ネットワーク名称」、「ネットワークタイプ」、「入力テンソル」および「出力テンソル」の要素を含む。
 図22は、本技術の実施の形態におけるAPパラメータ内の次元に関連するデータの一例を示す図である。APパラメータ内の次元に関連するデータは、DNNパラメータと同様に、「テンソル目録」、「サイズ」、「シリアル化順序」および「パディング」の要素を含む。DNNパラメータと異なり、APパラメータにおいて、メモリ詳細に関するデータは、アプリケーションプロセッサ120にとって不要なデータであるため、記述されない。
 図23は、本技術の実施の形態におけるAPパラメータ内のテンソルに関連するデータの一例を示す図である。APパラメータ内のテンソルに関連するデータは、DNNパラメータと同様に、「テンソル目録」、「名称」、「次元の数」、「次元の配列」、「要素当たりのビット数」、「シフト」、「スケール」、および、「タイプ」の要素を含む。
 図24は、本技術の実施の形態におけるAPパラメータ内の入力テンソルおよび出力テンソルに関連するデータの一例を示す図である。入力テンソルに関連するデータは、「テンソル」、および、「持続性フラグ」の要素を含む。また、出力テンソルに関連するデータは、「テンソル」の要素を含む。DNNパラメータと異なり、APパラメータにおいて、オフセットアドレスは、アプリケーションプロセッサ120にとって不要なデータであるため、記述されない。
 図16乃至図24に例示したように、DNNパラメータのうち、アプリケーションプロセッサ120で必要な一部のデータがAPパラメータとして用いられる。言い換えれば、APパラメータは、DNNパラメータのサブセットである。
 図25は、本技術の実施の形態におけるRAW画像の出力までのイメージセンサ200の動作の一例を示すタイミングチャートである。この動作は、例えば、画像認識を行うための所定のアプリケーションが実行されたときに開始される。同図以降において、「ADC」は、アナログデジタル変換部212内のADCを示す。「HW Acc」は、ハードウェアアクセラレータ217を示す。「DSP」は、デジタル信号処理部219を示す。
 タイミングT0において、垂直同期信号XVSが立ち下がったものとする。タイミングT0乃至T1の期間において、CPU216は、M個のDNNのうち、実行すべきDNNを選択してレジスタに設定する。
 タイミングT2乃至T4の期間において、アナログデジタル変換部212が、AD変換によりRAW画像を生成する。画像信号処理部214(不図示)およびハードウェアアクセラレータ217は、RAW画像に対して各種の画像処理を前処理として行い、入力テンソルを生成する。また、RAW画像は、タイミングT2乃至T4の期間内に、出力インターフェース252から出力される。タイミングT3において、入力テンソルのSRAM215への書き込みが開始される。タイミングT4以降の処理については、後述する。
 図26は、本技術の実施の形態における出力テンソルの出力までのイメージセンサ200の動作の一例を示すタイミングチャートである。前処理の完了したタイミングT4において、ハードウェアアクセラレータ217は、CPU216に割込み信号を供給する。
 CPU216は、タイミングT5において、デジタル信号処理部219に画像認識処理の開始を通知する。タイミングT5乃至T10の期間内に、デジタル信号処理部219は、入力テンソルをSRAM215から読み出し、入力テンソルに対する画像認識処理をDNNを用いて行う。このとき、ネットワーク重み、DNNプログラムコード、および、DNNパラメータもSRAM215から読み出される。
 また、CPU216は、タイミングT6乃至T7の期間に、DMA(Direct Memory Access)転送のための設定を行う。タイミングT7乃至T8の期間に、DMAコントローラ(不図示)は、その設定に従って、SRAM215から出力インターフェース252へ入力テンソルをDMA転送する。
 また、デジタル信号処理部219は、タイミングT9において、SRAM215に出力テンソルを書き戻し、タイミングT10において、CPU216に画像認識処理の終了を通知する。
 CPU216は、タイミングT10乃至T11の期間に、DMA転送のための設定を行う。タイミングT11乃至T12の期間に、DMAコントローラは、その設定に従って、SRAM215から出力インターフェース252へ出力テンソルをDMA転送する。
 タイミングT13において、垂直同期信号XVSは立ち下がる。タイミングT13以降は、垂直同期信号XVSに同期して、同様の処理が繰り返し実行される。タイミングT0乃至T13の期間(言い換えれば、垂直同期信号XVSの周期)を、以下、「フレーム期間」と称する。
 図25および図26に例示したように、1フレーム期間(垂直同期信号XVSの周期)内に、DNNによる画像認識処理が完了する。そして、RAW画像および入力テンソルが出力されたフレーム期間内に、その入力テンソルに対応する出力テンソルが出力される。
 このように、本技術の実施の形態によれば、出力インターフェース252が、デコードのためのAPパラメータと出力テンソルとを出力するため、出力フォーマットの異なるDNNに切り替えられても、後段の回路は、出力テンソルをデコードすることができる。これにより、デジタル信号処理部219は、出力フォーマットの異なる様々なDNNを用いることができ、情報処理システムの汎用性が向上する。
 <2.第1の変形例>
 上述の実施の形態では、デジタル信号処理部219が、ストリーム中において単一のDNNを用いて画像認識処理を行い、DNNの切り替えは、ストリーム停止中に行っていた。しかし、単一のDNNでは、情報処理システムの汎用性や利便性が不足することがある。例えば、複数の物体を認識する場合、アルゴリズムの異なる複数のDNNが必要なことがあり、単一のDNNでは対応が困難となる。この実施の形態の第1の変形例のイメージセンサ200は、ストリーム中にDNNを切り替える点において実施の形態と異なる。
 図27は、本技術の実施の形態の第1の変形例における1枚目のRAW画像の出力までのイメージセンサ200の動作の一例を示すタイミングチャートである。この実施の形態の第1の変形例のデジタル信号処理部219は、DNN1およびDNN2の2つのDNNを実行することができるものとする。
 CPU216は、タイミングT0乃至T1の期間内にDNN1を選択し、レジスタに設定する。そして、タイミングT2乃至T4の期間において、アナログデジタル変換部212が、AD変換により1枚目のRAW画像を生成する。
 図28は、本技術の実施の形態の第1の変形例における1枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。
 タイミングT5乃至T10の期間内に、デジタル信号処理部219は、1枚目の入力テンソルをSRAM215から読み出し、その入力テンソルに対する画像認識処理をDNN1を用いて行う。また、デジタル信号処理部219は、タイミングT9において、SRAM215に、DNN1に対応する出力テンソルを書き戻す。
 DNN1に対応する入力テンソルおよび出力テンソルのそれぞれには、DNN1を示すネットワークIDを含むヘッダが付加される。
 図29は、本技術の実施の形態の第1の変形例における2枚目のRAW画像の出力までのイメージセンサ200の動作の一例を示すタイミングチャートである。
 CPU216は、タイミングT13乃至T14の期間内にDNN2を選択し、レジスタに設定する。そして、タイミングT15乃至T17の期間において、アナログデジタル変換部212が、AD変換により2枚目のRAW画像を生成する。
 図30は、本技術の実施の形態の第1の変形例における2枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。
 タイミングT18乃至T23の期間内に、デジタル信号処理部219は、2枚目の入力テンソルをSRAM215から読み出し、その入力テンソルに対する画像認識処理をDNN2を用いて行う。また、デジタル信号処理部219は、タイミングT22において、SRAM215に、DNN2に対応する出力テンソルを書き戻す。
 DNN2に対応する入力テンソルおよび出力テンソルのそれぞれには、DNN2を示すネットワークIDを含むヘッダが付加される。
 図27乃至図30に例示したように、最初のフレーム期間内にイメージセンサ200は、DNN1を実行し、次のフレーム期間内にDNN2を実行する。以降は、同様の処理が繰り返し実行される。このように、2フレームの周期で、DNN1およびDNN2が交互に実行される。なお、イメージセンサ200は、3つ以上のM個のDNNを1つずつ順番に、Mフレームの周期で実行することもできる。これらの複数のDNNの実行により、単一のDNNを用いる場合よりもシステムの汎用性や利便性が向上する。
 このように、本技術の実施の形態の第1の変形例によれば、デジタル信号処理部219は、ストリーム中に複数のDNNを1つずつ順に実行するため、単一のDNNを実行する場合と比較して、システムの汎用性や利便性を向上させることができる。
 <3.第2の変形例>
 上述の実施の形態では、デジタル信号処理部219が1フレーム期間(すなわち、垂直同期信号の周期)内にDNNによる画像認識処理を完了していた。しかしながら、画像認識処理の実行時間は、DNNのアルゴリズムにより異なり、1フレーム期間内に完了しないことがある。この実施の形態の第2の変形例のイメージセンサ200は、入力テンソルが生成されたフレーム期間の経過後に、その入力テンソルに対応する出力テンソルを出力する点において実施の形態と異なる。
 図31は、本技術の実施の形態の第2の変形例における1枚目の入力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。タイミングT4までの期間内に、1枚目のRAW画像が出力される。
 タイミングT5においてデジタル信号処理部219は、1枚目の入力テンソルに対する画像認識処理を開始する。この画像認識処理は、最初のフレーム期間内に完了しないものとする。
 また、タイミングT7乃至T8の期間に、DMAコントローラ(不図示)は、レジスタの設定に従って、SRAM215から出力インターフェース252へ1枚目の入力テンソルをDMA転送する。この入力テンソルに付加されるヘッダは、「0」以外が設定された有効フラグと、「1」が設定された持続性フラグと、1枚目に対応する値(例えば、「0」)のフレームカウンタとを含む。
 また、タイミングT11乃至T12の期間に、DMAコントローラは、レジスタの設定に従って、SRAM215から出力インターフェース252へ、無効な出力テンソルをDMA転送する。この出力テンソルに含まれるヘッダは、「0」が設定された有効フラグを含む。
 図32は、本技術の実施の形態の第2の変形例における2枚目のRAW画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。タイミングT15乃至T17の期間において、アナログデジタル変換部212が、AD変換により2枚目のRAW画像を生成する。前処理後の2枚目の入力テンソルは、この時点ではSRAM215に書き込まれない。
 図33は、本技術の実施の形態の第2の変形例における1枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。デジタル信号処理部219は、SRAM215から1枚目の入力テンソルを削除する。
 タイミングT20乃至T21の期間に、DMAコントローラ(不図示)は、レジスタの設定に従って、SRAM215から出力インターフェース252へ、無効な入力テンソルをDMA転送する。この入力テンソルに含まれるヘッダは、「0」が設定された有効フラグを含む。このタイミングT21の直後に、2枚目の入力テンソルがSRAM215の入力テンソルメモリ領域に上書きされる。すなわち、DNNの実行が完了する前に、入力テンソルメモリ領域が上書きされる。
 また、デジタル信号処理部219は、タイミングT22において、SRAM215に出力テンソルを書き戻し、タイミングT23において、CPU216に画像認識処理の終了を通知する。そして、タイミングT24乃至T25の期間に、DMAコントローラは、レジスタの設定に従って、SRAM215から出力インターフェース252へ出力テンソルをDMA転送する。この出力テンソルに付加されるヘッダは、「0」以外が設定された有効フラグと、1枚目に対応する値(例えば、「0」)のフレームカウンタとを含む。
 図31乃至図33に例示したように、DNNが1フレーム期間内に完了しないことがある。この場合、DNNの実行が開始されたフレーム期間内にRAW画像および入力テンソルのみが出力され、出力テンソルは、そのフレーム期間が経過した後(例えば、次のフレーム)に出力される。なお、DNNが完了するまでに2フレーム期間以上を要する場合、イメージセンサ200は、タイミングT26の後に出力テンソルを出力することもできる。
 ヘッダが持続性フラグを含むため、アプリケーションプロセッサ120は、そのフラグを参照して、入力テンソルが出力されるフレームと、出力テンソルが出力されるフレームとが異なることを把握することができる。
 なお、フレーム期間内にDNNが完了しないケースが想定されない場合には、ヘッダから持続性フラグを削減することができる。
 また、入力テンソルおよび出力テンソルのヘッダが有効フラグを含むため、最初のフレーム期間内の出力テンソルと、次のフレーム期間内の入力テンソルとを無効にし、システムの誤動作を防止することができる。
 なお、フレーム期間内にDNNが完了しないケースが想定されない場合には、ヘッダから有効フラグを削減することができる。
 また、入力テンソルのヘッダ内のフレームカウントと、その入力テンソルに対応する出力テンソルのヘッダ内のフレームカウントとが同一に設定される。これにより、フレーム期間内にDNNが完了しない場合であっても、アプリケーションプロセッサ120は、フレームカウントを参照して、出力テンソルに対応する入力テンソルを特定することができる。
 なお、フレーム期間内にDNNが完了しないケースが想定されない場合には、ヘッダからフレームカウントを削減することができる。また、フレーム期間内にDNNが完了しない場合であっても、アプリケーションプロセッサ120が、DNNが完了するタイミングを推定することができる場合、ヘッダからフレームカウントを削減することができる。
 上述のように、持続性フラグ、有効フラグおよびフレームカウントをヘッダが含むため、アプリケーションプロセッサ120は、それらを参照して1フレーム期間内にDNNが完了しないケースに対応することができる。
 このように、本技術の第2の変形例によれば、ヘッダ内に持続性フラグ、有効フラグおよび持続性フラグを含むため、情報処理システムは、1フレーム期間内にDNNが完了しないケースに対応することができる。
 <4.第3の変形例>
 上述の実施の形態の第2の変形例では、RAW画像(フレーム)をSRAM215内に保持している間(言い換えれば、キャプチャ中)にデジタル信号処理部219がDNNの実行を継続していた。しかし、この構成では、キャプチャ中に、DNNの実行によるメモリアクセスが発生することがあり、そのメモリアクセスに起因してバンドノイズが生じるおそれがある。この実施の形態の第3の変形例のイメージセンサ200は、キャプチャ中に、DNNの実行を中断する点において第2の変形例と異なる。
 図34は、本技術の実施の形態の第3の変形例における1枚目の入力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。
 タイミングT5乃至T10の期間内に、デジタル信号処理部219は、入力テンソルをSRAM215から読み出し、入力テンソルに対する画像認識処理をDNNを用いて行う。CPU216は、タイミングT9において、デジタル信号処理部219に画像認識処理の中断を指示し、タイミングT10において、デジタル信号処理部219は、画像認識処理を中断して中断完了をCPU216に通知する。
 また、タイミングT7乃至T8の期間に、DMAコントローラ(不図示)は、レジスタの設定に従って、SRAM215から出力インターフェース252へ1枚目の入力テンソルをDMA転送する。この入力テンソルに付加されるヘッダは、「0」以外が設定された有効フラグと、「1」が設定された持続性フラグと、1枚目に対応する値(例えば、「0」)のフレームカウンタとを含む。
 そして、CPU216は、タイミングT10乃至T11の期間に、DMA転送のための設定を行う。タイミングT11乃至T12の期間に、DMAコントローラは、その設定に従って、SRAM215から出力インターフェース252へ無効な出力テンソルをDMA転送する。この出力テンソルに含まれるヘッダは、「0」が設定された有効フラグを含む。
 図35は、本技術の実施の形態の第3の変形例における2枚目のRAW画像の出力までのイメージセンサの動作の一例を示すタイミングチャートである。
 タイミングT15乃至T17の期間において、アナログデジタル変換部212が、AD変換によりRAW画像を生成する。画像信号処理部214(不図示)およびハードウェアアクセラレータ217は、2枚目のRAW画像に対して各種の画像処理を前処理として行い、2枚目の入力テンソルを生成する。この前処理において、画像信号処理部214は、SRAM215にRAW画像を一時的に保持(キャプチャ)する。このタイミングT15乃至T17の期間を以下、キャプチャ期間と称する。このキャプチャ期間内は、DNNによる画像認識処理が中断しているため、バンドノイズが抑制される。なお、前処理後の2枚目の入力テンソルは、この時点ではSRAM215に書き込まれない。
 図36は、本技術の実施の形態の第3の変形例における1枚目に対応する出力テンソルの出力までのイメージセンサの動作の一例を示すタイミングチャートである。
 キャプチャ期間経過後のタイミングT18において、CPU216は、デジタル信号処理部219に、中断するまでの計算履歴を供給し、画像認識処理の再開を指示する。デジタル信号処理部219は、画像認識処理を再開し、タイミングT22において、SRAM215にDNN2に対応する出力テンソルを書き戻す。
 また、タイミングT20乃至T21の期間に、DMAコントローラ(不図示)は、レジスタの設定に従って、SRAM215から出力インターフェース252へ、無効な入力テンソルをDMA転送する。この入力テンソルに含まれるヘッダは、「0」が設定された有効フラグを含む。このタイミングT21の直後に、2枚目の入力テンソルがSRAM215の入力テンソルメモリ領域に上書きされる。すなわち、DNNの実行が完了する前に、入力テンソルメモリ領域が上書きされる。
 そして、タイミングT24乃至T25の期間に、DMAコントローラは、その設定に従って、SRAM215から出力インターフェース252へ出力テンソルをDMA転送する。この出力テンソルに付加されるヘッダは、「0」以外が設定された有効フラグと、1枚目に対応する値(例えば、「0」)のフレームカウンタとを含む。
 図34乃至図36に例示したように、デジタル信号処理部219は、フレームをSRAM215に保持するキャプチャ期間の開始前に画像認識処理を中断し、キャプチャ期間の経過後に画像認識処理を再開する。これにより、キャプチャ中に、DNNの実行によるメモリアクセスが発生することが無くなり、そのメモリアクセスに起因するバンドノイズを抑制することができる。
 なお、実施の形態の第2、第3の変形例に、第1の変形例を適用することもできる。この場合、例えば、4フレームの周期のうち2フレームでDNN1が実行され、残りの2フレームでDNN2が実行される。
 このように、本技術の第3の変形例によれば、デジタル信号処理部219は、キャプチャ期間の開始前に画像認識処理を中断し、キャプチャ期間の経過後に再開するため、キャプチャ中に、DNNの実行によるメモリアクセスが発生することが無くなる。これにより、キャプチャ中のメモリアクセスに起因するバンドノイズを抑制することができる。
 なお、上述の実施の形態は本技術を具現化するための一例を示したものであり、実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本技術の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本技術は実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。
 なお、本明細書に記載された効果はあくまで例示であって、限定されるものではなく、また、他の効果があってもよい。
 なお、本技術は以下のような構成もとることができる。
(1)出力テンソルのフォーマットが異なる複数のDNN(Deep Neural Network)のいずれかを選択する処理部と、
 前記選択されたDNNを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
 前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと
を具備する固体撮像素子。
(2)前記複数のDNNのそれぞれを前記デジタル信号処理部に実行させるためのパラメータをDNNパラメータとして受け取る入力インターフェースをさらに具備し、
 前記デジタル信号処理部は、前記DNNパラメータに基づいて前記画像認識処理を行う
前記(1)記載の固体撮像素子。
(3)前記出力インターフェースは、前記入力テンソルをさらに出力する
前記(1)または(2)に記載の固体撮像素子。
(4)前記入力テンソルを所定の領域に記憶するメモリをさらに具備し、
 前記出力インターフェースは、前記メモリから読み出された前記入力テンソルを出力し、
 前記デコードパラメータは、前記画像認識処理が完了するまでに、前記領域が上書きされるべきでないか否かを示す持続性フラグを含む
前記(3)記載の固体撮像素子。
(5)前記出力インターフェースは、それぞれにヘッダが付加された前記入力テンソルおよび前記出力テンソルを出力する
前記(3)または(4)に記載の固体撮像素子。
(6)前記入力テンソルに付加された前記ヘッダは、前記入力テンソルが有効であるか否かを示す有効フラグを含み、
 前記出力テンソルに付加された前記ヘッダは、前記出力テンソルが有効であるか否かを示す有効フラグを含む
前記(5)記載の固体撮像素子。
(7)前記入力テンソルに付加された前記ヘッダと、前記入力テンソルに対応する出力テンソルに付加された前記ヘッダとは、同一の値のフレームカウントを含む
前記(5)または(6)に記載の固体撮像素子。
(8)前記入力テンソルは、第1および第2の入力テンソルを含み、
 前記複数のDNNは、第1および第2のDNNを含み、
 前記デジタル信号処理部は、前記第1の入力テンソルに対して前記第1のDNNを使用し、前記第2の入力テンソルに対して前記第2のDNNを使用する
前記(1)から(7)のいずれかに記載の固体撮像素子。
(9)前記デジタル信号処理部は、前記入力テンソルに対する画像認識処理を行って前記出力テンソルを生成し、
 前記出力インターフェースは、前記入力テンソルが生成される所定のフレーム期間の経過後に前記出力テンソルを出力する
前記(1)から(8)のいずれかに記載の固体撮像素子。
(10)前記デジタル信号処理部は、フレームをメモリに保持するキャプチャ期間の開始前に前記画像認識処理を中断し、前記キャプチャ期間の経過後に前記画像認識処理を再開する
前記(9)記載の固体撮像素子。
(11)入力テンソルに対する画像認識処理により生成された出力テンソルと、
 出力テンソルをデコードするためのデコードパラメータと
を含むメタデータ。
(12)出力テンソルのフォーマットが異なる複数のDNN(Deep Neural Network)のいずれかを選択する処理部と、
 前記選択されたDNNを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
 前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと、
 前記デコードパラメータを用いて前記出力された出力テンソルをデコードするアプリケーションプロセッサと
を具備する撮像装置。
(13)出力テンソルのフォーマットが異なる複数のDNN(Deep Neural Network)のいずれかを選択する処理部と、
 前記選択されたDNNを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
 前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと、
 前記複数のDNNのそれぞれに対応する前記デコードパラメータを受け取る入力インターフェースと、
 前記デコードパラメータのそれぞれを生成して前記入力インターフェースに供給するコンバータと
を具備する情報処理システム。
 100 撮像装置
 110 光学部
 120 アプリケーションプロセッサ
 121、123、251、254、256 入力インターフェース
 122、124、252、253、255 出力インターフェース
 130 フラッシュメモリ
 200 イメージセンサ
 211 画素アレイ
 212 アナログデジタル変換部
 213 露光制御部
 214 画像信号処理部
 215 SRAM
 216 CPU
 217 ハードウェアアクセラレータ
 218 セレクタ
 219 デジタル信号処理部
 300 DNNコンバーター

Claims (13)

  1.  出力テンソルのフォーマットが異なる複数のDNN(Deep Neural Network)のいずれかを選択する処理部と、
     前記選択されたDNNを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
     前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと
    を具備する固体撮像素子。
  2.  前記複数のDNNのそれぞれを前記デジタル信号処理部に実行させるためのパラメータをDNNパラメータとして受け取る入力インターフェースをさらに具備し、
     前記デジタル信号処理部は、前記DNNパラメータに基づいて前記画像認識処理を行う
    請求項1記載の固体撮像素子。
  3.  前記出力インターフェースは、前記入力テンソルをさらに出力する
    請求項1記載の固体撮像素子。
  4.  前記入力テンソルを所定の領域に記憶するメモリをさらに具備し、
     前記出力インターフェースは、前記メモリから読み出された前記入力テンソルを出力し、
     前記デコードパラメータは、前記画像認識処理が完了するまでに、前記領域が上書きされるべきでないか否かを示す持続性フラグを含む
    請求項3記載の固体撮像素子。
  5.  前記出力インターフェースは、それぞれにヘッダが付加された前記入力テンソルおよび前記出力テンソルを出力する
    請求項3記載の固体撮像素子。
  6.  前記入力テンソルに付加された前記ヘッダは、前記入力テンソルが有効であるか否かを示す有効フラグを含み、
     前記出力テンソルに付加された前記ヘッダは、前記出力テンソルが有効であるか否かを示す有効フラグを含む
    請求項5記載の固体撮像素子。
  7.  前記入力テンソルに付加された前記ヘッダと、前記入力テンソルに対応する出力テンソルに付加された前記ヘッダとは、同一の値のフレームカウントを含む
    請求項5記載の固体撮像素子。
  8.  前記入力テンソルは、第1および第2の入力テンソルを含み、
     前記複数のDNNは、第1および第2のDNNを含み、
     前記デジタル信号処理部は、前記第1の入力テンソルに対して前記第1のDNNを使用し、前記第2の入力テンソルに対して前記第2のDNNを使用する
    請求項1記載の固体撮像素子。
  9.  前記デジタル信号処理部は、前記入力テンソルに対する画像認識処理を行って前記出力テンソルを生成し、
     前記出力インターフェースは、前記入力テンソルが生成される所定のフレーム期間の経過後に前記出力テンソルを出力する
    請求項1記載の固体撮像素子。
  10.  前記デジタル信号処理部は、フレームをメモリに保持するキャプチャ期間の開始前に前記画像認識処理を中断し、前記キャプチャ期間の経過後に前記画像認識処理を再開する
    請求項9記載の固体撮像素子。
  11.  入力テンソルに対する画像認識処理により生成された出力テンソルと、
     出力テンソルをデコードするためのデコードパラメータと
    を含むメタデータ。
  12.  出力テンソルのフォーマットが異なる複数のDNN(Deep Neural Network)のいずれかを選択する処理部と、
     前記選択されたDNNを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
     前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと、
     前記デコードパラメータを用いて前記出力された出力テンソルをデコードするアプリケーションプロセッサと
    を具備する撮像装置。
  13.  出力テンソルのフォーマットが異なる複数のDNN(Deep Neural Network)のいずれかを選択する処理部と、
     前記選択されたDNNを用いて入力テンソルに対する画像認識処理を行って前記出力テンソルを生成するデジタル信号処理部と、
     前記生成された出力テンソルをデコードするためのデコードパラメータと前記出力テンソルとを出力する出力インターフェースと、
     前記複数のDNNのそれぞれに対応する前記デコードパラメータを受け取る入力インターフェースと、
     前記デコードパラメータのそれぞれを生成して前記入力インターフェースに供給するコンバータと
    を具備する情報処理システム。
PCT/JP2021/018717 2020-07-17 2021-05-18 固体撮像素子、撮像装置、および、情報処理システム WO2022014141A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/004,769 US20230260244A1 (en) 2020-07-17 2021-05-18 Solid-state imaging element, imaging device, and information processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-122492 2020-07-17
JP2020122492A JP2022018997A (ja) 2020-07-17 2020-07-17 固体撮像素子、撮像装置、および、情報処理システム

Publications (1)

Publication Number Publication Date
WO2022014141A1 true WO2022014141A1 (ja) 2022-01-20

Family

ID=79554692

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/018717 WO2022014141A1 (ja) 2020-07-17 2021-05-18 固体撮像素子、撮像装置、および、情報処理システム

Country Status (3)

Country Link
US (1) US20230260244A1 (ja)
JP (1) JP2022018997A (ja)
WO (1) WO2022014141A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016062148A (ja) * 2014-09-16 2016-04-25 株式会社東芝 情報処理装置および画像入力装置
JP2020506454A (ja) * 2016-12-13 2020-02-27 グーグル エルエルシー ハードウェアにおける平均プーリングの実行
JP2020038410A (ja) * 2018-08-31 2020-03-12 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置、情報処理装置、情報処理システム、情報処理方法及びプログラム
WO2020082263A1 (en) * 2018-10-24 2020-04-30 Alibaba Group Holding Limited Fast computation of convolutional neural network
JP2020068008A (ja) * 2018-10-19 2020-04-30 ソニー株式会社 センサ装置、パラメータ設定方法
JP2020095407A (ja) * 2018-12-11 2020-06-18 日本電信電話株式会社 画像生成装置、画像生成方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016062148A (ja) * 2014-09-16 2016-04-25 株式会社東芝 情報処理装置および画像入力装置
JP2020506454A (ja) * 2016-12-13 2020-02-27 グーグル エルエルシー ハードウェアにおける平均プーリングの実行
JP2020038410A (ja) * 2018-08-31 2020-03-12 ソニーセミコンダクタソリューションズ株式会社 固体撮像装置、情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2020068008A (ja) * 2018-10-19 2020-04-30 ソニー株式会社 センサ装置、パラメータ設定方法
WO2020082263A1 (en) * 2018-10-24 2020-04-30 Alibaba Group Holding Limited Fast computation of convolutional neural network
JP2020095407A (ja) * 2018-12-11 2020-06-18 日本電信電話株式会社 画像生成装置、画像生成方法、及びプログラム

Also Published As

Publication number Publication date
JP2022018997A (ja) 2022-01-27
US20230260244A1 (en) 2023-08-17

Similar Documents

Publication Publication Date Title
JP6014991B2 (ja) 画像出力装置、画像出力方法、画像処理装置、画像処理方法、プログラム、データ構造、および撮像装置
JP4426099B2 (ja) 共有メモリを有するマルチプロセッサ装置
US10282805B2 (en) Image signal processor and devices including the same
JP2005202767A (ja) プロセッサシステム、dma制御回路、dma制御方法、dmaコントローラの制御方法、画像処理方法および画像処理回路
JP2002157111A (ja) 画像制御装置およびその制御方法ならびにディジタルカメラ
US20100199071A1 (en) Data processing apparatus and image processing apparatus
CN101753820A (zh) 信息处理装置、缓冲器控制方法和计算机程序
US20200379928A1 (en) Image processing accelerator
JP5648135B2 (ja) タイミング発生器およびタイミング信号を発生させる方法
WO2022014141A1 (ja) 固体撮像素子、撮像装置、および、情報処理システム
JP2008172410A (ja) 撮像装置、画像処理装置、画像処理方法、画像処理方法のプログラム及び画像処理方法のプログラムを記録した記録媒体
US20100110213A1 (en) Image processing processor, image processing method, and imaging apparatus
JP5379223B2 (ja) 情報処理装置
CN112449137A (zh) 基于移动产业处理器接口的数据传输系统及数据传输方法
JP2006094400A (ja) 画像処理装置および画像処理方法
JP2007006125A (ja) 画像処理支援装置、電子カメラ、画像処理装置、現像処理システム、並びにこれらの画像処理支援装置および画像処理装置を実現するプログラム
WO2021152974A1 (ja) 撮像素子、撮像装置、撮像素子の作動方法、及びプログラム
JP2019074573A (ja) 画像処理装置
JP2003143616A (ja) データ転送方法
JP5429873B2 (ja) ビデオフレームdma制御システム
JP2009104529A (ja) 情報処理装置、音声付動画記録装置及び情報処理方法
JP6205980B2 (ja) 画像転送装置及び画像転送方法
CN117201891A (zh) 多媒体数据处理装置与多媒体数据处理方法
JP2011022877A (ja) 情報処理装置および方法
JP2010218379A (ja) データ転送装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21842270

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21842270

Country of ref document: EP

Kind code of ref document: A1