WO2021070000A1 - 撮像システム及び監視システム - Google Patents

撮像システム及び監視システム Download PDF

Info

Publication number
WO2021070000A1
WO2021070000A1 PCT/IB2020/059072 IB2020059072W WO2021070000A1 WO 2021070000 A1 WO2021070000 A1 WO 2021070000A1 IB 2020059072 W IB2020059072 W IB 2020059072W WO 2021070000 A1 WO2021070000 A1 WO 2021070000A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
image
transistor
circuit
wiring
Prior art date
Application number
PCT/IB2020/059072
Other languages
English (en)
French (fr)
Inventor
秋元健吾
井上聖子
三嶋大地
Original Assignee
株式会社半導体エネルギー研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社半導体エネルギー研究所 filed Critical 株式会社半導体エネルギー研究所
Priority to JP2021550721A priority Critical patent/JPWO2021070000A1/ja
Priority to US17/764,622 priority patent/US11863728B2/en
Publication of WO2021070000A1 publication Critical patent/WO2021070000A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/465Conversion of monochrome to colour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/6083Colour correction or control controlled by factors external to the apparatus
    • H04N1/6086Colour correction or control controlled by factors external to the apparatus by scene illuminant, i.e. conditions at the time of picture capture, e.g. flash, optical filter used, evening, cloud, daylight, artificial lighting, white point measurement, colour temperature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/84Camera processing pipelines; Components thereof for processing colour signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/43Conversion of monochrome picture signals to colour picture signals for colour picture display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/40Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled
    • H04N25/46Extracting pixel data from image sensors by controlling scanning circuits, e.g. by modifying the number of pixels sampled or to be sampled by combining or binning pixels

Definitions

  • One aspect of the present invention relates to a neural network and an imaging system using the neural network. Further, one aspect of the present invention relates to an electronic device using a neural network. Further, one aspect of the present invention relates to a vehicle using a neural network.
  • the present invention relates to an imaging system that obtains a color image from a black-and-white image obtained by a solid-state image sensor by using an image processing technique.
  • the present invention relates to a video surveillance system, a security system, or a safety information providing system using the imaging system.
  • One aspect of the present invention is not limited to the above technical fields.
  • One aspect of the invention disclosed in the present specification and the like relates to a product, a method, or a manufacturing method.
  • One aspect of the invention relates to a process, machine, manufacture, or composition of matter. Therefore, more specifically, the technical fields of one aspect of the present invention disclosed in the present specification and the like include semiconductor devices, display devices, light emitting devices, power storage devices, storage devices, electronic devices, lighting devices, input devices, and input / output devices.
  • the devices, their driving methods, or their manufacturing methods can be given as an example.
  • the semiconductor device refers to all devices that can function by utilizing the semiconductor characteristics
  • the electro-optical device, the semiconductor circuit, and the electronic device are all semiconductor devices.
  • Image sensors are widely used as components for imaging such as digital cameras or video cameras.
  • security equipment such as security cameras, such equipment can accurately image not only in bright places during the day but also at night or in dark places with little lighting and poor light. It needs to be done, and an image sensor with a wide dynamic range is required.
  • AI Artificial Intelligence
  • a method of learning with a large amount of image data, generating a model, and realizing colorization by inference using the obtained generated model is known.
  • Machine learning is a part of AI.
  • Patent Document 1 discloses an image pickup apparatus having an oxide semiconductor and using a transistor having an extremely low off-current in a pixel circuit.
  • Patent Document 2 discloses a technique for adding a calculation function to an image pickup apparatus.
  • Patent Document 3 discloses a technique relating to super-resolution processing.
  • Japanese Unexamined Patent Publication No. 2011-119711 Japanese Unexamined Patent Publication No. 2016-123087 Japanese Unexamined Patent Publication No. 2010-262276
  • a color filter is used for a color image obtained by an image pickup device such as a conventional image sensor.
  • the image sensor is sold with a color filter attached, and the image sensor and a lens are appropriately combined and mounted in an electronic device.
  • the color filter reduces the amount of light that reaches the light receiving area simply by being placed on top of the light receiving area of the image sensor. Therefore, it is inevitable that the amount of received light is attenuated by the color filter.
  • Various color filters to be combined with the image sensor are being optimized by each company, but they do not pinpoint the wavelength of the light to pass through, but receive broad light in a certain wavelength range.
  • One of the problems is to provide an imaging method and an imaging system that obtain an image having high visibility and faithful to an actual color without using a color filter.
  • a security camera placed in a light environment with a narrow wavelength range needs to accurately grasp the situation reflected in the captured image as a clue leading to an incident or accident, so the characteristics of the object being projected are displayed in real time. It is necessary to grasp it accurately. Therefore, for example, in the case of a night-vision camera, it is important to focus on the object and capture an image with good visibility of the object even in a dark place.
  • the night-vision camera there is also a camera that acquires a color image by color-separating with a special color filter using an infrared light source.
  • the reflected light of infrared rays is used, there is a problem that the color is not reflected or expressed in a different color depending on the subject. This problem often occurs when the subject is a material that absorbs infrared rays. For example, human skin is more likely to be imaged whiter than it actually is, and warm colors such as yellow may be imaged blue.
  • One of the problems is to provide an imaging method and an imaging system that have high visibility even at night or in a dark place and can obtain an image faithful to the same color as when there is external light.
  • the image pickup system of the present invention includes a solid-state image pickup device that does not have a color filter, a storage device, and a learning device. Since no color filter is used, attenuation of light can be avoided, and highly sensitive imaging can be performed even with a small amount of light.
  • the obtained black-and-white image data (analog data) is colorized, but is colored using an AI system.
  • the AI system that is, a learning device that uses the teacher data stored in the storage device, uses the extracted features to make inferences and adjust the focus, and the color is highly visible even at night or in dark places.
  • An image colorized image data (digital data)) can be obtained.
  • the learning device includes at least a neural network unit, and can perform not only learning but also inference and output data.
  • the learning device may perform inference using a feature amount that has been learned in advance. In that case, by storing the learned features in the storage device and performing the calculation, it is possible to output data at the same level as when the previously learned features are not used.
  • the teacher data may be subjected to at least one super-resolution processing.
  • the super-resolution processing refers to an image processing that generates a high-resolution image from a low-resolution image.
  • An image surveillance system or a security system or a safety information providing system using the above-mentioned imaging system can clearly realize imaging in a relatively dark place.
  • a surveillance system equipped with a security camera, which has a solid-state image sensor without a color filter, a learning device, and a storage device while the security camera detects a person.
  • a software program is executed in which the solid-state image sensor takes an image and creates colorized image data by inference of the learning device using the teacher data of the storage device.
  • the imaging system disclosed in the present specification it is possible to obtain a clear colorized image even when shooting in a dimly lit situation with a small amount of light. Therefore, it is relatively easy to identify a person (such as a face) or identify the characteristics of clothing based on the obtained colorized image.
  • this imaging system By applying this imaging system to a security camera, it is possible to estimate a person's face as a color image and display it on a display device.
  • FIG. 1 is a block diagram showing one aspect of the present invention.
  • FIG. 2 is an example of source code showing one aspect of the present invention.
  • FIG. 3 is an example of a source code showing one aspect of the present invention.
  • FIG. 4 is an example of a flow chart showing one aspect of the present invention.
  • FIG. 5 is a block diagram illustrating an imaging device.
  • FIG. 6 is a diagram illustrating the pixel block 200 and the circuit 201.
  • FIG. 7 is a diagram illustrating the pixel 100.
  • 8A, 8B, and 8C are diagrams illustrating a filter.
  • FIG. 9 is an example of a flow chart showing one aspect of the present invention.
  • FIG. 10 is an example of source code showing one aspect of the present invention.
  • 11A, 11B, and 11C are examples of applied products showing one aspect of the present invention.
  • the data acquisition device 10 is a semiconductor chip including a solid-state image sensor 11 and an analog arithmetic circuit 12, and does not have a color filter.
  • the data acquisition device 10 has an optical system such as a lens.
  • the optical system may have any configuration as long as the imaging characteristics are known, and is not particularly limited.
  • the A / D circuit 13 (also referred to as an A / D converter) indicates an analog-to-digital conversion circuit, which converts analog data output from the data acquisition device 10 into digital data. If necessary, an amplifier circuit may be provided between the data acquisition device 10 and the A / D circuit 13 to amplify the analog signal before converting it into digital data.
  • the memory unit 14 is a circuit that stores digital data after conversion, and is configured to store data before being input to the neural network unit 16, but is not particularly limited to this configuration. Although it depends on the amount of data output from the data acquisition device or the data processing capacity of the image processing device, if it is small-scale data, the output from the A / D circuit 13 is used as it is in the neural network section without being stored in the memory section 14. It may be configured to input to 16. Further, the output from the A / D circuit 13 may be input to the neural network unit 16 at a remote location by using the Internet communication. For example, the neural network unit 16 may be constructed on a server capable of bidirectional communication.
  • the image processing device 20 is a device for estimating the contour or color corresponding to the black-and-white image obtained by the data acquisition device 10.
  • the image processing device 20 is divided into a first stage of learning and a second stage of estimation.
  • the data acquisition device 10 and the image processing device 20 are configured as separate devices, but the data acquisition device 10 and the image processing device 20 can also be integrally configured. When configured integrally, it is also possible to update the feature amount obtained by the neural network unit in real time.
  • the neural network unit 16 is realized by software calculation by a microprocessor.
  • a microcontroller is a computer system incorporated into an integrated circuit (IC).
  • the neural network unit 16 may be configured by combining a plurality of ICs.
  • the learning device includes at least these a plurality of ICs.
  • free software can be used if the microcontroller is equipped with Linux (registered trademark), the total cost for configuring the neural network unit 16 can be reduced, which is preferable.
  • the present invention is not limited to Linux (registered trademark), and other OS (operating system) may be used.
  • the teacher data for learning is stored in the storage unit 18 in advance.
  • the teacher data for learning may use a learning set or the like, and the types of images include landscape photographs, portrait photographs, illustrations, and the like.
  • the learning device makes inferences using the teacher data for learning.
  • the learning device may have any configuration as long as it can perform inference using the teacher data of the storage unit 18 based on black and white analog data and output colorized image data.
  • the learning device can output the colorized image data by performing the calculation using the feature amount data of the storage unit 18 based on the black and white analog data. Any configuration is acceptable.
  • the feature amount learned in advance is used, the amount of data and the amount of calculation are reduced, so that there is an advantage that the learning device can be configured with a small-scale configuration, for example, one or two ICs.
  • Keras is a library that provides convenient functions for deep learning. In particular, it is easy to read and write data to the intermediate layer of the neural network unit and change the weighting coefficient of the neural network unit. Also, in order to handle the Numpy library on Python, Numpy is read. Also, openCV is read for image editing.
  • the source code corresponding to the above-mentioned processing is shown in order below the line of In [1] in FIG.
  • a color image is used as the data. It is preferable to prepare thousands or tens of thousands of color images. When the number of files of the color image is enormous, a calculation load is applied in the reading process, so for example, the color image may be converted into the h5py format and then read.
  • the following convolutional neural networks can be used for colorization. For example, in Python, using keras, it can be described as below the line of In [X] in FIG. 3 (however, X is an arbitrary number and can be changed according to the program).
  • a neural network is also called U-net.
  • the U-net has a function of complementing data from the convolution layer to the deconvolution layer, which is called a skip connection, can prevent the disappearance of the gradient, and can build a good learning model.
  • the grayscaled image of the color image of the teacher data is input to the neural network shown in In [X] in FIG.
  • the process of grayscale for example, openCV can be used.
  • GaN Generic Adversarial Networks
  • the output data of the neural network unit 16 and the time data of the time information acquisition device 17 are combined and stored in the large-scale storage device 15.
  • the large-scale storage device 15 accumulates and stores the data obtained from the start of imaging.
  • the display unit 19 may be provided with an operation input unit such as a touch panel, and the user selects from the data stored in the large-scale storage device 15 and observes the data as appropriate. be able to. Further, the display unit 19 may be able to access the large-scale storage device 15 by remote control via Internet communication, and the large-scale storage device 15 may be provided with a transmission antenna or a reception antenna.
  • the imaging system 21 can be used in a video surveillance system or a security system.
  • the display unit of the user's mobile information terminal can be the display unit 19.
  • the large-scale storage device 15 By accessing the large-scale storage device 15 from the display unit of the mobile information terminal, it is possible to monitor the user regardless of the location of the user.
  • the installation of the imaging system 21 is not limited to the wall of the room, and the entire or part of the configuration of the imaging system 21 is mounted on an unmanned aerial vehicle (also called a drone) equipped with rotary wings to monitor images from the air. You can also do it. In particular, it is possible to take images in an environment with a small amount of light, especially in the evening or at night when the streetlights are not lit.
  • an unmanned aerial vehicle also called a drone
  • the video surveillance system or the security system has been described, but the present invention is not particularly limited, and semi-automatic by combining with a camera or radar that images the surroundings of the vehicle and an ECU (Electronic Control Unit) that performs image processing and the like. It can also be applied to a vehicle capable of driving or a vehicle capable of fully automatic driving.
  • a vehicle using an electric motor has a plurality of ECUs, and the ECUs control the engine and the like.
  • the ECU includes a microcomputer.
  • the ECU is connected to a CAN (Control Area Network) provided on the electric vehicle.
  • CAN is one of the serial communication standards used as an in-vehicle LAN.
  • the ECU uses a CPU or GPU.
  • a solid-state image sensor without a color filter is used as one of a plurality of cameras (cameras for drive recorders, rear cameras, etc.) mounted on an electric vehicle, and the obtained black-and-white image is inferred by an ECU via a CAN. It may be configured so that a colorized image can be created and displayed on a display device in a vehicle or a display unit of a mobile information terminal.
  • FIG. 4 shows an example of a flow for colorizing the black-and-white image obtained by the solid-state image sensor 11 using the block diagram and the program shown in the first embodiment.
  • the imaging system 21 shown in the first embodiment is installed in a place to be monitored (room, parking lot, entrance, etc.), activated, and continuous shooting is started.
  • Black-and-white image data is acquired using a solid-state image sensor without a color filter (S2).
  • An array of a plurality of solid-state image sensors arranged in a matrix direction may be referred to as a pixel array.
  • the obtained analog data is filtered using the product-sum calculation circuit (S3).
  • Steps S2 and S3 are performed by the image pickup apparatus shown in FIG.
  • the image pickup apparatus will be described below.
  • FIG. 5 is a block diagram illustrating an imaging device.
  • the imaging device includes a pixel array 300, a circuit 201, a circuit 301, a circuit 302, a circuit 303, a circuit 304, a circuit 305, and a circuit 306.
  • Each of the circuit 201 and the circuits 301 to 306 is not limited to a single circuit configuration, and may be configured by a combination of a plurality of circuits. Alternatively, any one of the above circuits may be integrated. Further, a circuit other than the above may be connected.
  • the pixel array 300 has an imaging function and a calculation function.
  • the circuits 201 and 301 have an arithmetic function.
  • the circuit 302 has an arithmetic function or a data conversion function.
  • the circuits 303, 304 and 306 have a selection function.
  • the circuit 303 is electrically connected to the pixel block 200 via the wiring 124.
  • the circuit 304 is electrically connected to the pixel block 200 via the wiring 123.
  • the circuit 305 has a function of supplying a potential for multiply-accumulate calculation to the pixels.
  • a shift register, a decoder, or the like can be used for the circuit having the selection function.
  • the circuit 306 is electrically connected to the pixel block 200 via the wiring 113.
  • the circuits 301 and 302 may be provided externally.
  • the pixel array 300 has a plurality of pixel blocks 200. As shown in FIG. 6, the pixel block 200 has a plurality of pixels 100 arranged in a matrix, and each pixel 100 is electrically connected to the circuit 201 via wiring 112. The circuit 201 can also be provided in the pixel block 200.
  • the pixel 100 is electrically connected to the adjacent pixel 100 via a transistor 150 (transistor 150g to 150j).
  • transistor 150g to 150j The function of the transistor 150 will be described later.
  • the number of pixels of the pixel block 200 is set to 3 ⁇ 3 as an example, but the number of pixels is not limited to this. For example, it can be 2 ⁇ 2, 4 ⁇ 4, or the like. Alternatively, the number of pixels in the horizontal direction and the number of pixels in the vertical direction may be different. Further, some pixels may be shared by adjacent pixel blocks.
  • the pixel block 200 and the circuit 201 can be operated as a product-sum calculation circuit.
  • the pixel 100 can have a photoelectric conversion device 101, a transistor 102, a transistor 103, a transistor 104, a transistor 105, a transistor 106, and a capacitor 107.
  • One electrode of the photoelectric conversion device 101 is electrically connected to one of the source and drain of the transistor 102.
  • the other of the source or drain of the transistor 102 is electrically connected to one of the source or drain of the transistor 103, the gate of the transistor 104 and one electrode of the capacitor 107.
  • One of the source or drain of the transistor 104 is electrically connected to one of the source or drain of the transistor 105.
  • the other electrode of the capacitor 107 is electrically connected to one of the source or drain of the transistor 106.
  • the other electrode of the photoelectric conversion device 101 is electrically connected to the wiring 114.
  • the other of the source or drain of the transistor 103 is electrically connected to the wiring 115.
  • the other of the source or drain of the transistor 105 is electrically connected to the wiring 112.
  • the other of the source or drain of the transistor 104 is electrically connected to the GND wiring or the like.
  • the other of the source or drain of the transistor 106 is electrically connected to the wiring 111.
  • the other electrode of the capacitor 107 is electrically connected to the wiring 117.
  • the gate of the transistor 102 is electrically connected to the wiring 121.
  • the gate of the transistor 103 is electrically connected to the wiring 122.
  • the gate of the transistor 105 is electrically connected to the wiring 123.
  • the gate of the transistor 106 is electrically connected to the wiring 124.
  • the node FD is an electrical connection point between the other of the source or drain of the transistor 102, one of the source or drain of the transistor 103, one electrode of the capacitor 107, and the gate of the transistor 104. Further, the electrical connection point between the other electrode of the capacitor 107 and one of the source or drain of the transistor 106 is designated as a node FDW.
  • the wirings 114 and 115 can have a function as a power supply line.
  • the wiring 114 can function as a high-potential power supply line
  • the wiring 115 can function as a low-potential power supply line.
  • the wirings 121, 122, 123, and 124 can function as signal lines for controlling the continuity of each transistor.
  • the wiring 111 can function as a wiring that supplies a potential corresponding to a weighting coefficient to the pixel 100.
  • the wiring 112 can function as a wiring that electrically connects the pixel 100 and the circuit 201.
  • the wiring 117 can function as a wiring that electrically connects the other electrode of the capacitor 107 of the pixel and the other electrode of the capacitor 107 of another pixel via the transistor 150 (see FIG. 6).
  • An amplifier circuit or a gain adjustment circuit may be electrically connected to the wiring 112.
  • a photodiode can be used as the photoelectric conversion device 101. Regardless of the type of photodiode, a Si photodiode having silicon in the photoelectric conversion layer, an organic photodiode having an organic photoconductor in the photoelectric conversion layer, or the like can be used. If it is desired to increase the light detection sensitivity at low illuminance, it is preferable to use an avalanche photodiode.
  • the transistor 102 can have a function of controlling the potential of the node FD.
  • the transistor 103 can have a function of initializing the potential of the node FD.
  • the transistor 104 can have a function of controlling the current flowing through the circuit 201 according to the potential of the node FD.
  • the transistor 105 can have a function of selecting pixels.
  • the transistor 106 can have a function of supplying a potential corresponding to a weighting coefficient to the node FDW.
  • a high voltage may be applied, and it is preferable to use a high voltage transistor as the transistor connected to the photoelectric conversion device 101.
  • a high voltage transistor for example, a transistor using a metal oxide in the channel forming region (hereinafter, OS transistor) or the like can be used. Specifically, it is preferable to apply an OS transistor to the transistor 102.
  • the OS transistor also has a characteristic that the off-current is extremely low.
  • the period during which the charge can be held by the node FD and the node FDW can be extremely extended. Therefore, it is possible to apply the global shutter method in which the charge accumulation operation is performed simultaneously in all the pixels without complicating the circuit configuration or the operation method. Further, while holding the image data in the node FD, it is possible to perform a plurality of operations using the image data.
  • the transistor 104 has excellent amplification characteristics.
  • the transistor 106 it may be preferable to use a transistor having high mobility capable of high-speed operation. Therefore, transistors using silicon in the channel forming region (hereinafter referred to as Si transistors) may be applied to the transistors 104 and 106.
  • an OS transistor and a Si transistor may be arbitrarily combined and applied. Moreover, all the transistors may be OS transistors. Alternatively, all the transistors may be Si transistors. Examples of the Si transistor include a transistor having amorphous silicon, a transistor having crystalline silicon (microcrystalline silicon, low temperature polysilicon, single crystal silicon), and the like.
  • the potential of the node FD in the pixel 100 is determined by the sum of the reset potential supplied from the wiring 115 and the potential (image data) generated by the photoelectric conversion by the photoelectric conversion device 101.
  • the potential corresponding to the weighting coefficient supplied from the wiring 111 is capacitively coupled and determined. Therefore, a current corresponding to the data obtained by adding an arbitrary weighting coefficient to the image data can be passed through the transistor 105.
  • the above is an example of the circuit configuration of the pixel 100, and the photoelectric conversion operation can be performed by another circuit configuration.
  • each pixel 100 is electrically connected to each other by wiring 112.
  • the circuit 201 can perform calculations using the sum of the currents flowing through the transistors 104 of each pixel 100.
  • the circuit 201 has a capacitor 202, a transistor 203, a transistor 204, a transistor 205, a transistor 206, and a resistor 207.
  • One electrode of the capacitor 202 is electrically connected to one of the source or drain of the transistor 203.
  • One of the source and drain of transistor 203 is electrically connected to the gate of transistor 204.
  • One of the source or drain of transistor 204 is electrically connected to one of the source or drain of transistor 205.
  • One of the source or drain of transistor 205 is electrically connected to one of the source or drain of transistor 206.
  • One electrode of the resistor 207 is electrically connected to the other electrode of the capacitor 202.
  • the other electrode of the capacitor 202 is electrically connected to the wiring 112.
  • the other of the source or drain of transistor 203 is electrically connected to wiring 218.
  • the other of the source or drain of transistor 204 is electrically connected to wire 219.
  • the other of the source or drain of the transistor 205 is electrically connected to a reference power line such as GND wiring.
  • the other of the source or drain of the transistor 206 is electrically connected to the wiring 212.
  • the other electrode of resistor 207 is electrically connected to wiring 217.
  • Wiring 217, 218, 219 can have a function as a power supply line.
  • the wiring 218 can have a function as a wiring for supplying a dedicated potential for reading.
  • Wiring 217 and 219 can function as high potential power lines.
  • the wirings 213, 215, and 216 can function as signal lines for controlling the continuity of each transistor.
  • the wiring 212 is an output line and can be electrically connected to, for example, the circuit 301 shown in FIG.
  • the transistor 203 can have a function of resetting the potential of the wiring 211 to the potential of the wiring 218.
  • the wiring 211 is a wiring connected to one electrode of the capacitor 202, one of the source or drain of the transistor 203, and the gate of the transistor 204.
  • Transistors 204 and 205 can have a function as a source follower circuit.
  • the transistor 206 can have a function of controlling reading.
  • the circuit 201 has a function as a correlated double sampling circuit (CDS circuit), and can be replaced with a circuit having another configuration having the function.
  • CDS circuit correlated double sampling circuit
  • an offset component other than the product of the image data (X) and the weighting coefficient (W) is removed, and the target WX is extracted.
  • WX can be calculated by using the data with and without imaging for the same pixel and the data when weighting is applied to each of them.
  • the total current (I p ) flowing through the pixel 100 when imaging is k ⁇ (X-V th ) 2
  • the total current (I p ) flowing through the pixel 100 when weighted is k ⁇ (W + X-V th).
  • the total current (I ref ) flowing through the pixel 100 without imaging is k ⁇ (0-V th ) 2
  • the total current (I ref ) flowing through the pixel 100 when weighted is k ⁇ (W-).
  • V th ) 2 is a constant and Vth is the threshold voltage of the transistor 105.
  • the difference (data A) between the data with imaging and the data obtained by weighting the data is calculated.
  • k ⁇ ((X-V th ) 2- (W + X-V th ) 2 ) k ⁇ (-W 2 -2W ⁇ X + 2W ⁇ V th ).
  • data A and data B can be read out.
  • the difference calculation between the data A and the data B can be performed by, for example, the circuit 301.
  • the weight supplied to the entire pixel block 200 functions as a filter.
  • a filter for example, a convolutional filter of a convolutional neural network (CNN) can be used.
  • CNN convolutional neural network
  • an image processing filter such as an edge extraction filter can be used.
  • the edge extraction filter include the Laplacian filter shown in FIG. 8A, the prewit filter shown in FIG. 8B, and the Sobel filter shown in FIG. 8C.
  • the elements of the edge extraction filter can be allocated to each pixel 100 as weights and supplied.
  • the data A and the data B it is possible to calculate by using the data with and without imaging and the data when weights are added to each of them.
  • the data with and without imaging is data without weighting, and can be rephrased as data with weight 0 added to all pixels 100.
  • This operation corresponds to conducting the transistors 150 (transistors 150a to 150f) provided between the pixels 100 (see FIG. 6).
  • transistor 150 transistors 150a to 150f
  • all the node FDWs of each pixel 100 are short-circuited via the wiring 117.
  • the weight ( ⁇ W) When the weight ( ⁇ W) is rewritten by supplying an electric charge from a circuit outside the pixel array 300, it takes time to complete the rewriting due to the capacity of the wiring 111 having a long distance and the like.
  • the pixel block 200 is a minute area, the distance of the wiring 117 is short, and the capacity is small. Therefore, in the operation of redistributing the electric charge accumulated in the node FDW in the pixel block 200, the weight ( ⁇ W) can be rewritten at high speed.
  • the pixel block 200 shown in FIG. 6 shows a configuration in which transistors 150a to 150f are electrically connected to different gate wires (wiring 113a to 113f). In this configuration, the conduction of the transistors 150a to 150f can be controlled independently, and the operation of acquiring ⁇ W / N can be selectively performed. Further, FIG. 6 shows a configuration in which the transistors 150g to 150j are electrically connected to different gate wires (113g to 113i).
  • FIGS. 6 and 8 show an example in which nine transistors 150 (transistors 150a to 150f) are provided between the pixels 100, the number of transistors 150 may be further increased. Further, in the transistors 150g to 150j, some transistors may be omitted so as to eliminate parallel paths.
  • the product-sum calculation result data output from the circuit 201 is sequentially input to the circuit 301.
  • the circuit 301 may have various calculation functions in addition to the above-mentioned function of calculating the difference between the data A and the data B.
  • the circuit 301 can have the same configuration as the circuit 201.
  • the function of the circuit 301 may be replaced by software processing.
  • the circuit 301 may have a circuit for calculating the activation function.
  • a comparator circuit can be used for the circuit.
  • the comparator circuit outputs the result of comparing the input data with the set threshold value as binary data. That is, the pixel block 200 and the circuit 301 can act as a part of the neural network.
  • the data output from the circuit 301 is sequentially input to the circuit 302.
  • the circuit 302 can be configured to include, for example, a latch circuit and a shift register. With this configuration, parallel serial conversion can be performed, and the data input in parallel can be output to the wiring 311 as serial data.
  • connection destination of the wiring 311 is not limited. For example, it can be connected to the A / D circuit 13 or the neural network unit 16 shown in FIG. Further, the connection destination of the wiring 311 may be an FPGA (field-programmable gate array).
  • FPGA field-programmable gate array
  • the A / D circuit 13 converts the filtered analog data into digital data (S4).
  • the converted digital data is stored in the memory unit 14 (digital memory unit) (S5).
  • the digital data is converted into a signal format (JPEG (registered trademark) or the like) required by the inference program in the subsequent stage (S6).
  • JPEG registered trademark
  • the converted digital data is convolved using a CPU or the like to infer contours, colors, and the like, and colorize the data (S7).
  • a CPU Central Processing Unit
  • a PMU Power Management Unit
  • the colorized image data is output (S8).
  • the colorized image data is saved together with the time data such as the date and time (S9).
  • the storage is stored in a large-scale storage device 15, a so-called large-capacity storage device (such as a hard disk) or a database.
  • the acquisition of the colorized image data is repeated (during operation). Colorization can be performed in real time by repeating the process.
  • each of the above-mentioned steps (S4 to S9) can be realized by one or a plurality of computers.
  • latent variables are monitored by cos similarity, and the focus is adjusted by the optical system so that fluctuations are reduced, so that even if the object moves during shooting, It is possible to adjust the object so that it is in focus.
  • inference may be performed using the extracted features.
  • Focus adjustment may be performed so that the inference result has less variation. For example, when a person is inferred, the focus may be adjusted so that the likelihood is constant or large.
  • FIG. 9 shows a flow chart.
  • the same reference numerals are used for the same steps as the flow chart shown in FIG. 4 of the second embodiment. Since S1 to S6 in FIG. 4 and S8 to S9 are the same, detailed description thereof will be omitted here.
  • step S6 the super-resolution processing is performed a plurality of times on the converted digital data using the first learning model, and the contour is inferred (S7a).
  • the digital data after the super-resolution processing is inferred in color and the like using the second learning model and is colored (S7b). Subsequent steps are the same as in the second embodiment.
  • the teacher data of the second learning model is subjected to super-resolution processing a plurality of times in advance, an animation image is mixed with a photographic image, or an outline is emphasized by an OPENCV drawcontours function or the like.
  • the ratio of mixing the animation image with the photographic image is 1 when the photographic image is 2.
  • An animated image is a kind of illustration, but contains a lot of edge components or color components. In the process of colorizing a black-and-white image, edges are extracted as features in the convolutional layer, and the color of each region of the image is inferred based on the features. Therefore, an image containing many edge components is used as teacher data. Is effective in improving the efficiency of machine learning.
  • the animation image As the teacher data, the number of teacher data data for obtaining a color image that can reach a certain standard can be reduced, the time required for machine learning can be shortened, and the configuration of the neural network unit can be simplified. ..
  • the neural network unit is a part of machine learning. Further, deep learning is a part of the neural network unit.
  • the learning of the neural network unit of this embodiment is shown below.
  • Keras is a library that provides convenient functions for deep learning. In particular, it is easy to read and write data to the intermediate layer of the neural network and change the weighting coefficient of the neural network. Also, in order to handle the Numpy library on Python, Numpy is read. In addition, scipy is used as image processing.
  • the source code corresponding to the above-mentioned processing is shown in order under the line of In [Y1] in FIG. 10 (however, Y1 is an arbitrary number and can be changed according to the program).
  • the teacher data is an image with high resolution.
  • Supervised data is a set of data or classified data used in supervised learning.
  • As the image a color image or a black-and-white image can be used. It is preferable to prepare thousands or tens of thousands of images. When the number of files of the image is enormous, a calculation load is applied in the reading process, so that the image may be converted to the h5py format and then read.
  • the super-resolution processing consists of a three-layer convolutional neural network.
  • Python using Keras's sexual model, under the line of In [Y2] in FIG. 10 (however, Y2 is an arbitrary number and can be changed according to the program if it is later than Y1). It can be described as.
  • [Y2] an example of inputting an image of 33 ⁇ 33 pixels is shown.
  • an example of an image of 33 ⁇ 33 pixels is shown, but the image is not particularly limited and may be a 2K size (1920 ⁇ 1080 pixels) image or a 4K size (3840 ⁇ 2160 pixels) image. ..
  • the size is the resolution, and the neural network may be designed according to the input image data or the output image data.
  • the input image data and the output image data may be different.
  • the output image may be in the 2K size.
  • 8K size input image data is obtained by a solid-state image sensor, the amount of light that can be obtained by each solid-state image sensor is small, and it is particularly preferable not to use a color filter because a large amount of light can be obtained.
  • an image having a reduced resolution of the image of the teacher data is input to the neural network shown in In [Y3].
  • the process of lowering the resolution is performed by using, for example, scipy, in the line of In [Y3] in FIG. 10 (however, Y3 is an arbitrary number and can be changed according to the program if it is later than Y2). It can be described as follows. Here, the process of increasing the resolution by 1/3 is shown.
  • each of the above-mentioned steps (S4 to S9) can be realized by one or a plurality of computers.
  • GaN in which the above neural network is used as a generator may be used.
  • the colorized image data obtained in the present embodiment has a smoother outline than the image data in the second embodiment, and optimum colorization is performed.
  • a display device a personal computer, an image storage device or an image reproduction device including a recording medium, a mobile phone, a portable device
  • Game machines including molds, mobile data terminals, electronic book terminals, video cameras, cameras such as digital still cameras, goggle type displays (head mount displays), navigation systems, sound playback devices (car audio, digital audio players, etc.), copying Examples include machines, facsimiles, printers, multifunction printers, automatic cash deposit / payment machines (ATMs), and vending machines. Specific examples of these electronic devices are shown in FIG.
  • FIG. 11A is a surveillance camera, which includes a housing 951, a lens 952, a support portion 953, and the like.
  • an imaging system according to one aspect of the present invention can be provided.
  • a neural network unit is provided in the housing 951.
  • the surveillance camera is an idiomatic name and does not limit its use.
  • a device having a function as a surveillance camera is also called a camera or a video camera.
  • Surveillance cameras use image sensors that do not use color filters.
  • the colorized image data can be created by incorporating the program shown in the second embodiment or the third embodiment as a software program and executing the program in the neural network unit.
  • the surveillance camera of the present embodiment when used for at least one of them, a color image can be acquired in a dim environment, which is difficult to acquire with the conventional surveillance camera. Therefore, the conventional surveillance camera The monitoring system can be strengthened by combining with.
  • FIG. 11B is also a surveillance camera, which has a support base 954, a camera unit 955, a protective cover 956, and the like.
  • the camera unit 955 is provided with a rotation mechanism or the like, and by installing it on the ceiling, it is possible to take an image of the entire surroundings.
  • a camera unit 955 can be used as an imaging device included in the monitoring system of one aspect of the present invention.
  • the neural network unit of the camera unit 955 estimates based on the data obtained by the camera unit 955, so that the suspicious person can be identified from the information captured by the colorization or the super-resolution.
  • FIG. 11C shows an example of an air vehicle.
  • the flying object 6500 shown in FIG. 11C has a propeller 6501, a camera 6502, a battery 6503, and the like, and has a function of autonomously flying.
  • the image data taken by the camera 6502 is stored in the electronic component 6504.
  • the electronic component 6504 can analyze the image data and detect the presence or absence of an obstacle when moving.
  • a plurality of types of image pickup devices may be used.
  • a camera 6502 can be used as an imaging device included in the monitoring system of one aspect of the present invention.
  • the neural network unit estimates based on the data obtained by the camera 6502, so that the suspicious person can be identified from the information captured by colorization or super-resolution.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Image Processing (AREA)

Abstract

従来のイメージセンサなどの撮像装置によるカラー画像は、カラーフィルタを用いている。撮像素子にはカラーフィルタがつけられた状態で販売され、その撮像素子とレンズなどを適宜組み合わせて電子機器に搭載している。カラーフィルタは、イメージセンサの受光領域に重ねて設置するだけで受光領域に到達する光量を低減してしまう。 本発明の撮像システムは、カラーフィルタを有していない固体撮像素子と、記憶装置と、学習装置とを備える。カラーフィルタを有していないため、得られた白黒画像データ(アナログデータ)には、カラー化を行うが、AIシステムを用いて色付けを行う。

Description

撮像システム及び監視システム
本発明の一態様は、ニューラルネットワーク、及びそれを用いた撮像システムに関する。また、本発明の一態様は、ニューラルネットワークを用いた電子機器に関する。また、本発明の一態様は、ニューラルネットワークを用いた車両に関する。固体撮像素子で得られた白黒画像から、画像処理技術を用いてカラー画像を得る撮像システムに関する。その撮像システムを用いた映像監視システムまたは警備システムまたは安全情報提供システムに関する。
なお、本発明の一態様は、上記の技術分野に限定されない。本明細書等で開示する発明の一態様は、物、方法、又は、製造方法に関する。本発明の一態様は、プロセス、マシン、マニュファクチャ、又は、組成物(コンポジション・オブ・マター)に関する。そのため、より具体的に本明細書等で開示する本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置、入出力装置、それらの駆動方法、又は、それらの製造方法、を一例として挙げることができる。
 なお、本明細書中において半導体装置とは、半導体特性を利用することで機能しうる装置全般を指し、電気光学装置、半導体回路および電子機器は全て半導体装置である。
従来、イメージセンサを使って撮像した画像はカラーフィルタを用いてカラー化する技術が知られている。イメージセンサは、デジタルカメラまたはビデオカメラなど撮像のための部品として広く使われている。また、防犯カメラなど防犯機器の一部としても使われているため、そのような機器においては日中の明るい場所だけでなく、夜間または、照明が少なく光の乏しい暗い場所においても正確な撮像を行う必要があり、ダイナミックレンジの広いイメージセンサが必要である。
また、AI(Artificial Intelligence)を使った技術の進歩が目覚ましく、例えば昔の写真フィルムを用いた白黒写真をAIによってカラー化する自動着色技術の開発も盛んに行われている。AIによるカラー化には、大量の画像データによる学習を行い、モデルを生成し、得られた生成モデルを用いた推論によってカラー化を実現する手法などが知られている。なお、機械学習(マシンラーニング)はAIの一部である。
基板上に形成された酸化物半導体薄膜を用いてトランジスタを構成する技術が注目されている。例えば、酸化物半導体を有するオフ電流が極めて低いトランジスタを画素回路に用いる構成の撮像装置が特許文献1に開示されている。
また、撮像装置に演算機能を付加する技術が特許文献2に開示されている。また、超解像化処理に関する技術が特許文献3に開示されている。
特開2011−119711号公報 特開2016−123087号公報 特開2010−262276号公報
従来のイメージセンサなどの撮像装置によるカラー画像は、カラーフィルタを用いている。撮像素子にはカラーフィルタがつけられた状態で販売され、その撮像素子とレンズなどを適宜組み合わせて電子機器に搭載している。カラーフィルタは、イメージセンサの受光領域に重ねて設置するだけで受光領域に到達する光量を低減してしまう。従って、カラーフィルタによる受光光量の減衰が避けられない。撮像素子と組み合わせるカラーフィルタは各社様々であり、最適化を図っているが、通過させる光の波長をピンポイントで取得するわけではなく、ある程度の波長域でのブロードな光を受光している。
例えば、監視システムなどに用いられる防犯カメラにおいて、薄暗い中での撮影では、光量が足りないため、顔を認識できるほどの画像が得られないという課題もある。防犯カメラの設置者にとっては赤外線カメラによる白黒画像よりもカラー画像が好まれている。
例えば、海中での撮影においては、光量が足りない場所が多く、水深の深い場所では光源を必要とするが、魚を撮影したい場合にはその光源によって魚が逃げてしまう場合もある。また、海中においては光が届きにくいため、光源があっても遠くの魚を撮像することは困難である。
カラーフィルタを用いることなく、視認性が高く、実際の色に忠実な画像を得る撮像方法及び撮像システムを提供することを課題の一つとしている。
特に、夕方、夜間などの照明の少ない暗い場所の撮像においては、光の受光量が少ないため、感度の良い撮像を行うのが難しいといった課題がある。そのため、暗い場所で撮像した画像は明るい場所に比べ、視認性の面で劣ってしまう。
波長領域の狭い光環境下に置かれた防犯カメラは、事件または事故などにつながる手掛かりとして撮像した画像に映っている状況を正確に把握する必要があるため、映っている対象物の特徴をリアルタイムに正確に捉える必要がある。そのため、例えば暗視カメラの場合、暗い場所でも、対象物に焦点を合わせ、対象物の視認性の良い画像を撮像することが重要となる。
暗視カメラにおいては、赤外線光源を用いて特殊カラーフィルタで色分離することによりカラー映像を取得するカメラもある。しかしながら赤外線の反射光を用いているため、被写体によっては色が反映されない、もしくは異なった色に表現される問題がある。この問題は、被写体が赤外線を吸収する材料である場合に生じることが多い。例えば、人の肌は実際よりも白く撮像されやすく、黄色などの暖色は青く撮像される場合がある。
夜間または暗い場所の撮像においても視認性が高く、外光があった場合と同じ色に忠実な画像を得る撮像方法及び撮像システムを提供することを課題の一つとしている。
本発明の撮像システムは、カラーフィルタを有していない固体撮像素子と、記憶装置と、学習装置とを備える。カラーフィルタを用いないため、光の減衰を回避でき、少ない光量でも感度の高い撮像を行うことができる。
カラーフィルタを有していないため、得られた白黒画像データ(アナログデータ)には、カラー化を行うが、AIシステムを用いて色付けを行う。AIシステム、即ち、記憶装置に記憶された教師データを用いる学習装置により、抽出された特徴量を使って、推論を行なって焦点を調節し、夜間または暗い場所の撮像においても視認性の高いカラー画像(カラー化された画像データ(デジタルデータ))を得ることができる。なお、学習装置は、少なくともニューラルネットワーク部を含み、学習だけでなく推論を行い、データ出力ができる。また、学習装置は、予め学習済みの特徴量を用いた推論を行う場合もある。その場合には、記憶装置に学習済みの特徴量を保存しておき、演算を行うことで、予め学習済みの特徴量を用いない場合と同程度のレベルでのデータ出力ができる。
また、被写体への光量が少ないことが原因で被写体の輪郭の一部が不明瞭になる場合に、境界が判別できず、その箇所への色付けが不完全となる恐れがある。
そこで、カラーフィルタを用いないイメージセンサを用い、ダイナミックレンジの広い白黒画像データを取得し、超解像化処理を複数回繰り返した後、色の境界を判別し、色付けすることが好ましい。また、教師データに対して少なくとも1回の超解像化処理を行ってもよい。色の境界を判別するための学習モデルの作成に、教師データとしてカラーの写真画像だけでなくカラーのイラスト(アニメーション)画像を混ぜることで、色の境界のはっきりしたカラー化された画像データを得ることができる。なお、超解像化処理とは、低解像度画像から高解像度画像を生成する画像処理を指している。
また、予め、学習モデルを用意しておけば、光量が足りない状況でフラッシュ光源を使用することなく、比較的明るい白黒画像データを撮像により取得し、その白黒画像データを基にしてカラー化することにより、鮮やかにカラー化された画像データを得ることができる。
上記撮像システムを用いた映像監視システムまたは警備システムまたは安全情報提供システムは、比較的暗い場所での撮像を明確に実現することができる。
具体的には、防犯カメラを備えた監視システムであり、防犯カメラは、カラーフィルタを有していない固体撮像素子、学習装置、及び記憶装置を有し、防犯カメラが人物を検知している間に、固体撮像素子が撮像し、記憶装置の教師データを用いて学習装置の推論によりカラー化された画像データを作成するソフトウェアプログラムを実行する。
本明細書で開示する撮像システムにより、光量が少なく、薄暗い状況の撮影であっても、はっきりしたカラー化画像を得ることができる。従って、得られたカラー化画像を基に、人物の特定(顔など)または、服装の特徴を識別することが比較的容易に行うことができる。防犯用カメラに本撮像システムを適用することにより、人物の顔をカラー映像で推定し、表示装置で表示することもできる。
特に、8Kサイズの入力画像データを固体撮像素子で得る場合、一つ一つの画素に配置された固体撮像素子の受光領域面積が狭くなってしまうため、得られる光量が少なくなる。しかしながら、本明細書で開示する撮像システムでは、固体撮像素子にカラーフィルタを用いないので、カラーフィルタによる光量の低減がない。これにより、8Kサイズの画像データを感度良く、撮像することができる。
図1は、本発明の一態様を示すブロック図である。
図2は、本発明の一態様を示すソースコードの一例である。
図3は、本発明の一態様を示すソースコードの一例である。
図4は、本発明の一態様を示すフロー図の一例である。
図5は、撮像装置を説明するブロック図である。
図6は、画素ブロック200および回路201を説明する図である。
図7は、画素100を説明する図である。
図8A、図8B、図8Cは、フィルタを説明する図である。
図9は本発明の一態様を示すフロー図の一例である。
図10は、本発明の一態様を示すソースコードの一例である。
図11A、図11B、図11Cは、本発明の一態様を示す応用製品の一例である。
以下では、本発明の実施の形態について図面を用いて詳細に説明する。ただし、本発明は以下の説明に限定されず、その形態および詳細を様々に変更し得ることは、当業者であれば容易に理解される。また、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。
(実施の形態1)
映像監視システムまたは警備システムに用いる撮像システム21の構成の一例を図1に示すブロック図を参照して説明する。
データ取得装置10は、固体撮像素子11とアナログ演算回路12を含む半導体チップであり、カラーフィルタを有していない。データ取得装置10は、レンズなどの光学系を有している。なお、光学系は結像特性が既知であれば、どのような構成のものでもよく、特に限定されない。
A/D回路13(A/Dコンバータとも呼ぶ)は、アナログデジタル変換回路を示しており、データ取得装置10から出力されるアナログデータをデジタルデータに変換する。なお、必要があれば、データ取得装置10とA/D回路13の間に増幅回路を設け、デジタルデータに変換する前にアナログ信号を増幅してもよい。
メモリ部14は、変換後のデジタルデータを記憶する回路であり、ニューラルネットワーク部16に入力する前にデータを記憶させる構成としているが、特に本構成に限定されない。データ取得装置から出力されるデータ量または画像処理装置のデータ処理能力にもよるが、小規模データであれば、メモリ部14に記憶せずにA/D回路13からの出力をそのままニューラルネットワーク部16に入力する構成としてもよい。また、A/D回路13からの出力は、インターネット通信を用いて遠隔地にあるニューラルネットワーク部16に入力する構成としてもよい。例えば、ニューラルネットワーク部16は、双方向通信が可能なサーバに構築してもよい。
画像処理装置20は、データ取得装置10で得られる白黒画像に対応する輪郭または色を推定するための装置である。画像処理装置20は、学習を行う第1の段階と、推定を行う第2の段階とに区別されて実行される。本実施の形態では、データ取得装置10と画像処理装置20を別々の装置として構成するようにしたが、データ取得装置10と画像処理装置20を一体的に構成することも可能である。一体的に構成する場合、ニューラルネットワーク部で得られる特徴量をリアルタイムで更新させるようにすることも可能である。
ニューラルネットワーク部16は、マイクロコントローラによるソフトウェア演算により実現される。マイクロコントローラは、コンピュータシステムを一つの集積回路(IC)に組み込んだものである。演算規模または扱うデータが大きい場合には複数のICを組み合わせてニューラルネットワーク部16を構成してもよい。これら複数のICを学習装置は少なくとも含む。また、Linux(登録商標)を搭載したマイクロコントローラであればフリーのソフトウェアを用いることができるため、ニューラルネットワーク部16を構成するためのトータルのコストを低減することができるため好ましい。また、Linux(登録商標)に限定されず、他のOS(オペレーティングシステム)を用いてもよい。
図1に示すニューラルネットワーク部16の学習について以下に示す。予め、学習用の教師データは、記憶部18に保存しておく。学習用の教師データは、学習用セットなどを用いればよく、画像の種類としては風景写真、人物写真、イラストなどを含む。これら学習用の教師データを用いて学習装置が推論を行う。学習装置は、白黒のアナログデータに基づき、記憶部18の教師データを用いて推論を行ってカラー化された画像データを出力できるのであれば、どのような構成をとっても構わない。また、予め学習済の特徴量を用いる場合、学習装置は、白黒のアナログデータに基づき、記憶部18の特徴量データを用いて演算を行ってカラー化された画像データを出力できるのであれば、どのような構成をとっても構わない。予め学習済の特徴量を用いる場合、データ量及び演算量が軽減されるため、小規模な構成、例えば1つまたは2つのICで学習装置を構成できるメリットがある。
Linux(登録商標)の動作環境下にてPythonを用いてプログラムを作成する。本実施の形態では、Kerasのデータフレームを用いる。Kerasは、深層学習に便利な機能を提供しているライブラリである。特に、ニューラルネットワーク部の中間層へのデータ読み出し及び書き込み、ニューラルネットワーク部の重み係数の変更が容易である。また、NumpyのライブラリをPython上で扱うために、Numpyを読み込みする。また、画像の編集のために、openCVを読み込む。
上述した処理に対応するソースコードは図2中のIn[1]の行の下に順に示す。
次にデータを読み込む。データとしては、カラー画像を用いる。カラー画像は数千枚、数万枚用意することが好ましい。該カラー画像のファイル数が膨大な場合、読み出し処理にて計算負荷がかかるため、例えばh5py形式に変換してから読み込んでも良い。
カラー化は、以下の畳み込みニューラルネットワーク(人工ニューラルネットワークとも呼ぶ)を用いることができる。例えばPythonでは、kerasを用いて、図3中のIn[X]の行(ただし、Xは任意の数字であり、プログラムに合わせて変更可能)の下のように記述することができる。このようなニューラルネットワークは、U−netとも呼ばれる。U−netは、スキップコネクションと呼ばれる、畳み込み層から逆畳み込み層へのデータの補完機能を有し、勾配の消失を防ぎ、良好な学習モデルを構築することができる。
学習時は、教師データのカラー画像に対し、該画像をグレースケール化した画像を図3中のIn[X]に示すニューラルネットワークに入力する。該画像をグレースケール化する処理は、例えばopenCVを用いることができる。
上記ニューラルネットワークをGeneratorとしたGaN(Generative Adversarial Networks)を用いてもよい。
ニューラルネットワーク部16の出力データと、時刻情報取得装置17の時刻データとを結びつけて大規模記憶装置15に保存する。大規模記憶装置15には、撮像開始から得られたデータを累積して保存する。
表示部19(時刻表示含む映像表示など)には、タッチパネルなどの操作入力部を備えてもよく、使用者が、大規模記憶装置15に記憶されたデータの中から選択して、適宜観察することができる。また、表示部19はインターネット通信によって遠隔操作により大規模記憶装置15にアクセスできるようにしてもよく、大規模記憶装置15は送信アンテナまたは受信アンテナを設けてもよい。撮像システム21は、映像監視システムまたは警備システムに用いることができる。
また、使用者の携帯情報端末(スマートフォンなど)の表示部を表示部19とすることもできる。携帯情報端末の表示部から大規模記憶装置15にアクセスすることで使用者の居場所を問わず監視することもできる。
撮像システム21の設置は、部屋の壁に限定されず、撮像システム21の構成全部または一部を、回転翼を備える無人航空機(ドローンとも呼ばれる)に搭載することで、空中からの映像監視をすることもできる。特に夕方または夜間の街灯点灯の少ない光量の環境下での撮像ができる。
また、本実施の形態では、映像監視システムまたは警備システムに関して説明したが、特に限定されず、車両周辺を撮像するカメラまたはレーダと画像処理などを行うECU(Electronic Control Unit)と組み合わせることで、半自動運転を行える車両、或いは全自動運転を行える車両に適用することもできる。電動モーターを用いる車両は、複数のECUを有し、ECUによってエンジン制御などを行う。ECUは、マイクロコンピュータを含む。ECUは、電動車両に設けられたCAN(Controller Area Network)に接続される。CANは、車内LANとして用いられるシリアル通信規格の一つである。ECUは、CPUまたはGPUを用いる。例えば、電動車両に搭載する複数のカメラ(ドライブレコーダー用カメラ、リアカメラなど)の一つとして、カラーフィルタのない固体撮像素子を用い、得られた白黒画像をCANを介してECUにて推論を行い、カラー化画像を作成し、車内の表示装置または携帯情報端末の表示部に表示できるように構成してもよい。
(実施の形態2)
本実施の形態では、実施の形態1に示したブロック図及びプログラムを用いて、固体撮像素子11で得られる白黒映像に対してカラー化を行うフローの一例を図4に示す。
監視したい場所(部屋、駐車場、玄関など)に、実施の形態1に示す撮像システム21を設置し、起動し、連続撮影を開始する。
まず、データを取得する準備を開始する(S1)。
カラーフィルタなしの固体撮像素子を用いて白黒画像データを取得する(S2)。なお、複数の固体撮像素子を行列方向に並べたものを画素アレイと呼ぶ場合もある。
次いで、得られたアナログデータを積和演算回路を用いてフィルタリングする(S3)。
ステップS2、S3は、図5に示す撮像装置で行われる。ここで撮像装置について以下に説明する。
図5は、撮像装置を説明するブロック図である。撮像装置は、画素アレイ300と、回路201と、回路301と、回路302と、回路303と、回路304と、回路305と、回路306を有する。なお、回路201および回路301乃至回路306のそれぞれは、単一の回路構成に限らず、複数の回路の組み合わせで構成される場合がある。または、上記いずれか複数の回路が統合されていてもよい。また、上記以外の回路が接続されてもよい。
画素アレイ300は、撮像機能および演算機能を有する。回路201、301は、演算機能を有する。回路302は、演算機能またはデータ変換機能を有する。回路303、304、306は、選択機能を有する。回路303は配線124を介して画素ブロック200に電気的に接続されている。回路304は配線123を介して画素ブロック200に電気的に接続されている。回路305は、画素に積和演算用の電位を供給する機能を有する。選択機能を有する回路には、シフトレジスタまたはデコーダなどを用いることができる。回路306は配線113を介して画素ブロック200に電気的に接続されている。なお、回路301、302は、外部に設けられていてもよい。
画素アレイ300は、複数の画素ブロック200を有する。画素ブロック200は、図6に示すように、マトリクス状に配置された複数の画素100を有し、それぞれの画素100は、配線112を介して回路201と電気的に接続される。なお、回路201は画素ブロック200内に設けることもできる。
また、画素100は、隣接する画素100とトランジスタ150(トランジスタ150g乃至150j)を介して電気的に接続される。トランジスタ150の機能は後述する。
画素100では、画像データの取得および画像データと重み係数とを加算したデータを生成することができる。なお、図6においては、一例として画素ブロック200が有する画素数を3×3としているが、これに限らない。例えば、2×2、4×4などとすることができる。または、水平方向と垂直方向の画素数が異なっていてもよい。また、一部の画素を隣り合う画素ブロックで共有してもよい。
画素ブロック200および回路201は、積和演算回路として動作させることができる。
画素100は、図7に示すように、光電変換デバイス101と、トランジスタ102と、トランジスタ103と、トランジスタ104と、トランジスタ105と、トランジスタ106と、キャパシタ107を有することができる。
光電変換デバイス101の一方の電極は、トランジスタ102のソースまたはドレインの一方と電気的に接続される。トランジスタ102のソースまたはドレインの他方は、トランジスタ103のソースまたはドレインの一方、トランジスタ104のゲートおよびキャパシタ107の一方の電極と電気的に接続される。トランジスタ104のソースまたはドレインの一方は、トランジスタ105のソースまたはドレインの一方と電気的に接続される。キャパシタ107の他方の電極は、トランジスタ106のソースまたはドレインの一方と電気的に接続される。
光電変換デバイス101の他方の電極は、配線114と電気的に接続される。トランジスタ103のソースまたはドレインの他方は、配線115と電気的に接続される。トランジスタ105のソースまたはドレインの他方は、配線112と電気的に接続される。トランジスタ104のソースまたはドレインの他方は、GND配線などと電気的に接続される。トランジスタ106のソースまたはドレインの他方は、配線111と電気的に接続される。キャパシタ107の他方の電極は、配線117と電気的に接続される。
トランジスタ102のゲートは、配線121と電気的に接続される。トランジスタ103のゲートは、配線122と電気的に接続される。トランジスタ105のゲートは、配線123と電気的に接続される。トランジスタ106のゲートは、配線124と電気的に接続される。
ここで、トランジスタ102のソースまたはドレインの他方と、トランジスタ103のソースまたはドレインの一方と、キャパシタ107の一方の電極と、トランジスタ104のゲートとの電気的な接続点をノードFDとする。また、キャパシタ107の他方の電極と、トランジスタ106のソースまたはドレインの一方との電気的な接続点をノードFDWとする。
配線114、115は、電源線としての機能を有することができる。例えば、配線114は高電位電源線、配線115は低電位電源線として機能させることができる。配線121、122、123、124は、各トランジスタの導通を制御する信号線として機能させることができる。配線111は、画素100に重み係数に相当する電位を供給する配線として機能させることができる。配線112は、画素100と回路201とを電気的に接続する配線として機能させることができる。配線117は、当該画素のキャパシタ107の他方の電極と、別の画素のキャパシタ107の他方の電極とをトランジスタ150を介して電気的に接続する配線として機能することができる(図6参照)。
なお、配線112には、増幅回路またはゲイン調整回路が電気的に接続されていてもよい。
光電変換デバイス101としては、フォトダイオードを用いることができる。フォトダイオードの種類は問わず、シリコンを光電変換層に有するSiフォトダイオード、有機光導電膜を光電変換層に有する有機フォトダイオードなどを用いることができる。なお、低照度時の光検出感度を高めたい場合は、アバランシェフォトダイオードを用いることが好ましい。
トランジスタ102は、ノードFDの電位を制御する機能を有することができる。トランジスタ103は、ノードFDの電位を初期化する機能を有することができる。トランジスタ104は、ノードFDの電位に応じて回路201が流す電流を制御する機能を有することができる。トランジスタ105は、画素を選択する機能を有することができる。トランジスタ106は、ノードFDWに重み係数に相当する電位を供給する機能を有することができる。
光電変換デバイス101にアバランシェフォトダイオードを用いる場合は、高電圧を印加することがあり、光電変換デバイス101と接続されるトランジスタには高耐圧のトランジスタを用いることが好ましい。高耐圧のトランジスタには、例えば、チャネル形成領域に金属酸化物を用いたトランジスタ(以下、OSトランジスタ)などを用いることができる。具体的には、トランジスタ102にOSトランジスタを適用することが好ましい。
また、OSトランジスタは、オフ電流が極めて低い特性も有する。トランジスタ102、103、106にOSトランジスタを用いることによって、ノードFDおよびノードFDWで電荷を保持できる期間を極めて長くすることができる。そのため、回路構成または動作方法を複雑にすることなく、全画素で同時に電荷の蓄積動作を行うグローバルシャッタ方式を適用することができる。また、ノードFDに画像データを保持させつつ、当該画像データを用いた複数回の演算を行うこともできる。
一方、トランジスタ104は、増幅特性が優れていることが望まれる場合がある。また、トランジスタ106は、高速動作が可能な移動度が高いトランジスタを用いることが好ましい場合がある。したがって、トランジスタ104、106には、シリコンをチャネル形成領域に用いたトランジスタ(以下、Siトランジスタ)を適用してもよい。
なお、上記に限らず、OSトランジスタおよびSiトランジスタを任意に組み合わせて適用してもよい。また、全てのトランジスタをOSトランジスタとしてもよい。または、全てのトランジスタをSiトランジスタとしてもよい。Siトランジスタとしては、アモルファスシリコンを有するトランジスタ、結晶性のシリコン(微結晶シリコン、低温ポリシリコン、単結晶シリコン)を有するトランジスタなどが挙げられる。
画素100におけるノードFDの電位は、配線115から供給されるリセット電位および光電変換デバイス101による光電変換で生成される電位(画像データ)が加算された電位で確定される。または、さらに配線111から供給される重み係数に相当する電位が容量結合されて確定される。したがって、トランジスタ105には、画像データに任意の重み係数が加わったデータに応じた電流を流すことができる。
なお、上記は画素100の回路構成の一例であり、光電変換動作に関しては他の回路構成で行うこともできる。
図6に示すように、各画素100は、配線112で互いに電気的に接続される。回路201は、各画素100のトランジスタ104に流れる電流の和を用いて演算を行うことができる。
回路201は、キャパシタ202と、トランジスタ203と、トランジスタ204と、トランジスタ205と、トランジスタ206と、抵抗207を有する。
キャパシタ202の一方の電極は、トランジスタ203のソースまたはドレインの一方と電気的に接続される。トランジスタ203のソースまたはドレインの一方は、トランジスタ204のゲートと電気的に接続される。トランジスタ204のソースまたはドレインの一方は、トランジスタ205のソースまたはドレインの一方と電気的に接続される。トランジスタ205のソースまたはドレインの一方は、トランジスタ206のソースまたはドレインの一方と電気的に接続される。抵抗207の一方の電極は、キャパシタ202の他方の電極と電気的に接続される。
キャパシタ202の他方の電極は、配線112と電気的に接続される。トランジスタ203のソースまたはドレインの他方は、配線218と電気的に接続される。トランジスタ204のソースまたはドレインの他方は、配線219と電気的に接続される。トランジスタ205のソースまたはドレインの他方は、GND配線などの基準電源線と電気的に接続される。トランジスタ206のソースまたはドレインの他方は、配線212と電気的に接続される。抵抗207の他方の電極は、配線217と電気的に接続される。
配線217、218、219は、電源線としての機能を有することができる。例えば、配線218は、読み出し用の専用電位を供給する配線としての機能を有することができる。配線217、219は、高電位電源線として機能させることができる。配線213、215、216は、各トランジスタの導通を制御する信号線として機能させることができる。配線212は出力線であり、例えば、図5に示す回路301と電気的に接続することができる。
トランジスタ203は、配線211の電位を配線218の電位にリセットする機能を有することができる。配線211はキャパシタ202の一方の電極と、トランジスタ203のソースまたはドレインの一方と、トランジスタ204のゲートと接続される配線である。トランジスタ204、205は、ソースフォロア回路としての機能を有することができる。トランジスタ206は、読み出しを制御する機能を有することができる。なお、回路201は、相関二重サンプリング回路(CDS回路)としての機能を有し、当該機能を有する他の構成の回路に置き換えることもできる。
本発明の一態様では、画像データ(X)と重み係数(W)との積以外のオフセット成分を除去し、目的のWXを抽出する。WXは、同じ画素に対して、撮像あり、なしのデータと、そのそれぞれに対して、重みを加えたときのデータを利用して算出することができる。
撮像ありのときに画素100に流れる電流(I)の合計はkΣ(X−Vth、重みを加えたときに画素100に流れる電流(I)の合計はkΣ(W+X−Vthとなる。また、撮像なしのときに画素100に流れる電流(Iref)の合計はkΣ(0−Vth、重みを加えたときに画素100に流れる電流(Iref)の合計はkΣ(W−Vthとなる。ここで、kは定数、Vthはトランジスタ105のしきい値電圧である。
まず、撮像ありのデータと、当該データに重みを加えたデータとの差分(データA)を算出する。kΣ((X−Vth−(W+X−Vth)=kΣ(−W−2W・X+2W・Vth)となる。
次に、撮像なしのデータと、当該データに重みを加えたデータとの差分(データB)を算出する。kΣ((0−Vth−(W−Vth)=kΣ(−W+2W・Vth)となる。
そして、データAとデータBとの差分をとる。kΣ(−W−2W・X+2W・Vth−(−W+2W・Vth))=kΣ(−2W・X)となる。すなわち、画像データ(X)と重み係数(W)との積以外のオフセット成分を除去することができる。
回路201では、データAおよびデータBを読み出すことができる。なお、データAとデータBとの差分演算は、例えば回路301で行うことができる。
ここで、画素ブロック200全体に供給される重みはフィルタとして機能する。当該フィルタとしては、例えば、畳み込みニューラルネットワーク(CNN)の畳み込みフィルタを用いることができる。または、エッジ抽出フィルタなどの画像処理フィルタを用いることができる。エッジ抽出フィルタとしては、例えば、図8Aに示すラプラシアンフィルタ、図8Bに示すプレウィットフィルタ、図8Cに示すソーベルフィルタなどを一例として挙げることができる。
画素ブロック200が有する画素100の数が3×3の場合、上記エッジ抽出フィルタの要素を重みとして各画素100に割り振って供給することができる。前述したように、データAおよびデータBを算出するためには、撮像あり、なしのデータと、そのそれぞれに対して、重みを加えたときのデータを利用して算出することができる。ここで、撮像あり、なしのデータは、重みを加えないデータであり、全ての画素100に重み0を加えたデータと換言することもできる。
図8A乃至図8Cに例示したエッジ抽出フィルタは、フィルタの要素(重み:ΔW)の和(ΣΔW/N、Nは要素の数)が0となるフィルタである。したがって、新たに他の回路からΔW=0を供給する動作を行わなくても、ΣΔW/Nを取得する動作を行えば、全ての画素100にΔW=0相当を加えたデータを取得することができる。
当該動作は、画素100間に設けたトランジスタ150(トランジスタ150a乃至150f)を導通させることに相当する(図6参照)。トランジスタ150を導通させることで、各画素100のノードFDWは、配線117を介してすべて短絡する。このとき、各画素100のノードFDWに蓄積されていた電荷は再分配され、図8A乃至図8Cに例示したエッジ抽出フィルタを用いた場合には、ノードFDWの電位(ΔW)は0または略0となる。したがって、ΔW=0相当を加えたデータを取得することができる。
なお、画素アレイ300の外側にある回路から電荷を供給して重み(ΔW)を書き換える場合は、距離の長い配線111の容量などが起因し、書き換え完了までに時間を要する。一方で、画素ブロック200は微小な領域であり、配線117の距離も短く容量も小さい。したがって、画素ブロック200内のノードFDWに蓄積されていた電荷の再分配を行う動作では、高速に重み(ΔW)を書き換えることができる。
図6に示す画素ブロック200では、トランジスタ150a乃至150fがそれぞれ異なるゲート線(配線113a乃至113f)と電気的に接続された構成を示している。当該構成では、トランジスタ150a乃至150fの導通を独立して制御することができ、ΣΔW/Nを取得する動作を選択的に行うことができる。また、図6ではトランジスタ150g乃至トランジスタ150jがそれぞれ異なるゲート線(113g乃至113i)と電気的に接続された構成を示している。
例えば、図8B、図8Cなどに示すフィルタを用いた場合は、初期にΔW=0が供給されている画素がある。ΣΔW/N=0であることを前提とする場合、ΔW=0が供給されている画素は和の対象となる画素から除外してもよい。当該画素を除外することで、トランジスタ150a乃至150fの一部を動作させるための電位の供給が不要となるため、消費電力を抑えることができる。なお、図6および図8では、画素100間に9個のトランジスタ150(トランジスタ150a乃至150f)を設けた例を示したが、さらにトランジスタ150の数を増やしてもよい。また、トランジスタ150g乃至150jにおいては、並列のパスを解消するようにいくつかのトランジスタを省いてもよい。
回路201から出力される積和演算結果のデータは、回路301に順次入力される。回路301には、前述したデータAとデータBとの差分を演算する機能のほかに、様々な演算機能を有していてもよい。例えば、回路301は、回路201と同等の構成とすることができる。または、回路301の機能をソフトウェア処理で代替えしてもよい。
また、回路301は、活性化関数の演算を行う回路を有していてもよい。当該回路には、例えばコンパレータ回路を用いることができる。コンパレータ回路では、入力されたデータと、設定されたしきい値とを比較した結果を2値データとして出力する。すなわち、画素ブロック200および回路301はニューラルネットワークの一部の要素として作用することができる。
回路301から出力されたデータは、回路302に順次入力される。回路302は、例えばラッチ回路およびシフトレジスタなどを有する構成とすることができる。当該構成によって、パラレルシリアル変換を行うことができ、並行して入力されたデータを配線311にシリアルデータとして出力することができる。
配線311の接続先は限定されない。例えば、図1に示すA/D回路13またはニューラルネットワーク部16、などと接続することができる。また、配線311の接続先はFPGA(field−programmable gate array)としてもよい。
次いで、A/D回路13にてフィルタリング後のアナログデータをデジタルデータに変換する(S4)。
次いで、変換後のデジタルデータをメモリ部14(デジタルメモリ部)に保存する(S5)。
次いで、デジタルデータを後段の推論用プログラムが必要とする信号フォーマット(JPEG(登録商標)など)に変換する(S6)。
次いで、変換後のデジタルデータを、CPUなどを用いて畳み込み処理を行い、輪郭、色などを推論し、カラー化する(S7)。CPUに代えてGPU(Graphics Processing Unit)、PMU(Power Management Unit)などと統合した一つのICチップを用いてもよい。そしてカラー化画像データを出力する(S8)。そして日時などの時刻データとともにカラー化画像データを保存する(S9)。保存は大規模記憶装置15、いわゆる大容量記憶装置(ハードディスクなど)またはデータベースに蓄積する。
上記カラー化画像データの取得を繰り返し(動作時)行う。繰り返し行うことでリアルタイムにカラー化を行うこともできる。
こうして得られるカラー化画像データは、カラーフィルタのない撮像素子を用い、ダイナミックレンジの広い白黒画像を基にしているため、従来のカラーフィルタ有りの撮像素子では光量が少なく識別不能な場合においても、識別可能なカラー化画像データを得ることができる。本実施の形態で示した撮像システムは、上述した各ステップ(S4~S9)を1または複数のコンピュータに実現させることができる。
また、リアルタイムカラー化の手段として、潜在変数(特徴量)をcos類似度でモニタし、変動が少なくなるように、光学系により焦点調整を行うことで、撮影中に対象物が動いても、対象物に焦点が合うように調整することが可能となる。
また、抽出された特徴量を使って、推論を行うようにしても良い。推論の結果において、変動が少なくなるように、焦点調整を行ってもよい。例えば人物が推論されたとき、その尤度が一定もしくは大きくなるように焦点調整を行ってもよい。
推論を行うことで、即座に撮像した対象が何か判別することが出来るため、例えば防犯用途においては、対象が危険であると判断された場合、その時点で必要な連絡先へ対象物の報告をスマートフォンなどの携帯情報端末に通知することも可能である。また、焦点がずれていても画像のぼけを除去して鮮鋭化した画像を推論することもできる。
(実施の形態3)
本実施の形態では、実施の形態2で得られるカラー化画像データと比べて、さらにスムーズな画像処理または細かい色付け処理を可能とする例を示す。
図9にフロー図を示す。なお、実施の形態2の図4に示したフロー図と同一のステップには同じ符号を用いる。図4中のS1~S6までと、S8~S9までは同一であるため、ここでは詳細な説明を省略することとする。
図9に示すようにステップS6の後に、変換後のデジタルデータに対して、超解像化処理を第1の学習モデルを用いて複数回行い、輪郭を推論する(S7a)。
そして、超解像化処理後のデジタルデータを第2の学習モデルを用いて、色などを推論し、カラー化する(S7b)。以降のステップは、実施の形態2と同じである。
第2の学習モデルの教師データには、予め、複数回の超解像化処理を行う、または写真画像にアニメーション画像を混ぜる、またはOPENCV drawcontours関数等で輪郭を強調する。なお、写真画像にアニメーション画像を混ぜる割合は、写真画像を2とした場合、アニメーション画像を1とする。アニメーション画像は、イラストの一種であるが、エッジ成分または色成分を多く含む。白黒画像をカラー化する処理においては、畳み込み層でエッジを特徴量として抽出し、該特徴量を基に画像の各領域の色を推論するため、エッジ成分を多く含む画像を教師データとすることは、機械学習の効率化に有効である。アニメーション画像を教師データとすることで、ある一定の基準に到達できるカラー画像を得るための教師データのデータ数を少なくし、機械学習に要する時間を短縮し、ニューラルネットワーク部の構成を簡略化できる。なお、ニューラルネットワーク部は、機械学習の一部である。また、深層学習は、ニューラルネットワーク部の一部である。
本実施の形態のニューラルネットワーク部の学習について以下に示す。
Linux(登録商標)の動作環境下にてPythonを用いてプログラムを作成する。本実施の形態では、Kerasのデータフレームを用いる。Kerasは、深層学習(ディープラーニング)に便利な機能を提供しているライブラリである。特に、ニューラルネットワークの中間層へのデータ読み出し及び書き込み、ニューラルネットワークの重み係数の変更が容易である。また、NumpyのライブラリをPython上で扱うために、Numpyを読み込みする。また、画像加工として、scipyを用いる。
上述した処理に対応するソースコードは図10中のIn[Y1]の行(ただし、Y1は任意の数字であり、プログラムに合わせて変更可能)の下に順に示す。
次にデータを読み込む。本実施の形態の場合、教師データを、解像度の高い画像とする。教師データとは教師あり学習で用いるデータまたはクラス分類されたデータのセットである。上記画像としては、カラー画像または白黒画像を用いることができる。画像は数千枚、数万枚用意することが好ましい。該画像のファイル数が膨大な場合、読み出し処理にて計算負荷がかかるため、例えばh5py形式に変換してから読み込んでも良い。
超解像化処理は、3層の畳み込みニューラルネットワークからなる。例えばPythonでは、kerasのSequentialモデルを用いて、図10中のIn[Y2]の行(ただし、Y2は任意の数字であり、Y1よりも後段であれば、プログラムに合わせて変更可能)の下のように記述することができる。尚、In[Y2]では33×33ピクセルの画像を入力する例を示す。本実施の形態では、33×33ピクセルの画像の例を示しているが、特に限定されず、2Kサイズ(1920×1080ピクセル)の画像または、4Kサイズ(3840×2160ピクセル)の画像としてもよい。なお、サイズは、解像度であり、入力画像データまたは出力画像データに合わせてニューラルネットワークを設計すればよい。また、入力画像データと出力画像データは異なってもよく、例えば、QHDサイズ(960×540ピクセル)で入力画像データを得た後、2Kサイズの出力画像としてもよい。8Kサイズの入力画像データを固体撮像素子で得る場合、一つ一つの固体撮像素子が得られる光量が少なくなるため、カラーフィルタを用いないほうが、光量を多く得られるため、特に好ましい。
学習時は、教師データの画像に対し、該画像の解像度を低くした画像を、In[Y3]に示すニューラルネットワークに入力する。該解像度を低くする処理は例えばscipyを用いて、図10中のIn[Y3]の行(ただし、Y3は任意の数字であり、Y2よりも後段であれば、プログラムに合わせて変更可能)の下のように記述することができる。ここでは解像度を1/3倍にする処理を示す。
このような教師データとコードを用い、画像を出力できるモデルを作成できる。推論時には該モデルを用い、解像度の低い画像を入力し、解像度の高い画像を出力することができる。本実施の形態で示した撮像システムは、上述した各ステップ(S4~S9)を1または複数のコンピュータに実現させることができる。
上記ニューラルネットワークをGeneratorとしたGaNを用いてもよい。
本実施の形態で得られるカラー化画像データは、実施の形態2の画像データよりも輪郭がスムーズになり、最適なカラー化が行われる。
また、教師画像を独自に用意する場合、例えば珍しい魚の色付けをしたいとき、似た魚の教師画像を使う際、輪郭がぼやけた教師画像しか持ち合わせていない場合にも、この教師画像でカラー化モデルを効果的に学習できる。
(実施の形態4)
 本実施の形態では、本発明の一態様の撮影システムに用いる撮像装置を用いることができる電子機器として、表示機器、パーソナルコンピュータ、記録媒体を備えた画像記憶装置または画像再生装置、携帯電話、携帯型を含むゲーム機、携帯データ端末、電子書籍端末、ビデオカメラ、デジタルスチルカメラ等のカメラ、ゴーグル型ディスプレイ(ヘッドマウントディスプレイ)、ナビゲーションシステム、音響再生装置(カーオーディオ、デジタルオーディオプレイヤー等)、複写機、ファクシミリ、プリンタ、プリンタ複合機、現金自動預け入れ払い機(ATM)、自動販売機などが挙げられる。これら電子機器の具体例を図11に示す。
図11Aは監視カメラであり、筐体951、レンズ952、支持部953等を有する。当該監視カメラにおける画像を取得するため、本発明の一態様の撮影システムを備えることができる。筐体951内にはニューラルネットワーク部を有している。なお、監視カメラとは慣用的な名称であり、用途を限定するものではない。例えば監視カメラとしての機能を有する機器はカメラ、またはビデオカメラとも呼ばれる。監視カメラはカラーフィルタを用いないイメージセンサを用いる。また、実施の形態2または実施の形態3で示したプログラムをソフトウェアプログラムとして組み込み、ニューラルネットワーク部で実行することにより、カラー化された画像データを作成することができる。監視カメラを複数用いる場合において、そのうちの少なくとも1台に本実施の形態の監視カメラを用いる場合、従来の監視カメラでは取得が困難な薄暗い環境下でのカラー画像が取得できるため、従来の監視カメラと組み合わせることにより監視システムが強化できる。
 図11Bも監視カメラであり、支持台954、カメラユニット955、保護カバー956等を有する。カメラユニット955には回転機構などが設けられ、天井に設置することで全周囲の撮像が可能となる。本発明の一態様の監視システムが有する撮像装置として、カメラユニット955を用いることができる。また、カメラユニット955が得たデータを基にカメラユニット955のニューラルネットワーク部が推定することにより、カラー化または超解像化によって撮像された情報から不審者を特定することができる。
 図11Cは、飛行体の一例を示している。図11Cに示す飛行体6500は、プロペラ6501、カメラ6502、およびバッテリ6503などを有し、自律して飛行する機能を有する。
 例えば、カメラ6502で撮影した画像データは、電子部品6504に記憶される。電子部品6504は、画像データを解析し、移動する際の障害物の有無などを察知することができる。カメラ6502としては複数種類の方式の撮像装置を用いてもよい。本発明の一態様の監視システムが有する撮像装置として、カメラ6502を用いることができる。また、カメラ6502が得たデータを基にニューラルネットワーク部が推定することにより、カラー化または超解像化によって撮像された情報から不審者を特定することができる。
 本実施の形態に示す構成、構造、方法などは、他の実施の形態などに示す構成、構造、方法などと適宜組み合わせて用いることができる。
10:データ取得装置、11:固体撮像素子、12:アナログ演算回路、13:A/D回路、14:メモリ部、15:大規模記憶装置、16:ニューラルネットワーク部、17:時刻情報取得装置、18:記憶部、19:表示部、20:画像処理装置、21:撮像システム、100:画素、101:光電変換デバイス、102:トランジスタ、103:トランジスタ、104:トランジスタ、105:トランジスタ、106:トランジスタ、107:キャパシタ、111:配線、112:配線、113a:配線、113f:配線、114:配線、115:配線、117:配線、121:配線、122:配線、123:配線、124:配線、150:トランジスタ、150g:トランジスタ、150h:トランジスタ、150i:トランジスタ、150j:トランジスタ、200:画素ブロック、201:回路、202:キャパシタ、203:トランジスタ、204:トランジスタ、205:トランジスタ、206:トランジスタ、207:抵抗、211:配線、212:配線、213:配線、215:配線、216:配線、217:配線、218:配線、219:配線、300:画素アレイ、301:回路、302:回路、303:回路、304:回路、305:回路、306:回路、311:配線、951:筐体、952:レンズ、953:支持部、954:支持台、955:カメラユニット、956:保護カバー、6500:飛行体、6501:プロペラ、6502:カメラ、6503:バッテリ、6504:電子部品

Claims (6)

  1.  カラーフィルタを有していない固体撮像素子と、記憶装置と、学習装置とを有する撮像システムであり、
     前記固体撮像素子は白黒画像データを取得し、
     前記記憶装置に記憶された教師データを用いて前記学習装置が前記白黒画像データのカラー化を行い、カラー化された画像データを作成する撮像システム。
  2.  請求項1において、前記白黒画像データに対して少なくとも1回の超解像化処理を行う撮像システム。
  3.  請求項1または請求項2において、前記教師データに対して少なくとも1回の超解像化処理を行う撮像システム。
  4.  請求項1乃至3のいずれか一において、前記学習装置で用いる教師データは、カラーの写真画像と、カラーのアニメーション画像とを含む撮像システム。
  5.  請求項1乃至4のいずれか一において、前記白黒画像データは、アナログデータであり、前記カラー化された画像データはデジタルデータである撮像システム。
  6.  防犯カメラを備えた監視システムであり、
     前記防犯カメラは、カラーフィルタを有していない固体撮像素子、学習装置、及び記憶装置を有し、
     前記防犯カメラが人物を検知している間に、前記固体撮像素子が撮像し、前記記憶装置の教師データを用いて前記学習装置の推論によりカラー化された画像データを作成するソフトウェアプログラムを実行する監視システム。
PCT/IB2020/059072 2019-10-11 2020-09-29 撮像システム及び監視システム WO2021070000A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021550721A JPWO2021070000A1 (ja) 2019-10-11 2020-09-29
US17/764,622 US11863728B2 (en) 2019-10-11 2020-09-29 Imaging system and monitoring system with training data that includes a color picture image and a color animation image

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019187705 2019-10-11
JP2019-187705 2019-10-11

Publications (1)

Publication Number Publication Date
WO2021070000A1 true WO2021070000A1 (ja) 2021-04-15

Family

ID=75437092

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2020/059072 WO2021070000A1 (ja) 2019-10-11 2020-09-29 撮像システム及び監視システム

Country Status (3)

Country Link
US (1) US11863728B2 (ja)
JP (1) JPWO2021070000A1 (ja)
WO (1) WO2021070000A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021130593A1 (ja) * 2019-12-27 2021-07-01 株式会社半導体エネルギー研究所 撮像システム
CN114930804A (zh) * 2020-02-14 2022-08-19 索尼集团公司 摄像装置和车辆控制系统
US20220301127A1 (en) * 2021-03-18 2022-09-22 Applied Materials, Inc. Image processing pipeline for optimizing images in machine learning and other applications

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007208481A (ja) * 2006-01-31 2007-08-16 Sogo Keibi Hosho Co Ltd 画像処理装置、監視センタ、監視システム、画像処理方法、および画像処理プログラム
JP2019117559A (ja) * 2017-12-27 2019-07-18 日本放送協会 カラー情報推定モデル生成装置、動画像カラー化装置およびそれらのプログラム
JP2019128889A (ja) * 2018-01-26 2019-08-01 日本放送協会 画像情報変換器およびそのプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5448981B2 (ja) 2009-04-08 2014-03-19 株式会社半導体エネルギー研究所 液晶表示装置の駆動方法
KR101824123B1 (ko) 2009-11-06 2018-02-01 가부시키가이샤 한도오따이 에네루기 켄큐쇼 반도체 장치
US9773832B2 (en) 2014-12-10 2017-09-26 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device and electronic device
CN109478557B (zh) 2016-08-03 2023-07-28 株式会社半导体能源研究所 摄像装置、摄像模块、电子设备及摄像系统
JP7217227B2 (ja) 2017-05-02 2023-02-02 株式会社半導体エネルギー研究所 撮像装置、及び電子機器
KR20200024151A (ko) 2017-07-14 2020-03-06 가부시키가이샤 한도오따이 에네루기 켄큐쇼 촬상 장치 및 전자 기기
KR20210042588A (ko) * 2019-10-10 2021-04-20 엘지전자 주식회사 영상을 압축 또는 복원하기 위한 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007208481A (ja) * 2006-01-31 2007-08-16 Sogo Keibi Hosho Co Ltd 画像処理装置、監視センタ、監視システム、画像処理方法、および画像処理プログラム
JP2019117559A (ja) * 2017-12-27 2019-07-18 日本放送協会 カラー情報推定モデル生成装置、動画像カラー化装置およびそれらのプログラム
JP2019128889A (ja) * 2018-01-26 2019-08-01 日本放送協会 画像情報変換器およびそのプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOBAYASHI YOHEI, SHIRAYAMA SUSUMU: "A method for transferring color to grayscale images.", JOURNAL OF THE INSTITUTE OF IMAGE INFORMATION AND TELEVISION ENGINEERS, vol. 59, no. 5, 1 May 2005 (2005-05-01), pages 769 - 775, XP055817892 *
OYA,TAKAFUMI, MIYATA, TAKAMICHI: "Basic study of automatic colorization of luminance images by learning", PCSJ PICTURE CODING SYMPOSIUM OF JAPAN 2015, 18 November 2015 (2015-11-18), pages 1 - 2 *

Also Published As

Publication number Publication date
US11863728B2 (en) 2024-01-02
US20220417390A1 (en) 2022-12-29
JPWO2021070000A1 (ja) 2021-04-15

Similar Documents

Publication Publication Date Title
WO2021070000A1 (ja) 撮像システム及び監視システム
CN108419023B (zh) 一种生成高动态范围图像的方法以及相关设备
JP2024028531A (ja) 情報処理装置、固体撮像素子および情報処理方法
CN101742101B (zh) 成像设备和成像设备中的显示控制方法
CN105075237A (zh) 图像处理设备、图像处理方法和程序
CN102739953B (zh) 图像处理设备、图像处理方法
US20200344411A1 (en) Context-aware image filtering
EP4116938A1 (en) Image generating device, image generating method, recording medium generating method, learning model generating device, learning model generating method, learning model, data processing device, data processing method, inferring method, electronic instrument, generating method, program, and non-transitory computer-readable medium
JP2010098358A (ja) 撮像素子および撮像装置
CN108769550B (zh) 一种基于dsp的图像显著分析系统及方法
CN104796600B (zh) 图像合成装置和图像合成方法
US20240112404A1 (en) Image modification techniques
CN115061770B (zh) 显示动态壁纸的方法和电子设备
US11546553B2 (en) Image capturing apparatus using learned model, information processing apparatus, methods of controlling respective apparatuses, learned model selection system, and storage medium
CN116744120B (zh) 图像处理方法和电子设备
CN116601668A (zh) 对象分割与特征跟踪
US20080094481A1 (en) Intelligent Multiple Exposure
CN114338958A (zh) 一种图像处理的方法及相关设备
WO2023071933A1 (zh) 相机拍摄参数调整方法、装置及电子设备
US20050134722A1 (en) System and method for indicating exposure information during image capture
JP6099973B2 (ja) 被写体領域追跡装置、その制御方法及びプログラム
CN115988303A (zh) 一种图像传感器电路及图像采集方法
TW202332252A (zh) 多感測器成像彩色校正
WO2023044208A1 (en) Low-power fusion for negative shutter lag capture
CN114255177A (zh) 成像中的曝光控制方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20873893

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2021550721

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20873893

Country of ref document: EP

Kind code of ref document: A1