WO2022014306A1 - 学習方法、画像識別方法、学習装置、及び画像識別システム - Google Patents

学習方法、画像識別方法、学習装置、及び画像識別システム Download PDF

Info

Publication number
WO2022014306A1
WO2022014306A1 PCT/JP2021/024221 JP2021024221W WO2022014306A1 WO 2022014306 A1 WO2022014306 A1 WO 2022014306A1 JP 2021024221 W JP2021024221 W JP 2021024221W WO 2022014306 A1 WO2022014306 A1 WO 2022014306A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
camera
unit
learning
identification
Prior art date
Application number
PCT/JP2021/024221
Other languages
English (en)
French (fr)
Inventor
智 佐藤
育規 石井
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to JP2022536223A priority Critical patent/JPWO2022014306A1/ja
Priority to CN202180048827.8A priority patent/CN115843371A/zh
Publication of WO2022014306A1 publication Critical patent/WO2022014306A1/ja
Priority to US18/089,103 priority patent/US20230134491A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/56Cameras or camera modules comprising electronic image sensors; Control thereof provided with illuminating means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/72Combination of two or more compensation controls
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/74Circuitry for compensating brightness variation in the scene by influencing the scene brightness using illuminating means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10141Special mode during image acquisition
    • G06T2207/10152Varying illumination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present disclosure relates to an image identification method and an image identification system, especially in an environment requiring privacy protection such as at home or indoors, and a learning method and a learning device for creating an image identification model used for the image identification. ..
  • Patent Document 1 by inputting a calculated captured image captured by a light field camera or the like into a classifier, the classifier uses a trained discrimination model to describe an object included in the calculated captured image.
  • An image identification system for identifying an image is disclosed.
  • the calculated captured image multiple images with different viewpoints are superimposed, or the subject image is difficult to focus due to the absence of a lens, and the visual recognition by humans is due to the intentionally created blur. It is a difficult image. Therefore, it is preferable to use the calculated image for constructing an image identification system, especially in an environment where privacy protection is required, such as at home or indoors.
  • Patent Document 1 no measures have been taken against this problem, so it is desirable to improve learning efficiency by implementing effective technical measures.
  • an information processing apparatus acquires calculated imaging information regarding a first camera that captures a blurred image, and the calculated imaging information is the first camera. It is a difference image between the first image including the point light source in the lit state and the second image including the point light source in the off state, and is an image without blur or more blurred than the first camera.
  • a third image captured by a second camera that captures a small image and a correct answer label attached to the third image are acquired, and based on the calculated imaging information and the third image.
  • An image identification model for identifying an image captured by the first camera by generating a fourth image with blur and performing machine learning using the fourth image and the correct answer label. Is to create.
  • a computational imaging camera it is a figure schematically showing the structure of a multi-pinhole camera configured without a lens. It is a figure which shows the positional relationship of a plurality of pinholes in a multi-pinhole camera. It is a figure which shows an example of the image captured by a multi-pinhole camera. It is a figure which shows an example of the image captured by a multi-pinhole camera. It is a flowchart which shows the procedure of the main processing of a learning apparatus.
  • the calculated captured image captured by a light field camera or the like is intentionally created due to the influence of multiple images from different viewpoints being superimposed or the subject image being difficult to focus due to the absence of a lens. This is an image that is difficult for humans to visually recognize. Therefore, it is preferable to use the calculated image for constructing an image identification system, especially in an environment where privacy protection is required, such as at home or indoors.
  • the target area is photographed by a light field camera or the like, and the calculated captured image acquired by the photographing is input to the classifier.
  • the discriminator discriminates the object included in the calculated image using the trained discriminative model. In this way, by shooting the target area with a light field camera or the like that captures the calculated captured image, even if the captured image leaks to the outside, it is difficult for the calculated captured image to be visually recognized by humans. Therefore, the privacy of the subject can be protected.
  • the identification model used by the classifier is created by performing machine learning using a calculated image captured by a light field camera or the like as learning data.
  • an accurate correct label is given to a calculated image captured by a light field camera or the like in machine learning for creating an discriminative model. It's difficult to do. If an erroneous correct label is given to the calculated image for learning, the learning efficiency of machine learning is lowered.
  • the present inventor has an image without blur (hereinafter, "normal image”) instead of a blurred image (hereinafter, “blurred image”) such as a calculated captured image at the stage of accumulating learning data. ), And in the subsequent learning stage, it was proposed to perform machine learning using a blurred image obtained by converting a normal image based on the calculated imaging information of the camera used.
  • normal image an image without blur
  • blurred image a blurred image
  • the image recognition device From another viewpoint of privacy protection, it is also important to reduce the psychological load of the user imaged by the image recognition device. By capturing a blurred image, it can be appealed that the privacy of the subject is protected. However, if the calculated imaging information is set in an area unrelated to the user (manufacturer's factory, etc.), the user's psychological burden is increased due to the suspicion that the manufacturer may be able to restore the normal image from the blurred image. May increase. On the other hand, it is considered that this psychological load can be reduced if the calculated imaging information can be changed by the user himself / herself to be imaged, and the present disclosure was conceived.
  • an information processing apparatus acquires calculated imaging information regarding a first camera that captures a blurred image, and the calculated imaging information is the first camera. It is a difference image between the first image including the point light source in the lit state and the second image including the point light source in the off state, and is an image without blur or more blurred than the first camera.
  • a third image captured by a second camera that captures a small image and a correct answer label attached to the third image are acquired, and based on the calculated imaging information and the third image.
  • An image identification model for identifying an image captured by the first camera by generating a fourth image with blur and performing machine learning using the fourth image and the correct answer label. Is to create.
  • bokeh means that a plurality of images having different viewpoints are superimposed by being imaged by a light field camera, a lensless camera, or the like, or the subject image is difficult to be focused by not using a lens. It indicates a state in which it is difficult for a human to visually recognize due to such an influence, or a state in which the subject is simply out of focus.
  • the "blurred image” means an image that is difficult for humans to visually recognize, or an image in which the subject is out of focus.
  • Large blur means that the degree of difficulty of visual recognition by humans is large, or the degree of out-of-focus of the subject is large, and “small blur” means the degree of difficulty or the said. It means that the degree is small.
  • the “blurred image” means an image that is easily visually recognized by humans or an image in which the subject is in focus.
  • the target area where the subject to be image identification is located is captured by the first camera that captures the blurred image. Therefore, even if the image captured by the first camera leaks to the outside, it is difficult for a human to visually recognize the image, so that the privacy of the subject can be protected.
  • the third image which is the learning data, is captured by the second camera that captures a small or unblurred image. Therefore, since the image is easily visually recognized by humans, an accurate correct label can be easily given to the third image.
  • the calculated imaging information regarding the first camera is a difference image between the first image including the point light source in the lit state and the second image including the point light source in the off state.
  • the calculated imaging information regarding the first camera actually used can be accurately acquired without being affected by a subject other than the point light source.
  • the fourth image used for machine learning can be accurately generated based on the calculated imaging information and the third image. As a result, it is possible to improve the image identification accuracy and the learning efficiency of machine learning while protecting the privacy of the subject.
  • the first camera is a coded aperture camera having a mask having a mask pattern having a different transmission rate for each region, and a mask having a mask pattern in which a plurality of pinholes are formed is a light receiving surface of an image sensor. It may be either a multi-pinhole camera arranged in a light field camera or a light field camera that acquires a light field from a subject.
  • the first camera may not have an optical system for forming an image of light from a subject on an image sensor.
  • the first camera since the first camera does not have an optical system for forming an image of light from the subject on the image sensor, it is possible to intentionally create a blur in the image captured by the first camera. As a result, it becomes more difficult to identify the subject included in the captured image, so that the privacy protection effect of the subject can be further enhanced.
  • the mask can be changed to another mask having a different mask pattern.
  • the calculated imaging information of the first camera also changes by changing the mask, so that the calculated imaging information can be different for each user, for example, by arbitrarily changing the mask by each user. ..
  • the calculated imaging information may be either Point Spread Function or Light Transport Matrix.
  • the information processing apparatus controls the lighting of the point light source, controls the imaging of the first image by the first camera, controls the extinguishing of the point light source, and controls the extinguishing of the point light source. It is preferable to control the image pickup of the second image according to the above.
  • the information processing apparatus controls the operation of the point light source and the first camera, so that the timing of turning on or off the point light source and the timing of imaging by the first camera are accurately synchronized. be able to.
  • the information processing apparatus may perform re-imaging control of the first image and the second image by the first camera.
  • the information processing apparatus when the image quality of the difference image is less than the permissible value, the information processing apparatus performs reimaging control by the first camera to obtain a difference image in which the brightness value of the point light source is appropriately adjusted. You can get it. As a result, it becomes possible to acquire appropriate calculated imaging information regarding the first camera.
  • the information processing apparatus exposes the first camera so that the maximum luminance value is within a predetermined range for each of the first image and the second image in the reimaging control. At least one of the time and gain may be modified.
  • an image captured by a first camera that captures a blurred image is input to the identification unit, and the identification unit learns.
  • the input image is identified based on the completed image identification model, and the result of the identification by the identification unit is output.
  • the image identification model is an image identification model created by the learning method according to the above aspect. ..
  • the target area where the subject to be image identification is located is captured by the first camera that captures the blurred image. Therefore, even if the image captured by the first camera leaks to the outside, it is difficult for a human to visually recognize the image, so that the privacy of the subject can be protected.
  • the third image which is the learning data, is captured by the second camera that captures a small or unblurred image. Therefore, since the image is easily visually recognized by humans, an accurate correct label can be easily given to the third image.
  • the calculated imaging information regarding the first camera is a difference image between the first image including the point light source in the lit state and the second image including the point light source in the off state.
  • the calculated imaging information regarding the first camera actually used can be accurately acquired without being affected by a subject other than the point light source.
  • the fourth image used for machine learning can be accurately generated based on the calculated imaging information and the third image. As a result, it is possible to improve the image identification accuracy and the learning efficiency of machine learning while protecting the privacy of the subject.
  • the learning device includes an acquisition unit that acquires calculated imaging information regarding a first camera that captures a blurred image, and the calculated imaging information is lit, which is captured by the first camera. It is a difference image between the first image including the point light source in the state and the second image including the point light source in the extinguished state, and captures an image without blur or an image with less blur than the first camera.
  • a storage unit that stores a third image captured by the second camera, a correct answer label attached to the third image, and the calculated imaging information acquired by the acquisition unit and read from the storage unit.
  • An image generation unit that generates a fourth image with blur based on the third image, the fourth image generated by the image generation unit, and the correct answer label read from the storage unit are used. It is provided with a learning unit for creating an image identification model for identifying an image captured by the first camera by performing the machine learning.
  • the target area where the subject to be image identification is located is captured by the first camera that captures the blurred image. Therefore, even if the image captured by the first camera leaks to the outside, it is difficult for a human to visually recognize the image, so that the privacy of the subject can be protected.
  • the third image which is the learning data, is captured by the second camera that captures a small or unblurred image. Therefore, since the image is easily visually recognized by humans, an accurate correct label can be easily given to the third image.
  • the calculated imaging information regarding the first camera is a difference image between the first image including the point light source in the lit state and the second image including the point light source in the off state.
  • the calculated imaging information regarding the first camera actually used can be accurately acquired without being affected by a subject other than the point light source.
  • the image synthesizing unit can accurately generate the fourth image used for machine learning based on the calculated imaging information and the third image. As a result, it is possible to improve the image identification accuracy and the learning efficiency of machine learning while protecting the privacy of the subject.
  • the image identification system includes an acquisition unit that acquires calculated imaging information regarding a first camera that captures a blurred image, and the calculated imaging information is captured by the first camera. It is a difference image between the first image including the point light source in the lit state and the second image including the point light source in the off state, and captures an image without blur or an image with less blur than the first camera.
  • a storage unit that stores a third image captured by the second camera, a correct answer label attached to the third image, and the calculated imaging information acquired by the acquisition unit and read from the storage unit.
  • An image generation unit that generates a fourth image with blur based on the third image, the fourth image generated by the image generation unit, and the correct answer label read from the storage unit.
  • a learning unit that creates an image identification model by performing machine learning using it, and an identification unit that identifies an image captured by the first camera based on the image identification model created by the learning unit. It includes an output unit that outputs an identification result by the identification unit.
  • the target area where the subject to be image identification is located is captured by the first camera that captures the blurred image. Therefore, even if the image captured by the first camera leaks to the outside, it is difficult for a human to visually recognize the image, so that the privacy of the subject can be protected.
  • the third image which is the learning data, is captured by the second camera that captures a small or unblurred image. Therefore, since the image is easily visually recognized by humans, an accurate correct label can be easily given to the third image.
  • the calculated imaging information regarding the first camera is a difference image between the first image including the point light source in the lit state and the second image including the point light source in the off state.
  • the calculated imaging information regarding the first camera actually used can be accurately acquired without being affected by a subject other than the point light source.
  • the image synthesizing unit can accurately generate the fourth image used for machine learning based on the calculated imaging information and the third image. As a result, it is possible to improve the image identification accuracy and the learning efficiency of machine learning while protecting the privacy of the subject.
  • the present disclosure can be realized as a computer program for causing a computer to execute each characteristic configuration included in such a method, or can be realized as a device or system operating based on this computer program.
  • a computer program can be distributed as a computer-readable non-volatile recording medium such as a CD-ROM, or can be distributed via a communication network such as the Internet.
  • FIG. 1 is a schematic diagram showing the configuration of the image identification system 10 according to the first embodiment of the present disclosure.
  • the image identification system 10 includes a learning device 20 and an identification device 30.
  • the identification device 30 includes a computational imaging camera 101, an identification unit 106, and an output unit 107.
  • the identification unit 106 includes a processor such as a CPU and a memory such as a semiconductor memory.
  • the output unit 107 is a display device, a speaker, or the like.
  • the learning device 20 has a learning database 102, a calculation imaging information acquisition unit 103, a database correction unit 104, and a learning unit 105.
  • the learning database 102 is a storage unit such as an HDD, SSD, or semiconductor memory.
  • the calculation imaging information acquisition unit 103, the database correction unit 104, and the learning unit 105 are processors such as a CPU.
  • FIG. 2 is a flowchart showing the main processing procedure of the image identification system 10.
  • the flowchart shows the flow of image identification processing by the identification device 30.
  • the calculation imaging camera 101 photographs the target area, and inputs the calculation imaging image obtained by the photographing to the identification unit 106 (step S101).
  • the identification unit 106 identifies the calculated captured image using the trained image identification model (step S102).
  • This image discrimination model is an image discrimination model created by learning by the learning device 20.
  • the output unit 107 outputs the result of identification by the identification unit 106. Details of the processing of each step will be described later.
  • the computational imaging camera 101 captures a computationally captured image that is an image with blur, unlike a normal camera that captures a normal image without blur.
  • the calculated captured image cannot recognize the subject even if a person looks at the captured image itself due to the intentionally created blur, but by performing image processing on the captured calculated captured image, the person recognizes or identifies the image. It is an image that can generate an image that can be identified by 106.
  • FIG. 3 is a diagram schematically showing the structure of a multi-pinhole camera 301 configured without a lens as an example of the computational imaging camera 101.
  • the multi-pinhole camera 301 shown in FIG. 3 has a multi-pinhole mask 301a and an image sensor 301b such as CMOS.
  • the multi-pinhole mask 301a is arranged at a certain distance from the light receiving surface of the image sensor 301b.
  • the multi-pinhole mask 301a has a plurality of pinholes 301aa randomly or evenly spaced.
  • a plurality of pinholes 301aa are also referred to as multi-pinholes.
  • the image sensor 301b acquires an image of the subject 302 through each pinhole 301aa. An image acquired through a pinhole is called a pinhole image.
  • the image sensor 301b acquires a superimposed image in which a plurality of pinhole images are slightly displaced and overlapped (multiple images).
  • the positional relationship of the plurality of pinholes 301aa affects the positional relationship of the plurality of pinhole images projected on the image sensor 301b (that is, the degree of superimposition of multiple images), and the size of the pinholes 301aa is the size of the pinholes. It affects the degree of blurring of the image.
  • the multi-pinhole mask 301a By using the multi-pinhole mask 301a, it is possible to superimpose and acquire a plurality of pinhole images having different positions and degrees of blurring. That is, it is possible to acquire a calculated image in which multiple images and blurs are intentionally created. Therefore, the captured image becomes a multiple image and a blurred image, and it is possible to acquire an image in which the privacy of the subject 302 is protected by these blurs. In addition, by changing the number, position, and size of each pinhole, it is possible to acquire images with different blurring methods.
  • the structure is such that the multi-pinhole mask 301a can be easily attached and detached by the user, and a plurality of types of multi-pinhole masks 301a having different mask patterns are prepared in advance, and the user can freely replace the multi-pinhole mask 301a to be used. It may be configured.
  • FIG. 17A to 17D are schematic views showing the configuration of a multi-pinhole camera 301 in which the user can arbitrarily rotate the mask.
  • FIG. 17A shows an overview of the multi-pinhole camera 301 in which the user can arbitrarily rotate the mask
  • FIG. 17B shows a schematic cross-sectional view thereof.
  • the multi-pinhole camera 301 has a multi-pinhole mask 301a that can rotate with respect to the housing 401, and a grip portion 402 is connected to the multi-pinhole mask 301a.
  • the user can fix or rotate the multi-pinhole mask 301a with respect to the housing 401 by gripping and operating the grip portion 402.
  • a screw may be provided on the grip portion 402, the multi-pinhole mask 301a may be fixed by tightening the screw, and the multi-pinhole mask 301a may be rotatable by loosening the screw.
  • 17C and 17D show a schematic diagram in which the multi-pinhole mask 301a rotates 90 degrees when the grip portion 402 is rotated 90 degrees. In this way, the multi-pinhole mask 301a can be rotated by the user moving the grip portion 402.
  • the multi-pinhole mask 301a may have a pinhole arrangement asymmetrical with respect to rotation, as shown in FIG. 17C. By doing so, it is possible for the user to realize various multi-pinhole patterns by rotating the mask.
  • FIG. 18A and 18B are schematic views showing another configuration example of the multi-pinhole camera 301 in which the user can arbitrarily rotate the mask.
  • FIG. 18A provides an overview of another configuration example of the multi-pinhole camera 301 in which the user can arbitrarily rotate the mask
  • FIG. 18B shows a schematic cross-sectional view thereof.
  • the multi-pinhole mask 301a is fixed to the lens barrel 411.
  • the image sensor 301b is installed in another lens barrel 412, and the lens barrel 411 and the lens barrel 412 are in a rotatable state with a screw configuration.
  • the fixative 413 also has a female screw.
  • FIG. 18C and 18D are schematic views showing that the screwing depth changes and the rotation angle of the multi-pinhole camera 301 changes depending on the screwing position of the fixture 413 into the lens barrel 411.
  • FIG. 18C is a schematic view when the fixture 413 is screwed all the way into the lens barrel 411
  • FIG. 18D is a schematic diagram when the fixture 413 is screwed only halfway through the lens barrel 411.
  • the lens barrel 412 can be screwed all the way into the lens barrel 411.
  • FIG. 18C when the fixture 413 is screwed all the way into the lens barrel 411, the lens barrel 412 can be screwed all the way into the lens barrel 411.
  • FIG. 18C when the fixture 413 is screwed all the way into the lens barrel 411, the lens barrel 412 can be screwed all the way into the lens barrel 411.
  • FIG. 18C when the fixture 413 is screwed all the way into the lens barrel 411, the lens barrel 412 can be screwed all the way into the
  • the lens barrel 412 can be screwed only halfway through the lens barrel 411. Therefore, the screwing depth changes depending on the screwing position of the fixture 413 into the lens barrel 411, and the rotation angle of the multi-pinhole mask 301a can be changed.
  • FIG. 19 is a schematic cross-sectional view of a multi-pinhole camera 301 in which a user can make a hole in an arbitrary portion of the mask 301ab attached in front of the image sensor 301b.
  • the same components as those in FIG. 17 are designated by the same reference numerals, and the description thereof will be omitted.
  • a user can make a plurality of holes in the mask 301ab at an arbitrary position by using a needle or the like to create a multi-pinhole mask having an arbitrary shape.
  • FIG. 20 is a schematic view of a cross section of a multi-pinhole camera 301 having a configuration in which the transmittance of each position in the mask is arbitrarily set by using the spatial light modulator 420.
  • the spatial light modulator 420 is composed of a liquid crystal display or the like, and the transmittance for each pixel can be changed.
  • the spatial light modulator 420 functions as a multi-pinhole mask. The change in transmittance can be controlled by the spatial light modulator control unit (not shown). Therefore, various mask patterns (multi-pinhole patterns) can be realized by the user selecting an arbitrary pattern from a plurality of transmittance patterns prepared in advance.
  • 21 and 22A to 22F are schematic cross-sectional views of the multi-pinhole camera 301 having a configuration in which the mask is deformed by applying an external force.
  • the multi-pinhole mask 301ac is composed of a plurality of masks 301a1, 301a2, 301a3, and each mask has a driving unit (not shown) that independently applies an external force.
  • 22A to 22C are schematic views for explaining the three masks 301a1, 301a2, and 301a3 constituting the multi-pinhole mask 301ac.
  • each mask has a shape in which a fan shape and an annulus are combined.
  • this configuration is an example, and the shape is not limited to a fan shape, and the number of constituent sheets is not limited to three.
  • One or more pinholes are formed in each mask. It is not necessary that a pinhole is formed on the mask.
  • Two pinholes 301aa1 and 301aa2 are formed in the mask 301a1, one pinhole 301aa3 is formed in the mask 301a2, and two pinholes 301aa4 and 301aa5 are formed in the mask 301a3.
  • FIGS. 22D to 22F show three types of multi-pinhole masks 301ac composed of three masks 301a1 to 301a3.
  • the masks having 5 pinholes are configured in FIGS. 22D and 22E, and the masks having 4 pinholes are configured in FIGS. 22F.
  • Such a mask drive unit can be realized by using an ultrasonic motor or a linear motor widely used for autofocus or the like. In this way, the number and position of pinholes in the multi-pinhole mask 301ac can be changed by applying an external force.
  • the multi-pinhole mask may change not only the number and position of pinholes but also their size.
  • 23A to 23C are schematic views for explaining the configuration of the multi-pinhole mask 301ad in the multi-pinhole camera 301 having a configuration in which the mask is deformed by applying an external force.
  • the multi-pinhole mask 301ad has a plurality of pinholes, is made of an elastic material, and has four drive units 421 to 424 that can independently control the four corners. Of course, the number of drive units does not have to be four. By moving each drive unit 421 to 424, the position and size of the pinhole in the multi-pinhole mask 301ad can be changed.
  • FIG. 23B is a schematic diagram showing a state when the drive units 421 to 424 are moved in the same direction.
  • the directions of the arrows shown in the drive units 421 to 424 indicate the drive direction of each drive unit.
  • the multi-pinhole mask 301ad moves in parallel with the driving direction of the driving unit.
  • FIG. 23C is a schematic view showing a state in which the drive units 421 to 424 are moved outward from the central portion of the multi-pinhole mask 301ad.
  • the multi-pinhole mask 301ad is stretched according to its elasticity, so that the size of the pinhole becomes large.
  • Such drive units 421 to 424 can be realized by using an ultrasonic motor or a linear motor widely used for autofocus or the like. In this way, the position and size of the pinholes in the multi-pinhole mask 301ac can be changed by applying an external force.
  • FIG. 4A is a diagram showing the positional relationship of a plurality of pinholes 301aa in the multi-pinhole camera 301.
  • three pinholes 301aa arranged in a straight line are formed.
  • the distance between the leftmost pinhole 301aa and the central pinhole 301aa is set to L1
  • the distance between the central pinhole 301aa and the rightmost pinhole 301aa is set to L2 ( ⁇ L1).
  • FIG. 4B and 4C are diagrams showing an example of an image captured by the multi-pinhole camera 301.
  • FIG. 4B shows an example of a captured image when the distance between the multi-pinhole camera 301 and the subject 302 is relatively long and the subject image is small.
  • FIG. 4C shows an example of a captured image when the distance between the multi-pinhole camera 301 and the subject 302 is relatively short and the subject image is large.
  • a coded aperture camera in which a mask with a mask pattern with different transmittance for each area is placed between the image sensor and the subject.
  • -A light field camera that acquires a light field by arranging a microlens array on the light receiving surface of the image sensor.
  • -A well-known camera such as a compressed sensing camera that weights and adds pixel information in space-time to take an image can also be used.
  • the computational imaging camera 101 does not have an optical system (lens, prism, mirror, etc.) for forming an image of light from a subject on an image sensor.
  • an optical system lens, prism, mirror, etc.
  • the identification unit 106 uses the image identification model, which is the learning result of the learning device 20, to determine the person (behavior, facial expression, etc.) included in the image of the target area captured by the calculation imaging camera 101. Includes), category information of subjects such as automobiles, bicycles, or traffic lights, and location information of each subject.
  • Machine learning such as Deep Learning using a multi-layer neural network may be used for learning to create an image discrimination model.
  • the output unit 107 outputs the result identified by the identification unit 106.
  • This may have an interface unit and present the identification result to the user by an image, text, voice, or the like, or may have a device control unit and change the control method according to the identification result. ..
  • the learning device 20 has a learning database 102, a calculation imaging information acquisition unit 103, a database correction unit 104, and a learning unit 105.
  • the learning device 20 performs learning for creating an image identification model used by the identification unit 106 in correspondence with the calculation imaging information about the calculation imaging camera 101 actually used for imaging the target area.
  • FIG. 5 is a flowchart showing the main processing procedure of the learning device 20 of the image identification system 10.
  • the calculated imaging information acquisition unit 103 acquires calculated imaging information which is information indicating what kind of blurred image is captured by the calculated imaging camera 101 and the mode of the blur (step S201). This is because the calculation imaging camera 101 has a transmission unit and the calculation imaging information acquisition unit 103 has a reception unit, and the calculation imaging information may be exchanged by wire or wirelessly, and the calculation imaging information acquisition unit 103 has an interface. However, the user may input the calculated imaging information to the calculated imaging information acquisition unit 103.
  • a PSF Point Spread Function indicating a two-dimensional calculated imaging state
  • PSF is a transfer function of a camera such as a multi-pinhole camera or a coded aperture camera, and is expressed by the following relationship.
  • y is a calculated image with blur taken by the multi-pinhole camera 301
  • k is PSF
  • x is a normal image taken by a normal camera without blur.
  • * is a convolution operator.
  • LTM Light Transport Matrix
  • indicating four-dimensional or more (two-dimensional on the camera side and two-dimensional or more on the subject side) calculated imaging information may be used instead of PSF.
  • LTM is a transfer function used in light field cameras.
  • the PSF can be acquired by photographing the point light source with the multi-pinhole camera 301.
  • the PSF corresponds to the impulse response of the camera. That is, the captured image itself of the point light source obtained by imaging the point light source with the multi-pinhole camera 301 is PSF as the calculated imaging information of the multi-pinhole camera 301.
  • the database correction unit 104 acquires the normal image without blur contained in the learning database 102, and the learning unit 105 acquires the annotation information included in the learning database 102 (step S202).
  • the database correction unit 104 corrects the learning database 102 by using the calculation imaging information acquired by the calculation imaging information acquisition unit 103 (step S203).
  • the learning database 102 includes a plurality of normal images taken by a normal camera without blur, and what behavior the person is performing in each image. It holds the annotation information (correct answer label) given to each image.
  • it is sufficient to add annotation information to the image taken by that camera, but when acquiring a calculated captured image such as a multi-pinhole camera or a light field camera, a person sees the image.
  • it is difficult to add annotation information because you do not know what is in the picture.
  • the identification accuracy of the identification unit 106 does not increase. Therefore, a database in which annotation information is added in advance to an image taken by a normal camera is held as a learning database 102, and only the captured image is deformed according to the calculated imaging information of the computational imaging camera 101 to perform the calculation.
  • the identification accuracy is improved by creating a learning data set suitable for the image pickup camera 101 and performing the learning process. Therefore, the database correction unit 104 uses the PSF, which is the calculated imaging information acquired by the calculated imaging information acquisition unit 103, with respect to the image z captured by the normal camera prepared in advance, and uses the following corrected image y. To calculate.
  • k indicates the PSF which is the calculated imaging information acquired by the calculated imaging information acquisition unit 103
  • * indicates the convolution operator
  • the learning unit 105 performs a learning process by using the corrected image thus calculated by the database correction unit 104 and the annotation information acquired from the learning database 102 (step S204). For example, when the identification unit 106 is constructed by a multi-layer neural network, machine learning by deep learning is performed using the corrected image and annotation information as teacher data. As a prediction error correction algorithm, the Back Propagation method or the like may be used. As a result, the learning unit 105 creates an image identification model for the identification unit 106 to identify the image captured by the computational imaging camera 101. Since the corrected image is an image that matches the calculated imaging information of the calculated imaging camera 101, such learning enables learning suitable for the calculated imaging camera 101, and the identification unit 106 can perform high-precision identification processing. ..
  • the target area where the subject 302 to be image-identified is located is imaged by the computational imaging camera 101 (first camera) that captures the computationally captured image which is a blurred image. Will be done. Therefore, even if the image captured by the calculation image camera 101 leaks to the outside, it is difficult for a human to visually recognize the calculation image, so that the privacy of the subject 302 can be protected.
  • the normal image (third image) stored in the learning database 102 is captured by a normal camera (second camera) that captures an image without blur (or an image with less blur than the calculated image). .. Therefore, since the image is easily visually recognized by humans, accurate annotation information (correct label) can be easily added to the normal image. As a result, it is possible to improve the image identification accuracy and the learning efficiency of machine learning while protecting the privacy of the subject 302.
  • any of a coded aperture camera, a multi-pinhole camera, and a light field camera as the calculation imaging camera 101, it is possible to appropriately capture a blurred image that is difficult for humans to visually recognize. Can be done.
  • the computational imaging camera 101 by omitting the optical system that forms an image of the light from the subject 302 on the image sensor 301b, it is possible to intentionally create a blur in the image captured by the computational imaging camera 101. As a result, it becomes more difficult to identify the subject 302 included in the captured image, so that the privacy protection effect of the subject 302 can be further enhanced.
  • the calculated imaging information of the calculated imaging camera 101 also changes by changing the mask. Therefore, for example, each user can arbitrarily change the mask. By changing it, the calculated imaging information can be different for each user. As a result, it becomes difficult for a third party to perform inverse conversion from the corrected image (fourth image) to the normal image (third image), so that the privacy protection effect of the subject 302 can be further enhanced.
  • FIG. 6 is a schematic diagram showing the configuration of the image identification system 11 according to the second embodiment of the present disclosure.
  • the learning device 21 of the image identification system 11 has a control unit 108.
  • the image identification system 11 has a light emitting unit 109 existing in a target area (environment) photographed by the computational imaging camera 101.
  • the light emitting unit 109 is a light source that can be regarded as a point light source existing in the environment, and is, for example, an LED mounted on an electric device or an LED for lighting.
  • the light emitting unit 109 may be made to function by turning on and off only a part of the light of a monitor such as an LED monitor.
  • the control unit 108 controls the light emitting unit 109 and the calculation imaging camera 101, so that the calculation imaging information acquisition unit 103 acquires the calculation imaging information.
  • FIG. 7 is a flowchart showing the main processing procedure of the image identification system 11.
  • the flowchart shows a flow of processing in which the calculation imaging information acquisition unit 103 acquires the calculation imaging information of the calculation imaging camera 101.
  • control unit 108 issues a lighting instruction to the light emitting unit 109 existing in the environment (step S111).
  • the light emitting unit 109 lights up according to the instruction of the control unit 108 (step S112).
  • control unit 108 instructs the computational imaging camera 101 to perform imaging (step S113).
  • the light emitting unit 109 and the calculation imaging camera 101 can operate while synchronizing with each other.
  • the calculation imaging camera 101 performs imaging according to the instruction of the control unit 108 (step S114).
  • the captured image (first image) is input from the computational imaging camera 101 to the computational imaging information acquisition unit 103, and is temporarily held by the computational imaging information acquisition unit 103.
  • control unit 108 issues an instruction to turn off the light to the light emitting unit 109 (step S115).
  • the light emitting unit 109 turns off the light according to the instruction of the control unit 108 (step S116).
  • control unit 108 instructs the computational imaging camera 101 to perform imaging (step S117).
  • the calculation imaging camera 101 performs imaging according to the instruction of the control unit 108 (step S118).
  • the captured image (second image) is input from the computational imaging camera 101 to the computational imaging information acquisition unit 103.
  • the calculated imaging information acquisition unit 103 creates a difference image between the first image and the second image (step S119).
  • the difference image between the first image when the light emitting unit 109 is lit and the second image when the light emitting unit 109 is turned off in this way the image of only the light emitting unit 109 in the lit state is not affected by other subjects in the environment. PSF can be obtained.
  • the calculated imaging information acquisition unit 103 acquires the created difference image as the calculated imaging information of the calculation imaging camera 101 (step S120).
  • the computational imaging camera 101 captures two images of a scene in which the light emitting unit 109 is lit and a scene in which the light emitting unit 109 is turned off. It is desirable that the image taken at this time is taken so that there is as little time difference as possible between the image when the light is on and the image when the light is off.
  • FIG. 8A to 8C are diagrams for explaining the process of creating a difference image.
  • FIG. 8A is an image taken by the calculation imaging camera 101 when the light emitting unit 109 is lit. It can be seen that the luminance value of the light emitting unit 109 is high.
  • FIG. 8B is an image taken by the calculation imaging camera 101 when the light emitting unit 109 is turned off. It can be seen that the luminance value of the light emitting unit 109 is lower than that at the time of lighting.
  • FIG. 8C is a difference obtained by subtracting FIG. 8B, which is an image taken by the calculated imaging camera 101 when the light emitting unit 109 is turned off, from FIG. 8A, which is an image taken by the calculated imaging camera 101 when the light emitting unit 109 is turned on. The image is shown. It can be seen that the PSF can be acquired because only the light emitting unit 109, which is a point light source, is photographed without being affected by the subject other than the light emitting unit 109.
  • PSFs at a plurality of positions may be acquired by using a plurality of light emitting units 109 dispersedly arranged in the environment, and this may be used as the LTM.
  • FIG. 9 is a flowchart showing a procedure of main processing of the calculated imaging information acquisition unit 103 when LTM is used as the calculated imaging information.
  • the PSF corresponding to each light emitting unit 109 is acquired (step S301). As described above, this may be acquired by using the difference image between when the light emitting unit 109 is turned on and when the light emitting unit 109 is turned off. By doing so, it is possible to acquire PSFs at a plurality of positions on the image.
  • FIG. 10 shows a schematic diagram of the plurality of PSFs acquired in this way. In the case of this example, PSF is acquired at 6 points on the image.
  • the calculated imaging information acquisition unit 103 calculates the PSF in all the pixels of the image by performing interpolation processing on the plurality of PSFs acquired in this way, and sets it as an LTM (step S302).
  • interpolation processing general image processing such as morphing may be used.
  • the light emitting unit 109 may be a light of a user's smartphone or a mobile phone. In this case, the user may turn on or off the light emitting unit 109 instead of the control unit 108.
  • a small number of light emitting units 109 may be used instead of arranging a plurality of light emitting units 109, and the position of the light emitting unit 109 may be changed by moving.
  • a light of a smartphone or a mobile phone may be used with the light emitting unit 109, and the user may turn on and off while changing the location.
  • an LED mounted on a moving body such as a drone or a vacuum cleaner robot may be used.
  • the calculated image pickup camera 101 may be installed on a moving body or the like, or the user may change the direction or position to change the position of the light emitting unit 109 on the calculated image pickup image.
  • the calculated image pickup information regarding the calculation image pickup camera 101 includes a first image including a point light source in a lit state and a point light source in a turn-off state. It is a difference image from the image of 2. Therefore, it is possible to accurately acquire the calculated image pickup information about the actually used calculation image pickup camera 101 without being affected by the subject other than the point light source. As a result, the corrected image (fourth image) used for machine learning can be accurately generated based on the calculated imaging information and the normal image (third image).
  • the timing of turning on or off the light emitting unit 109 and the timing of imaging by the calculation imaging camera 101 can be accurately determined. Can be synchronized.
  • FIG. 11 is a schematic diagram showing the configuration of the image identification system 12 according to the third embodiment of the present disclosure.
  • the learning device 22 of the image identification system 12 has a calculated image pickup information determination unit 110.
  • the calculated imaging information determination unit 110 determines the state of the image quality of the calculated imaging information acquired by the calculated imaging information acquisition unit 103.
  • the learning device 22 switches the processing content according to the determination result of the calculation / imaging information determination unit 110.
  • FIG. 12 is a flowchart showing the main processing procedure of the image identification system 12. The flowchart shows the flow of processing before and after the image quality determination processing by the calculation imaging information determination unit 110.
  • the calculated imaging information acquisition unit 103 creates a difference image between the first image when the light emitting unit 109 is lit and the second image when the light emitting unit 109 is turned off by the same method as in step S119 (FIG. 7) of the second embodiment. (Step S121).
  • the calculated imaging information determination unit 110 determines whether or not the image quality of the difference image created by the calculated imaging information acquisition unit 103 is equal to or higher than the allowable value (step S122). Since it is necessary that the PSF does not show anything other than the point light source, the difference image between when the light is on and when the light is off is used. However, if there is a change in the scene between shooting when the light is on and shooting when the light is off, such as when a person moves significantly or the brightness in the environment changes dramatically, the change appears in the difference image. Therefore, it becomes impossible to obtain an accurate PSF.
  • the calculated imaging information determination unit 110 counts the number of pixels having a certain value or more in the difference image, and if the number of pixels is equal to or more than the threshold value, determines that the image quality of the PSF is less than the allowable value. When the number of pixels is less than the threshold value, it is determined that the image quality of the PSF is equal to or higher than the allowable value.
  • step S122 determines that the image quality of the difference image is less than the permissible value (step S122: NO)
  • the control unit 108 then emits light to the light emitting unit 109 and emits light in order to perform another shooting.
  • An instruction to turn off the light and an instruction to re-imaging the computational imaging camera 101 are given (step S123).
  • the database correction unit 104 acquires the calculation imaging information acquisition unit 103 as the difference image.
  • the learning database 102 is modified by using the calculated image pickup information (PSF) (step S124).
  • the setting of the calculation imaging camera 101 is not appropriate as one of the causes of deterioration of the image quality of the difference image. For example, if the exposure time of the computational imaging camera 101 is too short or the gain of signal amplification is too small, the image becomes dark as a whole and the brightness of the light emitting unit 109 is buried in noise. On the contrary, when the exposure time of the calculated image pickup camera 101 is too long or the gain of signal amplification is too large, the luminance value in the high luminance region in the image is saturated beyond the upper limit of the sensing range, and the light emitting unit 109 The surrounding area becomes so-called overexposure.
  • the calculated imaging information determination unit 110 confirms the maximum luminance value of each image when the light emitting unit 109 is turned on and off, and when it exceeds the upper limit value or is less than the lower limit value (that is, outside the predetermined range). In this case), it may be determined that the image quality of the difference image is less than the allowable value.
  • the brightness of the light emitting unit 109 is saturated beyond the sensing range by the calculated imaging information determination unit 110 determining the image quality of the difference image based on whether the maximum brightness value exceeds the upper limit value for the image when the light emitting unit 109 is lit. It can be determined whether or not it is.
  • the calculated imaging information determination unit 110 determines the image quality of the difference image based on whether or not the maximum brightness value of the image when the light emitting unit 109 is lit is less than the lower limit value. Can be determined.
  • the control unit 108 calculates and captures the image so that the maximum brightness value is within the predetermined range in the re-shooting. It may be controlled to change the setting of the camera 101.
  • FIG. 13 is a flowchart showing the main processing procedure of the image identification system 12. The flowchart shows the flow of processing before and after the image quality determination processing by the calculation imaging information determination unit 110.
  • the calculated imaging information acquisition unit 103 acquires the first image captured by the calculated imaging camera 101 when the light emitting unit 109 is lit (step S131).
  • the calculated imaging information determination unit 110 confirms whether or not the maximum brightness value of the first image acquired by the calculated imaging information acquisition unit 103 exceeds the upper limit value Th1 to determine whether the brightness of the image is saturated. It is determined whether or not (step S132).
  • step S132 When the maximum brightness value exceeds the upper limit value Th1, that is, when the brightness of the image is saturated (step S132: YES), the control unit 108 then sets the exposure time to the calculation imaging camera 101 to be shorter. Instruct to perform the shooting again (step S133).
  • step S132: NO when the maximum luminance value is the upper limit value Th1 or less (step S132: NO), the calculation imaging information determination unit 110 then has the lower limit value of the maximum luminance value of the first image acquired by the calculation imaging information acquisition unit 103. By confirming whether or not it is less than Th2, it is determined whether or not the brightness of the light emitting unit 109 is buried in noise (step S134).
  • step S134: YES When the maximum luminance value is less than the lower limit Th2, that is, when the luminance of the light emitting unit 109 is buried in noise (step S134: YES), the control unit 108 then increases the exposure time to the calculated imaging camera 101. Then, it is instructed to perform the shooting again (step S135).
  • the maximum luminance value is the lower limit value Th2 or more (step S134: NO)
  • the calculated imaging information determination unit 110 determines the image quality of the first image acquired by the calculated imaging information acquisition unit 103 to be the current exposure time. Is judged to be sufficiently high. In this case, the control unit 108 instructs the light emitting unit 109 to turn off the light, and also instructs the computational imaging camera 101 to take a picture with the current exposure time.
  • the calculated imaging information acquisition unit 103 acquires the second image when the light emitting unit 109 is turned off (step S136).
  • the control unit 108 may control the exposure time of the calculated imaging camera 101 so that the maximum luminance value is within a predetermined range, as in the case of the first image.
  • control unit 108 may change settings other than the exposure time of the calculation imaging camera 101.
  • the gain may be changed.
  • FIG. 14 is a flowchart showing the main processing procedure of the image identification system 12. The flowchart shows the flow of processing before and after the image quality determination processing by the calculation imaging information determination unit 110.
  • step S132 when the maximum brightness value exceeds the upper limit value Th1, that is, when the brightness of the image is saturated (step S132: YES), the control unit 108 then gains the calculation imaging camera 101. Is instructed to be smaller and the shooting is performed again (step S137).
  • step S134 when the maximum luminance value is less than the lower limit value Th2, that is, when the luminance of the light emitting unit 109 is buried in noise (step S134: YES), the control unit 108 then uses the calculation imaging camera 101. Is instructed to increase the gain and perform shooting again (step S138).
  • control unit 108 may control the brightness of the light emitting unit 109 instead of the exposure time or gain of the calculation imaging camera 101. That is, when the calculated imaging information determination unit 110 determines that the brightness of the light emitting unit 109 is saturated, the control unit 108 controls the light emitting unit 109 so as to reduce the brightness. On the contrary, when it is determined by the calculated imaging information determination unit 110 that the brightness of the light emitting unit 109 is buried in noise, the control unit 108 controls the light emitting unit 109 so as to increase the brightness. By increasing the brightness of the light emitting unit 109, the difference in brightness from noise is widened.
  • the control unit 108 selects another light emitting unit existing in the target area and emits another light. You may instruct the unit to emit light or turn off. This is effective in the case of a light source having directivity, because the image quality may inevitably deteriorate depending on the positional relationship between the computational imaging camera 101 and the light emitting unit 109.
  • the control unit 108 when the image quality of the difference image is less than the permissible value, the control unit 108 performs reimaging control by the calculation imaging camera 101, so that the brightness value of the point light source is appropriate. You can get the difference image adjusted to. As a result, it becomes possible to acquire appropriate calculated imaging information regarding the calculated imaging camera 101.
  • control unit 108 can correct at least one of the exposure time and the gain of the calculated imaging camera 101 to acquire a difference image in which the brightness value of the point light source is appropriately adjusted. Become.
  • FIG. 15 is a schematic diagram showing the configuration of the image identification system 13 according to the fourth embodiment of the present disclosure.
  • the learning device 23 of the image identification system 13 has a storage unit 112 in which a plurality of trained image identification models are stored, and a model selection unit 111 that selects one image identification model from the plurality of image identification models.
  • the learning device 23 of the image identification system 13 has a model selection unit 111 instead of learning the learning database 102 modified by the database modification unit 104 by the learning unit 105, and has a plurality of image identification models learned in advance.
  • the optimum image identification model corresponding to the calculated image pickup information of the calculated image pickup camera 101 is selected. For example, when a plurality of types of multi-pin hole masks 301a having different mask patterns are prepared in advance as described above, an image identification model learned by using an image captured with each multi-pin hole mask 301a attached. Is created in advance, and the plurality of image identification models are stored in the storage unit 112. The model selection unit 111 selects one image identification model corresponding to the calculated image pickup information of the calculation image pickup camera 101 from a plurality of image identification models stored in the storage unit 112.
  • FIG. 16 is a flowchart showing a procedure of main processing of the learning device 23 of the image identification system 13.
  • the flowchart shows the flow of processing in which the model selection unit 111 selects an image identification model.
  • the calculated imaging information acquisition unit 103 acquires the calculated imaging information of the calculated imaging camera 101 (step S201).
  • the model selection unit 111 selects one image identification model corresponding to the calculated imaging information acquired by the calculated imaging information acquisition unit 103 from the plurality of image identification models stored in the storage unit 112 (). Step S211). For this, an image identification model learned from various calculated imaging information may be prepared in advance, and an image identification model learned from the calculated imaging information closest to the calculated imaging information may be selected.
  • the image identification model selected in this way is an image identification model suitable for the computational imaging camera 101.
  • the selected image identification model is set in the identification unit 106 as the image identification model used by the identification unit 106.
  • the identification unit 106 enables highly accurate identification processing.
  • the learning device 23 selects one image identification model corresponding to the calculated imaging information of the computational imaging camera 101 from the plurality of trained image identification models. Therefore, since the learning device 23 does not need to perform new learning, the processing load of the learning device 23 can be reduced and the operation of the identification device 30 can be started at an early stage.
  • the learning method and identification method according to the present disclosure are particularly useful for an image identification system in an environment where privacy protection of a subject is required.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

学習装置(20)は、ボケのある画像を撮像する計算撮像カメラ(101)に関する計算撮像情報を取得し、ボケのない又は小さい画像を撮像する通常カメラによって撮像された通常画像と、通常画像に付与されている正解ラベルとを取得し、計算撮像情報と通常画像とに基づいてボケのある画像を生成し、ボケのある画像と正解ラベルとを用いた機械学習を行うことによって、計算撮像カメラ(101)によって撮像された画像を識別するための画像識別モデルを作成する。

Description

学習方法、画像識別方法、学習装置、及び画像識別システム
 本開示は、特に家庭内又は屋内など、プライバシー保護が必要となる環境における画像識別方法及び画像識別システム、並びに、当該画像識別に使用される画像識別モデルを作成するための学習方法及び学習装置に関する。
 下記特許文献1には、ライトフィールドカメラなどによって撮像された計算撮像画像を識別器に入力することにより、識別器が、学習済みの識別モデルを用いて、当該計算撮像画像に含まれている物体を識別する画像識別システムが開示されている。
 計算撮像画像は、視点の異なる複数の画像が重畳され、又は、レンズを使用しないことで被写体像が合焦しにくい等の影響により、意図的に作り出されたボケによって人間による視覚的な認識が困難な画像である。そのため、特に家庭内又は屋内など、プライバシー保護が必要となる環境における画像識別システムの構築のために、計算撮像画像を用いることは好適である。
 一方で、計算撮像画像は人間による視覚的な認識が困難であることから、識別モデルを作成するための機械学習において、ライトフィールドカメラなどによって撮像された計算撮像画像に対して正確な正解ラベルを付与することは困難である。その結果、学習効率が低下する。
 下記特許文献1によると、この課題に対して何ら対策がとられていないため、有効な技術的対策を実現することによって学習効率の向上を図ることが望まれる。
国際公開第2019/054092号
 本開示は、画像識別システムにおいて、被写体のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることが可能な技術を提供することを目的とする。
 本開示の一態様に係る学習方法は、学習装置としての情報処理装置が、ボケのある画像を撮像する第1のカメラに関する計算撮像情報を取得し、前記計算撮像情報は、前記第1のカメラによって撮像された、点灯状態の点光源を含む第1の画像と消灯状態の前記点光源を含む第2の画像との差分画像であり、ボケのない画像又は前記第1のカメラよりもボケの小さい画像を撮像する第2のカメラによって撮像された第3の画像と、前記第3の画像に付与されている正解ラベルとを取得し、前記計算撮像情報と前記第3の画像とに基づいて、ボケのある第4の画像を生成し、前記第4の画像と前記正解ラベルとを用いた機械学習を行うことによって、前記第1のカメラによって撮像された画像を識別するための画像識別モデルを作成するものである。
第1実施形態にかかる画像識別システムの構成を示す模式図である。 画像識別システムの主要な処理の手順を示すフローチャートである。 計算撮像カメラの一例として、レンズレスで構成されたマルチピンホールカメラの構造を模式的に示す図である。 マルチピンホールカメラにおいて複数のピンホールの位置関係を示す図である。 マルチピンホールカメラによる撮像画像の一例を示す図である。 マルチピンホールカメラによる撮像画像の一例を示す図である。 学習装置の主要な処理の手順を示すフローチャートである。 第2実施形態にかかる画像識別システムの構成を示す模式図である。 画像識別システムの主要な処理の手順を示すフローチャートである。 差分画像の作成処理を説明するための図である。 差分画像の作成処理を説明するための図である。 差分画像の作成処理を説明するための図である。 計算撮像情報としてLTMを利用する場合の計算撮像情報取得部の主要な処理の手順を示すフローチャートである。 複数のPSFを示す模式図である。 第3実施形態にかかる画像識別システムの構成を示す模式図である。 画像識別システムの主要な処理の手順を示すフローチャートである。 画像識別システムの主要な処理の手順を示すフローチャートである。 画像識別システムの主要な処理の手順を示すフローチャートである。 第4実施形態にかかる画像識別システムの構成を示す模式図である。 学習装置の主要な処理の手順を示すフローチャートである。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。 変形例に係るマルチピンホールカメラの構成を示す模式図である。
 (本開示の基礎となった知見)
 家庭内又は屋内などにおいて、環境内人物の行動認識や機器操作者の人物認識など、さまざまな認識技術は重要である。近年、物体識別のために、ディープラーニングと呼ばれる技術が注目されている。ディープラーニングとは、多層構造のニューラルネットワークを用いた機械学習であり、大量の学習データを利用することで、従来法と比べて、より高精度な識別性能を実現することが可能である。このような物体識別において、画像情報は特に有効である。入力デバイスにカメラを利用し、画像情報を入力としたディープラーニングを行うことによって、従来の物体識別能力を大幅に向上させるさまざまな手法が提案されている。
 しかし、家庭内などにカメラを配置することは、ハッキングなどにより撮影画像が外部に漏れた場合、プライバシーが侵害されるという課題があった。従って、仮に撮影画像が外部に漏れた場合であっても、被写体のプライバシーを保護するための対策が必要である。
 ライトフィールドカメラなどによって撮像される計算撮像画像は、視点の異なる複数の画像が重畳され、又は、レンズを使用しないことで被写体像が合焦しにくい等の影響により、意図的に作り出されたボケによって人間による視覚的な認識が困難な画像である。そのため、特に家庭内又は屋内など、プライバシー保護が必要となる環境における画像識別システムの構築のために、計算撮像画像を用いることは好適である。
 上記特許文献1に開示された画像識別システムでは、ライトフィールドカメラなどによって対象エリアを撮影し、その撮影によって取得された計算撮像画像を識別器に入力する。これにより、識別器が、学習済みの識別モデルを用いて、当該計算撮像画像に含まれている物体を識別する。このように、計算撮像画像を撮像するライトフィールドカメラなどによって対象エリアを撮影することにより、仮に撮影画像が外部に漏れた場合であっても、計算撮像画像は人間による視覚的な認識が困難であるため、被写体のプライバシーを保護することができる。
 上記特許文献1に開示された画像識別システムにおいて、識別器が用いる識別モデルは、ライトフィールドカメラなどにより撮像された計算撮像画像を学習用データとして用いた機械学習を行うことによって作成される。しかし、計算撮像画像は人間による視覚的な認識が困難であることから、識別モデルを作成するための機械学習において、ライトフィールドカメラなどによって撮像された計算撮像画像に対して正確な正解ラベルを付与することは困難である。学習用の計算撮像画像に対して誤った正解ラベルが付与されてしまうと、機械学習の学習効率が低下する。
 かかる課題を解決すべく、本発明者は、学習用データを蓄積する段階では、計算撮像画像のようなボケのある画像(以下「ボケ画像」)ではなくボケのない画像(以下「通常画像」)を用い、その後の学習段階では、使用カメラの計算撮像情報に基づき通常画像を変換したボケ画像を用いて機械学習を行うことを発案した。これにより、被写体のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることができるとの知見を得て、本開示を想到するに至った。
 また、プライバシー保護の別の観点としては、画像認識装置によって撮像されるユーザの心理的負荷を低減させることも重要である。ボケ画像を撮像することによって、被写体のプライバシーが保護されていることはアピールできる。しかし、ユーザと無関係な領域(メーカの工場等)で計算撮像情報が設定されている場合、メーカであればボケ画像から通常画像を復元できるのではないかという疑念から、ユーザの心理的負荷が増大する可能性がある。一方、撮像されるユーザ自身によって計算撮像情報を変更することができれば、この心理的負荷を低下させることができると考え、本開示を想到するに至った。
 次に、本開示の各態様について説明する。
 本開示の一態様に係る学習方法は、学習装置としての情報処理装置が、ボケのある画像を撮像する第1のカメラに関する計算撮像情報を取得し、前記計算撮像情報は、前記第1のカメラによって撮像された、点灯状態の点光源を含む第1の画像と消灯状態の前記点光源を含む第2の画像との差分画像であり、ボケのない画像又は前記第1のカメラよりもボケの小さい画像を撮像する第2のカメラによって撮像された第3の画像と、前記第3の画像に付与されている正解ラベルとを取得し、前記計算撮像情報と前記第3の画像とに基づいて、ボケのある第4の画像を生成し、前記第4の画像と前記正解ラベルとを用いた機械学習を行うことによって、前記第1のカメラによって撮像された画像を識別するための画像識別モデルを作成するものである。
 本開示において、「ボケ」とは、ライトフィールドカメラ又はレンズレスカメラなどによって撮像されることにより、視点の異なる複数の画像が重畳され、又は、レンズを使用しないことで被写体像が合焦しにくいなどの影響により、人間による視覚的な認識が困難な状態、又は、単純に被写体が合焦していない状態を示す。「ボケのある画像」とは、人間による視覚的な認識が困難な画像、又は、被写体が合焦していない画像を意味する。「ボケが大きい」とは、人間による視覚的な認識の困難度が大きい、又は、被写体が合焦していない度合いが大きいことを意味し、「ボケが小さい」とは、当該困難度又は当該度合いが小さいことを意味する。「ボケのない画像」とは、人間による視覚的な認識が容易な画像、又は、被写体が合焦している画像を意味する。
 この構成によれば、画像識別対象の被写体が所在する対象エリアは、ボケのある画像を撮像する第1のカメラによって撮像される。従って、仮に第1のカメラによる撮像画像が外部に漏れた場合であっても、その画像は人間による視覚的な認識が困難であるため、被写体のプライバシーを保護することができる。また、学習用データである第3の画像は、ボケのない又は小さい画像を撮像する第2のカメラによって撮像される。従って、その画像は人間による視覚的な認識が容易であるため、第3の画像に対して正確な正解ラベルを容易に付与することができる。さらに、第1のカメラに関する計算撮像情報は、点灯状態の点光源を含む第1の画像と、消灯状態の点光源を含む第2の画像との差分画像である。従って、実際に使用される第1のカメラに関する計算撮像情報を、当該点光源以外の被写体の影響を受けずに正確に取得することができる。これにより、機械学習に使用される第4の画像を、当該計算撮像情報と第3の画像とに基づいて正確に生成することができる。その結果、被写体のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることが可能となる。
 上記態様において、前記第1のカメラは、領域ごとに透過率が異なるマスクパターンを有するマスクを備えた符号化開口カメラ、複数のピンホールが形成されたマスクパターンを有するマスクがイメージセンサの受光面に配置されたマルチピンホールカメラ、及び、被写体からのライトフィールドを取得するライトフィールドカメラ、のいずれかであるとよい。
 この構成によれば、第1のカメラとして、符号化開口カメラ、マルチピンホールカメラ、及びライトフィールドカメラのいずれかを用いることによって、人間による視覚的な認識が困難であるボケのある画像を適切に撮像することができる。
 上記態様において、前記第1のカメラは、被写体からの光をイメージセンサ上に結像させる光学系を有しないとよい。
 この構成によれば、第1のカメラは被写体からの光をイメージセンサ上に結像させる光学系を有しないため、第1のカメラによる撮像画像に意図的にボケを作り出すことができる。その結果、当該撮像画像に含まれている被写体の識別がさらに困難となるため、被写体のプライバシーの保護効果をより高めることが可能となる。
 上記態様において、前記マスクは、前記マスクパターンが異なる他のマスクに変更可能であるとよい。
 この構成によれば、マスクを変更することによって第1のカメラの計算撮像情報も変化するため、例えば各ユーザが任意にマスクを変更することにより、ユーザごとに計算撮像情報を異ならせることができる。その結果、第三者による第4の画像から第3の画像への逆変換が困難となるため、被写体のプライバシーの保護効果をより高めることが可能となる。
 上記態様において、前記計算撮像情報は、Point Spread Function、及び、Light Transport Matrixのいずれかであるとよい。
 この構成によれば、PSF及びLTMのいずれかを用いることにより、第1のカメラに関する計算撮像情報を簡易かつ適切に取得することが可能となる。
 上記態様において、前記情報処理装置が、前記点光源の点灯制御を行うとともに前記第1のカメラによる前記第1の画像の撮像制御を行い、前記点光源の消灯制御を行うとともに前記第1のカメラによる前記第2の画像の撮像制御を行うとよい。
 この構成によれば、情報処理装置が点光源及び第1のカメラの動作を制御することにより、点光源の点灯又は消灯のタイミングと、第1のカメラによる撮像のタイミングとを、正確に同期させることができる。
 上記態様において、前記情報処理装置が、前記差分画像の画質が許容値未満である場合に、前記第1のカメラによる前記第1の画像及び前記第2の画像の再撮像制御を行うとよい。
 この構成によれば、差分画像の画質が許容値未満である場合に、情報処理装置が第1のカメラによる再撮像制御を行うことにより、点光源の輝度値が適切に調整された差分画像を取得できる。その結果、第1のカメラに関する適切な計算撮像情報を取得することが可能となる。
 上記態様において、前記情報処理装置は、前記再撮像制御において、前記第1の画像及び前記第2の画像の各々に関して、最大輝度値が所定範囲内となるように、前記第1のカメラの露光時間及びゲインの少なくとも一方を修正するとよい。
 この構成によれば、第1のカメラの露光時間及びゲインの少なくとも一方を修正することにより、再撮像制御によって、点光源の輝度値が適切に調整された差分画像を取得することが可能となる。
 本開示の一態様に係る画像識別方法は、識別部を有する識別装置において、ボケのある画像を撮像する第1のカメラによって撮像された画像を前記識別部に入力し、前記識別部が、学習済みの画像識別モデルに基づいて、入力された前記画像を識別し、前記識別部による識別の結果を出力し、前記画像識別モデルは、上記態様に係る学習方法によって作成された画像識別モデルである。
 この構成によれば、画像識別対象の被写体が所在する対象エリアは、ボケのある画像を撮像する第1のカメラによって撮像される。従って、仮に第1のカメラによる撮像画像が外部に漏れた場合であっても、その画像は人間による視覚的な認識が困難であるため、被写体のプライバシーを保護することができる。また、学習用データである第3の画像は、ボケのない又は小さい画像を撮像する第2のカメラによって撮像される。従って、その画像は人間による視覚的な認識が容易であるため、第3の画像に対して正確な正解ラベルを容易に付与することができる。さらに、第1のカメラに関する計算撮像情報は、点灯状態の点光源を含む第1の画像と、消灯状態の点光源を含む第2の画像との差分画像である。従って、実際に使用される第1のカメラに関する計算撮像情報を、当該点光源以外の被写体の影響を受けずに正確に取得することができる。これにより、機械学習に使用される第4の画像を、当該計算撮像情報と第3の画像とに基づいて正確に生成することができる。その結果、被写体のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることが可能となる。
 本開示の一態様に係る学習装置は、ボケのある画像を撮像する第1のカメラに関する計算撮像情報を取得する取得部と、前記計算撮像情報は、前記第1のカメラによって撮像された、点灯状態の点光源を含む第1の画像と消灯状態の前記点光源を含む第2の画像との差分画像であり、ボケのない画像又は前記第1のカメラよりもボケの小さい画像を撮像する第2のカメラによって撮像された第3の画像と、前記第3の画像に付与されている正解ラベルとを記憶する記憶部と、前記取得部が取得した前記計算撮像情報と前記記憶部から読み出した前記第3の画像とに基づいて、ボケのある第4の画像を生成する画像生成部と、前記画像生成部が生成した前記第4の画像と前記記憶部から読み出した前記正解ラベルとを用いた機械学習を行うことによって、前記第1のカメラによって撮像された画像を識別するための画像識別モデルを作成する学習部と、を備えるものである。
 この構成によれば、画像識別対象の被写体が所在する対象エリアは、ボケのある画像を撮像する第1のカメラによって撮像される。従って、仮に第1のカメラによる撮像画像が外部に漏れた場合であっても、その画像は人間による視覚的な認識が困難であるため、被写体のプライバシーを保護することができる。また、学習用データである第3の画像は、ボケのない又は小さい画像を撮像する第2のカメラによって撮像される。従って、その画像は人間による視覚的な認識が容易であるため、第3の画像に対して正確な正解ラベルを容易に付与することができる。さらに、第1のカメラに関する計算撮像情報は、点灯状態の点光源を含む第1の画像と、消灯状態の点光源を含む第2の画像との差分画像である。従って、実際に使用される第1のカメラに関する計算撮像情報を、当該点光源以外の被写体の影響を受けずに正確に取得することができる。これにより、画像合成部は、機械学習に使用される第4の画像を、当該計算撮像情報と第3の画像とに基づいて正確に生成することができる。その結果、被写体のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることが可能となる。
 本開示の一態様に係る画像識別システムは、ボケのある画像を撮像する第1のカメラに関する計算撮像情報を取得する取得部と、前記計算撮像情報は、前記第1のカメラによって撮像された、点灯状態の点光源を含む第1の画像と消灯状態の前記点光源を含む第2の画像との差分画像であり、ボケのない画像又は前記第1のカメラよりもボケの小さい画像を撮像する第2のカメラによって撮像された第3の画像と、前記第3の画像に付与されている正解ラベルとを記憶する記憶部と、前記取得部が取得した前記計算撮像情報と前記記憶部から読み出した前記第3の画像とに基づいて、ボケのある第4の画像を生成する画像生成部と、前記画像生成部が生成した前記第4の画像と前記記憶部から読み出した前記正解ラベルとを用いた機械学習を行うことによって、画像識別モデルを作成する学習部と、前記第1のカメラによって撮像された画像を、前記学習部が作成した前記画像識別モデルに基づいて識別する識別部と、前記識別部による識別結果を出力する出力部と、を備えるものである。
 この構成によれば、画像識別対象の被写体が所在する対象エリアは、ボケのある画像を撮像する第1のカメラによって撮像される。従って、仮に第1のカメラによる撮像画像が外部に漏れた場合であっても、その画像は人間による視覚的な認識が困難であるため、被写体のプライバシーを保護することができる。また、学習用データである第3の画像は、ボケのない又は小さい画像を撮像する第2のカメラによって撮像される。従って、その画像は人間による視覚的な認識が容易であるため、第3の画像に対して正確な正解ラベルを容易に付与することができる。さらに、第1のカメラに関する計算撮像情報は、点灯状態の点光源を含む第1の画像と、消灯状態の点光源を含む第2の画像との差分画像である。従って、実際に使用される第1のカメラに関する計算撮像情報を、当該点光源以外の被写体の影響を受けずに正確に取得することができる。これにより、画像合成部は、機械学習に使用される第4の画像を、当該計算撮像情報と第3の画像とに基づいて正確に生成することができる。その結果、被写体のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることが可能となる。
 本開示は、このような方法に含まれる特徴的な各構成をコンピュータに実行させるためのコンピュータプログラムとして実現し、あるいは、このコンピュータプログラムに基づいて動作する装置又はシステムとして実現することもできる。また、このようなコンピュータプログラムを、CD-ROM等のコンピュータ読取可能な不揮発性の記録媒体として流通させ、あるいは、インターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。
 なお、以下で説明する実施形態は、いずれも本開示の一具体例を示すものである。以下の実施形態で示される数値、形状、構成要素、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施形態において、各々の内容を組み合わせることもできる。
 以下、本開示の実施形態について、図面を用いて詳細に説明する。なお、異なる図面において同一の符号を付した要素は、同一又は相応する要素を示すものとする。
 (第1実施形態)
 図1は、本開示の第1実施形態にかかる画像識別システム10の構成を示す模式図である。画像識別システム10は、学習装置20と識別装置30とを備えている。識別装置30は、計算撮像カメラ101と、識別部106と、出力部107とを有している。識別部106は、CPUなどのプロセッサ及び半導体メモリなどのメモリを含む。出力部107は、表示装置又はスピーカなどである。また、学習装置20は、学習データベース102と、計算撮像情報取得部103と、データベース修正部104と、学習部105とを有している。学習データベース102は、HDD、SSD、又は半導体メモリなどの記憶部である。計算撮像情報取得部103、データベース修正部104、及び学習部105は、CPUなどのプロセッサである。
 図2は、画像識別システム10の主要な処理の手順を示すフローチャートである。当該フローチャートには、識別装置30による画像の識別処理の流れが示されている。まず計算撮像カメラ101は、対象エリアを撮影し、その撮影によって得られた計算撮像画像を識別部106に入力する(ステップS101)。次に識別部106は、学習済みの画像識別モデルを使用して、当該計算撮像画像を識別する(ステップS102)。この画像識別モデルは、学習装置20による学習によって作成された画像識別モデルである。次に出力部107は、識別部106による識別の結果を出力する。各ステップの処理の詳細については後述する。
 計算撮像カメラ101は、ボケのない通常の画像を撮像する通常のカメラと異なり、ボケのある画像である計算撮像画像を撮像する。計算撮像画像は、意図的に作り出されたボケによって撮像画像自体を人が見ても被写体を認識できないが、撮像した計算撮像画像に対して画像処理を実施することで、人が認識又は識別部106が識別できる画像を生成することができる画像である。
 図3は、計算撮像カメラ101の一例として、レンズレスで構成されたマルチピンホールカメラ301の構造を模式的に示す図である。図3に示すマルチピンホールカメラ301は、マルチピンホールマスク301aと、CMOSなどのイメージセンサ301bとを有する。マルチピンホールマスク301aは、イメージセンサ301bの受光面から一定距離離れて配置されている。マルチピンホールマスク301aは、ランダム又は等間隔に配置された複数のピンホール301aaを有している。複数のピンホール301aaのことを、マルチピンホールとも呼ぶ。イメージセンサ301bは、各ピンホール301aaを通じて被写体302の画像を取得する。ピンホールを通じて取得される画像を、ピンホール画像と呼ぶ。
 各ピンホール301aaの位置及び大きさによって被写体302のピンホール画像は異なるため、イメージセンサ301bは、複数のピンホール画像がわずかにずれて重なり合った状態(多重像)の重畳画像を取得する。複数のピンホール301aaの位置関係は、イメージセンサ301b上に投影される複数のピンホール画像の位置関係(つまり多重像の重畳の度合い)に影響を与え、ピンホール301aaの大きさは、ピンホール画像のボケの度合いに影響を与える。
 マルチピンホールマスク301aを用いることによって、位置及びボケの程度が異なる複数のピンホール画像を重畳して取得することが可能である。つまり、意図的に多重像及びボケが作り出された計算撮像画像を取得することが可能である。そのため、撮影される画像は多重像かつボケ画像となり、これらのボケによって被写体302のプライバシーが保護された画像を取得することができる。また、各ピンホールの数、位置、及び大きさを変えることで、ボケ方の異なる画像を取得することができる。つまり、ユーザによってマルチピンホールマスク301aを容易に脱着できる構造とし、マスクパターンが異なる複数種類のマルチピンホールマスク301aを予め用意しておき、使用するマルチピンホールマスク301aをユーザが自由に交換できる構成としてもよい。
 なお、このようなマスクの変更は、マスクの交換以外にも、
・イメージセンサの前に回動自在に取り付けられているマスクを、ユーザが任意に回転させる、
・イメージセンサの前に取り付けられている板の任意の箇所に、ユーザが穴を開ける、
・空間光変調器などを利用した液晶マスクなどを用いることにより、マスク内の各位置の透過率を任意に設定する、
・ゴムなどの伸縮可能な材質を用いてマスクを成形し、外力の印加によってマスクを物理的に変形させることによって、穴の位置及び大きさを変える、
など、様々な方法で実現できる。以下、これらの変形例について順に説明する。
 <ユーザがマスクを任意に回転させる変形例>
 図17A~17Dは、ユーザが任意にマスクを回転可能なマルチピンホールカメラ301の構成を示す模式図である。図17Aは、ユーザが任意にマスクを回転可能なマルチピンホールカメラ301の概観を示し、図17Bはその断面の模式図を示している。マルチピンホールカメラ301は、その筐体401に対して回転可能なマルチピンホールマスク301aを有し、マルチピンホールマスク301aには把持部402が接続されている。ユーザは、把持部402を把持して操作することにより、筐体401に対してマルチピンホールマスク301aを固定又は回転することが可能である。このような機構は、把持部402にネジを設け、そのネジを締めることでマルチピンホールマスク301aを固定し、ネジを緩めることでマルチピンホールマスク301aを回転可能とすればよい。図17Cおよび図17Dは、把持部402を90度回転させた際に、マルチピンホールマスク301aが90度回転する模式図を示している。このように、この把持部402をユーザが動かすことにより、マルチピンホールマスク301aを回転させることができる。
 また、ユーザが任意にマスクを回転可能なマルチピンホールカメラ301においては、マルチピンホールマスク301aは、図17Cに示すように、回転に対して非対称なピンホール配置としてもかまわない。このようにすることで、ユーザがマスクを回転することで、様々なマルチピンホールパターンを実現することが可能である。
 もちろん、ユーザが任意にマスクを回転可能なマルチピンホールカメラ301の構成は、把持部402を有しない構成であってもかまわない。図18A,18Bは、ユーザが任意にマスクを回転可能なマルチピンホールカメラ301の別の構成例を示した模式図である。図18Aは、ユーザが任意にマスクを回転可能なマルチピンホールカメラ301の別の構成例の概観を示し、図18Bはその断面の模式図を示している。マルチピンホールマスク301aは鏡筒411に固定されている。また、イメージセンサ301bは、別の鏡筒412に設置されており、鏡筒411と鏡筒412とはネジの構成で回転可能な状態となっている。すなわち、鏡筒411の外側に鏡筒412があり、その接合部である鏡筒411の外側にはオスネジが、鏡筒412の内側にはメスネジがきられている。また、鏡筒411のオスネジには、まず、固定具413が装着され、その後、鏡筒412が装着されている。固定具413にも、鏡筒412同様、メスネジがきられている。このような構成とすることで、鏡筒411を鏡筒412へねじ込む際、固定具413の鏡筒411へのねじ込み位置によって、ねじ込みの深さが変化し、マルチピンホールカメラ301の回転角を変更することができる。
 図18C,18Dは、固定具413の鏡筒411へのねじ込み位置によって、ねじ込みの深さが変化し、マルチピンホールカメラ301の回転角が変化することを示す模式図である。図18Cは、固定具413を鏡筒411の奥までねじ込んだ場合の模式図であり、図18Dは、固定具413を鏡筒411の途中までしかねじ込まない場合の模式図である。図18Cに示したように、固定具413を鏡筒411の奥までねじ込んだ場合は、鏡筒412は鏡筒411の奥までねじ込むことができる。一方、図18Dに示したように、固定具413を鏡筒411の途中までしかねじ込まない場合は、鏡筒412は鏡筒411の途中までしかねじ込むことができない。そのため、固定具413の鏡筒411へのねじ込み位置によって、ねじ込みの深さが変化し、マルチピンホールマスク301aの回転角を変化させることができる。
 <ユーザがマスクに穴を開ける変形例>
 図19は、イメージセンサ301bの前に取り付けられているマスク301abの任意の箇所に、ユーザが穴を開けられるマルチピンホールカメラ301の断面の模式図である。図19において、図17と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。マスク301abには当初、ピンホールは存在しない。このマスク301abに、ユーザが針などを用いて任意の箇所に複数の穴を開けることで、任意の形状のマルチピンホールマスクを作成することができる。
 < 空間光変調器を利用し、マスク内の各位置の透過率を任意に設定する変形例>
 図20は、空間光変調器420を利用し、マスク内の各位置の透過率を任意に設定する構成のマルチピンホールカメラ301の断面の模式図である。図20において、図19と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。空間光変調器420は液晶などで構成され、画素ごとの透過率を変更することができる。この空間光変調器420が、マルチピンホールマスクとして機能する。透過率の変更は、図略の空間光変調器制御部によって制御することができる。そのため、事前に用意した複数の透過率パターンから、ユーザが任意のパターンを選択することで、様々なマスクパターン(マルチピンホールパターン)を実現することができる。
 < 外力の印加によってマスクを変形させる変形例>
 図21,22A~22Fは、外力の印加によってマスクを変形する構成のマルチピンホールカメラ301の断面の模式図である。図21において、図19と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。マルチピンホールマスク301acは複数のマスク301a1、301a2,301a3から構成され、各マスクは独立に外力を印加する駆動部(図示せず)を有している。図22A~22Cはマルチピンホールマスク301acを構成する3枚のマスク301a1、301a2,301a3を説明するための模式図である。ここで、各マスクは扇型と円環が組み合わされた形状である。もちろん、この構成は一例であり、形状は扇形に限らず、構成する枚数も3枚に限らない。各マスクには、1個又は複数個のピンホールが形成されている。なお、マスクにはピンホールが形成されていなくても構わない。マスク301a1には2つのピンホール301aa1,301aa2が形成されており、マスク301a2には1つのピンホール301aa3が形成されており、マスク301a3には2つのピンホール301aa4,301aa5が形成されている。これら3つのマスク301a1~301a3を外力の印加によって動かすことで、様々なマルチピンホールパターンを作成することができる。
 図22D~22Fは3枚のマスク301a1~301a3で構成された3種類のマルチピンホールマスク301acを示している。図略の各駆動部が各マスク301a1~301a3を異なる態様で動かすことによって、図22D,22Eでは5個のピンホールを有するマスクが構成され、図22Fでは4個のピンホールを有するマスクが構成されている。このようなマスクの駆動部は、オートフォーカスなどで広く利用されている超音波モータやリニアモータを用いて実現することができる。このように、外力の印加によってマルチピンホールマスク301acにおけるピンホールの数や位置を変化させることができる。
 もちろん、マルチピンホールマスクはピンホールの数や位置だけではなく、その大きさも変化させるようにしても構わない。図23A~23Cは、外力の印加によってマスクを変形する構成のマルチピンホールカメラ301におけるマルチピンホールマスク301adの構成を説明するための模式図である。マルチピンホールマスク301adは複数のピンホールを有し、弾性を有する材質で構成され、四隅を独立に制御可能な4個の駆動部421~424を有する。もちろん、駆動部の数は4個である必要はない。各駆動部421~424を動かすことにより、マルチピンホールマスク301adにおけるピンホールの位置や大きさを変化させることができる。
 図23Bは、駆動部421~424を同じ向きに動かした場合の様子を示した模式図である。この図において、駆動部421~424に示した矢印の向きが、各駆動部の駆動方向を示している。この場合、マルチピンホールマスク301adは駆動部の駆動方向に平行移動する。一方、図23Cは、駆動部421~424をマルチピンホールマスク301adの中心部から外向きの方向に動かした場合の様子を示した模式図である。この場合、マルチピンホールマスク301adは弾性に従って引き延ばされるため、ピンホールのサイズが大きくなる。このような駆動部421~424は、オートフォーカスなどで広く利用されている超音波モータやリニアモータを用いて実現することができる。このように、外力の印加によってマルチピンホールマスク301acにおけるピンホールの位置や大きさを変化させることができる。
 図4Aは、マルチピンホールカメラ301において複数のピンホール301aaの位置関係を示す図である。この例では、直線状に並ぶ3つのピンホール301aaが形成されている。左端のピンホール301aaと中央のピンホール301aaとの間隔はL1に設定されており、中央のピンホール301aaと右端のピンホール301aaとの間隔はL2(<L1)に設定されている。
 図4B及び図4Cは、マルチピンホールカメラ301による撮像画像の一例を示す図である。図4Bには、マルチピンホールカメラ301と被写体302との距離が比較的遠く、被写体像が小さい場合の撮像画像の例を示している。図4Cには、マルチピンホールカメラ301と被写体302との距離が比較的近く、被写体像が大きい場合の撮像画像の例を示している。間隔L1,L2を異ならせたことにより、マルチピンホールカメラ301と被写体302との距離に拘わらず、視点の異なる複数の画像が重畳されることによって複数の被写体像が個別認識不能な態様で重なり合った状態の重畳画像が撮像される。
 計算撮像カメラ101としては、マルチピンホールカメラ301のほかに、
・領域ごとに透過率が異なるマスクパターンを有するマスクがイメージセンサと被写体との間に配置された符号化開口カメラ、
・イメージセンサの受光面にマイクロレンズアレイが配置された構成を有し、ライトフィールドを取得するライトフィールドカメラ、
・時空間で画素情報を重み付け加算して撮像する圧縮センシングカメラ
などの周知のカメラを使用することもできる。
 また、計算撮像カメラ101においては、被写体からの光をイメージセンサ上に結像させるための光学系(レンズ、プリズム、ミラー等)を有しないことが望ましい。光学系を省略することにより、カメラの小型軽量化、コスト削減、及びデザイン性の向上を図ることができるとともに、当該カメラによる撮像画像に意図的にボケを作り出すことができる。
 識別部106は、学習装置20の学習結果である画像識別モデルを利用して、計算撮像カメラ101によって撮像された対象エリアの画像に関して、その画像に含まれている人物(その行動及び表情などを含む)、自動車、自転車、又は信号などの被写体のカテゴリ情報と、各被写体の位置情報とを識別する。画像識別モデルを作成するための学習には、多層ニューラルネットワークを用いたDeep Learningなどの機械学習を利用すればよい。
 出力部107は、前記識別部106が識別した結果を出力する。これは、インターフェイス部を有し、画像、テキスト、又は音声などによって識別結果をユーザに提示してもよいし、機器制御部を有して識別結果によって制御方法を変更するようにしてもかまわない。
 学習装置20は、学習データベース102と、計算撮像情報取得部103と、データベース修正部104と、学習部105とを有する。学習装置20は、実際に対象エリアの撮像に使用される計算撮像カメラ101に関する計算撮像情報に対応させて、識別部106が使用する画像識別モデルを作成するための学習を行う。
 また、図5は、画像識別システム10の学習装置20の主要な処理の手順を示すフローチャートである。
 まず、計算撮像情報取得部103は、計算撮像カメラ101によってどのようなボケ画像が撮像されるのか、そのボケの態様を表す情報である計算撮像情報を取得する(ステップS201)。これは、計算撮像カメラ101が送信部を、計算撮像情報取得部103が受信部を有し、有線または無線で計算撮像情報をやり取りしても構わないし、計算撮像情報取得部103がインターフェイスを有し、ユーザが計算撮像情報取得部103に計算撮像情報を入力するようにしても構わない。
 計算撮像情報としては、例えば、計算撮像カメラ101がマルチピンホールカメラ301であれば、二次元の計算撮像の状態を示すPSF(Point Spread Function)を利用すればよい。PSFは、マルチピンホールカメラ又は符号化開口カメラなどのカメラの伝達関数であり、以下の関係で表現される。
 y=k*x
 ここで、yはマルチピンホールカメラ301で撮影されたボケのある計算撮像画像、kはPSF、xは撮影したシーンをボケのない通常のカメラで撮影した通常画像である。また、*は畳み込み演算子である。
 また、計算撮像情報として、PSFではなく、四次元以上(カメラ側で二次元及び被写体側で二次元以上)の計算撮像情報を示すLTM(Light Transport Matrix)を利用しても構わない。LTMは、ライトフィールドカメラで利用される伝達関数である。
 例えば、計算撮像カメラ101がマルチピンホールカメラ301である場合には、PSFは、点光源をマルチピンホールカメラ301で撮影することで取得することができる。これは、PSFがカメラのインパルス応答に対応することからわかる。つまり、点光源をマルチピンホールカメラ301で撮像することによって得られた点光源の撮像画像そのものが、マルチピンホールカメラ301の計算撮像情報としてのPSFである。ここで、点光源の撮像画像としては点灯時と消灯時との差分画像を使用することが望ましく、これについては後述の第2実施形態にて説明する。
 次に、データベース修正部104は、学習データベース102に含まれるボケのない通常画像を取得し、学習部105は、学習データベース102に含まれるアノテーション情報を取得する(ステップS202)。
 次にデータベース修正部104(画像生成部)は、計算撮像情報取得部103が取得した計算撮像情報を利用して、学習データベース102を修正する(ステップS203)。例えば、識別部106が環境内の人物の行動を識別する場合、学習データベース102は、ボケのない通常のカメラで撮影した複数の通常画像と、各画像において人物がどの位置でどんな行動をしていたかという、各画像に付与されるアノテーション情報(正解ラベル)とを保持している。通常のカメラを利用する場合、そのカメラで撮影した画像に対してアノテーション情報を付与すればよいが、マルチピンホールカメラ又はライトフィールドカメラなど、計算撮像画像を取得する場合、その画像を人が見ても何が写っているかがわからないため、アノテーション情報を付与することが難しい。また、計算撮像カメラ101と大きく異なる通常カメラで撮影した画像で学習処理を実施しても、識別部106は識別精度が高くならない。そこで、通常のカメラで撮影した画像に対して事前にアノテーション情報を付与したデータベースを学習データベース102として保持し、計算撮像カメラ101の計算撮像情報に合わせて撮影画像のみを変形させることで、その計算撮像カメラ101に合わせた学習データセットを作成し、学習処理を実施することで識別精度を向上させる。そのために、データベース修正部104は、事前に用意した通常のカメラでの撮影画像zに対して、計算撮像情報取得部103が取得した計算撮像情報であるPSFを利用して、以下の補正画像yを計算する。
 y=k*z
 ここで、kは計算撮像情報取得部103が取得した計算撮像情報であるPSFを示しており、*は畳み込み演算子を示している。
 学習部105は、こうしてデータベース修正部104で計算した補正画像と、学習データベース102から取得したアノテーション情報とを利用して、学習処理を実施する(ステップS204)。例えば、識別部106が多層のニューラルネットワークによって構築されている場合には、補正画像及びアノテーション情報を教師データとして用いて、Deep Learningによる機械学習を行う。予測誤差の補正アルゴリズムとしては、Back Propagation法などを用いればよい。これにより、学習部105は、計算撮像カメラ101によって撮像された画像を識別部106が識別するための画像識別モデルを作成する。補正画像は、計算撮像カメラ101の計算撮像情報に合致した画像となっているため、こうした学習により、計算撮像カメラ101に適合した学習が可能になり、識別部106は高精度の識別処理ができる。
 本実施形態にかかる画像識別システム10によれば、画像識別対象の被写体302が所在する対象エリアは、ボケのある画像である計算撮像画像を撮像する計算撮像カメラ101(第1のカメラ)によって撮像される。従って、仮に計算撮像カメラ101による撮像画像が外部に漏れた場合であっても、計算撮像画像は人間による視覚的な認識が困難であるため、被写体302のプライバシーを保護することができる。また、学習データベース102に蓄積される通常画像(第3の画像)は、ボケのない画像(又は計算撮像画像よりボケの小さい画像)を撮像する通常のカメラ(第2のカメラ)によって撮像される。従って、その画像は人間による視覚的な認識が容易であるため、通常画像に対して正確なアノテーション情報(正解ラベル)を容易に付与することができる。その結果、被写体302のプライバシーを保護しつつ、画像識別精度の向上及び機械学習の学習効率の向上を図ることが可能となる。
 また、計算撮像カメラ101として、符号化開口カメラ、マルチピンホールカメラ、及びライトフィールドカメラのいずれかを用いることによって、人間による視覚的な認識が困難であるボケのある画像を適切に撮像することができる。
 また、計算撮像カメラ101において、被写体302からの光をイメージセンサ301b上に結像させる光学系を省略することにより、計算撮像カメラ101による撮像画像に意図的にボケを作り出すことができる。その結果、当該撮像画像に含まれている被写体302の識別がさらに困難となるため、被写体302のプライバシーの保護効果をより高めることが可能となる。
 また、使用するマルチピンホールマスク301aをユーザが自由に変更できる構成とした場合には、マスクを変更することによって計算撮像カメラ101の計算撮像情報も変化するため、例えば各ユーザが任意にマスクを変更することにより、ユーザごとに計算撮像情報を異ならせることができる。その結果、第三者による補正画像(第4の画像)から通常画像(第3の画像)への逆変換が困難となるため、被写体302のプライバシーの保護効果をより高めることが可能となる。
 また、計算撮像情報としてPSF及びLTMのいずれかを用いることにより、計算撮像カメラ101に関する計算撮像情報を簡易かつ適切に取得することが可能となる。
 (第2実施形態)
 図6は、本開示の第2実施形態にかかる画像識別システム11の構成を示す模式図である。図6において、図1と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。画像識別システム11の学習装置21は、制御部108を有する。また、画像識別システム11は、計算撮像カメラ101によって撮影される対象エリア(環境)内に存在する発光部109を有する。発光部109は、環境内に存在する点光源とみなせる光源であり、例えば、電気機器に搭載されたLED、又は照明用LEDである。また、LEDモニタなどのモニタの一部の光のみを点灯及び消灯させることにより、発光部109として機能させてもかまわない。制御部108が発光部109及び計算撮像カメラ101を制御することで、計算撮像情報取得部103が計算撮像情報を取得する。
 また、図7は、画像識別システム11の主要な処理の手順を示すフローチャートである。当該フローチャートには、計算撮像情報取得部103が計算撮像カメラ101の計算撮像情報を取得する処理の流れが示されている。
 まず制御部108は、環境内に存在する発光部109に、点灯の指示を出す(ステップS111)。
 次に発光部109は、制御部108の指示にしたがい、点灯を実施する(ステップS112)。
 次に制御部108は、計算撮像カメラ101へ撮像を実施するように指示を出す(ステップS113)。これにより、発光部109及び計算撮像カメラ101は、同期をとりながら動作することができる。
 次に計算撮像カメラ101は、制御部108の指示にしたがい、撮像を実施する(ステップS114)。撮像された画像(第1画像)は、計算撮像カメラ101から計算撮像情報取得部103に入力されて、計算撮像情報取得部103によって一時的に保持される。
 次に制御部108は、発光部109に消灯の指示を出す(ステップS115)。
 次に発光部109は、制御部108の指示にしたがい、消灯を実施する(ステップS116)。
 次に制御部108は、計算撮像カメラ101へ撮像を実施するように指示を出す(ステップS117)。
 次に計算撮像カメラ101は、制御部108の指示にしたがい、撮像を実施する(ステップS118)。撮像された画像(第2画像)は、計算撮像カメラ101から計算撮像情報取得部103に入力される。
 次に計算撮像情報取得部103は、第1画像と第2画像との差分画像を作成する(ステップS119)。このように発光部109の点灯時の第1画像と消灯時の第2画像との差分画像を求めることで、環境内の他の被写体の影響を受けず、点灯状態の発光部109のみの画像であるPSFを取得することができる。
 次に計算撮像情報取得部103は、作成した差分画像を、計算撮像カメラ101の計算撮像情報として取得する(ステップS120)。
 このように計算撮像情報としてPSFを利用する場合、計算撮像カメラ101は、発光部109が点灯しているシーン及び消灯しているシーンの2枚の画像を撮像する。この時撮影する点灯時の画像と消灯時の画像とは、できるだけ時間差がないように撮影することが望ましい。
 図8A~図8Cは、差分画像の作成処理を説明するための図である。図8Aは、発光部109の点灯時に計算撮像カメラ101が撮影した画像である。発光部109の輝度値が高くなっていることがわかる。図8Bは、発光部109の消灯時に計算撮像カメラ101が撮影した画像である。発光部109の輝度値が点灯時と比較して低くなっていることがわかる。図8Cは、発光部109の点灯時に計算撮像カメラ101が撮影した画像である図8Aから、発光部109の消灯時に計算撮像カメラ101が撮影した画像である図8Bを減算することによって得られる差分画像を示している。発光部109以外の被写体に影響されず、点光源である発光部109のみが撮影されるため、PSFが取得できていることがわかる。
 また、計算撮像情報としてLTMを利用する場合には、環境内に分散して配置された複数の発光部109を用い、複数の位置でのPSFを取得し、それをLTMとしてもかまわない。
 図9は、計算撮像情報としてLTMを利用する場合の計算撮像情報取得部103の主要な処理の手順を示すフローチャートである。まず、各発光部109に対応するPSFを取得する(ステップS301)。これは、前述の通り、各発光部109の点灯時と消灯時との差分画像を利用して取得すればよい。このようにすることで、画像上での複数の位置でのPSFを取得することができる。図10はこのようにして取得した複数のPSFの模式図を示している。この例の場合には、画像上の6点でPSFが取得されている。
 計算撮像情報取得部103は、こうして取得した複数のPSFに対して補間処理を実施することで、画像のすべての画素でのPSFを計算し、それをLTMとする(ステップS302)。このような補間処理は、モーフィングなどの一般的な画像処理を利用すればよい。また、発光部109はユーザのスマートフォンや携帯電話のライトでも構わない。この場合、制御部108の代わりに発光部109の点灯や消灯をユーザが実現してもかまわない。
 また、計算撮像情報としてLTMを利用する場合、複数の発光部109を配置するのではなく、少数の発光部109を利用し、移動によって発光部109の位置を変更させるようにしてもかまわない。これは、例えばスマートフォン又は携帯電話のライトを発光部109と利用し、ユーザが場所を変えながら点灯及び消灯を実現してもかまわない。または、ドローン又は掃除機ロボットなどの移動体に搭載されたLEDを利用してもかまわない。または、計算撮像カメラ101を移動体などに設置し、あるいはユーザが向きや位置を変更することで、計算撮像画像上の発光部109の位置を変更させるようにしてもかまわない。
 本実施形態にかかる画像識別システム11によれば、計算撮像カメラ101(第1のカメラ)に関する計算撮像情報は、点灯状態の点光源を含む第1の画像と、消灯状態の点光源を含む第2の画像との差分画像である。従って、実際に使用される計算撮像カメラ101に関する計算撮像情報を、当該点光源以外の被写体の影響を受けずに正確に取得することができる。これにより、機械学習に使用される補正画像(第4の画像)を、当該計算撮像情報と通常画像(第3の画像)とに基づいて正確に生成することができる。
 また、学習装置21の制御部108が発光部109及び計算撮像カメラ101の動作を制御することにより、発光部109の点灯又は消灯のタイミングと、計算撮像カメラ101による撮像のタイミングとを、正確に同期させることができる。
 (第3実施形態)
 図11は、本開示の第3実施形態にかかる画像識別システム12の構成を示す模式図である。図11において、図6と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。画像識別システム12の学習装置22は、計算撮像情報判定部110を有する。計算撮像情報判定部110は、計算撮像情報取得部103が取得した計算撮像情報の画質の状態を判定する。学習装置22は、計算撮像情報判定部110の判定結果に応じて、処理の内容を切り替える。
 また、図12は、画像識別システム12の主要な処理の手順を示すフローチャートである。当該フローチャートには、計算撮像情報判定部110による画質判定処理の前後の処理の流れが示されている。
 まず計算撮像情報取得部103は、上記第2実施形態のステップS119(図7)と同様の手法により、発光部109の点灯時の第1画像と消灯時の第2画像との差分画像を作成する(ステップS121)。
 次に計算撮像情報判定部110は、計算撮像情報取得部103によって作成された差分画像の画質が許容値以上であるか否かを判定する(ステップS122)。PSFには点光源以外のものが写っていない必要があるため、点灯時と消灯時との差分画像が利用される。しかし、点灯時の撮影と消灯時の撮影との間で、人が大きく動く又は環境内の明るさが劇的に変化するなどのシーンの変更があった場合、その変更分が差分画像に表れてしまい、正確なPSFを取得することができなくなる。そこで、計算撮像情報判定部110は、差分画像において一定値以上の輝度を有する画素数をカウントし、その画素数が閾値以上の場合にはPSFの画質は許容値未満であると判定し、その画素数が閾値未満の場合にはPSFの画質は許容値以上であると判定する。
 差分画像の画質は許容値未満であると計算撮像情報判定部110が判定した場合(ステップS122:NO)は、次に制御部108は、再度の撮影を行うべく、発光部109への発光及び消灯の指示と、計算撮像カメラ101への再撮像の指示とを行う(ステップS123)。一方、差分画像の画質は許容値以上であると計算撮像情報判定部110が判定した場合(ステップS122:YES)は、次にデータベース修正部104は、計算撮像情報取得部103が差分画像として取得した計算撮像情報(PSF)を利用して、学習データベース102を修正する(ステップS124)。
 ここで、差分画像の画質が劣化する原因の一つとして、計算撮像カメラ101の設定が適切でないことが考えられる。例えば、計算撮像カメラ101の露光時間が短すぎる場合又は信号増幅のゲインが小さすぎる場合には、画像が全体的に暗くなり、発光部109の輝度がノイズに埋もれてしまう。逆に、計算撮像カメラ101の露光時間が長すぎる場合又は信号増幅のゲインが大きすぎる場合には、画像内の高輝度領域の輝度値がセンシングレンジの上限値を超えて飽和し、発光部109の周囲がいわゆる白飛びの状態となってしまう。そこで、計算撮像情報判定部110は、発光部109の点灯時及び消灯時の各々の画像の最大輝度値を確認し、それが上限値を超える場合又は下限値未満の場合(つまり所定範囲外となる場合)には、差分画像の画質が許容値未満であると判定するようにしてもかまわない。計算撮像情報判定部110が発光部109の点灯時の画像に関して最大輝度値が上限値を超えるかどうかで差分画像の画質を判定することにより、発光部109の輝度がセンシングレンジを超えて飽和しているかどうかを判定できる。また、計算撮像情報判定部110が発光部109の点灯時の画像に関して最大輝度値が下限値未満かどうかで差分画像の画質を判定することにより、発光部109の輝度がノイズに埋もれているかどうかを判定できる。また、発光部109の輝度が飽和している又はノイズに埋もれていると判定された場合には、制御部108は、再撮影において、最大輝度値が上記所定範囲内となるように、計算撮像カメラ101の設定を変更するように制御してもかまわない。
 図13は、画像識別システム12の主要な処理の手順を示すフローチャートである。当該フローチャートには、計算撮像情報判定部110による画質判定処理の前後の処理の流れが示されている。
 まず計算撮像情報取得部103は、発光部109の点灯時に計算撮像カメラ101によって撮像された第1画像を取得する(ステップS131)。
 次に計算撮像情報判定部110は、計算撮像情報取得部103が取得した第1画像の最大輝度値が上限値Th1を超えるか否かを確認することで、その画像の輝度が飽和しているか否かを判定する(ステップS132)。
 最大輝度値が上限値Th1を超えている場合、すなわち画像の輝度が飽和している場合(ステップS132:YES)は、次に制御部108は、計算撮像カメラ101に露光時間をより短くして再度撮影を実施するよう指示する(ステップS133)。一方、最大輝度値が上限値Th1以下である場合(ステップS132:NO)は、次に計算撮像情報判定部110は、計算撮像情報取得部103が取得した第1画像の最大輝度値が下限値Th2未満であるか否かを確認することで、発光部109の輝度がノイズに埋もれているか否かを判定する(ステップS134)。
 最大輝度値が下限値Th2未満である場合、すなわち発光部109の輝度がノイズに埋もれている場合(ステップS134:YES)は、次に制御部108は、計算撮像カメラ101に露光時間をより長くして再度撮影を実施するよう指示する(ステップS135)。一方、最大輝度値が下限値Th2以上である場合(ステップS134:NO)は、次に計算撮像情報判定部110は、計算撮像情報取得部103が取得した第1画像の画質は現状の露光時間で十分に高いと判定する。この場合、制御部108は、発光部109に消灯するよう指示し、また、計算撮像カメラ101に上記現状の露光時間で撮影するよう指示する。これにより、計算撮像情報取得部103は発光部109の消灯時の第2画像を取得する(ステップS136)。なお、制御部108は、取得した第2画像に関しても、上記第1画像と同様に、最大輝度値が所定範囲内となるように計算撮像カメラ101の露光時間を制御してもよい。
 もちろん、制御部108は計算撮像カメラ101の露光時間以外の設定を変更するようにしてもかまわない。例えば、ゲインを変更してもよい。
 図14は、画像識別システム12の主要な処理の手順を示すフローチャートである。当該フローチャートには、計算撮像情報判定部110による画質判定処理の前後の処理の流れが示されている。
 ステップS132の判定において、最大輝度値が上限値Th1を超えている場合、すなわち画像の輝度が飽和している場合(ステップS132:YES)は、次に制御部108は、計算撮像カメラ101にゲインをより小さくして再度撮影を実施するよう指示する(ステップS137)。
 ステップS134の判定において、最大輝度値が下限値Th2未満である場合、すなわち発光部109の輝度がノイズに埋もれている場合(ステップS134:YES)は、次に制御部108は、計算撮像カメラ101にゲインをより大きくして再度撮影を実施するよう指示する(ステップS138)。
 また、制御部108は、計算撮像カメラ101の露光時間又はゲインではなく、発光部109の輝度を制御するようにしてもかまわない。つまり、計算撮像情報判定部110によって発光部109の輝度が飽和していると判定された場合には、制御部108は、輝度を下げるよう発光部109を制御する。逆に、計算撮像情報判定部110によって発光部109の輝度がノイズに埋もれていると判定された場合には、制御部108は、輝度を上げるよう発光部109を制御する。発光部109の輝度を上げることで、ノイズとの輝度差がひろがる。
 また、制御部108は、計算撮像情報判定部110によって差分画像の画質が許容値未満であると判定された場合には、対象エリア内に存在する別の発光部を選択し、当該別の発光部に対して発光及び消灯を指示するようにしてもかまわない。これは、指向性を有する光源の場合、計算撮像カメラ101と発光部109との位置関係によっては、どうしても画質が低下してしまう場合があり、このような場合に有効である。
 本実施形態にかかる画像識別システム12によれば、差分画像の画質が許容値未満である場合に、制御部108が計算撮像カメラ101による再撮像制御を行うことにより、点光源の輝度値が適切に調整された差分画像を取得できる。その結果、計算撮像カメラ101に関する適切な計算撮像情報を取得することが可能となる。
 また、再撮像制御においては、制御部108が計算撮像カメラ101の露光時間及びゲインの少なくとも一方を修正することにより、点光源の輝度値が適切に調整された差分画像を取得することが可能となる。
 (第4実施形態)
 図15は、本開示の第4実施形態にかかる画像識別システム13の構成を示す模式図である。図15において、図1と同じ構成要素に関しては同じ参照符号を付し、説明を省略する。画像識別システム13の学習装置23は、学習済みの複数の画像識別モデルが格納された記憶部112と、当該複数の画像識別モデルの中から一の画像識別モデルを選択するモデル選択部111とを有する。画像識別システム13の学習装置23は、データベース修正部104によって修正された学習データベース102を学習部105が学習するのではなく、モデル選択部111を有し、事前に学習した複数の画像識別モデルの中から、計算撮像カメラ101の計算撮像情報に対応する最適な画像識別モデルを選択する。例えば、上記のようにマスクパターンが異なる複数種類のマルチピンホールマスク301aが予め用意されている場合には、各マルチピンホールマスク301aの装着状態での撮像画像を用いて学習された画像識別モデルが予め作成されて、それら複数の画像識別モデルが記憶部112に格納されている。モデル選択部111は、記憶部112に格納されている複数の画像識別モデルの中から、計算撮像カメラ101の計算撮像情報に対応する一の画像識別モデルを選択する。
 また、図16は、画像識別システム13の学習装置23の主要な処理の手順を示すフローチャートである。当該フローチャートには、モデル選択部111が画像識別モデルを選択する処理の流れが示されている。
 まず、計算撮像情報取得部103は、計算撮像カメラ101の計算撮像情報を取得する(ステップS201)。
 次に、モデル選択部111は、記憶部112に格納されている複数の画像識別モデルの中から、計算撮像情報取得部103が取得した計算撮像情報に対応する一つの画像識別モデルを選択する(ステップS211)。これは、事前に様々な計算撮像情報で学習した画像識別モデルを準備しておき、その計算撮像情報に最も近い計算撮像情報で学習した画像識別モデルを選択するようにすればよい。
 こうして選択された画像識別モデルは、計算撮像カメラ101に適合する画像識別モデルとなっている。選択された画像識別モデルは、識別部106が使用する画像識別モデルとして、識別部106に設定される。識別部106は、当該画像識別モデルを使用することにより、高精度の識別処理が可能となる。
 本実施形態にかかる画像識別システム13によれば、学習装置23は、学習済みの複数の画像識別モデルの中から、計算撮像カメラ101の計算撮像情報に対応する一の画像識別モデルを選択する。従って、学習装置23が新たに学習を行う必要はないため、学習装置23の処理負荷を軽減できるとともに、識別装置30の運用を早期に開始することが可能となる。
 本開示に係る学習方法及び識別方法は、被写体のプライバシー保護が必要な環境での画像識別システムに特に有用である。

Claims (11)

  1.  学習装置としての情報処理装置が、
     ボケのある画像を撮像する第1のカメラに関する計算撮像情報を取得し、
      前記計算撮像情報は、前記第1のカメラによって撮像された、点灯状態の点光源を含む第1の画像と消灯状態の前記点光源を含む第2の画像との差分画像であり、
     ボケのない画像又は前記第1のカメラよりもボケの小さい画像を撮像する第2のカメラによって撮像された第3の画像と、前記第3の画像に付与されている正解ラベルとを取得し、
     前記計算撮像情報と前記第3の画像とに基づいて、ボケのある第4の画像を生成し、
     前記第4の画像と前記正解ラベルとを用いた機械学習を行うことによって、前記第1のカメラによって撮像された画像を識別するための画像識別モデルを作成する、学習方法。
  2.  前記第1のカメラは、
     領域ごとに透過率が異なるマスクパターンを有するマスクを備えた符号化開口カメラ、
     複数のピンホールが形成されたマスクパターンを有するマスクがイメージセンサの受光面に配置されたマルチピンホールカメラ、及び、
     被写体からのライトフィールドを取得するライトフィールドカメラ、
    のいずれかである、請求項1に記載の学習方法。
  3.  前記第1のカメラは、被写体からの光をイメージセンサ上に結像させる光学系を有しない、請求項1又は2に記載の学習方法。
  4.  前記マスクは、前記マスクパターンが異なる他のマスクに変更可能である、請求項2に記載の学習方法。
  5.  前記計算撮像情報は、Point Spread Function、及び、Light Transport Matrixのいずれかである、請求項1~4のいずれか一つに記載の学習方法。
  6.  前記情報処理装置が、前記点光源の点灯制御を行うとともに前記第1のカメラによる前記第1の画像の撮像制御を行い、前記点光源の消灯制御を行うとともに前記第1のカメラによる前記第2の画像の撮像制御を行う、請求項1~5のいずれか一つに記載の学習方法。
  7.  前記情報処理装置が、
     前記差分画像の画質が許容値未満である場合に、前記第1のカメラによる前記第1の画像及び前記第2の画像の再撮像制御を行う、請求項6に記載の学習方法。
  8.  前記情報処理装置は、前記再撮像制御において、前記第1の画像及び前記第2の画像の各々に関して、最大輝度値が所定範囲内となるように、前記第1のカメラの露光時間及びゲインの少なくとも一方を修正する、請求項7に記載の学習方法。
  9.  識別部を有する識別装置において、
     ボケのある画像を撮像する第1のカメラによって撮像された画像を前記識別部に入力し、
     前記識別部が、学習済みの画像識別モデルに基づいて、入力された前記画像を識別し、
     前記識別部による識別の結果を出力し、
     前記画像識別モデルは、請求項1~8のいずれか一つに記載の学習方法によって作成された画像識別モデルである、画像識別方法。
  10.  ボケのある画像を撮像する第1のカメラに関する計算撮像情報を取得する取得部と、
      前記計算撮像情報は、前記第1のカメラによって撮像された、点灯状態の点光源を含む第1の画像と消灯状態の前記点光源を含む第2の画像との差分画像であり、
     ボケのない画像又は前記第1のカメラよりもボケの小さい画像を撮像する第2のカメラによって撮像された第3の画像と、前記第3の画像に付与されている正解ラベルとを記憶する記憶部と、
     前記取得部が取得した前記計算撮像情報と前記記憶部から読み出した前記第3の画像とに基づいて、ボケのある第4の画像を生成する画像生成部と、
     前記画像生成部が生成した前記第4の画像と前記記憶部から読み出した前記正解ラベルとを用いた機械学習を行うことによって、前記第1のカメラによって撮像された画像を識別するための画像識別モデルを作成する学習部と、
    を備える、学習装置。
  11.  ボケのある画像を撮像する第1のカメラに関する計算撮像情報を取得する取得部と、
      前記計算撮像情報は、前記第1のカメラによって撮像された、点灯状態の点光源を含む第1の画像と消灯状態の前記点光源を含む第2の画像との差分画像であり、
     ボケのない画像又は前記第1のカメラよりもボケの小さい画像を撮像する第2のカメラによって撮像された第3の画像と、前記第3の画像に付与されている正解ラベルとを記憶する記憶部と、
     前記取得部が取得した前記計算撮像情報と前記記憶部から読み出した前記第3の画像とに基づいて、ボケのある第4の画像を生成する画像生成部と、
     前記画像生成部が生成した前記第4の画像と前記記憶部から読み出した前記正解ラベルとを用いた機械学習を行うことによって、画像識別モデルを作成する学習部と、
     前記第1のカメラによって撮像された画像を、前記学習部が作成した前記画像識別モデルに基づいて識別する識別部と、
     前記識別部による識別結果を出力する出力部と、
    を備える、画像識別システム。
PCT/JP2021/024221 2020-07-16 2021-06-25 学習方法、画像識別方法、学習装置、及び画像識別システム WO2022014306A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022536223A JPWO2022014306A1 (ja) 2020-07-16 2021-06-25
CN202180048827.8A CN115843371A (zh) 2020-07-16 2021-06-25 学习方法、图像识别方法、学习装置以及图像识别系统
US18/089,103 US20230134491A1 (en) 2020-07-16 2022-12-27 Learning method, image identification method, learning device, and image identification system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020122187 2020-07-16
JP2020-122187 2020-07-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/089,103 Continuation US20230134491A1 (en) 2020-07-16 2022-12-27 Learning method, image identification method, learning device, and image identification system

Publications (1)

Publication Number Publication Date
WO2022014306A1 true WO2022014306A1 (ja) 2022-01-20

Family

ID=79555251

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/024221 WO2022014306A1 (ja) 2020-07-16 2021-06-25 学習方法、画像識別方法、学習装置、及び画像識別システム

Country Status (4)

Country Link
US (1) US20230134491A1 (ja)
JP (1) JPWO2022014306A1 (ja)
CN (1) CN115843371A (ja)
WO (1) WO2022014306A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019054092A1 (ja) * 2017-09-12 2019-03-21 パナソニックIpマネジメント株式会社 画像生成装置及び画像生成方法
JP2019118098A (ja) * 2017-12-26 2019-07-18 キヤノン株式会社 撮像装置及びその制御方法、プログラム、記憶媒体
JP2020095428A (ja) * 2018-12-12 2020-06-18 株式会社東芝 モデル学習システム、モデル学習方法、プログラム、及び記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019054092A1 (ja) * 2017-09-12 2019-03-21 パナソニックIpマネジメント株式会社 画像生成装置及び画像生成方法
JP2019118098A (ja) * 2017-12-26 2019-07-18 キヤノン株式会社 撮像装置及びその制御方法、プログラム、記憶媒体
JP2020095428A (ja) * 2018-12-12 2020-06-18 株式会社東芝 モデル学習システム、モデル学習方法、プログラム、及び記憶媒体

Also Published As

Publication number Publication date
US20230134491A1 (en) 2023-05-04
CN115843371A (zh) 2023-03-24
JPWO2022014306A1 (ja) 2022-01-20

Similar Documents

Publication Publication Date Title
US10455217B2 (en) Electronic apparatus and method of generating depth map
US10382699B2 (en) Imaging system and method of producing images for display apparatus
JP2016114946A (ja) カメラモジュール
JP6003135B2 (ja) 画像処理装置、画像処理方法及び撮像装置
JP6931369B2 (ja) 画像処理装置および画像処理方法、ならびに撮像装置
US20230138710A1 (en) Multi-pinhole camera and image identification system
KR20190002346A (ko) 촬상 제어장치 및 그 제어 방법
TWI472864B (zh) 影像處理裝置及其控制方法
JP2015023512A (ja) 撮影装置、撮影方法及び撮影装置の撮影プログラム
TW201328342A (zh) 自動對焦成像模組及自動對焦方法
JP2009171428A (ja) デジタルカメラ装置および電子ズームの制御方法およびプログラム
WO2020022132A1 (ja) 撮像装置
CN114882543A (zh) 图像处理设备、图像处理方法和计算机可读存储介质
TWI683575B (zh) 一種注視識別及互動方法與裝置
JP5397078B2 (ja) 撮像装置
WO2022014306A1 (ja) 学習方法、画像識別方法、学習装置、及び画像識別システム
JP7293039B2 (ja) 撮像装置およびその制御方法
JP2020057967A (ja) 画像処理装置、撮像装置、画像処理装置の制御方法およびプログラム
WO2023127589A1 (ja) 画像識別システム、画像識別方法、画像識別プログラム及び画像識別プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体
JP6213640B2 (ja) 画像処理装置、画像処理方法、撮像装置、及びシステム
JP2014179937A (ja) 撮像装置、撮像方法および撮像プログラム
US11553128B2 (en) Image pickup control device, image pickup device, control method for image pickup device, non-transitory computer-readable storage medium
JP2014153650A (ja) 撮像装置、制御方法、及び、プログラム
WO2022153692A1 (ja) 制御装置及び制御方法
US20240155093A1 (en) Device, system, camera device, and method for capturing immersive images with improved quality

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21842364

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022536223

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21842364

Country of ref document: EP

Kind code of ref document: A1