WO2021075527A1 - カメラ及びイメージングシステム - Google Patents

カメラ及びイメージングシステム Download PDF

Info

Publication number
WO2021075527A1
WO2021075527A1 PCT/JP2020/039020 JP2020039020W WO2021075527A1 WO 2021075527 A1 WO2021075527 A1 WO 2021075527A1 JP 2020039020 W JP2020039020 W JP 2020039020W WO 2021075527 A1 WO2021075527 A1 WO 2021075527A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
pattern
recognition
subject
camera
Prior art date
Application number
PCT/JP2020/039020
Other languages
English (en)
French (fr)
Inventor
一 長原
カイン トゥオン グエン
Original Assignee
国立大学法人大阪大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人大阪大学 filed Critical 国立大学法人大阪大学
Priority to JP2021552455A priority Critical patent/JPWO2021075527A1/ja
Publication of WO2021075527A1 publication Critical patent/WO2021075527A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/70SSIS architectures; Circuits associated therewith

Definitions

  • the present invention relates to a camera technology capable of protecting privacy by modulating an image of a subject to a level that cannot be recognized as an individual.
  • a camera projects a retinal image, that is, a condensing image that can be understood by a human, on an image sensor through a lens, that is, measures the received brightness at each pixel of the image sensor to digitize and capture an optical image.
  • the captured image data is generally read in the order of raster scan while maintaining a spatial relationship, further transferred via an internet line, for example, and stored as a data file. If information is hacked or leaked during transfer or storage, the content is easily observable.
  • image privacy issues due to such data leaks and unilateral publication by third parties are becoming more serious. For example, social problems such as cases where glasses-type IoT devices equipped with cameras were banned from use in restaurants and the sale was canceled, and cases where a third party requested deletion of images uploaded on SNS also occurred. ing.
  • Patent Document 1 a lensless camera or a flat camera has been proposed (for example, Patent Document 1).
  • This type of camera is provided with a plate-shaped modulator that modulates the transmitted light instead of the lens, thereby realizing a thin layer of the image pickup apparatus.
  • the image pickup device includes a modulator that modulates the light intensity by a first pattern formed concentrically, an image sensor that converts an optical image transmitted through the modulator into image data, and image data output from the image sensor. It is provided with an image processing unit that executes a cross-correlation calculation between the image and the pattern data indicating the second pattern, and enables the restoration of the subject image.
  • Surveillance cameras are applied to identify individuals for crime prevention purposes, but many of today's smartphones, smart speakers, and IoT devices are not necessarily aimed at personal identification or evidence recording, and individual facial expressions, gestures, and behaviors. It has been used as a sensor and monitor for recognition and the like.
  • drones and cameras for autonomous driving are also sensors for environmental recognition and obstacle detection, and it is not necessary to record the privacy of the people reflected in them. In this way, while there are usage patterns of cameras that are not originally intended to record or store privacy information, the use of cameras themselves becomes a cause for concern about privacy infringement and their use is restricted, and simply gestures. There is a dilemma that cameras cannot be used as sensors for recognition, and applications and services for the coming IoT and Society 5.0 era will not start.
  • the present invention has been made in view of the above, and an object of the present invention is to provide a camera and an imaging system that enable recognition (identification) of attached information of an individual while protecting the privacy of the individual as a subject. ..
  • the camera according to the present invention comprises a planar image sensor in which a plurality of pixels composed of photosensitive elements are arranged, and a planar modulation element arranged in front of the image sensor and in which a pattern for modulating incident light is formed.
  • the pattern includes, among the light rays from the subject, those in which a plurality of light-transmitting portions for guiding light rays from a plurality of directions to one pixel are arranged.
  • a light ray from a subject is optically modulated by a modulation element and then imaged by an image pickup device.
  • spatial projection information such as an optical retinal image is destroyed, but information essentially necessary for recognition can be retained.
  • privacy is protected because it is difficult to visually recognize the contents from the recorded data or the leaked data string.
  • FIG. 1 It is a schematic block diagram of a partial cross section in a side view which shows the structure of the imaging system which concerns on this invention. It is a figure which shows the relationship between the pattern of a modulation element, and the pixel of an image sensor.
  • (A) is a lensless case
  • (B) is a case where a needle hole-shaped hole (pinhole) is formed.
  • (C) is a case where a mask having a plurality of or differently sized translucent portions is interposed on the surface.
  • (A) is a mask in which translucent parts of different sizes are formed
  • (B) is a mask in which transmissive parts are formed randomly or densely.
  • (A) is a diagram when the distance is small
  • (B) is a diagram when the distance is large.
  • the measure above the measurement and the pattern shows the ratio of blur to exposure
  • FIG. 1 is a schematic configuration diagram of a partial cross section showing the configuration of the imaging system 1 according to the present invention in a side view.
  • the imaging system 1 includes a camera 11 and a recognition unit 12.
  • the camera 11 has a mask 2 and an image sensor 4, which are an embodiment of a modulation element, in order from the front side in the optical axis direction, and is a thin bonding layer that optically joins the mask 2 and the image sensor 4. 3 and a reading unit 5 that reads out image data captured by the image sensor 4 from each pixel.
  • the size of the camera 11 is exaggerated with respect to the subject P for convenience of explanation.
  • the bonding layer 3 may be only an adhesive layer in the integrated form, or a physical connecting structure may be adopted.
  • the camera 11 is a digital camera provided with an image sensor 4.
  • the image sensor 4 is typically configured by arranging a large number of pixels 42 in a matrix on the front surface of a quadrangular plate-shaped (plane-shaped) main body 41.
  • Each pixel 42 is a minute photosensitive element such as a CCD, and generates a voltage signal according to the received luminance.
  • the mask 2 is a sheet-like or thin-layer plate-like body having a size corresponding to that of the image pickup element 4. While the mask 2 has a light-shielding property, a light-transmitting portion 21 composed of a plurality of holes or a light-transmitting region is formed at an appropriate position on the surface of the mask 2. Further, the mask 2 may, on the contrary, have a light-transmitting property, and may have a light-shielding treatment applied to a portion of the surface other than the light-transmitting portion 21.
  • FIG. 2 is a diagram showing the arrangement relationship between the pattern (modulation pattern) of the translucent portion 21 of the mask 2 and the pixels 42 of the image sensor 4.
  • the light transmitting portion 21 is preferably provided corresponding to the pixel 42, and is formed at a predetermined pitch with respect to at least one direction in the matrix direction of the pixel 42.
  • the size of the translucent portion 21 does not have to be uniform, and it is preferable that all or part of the translucent portion 21 has a size equal to or larger than the size of the pixel 42.
  • the size of the translucent portion 21 is about several times the size of the pixel 42, but may be several tens to several hundred times or more.
  • FIG. 3 is a diagram for explaining the relationship between the presence / absence and type of the mask 2 and the captured image.
  • FIG. 3A shows a subject image captured by the image sensor 4 without the intervention of the mask 20A and without a lens.
  • the captured image is uniform on one surface and is completely meaningless.
  • FIG. 3B when only one needle hole-shaped hole (pin hole) is formed in the mask 20B, the subject is based on the principle of a pinhole camera (needle hole camera). Since only incident light from one direction enters through the pinhole and measures different brightness, the image is completely imaged like a normal photograph and is similar to a retinal image.
  • light rays transmitted through the plurality of translucent portions 21a are combined with each of the pixels 421 and the pixels 422 by interposing a mask 2a having a plurality of or differently sized translucent portions 21a on the surface.
  • both the pixel 421 and the pixel 422 are guided by a combination of light rays transmitted through the same translucent portion 21a to perform imaging.
  • FIG. 4 and 5 are diagrams showing other aspects of the modulation element, FIG. 4 shows other patterns of masks, and FIG. 5 shows other embodiments.
  • FIG. 4A is a mask 2b in which the translucent portions 21b and 22b having different sizes are formed
  • FIG. 4B is a mask 2c in which the translucent portions 21c are formed in a random or dense manner.
  • the shape of the translucent portion may be quadrangular (including slit-shaped), polygonal, or circular.
  • FIG. 5 is a thin-layer plate-like body 2d having translucency instead of the mask 2 as an example of the modulation element.
  • the plate-shaped body 2d may be in the form of a sheet.
  • the plate-shaped body 2d is formed on a rough surface 21d (corresponding to a light-transmitting portion) having at least one surface of the front and back surfaces having an uneven shape.
  • the uneven shape of the rough surface 21d may include a minute convex lens shape or a concave lens shape.
  • the size of the uneven surface forming the rough surface 21d in the surface direction may be a size corresponding to the size of the pixel 42, or several times to 100 times the size thereof.
  • the uneven surface forming the rough surface 21d corresponds to the light transmitting portion.
  • the plate-shaped body 2d is not a focusing lens that enables regular focusing, and as shown in FIG. 5, refracts light rays L11, L12, L13 from a plurality of directions, for example, in the plate-shaped body 2d. And turn it in an irregular direction. That is, the rough surface 21d causes the transmitted light rays L11, L12, and L13 to be incident on the same pixel 42 or on another pixel 42 that has jumped, and is incident on the pixels 42 having an uncorresponding positional relationship. Is. As a result, the spatial projection information of the image from the subject is optically destroyed, and the captured image becomes information that does not make sense that cannot be personally recognized.
  • the reading unit 5 outputs a voltage signal (measurement signal) generated by each pixel 42 of the image sensor 4.
  • the reading unit 5 reads the signals of each pixel 42 in a predetermined order along the arrangement direction, in order corresponding to, for example, a raster scan. Further, when the signal is read from the image sensor 4, the reading unit 5 performs electronic encryption in a random order or by adding and reading signals of a plurality of pixels, so that even if a person sees it. Further, it may be in a mode of outputting an image in which it is not possible to understand what is reflected, and the recognition (judgment) of this image is effective by machine learning, for example, by the recognition unit 12 having parameters suitable for the purpose of determining the gender of the subject. To do.
  • the recognition unit 12 may have an integral or semi-integral structure with the camera 11, or may be arranged in a remote place (for example, a monitor room) via a wired or wireless system or an internet line.
  • the recognition unit 12 recognizes (determines) the input image information using the parameters acquired through machine learning, and outputs the result.
  • the recognition unit 12 effectively performs recognition (determination) specialized for a specific target purpose.
  • the parameters stored in the parameter storage unit 121 of the recognition unit 12 are modeled through machine learning. As machine learning, at least one learning method of so-called supervised learning, unsupervised learning, reinforcement learning, and deep learning is adopted.
  • Machine learning has an input layer that simulates (models) a neuron network, an output layer, and at least one hidden layer in between, and each layer has a structure in which a plurality of nodes are connected by edges.
  • the parameter refers to the weight value of each edge of each layer.
  • supervised learning when the gender of a subject is recognized (determined) from the image captured by the camera 11, each image obtained by capturing a plurality of subjects with the camera 11 is input to the input layer of the simulated network. Then, the answer (label) is presented correspondingly, and the weight value is updated and learned at the time of feedback at that time. By performing such learning on a large number of subjects, the feature amount for each subject is reflected in the parameters and the determination accuracy is improved.
  • the recognition unit 12 can also take an image that cannot be personally recognized.
  • the camera 11 and the recognition unit 12 are set by performing the optimization of the hardware design, which is the pattern of the modulation element 2, and the parameters of the recognition unit 12, which is software, in relation to both in the framework of machine learning. To design.
  • the modulation pattern is substantially designed with a configuration in which light rays transmitted through one transmissive portion are incident on a plurality of pixels, or a configuration in which each light ray transmitted through a plurality of transmissive portions is incident on one pixel.
  • the present invention also includes the following aspects.
  • the present camera 11 can also be configured by arranging the present modulation element on one of the front and rear surfaces of the photographing lens of a normal camera.
  • the modulation element may be designed to modulate the optical image in consideration of the imaging performance of the photographing lens.
  • the present imaging system 1 As the specific use intended for the present imaging system 1, various attached information that does not lead to the identification of the subject is assumed, such as gender determination, age determination, gesture (action), personal ID, and the like.
  • the determination result can be notified by further providing a display, a speaker, or the like that displays the determination result from the recognition unit 12.
  • the present imaging system 1 can also be applied to individuals such as animals other than humans. Therefore, the present imaging system 1 can be applied not only to the portable type but also to the stationary type.
  • the modulation pattern on the surface of the modulation element may be irregular, or one or a plurality of types of modulation patterns may be repeatedly arranged in at least one of the vertical and horizontal directions for each size. preferable.
  • the size of the split type modulation pattern depends on the recognition application, but in relation to the number of pixels 42, for example, a size corresponding to an area of several tens to several hundreds, for example, an array area for 100 ⁇ 100 pixels. Or less or more.
  • a mode in which pinholes as shown in FIG. 3B are formed adjacent to each other and light rays passing through both pinholes are guided to the same pixel may be included. ..
  • a member that changes the modulation pattern for example, a liquid crystal display element (LCD) panel can be adopted.
  • LCD liquid crystal display element
  • Coded lensless image Lensless imaging is a new method for capturing images without using a complicated lens system.
  • the coded pattern is used to modulate the incident light with a single or multiple pixels.
  • the latter approach is more common because it allows single-shot images to be captured without changing the pattern.
  • Lensless imaging is indicated by the values when the distance d1 between the image and the coded plane is short (A) and long (B), as shown in FIG.
  • the lensless measurement y is represented by (Equation 1).
  • the camera may be as thin as a FlatCam (ie, a camera that can shoot without a lens), but the angle of the incident light beam is also limited by the field of view of the pixels of the sensor 4. As the distance increases, the field of view is defined by the entrance pupil of the camera, the diameter of the mask 2. If the resolution is the same as the binary pattern H and the kernel size is large, increasing the distance d1 blurs the image and improves visual privacy protection. Therefore, a large distance d1 is adopted.
  • the binary pattern H is learned by modeling the coded imaging as a binary convolution.
  • the imaging system 1 shown in FIG. 7 captures an image using a lensless camera 11 provided with a mask 2 and a sensor 4, and resNet18 (depth 18) of the image. It is transmitted to the recognition unit 12 based on the convolutional neural network having a layer) without being reconstructed.
  • Table 1 shows various sampling methods using ResNet18 with Top1 accuracy (%).
  • 10-8
  • 10-6
  • the Top 1 accuracy (%) is an expression of the recognition rate, and means the recognition rate of the first candidate.
  • either conventional imaging or pinhole imaging achieves the highest accuracy. 20% -40% loss of accuracy due to defocus and randomly coded imaging.
  • FIG. 8 is a diagram showing a visual comparison of various image systems, where the scale above the measurements and patterns shows the ratio of blur to exposure.
  • conventional pinhole imaging reveals the details of the image, but defocus and random pattern imaging do not. Therefore, there is a trade-off between accuracy and visual privacy protection. That is, the learning pattern significantly improves recognition accuracy with a loss of about 5% compared to pinholes and conventional imaging, but does not guarantee visually protected measurements.
  • LwoC-woRec reveals the subject's ID. Therefore, a method of controlling the trade-off between accuracy and privacy is desired.
  • l m indicates a matrix having a value of 1.
  • This is a coded pattern for defocus imaging.
  • the learning pattern may converge to a smaller local region (or smaller variation). Therefore, the measurements convolve from a small area of the image to reveal more information. As a result, the total variation (TV) of the coded pattern is maximized as in (Equation 3).
  • ⁇ x and ⁇ y represent horizontal and vertical gradient operators, respectively.
  • the learning patterns need to be more diverse than when using MSE loss.
  • the pair of pattern H i and recognition function R i must be unique. That is, the correct ⁇ R i , H i ⁇ indicates that the recognition function is high, but the pair with the mismatched ⁇ R i , H j ⁇ indicates that the recognition function is low.
  • the pattern H i and the recognition function R i act like a key. That is, it is shown that the accuracy is high only when the key H i and the keyhole R i match, and the accuracy is low when they do not match.
  • a plurality of types of patterns H i and a recognition function R i optimized for various patterns are stored (prepared) in a storage unit (preparation) in the diagram as a combination in advance.
  • the control unit (including the recognition unit 12) shown in the figure stores and controls the combination information.
  • the recognition unit 12 or the control unit in the drawing selects the mask 2 of the pattern H i during a certain shooting, the recognition function R i as a set is selected instead of the uncorresponding recognition function R j and the recognition process is performed.
  • the recognition process is executed in the desired state, that is, in the optimized state. In this way, by applying like a code table, security can be further enhanced.
  • FIG. 9 is a diagram illustrating a confusion matrix of LwoC-woRec for multiple H i and R i, (i, j) values of, at the input lensless measurement of the i-th coding pattern H i It shows the Top1 accuracy of the jth recognition function R j.
  • Lreg represents the cross-entropy loss function of the input x and the label b, it is easy to reduce the accuracy of the mismatched pair by (Equation 4).
  • ResNet18 was used for face recognition.
  • the network was trained with a stochastic gradient descent optimizer.
  • the mini batch size was 128.
  • Weighting factor alpha, for beta tested various combinations from 10 -2 to 10 -8.
  • 17 residual blocks were used to learn the residuals between the clean and captured images from the Div2K (trained and test image) dataset.
  • MSE loss provides a trade-off between defocus imaging and unconstrained imaging (LwoC-woRec), while TV loss is between Rand-woRec and LwoC-woRec. It is easy to observe that there is a trade-off with. The smaller the weight, the closer the result is to the unconstrained result. As the curve moves to the upper right, TV loss gives slightly better results than MSE loss.
  • the mask patterns are the same 32x32, but the recognition rates are different because the image sizes are different (the amount of information differs depending on the number of pixels). Since (B) has a higher resolution than (A), the recognition rate is higher even with the same amount of optical blur.
  • Mutual accuracy is the average accuracy of the off-diagonal lines of the confusion matrix, and represents the performance when a mismatched pair of learning pattern and recognition function is used. In general, it is desirable that the self-accuracy is high and the mutual accuracy is low. The greater the difference in performance between self-accuracy and mutual accuracy, the better.
  • the confusion matrix of the various methods is shown in FIG.
  • LwoC-woRec achieves the highest self-accuracy without constraints, but also with higher mutual accuracy.
  • Loss of human vision by MSE and TV improves visual privacy of human vision, but does not help protect against machine vision. Therefore, average (70%) and maximum (80%) values with high mutual accuracy were reported.
  • the loss of visual privacy protection of machine vision by L reg mv shown in (Equation 4) helps to reduce mutual accuracy while maintaining high accuracy.
  • FIG. 13 Experimental results of actual data (realization of hardware) To verify the proposed method, a prototype imaging system as shown in FIG. 13 was implemented.
  • This camera is composed of a monochrome imaging sensor 4 (Grasshoper 3 model GS3-U3-41C6M-C, 2048 x 2048) and a mask 2B.
  • the mask 2B is composed of a spatial light modulator 20B (SLM; LC 2012, 1024 ⁇ 768) and polarizers 20f and 20b arranged before and after the spatial light modulator 20B, and the relative angles of the two are adjusted. Brightly modulates the incident light.
  • the distance between the sensor 4 and the cord surface of the mask 2B is about 17 mm.
  • a monitor (Plasmadisplay) that displays images is installed at a distance of about 1 m from the SLM.
  • the coded pattern is rescaled from 32x32 to 716x716 with zeros embedded so that the SLM size is 1024x768.
  • five types of coding patterns were evaluated for the mask 2.
  • the shutter time was manually selected to compensate for the difference in aperture ratio.
  • the facial test image was also rescaled and calibrated on the display screen to appear in the center of the image sensor. However, there is still mutual reflection between the image sensor and the SLM. Therefore, a captured image with a close SLM aperture was used for correction. Furthermore, in order to reduce the effects of noise and a decrease in light efficiency, an average of 10 times the capture measurement was adopted as the input of the recognition function.
  • the measured values were captured in 16-bit grayscale in various patterns shown in FIG.
  • pinhole imaging is of very low quality due to the very low light intensity. You can also observe the visible image with capture.
  • no privacy information was observed from the defocus and random pattern (50% exposure) measurements.
  • the learning pattern LwoC revealed more information than the TV loss constraints.
  • pinhole imaging has poor performance in the actual data set. Pinhole images are more noisy than other images, which limits performance. In addition, the pinhole image has a small blur score of 0.140 and contains many details. Defocus imaging reduces cognitive performance. The captured image shows a low blur score due to the lack of information. Random masks also performed a bit better, but worse than the LwoC and LwC-TV trained masks.
  • Table 3 shows the Top 1 accuracy (%) using the selected CASIA10 surface dataset.
  • Table 3 shows the experimental results in the actual image, and the performance of the proposed Low C-TV is large in blurring of the image, that is, the apparent privacy is protected, but the recognition rate is high as in the simulation. It was shown to be high enough. In addition, it was shown that the decrease in contrast of the image in the actual mounting can be improved by using background subtraction (subtracting the brightness value of the image in which nothing is captured from the captured image).
  • This sequential training method was able to learn a unique pair of coded patterns and recognition functions.
  • the framework has a limit on the number of unique pairs (ie, keyspaces) it can handle. How to handle the case of a large number of unique pairs of H and R (ie, increasing M) is an open question.
  • techniques for hostile samples can be further integrated to provide better training methods. Unlike previous techniques that used fixed patterns, it learns coded patterns to achieve higher recognition accuracy.
  • the system was trained with only simulated data.
  • the camera according to the present invention has a planar image sensor in which a plurality of pixels composed of photosensitive elements are arranged and a surface on which a pattern for modulating incident light is formed, which is arranged in front of the image sensor.
  • the pattern includes a shape-modulating element, and the pattern includes a light beam from a subject in which a plurality of light-transmitting portions for guiding light rays from a plurality of directions to one pixel are arranged. is there.
  • a light ray from a subject is optically modulated by a modulation element and then imaged by an image pickup device.
  • the captured image destroys the spatial projection information such as the optical retinal image, the information essentially necessary for recognition can be retained. This protects privacy because it is difficult to visually recognize the contents from the recorded or leaked data string.
  • the translucent portion includes a translucent portion that guides light rays from a plurality of transmitted directions to a plurality of pixels. According to this configuration, by decentralizing the light rays transmitted through one transmissive portion, the spatial projection information is further destroyed and the privacy is protected.
  • the translucent portion has holes formed in the mask surface for shading. According to this configuration, a modulation element can be easily manufactured by drilling holes.
  • the hole is larger than the size of the pixel. According to this configuration, a plurality of light rays can be transmitted, and the spatial projection information is destroyed by that amount.
  • the translucent portion is preferably a translucent plate-like body having an uneven surface.
  • a modulation element can be manufactured by surface processing of, for example, a translucent member other than the mask.
  • the imaging system may include a reading unit that reads out a captured image of the subject captured by the camera, and a recognizer that performs predetermined recognition of the attached information of the subject from the read captured image.
  • a reading unit that reads out a captured image of the subject captured by the camera
  • a recognizer that performs predetermined recognition of the attached information of the subject from the read captured image.
  • the present invention by directly recognizing with a recognizer without restoring the retinal image, there is an advantage of privacy protection because an image that is completely visually understandable is not used.
  • the modulation element and the recognizer have optimized performances of both the degree of blurring of the image of the subject imaged through the pattern of the modulation element and the recognition rate of the recognizer. According to this configuration, the blur of the captured image that has passed through the pattern and the recognition rate in the recognition unit can be processed in the best state at the same time.
  • Imaging system 11 Camera 12 Recognition unit (recognizer) 2,2a, 2b, 2c, 2B mask (modulation element) 20B Spatial Light Modulator (Modulator) 21,21c, 21b, 22b, 21c Translucent part 2d Plate-like body (modulation element) 21d Rough surface (partly translucent part) 4 Image sensor 42 pixels

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Abstract

イメージングシステム(1)は、感光素子からなる画素が複数配列された面状の撮像素子(4)と、撮像素子(4)の前面に配置され、入射光を変調するパターンが形成されたマスク(2)と、撮像された被写体の撮像画像を読み出す読出部(5)と、読み出された撮像画像から被写体の付属情報に対する性別判定を行う認識部(12)とを備える。パターンは、被写体からの光線のうち、複数方向からの光線を1つの画素に導く各々の透光部(21)が複数配列されたものを含む。これにより、被写体の個体認識を不可にする一方、所期の用途に対する、個体の付属情報の認識を可能にしてプライバシー保護を図る。

Description

カメラ及びイメージングシステム
 本発明は、被写体の映像を個体認識不能レベルまで変調させて撮像するプライバシー保護が可能なカメラ技術に関する。
 従来、カメラは、レンズを通して撮像素子上に網膜像、すなわち人が理解可能な結集光像を射影、すなわち撮像素子の各画素で受光輝度を計測することで、光学映像をデジタル化して撮像している。撮像された画像データは、一般的にはラスタースキャンの順番で空間的な関係を維持したまま読み出され、さらに例えばインターネット回線を介して転送され、またデータファイルとして保存される。転送や保存の間に情報がハッキングや漏洩された場合、内容は容易に観察できる。今日、かかるデータ漏洩や第三者による一方的な公表などによる画像のプライバシー問題は深刻化している。例えば、カメラを搭載したメガネ型IoT機器がレストランなどで使用禁止されて発売が中止になったケースや、第三者がSNS上にアップロードした画像の削除を求めるケースのような社会問題も発生している。
 また、近年、レンズレスカメラ乃至フラットカメラが提案されている(例えば特許文献1)。この種のカメラは、レンズに代えて透過光を変調する板状の変調器を設けたもので、これにより撮像装置の薄層化を実現している。撮像装置は、同心円状に形成された第1のパターンによって光強度の変調を行う変調器と、変調器を透過した光像を画像データに変換する画像センサと、画像センサから出力された画像データと第2のパターンを示すパターンデータとの相互相関演算を実行する画像処理部とを備えて、被写体像の復元を可能にしている。
特開2018-61109号公報
 監視カメラなどは防犯目的で個人を特定するために適用されるが、現在のスマートフォンやスマートスピーカ、IoT機器の多くは、必ずしも個人特定や証拠記録を目的としておらず、個人の表情やジェスチャー、行動認識などのためのセンサ、モニタとして用いられてきている。また、ドローンや自動走行用のカメラも、環境認識や障害物検知のためのセンサであり、そこに映り込む人々のプライバシーを記録する必要はない。このように、本来、プライバシー情報の記録や保存を目的としていないカメラの利用形態が存在している一方で、カメラを用いること自体がプライバシー侵害の憂慮要因になってその利用が制限され、単にジェスチャー認識のためのセンサとしてカメラを用いることができず、来るIoT、Society5.0時代に向けての応用やサービスが始まらないというジレンマが存在する。かかる問題を解決する一般的な方法として、画像を撮影したあとに、エッジ側で符号化して転送を行い、サーバ側で認識前に複号化することが提案されている。しかしながら、このような方法でも、符号化前の撮影画像及び復号後の画像がハッキングや情報漏洩などによって流出する虞があるとの心配は完全には払拭されない。
 また、特許文献1に記載の撮像装置では、画像センサで取得されたデータが復元性のある画像情報であるため、第三者によるハッキングや漏洩を経て公表される虞があるなど、プライバシー保護の観点はない。
 本発明は、上記に鑑みてなされたもので、被写体である個体のプライバシーの保護を図りながら、個体の付属情報の認識(識別)を可能にするカメラ及びイメージングシステムを提供することを目的とする。
 本発明に係るカメラは、感光素子からなる画素が複数配列された面状の撮像素子と、前記撮像素子の前面に配置され、入射光を変調するパターンが形成された面状の変調素子とを含み、前記パターンは、被写体からの光線のうち、複数方向からの光線を1つの画素に導く各々の透光部が複数配列されたものを含むことを特徴とするものである。
 本発明によれば、被写体からの光線は変調素子で光学的に変調された後、撮像素子で撮像される。撮影画像は、光学的網膜像のような空間的射影情報は破壊されるが、本質的に認識に必要な情報は保持可能となる。これにより、記録又は万が一漏洩したデータ列からは視覚的に内容を認識することが困難であるため、プライバシーは保護される。
 本発明によれば、被写体の個体認識を不可にする一方、所期の用途に対する、個体の付属情報の認識を可能にしてプライバシー保護を図る撮影が可能となる。
本発明に係るイメージングシステムの構成を示す側面視で一部断面の概略構成図である。 変調素子のパターンと撮像素子の画素との関連を示す図である。 変調素子の有無及び種類と撮像画像との関係を説明する図で、(A)はレンズレスの場合、(B)は針穴状の孔(ピンホール:pin hole)が穿設されている場合、(C)は表面に複数又は異なる大きさの透光部を有するマスクを介在させた場合である。 変調素子の他のパターンを示す図で、(A)はサイズの異なる透光部が形成されたマスクであり、(B)は透光部がランダム乃至粗密状に形成されたマスクである。 変調素子の他の実施形態を示す図である。 画像とコード化された平面の間の距離が小さい場合と大きい場合のレンズレスイメージング図で、(A)は距離が小さい場合の図、(B)は距離が大きい場合の図である。 レンズレスイメージングによる顔認識のための視覚的なプライバシー保護を説明するシステム図である。 様々な画像システムの視覚的比較を示す図で、測定とパターンの上の尺度は、ぼやけと露出との比を示し、固定パターンの次元はm=32×32である。 、複数のHiおよびRiに対するLwoC-woRecの混同行列を示す図で、(i,j)の各値は、i番目のコード化パターンHiの入力レンズレス測定でのj番目の認識機能RjのTop1精度(%)を示している。 コード化されたパターンのサイズm=32×32におけるコード化された画像サイズn=63×63(図10(A))と、127×127(図10(B))でのVGG-Face2のTop1精度(%)を示す図である。 学習パターンと様々な重みでの人間の視覚プライバシー保護の測定を説明する図で、n=63×63、m=32×32である。 VGG-Face2での学習パターンHiと認識機能Riとの混同行列を示す図で、10クラスで、n=63×63、b=32×32である。 レンズレスイメージングのためのハードウェア実装の他の実施形態を示す図である。 表示された画像、空間光変調器で実際にコード化されたパターンおよび実際にキャプチャされた測定値(視覚的品質を高めるために最大値と最小値に再スケーリングされている)を示す図である。
 図1は、本発明に係るイメージングシステム1の構成を示す側面視で一部断面の概略構成図である。図1において、イメージングシステム1は、カメラ11と認識部12とを含む。カメラ11は、光軸方向の前側から順に変調素子の一実施形態であるマスク2と、撮像素子4とを有し、かつマスク2と撮像素子4とを光学的に接合する薄層の接合層3と、撮像素子4で撮像された画像データを各画素から読み出す読出部5とを備える。なお、カメラ11は、説明の便宜上、被写体Pに対してサイズを誇張して示している。また、接合層3は一体型の形態では接着層のみでもよく、さらに物理的な連結構造を採用してもよい。
 カメラ11は、撮像素子4を備えたデジタルカメラである。撮像素子4は、典型的には四角形をした板状(面状)の本体部41の前面に画素42がマトリクス状に多数配列されて構成されている。各画素42は、CCDなどの微小な感光素子で、受光輝度に応じた電圧信号を発生する。
 マスク2は、撮像素子4と対応するサイズを有するシート状乃至薄層の板状体である。マスク2は、遮光性を有する一方、表面の適所に複数の孔乃至透光域からなる透光部21が形成されたものである。また、マスク2は、逆に、透光性を有する一方、表面の、前記透光部21以外の個所に遮光処理が施されたものでもよい。
 図2は、マスク2の透光部21のパターン(変調パターン)と撮像素子4の画素42との配置関連を示す図である。透光部21は、好ましくは画素42に対応して設けられ、画素42の行列方向の少なくとも一方向に対して所定ピッチ毎に形成されている。
 透光部21のサイズは均一である必要はなく、全部または一部は画素42のサイズ以上の大きさであることが好ましい。図1及び図2では、透光部21のサイズは、画素42のサイズの数倍程度であるが、さらに数十倍~数百倍以上であってもよい。マスク2の透光部21として前記のような大サイズのものを含むことで、被写体Pの複数の方向から入射する光線L1,L2(あるいはさらに他の光線)を同一の画素42に入射させるようにしている。このように、複数の方向からの光線を同一の画素42に入射させて、すなわち変調させて、すなわち網膜像を形成することなく空間的射影情報を光学的に破壊して撮像することで、撮像画像自体から被写体Pの個人認識が再現できないレベルに低下させている。
 図3は、マスク2の有無及び種類と撮像画像との関係を説明する図である。図3(A)は、レンズレスで、かつマスク20Aを介在させずに撮像素子4で被写体映像を撮像するものである。図3(A)では、被写体の各方向からの光線はすべての画素42に均等に入射するため、撮像画像は、一面に均一で、全く意味をなさない画像になっている。一方、図3(B)のように、マスク20Bにひとつだけ針穴状の孔(ピンホール:pin hole)が穿設されている場合、ピンホールカメラ(針穴写真機)の原理で、被写体の一方向からの入射光だけがピンホールを通って入ってきて、異なる輝度を計測するため、通常の写真のように完全に結像した、網膜像と同様の画像となる。
 図3(C)は、表面に複数又は異なる大きさの透光部21aを有するマスク2aを介在させることで、画素421及び画素422のそれぞれに、複数の透光部21aを透過した光線を組み合わせて導き、また、画素421と画素422の双方に、同一の透光部21aを透過した光線を組み合わせて導いて撮像を行うようにしたものである。
 上記において、図3(A)の場合は、視覚的に完全に情報が落ちているためプライバシー保護が完全にできる一方、情報が残っていない、すなわちすべての画素が同じように積分(平均)されていることから分離不能なために、画像の認識など被写体画像として何が映っているか判別不能となる。図3(B)の場合は、反対に被写体映像そのものが映っているためデータの欠落はなく、却ってプライバシーに対する脆弱性が高い。
 一方、図3(C)の場合のように、マスク2aを使ってこの中間状態にすると、撮像画像を視覚的には何が映っているか分からなくすることができる。したがって、この場合、撮像画像自体がハッキング乃至漏洩されても、意味不明状態は維持され、しかも撮像画像とマスクの情報を盗用して再生のための画像処理を施しても個人認識のレベルまでの再生は不可であるため、依然としてプライバシー保護が確保される。例えば図3(C)のように中間状態にした場合、その撮像画像Gから分かるように、濃淡模様が計測されて、被写体の位置情報のような付属情報が認識可能であるとしても、被写体自体の再生はできない。
 図4、図5は、変調素子の他の態様を示す図で、図4はマスクの他のパターンを示し、図5は、他の実施形態を示す。図4(A)は、サイズの異なる透光部21b、22bが形成されたマスク2bであり、図4(B)は、透光部21cがランダム乃至粗密状に形成されたマスク2cである。また、透光部の形状は、四角形(スリット状含む)、多角形、円形を問わない。
 図5は、変調素子の一例としてのマスク2に代えて透光性を有する薄層の板状体2dである。板状体2dは、シート状であってもよい。板状体2dは、少なくとも表裏の一方面が凸凹状の粗面21d(透光部に相当)に形成されている。粗面21dの凸凹状には、微小な凸レンズ状、凹レンズ状を含めてもよい。粗面21dを形成する凸凹面の面方向におけるサイズは、画素42のサイズに対応したサイズ乃至その数倍から百倍程度であってもよい。なお、粗面21dを形成する凸凹面は、透光部に対応する。
 板状体2dは、規則的な集光を可能にする集光レンズではなく、図5に示すように、複数の方向からの、例えば光線L11,L12,L13を、板状体2d内で屈折して不規則な方向へ向ける。すなわち、粗面21dは、透過した光線L11,L12,L13を、同一の画素42に入射させたり、飛び越した別の画素42に入射させたりと、対応しない位置関係にある画素42に入射させるものである。これにより被写体からの映像は空間的射影情報が光学的に破壊されて、撮像画像から個人認識不能な意味をなさない情報にする。
 図1に戻って、読出部5は、撮像素子4の各画素42で生成された電圧信号(計測信号)を出力する。読出部5は、各画素42の信号を、配列方向に沿って所定の順で、例えばラスタースキャンに対応させて順番に読み出す。また、読出部5は、撮像素子4からの信号読み出し時に、ランダムな順序で、あるいは複数の画素の信号を加算して読み出すようにして電子的な暗号化を施すことで、人が見てもさらに何が映っているか理解できない画像を出力するような態様としてもよく、この画像を機械学習により、例えば被写体の性別判定の用途に合うパラメータを有する認識部12により、認識(判定)を効果的に行う。認識部12は、カメラ11と一体乃至は半一体構造としてもよいし、有線又は無線、又はインターネット回線を介した遠隔場所(例えばモニタ室)に配置された態様でもよい。
 認識部12は、入力画像情報に対して、機械学習を経て取得したパラメータを用いて認識(判定)を行い、その結果を出力する。認識部12は、目的とする特定の用途に特化した認識(判定)を効果的に行う。認識部12のパラメータ記憶部121に格納されているパラメータは、機械学習を経てモデル化したものである。機械学習としては、いわゆる、教師あり学習、教師なし学習、強化学習、また深層学習の少なくとも1つの学習方法を採用したものである。
 機械学習は、ニューロンネットワークを模擬(モデル化)した入力層、出力層、及びその間の少なくとも1層の隠れ層を有し、各層は、複数のノードがエッジで結ばれた構造となっている。パラメータは各層の各エッジの重み値をいう。例えば、教師あり学習で、カメラ11で撮像された画像から被写体の性別を認識(判定)する場合、本カメラ11で複数の被写体を撮像させて得た各画像を、模擬ネットワークの入力層に入力し、対応して解答(ラベル)を提示して、その際のフィードバック時に重み値を更新して学習させる。かかる学習を、多数の被写体について行うことで、被写体毎の特徴量がパラメータに反映されて判定精度を高めることとなる。
 また、例えば深層学習のフレームワークにより、変調素子及び撮像素子4からの読み出しの信号と認識部12とを同時に学習させることが好ましい。その場合、深層学習に際して、撮像画像ができるだけ視覚的に意味を持たないように、敵対的学習の枠組みを用いて学習させることが好ましく、これにより認識機能を落とすことなく、人に対して理解不能な、さらには認識部12でも個人認識不能な画像を撮影できる。このように、機械学習の枠組みでソフトウェアである認識部12のパラメータと、変調素子2のパターンであるハードウェア設計の最適化を双方に関連させて行うことで、カメラ11と認識部12のセットを設計する。
 このように、1つの透光部を透過した光線を複数の画素に入射させる構成、または複数の透光部を透過した各光線を1つの画素に入射させる構成で変調パターンを実質的に設計することで、個体認識を不能にする一方、個体の付属情報を認識可能にする変調素子が制作可能となる。
 また、本発明は、以下の態様を含む。
(1)本カメラ11は、通常のカメラの撮影レンズの前後面の一方に本変調素子を配置することでも構成することができる。この場合、変調素子は、撮影レンズの結像性能を考慮して光像の変調を行うように設計すればよい。
(2)本イメージングシステム1の目的とする特定の用途としては、性別判定、年齢判定、ジェスチャー(アクション)、個人ID、その他、被写体本人の特定に繋がらない各種の付属情報が想定される。認識部12からの判定結果を表示する表示器、スピーカなどをさらに備えることで判定結果を報知できる。また、本イメージングシステム1は、人以外の動物などの個体に対しても適用することができる。従って、本イメージングシステム1は、携行式の他、設置式でも適用可能である。
(3)変調素子の表面の変調パターンは不規則であってもよいし、または、あるサイズ毎に1種類又は複数種類の変調パターンを縦横の少なくとも一方に繰り返し配置する態様とすることが制作上好ましい。分割型の変調パターンのサイズは、認識用途にもよるが、例えば画素42の個数との関係では、数十~数百個程度の面積に対応するサイズ、例えば100×100個分の配列領域、乃至それ以下又はそれ以上であってもよい。また、変調素子のパターンの一部として、図3(B)のようなピンホールを隣接して形成し、両方のピンホールを通過した光線を同一の画素に導くような態様を含めてもよい。
(4)マスク2は、固定型に代えて変調パターンを可変させる部材、例えば液晶表示素子(LCD)パネルを採用することができる。変調パターンを可変式とすることで、用途に応じて予め設定されたパターンとなるように電気信号で切り替え制御することができ、また同一用途でも経時方向に対して切り替えることができ、いずれの場合もプライバシー性能をより高めることができる。
 続いて、実験に関連して、(A)レンズレス取得をモデル化し、様々なレンズレスイメージング方式を評価した点、(B)人間とマシンビジョンに対するカスタム損失機能と、コード化されたパターンと認識機能の一意のペアをトレーニングする方法によって、視覚的なプライバシー保護機能を保護した点、(C)ハードウェアの実現とともに実験を示し、(D)その実験結論について説明する。
(A)安全なレンズレスイメージング
 まず、視覚的なプライバシー保護のためのレンズレスイメージングの背景と、顔認識のためのイメージングシステムを説明する。
(1)コード化レンズレスイメージ
 レンズレスイメージングは、複雑なレンズシステムを使用せずに画像をキャプチャする新しい手法である。コード化されたパターンは、単一のまたは複数のピクセルで入射光を変調するために使用される。後者のアプローチは、パターンを変更せずにシングルショットの画像のキャプチャを可能にするため、より一般的である。レンズレスイメージングは、図6に示すように、画像とコード化された平面の間の距離d1が短い場合(A)と長い場合(B)の値で示されている。景色xとコード化パターンHが与えられると、レンズなし測定値yは、(式1)で表される。
Figure JPOXMLDOC01-appb-M000001
 ここに、*は畳み込み演算子で、ηは加法性ノイズである。距離d1が短くなると、カメラはFlatCam(すなわち、レンズ無しで撮影できるカメラ)のように薄くなる可能性があるが、センサ4の画素(ピクセル)の視野によって入射光線の角度も制限される。距離が大きくなると、視野は、カメラの入射瞳、マスク2の直径によって定義される。バイナリパターンHと同じ解像度で、カーネルサイズが大きい場合、距離d1を大きくすると画像がぼやけ、視覚的なプライバシー保護が向上する。したがって、大きな距離d1が採用される。コード化されたイメージングをバイナリ畳み込みとしてモデル化することにより、バイナリパターンHを学習する。
(2)顔認識のためのレンズレスイメージングシステム
 図7に示すイメージングシステム1は、マスク2とセンサ4とを備えたレンズレスカメラ11を使用して画像をキャプチャし、それをResNet18(深さ18層を有する畳み込みニューラルネットワーク)に基づく認識部12に再構成せずに送信する。
 まず、従来のコーディングされたイメージング(固定パターンと学習パターンを使用)を含むイメージングシナリオを評価した。固定レンズレスイメージングでは、ピンホール、デフォーカスパターン、および再構成なしのランダムパターン(Rand-woRec)を使用した。学習したレンズレスイメージングの場合、パターンは制約なしで、かつ学習なしで学習された(LwoC-woRec)。再構成ネットワークについては、後で説明する。
Figure JPOXMLDOC01-appb-T000002
 表1は、ResNet18を使用した様々なサンプリング方式をTop1精度(%)で示したもので、LwC-MSEの場合はα=10-8、LwC-TVの場合はα=10-6である。なお、Top1精度(%)とは認識率の表現で、一番目の候補の認識率をいう。表1の結果に示すように、従来のイメージングまたはピンホールイメージングのいずれかが最高の精度を実現している。デフォーカスとランダムにコード化されたイメージングにより、精度が20%~40%失われている。
 図7に示すように、認識結果bは正しいことに越したことはないが、同時に撮像画像yがボケている(人が理解できない)ことが求められている。単純に、認識率の向上を最適化すれば、撮影画像yはボケなくなり(表1でpineholeが性能がよい)、yをぼかすと認識率が低下するというトレードオフがある(表1でDefocusやrandomは性能が低い)。本手法では、マスク2のパターン(ぼかすための)と認識部12とを同時に最適化することで、このトレードオフを解決する。LwC-TVは、画像がボケている割には性能が高いまたは、pineholeより性能が高い場合もある。すなわち、人には分からなくても機械にはわかるパターン生成を実現する。
 また、図8は、様々な画像システムの視覚的比較を示す図で、測定とパターンの上の尺度は、ぼやけと露出との比を示すものである。図8では、従来のピンホールイメージングでは画像の詳細が明らかになるが、デフォーカスとランダムパターンによるイメージングでは明らかにならない。したがって、精度と視覚的なプライバシー保護の間にはトレードオフがある。すなわち、学習パターンはピンホールや従来のイメージングと比較して約5%の損失で認識精度を大幅に向上させるが、視覚的に保護された測定を保証するものではない。図8に示すように、コード化された比率rが小さい場合(すなわち、r=1/16)、LwoC-woRecはサブジェクトのIDを明らかにする。したがって、精度とプライバシーのトレードオフを制御する方法が望まれる。
(B)安全な学習レンズレスイメージング
(1)人間の視覚からプライバシーを保護
 レンズレス画像から人物を識別できないようにするために、高い認識機能を維持しながらも、撮像画像がデフォーカスパターン撮像の画像と同じになるように符号化パターンを学習したいと考えた。そのために、(式2)の平均二乗誤差(MSE)を最小化することにより、キャプチャした画像のぼやけを最大化する。
Figure JPOXMLDOC01-appb-M000003
 ここで、lは、すべて値1の行列を示す。これは、デフォーカスイメージングのコード化されたパターンである。逆に、図8に示すように、学習パターンはより小さな局所領域(またはより小さな変動)に収束する可能性がある。したがって、測定値は、画像の小さな領域から畳み込み、より多くの情報を明らかにする。その結果、コード化されたパターンの総変動(TV)を(式3)のように最大化する。
Figure JPOXMLDOC01-appb-M000004
 ここで、ΔおよびΔは、それぞれ水平および垂直勾配演算子を表す。TV損失を使用する場合、学習パターンはMSE損失を使用する場合よりも多様である必要がある。
(2)マシンビジョンからプライバシーを保護
 セキュリティアプリケーションでは、パターンHiと認識機能Riのペアは一意である必要がある。すなわち、正しい{Ri,Hi}では、認識機能が高いが、不一致の{Ri,Hj}とのペアは、認識機能が低いことを示している。より分かりやすい例で示すと、パターンHiと認識機能Riとが鍵のように作用することを示している。すなわち、鍵Hiと鍵穴Riとが一致した場合のみ精度が高く、一致しない場合は、精度が低くなるということを示している。ある鍵Hiと鍵穴Riが公開鍵であっても、iが不明であれば、Hiで撮影された画像を盗聴したとしても、その組み合わせのRiが特定できないので、そこから直接、情報を盗聴することができない。これを応用すれば、例えば液晶パネルでHiを時間的に変化させ、これにサーバ側のRiを同期させれば、ATM(AutomaticTeller MacHine)の暗号表のように適用でき、さらにセキュリティを高めることができる。
 前記(B).(1)のように最適化すると、人には分からないが、機械にはわかりやすいパターンが生成される。すなわち、どのような学習器でも簡単に見破れる画像になっている可能性がある(例えば、極端な例として、人物Aの場合には横縞、人物Bの場合には縦縞になるマスク)。これを防止するために、下記の(式4)の条件を加えて、あるパターンHiで符号化された画像は、それと同時に最適化されたRiのみで判別でき、それ以外のRiでは判別しにくいように最適化をすることで、パターンHiを知らない認識機能Rjでは識別できないようにする。すなわち、認識率とボケとマシーンプライバシー(撮影画像の変化とラベルとの相関が分かりにくくなること)を同時に実現するマスク2のパターンの生成を実現する。
 例えば、予め複数種類のパターンHiと、各種のパターンに対して最適化されている認識機能Riとが予め組み合わせとして図略の記憶部、例えば認識部12内の記憶部に記憶(準備)され、図略の制御部(認識部12含む)が、これらの組み合わせ情報を記憶し、制御するようにしている。ある撮影に際して、認識部12が、または図略の制御部が、パターンHiのマスク2を選択した場合、対応しない認識機能Rjではなく、組としての認識機能Riを選択して認識処理に適用することで、所期の、すなわち最適化状態での認識処理が実行される。このように、暗号表のように適用できることで、さらにセキュリティを高めることができる。
 ただし、前述した方法は、プライバシーを人間の視覚から保護するだけで、複数の事例をトレーニングすると、同様のパターンと認識機能のペアが生成される。これは、対角線について高精度を示す図9で確認できる。なお、図9は、複数のHiおよびRiに対するLwoC-woRecの混同行列を示す図で、(i,j)の各値は、i番目のコード化パターンHiの入力レンズレス測定でのj番目の認識機能RjのTop1精度を示している。ユニークなペア{Ri,Hi}をトレーニングするには、マシンビジョンのプライバシー保護が必要である。Lregが入力xとラベルbのクロスエントロピー損失関数を表す場合、(式4)によって不一致ペアの精度を低くすることが容易である。
Figure JPOXMLDOC01-appb-M000005
 (式4)は、一意のペアMの数が増えるにつれて、Riの複数の推論を伴う大量の計算を必要とする。最後に、トレーニングの損失は、(式5)で表されるような、人間の視覚とマシンビジョンの視覚的なプライバシーを保護する損失の組み合わせである。
Figure JPOXMLDOC01-appb-M000006
 コード化されたパターンHとRの新しいペアの場合、より複雑な損失が追加される。
(C)シミュレーションデータの実験結果
(1)データセットとトレーニング
(1-1)データセット
 ここでは、VGG-Face2データセット(学習済みモデル)の主な結果を紹介する。また、調整されたMicrosoft(登録商標)Celeb(MS-Celeb)およびCASIAデータセットについて追加の実験を行った。すべてのデータセットで、画像数が最も多い10個のクラスを選択し、それらを95:5の比率でトレーニングセットとテストセットとに分けた。データを補足するために、ランダムクロッピングと垂直フリッピングとを採用した。
(1-2)トレーニング
 ここでは、顔認識にResNet18を使用した。ネットワークは、確率的勾配降下オプティマイザーを用いてトレーニングした。ミニバッチサイズは128とした。3つの設定として画像サイズn={63×63,127×127}、およびコード化パターンサイズm={32×32,64×64}を用いた。コード化された比率は、r=n/mと定義され、開口率は、パターン領域全体に対するパターン内の「1」要素の総数で表される。トレーニング後、最高のTop1テスト精度を持つネットワークを最終的なソリューションとして選択した。重み係数α、βについては、10-2から10-8までの様々な組み合わせをテストした。再構成のために、17個の残差ブロックを使用して、Div2K(学習画像及びテスト画像)のデータセットからクリーンな画像とキャプチャした画像との間の残差を学習した。
(2)人間の視覚プライバシーパフォーマンス
 人間の目が物体を認識する能力を測定する方法に関する研究が不足しているため、視覚的プライバシーを評価することは非常に困難である。一般に、画像がぼやけていると、人間は被写体を認識しにくくなる。そこで、非参照ブラーメトリック(non-reference blur metric)を採用して、視覚的なプライバシー品質を評価した。前記した表1に示すように、すべての学習パターンスキームは、従来のピンホールイメージングと比較して、5%未満の損失で高い認識精度を生み出した。さらに、再構成は認識に必要ではないが、精度が低下する。より良い再構成法は精度を高めることに注意する必要がある。しかしながら、それらの方法では固定されたコード化パターンを必要とするため、本方式には適していない。逆に、プロセスの途中で再構築を行うと、セキュリティリスクが高まる可能性がある。さらに、最近、直接認識が最初の再構成よりも優れていることも示唆されている。
 図10(A)(B)から、MSE損失はデフォーカスイメージングと制約なしのイメージング(LwoC-woRec)との間のトレードオフを提供するが、TV損失はRand-woRecとLwoC-woRecとの間でトレードオフがあることを容易に観察できる。重みが小さいほど、制約なしの結果に近い結果となる。曲線が右上に移動するにつれて、TV損失はMSE損失よりもわずかに良い結果をもたらす。なお、図10(A)、(B)では、マスクパターンはどちらも同じ32x32であるが、画像サイズが異なる(画素数により情報量が違う)ため、認識率が異なる。(B)の方が、(A)よりも解像度が高いため、同じ光学ボケ量でも認識率が高くなっている。
 重み係数の影響を図11に示す。重みが小さいほど、開口率が小さくなり、精度が高くなるが、より多くの情報が明らかになる。視覚的には、MSEとTVの両方の損失関数は、正確性を犠牲にして視覚的なプライバシーを確保できる。逆に、開口率を小さくすると、光効率が低下する。本シミュレーションではこの影響を考慮していないが、これは実際の測定からの認識の精度に大きく影響する。
 本実験の結果は、重み係数αが、TV損失では10-4~10-6で、MSE損失では10-6~10-8で適切に機能したことを示した。本実験に基づいて、優れたトレードオフパフォーマンスとプライバシー保護のためにα=10-4のTV損失を選択し、より高い精度のためにα=10-5を選択した。
(3)マシンの視覚的なプライバシーとセキュリティのパフォーマンス
 セキュリティアプリケーションの場合、パターンと認識機能の混同行列の2つの客観的スコアを定義する。これらを自己精度と相互精度とする。自己精度は、(式6)で示され、混同行列の対角線の平均として定義される。これは、正しいペアHとRを使用した平均精度である。
Figure JPOXMLDOC01-appb-M000007
 相互精度は、混同行列の非対角線の平均精度であり、学習パターンと認識機能との不一致ペアが使用された場合のパフォーマンスを表す。一般的に、自己精度は高く、相互精度は低い方が望ましい。自己精度と相互精度のパフォーマンスの差が大きいほど優れている。さまざまな方法の混同行列を図12に示す。
 また、表2は、ResNet18を使用した様々なサンプリング方式のTop1精度(%)で、LwC-MSEの場合はα=10-8、LwC-TVの場合はα=10-6、LwC-TV-Regの場合はα=10-4、β=10-6である。
Figure JPOXMLDOC01-appb-T000008
 表2の結果が示すように、制約がない場合、LwoC-woRecは最高の自己精度を達成するが、相互精度も高くなっている。MSEとTVによる人間の視覚の喪失は人間の視覚に関する視覚的プライバシーを改善するが、マシンビジョンに対する保護には役立たない。そのため、平均(70%)と最大(80%)の相互精度の高い値が報告された。逆に、(式4)で示されたLreg mvによるマシンビジョンの視覚的なプライバシー保護の損失は、高い精度を維持しながら相互精度を低下させるのに役立つ。ML損失は、M=3まで有効であり、自己精度と相互精度の間に40%の精度のギャップがある。一方、LwoCでは18%、LwCでは4%、LwC-TVでは12%である。残念ながら、Mの一意のペアの数が増えると、相互精度が上がるにつれてML損失の効果が低下する。1つの理由は、トレーニングフレームワークがシーケンシャルであるため、新しい一意のペアをトレーニングすることがより困難になることにある。ただし、精度は、まだ最適化されていないハイパーパラメータαおよびβによっても大きく影響される。
(4)実データの実験結果
(ハードウェアの実現)
 提案した方法を検証するために、図13に示すようなプロトタイプのイメージングシステムを実装した。本カメラは、モノクロイメージングセンサ4(Grasshoper3モデルGS3-U3-41C6M-C、2048×2048)と、マスク2Bとで構成されている。マスク2Bは、空間光変調器20B(SLM;LC 2012、1024×768)と、空間光変調器20Bの前後に配置された偏光子20f、20bとで構成され、両者の相対角を調整して入射光を輝度変調する。センサ4とマスク2Bのコード面との間の距離は約17mmである。SLMから約1m離れたところに画像を表示するモニタ(Plasmadisplay)が設置されている。
 コード化されたパターンは、32×32から716×716に再スケーリングされ、SLMのサイズが1024×768になるようにゼロが埋め込まれている。図14に示すように、マスク2に関して5種類の符号化パターンを評価した。開口率の違いを補正するために、シャッター時間を手動で選択した。顔面テスト画像も、画像センサの中央に表示されるようにディスプレイ画面で再スケーリングおよびキャリブレーションされた。ただし、イメージセンサとSLMの間にはまだ相互反射がある。したがって、SLMのアパーチャが近いキャプチャ画像が補正に使用された。さらに、ノイズと光効率の低下の影響を低減するために、認識機能の入力として、平均10倍のキャプチャ測定を採用した。
 まず、測定値は図14に示す様々なパターンで、16ビットグレースケールでキャプチャした。シミュレーションとは異なり、実際のイメージングシナリオでは、ピンホールイメージングは光量が非常に少ないため品質が非常に低くなる。キャプチャで可視画像を観察することもできる。シミュレーションと同様に、デフォーカスとランダムパターン(露出率50%)の測定からプライバシー情報は観察されなかった。さらに、制約なしで、学習パターンLwoCは、TV損失の制約よりも多くの情報を明らかにした。
 顔認識アプリケーションの場合、CASIAトレインとテストセットでそれぞれ70枚と20枚の最高解像度画像のサブセットを選択して、実際のレンズなし測定値をキャプチャした。顔認識の前に、実際にキャプチャされた画像が正規化され、中央の顔領域の80%にさらにトリミングを施した。すべてゼロのマスクを使用して、各画像の背景画像をキャプチャした。背景画像を差し引いて、漏れる光を補正した。最終的なトレーニング画像は、トレーニング用に128×128にサイズ変更した。さらにシミュレーションで学習したresNet18を上記実際の撮影データを用いて再トレーニングすることで、モデルを実際の画像(実画像)に合わせてリファイメントした。
 シミュレーションでは高いパフォーマンスが得られるが、コード化された比率が小さいと、効率の悪い光がキャプチャされるため、ピンホールイメージングは実際のデータセットではパフォーマンスが低いことがわかる。ピンホール画像は他の画像よりもノイズが多いため、パフォーマンスが制限される。また、ピンホール画像には、ぼやけスコアが0.140と小さく、多くの詳細が含まれている。デフォーカスイメージングでは、認識のパフォーマンスが低下する。キャプチャされた画像には、情報がないためにぼやけスコアが小さいことが示されている。また、ランダムマスクは少し優れたパフォーマンスを示したが、LwoCおよびLwC-TVの学習済みマスクよりも最悪である。
Figure JPOXMLDOC01-appb-T000009
 表3は、選択したCASIA10の面データセットを使用したTop1精度(%)を示している。表3は、実画像における実験結果を示しており、シミュレーションと同様に提案しているLowC-TVの性能が画像のボケが大きい、すなわち見かけのプライバシーが保護されているのに対して認識率が十分高いことが示された。また、実実装における画像のコントラスト低下は、背景差分(撮影画像から何も写っていない画像の輝度値を引く)を用いることで改善が見られることが示された。
(D)結論と考察
 以上、人間の視覚モデルと対象となるマシンビジョンモデルの両方から視覚的プライバシーを保護するために、学習したレンズレスイメージングシステムを提案した。視覚的なプライバシーを人間の視覚から保護するために、MSEを使用して測定のぼやかしを最大化し、TV損失を使用して学習パターンの変動を最大化した。本実験を通じて、本方法は、レンズレスイメージングの視覚的なプライバシー保護と認識精度とのトレードオフへの対応を可能にすることを確認した。精度が少し低下するが、この方法では視覚的なプライバシーを十分に保護できる。さらに、認識損失を使用して、マシンビジョンモデルから視覚的なプライバシーを保護した。シーケンシャルトレーニングフレームワークが提示され、コード化されたパターンの複数の一意のペアとディープラーニングベースの認識機能をトレーニングすることで、セキュリティアプリケーションを有効にした。
 ここでは、ぼやけた画像が少ないほど、人間がオブジェクトを認識しにくくなるという単純な仮説に基づいている。ただし、オブジェクトを認識するためのぼやかしメトリックのしきい値は明確ではなく、コード化された比率に依存する。一方、ブラインドイメージのブレ除去技術を使用して、元のイメージを再構築できる。主観的な品質評価と学習したカーネルの影響とに関するさらなる研究が奨励される。
 本逐次訓練方法は、コード化されたパターンと認識機能とのユニークなペアを学ぶことができた。ただし、フレームワークは、処理できる一意のペア(すなわち、キースペース)の数に制限がある。HとRとの多数の一意のペア(すなわち、Mの増加)の場合の処理方法は未解決の問題である。さらに、敵対的なサンプルに関する技術をさらに統合して、より優れたトレーニング方法を提供できる。固定パターンを使用した以前の技術とは異なり、コード化されたパターンを学習して、より高い認識精度を実現する。ただし、システムはシミュレートされたデータのみでトレーニングされた。
 以上説明したように、本発明に係るカメラは、感光素子からなる画素が複数配列された面状の撮像素子と、前記撮像素子の前面に配置され、入射光を変調するパターンが形成された面状の変調素子とを含み、前記パターンは、被写体からの光線のうち、複数方向からの光線を1つの画素に導く各々の透光部が複数配列されたものを含むことを特徴とするものである。
 本発明によれば、被写体からの光線は変調素子で光学的に変調された後、撮像素子で撮像される。撮影画像は、光学的網膜像のような空間的射影情報を破壊されるが、本質的に認識に必要な情報は保持可能となる。これにより、記録又は万が一漏洩したデータ列から視覚的に内容を認識することが困難であるため、プライバシーは保護される。
 また、前記透光部は、透過する複数の方向からの光線を複数の画素に導くものを含むことが好ましい。この構成によれば、1つの透光部を透過した光線を分散的にすることで、さらに空間的射影情報は破壊されて、プライバシーは保護される。
 また、前記透光部は、遮光用のマスク面に孔が穿設されたものであることが好ましい。この構成によれば、孔を穿設することにより容易に変調素子が制作可能となる。
 また、前記孔は、前記画素のサイズよりも大きいことが好ましい。この構成によれば、複数の光線を透過さえることができ、その分、空間的射影情報が壊される。
 また、前記透光部は、表面が凸凹状に形成された透光性を有する板状体であることが好ましい。この構成によれば、マスク以外の、例えば透光性部材の表面加工で変調素子が制作可能となる。
 また、本発明に係るイメージングシステムは、前記カメラで撮像された被写体の撮像画像を読み出す読出部と、読み出された撮像画像から被写体の付属情報に対する所定の認識を行う認識器とを備えることが好ましい。本発明によれば、網膜像に復元することなく、直接認識器で認識することで、全く視覚的に理解可能な画像を介さないのでプライバシー保護の優位性がある。
 また、前記変調素子と前記認識器とは、前記変調素子のパターンを経て撮像される被写体の画像のボケ具合と前記認識器の認識率との両性能が最適化されていることが好ましい。この構成によれば、パターンを経た撮像画像のボケと認識部での認識率とが同時にベストの状態で処理可能となる。
 また、複数種類のパターンHi(i=1,2,…)と、各種のパターンに対して最適化されている認識機能Riとを予め組み合わせとして記憶した記憶部と、撮像時に組み合わせのパターンと認識機能(Hi,Ri)を選択する制御部とを備えることが好ましい。この構成によれば、いわゆる暗号表のように適用できることで、さらにセキュリティを高めることができる。
 1 イメージングシステム
 11 カメラ
 12 認識部(認識器)
 2,2a,2b、2c、2B マスク(変調素子)
 20B 空間光変調器(変調素子)
 21,21c、21b、22b、21c 透光部
 2d 板状体(変調素子)
 21d 粗面(一部が透光部)
 4 撮像素子
 42 画素

Claims (8)

  1.  感光素子からなる画素が複数配列された面状の撮像素子と、
     前記撮像素子の前面に配置され、入射光を変調するパターンが形成された面状の変調素子とを含み、
     前記パターンは、被写体からの光線のうち、複数方向からの光線を1つの画素に導く各々の透光部が複数配列されたものを含むことを特徴とするカメラ。
  2.  前記透光部は、透過する複数の方向からの光線を複数の画素に導くものを含む請求項1に記載のカメラ。
  3.  前記透光部は、遮光用のマスク面に孔が穿設されたものである請求項1又は2に記載のカメラ。
  4.  前記孔は、前記画素のサイズよりも大きいことを特徴とする請求項3に記載のカメラ。
  5.  前記透光部は、表面が凸凹状に形成された透光性を有する板状体である請求項1又は2に記載のカメラ。
  6.  請求項1~5のいずれかに記載のカメラで撮像された被写体の撮像画像を読み出す読出部と、
     読み出された撮像画像から被写体の付属情報に対する所定の判定を行う認識器とを備えたイメージングシステム。
  7.  前記変調素子と前記認識器とは、前記変調素子のパターンを経て撮像される被写体の画像のボケ具合と前記認識器の認識率との両性能が最適化されていることを特徴とする請求項6に記載のイメージングシステム。
  8.  複数種類のパターンHi(i=1,2,…)と、各種のパターンに対して最適化されている認識機能Riとを予め組み合わせとして記憶した記憶部と、
     撮像時に組み合わせのパターンと認識機能(Hi,Ri)を選択する制御部とを備えた請求項6又は7に記載のイメージングシステム。
PCT/JP2020/039020 2019-10-18 2020-10-16 カメラ及びイメージングシステム WO2021075527A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021552455A JPWO2021075527A1 (ja) 2019-10-18 2020-10-16

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-190917 2019-10-18
JP2019190917 2019-10-18

Publications (1)

Publication Number Publication Date
WO2021075527A1 true WO2021075527A1 (ja) 2021-04-22

Family

ID=75538245

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/039020 WO2021075527A1 (ja) 2019-10-18 2020-10-16 カメラ及びイメージングシステム

Country Status (2)

Country Link
JP (1) JPWO2021075527A1 (ja)
WO (1) WO2021075527A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023276021A1 (ja) * 2021-06-30 2023-01-05 日本電信電話株式会社 画像生成装置、画像生成方法及びプログラム
JP2023068679A (ja) * 2021-11-03 2023-05-18 克貴 美木 保安管理システム、保安管理方法及び符号化撮像装置
WO2023127589A1 (ja) * 2021-12-27 2023-07-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像識別システム、画像識別方法、画像識別プログラム及び画像識別プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体
WO2023138629A1 (zh) * 2022-01-21 2023-07-27 清华大学 加密图像信息获取装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11297979A (ja) * 1998-04-07 1999-10-29 Sony Corp 固体撮像装置
JP2016165070A (ja) * 2015-03-06 2016-09-08 国立大学法人 鹿児島大学 撮像装置、電子透かしの抽出方法、電子透かし及び符号化開口の最適化方法
WO2017145348A1 (ja) * 2016-02-26 2017-08-31 株式会社日立製作所 撮像装置
JP2018061109A (ja) * 2016-10-04 2018-04-12 株式会社日立製作所 撮像装置および撮像方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11297979A (ja) * 1998-04-07 1999-10-29 Sony Corp 固体撮像装置
JP2016165070A (ja) * 2015-03-06 2016-09-08 国立大学法人 鹿児島大学 撮像装置、電子透かしの抽出方法、電子透かし及び符号化開口の最適化方法
WO2017145348A1 (ja) * 2016-02-26 2017-08-31 株式会社日立製作所 撮像装置
JP2018061109A (ja) * 2016-10-04 2018-04-12 株式会社日立製作所 撮像装置および撮像方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG, ZIHAO W. ET AL.: "Privacy-Preserving Action Recognition using Coded Aperture Videos", 2019 IEEE /CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW, 17 June 2019 (2019-06-17), pages 1 - 10, XP033747023, ISSN: 2160-7516, DOI: 10.1109/CVPRW.2019.00007 *
WU, ZHENYU ET AL.: "Towards Privacy-Preserving Visual Recognition via Adversarial Training: A Pilot Study", EUROPIAN CONFERENCE ON COMPUTER VISION (ECCV) 2018, 2018, pages 606 - 624 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023276021A1 (ja) * 2021-06-30 2023-01-05 日本電信電話株式会社 画像生成装置、画像生成方法及びプログラム
JP2023068679A (ja) * 2021-11-03 2023-05-18 克貴 美木 保安管理システム、保安管理方法及び符号化撮像装置
JP7288945B2 (ja) 2021-11-03 2023-06-08 克貴 美木 保安管理システム、保安管理方法及び符号化撮像装置
WO2023127589A1 (ja) * 2021-12-27 2023-07-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 画像識別システム、画像識別方法、画像識別プログラム及び画像識別プログラムを記録したコンピュータ読み取り可能な非一時的な記録媒体
WO2023138629A1 (zh) * 2022-01-21 2023-07-27 清华大学 加密图像信息获取装置及方法

Also Published As

Publication number Publication date
JPWO2021075527A1 (ja) 2021-04-22

Similar Documents

Publication Publication Date Title
WO2021075527A1 (ja) カメラ及びイメージングシステム
KR101356358B1 (ko) 눈의 이미지에 기초한 바이오메트릭 인증을 위한 기기 및 컴퓨터 구현 방법
Li et al. Face recognition under spoofing attacks: countermeasures and research directions
US20160019421A1 (en) Multispectral eye analysis for identity authentication
US20160019420A1 (en) Multispectral eye analysis for identity authentication
US20200380279A1 (en) Method and apparatus for liveness detection, electronic device, and storage medium
US20170091550A1 (en) Multispectral eye analysis for identity authentication
Raghavendra et al. Exploring the usefulness of light field cameras for biometrics: An empirical study on face and iris recognition
CN107077602A (zh) 用于活性分析的系统及方法
EP3362942B1 (en) Electronic devices with improved iris recognition and methods thereof
CN110069970A (zh) 活性测试方法和设备
US10521662B2 (en) Unguided passive biometric enrollment
KR20140020735A (ko) 바이오메트릭 인증을 위한 품질 메트릭
Masia et al. Perceptually optimized coded apertures for defocus deblurring
CN113298060B (zh) 保护隐私的生物特征识别方法和装置
KR20210038644A (ko) 생체 인증 시스템, 생체 인증 방법 및 프로그램
CN111353404A (zh) 一种人脸识别方法、装置及设备
Farrukh et al. FaceRevelio: a face liveness detection system for smartphones with a single front camera
CN104184936B (zh) 基于光场相机的影像对焦处理方法及其系统
CN108647650B (zh) 一种基于角膜反射和光学编码的人脸活体检测方法及系统
Benlamoudi Multi-modal and anti-spoofing person identification
JP2005287878A (ja) 生体判別装置および認証装置ならびに生体判別方法
CN111699495B (zh) 反欺骗面部id感测
KR20220062595A (ko) 사용자의 생체 특성을 갖는 사용자의 객체 이미지로부터 데이터를 획득하는 방법(A method for obtaining data from an image of an object of a user that has a biometric characteristic of the user)
TWI756598B (zh) 編碼遮罩生物特徵重建與分析方法、儲存介質及神經網路與編碼遮罩式螢幕下生物特徵辨識結構、系統及方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20876458

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021552455

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20876458

Country of ref document: EP

Kind code of ref document: A1