WO2023132076A1 - 画像加工装置、画像加工方法及び画像加工プログラム - Google Patents

画像加工装置、画像加工方法及び画像加工プログラム Download PDF

Info

Publication number
WO2023132076A1
WO2023132076A1 PCT/JP2022/000417 JP2022000417W WO2023132076A1 WO 2023132076 A1 WO2023132076 A1 WO 2023132076A1 JP 2022000417 W JP2022000417 W JP 2022000417W WO 2023132076 A1 WO2023132076 A1 WO 2023132076A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
face
processing
image processing
orientation
Prior art date
Application number
PCT/JP2022/000417
Other languages
English (en)
French (fr)
Inventor
秀継 内田
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2022/000417 priority Critical patent/WO2023132076A1/ja
Publication of WO2023132076A1 publication Critical patent/WO2023132076A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing

Definitions

  • the present invention relates to an image processing device, an image processing method, and an image processing program.
  • face images images of individuals' faces
  • the face image de-identification technology described above is uniformly applied to both face images that are easy to recognize and face images that are difficult to recognize. Therefore, a face image for which face authentication is difficult may be distorted from the original face image due to unnecessary unnecessary processing, although the purpose of de-identification has been achieved.
  • An object of one aspect is to provide an image processing device, an image processing method, and an image processing program that can process an original face image by narrowing down the processing to face images that are easy to recognize.
  • An image processing apparatus includes an acquisition unit that acquires an image including a person's face, and noise is added to the image when the relative angle of the orientation of the face included in the image with respect to the frontal orientation is less than a threshold. and a processing unit for imparting.
  • processing of the original face image can be performed by narrowing down to face images that facilitate face authentication.
  • FIG. 1 is a block diagram showing a functional configuration example of an information processing apparatus.
  • FIG. 2 is a diagram showing an example of a reception screen for an image processing request.
  • FIG. 3 is a diagram (1) showing an operation example of the determination unit;
  • FIG. 4 is a diagram (2) showing an operation example of the determination unit;
  • FIG. 5 is a diagram showing an example of a first processed face image and a second processed face image.
  • FIG. 6 is a diagram showing an example of a usage scene of the second processed face image.
  • FIG. 7 is a flow chart showing the procedure of image processing.
  • FIG. 8 is a diagram illustrating a hardware configuration example.
  • FIG. 1 is a block diagram showing a functional configuration example of an information processing device.
  • the information processing apparatus 1 shown in FIG. 1 is equipped with an image processing function for processing an original facial image from the aspect of realizing de-identification of the facial image.
  • the image processing function described above may be incorporated into an SNS application that accepts image posting, or a user application such as a softphone that implements web conferences, video calls, and the like. It should be noted that the image processing function described above is not limited to the user application described above, but can also be provided as a service by implementing it as a Web application or a SaaS (Software as a Service) type application.
  • FIG. 1 schematically shows blocks related to the image processing functions of the information processing apparatus 1 .
  • the information processing device 1 has a display input unit 2 , an imaging unit 3 , a storage unit 4 and a control unit 5 .
  • FIG. 1 only shows an excerpt of the functional units related to the image processing functions described above, and functional units other than those shown in the figure, such as functional units that existing computers are equipped with by default or as an option, such as
  • the information processing apparatus 1 may be provided with a communication control unit and the like.
  • the display input unit 2 is a functional unit that inputs various operations and displays various information.
  • the display input unit 2 can be realized by a touch panel in which an input device and a display device are integrated. This is merely an example, and the function of inputting various operations and the function of displaying various types of information may not necessarily be integrated, and the input section and the display section may be provided separately.
  • the imaging unit 3 is a functional unit that captures images.
  • the "image” referred to here may be either a still image or a moving image.
  • the imaging unit 3 can be realized by a front camera arranged in the same direction as the screen surface of the display input unit 2 or a rear camera arranged behind the screen of the display input unit 2 .
  • the storage unit 4 is a functional unit that stores various data.
  • the storage unit 4 can be realized by internal, external or auxiliary storage.
  • the storage unit 4 stores an original face image 40 captured by the imaging unit 3 and a A second processed face image 45 is stored.
  • the storage unit 4 stores various data such as user data of the information processing device 1 in addition to parameters used by the functional units in the control unit 5 for processing. can be memorized.
  • the control unit 5 is a processing unit that performs overall control of the information processing device 1 .
  • the controller 5 is realized by a hardware processor.
  • the control unit 5 may be realized by hardwired logic.
  • control unit 5 performs image processing in which functional units corresponding to the above image processing functions are virtually realized as processes by executing an image processing program for realizing the above image processing functions by a processor. It has a part 7.
  • the image processing unit 7 includes an acquisition unit 7A, a determination unit 7B, a first processing unit 7C, a separation unit 7D, a second processing unit 7E, and a synthesis unit 7F. .
  • the acquisition unit 7A is a processing unit that acquires an original face image.
  • the "original facial image” referred to here is, as one aspect, the original facial image before being processed by the first processing unit 7C and the second processing unit 7E.
  • the acquisition unit 7A can acquire the original face image from the imaging unit 3 frame by frame.
  • the information source from which the acquisition unit 7A acquires the original face image may be any information source and is not necessarily limited to the imaging unit 3.
  • the acquisition unit 7A may acquire the original face image from a built-in or attached storage, removable media that can be attached to and removed from the information processing apparatus 1, or any computer connected via a network.
  • the determination unit 7B is a processing unit that determines whether or not to process the original face image. As an embodiment, the determination unit 7B determines whether or not to process the original face image based on whether or not the relative angle of the face orientation obtained from the original face image acquired by the acquisition unit 7A with respect to the frontal orientation is equal to or greater than a threshold. determine whether The term “frontal orientation” as used herein refers to an orientation in which the imaging surface on which the imaging element of the imaging unit 3 is arranged and the front of the face face each other, or the optical axis passing through the optical center is in the normal direction of the face. We will point to the corresponding direction.
  • the relative angle of the orientation of the face with reference to the front orientation may be referred to as the "relative angle of the orientation of the face.”
  • FIG. 2 is a diagram showing an example of a reception screen for an image processing request.
  • the determination unit 7B causes the display/input unit 2 to display a reception screen 20 for accepting a request to process the original face image 40A acquired from the imaging unit 3 via the acquisition unit 7A.
  • Yes button 21 and No button 22 are displayed as GUI (Graphical User Interface) parts for accepting confirmation of intention. is displayed.
  • An image processing request is accepted through the operation of the Yes button 21 displayed on the acceptance screen 20 as described above.
  • the determination unit 7B calculates the relative angle of the orientation of the face included in the original face image.
  • Any head pose estimation technology can be used to calculate the relative angle of the face orientation, but as an example, a trained machine learning model published as an OSS (Open Source Software) library can be used.
  • the machine learning model uses a neural network such as a CNN (Convolved Neural Network). This machine learning model takes as inputs an image and the feature values obtained from the image, such as the coordinates of the endpoints of facial parts such as the eyes, nose, mouth, and eyebrows, and outputs the relative angle of the face orientation.
  • CNN Convolved Neural Network
  • the relative angle of the orientation of the face included in the original face image 40 is calculated. After that, the determination unit 7B determines whether or not the relative angle of the face orientation is less than the threshold value, just as an example of evaluating the easiness of face authentication of the original image.
  • the relative angle of the orientation of the face is less than the threshold, it is found that the degree of deviation of the front of the face included in the original face image from facing the imaging surface of the imaging unit 3 is small. In this case, there is a high possibility that the original face image contains enough features to be used for face authentication.
  • FIG. 3 is a diagram (1) showing an operation example of the determination unit 7B.
  • an original face image 40A captured by the user of the information processing device 1 with the face facing the imaging unit 3 is taken as an example.
  • an original face image 40A is input to the machine learning model 7BM for estimating the head posture given in the above example.
  • the machine learning model 7BM to which the original face image 40A is input in this way outputs the relative angles ( ⁇ pitch , ⁇ roll , ⁇ yaw ) of the face directions included in the original face image 40A.
  • ⁇ pitch refers to the rotation angle about the x-axis
  • ⁇ roll refers to the rotation angle about the z-axis
  • ⁇ yaw refers to the rotation angle about the y-axis.
  • These relative angles change depending on the photographing position of the imaging unit 3 such as the so-called camera position or camera angle, or the user's vertical swing motion, tilting motion, or left and right neck motion. It changes depending on the swinging motion.
  • the determination unit 7B determines whether or not ⁇ pitch is less than ⁇ th1 and whether or not ⁇ yaw is less than ⁇ th2 . Through such determination, the degree of deviation from the state in which the imaging plane of the imaging unit 3 and the front of the user's face of the information processing device 1 face each other is evaluated.
  • ⁇ pitch is less than ⁇ th1 and ⁇ yaw is It is determined that ⁇ is less than th2 .
  • the original face image 40A is more likely to include sufficient features to be used for face authentication. For example, occlusion occurs at some of the feature points such as the end points of facial parts, and distortion occurs in the positional relationship between feature points. This narrows the possibility that the difference between the training data and the training data will increase. Therefore, it is estimated that face authentication of the original face image 40A is easy. In this case, the purpose of de-identification cannot be achieved with the original face image 40A as it is. is entered.
  • the relative angle of the face orientation is equal to or greater than the threshold, it is found that the front of the face included in the original face image deviates greatly from the state in which it faces the imaging surface of the imaging unit 3 . In this case, the possibility that the face included in the original face image is oriented in the horizontal or vertical direction increases, and as a result, the possibility that the original face image does not include sufficient features used for face authentication also increases.
  • FIG. 4 is a diagram (2) showing an operation example of the determination unit 7B.
  • an original face image 40B captured by the user of the information processing device 1 with the upper right side of the face directed toward the imaging unit 3 is shown as an example.
  • the original face image 40B is input to the machine learning model 7BM for estimating the head posture given in the above example.
  • the machine learning model 7BM to which the original face image 40B is input in this way outputs the relative angles ( ⁇ pitch , ⁇ roll , ⁇ yaw ) of the face directions included in the original face image 40B.
  • ⁇ pitch is not less than ⁇ th1 and ⁇ yaw is It is determined that ⁇ is not less than th2 .
  • the original face image 40B is more likely to not include enough features to be used for face authentication. For example, occlusion occurs at some of the feature points such as the end points of facial parts, and distortion occurs in the positional relationship between feature points. There is a high possibility that the difference between the training data and the training data will increase. Therefore, it is estimated that the face recognition of the original face image 40B is difficult. In this case, since the purpose of de-identification is achieved with the original face image 40B as it is, processing of the original face image 40B is suppressed and the original face image 40B is stored in the storage unit 4. FIG.
  • FIG. 2 shows an example in which the determination process for determining the relative angle of the face orientation by the determination unit 7B is started only after an image processing request is accepted, but the above determination may be performed without necessarily accepting a user request.
  • a process may be activated. For example, when an original face image is acquired, it goes without saying that the above determination processing can be automatically executed.
  • FIG. 2 shows an example in which the above image processing function is incorporated into the camera function as an example of a usage scene, but the timing of executing the above determination process can be changed arbitrarily according to the usage scene.
  • the determination process can be manually or automatically started at the timing when the original face image is posted to the SNS.
  • the determination process can be manually or automatically activated at the timing when the video of the Web conference or the like is switched to the ON state.
  • FIG . 4 shows an example where ⁇ pitch is not less than ⁇ th1 and ⁇ yaw is not less than ⁇ th2 as an example only. If it is not less than, it is possible to suppress the execution of processing on the original face image. Furthermore, it goes without saying that the two rotation angles ⁇ pitch and ⁇ yaw may not necessarily be determined, and only one of them may be determined.
  • the example of determining whether the relative angle of the face orientation is less than the threshold is given. It is also possible to evaluate the ease of face recognition based on the degree of blurring. For example, when the intensity of illumination detected from the original face image is less than a threshold value, the original face image can be processed. Further, when the evaluation value of the blur detected from the original face image is less than the threshold value, the original face image can be narrowed down and processed. In addition, when the number of feature points extracted from the original face image is equal to or greater than a threshold, or when the ratio of feature points extracted from the original face image is equal to or greater than a threshold, the original face image is processed. be able to.
  • the first processing unit 7C is a processing unit that executes the first processing.
  • the first processing unit 7C performs the first processing on the original face image when the relative angle of the face orientation is less than a threshold.
  • the “first processing” referred to here corresponds to anonymization processing using image conversion among facial image de-identification techniques.
  • the first processing unit 7C while maintaining the subjective individuality of the face image, adjusts the original face image so that the objective individuality (calculated by the face authentication system) does not match the original face image. changes the geometric measures of the face included in the , such as features related to the geometric structure of the face (such as the positional relationship and shape of facial parts).
  • the first processing is realized by a machine learning model that has undergone machine learning to reduce the similarity between the feature amount obtained from the original face image and the feature amount after processing.
  • a machine learning model that has undergone machine learning to reduce the similarity between the feature amount obtained from the original face image and the feature amount after processing.
  • face authentication is performed using the degree of similarity with the feature amount. Therefore, face authentication may not be performed normally depending on the resolution of the face image, the angle of the face, and the expression. If the face image to be anonymized is such an image that makes face authentication difficult, the original purpose of suppressing unwilling authentication is achieved, so there is no need to perform anonymization processing.
  • the machine learning model is subjected to machine learning for reducing the similarity not to the feature quantity of the original face image but to the feature quantity corresponding to the front face corresponding to the original image.
  • it is possible to avoid unnecessary processing of the original face image, which is inherently difficult to recognize, and to suppress deterioration in image quality.
  • a plurality of face images of the same person photographed at different angles are used as training samples, and a set of such training samples is used as a training data set.
  • a neural network such as CNN can be applied to the above machine learning model as an example only.
  • the representative value of the feature quantity representing multiple face images is calculated.
  • the representative value is calculated by calculating the statistical value of the feature amount among a plurality of face images, such as the average value, the median value, and the mode value, or based on the face image quality described in the following document. It can be calculated by merging the feature amount.
  • the loss function Loss shown in the following formula (1) can be mentioned. Parameter updates are repeated to minimize the loss function of equation (1) below.
  • "Ii” in the following formula (1) refers to the original face image
  • fic refers to the representative value of the feature amount of the training sample
  • T(Ii) refers to the first processed face image
  • “F(T(Ii))” refer to the feature amount of the first processed face image.
  • Sim() refers to a similarity function
  • dis() refers to a distance function
  • max() refers to a function that returns the maximum value.
  • the first processed face image is significantly modified from the original face image.
  • the loss function Loss can be operated to constrain .
  • the terms max(sim(F(T(Ii)),fic),thr) and dis(T(Ii),Ii) show that the features of the original face image are sufficiently representative of the features of the training samples.
  • the first manipulation by T( ) can be approximated to a transformation close to the identity map.
  • loss occurs only for the portion exceeding the threshold thr, so unnecessary processing can be avoided.
  • the first face image obtained by performing the first processing on the original face image is output from the machine learning model. of processed face images can be obtained.
  • the separation unit 7D is a processing unit that performs frequency separation of the face image. Such frequency separation may be achieved by filtering, by way of example only.
  • FIG. 5 is a diagram showing an example of the first processed face image and the second processed face image.
  • FIG. 5 schematically shows the inputs and outputs of the separating section 7D, the second processing section 7E, and the synthesizing section 7F.
  • a first processed face image 43 obtained by subjecting the original face image 40A to the first processing by the first processing section 7C is input to the separation section 7D.
  • the separation unit 7D applies a high-pass filter, such as a Sobel filter, to the first processed face image 43 to separate a high-frequency layer 43H1 from which the high-frequency components of the first processed face image 43 are extracted. can be done.
  • a high-pass filter such as a Sobel filter
  • the separation unit 7D applies a low-pass filter such as a Laplacian filter or a Gaussian filter to the first processed face image 43, thereby extracting low-frequency components of the first processed face image 43 from a low-frequency layer 43L. can be extracted.
  • a low-pass filter such as a Laplacian filter or a Gaussian filter
  • the second processing unit 7E is a processing unit that executes the second processing.
  • the “second processing” referred to here corresponds to noise-based processing using adversarial samples among facial image de-identification techniques.
  • the label output by the machine learning model used in the face recognition engine is erroneously recognized as a correct label, that is, a label other than the user of the information processing device 1, while the user's face is recognized before and after processing. This is achieved by adding a perturbation that preserves visual similarity.
  • perturbation refers to a change in input data to a machine learning model that may be used in a face recognition engine, such as pixel values in a face image.
  • Such second processing may be realized by a machine learning model using a neural network such as CNN.
  • the machine learning model used for the face recognition engine and its parameters are known, that is, if it is a white box, it is possible to de-identify the face image with minute noise.
  • a white box is needed from the aspect of improving generalization performance.
  • a noise with a higher intensity is required than in the case of .
  • a striped pattern appears after processing, which is one of the factors that impair image quality.
  • the second processing unit 7E realizes the second processing by adding noise to the high-frequency components of the first processed face image.
  • Such second processing is technically significant in that the second processed face image 45 in which the influence of noise is less visible can be obtained.
  • the second processing unit 7E extracts a region in which high frequency components are dominant, such as facial wrinkles and hair, or a region composed of high frequency components, such as the contour of the face.
  • the gradation value of pixels corresponding to high frequency components in the first processed face image 43 is set to "white", for example, close to 255, while the gradation value of pixels not corresponding to high frequency components is set to "black”.
  • the high-frequency layer 43H1 is represented.
  • the second processing unit 7E performs the second processing of narrowing down pixels whose density values are equal to or greater than the threshold TH and applying perturbation. As a result, a high frequency layer 43H2 is obtained.
  • the second processing unit 7E can set the upper limit of the perturbation applied to the high frequency components of the first processed face image according to the relative angle of the face orientation. For example, the second processing unit 7E sets an upper limit whose value increases as the relative angle of the face direction decreases, and sets an upper limit whose value decreases as the relative angle of the face direction increases. do.
  • the upper limit L of such a perturbation can be set, by way of example only, according to equation (2) below.
  • “L0” in the following formula (2) indicates the maximum value of the upper limit L
  • “ ⁇ pitch ” indicates the rotation angle around the x-axis
  • “ ⁇ yaw ” indicates the rotation angle around the y-axis.
  • “ ⁇ ” and “ ⁇ ” refer to weights given to ⁇ pitch and ⁇ yaw .
  • the synthesizing unit 7F is a processing unit that synthesizes low frequency components and high frequency components of an image. For example, in the example shown in FIG. 5, the synthesizing unit 7F performs the second processing using the low-frequency layer 43L of the first processed face image 43 output by the separating unit 7D and the second processing unit 7E. A synthesized image with the separated high frequency layer 43H2 is generated. The second processed face image 45 thus obtained is stored in the storage unit 4 .
  • FIG. 6 is a diagram showing an example of a usage scene of the second processed face image 45. As shown in FIG. FIG. 6 shows an example in which the second processed face image 45 shown in FIG. 5 is posted to SNS. It is clear that the second processed face image 45 shown in FIG. 6 and the original face image 40A shown in FIG. Furthermore, FIG. 6 shows an example of unauthorized access by a third party using the second processed face image 45 for face authentication.
  • the machine learning model 8M used in the face recognition engine it is difficult for the machine learning model 8M used in the face recognition engine to classify the class of the input second processed face image 45 into the class corresponding to the user of the information processing apparatus 1 himself/herself. be. Therefore, it is also clear that the second processed face image 45 has anonymity that causes misrecognition of face recognition by the machine learning model 8M used in the face recognition engine. As described above, according to the image processing function according to the present embodiment, de-identification of face images that achieves both visual similarity and anonymity can be realized.
  • FIG. 7 is a flow chart showing the procedure of image processing. As shown in FIG. 7, when a face image is captured by the imaging unit 3 (step S101), the acquisition unit 7A acquires an original face image (step S102).
  • the determination unit 7B calculates the relative angle of the orientation of the face included in the original face image acquired in step S102 with respect to the front orientation (step S103). After that, the determination unit 7B determines whether or not the relative angle of the face direction calculated in step S103 is less than a threshold (step S104).
  • the determination unit 7B saves the original face image acquired in step S102 in the storage unit 4 (step S105), and performs the process. finish.
  • step S104 if the relative angle of the face orientation is less than the threshold (Yes in step S104), it is found that the front of the face included in the original face image is less likely to deviate from the state in which it faces the imaging surface of the imaging unit 3. This increases the possibility that the purpose of facial image de-identification has not been achieved.
  • the first processing unit 7C performs the first processing to change the geometric measure of the face acquired in step S102, for example, the features related to the geometric structure of the face (positional relationship, shape, etc. of facial parts). Execute (step S106). Subsequently, the separation unit 7D separates the first processed face image, which has undergone the first processing in step S106, by frequency (step S107).
  • the second processing unit 7E sets the upper limit of the perturbation applied to the high-frequency components of the first processed face image according to the relative angle of the face direction calculated in step S103 (step S108). Subsequently, the second processing unit 7E performs the second processing by adding noise to the high frequency components of the low frequency components and the high frequency components obtained by frequency separation of the first processed face image in step S107 (step S109). .
  • the synthesizing unit 7F synthesizes the low-frequency component of the first processed face image separated in step S107 and the high-frequency component subjected to the second processing in step S109 to obtain the second processed face image.
  • An image is generated (step S110).
  • the synthesizing unit 7F stores the second processed face image obtained in step S110 in the storage unit 4 (step S111), and ends the process.
  • FIG. 7 shows a flow chart corresponding to a usage scene in which the image processing function is implemented in the camera function as an example only, but this is only an example.
  • FIG. 7 shows an example in which the process is activated by a user's operation for capturing a face image, but the process may be activated by a sensor event such as an image input from the imaging unit 3, for example, an image sensor.
  • processing may be performed by other triggers, such as timer activation.
  • the image processing function according to the present embodiment realizes de-identification of the face image in the original face image when the angle of the orientation of the face included in the original face image relative to the frontal orientation is less than the threshold. For example, the first processing and the second processing are executed. Therefore, according to the image processing function according to the present embodiment, it is possible to narrow down the processing of the original face image to face images that facilitate face authentication.
  • the first processing and the second processing are performed when the relative angle of the face orientation is less than the threshold. Both processing need not be performed.
  • the image processing section 7 can perform only the first processing or only the second processing.
  • the image processing unit 7 selects one of the first processing and the second processing and inputs information of the original face image to be processed, such as the relative angle of the direction of the face, the intensity of illumination, or blurring. It is also possible to switch and execute according to the evaluation value of
  • the second processing is performed on the high frequency components of the first processed face image. You can also run In this case, the second processing can increase anonymity while suppressing deterioration in visual similarity and image quality by adding perturbation that is less than the perturbation added to the high-frequency component.
  • each component of each illustrated device does not necessarily have to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • the acquiring unit 7A, the determining unit 7B, the first processing unit 7C, the separating unit 7D, the second processing unit 7E, or the synthesizing unit 7F may be connected via a network as external devices of the information processing apparatus 1. .
  • different devices each have the acquisition unit 7A, the determination unit 7B, the first processing unit 7C, the separation unit 7D, the second processing unit 7E, or the synthesis unit 7F, and are connected to a network to cooperate.
  • the functions of the information processing device 1 may be realized.
  • FIG. 8 is a diagram showing a hardware configuration example.
  • the computer 100 has an operation unit 110a, a speaker 110b, a camera 110c, a display 120, and a communication unit . Furthermore, this computer 100 has a CPU 150 , a ROM 160 , an HDD 170 and a RAM 180 . Each part of these 110 to 180 is connected via a bus 140 .
  • the HDD 170 stores an image processing program 170a that exhibits the same functions as the image processing section 7 shown in the first embodiment.
  • This image processing program 170a may be integrated or separated like each component of the image processing section 7 shown in FIG. That is, the HDD 170 does not necessarily store all the data shown in the first embodiment, and the HDD 170 only needs to store data used for processing.
  • the CPU 150 reads out the image processing program 170a from the HDD 170 and expands it to the RAM 180.
  • the image processing program 170a functions as an image processing process 180a as shown in FIG.
  • the image processing process 180a develops various data read from the HDD 170 in an area assigned to the image processing process 180a among the storage areas of the RAM 180, and executes various processes using the developed various data.
  • the processing shown in FIG. 7 is included as an example of processing executed by the image processing process 180a.
  • the CPU 150 does not necessarily have to operate all the processing units described in the first embodiment, as long as the processing units corresponding to the processes to be executed are virtually realized.
  • each program is stored in a “portable physical medium” such as a flexible disk inserted into the computer 100, so-called FD, CD-ROM, DVD disk, magneto-optical disk, IC card, or the like. Then, the computer 100 may acquire and execute each program from these portable physical media.
  • each program may be stored in another computer or server device connected to computer 100 via a public line, the Internet, LAN, WAN, etc., and computer 100 may obtain and execute each program from these. can be

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

画像加工装置は、人物の顔を含む画像を取得する取得部と、画像に含まれる顔の向きの正面向きに対する相対角度が閾値未満の場合に、画像に対してノイズを付与する加工部と、を有する。

Description

画像加工装置、画像加工方法及び画像加工プログラム
 本発明は、画像加工装置、画像加工方法及び画像加工プログラムに関する。
 SNS(Social Networking Service)やテレビ通話の普及によって、個人の顔が撮影された画像(以下、「顔画像」と記載)や動画がネットワーク上に流通する機会が増加している。
 それに伴い、ネットワークを介して入手される顔画像を用いて、第三者が顔認証で保護されているデータやサービスへアクセスする不正アクセス、ひいては不正アクセスを通じたプライバシー侵害を始めとする様々な被害の発生が懸念されている。
 このことから、オリジナルの顔画像を加工することにより、顔画像を非識別化する技術が注目を集めている。このような顔画像の非識別化技術の例として、いわゆる敵対的サンプルと呼ばれるものや画像変換を用いるものが挙げられる。
国際公開第2018/225061号
Xiao Yang, Yinpeng Dong, Tianyu Pang, Hang Su, Jun Zhu, Yuefeng Chen, Hui Xue, "Towards Face Encryption by Generating Adversarial Identity Masks" arXiv:2003.06814v2
 しかしながら、上記の顔画像の非識別化技術は、顔認証しやすい顔画像および顔認証が困難である顔画像のいずれにも画一的に適用される。それ故、顔認証が困難である顔画像は、非識別化の目的が達せられているのも関わらず、本来必要のない余計な加工によってオリジナルの顔画像から歪められてしまう一面がある。
 1つの側面では、オリジナル顔画像に対する加工を顔認証しやすい顔画像に絞り込んで実施できる画像加工装置、画像加工方法及び画像加工プログラムを提供することを目的とする。
 一態様の画像加工装置は、人物の顔を含む画像を取得する取得部と、前記画像に含まれる前記顔の向きの正面向きに対する相対角度が閾値未満の場合に、前記画像に対してノイズを付与する加工部と、を有する。
 一実施形態によれば、オリジナル顔画像に対する加工を顔認証しやすい顔画像に絞り込んで実施できる。
図1は、情報処理装置の機能構成例を示すブロック図である。 図2は、画像加工リクエストの受付画面の一例を示す図である。 図3は、判定部の動作例を示す図(1)である。 図4は、判定部の動作例を示す図(2)である。 図5は、第1の加工顔画像及び第2の加工顔画像の一例を示す図である。 図6は、第2の加工顔画像の利用シーンの一例を示す図である。 図7は、画像加工処理の手順を示すフローチャートである。 図8は、ハードウェア構成例を示す図である。
 以下、添付図面を参照して本願に係る画像加工装置、画像加工方法及び画像加工プログラムの実施例について説明する。各実施例には、あくまで1つの例や側面を示すに過ぎず、このような例示により数値や機能の範囲、利用シーンなどは限定されない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 図1は、情報処理装置の機能構成例を示すブロック図である。図1に示す情報処理装置1は、顔画像の非識別化を実現する側面から、オリジナルの顔画像を加工する画像加工機能を搭載するものである。
 以下、上記の画像加工機能の利用シーンの例として、スマートフォンやタブレット端末などが有するカメラ機能に組み込まれる例を挙げるが、この例はあくまで一例に過ぎない。例えば、上記の画像加工機能は、画像の投稿を受け付けるSNSのアプリケーション、あるいはWeb会議やテレビ通話などを実現するソフトフォンなどのユーザアプリケーションに組み込まれてもよい。なお、上記の画像加工機能は、上記のユーザアプリケーションに限らず、Webアプリケーション、あるいはSaaS(Software as a Service)型のアプリケーションとして実現することで、サービスとして提供することもできる。
 図1には、情報処理装置1が有する画像加工機能に関連するブロックが模式化されている。図1に示すように、情報処理装置1は、表示入力部2と、撮像部3と、記憶部4と、制御部5とを有する。なお、図1には、上記の画像加工機能に関連する機能部が抜粋して示されているに過ぎず、図示以外の機能部、例えば既存のコンピュータがデフォルトまたはオプションで装備する機能部、例えば通信制御部などが情報処理装置1に備わることとしてもよい。
 表示入力部2は、各種の操作の入力および各種の情報の表示を行う機能部である。あくまで一例として、表示入力部2は、入力デバイス及び表示デバイスが一体化されたタッチパネルにより実現され得る。これはあくまで一例に過ぎず、各種の操作の入力機能および各種の情報の表示機能は、必ずしも一体化されて実現されずともよく、入力部および表示部の各々が個別に備わることを妨げない。
 撮像部3は、画像を撮像する機能部である。ここで言う「画像」は、静止画または動画のいずれであってもよい。あくまで一例として、撮像部3は、表示入力部2のスクリーン表面と同一の向きに配置されるフロントカメラや表示入力部2のスクリーンの背面に配置されるリアカメラなどにより実現され得る。
 記憶部4は、各種のデータを記憶する機能部である。あくまで一例として、記憶部4は、内部、外部または補助のストレージにより実現され得る。例えば、記憶部4は、撮像部3により撮像されたオリジナル顔画像40と、オリジナル顔画像に後述の第1の加工部7Cおよび第2の加工部7Eによる加工が実施されることにより得られた第2の加工顔画像45とを記憶する。これらオリジナル顔画像40や第2の加工顔画像45以外にも、記憶部4は、制御部5内の機能部が処理に用いるパラメータの他、情報処理装置1のユーザデータなどの各種のデータを記憶することができる。
 制御部5は、情報処理装置1の全体制御を行う処理部である。例えば、制御部5は、ハードウェアプロセッサにより実現される。この他、制御部5は、ハードワイヤードロジックにより実現されてもよい。
 あくまで一例として、制御部5は、上記の画像加工機能を実現する画像加工プログラムがプロセッサにより実行されることにより、上記の画像加工機能に対応する機能部がプロセスとして仮想的に実現された画像加工部7を有する。
 画像加工部7は、図1に示すように、取得部7Aと、判定部7Bと、第1の加工部7Cと、分離部7Dと、第2の加工部7Eと、合成部7Fとを有する。
 取得部7Aは、オリジナル顔画像を取得する処理部である。ここで言う「オリジナル顔画像」とは、あくまで1つの側面として、第1の加工部7Cおよび第2の加工部7Eによる加工が施される前の、原本の顔画像を指すこととする。
 あくまで一例として、取得部7Aは、撮像部3からオリジナル顔画像をフレーム単位で取得することができる。ここで、取得部7Aがオリジナル顔画像を取得する情報ソースは、任意の情報ソースであってよく、必ずしも撮像部3に限定されない。例えば、取得部7Aは、内蔵または付属のストレージ、情報処理装置1に着脱可能なリムーバブルメディア、あるいはネットワークを介して接続された任意のコンピュータなどからオリジナル顔画像を取得することとしてもよい。
 判定部7Bは、オリジナル顔画像を加工するか否かを判定する処理部である。一実施形態として、判定部7Bは、取得部7Aにより取得されたオリジナル顔画像から得られる顔の向きの正面向きに対する相対角度が閾値以上であるか否かにより、オリジナル顔画像を加工するか否かを判定する。ここで言う「正面向き」とは、あくまで例示として、撮像部3が有する撮像素子が配置される撮像面および顔の正面が正対する向き、あるいは光学中心を通る光軸が顔面の法線方向に対応する向きを指すこととする。以下、正面向きを基準とする顔の向きの相対角度のことを指して、「顔の向きの相対角度」と記載する場合がある。
 より詳細には、判定部7Bは、取得部7Aにより取得されたオリジナル顔画像を加工するリクエストを表示入力部2を介して受け付ける。図2は、画像加工リクエストの受付画面の一例を示す図である。図2に示すように、判定部7Bは、撮像部3から取得部7Aを介して取得されたオリジナル顔画像40Aを加工するリクエストを受け付ける受付画面20を表示入力部2に表示させる。例えば、受付画面20には、オリジナル顔画像40Aおよびそれに対する加工を実施するか否かの意思確認を促すメッセージと共に、意思確認を受け付けるGUI(Graphical User Interface)部品として、Yesボタン21およびNoボタン22とが表示される。このような受付画面20に表示されたYesボタン21に対する操作を介して画像加工リクエストが受け付けられる。
 上記の画像加工リクエストの受付後、判定部7Bは、オリジナル顔画像に含まれる顔の向きの相対角度を算出する。このような顔の向きの相対角度の算出には、任意の頭部姿勢推定技術を用いることができるが、あくまで一例として、OSS(Open Source Software)のライブラリとして公開された訓練済みの機械学習モデルを用いることができる。あくまで一例として、機械学習モデルは、CNN(Convolved Neural Network)などのニューラルネットワークが用いられる。この機械学習モデルは、画像および当該画像から求められた特徴量、例えば目や鼻、口、眉などの顔パーツの端点の座標を入力として顔の向きの相対角度を出力する。
 このような機械学習モデルにオリジナル顔画像を入力することにより、オリジナル顔画像40に含まれる顔の向きの相対角度を算出する。その上で、判定部7Bは、オリジナル画像の顔認証のしやすさの評価のあくまで一例として、顔の向きの相対角度が閾値未満であるか否かを判定する。
 ここで、顔の向きの相対角度が閾値未満である場合、オリジナル顔画像に含まれる顔の正面が撮像部3の撮像面に正対する状態からズレる度合いが小さいことが判明する。この場合、オリジナル顔画像に顔認証に用いられる特徴が十分に含まれている可能性が高まる。
 図3は、判定部7Bの動作例を示す図(1)である。図3には、あくまで1つの側面として、情報処理装置1のユーザが撮像部3に顔の正面を向けた状態で撮影されたオリジナル顔画像40Aを例に挙げる。
 図3に示すように、オリジナル顔画像40Aが上記の例で挙げる頭部姿勢推定用の機械学習モデル7BMに入力される。このようにオリジナル顔画像40Aが入力された機械学習モデル7BMは、オリジナル顔画像40Aに含まれる顔の向きの相対角度(θpitch、θroll、θyaw)を出力する。例えば、「θpitch」は、x軸回りの回転角度を指し、「θroll」は、z軸回りの回転角度指し、「θyaw」は、y軸回りの回転角度を指す。これら相対角度(θpitch、θroll、θyaw)は、いわゆるカメラポジションやカメラアングルなどの撮像部3の撮影位置により変わったり、ユーザによる上下の首振り動作、首をかしげる動作、あるいは左右の首振り動作などにより変化したりする。
 これらθpitch、θroll及びθyawの3つの回転角度の全てを顔認証のしやすさの評価に用いることもできるが、ここでは、あくまで例示として、θpitch及びθyawの2つの回転角度を顔認証のしやすさの評価に用いる例を挙げる。このようにθpitch及びθyawの2つの回転角度を用いる理由の1つには、顔認証エンジンでは、入力される画像を回転して顔の傾きを補正する処理が組み込まれることにより、ロール方向の回転にはロバスト性を有する側面があるからである。
 あくまで一例として、判定部7Bは、θpitchがθth1未満であるか否か、かつθyawがθth2未満であるか否かを判定する。このような判定を通じて、撮像部3の撮像面および情報処理装置1のユーザの顔の正面が正対する状態からズレる度合いが評価される。
 図3に示す例で言えば、情報処理装置1のユーザの顔の正面が撮像部3の撮像面に正対する状態で撮影されているので、θpitchがθth1未満であり、かつθyawがθth2未満であると判定される。
 この場合、オリジナル顔画像40Aには、顔認証に用いられる特徴が十分に含まれている可能性が高まる。例えば、顔パーツの端点などの特徴点の一部にオクルージョンが発生したり、特徴点間の位置関係に歪みが生じることより顔モデル、あるいは顔認証タスクを実現する機械学習モデルの生成に用いられた訓練データとの間で差が拡大したりといった可能性が狭まる。したがって、オリジナル顔画像40Aの顔認証がしやすいと推定する。この場合、オリジナル顔画像40Aの現物のままでは非識別化の目的が達せられないので、オリジナル顔画像40Aに対する加工の実施を抑制せず、オリジナル顔画像40Aが後述の第1の加工部7Cへ入力される。
 一方、顔の向きの相対角度が閾値以上である場合、オリジナル顔画像に含まれる顔の正面が撮像部3の撮像面に正対する状態からズレる度合いが大きいことが判明する。この場合、オリジナル顔画像に含まれる顔が左右または上下の方向を向いている可能性が高まる結果、オリジナル顔画像に顔認証に用いられる特徴が十分に含まれていない可能性も高まる。
 図4は、判定部7Bの動作例を示す図(2)である。図4には、あくまで1つの側面として、情報処理装置1のユーザが撮像部3に顔の右側面の上部を向けた状態で撮影されたオリジナル顔画像40Bが例に挙げられている。
 図4に示すように、オリジナル顔画像40Bが上記の例で挙げる頭部姿勢推定用の機械学習モデル7BMに入力される。このようにオリジナル顔画像40Bが入力された機械学習モデル7BMは、オリジナル顔画像40Bに含まれる顔の向きの相対角度(θpitch、θroll、θyaw)を出力する。
 図4に示す例で言えば、情報処理装置1のユーザが撮像部3に顔の右側面の上部を向けた状態で撮影されているので、θpitchがθth1未満でなく、かつθyawがθth2未満でないと判定される。
 この場合、オリジナル顔画像40Bには、顔認証に用いられる特徴が十分に含まれていない可能性が高まる。例えば、顔パーツの端点などの特徴点の一部にオクルージョンが発生したり、特徴点間の位置関係に歪みが生じることより顔モデル、あるいは顔認証タスクを実現する機械学習モデルの生成に用いられた訓練データとの間で差が拡大したりといった可能性が高まる。したがって、オリジナル顔画像40Bの顔認証がしにくいと推定する。この場合、オリジナル顔画像40Bの現物のままで非識別化の目的が達せられているので、オリジナル顔画像40Bに対する加工の実施を抑制し、オリジナル顔画像40Bが記憶部4に保存される。
 なお、図2には、画像加工リクエストが受け付けられて始めて判定部7Bによる顔の向きの相対角度を判定する判定処理が起動される例を挙げたが、必ずしもユーザリクエストを受け付けずとも上記の判定処理が起動されることとしてもよい。例えば、オリジナル顔画像が取得された場合、上記の判定処理を自動的に実行することができるのは言うまでもない。
 また、図2には、利用シーンのあくまで一例として、上記の画像加工機能がカメラ機能に組み込まれる例を挙げたが、利用シーンに合わせて上記の判定処理を実行するタイミングは任意に変更できる。例えば、SNSのアプリケーションに組み込まれる場合、オリジナル顔画像がSNSへ投稿されるタイミングで、上記の判定処理を手動または自動で起動することができる。また、ソフトフォンに組み込まれる場合、Web会議等の映像がオン状態へ切り替えられるタイミングで、上記の判定処理を手動または自動で起動することができる。
 さらに、図4には、あくまで一例として、θpitchがθth1未満でなく、かつθyawがθth2未満でない例を挙げたが、θpitchがθth1未満であるか、あるいはθyawがθth2未満でない場合、オリジナル顔画像に対する加工の実施を抑制することができる。さらに、θpitch及びθyawの2つの回転角度を必ずしも判定せずともよく、いずれか1つのみを判定することができるのも言うまでもない。
 なお、顔認証のしやすさの評価のあくまで一例として、顔の向きの相対角度が閾値未満であるか否かを判定する例を挙げたが、他の方法、例えば照明の強度、あるいは画像のぼけの度合いにより顔認証のしやすさを評価することもできる。例えば、オリジナル顔画像から検出される照明の強度が閾値未満である場合に絞ってオリジナル顔画像に対する加工を実施することができる。また、オリジナル顔画像から検出されるブラーの評価値が閾値未満である場合に絞ってオリジナル顔画像に対する加工を実施することができる。この他、オリジナル顔画像から抽出される特徴点の個数が閾値以上である場合、あるいはオリジナル顔画像から抽出される特徴点の割合が閾値以上である場合に絞ってオリジナル顔画像に対する加工を実施することができる。
 図1の説明に戻り、第1の加工部7Cは、第1の加工を実行する処理部である。一実施形態として、第1の加工部7Cは、顔の向きの相対角度が閾値未満である場合、オリジナル顔画像に第1の加工を実行する。ここで言う「第1の加工」とは、顔画像の非識別化技術の中でも、画像変換を用いる匿名化加工に対応する。例えば、第1の加工部7Cは、顔画像の主観的な個人性を維持したまま、オリジナル顔画像との客観的な(顔認証システムが算出する)個人性が一致しないように、オリジナル顔画像に含まれる顔のジオメトリ測度、例えば顔の幾何学的な構造に関する特徴(顔パーツの位置関係や形状など)を変更する。
 あくまで例示として、第1の加工は、オリジナル顔画像から得られる特徴量と加工後の特徴量の類似度を低減させる機械学習が実行された機械学習モデルにより実現される。ここで、一般的な顔認証システムでは、登録画像として正面を向いた識別性の高い画像が使用されており、その特徴量との類似度を用いて顔認証を行っている。したがって、顔画像の解像度や顔の角度、表情によっては、顔認証が正常に行われない場合がある。匿名化対象の顔画像がそのような顔認証がむずかしい画像である場合、不本意な認証を抑制するという本来の目的は達成しているため、匿名化加工を行う必要はない。そこで、オリジナル顔画像の特徴量との類似度ではなく、オリジナル画像に対応する正面顔の特徴量に相当するものとの類似度を低減する機械学習を機械学習モデルに実行する。これにより、もともと顔認証がむずかしいオリジナル顔画像に対して不必要な加工を避けることができ、画像の品質低下を抑制できる。
 このような第1の加工を実現する機械学習モデルの生成には、異なるアングルで同一の人物が撮影された複数の顔画像を訓練サンプルとし、このような訓練サンプルの集合が訓練データセットとして用いることができる。なお、上記の機械学習モデルには、あくまで例示として、CNNなどのニューラルネットワークを適用できる。
 あくまで一例として、上記の訓練データセットに含まれる訓練サンプルごとに、次のような処理を実行することにより、顔画像を入力として第1の加工顔画像を出力とする機械学習モデルを生成できる。
 まず、複数の顔画像を代表する特徴量の代表値が算出される。例えば、代表値は、複数の顔画像の間で特徴量の統計値、例えば平均値や中央値、最頻値を算出することにより算出したり、あるいは下記文献に記載された顔画像品質に基づいた特徴量マージを行うことにより算出したりすることができる。
 Yichun Shi, Anil K. Jain, “Probabilistic Face Embeddings” Submitted on 21 Apr 2019
 このような訓練サンプルの特徴量の代表値と、訓練サンプルに含まれるオリジナル顔画像が入力された機械学習モデルが出力する第1の加工顔画像から求まる特徴量とが閾値以下となる問題に定式化された目的関数が最適化される。これにより、機械学習モデルのパラメータの訓練が実現される。
 上記の目的関数のあくまで一例として、下記の式(1)に示す損失関数Lossが挙げられる。下記の式(1)の損失関数を最小化するパラメータ更新が繰り返される。下記の式(1)における「Ii」は、オリジナル顔画像を指し、「fic」は、訓練サンプルの特徴量の代表値を指し、「T(Ii)」は、第1の加工顔画像を指し、「F(T(Ii))」は、第1の加工顔画像の特徴量を指す。また、「sim()」は、類似度関数を指し、「dis()」は、距離関数を指し、「max()」は、最大値を返す関数を指す。
 Loss=SUM_(i=1…N)max(sim(F(T(Ii)), fic),thr)+dis(T(Ii),Ii)・・・(1)
 ここで、上記の式(1)では、max()の引数を(sim(F(T(Ii)), fic),thr)に設定することにより、類似度が閾値thrを超える場合のみ損失が発生するように損失関数Lossを機能させることができる。
 その一方で、上記の式(1)では、dis(T(Ii),Ii)をペナルティ項の1つとして設定することにより、第1の加工顔画像がオリジナル顔画像から大幅に改変されることを抑制するように損失関数Lossを機能させることができる。
 さらに、max(sim(F(T(Ii)), fic),thr)およびdis(T(Ii),Ii)の項により、オリジナル顔画像の特徴量が訓練サンプルの特徴量の代表値と十分に離れている場合、T()による第1の加工を恒等写像に近い変換へ近付けることができる。また、閾値thrを超える場合についても、閾値thr超過分に対してのみ損失が発生するので、余計な加工を避けることができる。
 このようにして得られる訓練済みの機械学習モデルに取得部7Aにより取得されたオリジナル顔画像を入力することにより、機械学習モデルの出力として、オリジナル顔画像に第1の加工が行われた第1の加工顔画像を得ることができる。
 分離部7Dは、顔画像の周波数分離を実行する処理部である。このような周波数分離は、あくまで一例として、フィルタ処理により実現され得る。
 図5は、第1の加工顔画像及び第2の加工顔画像の一例を示す図である。図5には、分離部7D、第2の加工部7Eおよび合成部7Fの入出力が模式化して示されている。図5に示すように、第1の加工部7Cによりオリジナル顔画像40Aに第1の加工が行われた第1の加工顔画像43が分離部7Dへ入力される。すると、分離部7Dは、第1の加工顔画像43にハイパスフィルタ、例えばソーベルフィルタなどを適用することにより、第1の加工顔画像43の高周波成分が抽出された高周波レイヤ43H1を分離することができる。また、分離部7Dは、第1の加工顔画像43にローパスフィルタ、例えばラプラシアンフィルタやガウシアンフィルタなどを適用することにより、第1の加工顔画像43の低周波成分が抽出された低周波レイヤ43Lを抽出することができる。
 第2の加工部7Eは、第2の加工を実行する処理部である。ここで言う「第2の加工」とは、顔画像の非識別化技術の中でも、敵対的サンプルを用いるノイズベースの加工に対応する。例えば、第2の加工は、顔認証エンジンに用いられる機械学習モデルが出力するラベルを正解のラベル、すなわち情報処理装置1のユーザ以外のラベルに誤認識させつつ、加工前後で当該ユーザの顔の視認類似性を維持する摂動を加えることにより実現される。ここで言う「摂動」は、顔認証エンジンに用いられ得る機械学習モデルへの入力データ、例えば顔画像のピクセルの値に与える変化を指す。このような第2の加工は、CNNなどのニューラルネットワークを用いた機械学習モデルにより実現されてよい。
 ここで、第2の加工は、顔認証エンジンに用いられる機械学習モデルおよびそのパラメータが既知である場合、すなわちホワイトボックスである場合、微小なノイズで顔画像の非識別化を達成できる。その一方で、顔認証エンジンに用いられる機械学習モデルのタスク以外が未知である場合、すなわちブラックボックスである場合、顔画像の非識別化を達成するには、汎化性能を高める側面からホワイトボックスである場合に比べて大きい強度のノイズが求められる。そして、ノイズの強度が大きくなると、加工後に縞模様のようなパターンが現れるので、画質を損ねる一因となる。
 このようにノイズが縞模様のパターンとして現れる点に着目し、第2の加工部7Eは、第1の加工顔画像の高周波成分にノイズを加える第2の加工を実現する。このような第2の加工には、ノイズによる影響が視認されにくい第2の加工顔画像45が得られる点にその技術的意義がある。
 あくまで一例として、第2の加工部7Eは、高周波成分が支配的な領域、例えば顔のしわや髪の毛などの部分、あるいは高周波成分により構築される領域、例えば顔の輪郭など部分を抽出する。例えば、図5には、第1の加工顔画像43のうち高周波成分に対応するピクセルの濃淡値を「白」、例えば255に近付ける一方で、高周波成分に対応しないピクセルの濃淡値を「黒」、例えば0に近付けて高周波レイヤ43H1が表現されている。このような高周波レイヤ43H1のうち、第2の加工部7Eは、濃淡値が閾値TH以上であるピクセルに絞り込んで摂動を加える第2の加工を実行する。これにより、高周波レイヤ43H2が得られる。
 さらに、第2の加工部7Eは、顔の向きの相対角度に応じて第1の加工顔画像の高周波成分に加える摂動の上限を設定することができる。例えば、第2の加工部7Eは、顔の向きの相対角度が減少するに連れて値が大きい上限を設定する一方で、顔の向きの相対角度が増加するに連れて値が小さい上限を設定する。
 このような摂動の上限Lは、あくまで例示として、下記の式(2)に従って設定することができる。下記の式(2)における「L0」は、上限Lの最大値を指し、「θpitch」は、x軸回りの回転角度を指し、「θyaw」は、y軸回りの回転角度を指す。また、「α」および「β」は、θpitchおよびθyawに付与する重みを指す。
 L=L0/(1+α|θpitch|+β|θyaw|)・・・(2)
 このように、上記の式(2)に従って摂動の上限Lを設定することで、オリジナル顔画像の顔認証のしやすさに相応しい強度のノイズを重畳させることができる。
 合成部7Fは、画像の低周波成分および高周波成分を合成する処理部である。例えば、図5に示す例で言えば、合成部7Fは、分離部7Dにより出力された第1の加工顔画像43の低周波レイヤ43Lと、第2の加工部7Eにより第2の加工が行われた高周波レイヤ43H2との合成画像を生成する。これにより得られた第2の加工顔画像45は、記憶部4に保存される。
 このように第1の加工および第2の加工が行われた第2の加工顔画像45には、顔画像の非識別化が実現される。図6は、第2の加工顔画像45の利用シーンの一例を示す図である。図6には、図5に示された第2の加工顔画像45がSNSへ投稿される例が示されている。図6に示す第2の加工顔画像45および図2に示すオリジナル顔画像40Aによれば、両者が加工前後で同一の人物と視認できる程度に高い視認類似性を有することが明らかである。さらに、図6には、第三者が第2の加工顔画像45を顔認証に使用する不正アクセスが行われる例が示されている。同図に示すように、顔認証エンジンに用いられる機械学習モデル8Mは、入力された第2の加工顔画像45のクラスを情報処理装置1のユーザ本人に対応するクラスに分類することが困難である。したがって、第2の加工顔画像45は、顔認証エンジンに用いられる機械学習モデル8Mの顔認証を誤認識させる匿名性を有することも明らかである。以上のように、本実施例に係る画像加工機能によれば、視認類似性および匿名性を両立する顔画像の非識別化を実現できる。
 次に、本実施例に係る情報処理装置1の処理の流れについて説明する。図7は、画像加工処理の手順を示すフローチャートである。図7に示すように、撮像部3により顔画像が撮影されると(ステップS101)、取得部7Aは、オリジナル顔画像を取得する(ステップS102)。
 すると、判定部7Bは、ステップS102で取得されたオリジナル顔画像に含まれる顔の向きの正面向きに対する相対角度を算出する(ステップS103)。その上で、判定部7Bは、ステップS103で算出された顔の向きの相対角度が閾値未満であるか否かを判定する(ステップS104)。
 このとき、顔の向きの相対角度が閾値未満でない場合(ステップS104No)、オリジナル顔画像に含まれる顔の正面が撮像部3の撮像面に正対する状態からズレる度合いが大きいことが判明する。この場合、顔画像の非識別化の目的が達せられている可能性が高まるので、判定部7Bは、ステップS102で取得されたオリジナル顔画像を記憶部4へ保存し(ステップS105)、処理を終了する。
 一方、顔の向きの相対角度が閾値未満である場合(ステップS104Yes)、オリジナル顔画像に含まれる顔の正面が撮像部3の撮像面に正対する状態からズレる度合いが小さいことが判明するので、顔画像の非識別化の目的が達せられていない可能性が高まる。
 この場合、第1の加工部7Cは、ステップS102で取得された顔のジオメトリ測度、例えば顔の幾何学的な構造に関する特徴(顔パーツの位置関係や形状など)を変更する第1の加工を実行する(ステップS106)。続いて、分離部7Dは、ステップS106で第1の加工が行われた第1の加工顔画像を周波数で分離する(ステップS107)。
 そして、第2の加工部7Eは、ステップS103で算出された顔の向きの相対角度に応じて第1の加工顔画像の高周波成分に加える摂動の上限を設定する(ステップS108)。続いて、第2の加工部7Eは、ステップS107で第1の加工顔画像が周波数分離された低周波成分および高周波成分のうち高周波成分にノイズを加える第2の加工を実行する(ステップS109)。
 その後、合成部7Fは、ステップS107で分離された第1の加工顔画像の低周波成分と、ステップS109で第2の加工が行われた高周波成分とを合成することにより、第2の加工顔画像を生成する(ステップS110)。最後に、合成部7Fは、ステップS110で得られた第2の加工顔画像を記憶部4に保存し(ステップS111)、処理を終了する。
 なお、図7には、あくまで例示として、画像加工機能がカメラ機能にインプリメントされる利用シーンに対応するフローチャートが示されているが、これは一例に過ぎない。例えば、図7には、顔画像の撮影を行うユーザ操作により処理が起動される例を挙げたが、撮像部3、例えばイメージセンサからの画像入力などのセンサイベントにより処理を起動してもよいし、その他のトリガー、例えばタイマー起動により処理が行われてよい。
 上述してきたように、本実施例に係る画像加工機能は、オリジナル顔画像に含まれる顔の向きの正面向きに対する相対角度が閾値未満である場合、オリジナル顔画像に顔画像の非識別化を実現する加工、例えば第1の加工や第2の加工などを実行する。したがって、本実施例に係る画像加工機能によれば、オリジナル顔画像に対する加工を顔認証しやすい顔画像に絞り込んで実施できる。
 さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
<応用例>
 例えば、上記の実施例1では、顔の向きの相対角度が閾値未満である場合、第1の加工および第2の加工が実行される例を挙げたが、必ずしも第1の加工および第2の加工の両方が実行されずともよい。例えば、画像加工部7は、第1の加工のみを実行したり、第2の加工のみを実行したりすることができる。この他、画像加工部7は、第1の加工もしくは第2の加工のうち選択していずれか加工を入力されるオリジナル顔画像の情報、例えば顔の向きの相対角度や照明の強度、あるいはブラーの評価値などに応じて切り替えて実行することもできる。
 さらに、上記の実施例1では、第2の加工が第1の加工顔画像の高周波成分に実行される例を挙げたが、第2の加工を第1の加工顔画像の低周波成分にも実行することもできる。この場合、第2の加工は、高周波成分に加える摂動よりも少ない摂動を追加することにより、視認類似性や画質の低下を抑制しつつ、匿名性を高めることができる。
<機能の分散および統合>
 また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、取得部7A、判定部7B、第1の加工部7C、分離部7D、第2の加工部7Eまたは合成部7Fを情報処理装置1の外部装置としてネットワーク経由で接続するようにしてもよい。また、取得部7A、判定部7B、第1の加工部7C、分離部7D、第2の加工部7Eまたは合成部7Fを別の装置がそれぞれ有し、ネットワーク接続されて協働することで、情報処理装置1の機能を実現するようにしてもよい。
<ハードウェア>
 また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図8を用いて、実施例1及び実施例2と同様の機能を有する画像加工プログラムを実行するコンピュータの一例について説明する。
 図8は、ハードウェア構成例を示す図である。図8に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110~180の各部はバス140を介して接続される。
 HDD170には、図8に示すように、上記の実施例1で示した画像加工部7と同様の機能を発揮する画像加工プログラム170aが記憶される。この画像加工プログラム170aは、図1に示す画像加工部7の各構成要素と同様、統合又は分離してもかまわない。すなわち、HDD170には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD170に格納されればよい。
 このような環境の下、CPU150は、HDD170から画像加工プログラム170aを読み出した上でRAM180へ展開する。この結果、画像加工プログラム170aは、図8に示すように、画像加工プロセス180aとして機能する。この画像加工プロセス180aは、RAM180が有する記憶領域のうち画像加工プロセス180aに割り当てられた領域にHDD170から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、画像加工プロセス180aが実行する処理の一例として、図7に示す処理などが含まれる。なお、CPU150では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。
 なお、上記の画像加工プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から各プログラムを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに各プログラムを記憶させておき、コンピュータ100がこれらから各プログラムを取得して実行するようにしてもよい。
   1  情報処理装置
   2  表示入力部
   3  撮像部
   4  記憶部
   5  制御部
   7  画像加工部
   7A 取得部
   7B 判定部
   7C 第1の加工部
   7D 分離部
   7E 第2の加工部
   7F 合成部
  40  オリジナル顔画像
  43  第1の加工顔画像
  43L 低周波レイヤ
  43H1,43H2 高周波レイヤ
  45  第2の加工顔画像

Claims (16)

  1.  人物の顔を含む画像を取得する取得部と、
     前記画像に含まれる前記顔の向きの正面向きに対する相対角度が閾値未満の場合に、前記画像に対してノイズを付与する加工部と、
     を有することを特徴とする画像加工装置。
  2.  前記加工部は、前記画像に対して、前記画像内の周波数成分が閾値以上の領域に対して前記ノイズを付与する、
     ことを特徴とする請求項1に記載の画像加工装置。
  3.  前記加工部は、前記顔の向きの正面向きに対する相対角度に応じて、前記画像に付与するノイズの上限を変更する、
     ことを特徴とする請求項1に記載の画像加工装置。
  4.  前記加工部は、前記相対角度が減少するに連れて値が大きい上限を設定するか、あるいは前記相対角度が増加するに連れて値が小さい上限を設定する、
     ことを特徴とする請求項3に記載の画像加工装置。
  5.  前記加工部は、前記画像に含まれる前記顔を形成するパーツの位置関係または形状を変更する加工をさらに実行する、
     ことを特徴とする請求項1に記載の画像加工装置。
  6.  人物の顔を含む画像を取得する取得部と、
     前記画像内の周波数成分が閾値以上の領域に対してノイズを付与する加工部と、
     を有することを特徴とする画像加工装置。
  7.  人物の顔を含む画像を取得し、
     前記画像に含まれる前記顔の向きの正面向きに対する相対角度が閾値未満の場合に、前記画像に対してノイズを付与する、
     処理をコンピュータが実行することを特徴とする画像加工方法。
  8.  前記付与する処理は、前記画像に対して、前記画像内の周波数成分が閾値以上の領域に対して前記ノイズを付与する処理を含む、
     ことを特徴とする請求項7に記載の画像加工方法。
  9.  前記付与する処理は、前記顔の向きの正面向きに対する相対角度に応じて、前記画像に付与するノイズの上限を変更する処理を含む、
     ことを特徴とする請求項7に記載の画像加工方法。
  10.  前記付与する処理は、前記相対角度が減少するに連れて値が大きい上限を設定するか、あるいは前記相対角度が増加するに連れて値が小さい上限を設定する処理を含む、
     ことを特徴とする請求項9に記載の画像加工方法。
  11.  前記画像に含まれる前記顔を形成するパーツの位置関係または形状を変更する処理を前記コンピュータがさらに実行する、
     ことを特徴とする請求項7に記載の画像加工方法。
  12.  人物の顔を含む画像を取得し、
     前記画像に含まれる前記顔の向きの正面向きに対する相対角度が閾値未満の場合に、前記画像に対してノイズを付与する、
     処理をコンピュータに実行させることを特徴とする画像加工プログラム。
  13.  前記付与する処理は、前記画像に対して、前記画像内の周波数成分が閾値以上の領域に対して前記ノイズを付与する処理を含む、
     ことを特徴とする請求項12に記載の画像加工プログラム。
  14.  前記付与する処理は、前記顔の向きの正面向きに対する相対角度に応じて、前記画像に付与するノイズの上限を変更する処理を含む、
     ことを特徴とする請求項12に記載の画像加工プログラム。
  15.  前記付与する処理は、前記相対角度が減少するに連れて値が大きい上限を設定するか、あるいは前記相対角度が増加するに連れて値が小さい上限を設定する処理を含む、
     ことを特徴とする請求項14に記載の画像加工プログラム。
  16.  前記画像に含まれる前記顔を形成するパーツの位置関係または形状を変更する処理を前記コンピュータにさらに実行させる、
     ことを特徴とする請求項12に記載の画像加工プログラム。
PCT/JP2022/000417 2022-01-07 2022-01-07 画像加工装置、画像加工方法及び画像加工プログラム WO2023132076A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/000417 WO2023132076A1 (ja) 2022-01-07 2022-01-07 画像加工装置、画像加工方法及び画像加工プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/000417 WO2023132076A1 (ja) 2022-01-07 2022-01-07 画像加工装置、画像加工方法及び画像加工プログラム

Publications (1)

Publication Number Publication Date
WO2023132076A1 true WO2023132076A1 (ja) 2023-07-13

Family

ID=87073530

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/000417 WO2023132076A1 (ja) 2022-01-07 2022-01-07 画像加工装置、画像加工方法及び画像加工プログラム

Country Status (1)

Country Link
WO (1) WO2023132076A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002049912A (ja) * 2000-08-04 2002-02-15 Nri & Ncc Co Ltd 人物画像取得システム
JP2013109787A (ja) * 2008-08-08 2013-06-06 Make Softwear:Kk 画像処理装置、画像処理方法及びコンピュータプログラム
JP2015088095A (ja) * 2013-11-01 2015-05-07 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および情報処理方法
JP2019074938A (ja) * 2017-10-17 2019-05-16 Necプラットフォームズ株式会社 通信中継装置、システム、方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002049912A (ja) * 2000-08-04 2002-02-15 Nri & Ncc Co Ltd 人物画像取得システム
JP2013109787A (ja) * 2008-08-08 2013-06-06 Make Softwear:Kk 画像処理装置、画像処理方法及びコンピュータプログラム
JP2015088095A (ja) * 2013-11-01 2015-05-07 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および情報処理方法
JP2019074938A (ja) * 2017-10-17 2019-05-16 Necプラットフォームズ株式会社 通信中継装置、システム、方法及びプログラム

Similar Documents

Publication Publication Date Title
JP7365445B2 (ja) コンピューティング装置及び方法
US10769435B2 (en) Method of avoiding biometrically identifying a subject within an image
US8983152B2 (en) Image masks for face-related selection and processing in images
JP5222939B2 (ja) テレビ電話におけるプライバシーを最大にするための浅い被写界深度のシュミレート
US8698796B2 (en) Image processing apparatus, image processing method, and program
WO2016180224A1 (zh) 一种人物图像处理方法及装置
CN106682632B (zh) 用于处理人脸图像的方法和装置
KR20180109634A (ko) 얼굴 인증 방법 및 장치
CN107798654B (zh) 图像磨皮方法及装置、存储介质
WO2004084142A1 (ja) 画像処理装置
CN108898546A (zh) 人脸图像处理方法、装置及设备、可读存储介质
US20140369554A1 (en) Face beautification system and method of use thereof
KR20190053602A (ko) 얼굴 인증 방법 및 장치
JP6111723B2 (ja) 画像生成装置、画像生成方法及びプログラム
EP3707895B1 (en) Static video recognition
JP2013058060A (ja) 人物属性推定装置、人物属性推定方法及びプログラム
JP5349238B2 (ja) 表情認識装置、人物間感情推定装置、表情認識方法、人物間感情推定方法、及びプログラム
JP7268725B2 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
Hilgefort et al. Spying through virtual backgrounds of video calls
CN111062904B (zh) 图像处理方法、图像处理装置、电子设备和可读存储介质
WO2023132076A1 (ja) 画像加工装置、画像加工方法及び画像加工プログラム
KR20200049936A (ko) 생체 인식 장치 및 방법
KR20230086996A (ko) 노이즈 추가 프로세스를 수행하는 컴퓨터 프로그램
JP6603722B2 (ja) 画像処理装置およびプログラム
Thavalengal et al. A practical challenge for iris authentication on handheld imaging devices

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22918665

Country of ref document: EP

Kind code of ref document: A1