WO2022269963A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2022269963A1
WO2022269963A1 PCT/JP2022/002081 JP2022002081W WO2022269963A1 WO 2022269963 A1 WO2022269963 A1 WO 2022269963A1 JP 2022002081 W JP2022002081 W JP 2022002081W WO 2022269963 A1 WO2022269963 A1 WO 2022269963A1
Authority
WO
WIPO (PCT)
Prior art keywords
super
resolution
image
information processing
facial
Prior art date
Application number
PCT/JP2022/002081
Other languages
English (en)
French (fr)
Inventor
圭祐 千田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2023529460A priority Critical patent/JPWO2022269963A1/ja
Publication of WO2022269963A1 publication Critical patent/WO2022269963A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program.
  • GAN adversarial generation system
  • a new signal with high-frequency components not found in the input signal is generated based on the learning results.
  • a super-resolution network with a higher ability to generate signals (generative power) can generate a higher-resolution image.
  • a deviation from the input image may occur. For example, in the case of a human face, when the shape of the eyes and mouth is slightly misaligned, the physiognomy may change.
  • the present disclosure proposes an information processing device, an information processing method, and a program capable of suppressing changes in facial features caused by super-resolution processing.
  • an input image before super-resolution processing and a facial appearance judgment network that calculates the degree of facial matching of the input image after the super-resolution processing, and generation of the super-resolution processing and a super-resolution network that adjusts force based on the degree of facial matching.
  • an information processing method in which the information processing of the information processing device is executed by a computer, and a program for causing the computer to implement the information processing of the information processing device.
  • FIG. 1 It is a figure which shows an example of the image processing using a super-resolution technique. It is a figure which shows the change of the facial expression resulting from a super-resolution process. It is a figure which shows the change of the facial expression resulting from a super-resolution process. It is a figure which shows an example of the conventional super-resolution processing system. It is a figure which shows an example of the conventional super-resolution processing system. It is a figure which shows the structure of the information processing apparatus of 1st Embodiment. FIG.
  • FIG. 10 is a diagram showing an example of the relationship between the facial matching degree and the generative force control value; 4 is a flow chart showing an example of information processing of an information processing device; It is a figure which shows an example of the learning method of a super-resolution network.
  • FIG. 10 is a diagram showing an example of a combination of weights corresponding to generating power levels; It is a figure which shows the structure of the information processing apparatus of 2nd Embodiment.
  • FIG. 10 is a diagram showing an example of a method of comparing facial poses, sizes, and positions; 4 is a flow chart showing an example of information processing of an information processing device; It is a figure which shows the hardware structural example of an information processing apparatus.
  • FIG. 1 is a diagram showing an example of image processing (super-resolution processing) using a super-resolution technique.
  • the upper left image in FIG. 1 is the original image (high resolution image) IMO .
  • the generated images IM G1 to IM G7 are obtained by restoring the original image IMO whose resolution has been reduced by compression or the like by super-resolution processing.
  • the generating power of the super-resolution processing increases from the generated image IM G1 toward the generated image IM G7 .
  • the generative power means the ability to newly generate a signal with a high frequency component that is not present in the input signal. The stronger the generating power, the higher the resolution of the image that can be obtained.
  • Super-resolution processing which has weak generating power, does not sufficiently restore information (patterns, etc.) lost in the input signal. However, since the difference from the input signal is small, it is difficult to generate an image deviating from the original image IMO. Super-resolution processing with strong generating power generates even information lost in the input signal, so an image close to the original image IMO can be obtained. However, if signals are not generated correctly, an image that deviates from the original image IMO may be generated.
  • an image of the whiskers of a hamadryas baboon is shown.
  • a large number of fine whiskers are displayed in the original image IMO.
  • the blurring of the whiskers is reduced from the generated image IMG 1 to the generated image IMG 7 , and the generated image IMG 7 has the same resolution as the original image IMO .
  • the shapes of the individual whiskers are slightly different, and the atmosphere is slightly different from that of the original image IMO.
  • Such a subtle change in the generated image appears as a change in facial expression when a human face is processed.
  • the face of a man is the processing target.
  • the input image IM I is generated by reducing the resolution of the original image IMO . Due to the resolution reduction, some information such as contours of facial parts such as eyes, nose and mouth and texture of skin is lost. In super-resolution processing, lost information is restored (generated) based on the learning results of machine learning. However, if there is a discrepancy between the restored information and the original information, the physiognomy changes.
  • a generated image IM G that is slightly different from the original image IMO in the size and shape of the eyes, the density of the beard and hair, and the luster and wrinkles of the skin is output. Since the shape of the eyes has a great influence on the human face, even a slight change in the size or shape of the eyes can be perceived as a change in the human face.
  • a generated image IM G that is slightly different from the original image IMO in terms of the size and shape of the eyes, the shape of the bridge of the nose, the texture of the hair, the shape of the lips, and the raised degree of the corners of the mouth is output. ing.
  • the change in the shape of the face parts such as the eyes, mouth and nose greatly changes the impression of the appearance.
  • 4 and 5 are diagrams showing an example of a conventional super-resolution processing system.
  • FIG. 4 shows a general super-resolution network SRN A using GANs.
  • the resolution of the generated image IM G is enhanced by its powerful generating power, but it is difficult to control unexpected generation results. The reason is that it is difficult to clarify the input/output dependency obtained by machine learning, and the learning process is complicated, so it is practically impossible to correct the generated image IM G as intended. be. Also, since the learning process cannot be controlled, it is also difficult to correct a specific input even if the processing result for a specific input result is incorrect.
  • FIG. 5 shows a super-resolution network SRN B that uses facial images of the same person as reference images IM R .
  • This kind of super-resolution network SRN B is disclosed in Non-Patent Document 1.
  • the super-resolution network SRN B uses feature information of the reference image IMR to dynamically adjust some of the parameters used for super-resolution processing. As a result, an image of human features similar to the reference image IMR is generated. However, since the causal relationship between the reference image IMR and the output result is acquired by deep learning, a perfectly matching face is not generated in all cases. Therefore, even if the super-resolution network SRN B is used, it is not possible to completely suppress the change in facial expressions.
  • the information processing apparatus IP of the present disclosure calculates the facial matching degrees before and after super-resolution processing, and adjusts the generating power of the super-resolution network SRN based on the calculated facial matching degrees. According to this configuration, the physiognomy of the generated image IMG is fed back to the super-resolution processing. Therefore, changes in human facial features due to super-resolution processing are less likely to occur.
  • the information processing device IP is used for improving the image quality of old video materials (movies, photographs, etc.) and for highly efficient video compression/transmission systems (video telephony, online conferences, live video relays, network distribution of video content), etc. be able to. Since high reproducibility is required for a subject's face when enhancing the image quality of a movie or photograph, the method of the present disclosure is preferably employed. In video compression/transmission systems, the amount of information in the original video is greatly reduced, so facial features are likely to change during restoration. Using the techniques of the present disclosure, such drawbacks are avoided.
  • FIG. 6 is a diagram showing the configuration of the information processing device IP1 according to the first embodiment.
  • the information processing device IP1 is a device that restores a high-resolution generated image IM G from an input image IM I using a super-resolution technique.
  • the information processing device IP1 has a super-resolution network SRN 1 , a facial judgment network PN, and a generative force control value calculator GCU.
  • the super-resolution network SRN 1 performs super-resolution processing on the input image IM- I to generate a generated image IM- G .
  • the super-resolution network SRN 1 can change the generating power of super-resolution processing in multiple stages.
  • a plurality of generators GE are generated using the same neural network.
  • a plurality of generators GE differ from each other in parameters used when optimizing the neural network. Due to the different parameters used for optimization, there is a difference in the generated power level LV of each generator GE.
  • the super-resolution network SRN 1 may acquire a facial image of the same person as the subject of the input image IM I as the facial reference image IM PR .
  • the super-resolution network SRN 1 can perform super-resolution processing of the input image IM I using the feature information of the physiognomy reference image IM PR .
  • the facial reference image IM PR is used as a reference image IM R for adjusting the facial features.
  • the super-resolution network SRN 1 uses feature information of the physiognomy reference image IM PR to dynamically adjust some of the parameters used for super-resolution processing. As a result, a human face generated image IM_G that is close to the face reference image IM_PR is obtained.
  • a method of adjusting facial features using the facial reference image IM PR a known method described in Non-Patent Document 1 or the like is used.
  • the facial features determination network PN calculates a facial matching degree DC between the input image IM I before super-resolution processing and the input image IM I after super-resolution processing.
  • the facial recognition network PN is a neural network that performs face recognition.
  • the facial features determination network PN calculates, for example, the degree of similarity between the face of a person included in the generated image and the face of the same person included in the facial reference image as a facial matching degree DC. Calculation of similarity is performed using a known face recognition technique using feature point matching or the like.
  • the super-resolution network SRN 1 adjusts the generating power of super-resolution processing based on the degree of facial matching DC. For example, the super-resolution network SRN 1 selects and uses a generator GE whose facial matching degree DC satisfies an allowable standard from a plurality of generators GE with different generative power levels LV. The super-resolution network SRN 1 determines whether or not the facial matching degree DC satisfies the permissible standard in order from the generator GE with the highest generative power level LV. The super-resolution network SRN 1 selects and uses the first generator GE determined to meet the acceptance criteria.
  • the generating force control value calculation unit GCU calculates the generating force control value CV based on the facial matching degree DC.
  • the generating power control value CV indicates the amount of reduction from the current generating power level LV. The lower the degree of human similarity DC, the greater the reduction.
  • the super-resolution network SRN 1 calculates the generating force level LV based on the generating force control value CV.
  • the super-resolution network SRN 1 performs super-resolution processing using a generator GE corresponding to the calculated generative power level LV.
  • FIG. 7 is a diagram showing an example of the relationship between the facial matching degree DC and the generating force control value CV.
  • a threshold T A , a threshold T B and a threshold T C are set as acceptance criteria.
  • the generating force control value CV is set to (-3).
  • the generating force control value CV is set to (-2).
  • the generating force control value CV is set to (-1).
  • the generating force control value CV is set to zero.
  • An appropriate generator GE can be quickly detected by setting the amount of decrease in the generative power level LV in stages according to the facial matching degree DC.
  • FIG. 8 is a flowchart showing an example of information processing by the information processing device IP1.
  • step ST1 the super-resolution network SRN 1 selects the generator GE with the highest generative power level LV.
  • the super-resolution network SRN 1 performs super-resolution processing using the selected generator GE.
  • step ST3 the super-resolution network SRN 1 determines whether the generating power level LV of the currently selected generator GE is the minimum. If it is determined in step ST3 that the generating power level LV is the minimum (step ST3: yes), the super-resolution network SRN 1 continues to use the currently selected generator GE.
  • step ST3 If it is determined in step ST3 that the generated power level LV is not the minimum (step ST3: no), the process proceeds to step ST4.
  • the facial features determination network PN calculates a facial matching degree DC using the generated image IM G and the facial features reference image IM PR , and performs facial determination.
  • step ST5 the generating force control value calculation unit GCU determines whether or not the facial matching degree DC is equal to or greater than the threshold value TC .
  • step ST5 determines whether or not the facial matching degree DC is equal to or greater than the threshold value TC .
  • the generating force control value calculation unit GCU sets the generating force control value CV to zero.
  • the super-resolution network SRN 1 continues to use the currently selected generator GE.
  • step ST5 If it is determined in step ST5 that the facial matching degree DC is smaller than the threshold value TC (step ST5: no), the process proceeds to step ST6.
  • the generating force control value calculation unit GCU calculates the generating force control value CV according to the facial matching degree DC.
  • step ST7 the super-resolution network SRN 1 selects a generator GE with a generative power level LV specified by the generative power control value CV. Then, returning to step ST2, the super-resolution network SRN 1 performs super-resolution processing using the generator GE having the changed generative power level LV. The above process is then repeated.
  • FIG. 9 is a diagram showing an example of a learning method of the super-resolution network SRN1.
  • the super-resolution network SRN 1 includes generators GE of a plurality of GANs machine-learned using student images IMS and generated images IM G.
  • the student image IMS is input data for machine learning obtained by reducing the resolution of the teacher image IM T.
  • the generated image IM G is output data obtained by super-resolution processing the student image IMS. Face images of various people are used for the teacher image IMT .
  • the GAN generator GE machine learning is performed so that the difference between the generated image IMG and the teacher image IMT becomes small.
  • GAN discriminator DI machine learning is performed so that the discrimination value becomes 0 when the teacher image IMT is input and the discrimination value becomes 1 when the student image IMS is input.
  • a feature amount C is extracted from each of the generated image IMG and the teacher image IMT by the object recognition network ORN.
  • the object recognition network ORN is a trained neural network that extracts the feature amount C of the image.
  • the generator GE performs machine learning so that the difference between the feature amount C of the generated image IMG and the feature amount C of the teacher image IMT becomes small.
  • the difference value for each pixel between the teacher image IM T and the generated image IM G is assumed to be D1.
  • D2 be the identification value of the discriminator DI.
  • D3 be the difference value of the feature amount C between the teacher image IMT and the generated image IMG .
  • w1 be the weight of the difference value D1.
  • w2 be the weight of the identification value D2.
  • w3 be the weight of the difference value D3.
  • machine learning is performed so that the weighted sum (w1 ⁇ D1+w2 ⁇ D2+w3 ⁇ D3) of the difference value D1, the identification value D2 and the difference value D3 is minimized.
  • the ratio of weight w1, weight w2 and weight w3 is different for each GAN.
  • a GAN is a widely known CNN (Convolutional Neural Network), and performs learning by minimizing the weighted sum of the above three values (difference value D1, identification value D2, and difference value D3).
  • the optimum values of the three weights w1, w2, and w3 change depending on the CNN used for learning, the learning data set, and the like. Normally, an optimal set of values is used to obtain the maximum generating power, but in this disclosure, by changing the three weights w1, w2, and w3, while using the same CNN, generate Learning results with different strengths are obtained.
  • FIG. 10 is a diagram showing an example of a combination of weights w1, w2, and w3 corresponding to the generating power level LV.
  • ESRGAN Enhanced Super-Resolution Generative Adversarial Networks
  • generator GE of ESRGAN is applied to super - resolution network SRN1.
  • a generator GE with a higher generating power level LV has a higher ratio of weight w2 and weight w3 to weight w1.
  • a generator GE with a lower generating power level LV has a lower ratio of weight w2 and weight w3 to weight w1.
  • weights w1, w2, and w3 may change depending on conditions such as the configuration of the neural network, the number of images in the learning data set, the content of the images, and the learning rate of the CNN. Even with combinations of different weight values, the learning result may converge to the optimum value under the same conditions.
  • the information processing device IP1 has a facial judgment network PN and a super - resolution network SRN1.
  • the facial features determination network PN calculates a facial matching degree DC between the input image IM I before super-resolution processing and the input image IM I after super-resolution processing.
  • the super-resolution network SRN 1 adjusts the generating power of super-resolution processing based on the degree of facial matching DC.
  • the processing of the information processing device IP1 is executed by the computer 1000 (see FIG. 14).
  • the program of the present disclosure (program data 1450: see FIG. 14) causes the computer 1000 to implement the processing of the information processing device IP1.
  • the generative power of the super-resolution network SRN 1 is adjusted based on changes in facial features before and after super-resolution processing. Therefore, a change in facial features due to super-resolution processing is suppressed.
  • the super-resolution network SRN 1 selects and uses a generator GE whose facial matching degree DC satisfies an allowable standard from a plurality of generators GE having different generative power levels LV.
  • the selection of the generator GE adjusts the generating power of the super - resolution network SRN1.
  • the super-resolution network SRN 1 is a generator of a plurality of GANs that are machine-learned using student images IMS obtained by reducing the resolution of teacher images IM T and generated images IM G obtained by performing super-resolution processing on the student images IMS .
  • Including GE Let D1 be the difference value for each pixel between the teacher image IM T and the generated image IM G , let D2 be the discriminant value of the discriminator DI of the GAN, and let D2 be the difference value of the feature amount C between the teacher image IMT and the generated image IM G. is D3, the weight of the difference value D1 is w1, the weight of the identification value D2 is w2, and the weight of the difference value D3 is w3.
  • each GAN machine learning is performed so that the weighted sum (w1 ⁇ D1+w2 ⁇ D2+w3 ⁇ D3) of the difference value D1, the identification value D2 and the difference value D3 is minimized.
  • the ratio of weight w1, weight w2 and weight w3 is different for each GAN.
  • each generator GE can be shared. Also, the generating power of each generator GE can be easily controlled by the ratio of weight w1, weight w2 and weight w3.
  • the super-resolution network SRN 1 determines whether or not the degree of face matching satisfies the permissible standard for the generators GE in descending order of the generative power level LV.
  • the super-resolution network SRN 1 selects and uses the first generator GE determined to meet the acceptance criteria.
  • the generator GE with the maximum allowable generating power is selected.
  • the information processing device IP1 has a generating force control value calculation unit GCU.
  • the generative force control value calculation unit GCU calculates a generative force control value CV indicating a degree of reduction from the current generative force level LV based on the face matching degree DC. The lower the degree of human similarity DC, the greater the reduction.
  • the super-resolution network SRN 1 performs super-resolution processing on the input image IM I using the feature information of the physiognomy reference image IM PR .
  • the facial matching degree DC before and after super-resolution processing increases.
  • FIG. 11 is a diagram showing the configuration of an information processing device IP2 according to the second embodiment.
  • This embodiment differs from the first embodiment in that the generating power of the super-resolution network SRN 2 is adjusted by switching the facial reference image IM PR .
  • the following description will focus on differences from the first embodiment.
  • a plurality of generators GE are switched and used based on the facial matching degree DC. However, in this embodiment, only one generator GE is used.
  • the super-resolution network SRN 2 performs super-resolution processing on the input image IM I using the feature information of the physiognomy reference image IM PR .
  • the super-resolution network SRN 2 selects a reference image IM R whose facial matching degree DC satisfies the acceptance criteria from a plurality of reference images IM R included in the reference image group RG as a facial reference image IM PR .
  • the reference image group RG is acquired from image data inside or outside the information processing device IP2. For example, if a person appearing in the input image IM I is a celebrity, a plurality of reference images IM R (reference image group RG) that can specify the physiognomy of the target person are obtained from the Internet or the like. When the input image IM I is an image of a certain scene in a past video (movie, etc.), a group of images that can be the reference image IMR are extracted from a close-up face scene of another scene in the same video.
  • the person appearing in the input image IM I is the user of the information processing device IP2 and the information processing device IP2 is a device having a camera function such as a smart phone, then from the photo data saved in the information processing device IP2 A group of images that can be reference images IMR are extracted.
  • reference images IM R suitable for determining facial features are sequentially selected as facial reference images IM PR .
  • the super-resolution network SRN 2 determines priorities for a plurality of reference images IM R , and selects each reference image IM R as a facial reference image IM PR according to the priorities. For example, the super-resolution network SRN 2 determines whether or not the degree of facial matching DC satisfies the acceptance criteria in order from the reference image IM R whose face pose, size and position of the subject are closer to the input image IM I. .
  • the super-resolution network SRN 2 first selects the reference image IM R determined to meet the acceptance criteria as the physiognomy reference image IM PR . This allows super-resolution processing to be performed with the maximum allowable productive power.
  • FIG. 12 is a diagram showing an example of a method of comparing face postures, sizes and positions.
  • the super-resolution network SRN 2 In the super-resolution network SRN 2 , left and right eyes, eyebrows, nose, upper and lower lips, lower jaw, etc. are preset as facial parts to be compared.
  • the super-resolution network SRN 2 extracts coordinates of points on contour lines of facial parts from the input image IM I and the reference image IM R , respectively. Detection of face parts is performed using, for example, a known face recognition technique shown in [2] below.
  • the super-resolution network SRN 2 extracts corresponding points (corresponding points) between the input image IM I and the reference image IM R using a technique such as corresponding point matching.
  • the super-resolution network SRN 2 gives higher priority to a reference image IM R having a smaller sum of absolute values of differences in coordinates between corresponding points of the input image IM I and the reference image IM R .
  • an appropriate facial reference image IMPR is quickly detected.
  • the reference image IM RA has facial parts closer to the input image IM I than the reference image IM RB . Therefore, the priority of the reference image IMRA is set higher than that of the reference image IMRB .
  • FIG. 13 is a flowchart showing an example of information processing by the information processing device IP2.
  • step ST11 the super-resolution network SRN 2 selects one reference image IM R according to priority from the reference image group RG as the facial reference image IM PR .
  • step ST12 the super-resolution network SRN 2 performs super-resolution processing using the feature information of the selected reference image IM R.
  • step ST13 the super-resolution network SRN 2 determines whether the current reference image IM R selected as the physiognomy reference image IM PR is the last reference image IM R according to the priority. When it is determined in step ST13 that the current reference image IM R is the last reference image IM R (step ST13: yes), the super-resolution network SRN 2 selects the currently selected reference image IM R as It continues to be used as the facial reference image IMPR .
  • step ST13 If it is determined in step ST13 that the current reference image IM R is not the last reference image IM R (step ST13: no), the process proceeds to step ST14.
  • step ST14 the super-resolution network SRN 2 uses the generated image IM G and the currently selected reference image IM R to calculate the facial matching degree DC and perform facial judgment.
  • step ST15 the super-resolution network SRN 2 determines whether or not the facial matching degree DC is equal to or greater than the threshold T C .
  • the super-resolution network SRN 2 uses the currently selected reference image IM R as a facial facial reference. Continue to use as image IM PR .
  • step ST15 If it is determined in step ST15 that the facial matching degree DC is smaller than the threshold value TC (step ST15: no), the process proceeds to step ST16.
  • step ST16 the super-resolution network SRN 2 selects a reference image IM R that has not yet been selected as a physiognomy reference image IM PR according to priority. Then, returning to step ST12, the super-resolution network SRN 2 performs super-resolution processing using the newly selected reference image IMR . The above process is then repeated.
  • the super-resolution network SRN 2 of the present embodiment selects, from a plurality of reference images IM R , a reference image IM R whose facial matching degree DC satisfies the acceptance criteria as a facial reference image IM PR .
  • the generating power of the super-resolution network SRN 2 is adjusted according to the selection of the facial reference image IM PR . Therefore, a change in facial features due to super-resolution processing is suppressed.
  • FIG. 14 is a diagram illustrating a hardware configuration example of the information processing device IP.
  • the information processing device IP is implemented by the computer 1000 .
  • the computer 1000 has a CPU 1100 , a RAM 1200 , a ROM (Read Only Memory) 1300 , a HDD (Hard Disk Drive) 1400 , a communication interface 1500 and an input/output interface 1600 .
  • Each part of computer 1000 is connected by bus 1050 .
  • the CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400 and controls each section. For example, the CPU 1100 loads programs stored in the ROM 1300 or HDD 1400 into the RAM 1200 and executes processes corresponding to various programs.
  • the ROM 1300 stores a boot program such as BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, and programs dependent on the hardware of the computer 1000.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by the CPU 1100 and data used by such programs.
  • HDD 1400 is a recording medium that records an information processing program according to the present disclosure, which is an example of program data 1450 .
  • a communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device via the communication interface 1500, and transmits data generated by the CPU 1100 to another device.
  • the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000 .
  • the CPU 1100 receives data from input devices such as a keyboard and mouse via the input/output interface 1600 .
  • the CPU 1100 also transmits data to an output device such as a display, speaker, or printer via the input/output interface 1600 .
  • the input/output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • Media include, for example, optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, semiconductor memories, etc. is.
  • HDD 1400 also stores a program for causing a computer to function as information processing apparatus IP.
  • CPU 1100 reads and executes program data 1450 from HDD 1400 , as another example, these programs may be obtained from another device via external network 1550 .
  • the present technology can also take the following configuration.
  • a face determination network that calculates the degree of face matching between an input image before super-resolution processing and the input image after super-resolution processing; a super-resolution network that adjusts the generative power of the super-resolution processing based on the human face matching degree;
  • Information processing device having (2) The super-resolution network selects and uses, from a plurality of generators with different generative power levels, a generator whose human face matching degree satisfies an acceptable standard.
  • the super-resolution network includes a generator of a plurality of GANs machine-learned using a student image obtained by reducing the resolution of a teacher image and a generated image obtained by performing super-resolution processing on the student image,
  • D1 be the difference value for each pixel between the teacher image and the generated image
  • D2 be the discrimination value of the discriminator of the GAN
  • D3 be the difference value of the feature amount between the teacher image and the generated image
  • the weight of the difference value D1 is w1
  • the weight of the identification value D2 is w2
  • the weight of the difference value D3 is w3
  • machine learning is performed so that the weighted sum (w1 ⁇ D1+w2 ⁇ D2+w3 ⁇ D3) of the difference value D1, the identification value D2 and the difference value D3 is minimized
  • the ratio of the weight w1, the weight w2 and the weight w3 is different for each GAN,
  • the information processing apparatus according to (2) above.
  • the super-resolution network determines whether or not the face matching degree satisfies the allowable criterion in order from generators with the highest generative power level, and selects the generator determined to first satisfy the allowable criterion. used as The information processing apparatus according to (2) or (3) above.
  • a generative force control value calculation unit that calculates a generative force control value indicating a degree of reduction from the current generative force level based on the degree of facial matching; The lower the degree of human matching, the larger the decrease, The information processing apparatus according to any one of (2) to (4) above.
  • the super-resolution network performs super-resolution processing of the input image using feature information of the facial reference image.
  • the information processing apparatus according to any one of (2) to (5) above.
  • the super-resolution network performs super-resolution processing of the input image using feature information of the physiognomy reference image,
  • the super-resolution network selects, from a plurality of reference images, a reference image in which the facial matching degree satisfies an acceptable standard as the facial reference image.
  • the information processing apparatus according to (1) above.
  • the super-resolution network determines whether or not the facial matching degree satisfies the acceptance criteria in order from the reference image in which the pose, size, and position of the face of the subject is closest to the input image, selecting the reference image determined to meet the criteria as the facial reference image;
  • the information processing apparatus according to (7) above.
  • the super-resolution network extracts the coordinates of each point on the contour line of the facial part from the input image and the reference image, respectively, and calculates the absolute value of the difference in the coordinates of the corresponding points of the input image and the reference image. giving a higher priority to the reference image with a smaller sum;
  • the information processing apparatus according to (8) above.
  • a computer-implemented information processing method comprising: (11) Calculating the degree of facial matching between the input image before super-resolution processing and the input image after super-resolution processing, adjusting the generating power of the super-resolution processing based on the degree of human matching; A program that makes a computer do something.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

情報処理装置(IP)は、人相判断ネットワーク(PN)と超解像ネットワーク(SRN)とを有する。人相判断ネットワーク(PN)は、超解像処理される前の入力画像(IMI)と超解像処理された後の入力画像(IMI)の人相一致度を算出する。超解像ネットワーク(SRN)は、超解像処理の生成力を人相一致度に基づいて調整する。

Description

情報処理装置、情報処理方法およびプログラム
 本発明は、情報処理装置、情報処理方法およびプログラムに関する。
 入力画像を高解像度化して出力する超解像技術が知られている。最近では、敵対的生成システム(GAN)と呼ばれる画像生成手法を用いて、入力画像からは判別しにくい細かい情報まで再現可能な超解像ネットワークも提案されている。
特開平10-240920号公報
[online],Few-shot Video-to-Video Synthesis,[令和3年6月4日検索],インターネット<URL:https://nvlabs.github.io/few-shot-vid2vid/main.pdf>
 GANを用いた超解像ネットワークでは、学習結果に基づいて、入力信号にない高周波成分の信号が新たに生成される。信号を生成する能力(生成力)が高い超解像ネットワークほど、解像度の高い画像を生成することができる。しかし、入力信号にない信号が追加されることで、入力画像との間に乖離が生じることがある。例えば、人間の顔を対象とした場合、目元や口元の形状が微妙にずれることで人相が変化することがある。
 そこで、本開示では、超解像処理に起因した人相の変化を抑制可能な情報処理装置、情報処理方法およびプログラムを提案する。
 本開示によれば、超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出する人相判断ネットワークと、前記超解像処理の生成力を前記人相一致度に基づいて調整する超解像ネットワークと、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。
超解像技術を用いた画像処理の一例を示す図である。 超解像処理に起因した人相の変化を示す図である。 超解像処理に起因した人相の変化を示す図である。 従来の超解像処理システムの一例を示す図である。 従来の超解像処理システムの一例を示す図である。 第1実施形態の情報処理装置の構成を示す図である。 人相一致度と生成力制御値との関係の一例を示す図である。 情報処理装置の情報処理の一例を示すフローチャートである。 超解像ネットワークの学習方法の一例を示す図である。 生成力レベルに対応した重みの組み合わせの一例を示す図である。 第2実施形態の情報処理装置の構成を示す図である。 顔の姿勢、大きさおよび位置の比較方法の一例を示す図である。 情報処理装置の情報処理の一例を示すフローチャートである。 情報処理装置のハードウェア構成例を示す図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 なお、説明は以下の順序で行われる。
[1.背景]
 [1-1.超解像技術]
 [1-2.超解像処理に起因した人相の変化]
[2.第1実施形態]
 [2-1.情報処理装置の構成]
 [2-2.情報処理方法]
 [2-3.学習方法]
 [2-4.効果]
[3.第2実施形態]
 [3-1.情報処理装置の構成]
 [3-2.情報処理方法]
 [3-3.効果]
[4.ハードウェア構成例]
[1.背景]
[1-1.超解像技術]
 図1は、超解像技術を用いた画像処理(超解像処理)の一例を示す図である。
 図1の左上の画像は、オリジナル画像(高解像度画像)IMである。生成画像IMG1~IMG7は、圧縮などにより低解像度化されたオリジナル画像IMを超解像処理によって復元したものである。生成画像IMG1から生成画像IMG7に向けて超解像処理の生成力が強くなっている。なお、生成力とは、入力信号にない高周波成分の信号を新たに生成する能力を意味する。生成力が強いほど、高解像度な画像が得られる。
 生成力が弱い超解像処理では、入力信号で失われた情報(模様など)は十分に復元されない。しかし、入力信号との差が小さいため、オリジナル画像IMから乖離した画像は生成されにくい。生成力の強い超解像処理では、入力信号で失われた情報まで生成されるため、オリジナル画像IMに近い画像が得られる。しかし、正しく信号が生成されないと、オリジナル画像IMから乖離した画像が生成される可能性がある。
 例えば、図1の例では、マントヒヒの髭の画像が示されている。オリジナル画像IMには、細かい髭が多数表示されている。生成画像IMGから生成画像IMGに向けて髭のぼやけは少なくなっており、生成画像IMGではオリジナル画像IMと同程度の解像度が得られている。しかし、生成画像IMG7では、1本1本の髭の形が微妙に異なっており、オリジナル画像IMとは若干雰囲気の異なる画像となっている。このような生成画像の微妙な変化は、人間の顔を処理対象とすると、人相の変化として現れる。
[1-2.超解像処理に起因した人相の変化]
 図2および図3は、超解像処理に起因した人相の変化を示す図である。
 図2の例では、男性の顔が処理対象となっている。入力画像IMはオリジナル画像IMを低解像度化して生成される。低解像度化によって、目、鼻および口などの顔パーツの輪郭や肌の質感などの情報の一部が失われる。超解像処理では、失われた情報が機械学習の学習結果に基づいて復元(生成)される。しかし、復元された情報とオリジナルの情報との間に乖離があると、人相が変化する。
 図2の例では、オリジナル画像IMに比べて、目の大きさや形状、髭や髪の毛の濃さ、および、肌の艶や皺が微妙に異なる生成画像IMが出力される。目元の形状は人相に大きな影響を与えるため、目の大きさや形状が僅かに変化しただけでも人相が変化したように感じられる。
 図3の例では、オリジナル画像IMに比べて、目の大きさや形状、鼻筋の形状、髪の毛の質感、唇の形状、および、口角の上がり具合などが微妙に異なる生成画像IMが出力されている。目、口および鼻などの顔パーツの形状が変化することで、見た目の印象が大きく変化している。
 図4および図5は、従来の超解像処理システムの一例を示す図である。
 図4には、GANを用いた一般的な超解像ネットワークSRNが示されている。超解像ネットワークSRNでは、強力な生成力によって生成画像IMの解像度が高められる一方、想定外の生成結果に対する制御が困難である。その理由は、機械学習によって得られる入出力の依存関係を明確化することは困難であり、学習プロセスも複雑であるため、意図通りに生成画像IMを修正することが現実的にできないからである。また、学習プロセスを制御できないため、特定の入力結果に対する処理結果が誤っていたとしても、特定の入力だけを修正することも困難である。
 図5には、同一人物の顔画像を参考画像IMとして用いる超解像ネットワークSRNが示されている。この種の超解像ネットワークSRNは、非特許文献1に開示されている。超解像ネットワークSRNは、参考画像IMの特徴情報を用いて、超解像処理に用いるパラメータの一部を動的に調整する。これにより、参考画像IMに近い人相の画像が生成される。しかし、参考画像IMと出力結果との因果関係は深層学習によって取得されるため、全ての場合で完全に一致する人相が生成されるわけではない。よって、超解像ネットワークSRNを用いても、人相の変化を完全に抑制することはできない。
 そこで、本開示では、上述の問題を解決する新たな手法を提案する。本開示の情報処理装置IPは、超解像処理される前と後の人相一致度を算出し、算出された人相一致度に基づいて超解像ネットワークSRNの生成力を調整する。この構成によれば、生成画像IMの人相が超解像処理にフィードバックされる。そのため、超解像処理に起因した人相の変化が生じにくい。
 情報処理装置IPは、古い映像素材(映画や写真など)の高画質化および高効率の映像の圧縮・伝送システム(ビデオ電話、オンライン会議、ライブ映像の中継、映像コンテンツのネット配信)などに用いることができる。映画や写真を高画質化する場合には、被写体の顔について高い再現性が求められるため、本開示の手法が好適に採用される。映像の圧縮・伝送システムでは、元映像の情報が大幅に削減されるため、復元時に人相変化が生じやすい。本開示の手法を用いれば、このような弊害が回避される。
 以下、情報処理装置IPの実施形態について詳細に説明する。
[2.第1実施形態]
[2-1.情報処理装置の構成]
 図6は、第1実施形態の情報処理装置IP1の構成を示す図である。
 情報処理装置IP1は、超解像技術を用いて入力画像IMから高解像度な生成画像IMを復元する装置である。情報処理装置IP1は、超解像ネットワークSRN、人相判断ネットワークPNおよび生成力制御値算出部GCUを有する。
 超解像ネットワークSRNは、入力画像IMを超解像処理して生成画像IMを生成する。超解像ネットワークSRNは、超解像処理の生成力を複数段階で変更可能である。例えば、超解像ネットワークSRNは、生成力レベルLVの異なる複数のGANのジェネレータGEを含む。図6の例では、4つのジェネレータGE(生成力レベルLV=0~3)が学習済みデータベースに保持されているが、ジェネレータGEの数は4つに限られない。ジェネレータGEの数は2以上であればよい。
 複数のジェネレータGEは、同一のニューラルネットワークを用いて生成される。複数のジェネレータGEは、ニューラルネットワークを最適化する際に用いるパラメータが互いに異なっている。最適化に用いるパラメータが異なることにより、各ジェネレータGEの生成力レベルLVに差が生じている。
 超解像ネットワークSRNは、入力画像IMの被写体と同一人物の顔画像を人相基準画像IMPRとして取得してもよい。超解像ネットワークSRNは、人相基準画像IMPRの特徴情報を用いて入力画像IMの超解像処理を行うことができる。人相基準画像IMPRは、人相を調整するための参考画像IMとして用いられる。例えば、超解像ネットワークSRNは、人相基準画像IMPRの特徴情報を用いて、超解像処理に用いるパラメータの一部を動的に調整する。これにより、人相基準画像IMPRに近い人相の生成画像IMが得られる。人相基準画像IMPRを用いた人相調整の手法としては、非特許文献1などに記載の公知の手法が用いられる。
 人相判断ネットワークPNは、超解像処理される前の入力画像IMと超解像処理された後の入力画像IMの人相一致度DCを算出する。人相判断ネットワークPNは、顔認識を行うニューラルネットワークである。人相判断ネットワークPNは、例えば、生成画像に含まれる人物の顔と、人相基準画像に含まれる同一人物の顔と、の類似度を人相一致度DCとして算出する。類似度の算出は、特徴点マッチングなどを用いた公知の顔認識技術を用いて行われる。
 超解像ネットワークSRNは、超解像処理の生成力を人相一致度DCに基づいて調整する。例えば、超解像ネットワークSRNは、生成力レベルLVの異なる複数のジェネレータGEから、人相一致度DCが許容基準を満たすジェネレータGEを選択して用いる。超解像ネットワークSRNは、生成力レベルLVの高いジェネレータGEから順に、人相一致度DCが許容基準を満たすか否かを判定する。超解像ネットワークSRNは、最初に許容基準を満たすと判定されたジェネレータGEを選択して用いる。
 生成力制御値算出部GCUは、人相一致度DCに基づいて生成力制御値CVを算出する。生成力制御値CVは、現在の生成力レベルLVからの下げ幅を示す。下げ幅は、人相一致度DCが低いほど大きい。超解像ネットワークSRNは、生成力制御値CVに基づいて生成力レベルLVを算出する。超解像ネットワークSRNは、算出された生成力レベルLVに応じたジェネレータGEを用いて超解像処理を行う。
 図7は、人相一致度DCと生成力制御値CVとの関係の一例を示す図である。
 図7の例では、許容基準として、閾値T、閾値Tおよび閾値T(閾値T<閾値T<閾値T)が設定されている。例えば、人相一致度DCが閾値Tよりも小さい場合には、生成力制御値CVは(-3)に設定される。人相一致度DCが閾値T以上で且つ閾値Tよりも小さい場合には、生成力制御値CVは(-2)に設定される。人相一致度Dが閾値T以上で且つ閾値Tよりも小さい場合には、生成力制御値CVは(-1)に設定される。人相一致度DCが閾値T以上である場合には、生成力制御値CVは0に設定される。人相一致度DCに応じて生成力レベルLVの下げ幅が段階的に設定されることで、適切なジェネレータGEが素早く検出される。
[2-2.情報処理方法]
 図8は、情報処理装置IP1の情報処理の一例を示すフローチャートである。
 ステップST1において、超解像ネットワークSRNは、生成力レベルLVが最大のジェネレータGEを選択する。ステップST2において、超解像ネットワークSRNは、選択したジェネレータGEを用いて超解像処理を実施する。
 ステップST3において、超解像ネットワークSRNは、現在選択しているジェネレータGEの生成力レベルLVが最小であるか否かを判定する。ステップST3において生成力レベルLVが最小であると判定された場合には(ステップST3:yes)、超解像ネットワークSRNは、現在選択しているジェネレータGEを継続して使用する。
 ステップST3において生成力レベルLVが最小ではないと判定された場合には(ステップST3:no)、ステップST4に進む。ステップST4において、人相判断ネットワークPNは、生成画像IMと人相基準画像IMPRとを用いて人相一致度DCを算出し、人相判断を行う。
 ステップST5において、生成力制御値算出部GCUは人相一致度DCが閾値T以上であるか否かを判定する。ステップST5において人相一致度DCが閾値T以上であると判定された場合には(ステップST5:yes)、生成力制御値算出部GCUは、生成力制御値CVを0に設定する。超解像ネットワークSRNは、現在選択しているジェネレータGEを継続して使用する。
 ステップST5において人相一致度DCが閾値Tよりも小さいと判定された場合には(ステップST5:no)、ステップST6に進む。ステップST6において、生成力制御値算出部GCUは、人相一致度DCに応じた生成力制御値CVを算出する。ステップST7において、超解像ネットワークSRNは、生成力制御値CVによって特定される生成力レベルLVのジェネレータGEを選択する。そして、ステップST2に戻り、超解像ネットワークSRNは、変更後の生成力レベルLVを持つジェネレータGEを用いて超解像処理を実施する。その後、上述の処理が繰り返される。
[2-3.学習方法]
 図9は、超解像ネットワークSRNの学習方法の一例を示す図である。
 超解像ネットワークSRNは、生徒画像IMと生成画像IMとを用いて機械学習した複数のGANのジェネレータGEを含む。生徒画像IMは、教師画像IMを低解像度化した機械学習用の入力データである。生成画像IMは、生徒画像IMを超解像処理した出力データである。教師画像IMには、様々な人物の顔画像が用いられる。
 GANのジェネレータGEでは、生成画像IMと教師画像IMとの差分が小さくなるように機械学習が行われる。GANのディスクリミネータDIでは、教師画像IMを入力したときの識別値が0となり、生徒画像IMを入力したときの識別値が1となるように機械学習が行われる。生成画像IMと教師画像IMからは、それぞれ物体認識ネットワークORNによって特徴量Cが抽出される。物体認識ネットワークORNは、画像の特徴量Cを抽出する学習済みのニューラルネットワークである。ジェネレータGEでは、生成画像IMの特徴量Cと教師画像IMの特徴量Cとの差分が小さくなるように機械学習が行われる。
 例えば、教師画像IMと生成画像IMとの画素ごとの差分値をD1とする。ディスクリミネータDIの識別値をD2とする。教師画像IMと生成画像IMとの特徴量Cの差分値をD3とする。差分値D1の重みをw1とする。識別値D2の重みをw2とする。差分値D3の重みをw3とする。各GANでは、差分値D1、識別値D2および差分値D3の重み付き和(w1×D1+w2×D2+w3×D3)が最小となるように機械学習が行われる。重みw1、重みw2および重みw3の比率はGANごとに異なる。
 GANは、広く知られたCNN(Convolutional Neural Network)であり、上述した3つの値(差分値D1、識別値D2、差分値D3)の重み付き和を最小化させて学習を行う。3つの重みw1,w2,w3は、学習に用いるCNNおよび学習データセットなどによって最適値が変化する。通常は最大の生成力を得るために最適な1組の値が用いられるが、本開示では、3つの重みw1,w2,w3を変化させることで、同一のCNNを用いながら、段階的に生成力の異なる学習結果が得られる。
 図10は、生成力レベルLVに対応した重みw1,w2,w3の組み合わせの一例を示す図である。
 GANを用いた代表的な超解像処理用CNNとして、ESRGAN(Enhanced Super-Resolution Generative Adversarial Networks)が知られている。ESRGANについては、下記[1]に記載がある。
[1]Xintao Wang,Ke Yu,Shixiang Wu,Jinjin Gu,Yihao Liu,Chao Dong,Yu Qiao,Chen Change Loy,“ESRGAN:Enhanced Super-Resolution Generative Adversarial Networks”,Published in ECCV Workshops 2018
 例えば、本開示では、ESRGANのジェネレータGEが超解像ネットワークSRNに適用される。生成力レベルLVが高いジェネレータGEほど、重みw1に対する重みw2および重みw3の比率が高い。生成力レベルLVが低いジェネレータGEほど、重みw1に対する重みw2および重みw3の比率が低い。
 図10の例では、w1=1.0、w2=0、w3=0のときに生成力レベル=0のジェネレータGEが得られる。w1=0.1、w2=0.05、w3=0.1のときに生成力レベル=1のジェネレータGEが得られる。w1=0.01、w2=0.05、w3=0.1のときに生成力レベル=2のジェネレータGEが得られる。w1=0.01、w2=0.05、w3=1.0のときに生成力レベル=3のジェネレータGEが得られる。
 なお、ニューラルネットワークの構成、学習データセットの画像数、画像の内容、その他CNNの学習率などの条件によって重みw1,w2,w3の値は変化し得る。異なる重みの値の組み合わせでも、同一条件下で学習結果が最適値に収束することもある。
[2-4.効果]
 情報処理装置IP1は、人相判断ネットワークPNと超解像ネットワークSRNとを有する。人相判断ネットワークPNは、超解像処理される前の入力画像IMと超解像処理された後の入力画像IMの人相一致度DCを算出する。超解像ネットワークSRNは、超解像処理の生成力を人相一致度DCに基づいて調整する。本開示の情報処理方法は、情報処理装置IP1の処理がコンピュータ1000(図14参照)により実行される。本開示のプログラム(プログラムデータ1450:図14参照)は、情報処理装置IP1の処理をコンピュータ1000に実現させる。
 この構成によれば、超解像処理の前と後の人相の変化に基づいて超解像ネットワークSRNの生成力が調整される。よって、超解像処理に起因した人相の変化が抑制される。
 超解像ネットワークSRNは、生成力レベルLVの異なる複数のジェネレータGEから、人相一致度DCが許容基準を満たすジェネレータGEを選択して用いる。
 この構成によれば、ジェネレータGEの選択によって超解像ネットワークSRNの生成力が調整される。
 超解像ネットワークSRNは、教師画像IMを低解像度化した生徒画像IMと、生徒画像IMを超解像処理した生成画像IMと、を用いて機械学習した複数のGANのジェネレータGEを含む。教師画像IMと生成画像IMとの画素ごとの差分値をD1とし、GANのディスクリミネータDIの識別値をD2とし、教師画像IMと生成画像IMとの特徴量Cの差分値をD3とし、差分値D1の重みをw1とし、識別値D2の重みをw2とし、差分値D3の重みをw3とする。各GANでは、差分値D1、識別値D2および差分値D3の重み付き和(w1×D1+w2×D2+w3×D3)が最小となるように機械学習が行われる。重みw1、重みw2および重みw3の比率はGANごとに異なる。
 この構成によれば、各ジェネレータGEのニューラルネットワークを共通化することができる。また、各ジェネレータGEの生成力を重みw1、重みw2および重みw3の比率によって容易に制御することができる。
 超解像ネットワークSRNは、生成力レベルLVの高いジェネレータGEから順に、人相一致度が許容基準を満たすか否かを判定する。超解像ネットワークSRNは、最初に許容基準を満たすと判定されたジェネレータGEを選択して用いる。
 この構成によれば、許容可能な最大の生成力を持つジェネレータGEが選択される。
 情報処理装置IP1は、生成力制御値算出部GCUを有する。生成力制御値算出部GCUは、人相一致度DCに基づいて、現在の生成力レベルLVからの下げ幅を示す生成力制御値CVを算出する。下げ幅は、人相一致度DCが低いほど大きい。
 この構成によれば、適切なジェネレータGEが素早く検出される。
 超解像ネットワークSRNは、人相基準画像IMPRの特徴情報を用いて入力画像IMの超解像処理を行う。
 この構成によれば、超解像処理の前と後の人相一致度DCが高まる。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
[3.第2実施形態]
[3-1.情報処理装置の構成]
 図11は、第2実施形態の情報処理装置IP2の構成を示す図である。
 本実施形態において第1実施形態と異なる点は、超解像ネットワークSRNの生成力が人相基準画像IMPRの切り替えによって調整される点である。以下、第1実施形態との相違点を中心に説明する。
 第1実施形態では、人相一致度DCに基づいて複数のジェネレータGEが切り替えて用いられた。しかし、本実施形態で、使用されるジェネレータGEの数は1つのみである。超解像ネットワークSRNは、人相基準画像IMPRの特徴情報を用いて入力画像IMの超解像処理を行う。超解像ネットワークSRNは、参考画像群RGに含まれる複数の参考画像IMから、人相一致度DCが許容基準を満たす参考画像IMを人相基準画像IMPRとして選択する。
 参考画像群RGは、情報処理装置IP2の内部または外部にある画像データから取得される。例えば、入力画像IMに写る人物が著名人である場合には、インターネットなどから、対象となる人物の人相を特定可能な複数の参考画像IM(参考画像群RG)が取得される。入力画像IMが過去映像(映画など)のあるシーンの画像である場合には、同一映像内の別シーンの顔のアップのシーンから参考画像IMとなりうる画像群が抽出される。入力画像IMに写る人物が情報処理装置IP2のユーザであり、且つ、情報処理装置IP2がスマートフォンなどのカメラ機能を持った機器である場合には、情報処理装置IP2に保存された写真データから参考画像IMとなりうる画像群が抽出される。
 参考画像群RRGからは、人相判断に適した参考画像IMから順に人相基準画像IMPRとして選択される。超解像ネットワークSRNは、複数の参考画像IMに対して優先順位を決定し、優先順位にしたがって各参考画像IMを人相基準画像IMPRとして選択していく。例えば、超解像ネットワークSRNは、被写体の顔の姿勢、大きさおよび位置が入力画像IMと近い参考画像IMから順に、人相一致度DCが許容基準を満たすか否かを判定する。超解像ネットワークSRNは、最初に許容基準を満たすと判定された参考画像IMを人相基準画像IMPRとして選択する。これにより、許容可能な最大の生成力によって超解像処理が実施される。
 図12は、顔の姿勢、大きさおよび位置の比較方法の一例を示す図である。
 超解像ネットワークSRNでは、左右の目、眉、鼻、上下の唇および下顎などが、比較の対象となる顔パーツとして予め設定されている。超解像ネットワークSRNは、入力画像IMと参考画像IMからそれぞれ顔パーツの輪郭線上の各点の座標を抽出する。顔パーツの検出は、例えば下記[2]に示す公知の顔認識技術を用いて行われる。
[2]Kazemi,V.,&Josephine,S.“One Millisecond Face Alignment with an Ensemble of Regression Trees. Computer Vision and Pattern Recognition (CVPR)”, 2014
 超解像ネットワークSRNは、対応点マッチングなどの手法を用いて、入力画像IMと参考画像IMの互いに対応する点(対応点)を抽出する。超解像ネットワークSRNは、入力画像IMと参考画像IMの対応点どうしの座標の差分の絶対値の和が小さい参考画像IMほど優先順位を高くする。これにより、適切な人相基準画像IMPRが素早く検出される。図12の例では、参考画像IMRAのほうが参考画像IMRBよりも顔パーツの姿勢が入力画像IMに近い。そのため、参考画像IMRAの優先順位が参考画像IMRBよりも高く設定される。
[3-2.情報処理方法]
 図13は、情報処理装置IP2の情報処理の一例を示すフローチャートである。
 ステップST11において、超解像ネットワークSRNは、参考画像群RGから優先順位に応じた1つの参考画像IMを人相基準画像IMPRとして選択する。ステップST12において、超解像ネットワークSRNは、選択した参考画像IMの特徴情報を用いて超解像処理を実施する。
 ステップST13において、超解像ネットワークSRNは、人相基準画像IMPRとして選択された現在の参考画像IMが優先順位に応じた最後の参考画像IMであるか否かを判定する。ステップST13において現在の参考画像IMが最後の参考画像IMであると判定された場合には(ステップST13:yes)、超解像ネットワークSRNは、現在選択している参考画像IMを人相基準画像IMPRとして継続して使用する。
 ステップST13において現在の参考画像IMが最後の参考画像IMではないと判定された場合には(ステップST13:no)、ステップST14に進む。ステップST14において、超解像ネットワークSRNは、生成画像IMと現在選択している参考画像IMとを用いて人相一致度DCを算出し、人相判断を行う。
 ステップST15において、超解像ネットワークSRNは人相一致度DCが閾値T以上であるか否かを判定する。ステップST15において人相一致度DCが閾値T以上であると判定された場合には(ステップST15:yes)、超解像ネットワークSRNは、現在選択している参考画像IMを人相基準画像IMPRとして継続して使用する。
 ステップST15において人相一致度DCが閾値Tよりも小さいと判定された場合には(ステップST15:no)、ステップST16に進む。ステップST16において、超解像ネットワークSRNは、優先順位にしたがってまだ選択されていない参考画像IMを人相基準画像IMPRとして選択する。そして、ステップST12に戻り、超解像ネットワークSRNは、新たに選択した参考画像IMを用いて超解像処理を実施する。その後、上述の処理が繰り返される。
[3-3.効果]
 本実施形態の超解像ネットワークSRNは、複数の参考画像IMから、人相一致度DCが許容基準を満たす参考画像IMを人相基準画像IMPRとして選択する。この構成によれば、人相基準画像IMPRの選択に応じて超解像ネットワークSRNの生成力が調整される。そのため、超解像処理に起因した人相の変化が抑制される。
[4.ハードウェア構成例]
 図14は、情報処理装置IPのハードウェア構成例を示す図である。例えば情報処理装置IPは、コンピュータ1000によって実現される。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インタフェース1500、及び入出力インタフェース1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インタフェース1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインタフェースである。例えば、CPU1100は、通信インタフェース1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インタフェース1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインタフェースである。例えば、CPU1100は、入出力インタフェース1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インタフェース1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インタフェース1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインタフェースとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が情報処理装置IPとして機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、超解像処理のための各種の機能を実現する。また、HDD1400には、コンピュータを情報処理装置IPとして機能させるためのプログラムが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
[付記]
 なお、本技術は以下のような構成も取ることができる。
(1)
 超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出する人相判断ネットワークと、
 前記超解像処理の生成力を前記人相一致度に基づいて調整する超解像ネットワークと、
 を有する情報処理装置。
(2)
 前記超解像ネットワークは、生成力レベルの異なる複数のジェネレータから、前記人相一致度が許容基準を満たすジェネレータを選択して用いる、
 上記(1)に記載の情報処理装置。
(3)
 前記超解像ネットワークは、教師画像を低解像度化した生徒画像と、前記生徒画像を超解像処理した生成画像と、を用いて機械学習した複数のGANのジェネレータを含み、
 前記教師画像と前記生成画像との画素ごとの差分値をD1とし、前記GANのディスクリミネータの識別値をD2とし、前記教師画像と前記生成画像との特徴量の差分値をD3とし、前記差分値D1の重みをw1とし、前記識別値D2の重みをw2とし、前記差分値D3の重みをw3とすると、
 各GANでは、前記差分値D1、前記識別値D2および前記差分値D3の重み付き和(w1×D1+w2×D2+w3×D3)が最小となるように機械学習が行われ、
 前記重みw1、前記重みw2および前記重みw3の比率はGANごとに異なる、
 上記(2)に記載の情報処理装置。
(4)
 前記超解像ネットワークは、前記生成力レベルの高いジェネレータから順に、前記人相一致度が前記許容基準を満たすか否かを判定し、最初に前記許容基準を満たすと判定された前記ジェネレータを選択して用いる、
 上記(2)または(3)に記載の情報処理装置。
(5)
 前記人相一致度に基づいて、現在の前記生成力レベルからの下げ幅を示す生成力制御値を算出する生成力制御値算出部を有し、
 前記下げ幅は、前記人相一致度が低いほど大きい、
 上記(2)ないし(4)のいずれか1つに記載の情報処理装置。
(6)
 前記超解像ネットワークは、人相基準画像の特徴情報を用いて前記入力画像の超解像処理を行う、
 上記(2)ないし(5)のいずれか1つに記載の情報処理装置。
(7)
 前記超解像ネットワークは人相基準画像の特徴情報を用いて前記入力画像の超解像処理を行い、
 前記超解像ネットワークは、複数の参考画像から、前記人相一致度が許容基準を満たす参考画像を前記人相基準画像として選択する、
 上記(1)に記載の情報処理装置。
(8)
 前記超解像ネットワークは、被写体の顔の姿勢、大きさおよび位置が前記入力画像と近い参考画像から順に、前記人相一致度が前記許容基準を満たすか否かを判定し、最初に前記許容基準を満たすと判定された前記参考画像を前記人相基準画像として選択する、
 上記(7)に記載の情報処理装置。
(9)
 前記超解像ネットワークは、前記入力画像と前記参考画像からそれぞれ顔パーツの輪郭線上の各点の座標を抽出し、前記入力画像と前記参考画像の対応点どうしの前記座標の差分の絶対値の和が小さい前記参考画像ほど優先順位を高くする、
 上記(8)に記載の情報処理装置。
(10)
 超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出し、
 前記超解像処理の生成力を前記人相一致度に基づいて調整する、
 ことを有する、コンピュータにより実行される情報処理方法。
(11)
 超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出し、
 前記超解像処理の生成力を前記人相一致度に基づいて調整する、
 ことをコンピュータに実現させるプログラム。
C 特徴量
CV 生成力制御値
D1,D3 差分値
D2 識別値
DC 人相一致度
DI ディスクリミネータ
GCU 生成力制御値算出部
GE ジェネレータ
IM 生成画像
IM 入力画像
IMPR 人相基準画像
IM 参考画像
IM 生徒画像
IM 教師画像
IP,IP1,IP2 情報処理装置
LV 生成力レベル
PN 人相判断ネットワーク
SRN,SRN,SRN 超解像ネットワーク
w1、w2、w3 重み

Claims (11)

  1.  超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出する人相判断ネットワークと、
     前記超解像処理の生成力を前記人相一致度に基づいて調整する超解像ネットワークと、
     を有する情報処理装置。
  2.  前記超解像ネットワークは、生成力レベルの異なる複数のジェネレータから、前記人相一致度が許容基準を満たすジェネレータを選択して用いる、
     請求項1に記載の情報処理装置。
  3.  前記超解像ネットワークは、教師画像を低解像度化した生徒画像と、前記生徒画像を超解像処理した生成画像と、を用いて機械学習した複数のGANのジェネレータを含み、
     前記教師画像と前記生成画像との画素ごとの差分値をD1とし、前記GANのディスクリミネータの識別値をD2とし、前記教師画像と前記生成画像との特徴量の差分値をD3とし、前記差分値D1の重みをw1とし、前記識別値D2の重みをw2とし、前記差分値D3の重みをw3とすると、
     各GANでは、前記差分値D1、前記識別値D2および前記差分値D3の重み付き和(w1×D1+w2×D2+w3×D3)が最小となるように機械学習が行われ、
     前記重みw1、前記重みw2および前記重みw3の比率はGANごとに異なる、
     請求項2に記載の情報処理装置。
  4.  前記超解像ネットワークは、前記生成力レベルの高いジェネレータから順に、前記人相一致度が前記許容基準を満たすか否かを判定し、最初に前記許容基準を満たすと判定された前記ジェネレータを選択して用いる、
     請求項2に記載の情報処理装置。
  5.  前記人相一致度に基づいて、現在の前記生成力レベルからの下げ幅を示す生成力制御値を算出する生成力制御値算出部を有し、
     前記下げ幅は、前記人相一致度が低いほど大きい、
     請求項2に記載の情報処理装置。
  6.  前記超解像ネットワークは、人相基準画像の特徴情報を用いて前記入力画像の超解像処理を行う、
     請求項2に記載の情報処理装置。
  7.  前記超解像ネットワークは人相基準画像の特徴情報を用いて前記入力画像の超解像処理を行い、
     前記超解像ネットワークは、複数の参考画像から、前記人相一致度が許容基準を満たす参考画像を前記人相基準画像として選択する、
     請求項1に記載の情報処理装置。
  8.  前記超解像ネットワークは、被写体の顔の姿勢、大きさおよび位置が前記入力画像と近い参考画像から順に、前記人相一致度が前記許容基準を満たすか否かを判定し、最初に前記許容基準を満たすと判定された前記参考画像を前記人相基準画像として選択する、
     請求項7に記載の情報処理装置。
  9.  前記超解像ネットワークは、前記入力画像と前記参考画像からそれぞれ顔パーツの輪郭線上の各点の座標を抽出し、前記入力画像と前記参考画像の対応点どうしの前記座標の差分の絶対値の和が小さい前記参考画像ほど優先順位を高くする、
     請求項8に記載の情報処理装置。
  10.  超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出し、
     前記超解像処理の生成力を前記人相一致度に基づいて調整する、
     ことを有する、コンピュータにより実行される情報処理方法。
  11.  超解像処理される前の入力画像と前記超解像処理された後の前記入力画像の人相一致度を算出し、
     前記超解像処理の生成力を前記人相一致度に基づいて調整する、
     ことをコンピュータに実現させるプログラム。
PCT/JP2022/002081 2021-06-23 2022-01-21 情報処理装置、情報処理方法およびプログラム WO2022269963A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023529460A JPWO2022269963A1 (ja) 2021-06-23 2022-01-21

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021103775 2021-06-23
JP2021-103775 2021-06-23

Publications (1)

Publication Number Publication Date
WO2022269963A1 true WO2022269963A1 (ja) 2022-12-29

Family

ID=84543794

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/002081 WO2022269963A1 (ja) 2021-06-23 2022-01-21 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2022269963A1 (ja)
WO (1) WO2022269963A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010286959A (ja) * 2009-06-10 2010-12-24 Nippon Telegr & Teleph Corp <Ntt> 顔画像高解像度化方法、顔画像高解像度化装置、及びそのプログラム
JP2020504386A (ja) * 2017-01-12 2020-02-06 日本電気株式会社 情報処理装置、情報処理方法及びプログラム
CN111709878A (zh) * 2020-06-17 2020-09-25 北京百度网讯科技有限公司 人脸超分辨率实现方法、装置、电子设备及存储介质
JP2021135822A (ja) * 2020-02-27 2021-09-13 ブラザー工業株式会社 画像生成方法、システム、および、コンピュータプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010286959A (ja) * 2009-06-10 2010-12-24 Nippon Telegr & Teleph Corp <Ntt> 顔画像高解像度化方法、顔画像高解像度化装置、及びそのプログラム
JP2020504386A (ja) * 2017-01-12 2020-02-06 日本電気株式会社 情報処理装置、情報処理方法及びプログラム
JP2021135822A (ja) * 2020-02-27 2021-09-13 ブラザー工業株式会社 画像生成方法、システム、および、コンピュータプログラム
CN111709878A (zh) * 2020-06-17 2020-09-25 北京百度网讯科技有限公司 人脸超分辨率实现方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG TING-CHUN, LIU MING-YU, TAO ANDREW, LIU GUILIN, KAUTZ JAN, CATANZARO BRYAN: "Few-shot Video-to-Video Synthesis", NEURIPS, 2019, 28 October 2019 (2019-10-28), XP055882323, Retrieved from the Internet <URL:https://arxiv.org/pdf/1910.12713.pdf> [retrieved on 20220121] *

Also Published As

Publication number Publication date
JPWO2022269963A1 (ja) 2022-12-29

Similar Documents

Publication Publication Date Title
US11410457B2 (en) Face reenactment
CN106682632B (zh) 用于处理人脸图像的方法和装置
WO2018096661A1 (ja) 画像生成装置、顔照合装置、画像生成方法、およびプログラムを記憶した記憶媒体
KR101725808B1 (ko) 얼굴 영상의 얼굴 나이 변환 방법 및 그 장치
JPH0962865A (ja) 顔画像処理方法および顔画像処理装置
US20200210688A1 (en) Image data processing system and method
TW201810178A (zh) 臉部影像處理系統、臉部影像處理方法、及臉部影像處理程式
Cornejo et al. Emotion recognition from occluded facial expressions using weber local descriptor
CN110910512B (zh) 虚拟物体自适应调整方法、装置、计算机设备和存储介质
Organisciak et al. Makeup style transfer on low-quality images with weighted multi-scale attention
WO2023273247A1 (zh) 人脸图像处理方法及装置、计算机可读存储介质、终端
WO2022269963A1 (ja) 情報処理装置、情報処理方法およびプログラム
Luo et al. Multi-exposure image fusion via deformable self-attention
Zhang et al. A skin color model based on modified GLHS space for face detection
Deepa et al. Age estimation in facial images using histogram equalization
JP7218769B2 (ja) 画像生成装置、画像生成方法、およびプログラム
CN114677312A (zh) 基于深度学习的脸部视频合成方法
CN111061914B (zh) 一种基于人脸识别技术选取特定人脸视频片段的方法
Li et al. Wavenhancer: Unifying wavelet and transformer for image enhancement
WO2011152842A1 (en) Face morphing based on learning
Tang et al. Parametric reshaping of portraits in videos
JP2004054759A (ja) 表情変形装置、方法及びプログラム
CN111415397A (zh) 一种人脸重构、直播方法、装置、设备及存储介质
Ren et al. A New Makeup Transfer with Super-resolution.
Ye et al. Coherence and identity learning for arbitrary-length face video generation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22827887

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023529460

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18569745

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE